Home »

Proposition de stage - 2022

Génération automatique de hashtags pour des messages textuels courts issus de Twitter


Niveau : Master 2

Équipe : TALN – Traitement Automatique du Langage Naturel

Durée : 6 mois – Début : Février 2022

Salaire : 600 euros/mois environ

Profil du candidat : Le stage proposé correspond à un profil bac+5 (Master 2 ou équivalent). Il doit maîtriser au moins un langage de programmation objet courant (Java, C++…) et un langage de script (Python, Perl…). En outre, des cours ou expériences liés au sujet (traitement automatique de langage, fouille de données, apprentissage automatique, réseaux complexes…) seraient appréciés.

Résumé du stage :
L’objectif du stage est de proposer des approches originales permettant de générer automatiquement des hashtags sur un message (ici, tweet) à partir de son contenu textuel et des méta-données associées. Il s’agira de mettre l’accent sur la capacité du système à produire des hashtags complémentaires au texte, c.-à-d. qui n’existent pas directement dans le contenu textuel. Afin de mener à bien les expériences, un corpus a déjà été collecté et un premier système de type sequence-to-sequence (seq2seq) a également été mis en place. Globalement, trois sous-objectifs sont visés : 1) terminer et compléter l’évaluation du système seq2seq et en réaliser une étude qualitative, 2) compléter l’état de l’art sur le sujet de la génération de hashtags/mots-clés et proposer d’autres approches, 3) intégrer les méta-données des tweets au sein d’une architecture “multimodale” (i.e. qui intègrera ici les méta-données au contenu textuel).

Mots-clés :
Traitement automatique des Langues (TAL), Indexation, Apprentissage automatique, Enrichissement de documents, Réseaux sociaux, Métadonnées.

Les candidatures doivent être adressées à :

et doivent inclure :

  • un CV détaillé (formation et expériences en recherche)
  • les notes de Licence et de Master
  • éventuellement un lien vers des réalisations personnelles si disponible (ex : github)
Fiche descriptive :
Copyright : LS2N 2017 - Mentions Légales - 
 -