Proposition de stage - 2022
Génération automatique de hashtags pour des messages textuels courts issus de Twitter
Niveau : Master 2
Équipe : TALN – Traitement Automatique du Langage Naturel
Durée : 6 mois – Début : Février 2022
Salaire : 600 euros/mois environ
Profil du candidat : Le stage proposé correspond à un profil bac+5 (Master 2 ou équivalent). Il doit maîtriser au moins un langage de programmation objet courant (Java, C++…) et un langage de script (Python, Perl…). En outre, des cours ou expériences liés au sujet (traitement automatique de langage, fouille de données, apprentissage automatique, réseaux complexes…) seraient appréciés.
Résumé du stage :
L’objectif du stage est de proposer des approches originales permettant de générer automatiquement des hashtags sur un message (ici, tweet) à partir de son contenu textuel et des méta-données associées. Il s’agira de mettre l’accent sur la capacité du système à produire des hashtags complémentaires au texte, c.-à-d. qui n’existent pas directement dans le contenu textuel. Afin de mener à bien les expériences, un corpus a déjà été collecté et un premier système de type sequence-to-sequence (seq2seq) a également été mis en place. Globalement, trois sous-objectifs sont visés : 1) terminer et compléter l’évaluation du système seq2seq et en réaliser une étude qualitative, 2) compléter l’état de l’art sur le sujet de la génération de hashtags/mots-clés et proposer d’autres approches, 3) intégrer les méta-données des tweets au sein d’une architecture “multimodale” (i.e. qui intègrera ici les méta-données au contenu textuel).
Mots-clés :
Traitement automatique des Langues (TAL), Indexation, Apprentissage automatique, Enrichissement de documents, Réseaux sociaux, Métadonnées.
Les candidatures doivent être adressées à :
- Florian Boudin (florian.boudin@univ-nantes.fr)
- Richard Dufour (richard.dufour@univ-nantes.fr)
et doivent inclure :
- un CV détaillé (formation et expériences en recherche)
- les notes de Licence et de Master
- éventuellement un lien vers des réalisations personnelles si disponible (ex : github)