Proposition de stage - 2022

Prédiction de l’état mental d’un utilisateur de Twitter

Niveau : Master 2

Prédiction de l’état mental d’un participant d’une conversation écrite à l’aide d’émojis et d’adaptation au domaine

Encadrement : Nicolas Hernandez – Maître de Conférences / LS2N – Nantes Université

Lieu du stage : Laboratoire des Sciences du Numérique de Nantes (LS2N) – Équipe Traitement Automatique du Langage Naturel (TALN)

Durée : 5 mois – Début : Mars 2022

Salaire : 600 euros/mois environ

Profil recherché : Candidat.e de niveau bac+5 (Master 2, ingénieur ou équivalent) avec des

Des compétences solides en développement logiciel (python)
Une formation en Traitement Automatique des Langues, en Apprentissage Automatique, en Linguistique computationnelle, ou en Sciences des données/Fouille de texte
Des qualités d’expression orale et d’écriture (en français et en anglais)
Des capacités de travail en autonomie comme en équipe, un sens de l’organisation et une capacité de restitution
Des qualités relationnelles (accompagnement, collaboration)
Dynamique et curieux.se

Candidature : CV, lettre de motivation, derniers bulletins de notes à envoyer à nicolas.hernandez@univ-nantes.fr

Mots clefs : Traitement Automatique des Langues, Apprentissage profond, Fouille de texte, Adaptation au domaine, Analyse d’émotions, Emojis, Twitter

Description : Comprendre les intentions, désirs, croyances, … d’un intervenant au sein d’une conversation écrite est un problème difficile en l’absence d’information non verbale comme la modulation de la voix ou de l’expression du visage.

Dans ce contexte, l’exploitation des emojis comme un proxy de l’état mental d’une personne se révèle très prometteuse notamment de par leur présence en masse dans le médium textuel Twitter. Néanmoins leur exploitation n’est pas simple car un même emoji peut être associé à plusieurs catégories sémantiques, que parfois une catégorie n’est révélée que par l’assemblage de plusieurs emojis, que d’autres fois encore ils peuvent avoir des emplois à contre sens pour marquer par exemple de l’ironie. Outre le problème de la prédiction de l’émoji ou de la reconnaissance de la catégorie sémantique en présence, un second problème existe à savoir celui de la portabilité d’un modèle construit sur Twitter à un autre genre d’écrit pour lequel on ne possèderait pas de données annotées et qui ne serait pas forcément marqué par des emojis.

Objectif : Les objectifs de ce stage sont

1) de faire un état des performances et des limites d’un système de prédiction d’émotions construits à partir d’un corpus contenant des émojis
2) d’évaluer un tel système après adaptation sur un corpus cible non étiqueté de genre et de domaine différent.
3) compte tenu de l’avancement, l’étude pourra chercher à évaluer l’apport de la prise en compte de la structure dialogique des contextes d’expression des émotions ainsi qu’une configuration d’apprentissage avec de multiples tâches voisines (analyse de la polarité d’une opinion, de l’intensité d’une émotion, de la subjectivité d’un propos…).

L’étude portera sur des architectures classiques à base d’apprentissage profond (plongement de mots + Bi-LSTM, modèle de langage à base de Transformer) décrites dans la littérature. La recherche s’appuiera sur les données rendues disponibles ces dernières années au travers des campagnes d’évaluation SemEval.

Références

Ankush Chatterjee, Kedhar Nath Narahari, Meghana Joshi and Puneet Agrawal. SemEval-2019 Task 3: EmoContext Contextual Emotion Detection in Text. Proceedings of the 13th International Workshop on Semantic Evaluation, Minneapolis, Minnesota, USA, June, 2019
Saif Mohammad, Felipe Bravo-Marquez, Mohammad Salameh, Svetlana Kiritchenko. SemEval-2018 Task 1: Affect in Tweets. Proceedings of The 12th International Workshop on Semantic Evaluation, New Orleans, Louisiana, June, 2018
Francesco Barbieri, Miguel Ballesteros, Horacio Saggion. Are Emojis Predictable? Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, pages 105–111,Valencia, Spain, April 3-7, 2017.
Bjarke Felbo, Alan Mislove, Anders Søgaard, Iyad Rahwan, Sune Lehmann. Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 1615–1625Copenhagen, Denmark, September 7–11, 2017
Gaël Guibon. Recommandation automatique et adaptative d’émojis. PhD Thesis in Computer Sciences at Aix-Marseille University (AMU). 2019
Ankush Chatterjee, Umang Gupta, Manoj Kumar Chinnakotla, Radhakrishnan Srikanth, Michel Galley, and Puneet Agrawal. Understanding emotions in text using deep learning and big data. Computers in Human Behavior, 93:309–317, 2019.
Weicheng Ma, Ruibo Liu, Lili Wang, Soroush Vosoughi. Emoji Prediction: Extensions and Benchmarking. In Proceedings of the 9th KDD Workshop on Issues of Sentiment Discovery and Opinion Mining (WISDOM 20). San Diego, CA, USA, 2020
Abu Awal Md Shoeb, Gerard de Melo. EmoTag1200: Understanding the Association between Emojis and Emotions. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, pages 8957–8967,November 16–20, 2020.c© 2020 Association for Computational Linguistics
Gaël Guibon, Magalie Ochs, Patrice Bellot. From Emoji Usage to Categorical Emoji Prediction. 19thInternational Conference on Computational Linguistics and Intelligent Text Processing (CICLING2018), Mar 2018, Hanoï, Vietnam.
Weicheng Ma, Ruibo Liu, Lili Wang, Soroush Vosoughi. Multi-resolution Annotations for Emoji Prediction. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, pages 6684–6694, November 16–20, 2020.
Jean-Philippe Magué, Nathalie Rossi-Gensane et Pierre Halté, « De la segmentation dans les tweets : signes de ponctuation, connecteurs, émoticônes et émojis », Corpus, 20 | 2020
Suchin Gururangan, Ana Marasović, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey, Noah A. Smith. Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks. ACL, 2020
Ruder, Sebastian. Recent Advances in Language Model Fine-tuning. 2021
Ruder, Sebastian and Peters, Matthew E and Swayamdipta, Swabha and Wolf, Thomas. Transfer Learning in Natural Language Processing. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Tutorials, 2019

Nicolas Hernandez (nicolas.hernandez@univ-nantes.fr)

Proposition de stage - 2022

Prédiction de l’état mental d’un utilisateur de Twitter

Niveau : Master 2

Prédiction de l’état mental d’un participant d’une conversation écrite à l’aide d’émojis et d’adaptation au domaine

Partager ce contenu