Home » Évènement

Soutenance HDR de Florian Boudin

Florian Boudin, de l’équipe TALN, présentera sa soutenance HDR intitulée :

« Analyse et indexation de textes scientifiques »

Le 20.06.23 à 09h30 dans l’amphithéâtre du bâtiment 34 de l’UFR S&T

Composition du jury :

Rapporteurs : Antoine DOUCET PU, La Rochelle Université

Aurélie NÉVÉOLDR CNRS, LISN Paris-Saclay
Jacques SAVOY PU, Université de Neuchâtel

Examinateurs : Béatrice DAILLEPU, Nantes Université

Richard DUFOURPU, Nantes Université

Résumé : Les travaux présentés dans cette habilitation à diriger des recherches (HDR) ont pour objet l’analyse et l’indexation des textes scientifiques, et se situent à la croisée de deux thématiques de recherche : celle du Traitement Automatique des Langues (TAL) qui concerne l’analyse, la compréhension et la production de langage naturel, et celle de la Recherche d’Information (RI) qui étudie la manière de retrouver des informations dans une collection de documents. Nous nous intéressons à la problématique de la recherche bibliographique, c’est-à-dire la recherche de documents dans la littérature scientifique (e.g. articles, ouvrages, thèses) en rapport avec un sujet d’étude, et plus particulièrement à l’enrichissement des métadonnées associées aux documents pour en améliorer l’accessibilité et la diffusion.

Nos travaux concernent le développement de méthodes automatisées de génération de mots-clés dont la singularité réside dans l’utilisation de méthodes de graphes et d’algorithmes d’ordonnancement de sommets. Nous nous penchons sur la problématique de l’évaluation indirecte des mots-clés générés au travers de tâches applicatives et de leur exploitation dans les moteurs de recherche et de recommandation académique. Nous présentons les travaux que nous avons menés dans la construction de ressources langagières, le développement d’outils logiciels et leur valorisation dans la communauté scientifique. Nous terminons par quelques réflexions prospectives sur l’indexation par mots-clés et plus généralement sur les travaux de recherche émergeant de l’intersection des thématiques du TAL et de la RI.

Soutenance de thèse de Mérième Bouhandi

Mérième Bouhandi, doctorante de l’équipe TALN, soutiendra sa thèse intitulée « Amélioration endogène des modèles de langue : Application aux domaines de spécialité ».

Le 14.02.2023 dans l’amphitéâthe du bâtiment 34, UFR S&T.

Encadrement : Emmanuel Morin / Thierry Hamon (LISN)

Jury : Anne VILNAT (LISN) et Thierry CHARNOIS (LIPN)

Résumé : Aujourd’hui, le champ de recherche sur la modélisation de la langue a atteint une certaine maturité : plusieurs modèles de langue profonds sont disponibles sur plusieurs langues et dans plusieurs domaines. Les performances de ces modèles ont d’ailleurs nettement progressé ces dernières années. Cependant, un enjeu principal demeure : les méthodes et les techniques actuellement utilisées pour construire ou adapter ces modèles, telle l’adaptation fine ou fine-tuning, donnent la priorité au volume des données à partir desquelles ils sont construits. Dans le cas des domaines spécialisés, les corpus pour l’entraînement ou l’adaptation de ces modèles sont généralement de taille plus modeste, et ces méthodes se révèlent moins efficaces. Nous avançons ainsi que, dans le cas des petits corpus ou des domaines de spécialité peu dotés, une partie de la structure syntaxique et sémantique du texte n’est pas exploitée lors de l’adaptation fine. Ainsi, un travail d’adaptation au domaine s’avère donc nécessaire. Dans ce travail de thèse, nous proposons une méthode d’adaptation des modèles de langue profonds pour obtenir de meilleurs résultats sur des tâches de spécialité, en prenant compte des informations globales issues de graphes de vocabulaire. Nous réinjectons cette connaissance dans les modèles de langue profonds, améliorant les résultats sur un ensemble de tâches spécialisées. Afin d’évaluer notre méthode, nous menons des expériences sur plusieurs tâches de spécialité. Nous réalisons un premier ensemble d’expériences afin d’adapter nos modèles au domaine. Puis, nous réalisons un autre ensemble d’expériences pour effectuer des analyses quantitatives, montrant que les modèles de langue profonds peuvent bel et bien être adaptés au domaine en utilisant l’approche à base de graphes que nous proposons.

Soutenance de thèse de Victor CONNES

Victor CONNES, doctorant au sein de l’équipe TALN, soutiendra sa thèse intitulée : « Recommandation de ressources éducatives libres dans le projet X5GON »

Le 5 janvier 2023 à 14h dans l’amphi du bâtiment 34 sur le site de l’UFR S&T.

Jury :

Président : Jean-Cristophe Janodet, Professeur à l’université d’Ivry
Examinateurs :
- Marc Tommasi, Professeur à l’université de Lille
- Marie Lefèvre, Maîtres de conférences à l’Université Claude Bernard Lyon
- Elisa Fromont & Professeure à l’Université Rennes 1
Dir. de thèse : Colin DE LA HIGUERA, Professeur à Nantes Université
Co-dir. de thèse : Hoël LE CAPITAINE, Maître de conférences à Nantes Université

Résumé :

Ces dernières années, les pratiques d’apprentissage en ligne n’ont cessé de croitre et la pandémie mondiale du COVID-19 a encore accéléré cette tendance. Pour atteindre son objectif de développement durable numéro 4 : « l’éducation de qualité et tout au long de la vie » , l’UNESCO fait de l’apprentissage en ligne et des RELs (Ressources Educatives Libres), les aspects centraux de cette politique.
Dans un contexte où le nombre de ressources et d’utilisateurs est pléthorique, des algorithmes de recommandation de contenu semblent indispensables pour guider les apprenants à travers les ressources.
Néanmoins, l’emploi de la recommandation à des fins pédagogiques soulève des problématiques spécifiques non étudiées jusqu’alors.
De plus, le manque de jeux de données libres disponibles complexifie l’évaluation et la comparaison des approches ne permettant pas l’emploie de méthodes gourmandes en données qui paraissent pourtant les plus prometteuses.
Dans nos travaux, nous nous intéressons à la problématique de la recommandation à visée pédagogique à large-échelle et dans un contexte éducationnel non-formel où les données sont non structurées.
En particulier, nous explorerons la question d’un ordre satisfaisant de consultation des ressources ainsi que celle de mise à disposition de jeux de données libres pour cette tâche.

Soutenance de thèse de Ygor GALLINA (équipe TALN)

Ygor GALLINA, doctorant au sein de l’équipe TALN, soutiendra sa thèse, intitulée « Indexation de bout-en-bout dans les bibliothèques scientifiques numériques » / « End-to-end indexation in digital scientific libraries »

Le 28 mars 2022 à 9h30, dans l’amphithéâtre du bâtiment 34.

Jury :

Rapporteurs : Josiane MOTHE, Professeure, Université de Toulouse ; Patrick PAROUBEK Professeur, Université de Paris-Saclay

Examinateurs : Lorraine GOEURIOT, Maître de conférence, Université Grenoble Alpes ; Richard DUFOUR Professeur, Nantes Université

Directrice : Béatrice DAILLE, Professeure, Nantes Université

Encadrant : Florian BOUDIN, Maître de conférence, Nantes Université

Résumé : Le nombre de documents scientifiques dans les bibliothèques numériques ne cesse d’augmenter. Les mots-clés, permettant d’enrichir l’indexation de ces documents ne peuvent être annotés manuellement étant donné le volume de document à traiter. La production automatique de mots-clés est donc un enjeu important. Le cadre évaluatif le plus utilisé pour cette tâche souffre de nombreuses faiblesses qui rendent l’évaluation des nouvelles méthodes neuronales peu fiables. Notre objectif est d’identifier précisément ces faiblesses et d’y apporter des solutions selon trois axes. Dans un premier temps, nous introduisons KPTimes, un jeu de données du domaine journalistique. Il nous permet d’analyser la capacité de généralisation des méthodes neuronales. De manière surprenante, nos expériences montrent que le modèle le moins performant est celui qui généralise le mieux. Dans un deuxième temps, nous effectuons une comparaison systématique des méthodes états de l’art grâce à un cadre expérimental strict. Cette comparaison indique que les méthodes de référence comme TF×IDF sont toujours compétitives et que la qualité des mots-clés de référence a un impact fort sur la fiabilité de l’évaluation. Enfin, nous présentons un nouveau protocole d’évaluation extrinsèque basé sur la recherche d’information. Il nous permet d’évaluer l’utilité des mots-clés, une question peu abordée jusqu’à présent. Cette évaluation nous permet de mieux identifier les mots-clés importants pour la tâche de production automatique de mots-clés et d’orienter les futurs travaux.

Mot clés : indexation automatique, mots-clés, évaluation extrinsèque, recherche d’information, génération de mots-clés, méthodes de bout en bout

Abstract: More and more scientific documents are being avaible in digital libraries. Efficient indexing is of the utmost importance for ease of access to scientific knowledge. Keywords, that supplements this indexation, can’t be annotated manually given the volume of document to process. Automatic keyword production is then an important issue. The commonly used evaluation protocol has many weaknesses which make the evaluation of the recent neural models less reliable. Our goal is to precisely identify these weaknesses and to provide solutions given three axis. First, we introduce KPTimes, a dataset from the news domain. It will allow us to analyse the generalisation ability of neural models. Suprisingly, the least performant model is the most generalisable one. Then, we perform a systematic comparison of state-of-the-art methods using a strict experimental setup. This comparison shows that baselines such as TF×IDF are still competitive and that reference keywords quality have a strong impact on evaluation reliability. Finally, we introduce a new extrinsic evaluation protocol based on information retrieval. It allow us to evaluate keyphrase usefulness, an issue that has been given very little attention until now. This evaluation will help us better identify important keywords for automatic keyword production and to guide future works.

Keywords: automatic indexing, keywords, extrinsic evaluation, information retrieval, keyword generation, end-to-end method

Béatrice Daille (équipe TALN) est nommée membre d’honneur de la SIF en 2021 !

Posted on 25 janvier 202126 janvier 2021 by Laurence DRANT équipe TALN SIF

La Société informatique de France distingue chaque année des personnalités pour leur engagement dans la promotion de la discipline Informatique, que ce soit dans la société, l’enseignement, la recherche ou l’industrie. Ces personnalités sont «Membres d’honneur » de la SIF.

Cette année 2021, quatre personnalités ont été nommées membres d’honneur dont Béatrice Daille, professeure des Universités et membre de l’équipe TALN. Retrouvez son portrait sur le site de la SIF.

Félicitations à elle pour cette distinction !

La cérémonie de nomination 2021 se déroulera le 2 février 2021, lors du congrès annuel de la SIF qui aura lieu en ligne.

Journée du GDR TAL : « Intelligence artificielle et technologies des langues : l’ordinateur passe la barrière de la langue »

Le GDR TAL organise une journée grand public autour de l’IA et du traitement automatique de la langue, en présentiel au siège du CNRS et online sur https://webcast.in2p3.fr/live/gdr-tal

mardi 12 janvier 2021 de 9h30 à 16h30.

Cette journée propose un tour d’horizon des récentes avancées des technologies des langues pour des applications au cœur de notre société. Nous verrons comment est utilisée l’intelligence artificielle, en particulier les nouvelles approches exploitant les réseaux de neurones profonds, pour aider différents acteurs de la société : formateurs, journalistes, scientifiques, médecins, mais aussi le grand public.

Programme

9h30 Introduction, B. Daille, directrice du GdR TAL

9h45 Fouille de publications scientifiques sur le COVID, B. Favre

10h30 Ironie, sarcasme et sentiments : les algorithmes dans les subtilités de la langue, F. Benamara

11h15 pause

11h30 Mon ordinateur est-il un bon psy ? Le TAL au service du diagnostic médical, M. Amblard

12h15 La traduction automatique à l’heure des réseaux de neurones, F. Yvon

Repas

14h15 Le dialogue virtuel au service de la formation, M. Ochs

15h00 Quand la science-fiction inspire les technologies de la langue, F. Landragin

15h45 Les algorithmes à la chasse aux infox, V. Claveau

16 H 30 Fin

Consulter/télécharger la plaquette de la journée : Journée grand public GdR TAL 2021

La chaire UNESCO RELIA a désormais un compte Twitter !

Posted on 24 octobre 202024 octobre 2020 by Laurence DRANT chaire REL équipe TALN

La chaire Unesco pour la formation des enseignants par les ressources éducatives libres et l’Intelligence Artificielle, basée à l’Université de Nantes publie désormais des actualités sur https://twitter.com/Chaire_RELIA.

N’hésitez pas à vous abonner !

L’Université de Nantes organisera le congrès mondial Open Education Global en 2021. Félicitations à l’équipe de la chaire UNESCO REL pour son implication !

Posted on 5 octobre 20205 octobre 2020 by Laurence DRANT chaire REL équipe TALN

C’est décidé : l’édition 2021 de la conférence mondiale Open Education Global sera organisée par l’Université Nantes, sous la présidence de Carine Bernault et Colin de la Higuera.
Pendant 3 jours, des délégués de plusieurs dizaines de pays viendront discuter d’éducation ouverte.

Plus d’infos sur le blog de la chaire UNESCO REL.

Webinaire SNT Culture numérique : « Les réseaux sociaux »

Colin de la Higuera et Bastien Masse animeront le prochain webinaire sur les enjeux et les problématiques des réseaux sociaux

jeudi 15 octobre de 18h à 19h.

Pour plus d’informations, consultez : http://www.dane.ac-versailles.fr/s-inspirer-temoigner/les-reseaux-sociaux

NDW 2020 – Journée « IA et les ODDs »

La chaire UNESCO REL animera une journée sur l’intelligence artificielle et les objectifs de développement durable dans le cadre de la Nantes Digital Week,

mardi 22 septembre 2020 de 10h à 18h.

Les thèmes choisis pour cet événement sont les ODDs :

3 (Santé et bien-être),
8 (Accès à des emplois décents)
et 14 (Océans et mers).

Samuel Chaffron (équipe COMBI), Benoit Delahaye (équipe AeLoS), Damien Eveillard (équipe COMBI) et Diana Mateus (équipe SIMS) représenteront le labo au cours des tables rondes.

Programme détaillé sur https://chaireunescorel.ls2n.fr/2020/08/27/conference-en-ligne-ia-et-objectifs-de-developpement-durable/

En raison de la crise sanitaire, la journée se déroulera principalement à distance, grâce à une diffusion des débats en streaming sur le blog de la chaire. Un public d’une quinzaine de personnes participera à cet événement en présentiel.

Pour plus d’informations, le site officiel.

Archives