Sujet de thèse - 2021

Génération non-supervisée de mots-clés absents pour l’indexation d’articles scientifiques

Contexte

Les bibliothèques numériques occupent une place fondamentale dans l’organisation, la conservation et la mise à disposition des documents numériques. Avec l’accroissement rapide et continu du nombre de documents disponibles, la question de l’indexation, et plus généralement de la recherche de documents, revêt une dimension toute particulière. Cette question se pose avec d’autant plus d’acuité dans le monde scientifique où les bibliothèques numériques (p. ex. arXiv, PubMed, HAL), qui constituent aujourd’hui le point d’entrée principal au savoir scientifique, voient leur taille augmenter de façon exponentielle. Ainsi, les activités essentielles à la recherche scientifique que sont la recherche bibliographique ou la veille scientifique demandent une quantité de travail de plus en plus importante. Simplifier et faciliter l’accès aux articles scientifiques est plus que jamais un enjeu majeur pour la communauté scientifique, et fait naturellement l’objet d’une attention soutenue auprès des chercheurs et des industriels du secteur académique.

Les mots-clés, également appelés descripteurs dans la littérature scientifique, sont des mots ou expressions polylexicales qui décrivent les principaux sujets abordés dans un document. Ils donnent une vue synthétique et condensée du contenu d’un document et permettent d’enrichir l’indexation des articles scientifiques et, par ricochet, d’accroître l’efficacité des moteurs de recherche. Cependant, le coût prohibitif de l’annotation manuelle et son impractibilité à grande échelle font que seule une fraction des articles scientifiques sont pourvus de mots-clés. La génération automatique de mots-clés, problématique à la croisée de la Recherche d’Information (RI) et du Traitement Automatique des Langues (TAL), constitue une réponse à cet écueil et focalise actuellement l’attention de nombreux chercheurs.

Problématique

Malgré les performances plus élevées apportées par les architectures neuronales profondes, les modèles de génération de mots-clés atteignent toujours des scores de performance assez faibles. La principale raison derrière cela est leur incapacité à produire avec précision des mots-clés qui n’apparaissent pas dans le contenu des documents. Ces mots-clés, qualifiés d’absents, sont pourtant particulièrement utiles pour l’indexation et représentent environ la moitié des mots-clés attribuées manuellement. Ne pas générer ces mots-clés absents conduit nécessairement à des documents pertinents non retrouvés, empêchant ainsi une exploration approfondie du savoir scientifique.

L’objectif de cette thèse est d’apporter une solution à ce problème critique en exploitant les relations entre les articles scientifiques pour améliorer et enrichir l’indexation. Plus précisément, il s’agira d’exploiter les connaissances préalable du domaine issues de documents sémantiquement proches détectés automatiquement pour à la fois améliorer le schéma de pondération des mots-clés qui apparaissent dans les documents, et étendre l’indexation avec de nouveaux termes empruntés à des documents similaires. L’originalité de l’approche proposée est de s’appuyer sur un modèle d’ordonnancement de graphe qui permet une intégration simple et efficace des connaissances du domaine, au contraire des modèles neuronaux communément employés.

Profil

Nous recherchons un candidat avec une solide expérience en informatique et en apprentissage profond. Un intérêt pour le traitement automatique des langues, la recherche d’information ou l’intelligence artificielle est un plus. Une bonne programmation et des compétences en anglais sont attendues.

Directrice de thèse : Béatrice Daille (http://bdaille.com/)

Co-encadrant de thèse : Florian Boudin (http://florianboudin.org/)

Fiche descriptive :

Sujet de thèse - 2021

Génération non-supervisée de mots-clés absents pour l’indexation d’articles scientifiques

Contexte

Problématique

Profil

Partager ce contenu