Home »

Sujet de thèse - 2022

Offre de thèse CIFRE "Intégration de connaissances sémantiques dans une approche de plongement de graphe pour l’amélioration de graphes de connaissances"


Niveau : Master 2

Période : 3 ans

L’équipe DUKe (Data User Knowledge) du LS2N (Laboratoire des sciences du numérique de Nantes), UMR CNRS 6004 (https://www.ls2n.fr) et l’entreprise Chekk(https://www.chekk.me) lancent un appel à candidatures pour un poste de doctorant.e CIFRE dans le domaine des graphes des connaissances et l’apprentissage automatique.

Titre : Intégration de connaissances sémantiques dans une approche de plongement de graphe pour l’amélioration de la qualité de graphes de connaissances : application à la résolution d’entités.

Mots-clés : Résolution d’entités, Graphe de connaissances, Apprentissage automatique, Apprentissage profond, Plongement de graphe, Ontologie.

Contexte. Un nombre important d’informations portant sur des entités différentes et variées (personnes, organisations, objets…) sont disponibles sur le web dans le cadre du web sémantique et du web des données. Leur exploitation constitue une forte valeur ajoutée pour les entreprises qui se sont donc intéressées à les extraire, les structurer et les formaliser dans un langage exploitable par les machines. La représentation usuellement adoptée est celle d’un graphe de connaissances (Knowledge graph) composé de triplets (entité, prédicat, entité) afin d’illustrer les fortes connexions entre les entités. Cependant, les sources de ces graphes sont multiples, variées, hétérogènes, souvent incomplètes et parfois non certifiées. Après leur agrégation, on se retrouve souvent confronté à de (très) grands graphes de connaissances comportant de multiples redondances et incohérences : des nœuds différents ayant la même sémantique ou des nœuds ayant le même label mais avec des sémantiques différentes ; ou encore des arcs (ou relations) entre des nœuds dont la sémantique est floue ou ne correspond pas à leurs labels. Par conséquent, l’amélioration de la qualité de ces graphes de connaissances constitue une problématique majeure préalable à leur exploitation.

La problématique de construction de graphes de connaissances de bonne qualité à partir des données hétérogènes, variées et incomplètes est actuellement identifiée comme majeure dans le domaine de recherche en web sémantique. Elle porte aussi sur l’alignement de graphes (graph matching), la découverte de liens entre entités de graphes différents (link discovery) ou aussi sur la reconnaissance d’entités (Entity Resolution). Les approches classiques d’alignement/appariement de graphes (graph matching/ontology alignment) combinent souvent des aspects lexicaux, sémantiques et des ressources externes au niveau des entités ou au niveau de la structure de graphe (Shvaiko and Euzenat, 2011) pour déterminer des meilleurs alignements entre entités. L’hétérogénéité des labels/formats attribués aux entités, à leurs propriétés ou à leur type rend ces approches difficiles à exploiter pour déterminer si deux entités/propriétés sont similaires ou non [Obraczka et al, 2021].

Objectif de la thèse

Dans cette thèse, nous nous intéressons à l’identification des entités similaires (Entity Resolution) et l’identification des liens entre elles dans une approche générale d’amélioration de la qualité de graphes de connaissances construits à partir de ressources très pauvres et hétérogènes. L’originalité de l’approche que nous voudrions développer consiste à améliorer les approches classiques basées sur le plongement de graphe en y adjoignant des connaissances sémantiques à priori. Le plongement du graphe augmenté sémantiquement sera utilisé ensuite dans une approche d’apprentissage (supervisé ou non-supervisé) pour le clustering ou la classification d’entités/propriétés.

P Shvaiko, J Euzenat. Ontology matching: state of the art and future challenges– IEEE Transactions on knowledge and data engineering, 2011.

  1. Obraczka, J. Schuchart, E. Rahm. Embedding-Assisted Entity Resolution for Knowledge Graphs. Proceedings of the 2nd International Workshop on Knowledge Graph Construction co-located with 18th Extended Semantic Web Conference (ESWC), 2021.

Encadrants :

Mounira Harzallah,  mounira.harzallah@univ-nantes.fr, DUKe -LS2N -PolytecNantes Nantes.

Fabrice Guillet, fabrice.guillet@univ-nantes.fr, DUKe -LS2N -PolytecNantes -Nantes.

Frédéric Andre, frederic.andre@chekk.me, Chekk, Le Village, rue La Boétie, 75008 Paris.

 

L’équipe DUKe (Data User Knowledge) du LS2N, UMR CNRS 6004, est l’une des principales équipes du laboratoire dans le thème « science des données et de la décision », forte de ses compétences en manipulation de données, en fouille de données/apprentissage automatique et en conception et exploitation d’ontologies.

Chekk France propose une plateforme SaaS (Software-as-a-Service) à destination des entreprises, visant à optimiser la gestion de l’identité numérique, de la connaissance client des individus (KYC – Know Your Customer) et des entreprises (KYB – Know Your Business), et de la portabilité des données, tout en donnant aux utilisateurs le contrôle de leurs données.

 

Lieu : Flexible (travail à distance, avec passages réguliers sur Paris / Nantes)

 

Qualifications attendues :

  • Master en science de données / Machine Learning / intelligence artificiel ou Diplôme d’ingénieur avec spécialisation dans ces domaines. Des connaissances en web sémantique et en traitement du langage naturel seraient appréciées.
  • Une bonne attitude de recherche scientifique et de travailler de manière autonome et en équipe et des bonnes compétences en communication écrite et orale en anglais sont requises.
  • Très bon niveau dans les langages de programmation de Machine Learning, en particulier Python.

 

Date limite : Jusqu’au recrutement, mais pas plus tard que 30 mai 2022.

 

Pour candidater :

Envoyer dès que possible, les documents suivants à Mounira Harzallah mounira.harzallah@univ-nantes.fr, Fabrice Guillet fabrice.guillet@univ-nantes.fr, et Frédéric Andre frederic.andre@chekk.me :

  • lettre de motivation
  • curriculum vitae
  • copie(s) de diplôme(s)
  • relevés de notes des diplômes de licence et de master
  • nom(s)/email(s) d’au moins un référant
  • au moins une lettre de recommandation

Mounira Harzallah,  mounira.harzallah@univ-nantes.fr, DUKe -LS2N -PolytecNantes Nantes.

Fabrice Guillet, fabrice.guillet@univ-nantes.fr, DUKe -LS2N -PolytecNantes -Nantes.

Frédéric Andre, frederic.andre@chekk.me, Chekk, Le Village, rue La Boétie, 75008 Paris.

 

Fiche descriptive :
Copyright : LS2N 2017 - Mentions Légales - 
 -