Thèses soutenues 2023
Marie Delavergne, Cheops, une approche externe pour géo-distribuer en périphérie les applications à base de micro-services ►
Cheops, une approche externe pour géo-distribuer en périphérie les applications à base de micro-services
Auteur : Marie Delavergne
Mots-clés : Informatique nuagiqueInformatique périphériqueModularitéMaillage de services
Résumé
Le passage de l'informatique en nuage à l'informatique en périphérie a modifié les exigences relatives aux applications qui y sont exécutées. Si les applications actuelles de l'informatique en nuage sont extrêmement robustes dans ce contexte, elles n'ont pas été conçues pour faire face aux défis inhérents à l'informatique en périphérie, en particulier les déconnexions et les latences élevées que l'on peut observer entre des sites éloignés. Puisque nous disposons déjà d'applications pour le nuage robustes et au code volumineux, la question qui se pose est la suivante : serait-il possible de les utiliser en périphérie en gérant l'échelle et la distribution géographique ? Pour répondre à cette question, je présente d'abord différentes approches existantes pour faire des applications fonctionnant en périphérie et les lacunes de ces solutions, tout en conservant les réponses intéressantes à des problèmes spécifiques. A partir de cette étude, je présente la solution construite pour amener les applications du nuage à la périphérie tout en donnant aux utilisateurices le choix du lieu d'exécution de leurs requêtes. Cette solution s'appuie sur la modularité des applications existantes du nuage pour créer une approche ressemblant à un maillage de services qui intercepte les demandes entre les services et les redirige en fonction du langage spécifique à un domaine (DSL) que nous avons créé pour permettre aux utilisateurices de spécifier des collaborations entre plusieurs sites en périphérie.
Date de soutenance : 16-03-2023
Président du jury : Adrien Lebre
Jury :
- Thomas Ledoux [Président]
- Noël de Palma [Rapporteur]
- Pierre Sens [Rapporteur]
- Sara Bouchenak
- Ronan-Alexandre Cherrueau
Xihui Wang, Classification Multi-Labels en flux : comparaisons d'approches et nouvelles propositions ►
Classification Multi-Labels en flux : comparaisons d'approches et nouvelles propositions
Auteur : Xihui Wang
Mots-clés : Dérive conceptuelleAnalyse prédictive
Résumé
Avec l'évolution conjointe des volumes de données à traiter et de la nature même de ces données, les algorithmes de classification multi-labels sont confrontés à un défi majeur : leur capacité à apprendre des modèles à partir de données en flux et à s'adapter aux changements de leurs distributions statistiques au fil du temps en prenant en compte des ressources matérielles limitées en stockage et en calcul. Dans cette thèse, nous abordons ce défi pour deux types de données : des flux stationnaires et non stationnaires. Pour la classification multi-labels de flux stationnaires nous avons développé un nouvel algorithme (MLT-ML) qui, avec une faible complexité temporelle, permet d'obtenir des performances en prédiction compétitives en exploitant les corrélations entre labels pour partitionner l'espace de recherche à chaque instant et réduire ainsi la complexité de l'apprentissage. Pour la classification de flux non-stationnaires nous avons développé successivement deux nouveaux algorithmes (ODM et A2ML) qui combinent une mémoire à court terme et une mémoire à long terme. Cette combinaison permet une adaptation efficace des modèles d'apprentissage aux dérives de concepts. En particulier, nous avons montré expérimentalement l'apport dans A2ML de l'introduction d'une règle d'échantillonnage biaisée pour la gestion de la mémoire à long terme ainsi que l'efficacité de la création de nouveaux clusters associés à l'apparition de nouveaux labels dans le flux. Pour combler l'absence de protocoles d'évaluation consensuels pour la classification multi-labels sur des données en flux, nous avons développé un nouveau cadre de simulation qui permet d'introduire explicitement des dérives de différents types et donc de mieux comprendre les changements de comportements des différentes ,stratégies de classification. Les comparaisons avec les meilleurs algorithmes de l'état de l'art menées sur des flux non stationnaires de plus de 50 000 exemples confirment le niveau élevé de performances de notre nouvel algorithme A2ML qui a une complexité temporelle significativement plus réduite que tous les autres.
Date de soutenance : 28-02-2023
Président du jury : Pascale Kuntz-Cosperec
Jury :
- Mustapha Lebbah [Président]
- Julien Velcin [Rapporteur]
- Jean-Charles Lamirel [Rapporteur]
- Armelle Brun
- Franck Meyer
Gaëlle Jouis, Explicabilité des modèles profonds et méthodologie pour son évaluation : application aux données textuelles de Pôle emploi ►
Explicabilité des modèles profonds et méthodologie pour son évaluation : application aux données textuelles de Pôle emploi
Auteur : Gaëlle Jouis
Mots-clés : Outils d’explicabilitéIntelligence ArtificielleRéseaux de Neurones
Résumé
L’intelligence Artificielle fait partie de notre quotidien. Les modèles développés sont de plus en plus complexes. Les régulations telles que la Loi Pour une République Numérique orientent les développements logiciels vers plus d’éthique et d’explicabilité. Comprendre le fonctionnement des modèles profonds a un intérêt technique et humain. Les solutions proposées par la communauté sont nombreuses, et il n’y a pas de méthode miracle répondant à toutes les problématiques. Nous abordons la question suivante : comment intégrer l’explicabilité dans un projet d’IA basé sur des techniques d’apprentissage profond? Après un état de l’art présentant la richesse de la littérature du domaine, nous présentons le contexte et les prérequis de nos travaux. Ensuite nous présentons un protocole d’évaluation d’explications locales et une méthodologie modulaire de caractérisation globale du modèle. Enfin, nous montrons que nos travaux sont intégrés à leur environnement industriel. Ces travaux résultent en l’obtention d’outils concrets permettant au lecteur d’appréhender la richesse des outils d’explicabilité à sa disposition.
Date de soutenance : 14-02-2023
Président du jury : Harold Mouchère
Jury :
- Gilles Venturini [Président]
- Céline Hudelot [Rapporteur]
- Philippe Lenca [Rapporteur]
- Richard Dufour
Martin Laville, Évaluation en extraction de lexiques bilingues à partir de corpus comparables ►
Évaluation en extraction de lexiques bilingues à partir de corpus comparables
Auteur : Martin Laville
Mots-clés : Corpus bilinguesCorpus spécialisésJeux de données
Résumé
L’extraction de lexique bilingue (BLI) a pour objectif la création, de manière automatique à partir de corpus bilingues, de lexiques entre deux langues. Le BLI est utilisé le plus souvent en domaine général, où les lexiques extraits peuvent par exemple servir en traduction automatique ou en recherche d’information. Les systèmes de BLI fonctionnent alors sur de grandes quantités de données et les résultats semblent hautement satisfaisants. Cependant, les données d’évaluation contiennent de nombreuses erreurs, ce qui pourrait conduire à une remise en question des systèmes. Un second contexte d’utilisation plus marginal du BLI est celui des domaines de spécialité, où l’objectif est l’obtention de traductions absentes des dictionnaires classiques. Les corpus spécialisés (qui ne concernent qu’un seul sujet) sont peu fournis en données et il est compliqué pour les systèmes de BLI d’obtenir d’aussi bons résultats qu’en domaine général. Il faut donc chercher à adapter les approches pour prendre en compte cette particularité. Dans cette thèse, nous améliorons les résultats obtenus en BLI en domaine de spécialité en proposant l’utilisation de techniques de sélection de données. Puis, nous nous intéressons au processus d’évaluation en domaine général et plus particulièrement à certains biais présents dans les données d’évaluation comme la surprésence de paires de mots très fréquents ou graphiquement identiques et proposons un processus d’évaluation plus précis et unifié qui prend en compte ces faiblesses dans les données.
Date de soutenance : 01-02-2023
Président du jury : Emmanuel Morin
Jury :
- Pierre Zweigenbaum [Président]
- Éric Gaussier [Rapporteur]
- Marianna Apidianaki [Rapporteur]
Victor Connes, Recommandation de Ressources Éducatives Libres dans le projet X5GON ►
Recommandation de Ressources Éducatives Libres dans le projet X5GON
Auteur : Victor Connes
Mots-clés : Education OuverteSystème de recommandation
Résumé
Ces dernières années, les pratiques d’apprentissage en ligne n’ont cessé de croitre, la pandémie mondiale du COVID- 19 a encore accéléré cette tendance. Pour atteindre l’objectif de développement durable numéro 4 : « l’éducation de qualité et tout au long de la vie », l’UNESCO fait de l’apprentissage en ligne et des REL (Ressources Educatives Libres) les aspects centraux de cette politique. Dans un contexte où le nombre de ressource et d’utilisateur est pléthorique, des algorithmes de recommandation de contenu semblent indispensables pour guider les apprenants à travers les ressources. Néanmoins, l’emploi de la recommandation à des fins pédagogiques soulève des problématiques spécifiques non étudiées jusqu’alors. De plus, le manque de jeux de données libres disponibles complexifie l’évaluation et la comparaison des approches et ne permet pas l’emploi de méthodes gourmandes en données qui semblent pourtant les plus prometteuses. Dans ce document, nous nous intéressons à la problématique de la recommandation à visée pédagogique à large-échelle et dans un contexte éducationnel non-formel où les données sont non structurées. En particulier, nous explorerons la question d’un ordre satisfaisant de consultation des ressources ainsi que celle de mise à disposition de jeux de données libres pour cette tâche.
Date de soutenance : 05-01-2023
Président du jury : Colin de La Higuera
Jury :
- Élisa Fromont [Président]
- Marc Tommasi [Rapporteur]
- Jean-Christophe Janodet [Rapporteur]
- Marie Lefèvre