Home » Évènement

Soutenance de thèse de Jingshu LIU (équipe TALN)

Jingshu Liu, doctorant au sein de l’équipe TALN, soutiendra sa thèse intitulée « Apprentissage de représentations cross-lingue d’expressions de longueur variable » / « Unsupervised cross-lingual representation modeling for variable length phrases »

mercredi 29 janvier 2020 à 14h, dans l’amphi du bât 34 sur le site de la FST.

Jury :
– Directeur thèse : Emmanuel Morin
– Co-encadrant : Sebastian Pena Saldarriaga
– Rapporteurs : Pierre Zweigenbaum (CNRS Univ Saclay), Laurent Besacier (U Grenoble Alpes),
– Autres membres : Olivier Ferret (Ingénieur Chercheur CEA LIST)

Resumé : L’étude de l’extraction de lexiques bilingues à partir de corpus comparables a été souvent circonscrite aux mots simples. Les méthodes classiques ne peuvent gérer les expressions complexes que si elles sont de longueur identique, tandis que les méthodes de plongements de mots modélisent les expressions comme une seule unité. Ces dernières nécessitent beaucoup de données, et ne peuvent pas gérer les expressions hors vocabulaire. Dans cette thèse, nous nous intéressons à la modélisation d’expressions de
longueur variable par co-occurrences et par les méthodes neuronales état de l’art. Nous étudions aussi l’apprentissage de représentation d’expressions supervisé et non-supervisé. Nous proposons deux contributions majeures. Premièrement, une nouvelle architecture appelée tree-free recursive neural network (TFRNN) pour la modélisation d’expressions indépendamment de leur longueur. En apprenant à prédire le contexte de l’expression à partir de son vecteur encodé, nous surpassons les systèmes état de l’art de synonymie monolingue en utilisant seulement le texte brut pour l’entraînement. Deuxièmement, pour la modélisation cross-lingue, nous incorporons une architecture dérivée de TF-RNN dans un modèle encodeur-décodeur avec un mécanisme de pseudo contre-traduction inspiré de travaux sur la traduction automatique neurale nonsupervisée. Notre système améliore significativement l’alignement bilingue des expressions de longueurs différentes.

Mots-clés : plongement lexical bilingue, alignement d’expressions, apprentissage non-supervisé

******

Abstract: Significant advances have been achieved in bilingual word-level alignment from comparable corpora, yet the challenge remains for phrase-level alignment. Traditional
methods to phrase alignment can only handle phrase of equal length, while word embedding based approaches learn phrase embeddings as individual vocabulary entries suffer
from the data sparsity and cannot handle out of vocabulary phrases. Since bilingual alignment is a vector comparison task, phrase representation plays a key role. In this thesis, we
study the approaches for unified phrase modeling and cross-lingual phrase alignment, ranging from co-occurrence models to most recent neural state-of-the-art approaches. We review supervised and unsupervised frameworks for modeling cross-lingual phrase representations. Two contributions are proposed in this work. First, a new architecture called tree-free recursive neural network (TF-RNN) for modeling phrases of variable length which, combined with a wrapped context prediction training objective, outperforms the state-of-the-art approaches on monolingual phrase synonymy task with only plain text training data. Second, for cross-lingual modeling, we propose to incorporate an architecture derived from TF-RNN in an encoder-decoder model with a pseudo back translation mechanism inspired by unsupervised neural machine translation. Our proposition improves significantly bilingual alignment of different length phrases.

Keywords: bilingual word embedding, bilingual phrase alignment, unsupervised learning

Projet OnBoard (connecting cities through education)

Le projet OnBoard est un projet Européen dont la ville de Nantes est partenaire et que Colin de la Higuera et Bastien Masse accompagnent à partir de leur expérience dans Class’Code et la Chaire Unesco. L’objectif est de bâtir des projets éducatifs à l’échelle de la ville, incluant de nombreux acteurs : l’école, les entreprises, les associations et l’enseignement supérieur.

La réunion du projet à Albergaria-a-Velha, au Portugal, en septembre 2019 était organisée autour du rôle de l’enseignement supérieur dans ce type de dispositifs. Voir l’interview de Colin sur YouTube.

Pour en savoir plus ou participer à ce type de projets au sein de la Chaire Académique Education Ouverte et Intelligence Artificielle, contactez : cdlh@univ-nantes.fr ou bastien.masse@univ-nantes.fr.

Interventions de Colin de la Higuera (équipe TALN) sur l’IA

Colin de la Higuera animera des débats et présentations sur l’intelligence artificielle dans le cadre de 3 manifestations grand public :

Séminaires du projet exploratoire AILE (Artificial Intelligence for Learning Environment)

Les lundis 7/10/2019  et 4/11/2019 prochains de 17h à 18h, nous organisons un temps de restitution de travaux réalisés dans le cadre du projet exploratoire AILE (Artificial Intelligence for Learning Environment) [1], soutenu par le CominLabs.

Chaque séance accueillera 3 séminaires d’une dizaine de minutes chacun. Ces séminaires sont ouverts et retransmis par visioconférences sur deux sites :
* Site de la FST, Bât 34 salle ABC
* Site Polytech, le 07/10 la salle du conseil (bât IRESTE), le 04/11 la salle B016 (bât IHT)

Le 7/10/2019, nous entendrons
* Maëlle BRASSIER    « Calculs d’indices de difficulté »
* Solène CATELLA  « Définition d’indices de difficulté »
* Axel RAMBAUD « Chapitrage de la transcription du discours de l’enseignant à l’aide de son diaporama »

Et le 4/11/2019* Hugo le Baher    « What’s next »
* Marie HUMBERT–ROPERS    « Modélisation d’utilisateurs »
* Xavier PILLET « Prédiction de succès/échec »

Les personnes souhaitant assister par visioconférence sont invitées à nous contacter.

Olivier Aubert et Nicolas Hernandez

[1] http://aile.comin-ocw.org/

Soutenance de thèse de Basma El Amel BOUSSAHA (équipe TALN)

Basma El Amel Boussaha, doctorante au sein de l’équipe TALN, soutiendra sa thèse intitulée « Recherche de réponses pour les systèmes de dialogue basés sur la recherche de réponse de bout en bout » / « Response selection for end-to-end retrieval-based dialogue systems »

mercredi 23 octobre 2019 à 14h, dans l’amphi du bâtiment 34 sur le site de la FST.

Jury :
– Directeur thèse : Emmanuel MORIN
– Co- encadrants : Nicolas HERNANDEZ, Christine JACQUIN
– Examinateurs : Sophie ROSSET (LIMSI), Frédéric BECHET (LIS), Yannick ESTEVE (LIA)

Résumé : Le besoin croissant en assistance humaine a poussé les chercheurs à développer des systèmes de dialogue automatiques, intelligents et infatigables qui conversent avec les humains dans un langage naturel pour devenir soit leurs assistants virtuels ou leurs compagnons. L’industrie des systèmes de dialogue est devenue populaire cette dernière décennie, ainsi, plusieurs systèmes ont été développés par des industriels comme des académiques. Dans le cadre de cette thèse, nous étudions les systèmes de dialogue orientés vers la tâche comme la réservation de restaurants en cherchant la réponse la plus appropriée à la conversation parmi un ensemble de réponses prédéfini. Le défi majeur de ces systèmes est la compréhension de la conversation et l’identification des éléments qui décrivent le problème et la solution qui sont souvent implicites. La plupart des approches
récentes sont basées sur des techniques d’apprentissage profond qui permettent de capturer des informations implicites. Souvent, ces approches sont complexes ou dépendent fortement du domaine. Nous proposons une approche de recherche de réponse de bout en bout, simple, efficace et indépendante du domaine et qui permet de capturer ces informations implicites. Nous effectuons également des analyses profondes afin de déterminer des pistes d’amélioration.

Mot-clés : Apprentissage profond, systèmes de dialogue orientés tâche, chatbots, systèmes de recherche, réseaux de neurones

**********

Abstract: The increasing need of human assistance pushed researchers to develop automatic, smart and tireless dialogue systems that can converse with humans in natural language to be either their virtual assistant or their chat companion. The industry of dialogue systems has been very popular in the last decade and many systems from industry and academia have been developed. In this thesis, we study task-oriented retrieval-based dialogue systems which aim to fulfill a specific task such as restaurant booking by retrieving the most appropriate response to the conversation among a set of predefined responses. The main challenge of these systems is to understand the conversation and identify the elements that describe the problem and the solution which are usually implicit. Most of the recent approaches are based on deep learning techniques which can automatically capture implicit information. However these approaches are either complex or domain dependent. We propose a simple, end-to-end and efficient retrieval-based dialogue system that first matches the response with the history of the conversation on the sequencelevel and then we extend the system to multiple levels while keeping the architecture simple and domain independent. We perform several deep analyzes to determine possible improvements.

Keywords: Deep learning, goal-oriented dialogue systems, chatbots, retrieval-systems, neural networks

Interview de Béatrice Daille sur le préGDR TAL

Le préGDR Traitement automatique des langues (TAL), créé depuis janvier 2018, est en phase de structuration.

Béatrice Daille (équipe TALN) qui porte ce projet, a rencontré Laure Thiébaud, chargée de communication de l’INS2I, afin de lui exposer les raisons de la création de ce préGDR, ses débuts et ses perspectives.

Retrouvez l’interview complète sur le site de l’INS2I.

Soutenance de thèse d’Adeline GRANET (équipe TALN)

Adeline Granet, doctorante au sein de l’équipe TALN soutiendra sa thèse intitulée « Extraction d’information dans des documents manuscrits anciens » / « Extracting information in old handwritten documents »

mercredi 12 décembre à 14h, dans l’amphi du Bâtiment 34sur le site de l’UFR Sciences.

Jury : Emmanuel Morin (directeur de thèse), Harold Mouchère (co-encadrant), Frédéric Béchet (rapporteur, U Marseille), Antoine Doucet (Rapporteur, U la Rochelle), Clément Chatelain (INSA Rouen), Solen Quiniou

Résumé : La tâche d’exploration dans des ressources inexploitées mais nouvellement numérisées, afin d’y trouver des informations pertinentes, est complexifiée par la quantité de
ressources disponibles. Grâce au projet ANR CIRESFI, la ressource la plus importante, pour la Comédie-Italienne du XVIIIe siècle, est un ensemble de registres comptables constituée de 28 000 pages. L’extraction d’informations est un processus long et complexe qui demande une expertise à chaque étape : détection et segmentation, extraction de caractéristiques, reconnaissance d’écriture manuscrite. Les systèmes à base de réseaux de neurones profonds dominent dans l’ensemble ces approches. Le problème majeur est qu’ils nécessitent d’avoir une grande quantité de données pour réaliser leur apprentissage.
Cependant, les registres de la Comédie-Italienne ne possèdent pas de vérité terrain. Pour palier ce manque de données, nous explorons des approches pouvant opérer un apprentissage par transfert de connaissance. Cela signifie utiliser un ensemble de données déjà étiquetées et disponibles, possédant un minimum de points communs avec nos données pour entraîner les systèmes, pour ensuite les appliquer sur nos données. L’ensemble de nos expérimentations nous ont montré la difficulté de réaliser cette tâche, chaque choix à chaque étape ayant un impact fort sur la suite du système. Nous convergeons vers une solution séparant le modèle optique du modèle de langage afin de réaliser un apprentissage indépendant avec différents types de ressources disponibles et se rejoignant grâce à une projection de l’ensemble des informations dans un espace commun non-latent

Mots clés : Reconnaissance d’écriture manuscrite, Apprentissage par transfert de connaissance, Réseaux de neurones, Documents historiques, Modèle optique, Modèle linguistique

********

Abstract: Exploring unexploited but newly digitized resources to find relevant information is a complicated task due to the amount of available resources. Thanks to the ANR project CIRESFI, the most important resource for the Italian Comedy of the 18th century, is a set of accounting registers consisting of 28,000 pages. Information retrieval is a long and complex process that requires expertise at every step: detection and segmentation in paragraphs, lines or words, features extraction, handwriting recognition. Systems based on deep neural networks dominate these approaches. The major issue is the need of a large amount of data to achieve their learning.
However, the registers of the Italian Comedy have no ground truth. To overcome this lack of data, we explore approaches that involving transfer learning. That means using heterogeneous labeled and available data, with at least one common feature with our data to drive the systems, and then applying them to our data. All of our experiments have shown us the difficulty of carrying out this task, each choice at each stage having a strong impact on the rest of the system. We converge on a solution separating the optical model from the language model in order to achieve independent learning with different available resources and joining together thanks to a projection of the information into a non-latent common space.

Keywords: Handwriting recognition, Transfer learning, Neural network, Historical documents, Optical model, Linguistic model

Workshop de la Chaire Unesco en Ressources Educatives Libres : « Nouvelles technologies pour l’éducation ouverte »

La Chaire Unesco en Ressources Educatives Libres de l’Université de Nantes organise un workshop dans le cadre du projet Européen X5-GON

mardi 16 octobre 2018

au bâtiment 34 sur le site de la FST.

Le thème est : Nouvelles technologies pour l’éducation ouverte. Une place particulière est faite à l’Intelligence Artificielle.

L’objectif de ce colloque est de réunir :

  • des promoteurs et chercheurs de technologies disruptives, même si elles n’ont pas encore été déployées dans le secteur éducatif  ;
  • des acteurs des différents secteurs de l’éducation qui sont susceptibles de mettre en relation les enjeux et ces technologies, les questions en suspens, celles pour lesquelles peut-être une réponse en partie technologique est possible ;
  • des expérimentateurs, leaders de projets d’éducation par le numérique.

Parmi les thèmes au programme : les réseaux sociaux, le blockchain, l’inclusion, l’évaluation, les alignements de curricula, la communication multilingue end-to-end, l’interopérabilité des plates-formes d’apprentissage…

L’objectif du colloque est d’examiner des innovations technologiques, en particulier celles basées sur l’intelligence artificielle, sous différents angles :

  • leur intérêt d’usage et leur capacité à répondre à des défis connus ou prévus ;
  • leur capacité à apporter des solutions aux défis de l’éducation ouverte.

Toutes les informations pratiques peuvent être trouvées ici : https://www.x5gon.org/event/tech-for-oer/.

Le workshop est gratuit mais avec un nombre limité de places. Inscription impérative sur Eventbrite.

Programme (en anglais) :

  • Morning, session 1 (9-00)
    • Marko Grobelnik and Mitja Jermol (Josef Stefan Institute, Slovenia): « The semantic web of education ». Marko is Slovenia’s digital champion, a recognized researcher in many fields inside Artificial Intelligence and Digital Champion for Slovenia. Mitja is UNESCO OER technologies Chair and has been the founder and leader of the Open Education for a better world Mentoring Program (http://unesco.ijs.si/project/open-education-for-a-better-world/). The Slovenian Unesco Chair puts a special emphasis on the technological aspects of Open Education.
    • Thomas Cerqueus (Lengow, France): “Thesaurus matching: a use case in e-commerce “. Lengow is concerned with proposing systems allowing retailers to efficiently propose their product on a wide variety of online merchant sites. It may be the case where the same technologies could help courseware be deployed over a variety of platforms with much less effort than today.
  • Morning, session 2 (11-00)
    • Perrine de Coëtlogon (Blockchain & Education advisor at Université de Lille, France): “How will blockchain contribute to the Open Educational World Movement? Perrine hosts a digital working group at national level on Blockchain and Education (Blockchain4Edu) within the directorate for pedagogical innovation of the University of Lille (France). Perrine de Coëtlogon and her colleagues envisage that in an open learning environment it will be necessary to be able to trace the different contributions to open educational resources. They aim to use a Blockchain solution for this.
    • Alfons Juan (Universidad Politecnica de Valencia, Spain): “End-to-end communication tools for OER”. Alfons is senior researcher at Universidad Politecnica of Valencia (https://www.mllp.upv.es/ ) and has led his team in various European projects in which they have developed technologies to transcribe and translate scientific and educational videos. They now aim to deliver an end-to end solution, with the translation being given through voice synthesis including voice models for the original speaker.
  • Afternoon, session 3 (14-00)
    • Jutta Trevinarus (Ontario College of Art and Design University): “Smarter Systems Include the Margins”. Jutta is Professor at the Ontario College of Art and Design University (OCADU) in Toronto Founder and CEO of the Inclusive Design Research Centre at the Inclusive Design Research Centre proposals are being made to allow web navigation (and more specifically learning) to be more inclusive and friendly.
    • Samuel Paccoud (FUN, France): « Scaling our Open Education infrastructure with microservices ». Samuel is CTO at FUN, the main French speaking MOOC platform (https://www.fun-mooc.fr/). His talk will be about the convergence and interoperability of online learning tools through shared formats and norms.
  • Afternoon, session 4 (16-00)
    • Benjamin Ninassi (INRIA, France): “Hybrid Social networks of learners”. Benjamin is Research engineer at INRIA, technical leader of the IT development team and main developer of the Class’Code Platform (http://classcode.fr). The platform aims at helping teachers and educators learn to teach code through online activities and the promotion of a social network built from these activities.
    • Panel: closing remarks

Apéro numérique #8 : « l’IA au quotidien »

Cette 8ème édition des Apéros Numériques en partenariat avec la Nantes Digital Week et dans le cadre la journée « l’IA au quotidien » traitera de la place de l’IA dans la communication actuelle et future. Quel est l’impact des algorithmes dans nos vies et quelles seront les évolutions pour les prochaines années ? Ensuite place à un débat sur le transhumanisme afin d’imaginer à quoi ressemblera l’humain ultra connecté de demain. L’augmentation humaine est-elle la seule solution pour vivre avec les IA comme le clame Elon Musk ?

AvecFrancky Trichet (Adjoint au Maire de Nantes & Conseiller Métropolitain Innovation et Numérique) Claude de Loupy (CEO Syllabs), Colin de la Higuera (Professeur Université de Nantes), mais aussi Thomas Gouritin (Auteur du documentaire « Regards sur l’intelligence artificielle » et spécialiste chatbots conversationnel).

Soirée animée par François Montupet, lundi 17 septembre de 19h30 à minuit au Ferrailleur.

Programme détaillé.

Copyright : LS2N 2017 - Mentions Légales - 
 -