Home » Évènement

Soutenance de thèse d’Adeline GRANET (équipe TALN)

Adeline Granet, doctorante au sein de l’équipe TALN soutiendra sa thèse intitulée « Extraction d’information dans des documents manuscrits anciens » / « Extracting information in old handwritten documents »

mercredi 12 décembre à 14h, dans l’amphi du Bâtiment 34sur le site de l’UFR Sciences.

Jury : Emmanuel Morin (directeur de thèse), Harold Mouchère (co-encadrant), Frédéric Béchet (rapporteur, U Marseille), Antoine Doucet (Rapporteur, U la Rochelle), Clément Chatelain (INSA Rouen), Solen Quiniou

Résumé : La tâche d’exploration dans des ressources inexploitées mais nouvellement numérisées, afin d’y trouver des informations pertinentes, est complexifiée par la quantité de
ressources disponibles. Grâce au projet ANR CIRESFI, la ressource la plus importante, pour la Comédie-Italienne du XVIIIe siècle, est un ensemble de registres comptables constituée de 28 000 pages. L’extraction d’informations est un processus long et complexe qui demande une expertise à chaque étape : détection et segmentation, extraction de caractéristiques, reconnaissance d’écriture manuscrite. Les systèmes à base de réseaux de neurones profonds dominent dans l’ensemble ces approches. Le problème majeur est qu’ils nécessitent d’avoir une grande quantité de données pour réaliser leur apprentissage.
Cependant, les registres de la Comédie-Italienne ne possèdent pas de vérité terrain. Pour palier ce manque de données, nous explorons des approches pouvant opérer un apprentissage par transfert de connaissance. Cela signifie utiliser un ensemble de données déjà étiquetées et disponibles, possédant un minimum de points communs avec nos données pour entraîner les systèmes, pour ensuite les appliquer sur nos données. L’ensemble de nos expérimentations nous ont montré la difficulté de réaliser cette tâche, chaque choix à chaque étape ayant un impact fort sur la suite du système. Nous convergeons vers une solution séparant le modèle optique du modèle de langage afin de réaliser un apprentissage indépendant avec différents types de ressources disponibles et se rejoignant grâce à une projection de l’ensemble des informations dans un espace commun non-latent

Mots clés : Reconnaissance d’écriture manuscrite, Apprentissage par transfert de connaissance, Réseaux de neurones, Documents historiques, Modèle optique, Modèle linguistique

********

Abstract: Exploring unexploited but newly digitized resources to find relevant information is a complicated task due to the amount of available resources. Thanks to the ANR project CIRESFI, the most important resource for the Italian Comedy of the 18th century, is a set of accounting registers consisting of 28,000 pages. Information retrieval is a long and complex process that requires expertise at every step: detection and segmentation in paragraphs, lines or words, features extraction, handwriting recognition. Systems based on deep neural networks dominate these approaches. The major issue is the need of a large amount of data to achieve their learning.
However, the registers of the Italian Comedy have no ground truth. To overcome this lack of data, we explore approaches that involving transfer learning. That means using heterogeneous labeled and available data, with at least one common feature with our data to drive the systems, and then applying them to our data. All of our experiments have shown us the difficulty of carrying out this task, each choice at each stage having a strong impact on the rest of the system. We converge on a solution separating the optical model from the language model in order to achieve independent learning with different available resources and joining together thanks to a projection of the information into a non-latent common space.

Keywords: Handwriting recognition, Transfer learning, Neural network, Historical documents, Optical model, Linguistic model

Workshop de la Chaire Unesco en Ressources Educatives Libres : « Nouvelles technologies pour l’éducation ouverte »

La Chaire Unesco en Ressources Educatives Libres de l’Université de Nantes organise un workshop dans le cadre du projet Européen X5-GON

mardi 16 octobre 2018

au bâtiment 34 sur le site de la FST.

Le thème est : Nouvelles technologies pour l’éducation ouverte. Une place particulière est faite à l’Intelligence Artificielle.

L’objectif de ce colloque est de réunir :

  • des promoteurs et chercheurs de technologies disruptives, même si elles n’ont pas encore été déployées dans le secteur éducatif  ;
  • des acteurs des différents secteurs de l’éducation qui sont susceptibles de mettre en relation les enjeux et ces technologies, les questions en suspens, celles pour lesquelles peut-être une réponse en partie technologique est possible ;
  • des expérimentateurs, leaders de projets d’éducation par le numérique.

Parmi les thèmes au programme : les réseaux sociaux, le blockchain, l’inclusion, l’évaluation, les alignements de curricula, la communication multilingue end-to-end, l’interopérabilité des plates-formes d’apprentissage…

L’objectif du colloque est d’examiner des innovations technologiques, en particulier celles basées sur l’intelligence artificielle, sous différents angles :

  • leur intérêt d’usage et leur capacité à répondre à des défis connus ou prévus ;
  • leur capacité à apporter des solutions aux défis de l’éducation ouverte.

Toutes les informations pratiques peuvent être trouvées ici : https://www.x5gon.org/event/tech-for-oer/.

Le workshop est gratuit mais avec un nombre limité de places. Inscription impérative sur Eventbrite.

Programme (en anglais) :

  • Morning, session 1 (9-00)
    • Marko Grobelnik and Mitja Jermol (Josef Stefan Institute, Slovenia): « The semantic web of education ». Marko is Slovenia’s digital champion, a recognized researcher in many fields inside Artificial Intelligence and Digital Champion for Slovenia. Mitja is UNESCO OER technologies Chair and has been the founder and leader of the Open Education for a better world Mentoring Program (http://unesco.ijs.si/project/open-education-for-a-better-world/). The Slovenian Unesco Chair puts a special emphasis on the technological aspects of Open Education.
    • Thomas Cerqueus (Lengow, France): “Thesaurus matching: a use case in e-commerce “. Lengow is concerned with proposing systems allowing retailers to efficiently propose their product on a wide variety of online merchant sites. It may be the case where the same technologies could help courseware be deployed over a variety of platforms with much less effort than today.
  • Morning, session 2 (11-00)
    • Perrine de Coëtlogon (Blockchain & Education advisor at Université de Lille, France): “How will blockchain contribute to the Open Educational World Movement? Perrine hosts a digital working group at national level on Blockchain and Education (Blockchain4Edu) within the directorate for pedagogical innovation of the University of Lille (France). Perrine de Coëtlogon and her colleagues envisage that in an open learning environment it will be necessary to be able to trace the different contributions to open educational resources. They aim to use a Blockchain solution for this.
    • Alfons Juan (Universidad Politecnica de Valencia, Spain): “End-to-end communication tools for OER”. Alfons is senior researcher at Universidad Politecnica of Valencia (https://www.mllp.upv.es/ ) and has led his team in various European projects in which they have developed technologies to transcribe and translate scientific and educational videos. They now aim to deliver an end-to end solution, with the translation being given through voice synthesis including voice models for the original speaker.
  • Afternoon, session 3 (14-00)
    • Jutta Trevinarus (Ontario College of Art and Design University): “Smarter Systems Include the Margins”. Jutta is Professor at the Ontario College of Art and Design University (OCADU) in Toronto Founder and CEO of the Inclusive Design Research Centre at the Inclusive Design Research Centre proposals are being made to allow web navigation (and more specifically learning) to be more inclusive and friendly.
    • Samuel Paccoud (FUN, France): « Scaling our Open Education infrastructure with microservices ». Samuel is CTO at FUN, the main French speaking MOOC platform (https://www.fun-mooc.fr/). His talk will be about the convergence and interoperability of online learning tools through shared formats and norms.
  • Afternoon, session 4 (16-00)
    • Benjamin Ninassi (INRIA, France): “Hybrid Social networks of learners”. Benjamin is Research engineer at INRIA, technical leader of the IT development team and main developer of the Class’Code Platform (http://classcode.fr). The platform aims at helping teachers and educators learn to teach code through online activities and the promotion of a social network built from these activities.
    • Panel: closing remarks

Apéro numérique #8 : « l’IA au quotidien »

Cette 8ème édition des Apéros Numériques en partenariat avec la Nantes Digital Week et dans le cadre la journée « l’IA au quotidien » traitera de la place de l’IA dans la communication actuelle et future. Quel est l’impact des algorithmes dans nos vies et quelles seront les évolutions pour les prochaines années ? Ensuite place à un débat sur le transhumanisme afin d’imaginer à quoi ressemblera l’humain ultra connecté de demain. L’augmentation humaine est-elle la seule solution pour vivre avec les IA comme le clame Elon Musk ?

AvecFrancky Trichet (Adjoint au Maire de Nantes & Conseiller Métropolitain Innovation et Numérique) Claude de Loupy (CEO Syllabs), Colin de la Higuera (Professeur Université de Nantes), mais aussi Thomas Gouritin (Auteur du documentaire « Regards sur l’intelligence artificielle » et spécialiste chatbots conversationnel).

Soirée animée par François Montupet, lundi 17 septembre de 19h30 à minuit au Ferrailleur.

Programme détaillé.

Soutenance de thèse de Soufian SALIM

Soufian Salim (équipe TALN) soutiendra sa thèse intitulée « Analyse discursive et multi-modale des conversations écrites en ligne portées sur la résolution de problèmes » / « Multi-modal discursive analysis of problem-solving written online conversations »,

mercredi 22 novembre à 14h00, en salle 3 du bâtiment 11 sur le site de la FST.

Jury : Emmanuel Morin (Directeur de thèse), Olivier Ferret (Rapporteur, CEA LIST), Frédéric Bechet (Rapporteur, LIF), Géraldine Dalmati (Orange Labs), Béatrice Daille

Résumé :
Nous nous intéressons aux conversations écrites en ligne orientées vers la résolution de problèmes. Dans la littérature, les interactions entre humains sont typiquement modélisées en termes d’actes de dialogue, qui désignent les types de fonctions remplies par les énoncés dans un discours. Nous cherchons à utiliser ces actes pour analyser les conversations écrites en ligne. Un cadre et des méthodes bien définies permettant une analyse fine de ce type de conversations en termes d’actes de dialogue représenteraient un socle solide sur lequel pourraient reposer différents systèmes liés à l’aide à la résolution des problèmes et à l’analyse des conversations écrites en ligne. De tels systèmes représentent non seulement un enjeu important pour l’industrie, mais permettraient également d’améliorer les plate-formes d’échanges collaboratives qui sont quotidiennement sollicitées par des millions d’utilisateurs. Cependant, les techniques d’identification de la structure des conversations n’ont pas été développées autour des conversations écrites en ligne. Il est nécessaire d’adapter les ressources existantes pour ces conversations. Cet obstacle est à placer dans le cadre de la recherche en communication médiée par les réseaux (CMR), et
nous confronte à ses problématiques propres. Notre objectif est de modéliser les conversations écrites en ligne orientées vers la résolution de problèmes en termes d’actes de dialogue, et de proposer des outils pour la reconnaissance automatique de ces actes.

Mots-clés : actes de dialogue, conversation, discours, dialogue, communication médiée par les réseaux.

Abstract:
We are interested in problem-solving online written conversations. These conversations may be found on online channels such as forums, mailing lists or chat rooms. In the literature, human interactions are usually modelled in terms of dialogue acts. Dialogue acts are typically used to represent the discursive functions of utterances in dialogue. We want to use dialogue acts for the analysis of online written conversations. Well-defined methods and models allowing for the fine-grained analysis of these conversations would
represent a solid framework to support different user-assistance and dialogue analysis systems. This would represent an important stake for the customer support industry, but could also be used to improve collaborative assistance platforms that are accessed daily by millions of users. However, current conversations analysis techniques were not developed with written online conversations in mind. It is necessary to adapt existing resources for these conversations. This effort is related to the field of research in computer-mediated conversations (CMC). Our goal is to build a dialogue act model for problem-solving online written conversations, and to offer tools for the automatic recognition of these acts.

Keywords: dialogue acts, conversation, discourse, dialogue, computer-mediated communication.

Point sur le projet AmbiDYS : livre numérique destiné aux personnes dyslexiques

Solen Quiniou (équipe TALN) présentera le travail réalisé en préliminaire du projet AmbiDYS (financé par le RFI OIC) lors de la la conférence NumAccess, le 1er juin 2017 à Polytech.
Ce travail est réalisé en collaboration avec Béatrice Daille (pour le LS2N), Grégoire Cliquet (de l’Ecole de Design Nantes Atlantique) et Nathalie Chappey (orthophoniste et présidente de la start-up MOBiDYS, qui crée des livres électroniques destinés aux personnes dyslexiques, en particulier aux enfants).

« Le travail que nous présentons à NumAccess s’intitule « Le livre numérique adapté et accessible pour une compensation et une remédiation des troubles de la lecture » et porte sur des travaux effectués l’année dernière avec des stagiaires de M2. Il s’agissait de découper automatiquement un texte en rhèses, c’est-à-dire des unités de sens composées de plusieurs mots du texte et qui font sens. Ce découpage permettait ensuite de ne pas séparer les mots d’une même rhèse, sur plusieurs lignes, lors de l’affichage du texte sur la tablette numérique. En effet, cela nuit à la compréhension du texte lors de la lecture. Les premières expériences menées auprès d’enfants suivis par des orthophonistes montrent une diminution des erreurs de lecture, une augmentation de la vitesse de lecture et une meilleure compréhension des textes lus. »

Copyright : LS2N 2017 - Mentions Légales - 
 -