Home » Évènement

Soutenance de thèse de Jiajun PAN (équipe DUKe)

Jiajun Pan, doctorant au sein de l’équipe DUKe, soutiendra sa thèse intitulée « Formalisation et Apprentissage de Métriques Relationnelles »

vendredi 20 décembre 2019 à 14h, dans l’amphi du  bâtiment Ireste sur le site de Polytech.

Jury :

  • Directeur thèse :  LERAY Philippe
  • Co encadrant : LE CAPITAINE Hoël
  • Rapporteurs :  LESOT Marie Jeanne (LIP 6), HABRARD Amaury (U Saint Etienne)
  • Autres membres : CAPPONI Cécile (U Aix Marseille), DE LA HIGUERA Colin

 

Séminaire invité équipe DUKe : Ryutaro Ichise (NII Tokyo)

L’équipe DUKe a le plaisir d’accueillir Ryutaro ICHISE, Maître de conférences au National Institute of Informatics (NII) de Tokyo.

Il animera un séminaire intitulé « Knowledge Graph: Construction and Usage »

lundi 9 décembre 2019 à 11h30 dans la salle D118, bâtiment Ireste, à Polytech.

Abstract:
« I will talk about our recent work on knowledge graph construction from various knowledge resources. I will present several methods including ontology matching approach, knowledge graph embedding approach and rule learning approach. I will also talk about an application example of knowledge graph for advanced driver assistant systems. »

Short Bio:
Ryutaro Ichise is an associate professor at the National Institute of Informatics and a visiting researcher at the National Institute of Advanced Industrial Science and Technology in Japan. He received his Ph.D. degree in computer science from Tokyo Institute of Technology, Tokyo, Japan, in 2000. From 2001 to 2002, he was a visiting scholar at Stanford University. His research interests include semantic web, machine learning, and data mining.

Séminaires du projet exploratoire AILE (Artificial Intelligence for Learning Environment)

Les lundis 7/10/2019  et 4/11/2019 prochains de 17h à 18h, nous organisons un temps de restitution de travaux réalisés dans le cadre du projet exploratoire AILE (Artificial Intelligence for Learning Environment) [1], soutenu par le CominLabs.

Chaque séance accueillera 3 séminaires d’une dizaine de minutes chacun. Ces séminaires sont ouverts et retransmis par visioconférences sur deux sites :
* Site de la FST, Bât 34 salle ABC
* Site Polytech, le 07/10 la salle du conseil (bât IRESTE), le 04/11 la salle B016 (bât IHT)

Le 7/10/2019, nous entendrons
* Maëlle BRASSIER    « Calculs d’indices de difficulté »
* Solène CATELLA  « Définition d’indices de difficulté »
* Axel RAMBAUD « Chapitrage de la transcription du discours de l’enseignant à l’aide de son diaporama »

Et le 4/11/2019* Hugo le Baher    « What’s next »
* Marie HUMBERT–ROPERS    « Modélisation d’utilisateurs »
* Xavier PILLET « Prédiction de succès/échec »

Les personnes souhaitant assister par visioconférence sont invitées à nous contacter.

Olivier Aubert et Nicolas Hernandez

[1] http://aile.comin-ocw.org/

Musée Tech – Nocturne au Château des Ducs de Bretagne

Dans le cadre de la Fête de la Sciences 2019, le Château des Ducs accueillera l’événement « Musée Tech » dans le cadre d’une nocturne dans les salles du château, vendredi 11 octobre de 18h à 22h.

S’appuyant sur un objet du musée et son usage, ou son image, des universitaires, des chercheurs ou des praticiens font un point sur l’actualité de leur domaine d’expertise.

Tout au long de la soirée, une vingtaine de « mini-conférences » de 6 minutes sont présentées entre quatre et cinq fois dans les salles du musée d’histoire. Avis aux esprits curieux et joueurs !

Nous retrouverons :

  • Paul François, doctorant au sein de l’équipe IS3P
  • Pascale Kuntz, professeure au sein de l’équipe DUKe.

Plus d’infos sur la soirée : http://www.chateaunantes.fr/fr/evenement/nocturne17

Journée DAHLIA : « Informatique et Humanités numériques : quelles problématiques pour quels domaines ? »

Les équipes DUKe et IS3P accueilleront le groupe de travail DAHLIA (Digital Humanities and cultural Heritage) le 28 juin 2019 dans l’amphi du bât. 34 sur le site de la FST.

Cette journée a pour objectif de permettre à la communauté cartographiée dans le cadre du groupe de travail de se retrouver, pour une deuxième journée d’échanges. De plus, cette journée devrait permettre aux étudiants en thèse de présenter leurs travaux. Dans le cadre de cet atelier, des travaux autours des humanités numériques et du patrimoine culturel seront présentés ; ces travaux idéalement devraient s’encadrer dans les thématiques d’EGC, notamment la gestion et l’analyse de données ou des connaissances provenant des SHS/patrimoine.

Un appel à communications est lancé avec un retour des résumés demandé pour le 15/06/2019.

Plus d’infos : http://dahlia.egc.asso.fr/journeeDAHLIA2019Nantes.html

Contact : Claudia Marinica – Claudia.Marinica@u-cergy.fr

Journée Scientifique Data Science, Intelligence Artificielle et Éducation

Les équipes DUKe et TALN du LS2N organisent avec le CREN une journée scientifique « Data Science, IA et Éducation » le 21 juin à la Cité des Congrès.

L’objectif de ce colloque est d’offrir un panorama de ces différentes initiatives aux membres de ces projets, ainsi qu’à d’autres acteurs – enseignants, responsables pédagogiques équipes de recherches, entreprises…- intéressés par le sujet, afin d’échanger autour des problématiques scientifiques voire de susciter de futures collaborations. Il permettra également d’aborder des problématiques transversales plus larges autour des questions d’éthique, de pédagogie et de nouvelles pratiques rendues possibles par ces outils.

Le site de la journée est https://aile.comin-ocw.org/js.html

Séminaire inter-établissements de Sciences des Données – Invité : Jean-Gabriel GANASCIA

Le prochain séminaire inter-établissements de sciences des données aura lieu jeudi 6 juin 2019 à partir de 14h, dans l’amphi du bâtiment S (LS2N) sur le site de Centrale Nantes.

Il s’articulera autour deux exposés (14h00-17h00) :

  • Jean-Gabriel Ganascia (PR à l’Université Pierre et Marie Curie, membre de l’Institut universitaire de France et président du Comité d’éthique du CNRS (Comets) depuis le 1er septembre 2016) : « Ethique et épistémologie des données« 
  • Marie Ekeland (Co-fondatrice d’un fond de placement d’envergure internationale spécialisé dans l’économie numérique) : « Economie, société, humanisme : quels enjeux pour le numérique de demain ?« 

Résumé exposé1 : Qu’il s’agisse de protéger l’intimité la vie privée, l’anonymat ou la propriété, d’encourager le partage, voire de garantir l’absence de biais, les questions éthiques suscitées par la captation et l’exploitation des données sont à la fois nombreuses et anciennes. Or, l’approche de ces questions varie dans le temps et selon les cultures. De plus, certaines prescriptions morales, comme l’impartialité dans la collecte ou les principes de finalité et de proportionnalité de la CNIL, vont à l’encontre des postulats épistémologiques posés par les zélateurs les plus enflammés des masses de données. Il s’agira là de présenter ces problématiques éthiques et de les mettre en regard des questions fondamentales suscitées par la science des données.

En savoir plus.

Inscription en ligne : https://www.math.sciences.univ-nantes.fr/SemDataSciences/inscription-au-seminaire-du-6-juin

Séminaire d’équipe – Invitée : Linda VAN DER GAAG (Université d’Utrecht, Pays-Bas)

L’équipe DUKe a la chance d’accueillir Linda van der Gaag, Professeur à l’Universiteit Utrecht (Pays-Bas), avec le soutien de la Région et du programme « Attractivité » du RFI Atlanstic 2020.

Dans le cadre de cette visite, Linda van der Gaag fera une présentation intitulée « From the Reverend Bayes to Bayesian Networks »

lundi 29 avril, à partir de 11h15, en salle D118 du bâtiment IRESTE sur le site de Polytech.

Résumé : When the English Reverend Bayes was thinking about probabilities and likelihoods, he could not foresee that Bayes’ rule would be a key concept in probability theory more than two centuries later and that Bayesian statistics would then still be controversial. In this talk, we trace some of the history of Bayes’ legacy to current times, and argue that Bayesian networks as graphical models of probability perfectly fit into this legacy. 

Soutenance de thèse de Tarek BENKHELIF (équipe DUKe)

Tarek Benkhelif, doctorant au sein de l’équipe DUKe, soutiendra sa thèse intitulée « Publication de données individuelles respectueuse de la vie privée : Une démarche fondée sur le co-clustering » / « Privacy preserving microdata publishing »

mardi 27 novembre à 14h, dans l’amphi 2 du bâtiment IRESTE à Polytech.

Jury : Marc Gelgon (directeur), Guillaume Raschia (co directeur), Benjamin Nguyen (Rapporteur, INSA Centre Val de Loire), Christophe Rosenberger (Rapporteur, ENSI CAEN), Pierre Gancarski (UNISTRA), Maryline Laurent (Telecom Sud Paris), Matthieu Grall (invité, CNIL), Françoise FESSANT (Orange Labs Lannion, invitée)

Résumé :
Il y a une forte demande économique et citoyenne pour l’ouverture des données individuelles. Cependant, la publication de telles données représente un risque pour les individus
qui y sont représentés. Cette thèse s’intéresse à la problématique de l’anonymisation de tables de données multidimensionnelles contenant des données individuelles dans un objectif de publication.
On se concentrera plus particulièrement sur deux familles d’approches pour l’anonymisation: la première vise à fondre chaque individu dans un groupe d’individus, la deuxième est basée sur l’ajout d’un bruit perturbateur aux données originales. Deux nouvelles approches sont développées dans le cadre de l’anonymisation par groupe, elles consistent à agréger les données à l’aide d’une technique de coclustering puis à utiliser le modèle produit, pour générer des enregistrements synthétiques, dans le cas de la première solution.
La deuxième proposition quant à elle, cherche à atteindre le formalisme du k-anonymat. Enfin, nous présentons DPCocGen un nouvel algorithme d’anonymisation respectueux de la confidentialité différentielle. Tout d’abord, un partitionnement sur les domaines est utilisé pour générer un histogramme multidimensionnel bruité, un co-clustering
multidimensionnel est ensuite effectué sur l’histogramme bruité résultant en un schéma de partitionnement. Enfin, le schéma obtenu est utilisé pour partitionner les données originales de manière différentiellement privée. Des individus synthétiques peuvent alors être tirés des partitions.

Mots-clés : protection de la vie privée, k-anonymat, confidentialité différentielle

**********

Abstract:
There is a strong economic and civic demand for the opening of individual data. However, the publication of such data poses a risk to the individuals represented in it. This
thesis focuses on the problem of anonymizing multidimensional data tables containing individual data for publishing purposes. In particular, two data anonymization approaches families will be focused on: the first aims to merge each individual into a group of individuals, the second is based on the addition of disruptive noise to the original data. Two new approaches are developed in the context of group anonymization. They aggregate the data using a co-clustering technique and then use the produced model, to generate synthetic records, in the case of the first solution. While the second proposal seeks to achieve the formalism of k-anonymity. Finally, we present a new anonymization algorithm “DPCocGen” that ensures differential privacy. First, a data-independent partitioning on the domains is used to generate a perturbed multidimensional histogram, a multidimensional co-clustering is then performed on the noisy histogram resulting in a partitioning scheme. Finally, the resulting schema is used to partition the original data in a differentially
private way. Synthetic individuals can then be drawn from the partitions.

Keywords: privacy preserving data publishing, k-anonymity, differential privacy

Soutenance de thèse de Wissam SIBLINI (équipe DUKe)

Wissam Siblini, doctorant au sein de l’équipe DUKe, soutiendra sa thèse intitulée « Apprentissage multi-label extrême : Comparaisons d’approches et nouvelles propositions »

vendredi 23 novembre à 14h, à Polytech, en salleD004 bâtiment Ireste.

Jury : Pascale Kuntz (Directrice de thèse), Amaury Habrard (Rapporteur, U Jean Monnet St Etienne), Stéphane Canu (Rapporteur, INSA Rouen), Elisa Fromont (IRISA, autre membre), Jean Michel Poggi (U Paris Descartes, autre membre), Franck Meyer (Orange Labs Lannion, invité)

Résumé :
Stimulé par des applications comme l’annotation de documents ou d’images, l’apprentissage multi-label a connu un fort développement cette dernière décennie. Mais les algorithmes classiques se heurtent aux nouveaux volumes des données multi-label extrême (XML) où le nombre de labels peut atteindre le million. Cette thèse explore trois directions pour aborder la complexité en temps et en mémoire du problème : la réduction de dimension multi-label, les astuces d’optimisation et d’implémentation et le découpage arborescent. Elle propose d’unifier les approches de réduction à travers une typologie et deux formulations génériques et d’identifier des plus performantes avec une méta-analyse originale des résultats de la littérature. Une nouvelle approche est développée pour analyser l’apport du couplage entre le problème de réduction et celui de classification. Pour réduire la complexité mémoire en maintenant les capacités prédictives, nous proposons également un algorithme d’estimation des plus grands paramètres utiles d’un modèle classique de régression one-vs-rest qui suit une stratégie inspirée de l’analyse de données en flux. Enfin, nous présentons un nouvel algorithme CRAFTML qui apprend un ensemble d’arbres de décision diversifiés. Chaque arbre effectue une réduction aléatoire conjointe des espaces d’attributs et de labels et implémente un partitionnement récursif très rapide. CRAFTML est plus performant que les autres méthodes arborescentes XML et compétitif avec les meilleures méthodes qui nécessitent des supercalculateurs. Les apports de la thèse sont complétés par la présentation d’un outil logiciel VIPE développé avec Orange Labs pour l’analyse d’opinions multi-label.

Mots-clés : multi-label extrême, réduction de dimension, arbre de décision, méthodes économes

***********

Title: Extreme multi-label learning: comparisons of approaches and new proposals

Abstract : Stimulated by many applications such as documents or images annotation, multi- label learning have gained a strong interest during the last decade. But, standard algorithms cannot cope with the volumes of the recent extreme multi-label data (XML) where the number of labels can reach millions. This thesis explores three directions to address the complexity in time and memory of the problem: multi-label dimension reduction, optimization and implementation tricks, and tree-based methods. It proposes to unify the reduction approaches through a typology and two generic formulations and to identify the most efficient ones with an original meta-analysis of the results of the literature. A new approach is developed to analyze the interest of coupling the reduction problem and the classification problem. To reduce the memory complexity of a classical one-vs-rest regression model while maintaining its predictive performances, we also propose an algorithm for estimating the largest useful parameters that follows a strategy inspired by data stream analysis. Finally, we present a new algorithm called CRAFTML that learns an ensemble of diversified decision trees. Each tree performs a joint random reduction of the feature and the label spaces and implements a very fast recursive partitioning strategy. CRAFTML performs better than other XML tree-based methods and is competitive with the most accurate methods that require supercomputers. The contributions of the thesis are completed by the presentation of a software called VIPE that is developed with Orange Labs for multi- label opinion analysis.

Keywords: extreme multi-label, dimensionality reduction, decision tree, efficient methods

 

 

Copyright : LS2N 2017 - Mentions Légales - 
 -