Home » Évènement

Journée DAHLIA : « Informatique et Humanités numériques : quelles problématiques pour quels domaines ? »

Les équipes DUKe et IS3P accueilleront le groupe de travail DAHLIA (Digital Humanities and cultural Heritage) le 28 juin 2019 dans l’amphi du bât. 34 sur le site de la FST.

Cette journée a pour objectif de permettre à la communauté cartographiée dans le cadre du groupe de travail de se retrouver, pour une deuxième journée d’échanges. De plus, cette journée devrait permettre aux étudiants en thèse de présenter leurs travaux. Dans le cadre de cet atelier, des travaux autours des humanités numériques et du patrimoine culturel seront présentés ; ces travaux idéalement devraient s’encadrer dans les thématiques d’EGC, notamment la gestion et l’analyse de données ou des connaissances provenant des SHS/patrimoine.

Un appel à communications est lancé avec un retour des résumés demandé pour le 15/06/2019.

Plus d’infos : http://dahlia.egc.asso.fr/journeeDAHLIA2019Nantes.html

Contact : Claudia Marinica – Claudia.Marinica@u-cergy.fr

Journée Scientifique Data Science, Intelligence Artificielle et Éducation

Les équipes DUKe et TALN du LS2N organisent avec le CREN une journée scientifique « Data Science, IA et Éducation » le 21 juin à la Cité des Congrès.

L’objectif de ce colloque est d’offrir un panorama de ces différentes initiatives aux membres de ces projets, ainsi qu’à d’autres acteurs – enseignants, responsables pédagogiques équipes de recherches, entreprises…- intéressés par le sujet, afin d’échanger autour des problématiques scientifiques voire de susciter de futures collaborations. Il permettra également d’aborder des problématiques transversales plus larges autour des questions d’éthique, de pédagogie et de nouvelles pratiques rendues possibles par ces outils.

Le site de la journée est https://aile.comin-ocw.org/js.html

Séminaire inter-établissements de Sciences des Données – Invité : Jean-Gabriel GANASCIA

Le prochain séminaire inter-établissements de sciences des données aura lieu jeudi 6 juin 2019 à partir de 14h, dans l’amphi du bâtiment S (LS2N) sur le site de Centrale Nantes.

Il s’articulera autour deux exposés (14h00-17h00) :

  • Jean-Gabriel Ganascia (PR à l’Université Pierre et Marie Curie, membre de l’Institut universitaire de France et président du Comité d’éthique du CNRS (Comets) depuis le 1er septembre 2016) : « Ethique et épistémologie des données« 
  • Marie Ekeland (Co-fondatrice d’un fond de placement d’envergure internationale spécialisé dans l’économie numérique) : « Economie, société, humanisme : quels enjeux pour le numérique de demain ?« 

Résumé exposé1 : Qu’il s’agisse de protéger l’intimité la vie privée, l’anonymat ou la propriété, d’encourager le partage, voire de garantir l’absence de biais, les questions éthiques suscitées par la captation et l’exploitation des données sont à la fois nombreuses et anciennes. Or, l’approche de ces questions varie dans le temps et selon les cultures. De plus, certaines prescriptions morales, comme l’impartialité dans la collecte ou les principes de finalité et de proportionnalité de la CNIL, vont à l’encontre des postulats épistémologiques posés par les zélateurs les plus enflammés des masses de données. Il s’agira là de présenter ces problématiques éthiques et de les mettre en regard des questions fondamentales suscitées par la science des données.

En savoir plus.

Inscription en ligne : https://www.math.sciences.univ-nantes.fr/SemDataSciences/inscription-au-seminaire-du-6-juin

Séminaire d’équipe – Invitée : Linda VAN DER GAAG (Université d’Utrecht, Pays-Bas)

L’équipe DUKe a la chance d’accueillir Linda van der Gaag, Professeur à l’Universiteit Utrecht (Pays-Bas), avec le soutien de la Région et du programme « Attractivité » du RFI Atlanstic 2020.

Dans le cadre de cette visite, Linda van der Gaag fera une présentation intitulée « From the Reverend Bayes to Bayesian Networks »

lundi 29 avril, à partir de 11h15, en salle D118 du bâtiment IRESTE sur le site de Polytech.

Résumé : When the English Reverend Bayes was thinking about probabilities and likelihoods, he could not foresee that Bayes’ rule would be a key concept in probability theory more than two centuries later and that Bayesian statistics would then still be controversial. In this talk, we trace some of the history of Bayes’ legacy to current times, and argue that Bayesian networks as graphical models of probability perfectly fit into this legacy. 

Soutenance de thèse de Tarek BENKHELIF (équipe DUKe)

Tarek Benkhelif, doctorant au sein de l’équipe DUKe, soutiendra sa thèse intitulée « Publication de données individuelles respectueuse de la vie privée : Une démarche fondée sur le co-clustering » / « Privacy preserving microdata publishing »

mardi 27 novembre à 14h, dans l’amphi 2 du bâtiment IRESTE à Polytech.

Jury : Marc Gelgon (directeur), Guillaume Raschia (co directeur), Benjamin Nguyen (Rapporteur, INSA Centre Val de Loire), Christophe Rosenberger (Rapporteur, ENSI CAEN), Pierre Gancarski (UNISTRA), Maryline Laurent (Telecom Sud Paris), Matthieu Grall (invité, CNIL), Françoise FESSANT (Orange Labs Lannion, invitée)

Résumé :
Il y a une forte demande économique et citoyenne pour l’ouverture des données individuelles. Cependant, la publication de telles données représente un risque pour les individus
qui y sont représentés. Cette thèse s’intéresse à la problématique de l’anonymisation de tables de données multidimensionnelles contenant des données individuelles dans un objectif de publication.
On se concentrera plus particulièrement sur deux familles d’approches pour l’anonymisation: la première vise à fondre chaque individu dans un groupe d’individus, la deuxième est basée sur l’ajout d’un bruit perturbateur aux données originales. Deux nouvelles approches sont développées dans le cadre de l’anonymisation par groupe, elles consistent à agréger les données à l’aide d’une technique de coclustering puis à utiliser le modèle produit, pour générer des enregistrements synthétiques, dans le cas de la première solution.
La deuxième proposition quant à elle, cherche à atteindre le formalisme du k-anonymat. Enfin, nous présentons DPCocGen un nouvel algorithme d’anonymisation respectueux de la confidentialité différentielle. Tout d’abord, un partitionnement sur les domaines est utilisé pour générer un histogramme multidimensionnel bruité, un co-clustering
multidimensionnel est ensuite effectué sur l’histogramme bruité résultant en un schéma de partitionnement. Enfin, le schéma obtenu est utilisé pour partitionner les données originales de manière différentiellement privée. Des individus synthétiques peuvent alors être tirés des partitions.

Mots-clés : protection de la vie privée, k-anonymat, confidentialité différentielle

**********

Abstract:
There is a strong economic and civic demand for the opening of individual data. However, the publication of such data poses a risk to the individuals represented in it. This
thesis focuses on the problem of anonymizing multidimensional data tables containing individual data for publishing purposes. In particular, two data anonymization approaches families will be focused on: the first aims to merge each individual into a group of individuals, the second is based on the addition of disruptive noise to the original data. Two new approaches are developed in the context of group anonymization. They aggregate the data using a co-clustering technique and then use the produced model, to generate synthetic records, in the case of the first solution. While the second proposal seeks to achieve the formalism of k-anonymity. Finally, we present a new anonymization algorithm “DPCocGen” that ensures differential privacy. First, a data-independent partitioning on the domains is used to generate a perturbed multidimensional histogram, a multidimensional co-clustering is then performed on the noisy histogram resulting in a partitioning scheme. Finally, the resulting schema is used to partition the original data in a differentially
private way. Synthetic individuals can then be drawn from the partitions.

Keywords: privacy preserving data publishing, k-anonymity, differential privacy

Soutenance de thèse de Wissam SIBLINI (équipe DUKe)

Wissam Siblini, doctorant au sein de l’équipe DUKe, soutiendra sa thèse intitulée « Apprentissage multi-label extrême : Comparaisons d’approches et nouvelles propositions »

vendredi 23 novembre à 14h, à Polytech, en salleD004 bâtiment Ireste.

Jury : Pascale Kuntz (Directrice de thèse), Amaury Habrard (Rapporteur, U Jean Monnet St Etienne), Stéphane Canu (Rapporteur, INSA Rouen), Elisa Fromont (IRISA, autre membre), Jean Michel Poggi (U Paris Descartes, autre membre), Franck Meyer (Orange Labs Lannion, invité)

Résumé :
Stimulé par des applications comme l’annotation de documents ou d’images, l’apprentissage multi-label a connu un fort développement cette dernière décennie. Mais les algorithmes classiques se heurtent aux nouveaux volumes des données multi-label extrême (XML) où le nombre de labels peut atteindre le million. Cette thèse explore trois directions pour aborder la complexité en temps et en mémoire du problème : la réduction de dimension multi-label, les astuces d’optimisation et d’implémentation et le découpage arborescent. Elle propose d’unifier les approches de réduction à travers une typologie et deux formulations génériques et d’identifier des plus performantes avec une méta-analyse originale des résultats de la littérature. Une nouvelle approche est développée pour analyser l’apport du couplage entre le problème de réduction et celui de classification. Pour réduire la complexité mémoire en maintenant les capacités prédictives, nous proposons également un algorithme d’estimation des plus grands paramètres utiles d’un modèle classique de régression one-vs-rest qui suit une stratégie inspirée de l’analyse de données en flux. Enfin, nous présentons un nouvel algorithme CRAFTML qui apprend un ensemble d’arbres de décision diversifiés. Chaque arbre effectue une réduction aléatoire conjointe des espaces d’attributs et de labels et implémente un partitionnement récursif très rapide. CRAFTML est plus performant que les autres méthodes arborescentes XML et compétitif avec les meilleures méthodes qui nécessitent des supercalculateurs. Les apports de la thèse sont complétés par la présentation d’un outil logiciel VIPE développé avec Orange Labs pour l’analyse d’opinions multi-label.

Mots-clés : multi-label extrême, réduction de dimension, arbre de décision, méthodes économes

***********

Title: Extreme multi-label learning: comparisons of approaches and new proposals

Abstract : Stimulated by many applications such as documents or images annotation, multi- label learning have gained a strong interest during the last decade. But, standard algorithms cannot cope with the volumes of the recent extreme multi-label data (XML) where the number of labels can reach millions. This thesis explores three directions to address the complexity in time and memory of the problem: multi-label dimension reduction, optimization and implementation tricks, and tree-based methods. It proposes to unify the reduction approaches through a typology and two generic formulations and to identify the most efficient ones with an original meta-analysis of the results of the literature. A new approach is developed to analyze the interest of coupling the reduction problem and the classification problem. To reduce the memory complexity of a classical one-vs-rest regression model while maintaining its predictive performances, we also propose an algorithm for estimating the largest useful parameters that follows a strategy inspired by data stream analysis. Finally, we present a new algorithm called CRAFTML that learns an ensemble of diversified decision trees. Each tree performs a joint random reduction of the feature and the label spaces and implements a very fast recursive partitioning strategy. CRAFTML performs better than other XML tree-based methods and is competitive with the most accurate methods that require supercomputers. The contributions of the thesis are completed by the presentation of a software called VIPE that is developed with Orange Labs for multi- label opinion analysis.

Keywords: extreme multi-label, dimensionality reduction, decision tree, efficient methods

 

 

Emission du Labo des Savoirs avec Pascale Kuntz et Florent Laroche

Pascale Kuntz (équipe DUKe) et Florent Laroche (équipe IS3P) interviendront mercredi 14 novembre 2018  à 19h dans l’émission de la radio associative Le Labo des savoirs intitulée « Dataquid comment faire parler les données ? »

Pitch :
Elles sont tout autour de nous, elles sont de nature très diverses et elles sont produites à l’heure actuelle en des quantités industrielles sans cesse croissantes. Elles, ce sont “les données”. Cela peut être des suppositions, constatations, probabilités, qui, étant indiscutables ou indiscutées, servent de base à une recherche, à un examen quelconque.
Pour tirer des informations de nos données, on entraîne des algorithmes à en digérer de grandes quantités. Mais on peut aussi chercher des moyens de représentation. Comment ces outils de visualisation permettent-ils aux chercheurs et chercheuses de travailler ? Comment sont-ils conçus ? Comment les améliorer ?

A écouter en direct sur la radio Prun’ 92 FM !

Soutenance de thèse de Romain RINCE (équipe DUKe)

Romain Rincé, doctorant au sein de l’équipe DUKe, soutiendra sa thèse intitulée « Behaviour Recognition on Noisy Data-Streams Constrained by complex Prior Knowledge »

mercredi 7 novembre 2018 à 14h, à ONERA Palaiseau (salle J. Dorey, bâtiment J3).

Jury : Philippe Leray (Directeur), Romain Kervarc (co encadrant ONERA, Audine Subias (Rapporteur, LAAS), Thomas Schiex (Rapporteur, INRA MIAT), Benoit Delahaye, Céline Rouveriol (LIPN), Jean Loup Farges (ONERA Toulouse, Invité)pe

Soutenance de thèse de Marwa EL ABRI (équipe DUKe)

Marwa El Abri, doctorante au sein de l’équipe DUKe, soutiendra sa thèse intitulée « Apprentissage des Modèles Probabilistes Relationnels à partir des Bases de Données Graphe »

Mardi 2 octobre à partir de 9h30, à Polytech.

Jury : Philippe Leray (directeur de thèse), Nadia Essoussi (co directrice, ISG Tunis), Simon de Givry (rapporteur, INRA Toulouse), Nicolas Lachiche (U Strasbourg ICube), Nahla Ben Amor (ISG Tunis), Emmanuel Mazer (Inria Rhône Alpes)

Régis Gras, professeur émérite du LS2N (équipe DUKe), publie un nouvel ouvrage sur l’A.S.I. aux éditions Cépaduès

La théorie de l’Implication Statistique ou l’Invraisemblance du faux.
Cépaduès, mai 2018.
Auteur : Régis GRAS, Professeur émérite, LS2N/DUKe
Préface : Pascale KUNTZ, Professeur, LS2N/DUKe

Cet ouvrage récapitule les méthodes et les concepts fondés initialement par Régis Gras au cours des années 80 pour évaluer, de façon nouvelle, des performances d’élèves français à des épreuves de mathématiques. Grâce aux nombreux travaux de Régis Gras et ses collègues, l’Analyse Statistique Implicative (A.S.I.), se présente maintenant comme une large méthode d’Intelligence Artificielle visant l’extraction de causalités sous forme de règles, mais aussi de règles de règles, dans un ensemble de variables de nature variée. Elle est basée, de façon originale, sur l’invraisemblance de l’existence de ces relations, c’est-à-dire sur la faiblesse relative de leurs contre-exemples par rapport à ce que donnerait le hasard seul. L’ AS.I. a été appliquée dans des domaines variés comme la psychologie, la sociologie, la médecine, la biologie, l’économie, l’histoire de l’art, etc.

Tous ces travaux ont fait l’objet de plusieurs ouvrages, principalement chez Cépaduès, mais aussi chez Springer ou à la Pensée Sauvage éditions, en Didactique des Mathématiques. Dans ce nouvel ouvrage, de nombreuses situations problématisées et illustrées, sont présentées et des exemples numériques sont traités à des fins didactiques.

Notons que de nombreux collègues de l’équipe DUKe du LS2N ont participé aux colloques centrés sur l’ASI et sur CHIC – son logiciel de traitement des données- et ont collaboré au développement et à l’illustration de l’ASI. Citons particulièrement Pascale Kuntz, Fabrice Guillet, et Gérard Ramstein.

Informations et achat en ligne sur le site de l’éditeur.

Copyright : LS2N 2017 - Mentions Légales - 
 -