Home » Évènement

Soutenance de thèse de Gaëlle Jouis

Gaëlle Jouis, doctorante au sein des équipes DUKE et IPI, soutiendra sa thèse intitulée  » Explicabilité des modèles profonds et méthodologie pour son évaluation : application aux données textuelles de Pôle emploi » / «  Explainability of deep models and methodology for its evaluation: application to textual data from Pôle emploi »

Le 14 février à 14h, amphi 1, bâtiment Ireste à Polytech.

Résumé:

L’intelligence Artificielle fait partie de notre quotidien. Les modèles développés sont de plus en plus complexes. Les régulations telles que la Loi Pour une République Numérique orientent les développements logiciels vers plus d’éthique et d’explicabilité. Comprendre le fonctionnement des modèles profonds a un intérêt technique et humain. Les solution proposées par la communauté sont nombreuses, et il n’y a pas de méthode miracle répondant à toutes les problématiques.

Nous abordons la question suivante : comment intégrer l’explicabilité dans un projet d’IA basé sur des techniques d’apprentissage profond?

Après un état de l’art présentant la richesse de la littérature du domaine, nous présentons le contexte et les prérequis de nos travaux. Ensuite nous présentons un protocole d’évaluation d’explications locales et une méthodologie modulaire de caractérisation globale du modèle. Enfin, nous montrons que nos travaux sont intégrés à leur environnement industriel. Ces travaux résultent en l’obtention d’outils concrets permettant au lecteur d’appréhender la richesse des outils d’explicabilité à sa disposition

Abstract:

Artificial intelligence is part of our daily life. The models developed are more and more complex. Regulations such as the French Law for a Digital Republic (Loi Pour une République Numérique) are directing software development towards more ethics and explainability. Understanding the functioning of deep models is of technical and human interest. The solutions proposed by the community are numerous, and there is no miracle method that answers all the problems. We address the following question: how to integrate explainability in an AI project based on deep learning techniques?

After a state of the art presenting the richness of the literature in the field, we present the context and rerequisites for our work. Then we present a protocol for evaluating local explanations and a modular methodology for global model characterization. Finally, we show that our work is integrated into its industrial environment. This work results in concrete tools allowing the reader to apprehend the richness of the explicability tools at their disposal.

 

Soutenance de thèse de Ali AK (équipe IPI)

Ali Ak, doctorant au sein de l’équipe IPI, soutiendra sa thèse intitulée « Évaluation de la qualité perceptuelle de contenus multimédias immersifs : HDR, champs lumineux et vidéos volumétriques » / « Perceptual quality evaluation of immersive multimedia content: HDR, Light Field and Volumetric Video »

lundi 24 janvier 2022 à

Jury :
– Directeur de thèse : Patrick LE CALLET – Professeur, Université de Nantes
– Rapporteurs : Maria MARTINI – Professeure, Kingston University ; Aladine CHETOUANI – Maître de conférence, HDR, Université d’Orléans
– Autres membres : Søren FORCHAMMER – Professeur, Technical University of Denmark; Frédéric DUFAUX -Directeur de Recherche CNRS, Paris Saclay ; Federica BATTISTI -Ass. Professeure, University of Padova

Résumé : Des formats multimédias immersifs ont émergé comme un puissant canevas dans de nombreuses disciplines pour offrir une expérience utilisateur hyperréaliste. Ils peuvent prendre de nombreuses formes, telles que des images HDR, des champs lumineux, des nuages de points et des vidéos volumétriques. L’objectif de cette thèse est de proposer de nouvelles méthodologies pour l’évaluation de la qualité de tels contenus. La première partie de la thèse porte sur l’évaluation subjective de la qualité d’image. Plus précisément, nous proposons une stratégie de sélection de contenu et d’observateurs, ainsi qu’une analyse approfondie de la fiabilité des plate-formes de crowdsourcing pour collecter des données subjectives à grande échelle. Nos résultats montrent une amélioration de la fiabilité des annotations subjectives collectées et répondent aux exigences liées en crowdsourcing à la reproduction d’expériences menés en laboratoire. La deuxième partie contribue à l’évaluation objective de la qualité avec une métrique de qualité d’image basée sur l’apprentissage automatique utilisant les informations de seuil de discrimination, et une métrique de qualité d’image pour les champs lumineux sans référence basée sur des représentations d’images planes épipolaires. Enfin, nous étudions l’impact des méthodologies d’agrégation temporel sur les performances des métriques de qualité objective pour les vidéos volumétriques. Dans l’ensemble, nous démontrons comment nos résultats peuvent être utilisés pour améliorer l’optimisation des outils de traitement pour les contenus multi-médias immersifs.

Mots-clés : Évaluation de la qualité, médias immersifs, mappage ton local, champs lumineux, vidéo volumétrique

—————————————————————————————————————————————————————————————————————————————————————-
Abstract: Immersive multimedia formats emerged as a powerful canvas in numerous disciplines for delivering hyper-realistic user experience. They can take many forms, such as HDR images, Light Fields, Point Clouds,and Volumetric Videos. The goal of this thesis is to propose novel methodologies for the quality assessment of such multimedia content. The first part of the thesis focuses on subjective image quality assessment. More specifically, we propose a content selection strategy, observer screening tools, and an extensive analysis on the reliability of crowdsourcing platforms to produce a large-scale dataset. Our findings improve the reliability
of the collected subjective annotations and address issues to transfer laboratory experiments into crowdsourcing. The second part contributes to the objective quality evaluation with a learning-based image quality metric utilizing the just noticeable difference information and a no-reference light field image qualitymetric based on epipolar plane image representations. Finally, we investigate the impact of temporal pooling methodologies in objective quality metric performances for volumetric videos. Overall, we demonstrate how our findings can be used to improve the optimization of processing tools for immersive multimedia content.

Keywords: Quality evaluation, immersive media, tone mapped images, light fields, volumetric video

 

 

Atelier « Réalité virtuelle pour la psychiatrie : données comportementales et expérientielles » dans le cadre du projet projet « DataSanté: médecine personnalisée et données en grand nombre »

Dans le cadre des ateliers interdisciplinaires du projet « DataSanté: médecine personnalisée et données en grand nombre »

https://www.data-sante.fr/presentation/le-programme-datasante/

une présentation sera faite le mercredi 8 décembre, de 14h à 16h,au Centre François Viète (UFR Sciences et Techniques):

Titre: Réalité virtuelle pour la psychiatrie : données comportementales et expérientielles

Interventions de Yannick Prié (LS2N, Université de Nantes), Toinon Vigier (LS2N, Université de Nantes) et Samuel Buteau (INSERM – SPHERE, CHU de Nantes)

https://www.data-sante.fr/event/realite-virtuelle-et-psychiatrie/

Séminaire IPI avec Abdul Rahim Ahmad (Universiti Tenaga Nasional)

L’équipe IPI accueille actuellement Abdul Rahim Ahmad, Associate Professor au College of Computing and Informatics de l’Université Tenaga Nasional en Malaisie.
Ce dernier profitera de son séjour en France pour donner un séminaire ayant pour titre : « Artificial Intelligence Applications in Energy Sector : A case in Tenaga Nasional Berhad or TNB » (équivalent d’EDF en France)
jeudi 9 décembre 2021 de 11h15 à 12h15, à Polytech en salle D118.
Résumé :
Tenaga Nasional Berhad (TNB), is the sole company in the complete generation, transmission, and distribution spectrum of electricity in Malaysia, somewhat similar to « EDF » in France. Universiti Tenaga Nasional (UNITEN) is the private university which is a 100% owned subsidiary of TNB. UNITEN plays a role as one of the research institutions conducting research for TNB, getting a fair share of the funds allocated by TNB for academic research related to power sector. Another institution is the TNB Research (TNBR) which performs contract, targetted and commercial research.  This presentation provides some information about Research in UNITEN and TNBR, focusing on the uptake of the applications of Artificial Intelligence (AI) and related technologies in the Power sector within TNB with the hope that the information sharing may encourage future collaborations between UNITEN and Ecole Polytech Nantes.
NB : Les présentations sont disponibles sur le cloud.

Soutenance de thèse de Mona ABID (équipe IPI)

Mona Abid, doctorante au sein de l’équipe IPI, soutiendra sa thèse intitulée « Utilisation de l’attention visuelle sur les contenus 3D graphiques : De la modélisation à la mesure de la complexité attentionnelle et la prédiction de la préférence de vues » / « Visual attention on 3D graphical contents : From saliency modeling to attention complexity measures and viewpoint preference prediction »
mercredi 15 décembre 2021 à 13h30, dans l’Amphi 1 de l’IRESTE sur le site de Polytech.

Jury :
– Directeur de thèse : Patrick Le Callet – Professeur à l’université de Nantes
– Co-encadrant : Matthieu Perreira Da Silva – Maître de conférences à l’université de Nantes
– Rapporteurs : Giuseppe Valenzise – Chargé de Recherche, CNRS-HDR au L2S, Paris Saclay ; Lucile Sassatelli – Maîtresse de conférences, HDR à l’université Côte d’Azur
– Président : Guillaume Lavoué – Professeur des universités, Ecole Centrale de Lyon – ENISE
– Autres membres : Lina Karam – Professeure, Lebanese American University, Liban ; Giuseppe Valenzise – Chargé de Recherche, CNRS-HDR au L2S
– Invité : Isabelle Milleville – Chargée de Recherche, CNRS au LS2N

Résumé : L’attention visuelle est l’un des mécanismes les plus importants déployés par le système visuel humain pour réduire la quantité d’informations que le cerveau doit traiter. De plus en plus d’efforts ont été consacrés à l’étude de l’attention visuelle sur des images naturelles (image 2D). Cependant, peu de travaux ont été mené sur des contenus 3D, correspondant à des données plus complexes car elles incluent des informations sur la géométrie et les attributs d’apparence.  C’est cette problématique de l’attention visuelle sur les contenus 3D qui a principalement guidé notre démarche pour ces travaux de thèse.  Nos travaux sont principalement divisés en trois parties correspondants à trois niveaux conceptuels différents. La première partie de cette thèse correspond à un concept de bas niveau où nous proposons de prédire ce qui attire l’attention des individus lorsqu’ils observent des objets 3D en étudiant la validité des modèles et des hypothèses faites dans l’imagerie 2D. Ceci est très utile dans certains scénarios tels que le streaming interactif ou la visualisation des contenus 3D dans des applications de réalité virtuelle ou augmentée. La deuxième partie correspond à un concept de niveau intermédiaire où nous introduisons une mesure perceptuelle de la complexité de l’attentionelle qui est extraite à partir de l’information de la saillance. La mesure que nous proposons est utilisée dans l’évaluation de la qualité des contenus 3D ainsi que dans la caractérisation de ces contenus. La troisième partie traite un concept de plus haut niveau lié à la préférence de point de vue des objets graphiques 3D où nous montrons la pertinence d’un indicateur de complexité attentionelle, introduit dans la deuxième partie du manuscrit. Tout au long de la thèse, nous avons construit plusieurs bases de données d’objets 3D colorés et nous avons réalisé une série d’expériences subjectives pour différentes tâches, y compris des expériences de crowdsourcing comme alternatives aux expériences menées au laboratoire.

Mots-clés : Attention visuelle, contenus graphiques 3D, modélisation de la saillance, perception visuelle.

—————————————————————————————————————————————————————————————-
Abstract: Visual attention is one of the most important mechanisms deployed in the human visual system to reduce the amount of information that brain needs to process. In fact, an increasing amount of efforts have been dedicated in the studies of visual attention on natural images (2Dstimuli). However, less attention was made for 3D scenes which corresponds to a more complex data as it including the geometry and the appearance attributes information. In this thesis, we present studies focusing on several aspects of the researchof visual saliency. Our works is mainly divided into three parts including low level concept, mid level concept and higher level concept. The first part of this thesis addresses the low-level concept where we propose to predict where humans look when gazing 3D graphical objects by investigating the validity of the models and the hypothesis made in 2D imaging to 3D contents. This is very useful in certain scenarios such as interactive streaming or visualization of these contents in virtual or augmented reality applications. The second part corresponds to a mid-level concept where we introduce a perceptual measure for visual attention complexity which is pooled from the saliency information. Our proposed measure can be used to boost 3D-based quality assessment metrics and also for 3D content characterization . The third part explores a higher level concept related to view-point preference of 3D graphical objects where we show the relevance of the visual attention complexity feature. Along the thesis, we constructed several databases of colorful graphical 3D objects and we carried out a series of subjective experiments for different tasks, including crowd sourcing experiments as an alternative to in lab experiments.

Keywords: Visual attention, 3D graphical contents, saliency modeling, visual perception, attention complexity prediction, 3D immersive media.

Soutenance de thèse de Madhukar BHAT (équipe IPI)

Madhukar Bhat, doctorant au sein de l’équipe IPI soutiendra sa thèse intitulée « Optimisation perceptuelle et réduction de complexité d’encodage vidéo dans un contexte temps-réel » / « Perceptual optimization and complexity reduction for real-time video encoding »

lundi 7 juin 2021 à 14h en visio.

Lien Zoom : https://univ-nantes-fr.zoom.us/j/95145814230?pwd=anlMRXluUmVDaTd3bnRsOUFQUk14QT09
(Meeting ID: 951 4581 4230 / Passcode: 099949)

Jury :
– Directeur de thèse : Patrick Le Callet
– Rapporteurs : Mathias Wien (Privatdozent, RWTH Aachen, Allemagne), Marco Cagnazzo (Professeur, Telecom Paristech, Paris)
– Autres membres : Jean-Marc Thiesse (Chef de service Algorithmes , VITEC, Chatillon)
– Invitée : Mme Lu ZHANG, Maitre de conférences, INSA Rennes

Résumé : Cette thèse explore l’optimisation perceptuelle et la réduction de la complexité afin d’améliorer les schémas de compression vidéo dans un contexte d’encodage temps réel. Le travail est divisé en trois parties qui abordent plusieurs aspects d’amélioration l’encodage vidéo en temps réel. La première contribution introduit un filtre de prétraitement perceptuel basé sur un modèle du système visuel humain. Ce filtre de prétraitement peut être réglé et a été optimisé pour plusieurs conditions de visualisation. Une étude sur la précision de différentes métriques de qualité objective dans le cadre spécifique de la mesure des performances de pré-filtrage est également menée. La deuxième partie de la thèse propose une méthodologie basée sur la classification par apprentissage automatique pour prédire et sélectionner de manière adaptative la meilleure résolution d’encodage dans un scénario de codage en une passe. À cette fin, trois classificateurs différents ont été considérés : Support Vector Machine, Random Forest (RF) et Multi-Layer Perceptron. Dans le but d’évaluer et piloter le gain perceptif à un débit donné, plusieurs métriques de qualité objectives ont ensuite été caractérisées et comparées à plusieurs niveaux de qualité du point de vue de l’incertitude de la qualité subjective de la vérité terrain. En outre, une nouvelle métrique de fusion basée sur RF, subjectivement plus précise, a été introduite pour la formation des classificateurs. La dernière partie se concentre sur la prise en charge de la partie de codage la plus complexe du nouveau standard Versatile Video Coding (VVC) : la décision de partitionnement Multi-Type Tree. Une nouvelle méthode de partitionnement basée Machine Learning est proposée avec un design complet, adaptée à chaque type d’encodeur et particulièrement approprié pour un encodeur matériel temps réel. Une approche basée CNN a ainsi été utilisée, avec des classificateurs pour différents niveaux, formes et types de partitionnement. Cette méthode est finalement évaluée par rapport à une recherche exhaustive et démontre des performances prometteuses qui sont soigneusement analysées.

Mots-clés : Encodage matériel en temps réel, HEVC, VVC, Filtre de prétraitement perceptuel, Apprentissage automatique, Sélection de résolution adaptative, Partitionnement rapide

——————————————————————————————————————————————————————————————————————-

Abstract: This thesis explores perceptual optimization and complexity reduction towards improving video compression schemes in a real-time encoding context. Different strategies are proposed to address perceptual enhancements and complexity reduction. The work is divided into three main parts that tackle several aspects to improve realtime video encoding. The first contribution introduces a perceptual pre-processing filter based on a model of the Human Visual System. This preprocessing filter can be tuned and has been optimized for multiple viewing conditions. An investigation of objective quality metric’s accuracy in measuring the performance of pre-processing is also reported. The second part of the thesis proposes a machine learning classification-based methodology to adaptively predict and select the best encoding resolution in a single-pass encoding scenario. For this purpose, three different classifiers have been considered: Support Vector Machine, Random Forest (RF), and Multi-Layer Perceptron. Several objective quality metrics have been characterized and benchmarked for various quality ranges concerning the uncertainty of subjective quality ground-truth to evaluate and drive the perceptual gain at a given bitrate.
Also, a new, subjectively more accurate RFbased fusion metric has been introduced for the classifier training. The final part focuses on tackling the most challenging encoding part of the new Versatile Video Coding (VVC) standard: the Multi-Type Tree partitioning decision. A new ML-based partitioning method is proposed with a complete design, suitable for every encoder but even more adapted for real-time hardware encoder. A CNN-based approach was considered, offering classifiers for different coding unit depth, shapes, and picture types. This method is finally evaluated against exhaustive search and demonstrate promising performance which are carefully analyzed.

Keywords: Real-time hardware encoding, HEVC , VVC , Perceptual pre-processing filter, Machine learning, Adaptive resolution selection, Fast parititioning

🏆 Un Emmy pour IPI !

Revenons sur un événement qui a fait la « une » de notre newsletter et qui est paru dans de nombreux médias : l’Université de Nantes a gagné un Emmy Award !
Quelles étaient les problématiques scientifiques qui nous ont menés à cette récompense ?

Citons d’abord quelques mots sur l’équipe. Il s’agit de travaux de recherche coordonnés par Patrick Le Callet, professeur des Universités au sein de l’équipe IPI, accompagné de :

  • Lukas Krasula, post-doctorant LS2N/IPI (ancien doctorant IRCCyN/IVC), et aujourd’hui chercheur chez Netflix,
  • Yoann Baveye, ingénieur de recherche Capacités,
  • Suiyi Ling, ingénieur de recherche Capacités (ancien doctorant LS2N/IPI)
  • et Jing Li, post-doctorante LS2N/IPI (ancienne doctorante IRCCyN/IVC)
    en collaboration étroite avec la cellule iXpel de Capacités.

Ces recherches font bien sûr écho aux activités menées dans l’équipe IPI – antérieurement IVC – depuis de nombreuses années, en interdisciplinarité et suivant les idées visionnaires de Dominique Barba, premier Professeur recruté à l’IRESTE (qui formera Polytech Nantes avec l’ISITEM et l’ESA IGELEC en 2000) et ex directeur-adjoint de l’IRCCyN, aux côtés de Jean-François Lafay.
La problématique générale est l’utilisation de tests subjectifs (évalués par des utilisateurs) réalisés sur des contenus multimédia (images fixes ou vidéo) pour optimiser des algorithmes de compression des images. Les algorithmes existants ont de nombreux paramètres ; la question est de choisir la meilleure configuration pour minimiser la quantité de données utilisée (à stocker ou à transporter) tout en maximisant la qualité d’expérience utilisateur.

Ce qui fait l’originalité des travaux récompensés ici, c’est l’utilisation de l’IA (principalement du deeplearning) pour booster les différentes étapes du processus :

Ce projet est aussi original par d’autres aspects. En grande partie financé via des fonds collectés par la Fondation de l’Université de Nantes, le projet est complètement orienté « open innovation » et a bénéficié de collaborations / échanges avec d’autres acteurs, universités américaines et géants du numérique, travaillant dans ce même cadre d’innovation ouverte. Les résultats sont tous directement disponibles en open source pour toutes les communautés. Ils ont bénéficié d’une tribune sur des démonstrateurs à très grande échelle, sur tous les continents, et ont de fait séduit et été adoptés par quasiment tous les ingénieurs travaillant dans le domaine de la diffusion multimédia.
Ce circuit court entre recherche – innovation jusqu’à faire partie de la boîte à outils de tous les ingénieurs du domaine est singulier.

Au-delà de leur aspect philanthropique, les travaux portent d’autres belles valeurs, adressant des objectifs de développement durable, notamment la réduction de l’empreinte carbone de la diffusion numérique, mais aussi de limitation de l’exclusion numérique en favorisant la diffusion des contenus culturels (et pas seulement ceux de Netflix) sur des infrastructures réseaux à débit limité.

Il reste encore beaucoup à faire, notamment pour les contenus générés / produits par le grand public, qui nécessitent de nouvelles recettes (respectueuses notamment de la confidentialité). Mais d’autres dons arrivent, donc à suivre !…

***************

NB : Retrouvez tous les articles et interviews dans la rubrique « revue de presse » de la LS2News.

L’Université de Nantes récompensée d’un Emmy® Award !

Et l’Emmy® Award est attribué à…. l’Université de Nantes !

« Très heureux et fier de vous annoncer que l’Université de Nantes est la 1ère université française à obtenir un Emmy® Award de la technologie et de l’ingénierie par l’Académie nationale américaine des arts et des sciences de la télévision (72ème édition de ce prix) pour sa collaboration avec Netflix par la NATAS !

C’est seulement la 2ème fois en 20 ans qu’une université est récompensée ! »

Patrick Le Callet (équipe IPI), la Fondation de l’Université, Capacités, ont été félicités pour une innovation ouverte (open innovation) fruit d’une collaboration exemplaire entre acteurs industriels et institutions académiques (3 universités, 2 américaines, et le LS2N).

« Nous sommes co-primés pour les outils « ouverts » pour optimiser la qualité perceptuelle de la compression vidéo. C’est en lien avec les choses que nous faisons notamment avec/grâce à Netflix dont vous avez sûrement déjà entendu parlé. » Patrick Le Callet

Patrick Le Callet est très heureux que soit mis ainsi en lumière une démarche d’open innovation, le continuum naturel de la science ouverte.

La cérémonie de remise des prix aura lieu en octobre 2021.

Copyright : LS2N 2017 - Mentions Légales - 
 -