Home » évènement

Soutenance de thèse de Mona ABID (équipe IPI)

Mona Abid, doctorante au sein de l’équipe IPI, soutiendra sa thèse intitulée « Utilisation de l’attention visuelle sur les contenus 3D graphiques :De la modélisation à la mesure de la complexité attentionnelle et la prédiction de la préférence de vues » / « Visual attention on 3D graphical contents : From saliency modeling to attention complexity measures and viewpoint preference prediction »
mercredi 15 décembre 2021 à 13h30, dans l’Amphi 1 de l’IRESTE sur le site de Polytech.

Jury :
– Directeur de thèse : Patrick Le Callet – Professeur à l’université de Nantes
– Co-encadrant : Matthieu Perreira Da Silva – Maître de conférences à l’université de Nantes
– Rapporteurs : Giuseppe Valenzise – Chargé de Recherche, CNRS-HDR au L2S, Paris Saclay ; Lucile Sassatelli – Maîtresse de conférences, HDR à l’université Côte d’Azur
– Président : Guillaume Lavoué – Professeur des universités, Ecole Centrale de Lyon – ENISE
– Autres membres : Lina Karam – Professeure, Lebanese American University, Liban ; Giuseppe Valenzise – Chargé de Recherche, CNRS-HDR au L2S
– Invité : Isabelle Milleville – Chargée de Recherche, CNRS au LS2N

Résumé : L’attention visuelle est l’un des mécanismes les plus importants déployés par le système visuel humain pour réduire la quantité d’informations que le cerveau doit traiter. De plus en plus d’efforts ont été consacrés à l’étude de l’attention visuelle sur des images naturelles (image 2D). Cependant, peu de travaux ont été mené sur des contenus 3D, correspondant à des données plus complexes car elles incluent des informations sur la géométrie et les attributs d’apparence.  C’est cette problématique de l’attention visuelle sur les contenus 3D qui a principalement guidé notre démarche pour ces travaux de thèse.  Nos travaux sont principalement divisés en trois parties correspondants à trois niveaux conceptuels différents. La première partie de cette thèse correspond à un concept de bas niveau où nous proposons de prédire ce qui attire l’attention des individus lorsqu’ils observent des objets 3D en étudiant la validité des modèles et des hypothèses faites dans l’imagerie 2D. Ceci est très utile dans certains scénarios tels que le streaming interactif ou la visualisation des contenus 3D dans des applications de réalité virtuelle ou augmentée. La deuxième partie correspond à un concept de niveau intermédiaire où nous introduisons une mesure perceptuelle de la complexité de l’attentionelle qui est extraite à partir de l’information de la saillance. La mesure que nous proposons est utilisée dans l’évaluation de la qualité des contenus 3D ainsi que dans la caractérisation de ces contenus. La troisième partie traite un concept de plus haut niveau lié à la préférence de point de vue des objets graphiques 3D où nous montrons la pertinence d’un indicateur de complexité attentionelle, introduit dans la deuxième partie du manuscrit. Tout au long de la thèse, nous avons construit plusieurs bases de données d’objets 3D colorés et nous avons réalisé une série d’expériences subjectives pour différentes tâches, y compris des expériences de crowdsourcing comme alternatives aux expériences menées au laboratoire.

Mots-clés : Attention visuelle, contenus graphiques 3D, modélisation de la saillance, perception visuelle.

——————————————————————————————————————————————————————————————————————-
Abstract: Visual attention is one of the most important mechanisms deployed in the human visual system to reduce the amount of information that brain needs to process. In fact, an increasing amount of efforts have been dedicated in the studies of visual attention on natural images (2Dstimuli). However, less attention was made for 3D scenes which corresponds to a more complex data as it including the geometry and the appearance attributes information. In this thesis, we present studies focusing on several aspects of the researchof visual saliency. Our works is mainly divided into three parts including low level concept, mid level concept and higher level concept. The first part of this thesis addresses the low-level concept where we propose to predict where humans look when gazing 3D graphical objects by investigating the validity of the models and the hypothesis made in 2D imaging to 3D contents. This is very useful in certain scenarios such as interactive streaming or visualization of these contents in virtual or augmented reality applications. The second part corresponds to a mid-level concept where we introduce a perceptual measure for visual attention complexity which is pooled from the saliency information. Our proposed measure can be used to boost 3D-based quality assessment metrics and also for 3D content characterization . The third part explores a higher level concept related to view-point preference of 3D graphical objects where we show the relevance of the visual attention complexity feature. Along the thesis, we constructed several databases of colorful graphical 3D objects and we carried out a series of subjective experiments for different tasks, including crowd sourcing experiments as an alternative to in lab experiments.

Keywords: Visual attention, 3D graphical contents, saliency modeling, visual perception, attention complexity prediction, 3D immersive media.

Soutenance de thèse de Madhukar BHAT (équipe IPI)

Madhukar Bhat, doctorant au sein de l’équipe IPI soutiendra sa thèse intitulée « Optimisation perceptuelle et réduction de complexité d’encodage vidéo dans un contexte temps-réel » / « Perceptual optimization and complexity reduction for real-time video encoding »

lundi 7 juin 2021 à 14h en visio.

Lien Zoom : https://univ-nantes-fr.zoom.us/j/95145814230?pwd=anlMRXluUmVDaTd3bnRsOUFQUk14QT09
(Meeting ID: 951 4581 4230 / Passcode: 099949)

Jury :
– Directeur de thèse : Patrick Le Callet
– Rapporteurs : Mathias Wien (Privatdozent, RWTH Aachen, Allemagne), Marco Cagnazzo (Professeur, Telecom Paristech, Paris)
– Autres membres : Jean-Marc Thiesse (Chef de service Algorithmes , VITEC, Chatillon)
– Invitée : Mme Lu ZHANG, Maitre de conférences, INSA Rennes

Résumé : Cette thèse explore l’optimisation perceptuelle et la réduction de la complexité afin d’améliorer les schémas de compression vidéo dans un contexte d’encodage temps réel. Le travail est divisé en trois parties qui abordent plusieurs aspects d’amélioration l’encodage vidéo en temps réel. La première contribution introduit un filtre de prétraitement perceptuel basé sur un modèle du système visuel humain. Ce filtre de prétraitement peut être réglé et a été optimisé pour plusieurs conditions de visualisation. Une étude sur la précision de différentes métriques de qualité objective dans le cadre spécifique de la mesure des performances de pré-filtrage est également menée. La deuxième partie de la thèse propose une méthodologie basée sur la classification par apprentissage automatique pour prédire et sélectionner de manière adaptative la meilleure résolution d’encodage dans un scénario de codage en une passe. À cette fin, trois classificateurs différents ont été considérés : Support Vector Machine, Random Forest (RF) et Multi-Layer Perceptron. Dans le but d’évaluer et piloter le gain perceptif à un débit donné, plusieurs métriques de qualité objectives ont ensuite été caractérisées et comparées à plusieurs niveaux de qualité du point de vue de l’incertitude de la qualité subjective de la vérité terrain. En outre, une nouvelle métrique de fusion basée sur RF, subjectivement plus précise, a été introduite pour la formation des classificateurs. La dernière partie se concentre sur la prise en charge de la partie de codage la plus complexe du nouveau standard Versatile Video Coding (VVC) : la décision de partitionnement Multi-Type Tree. Une nouvelle méthode de partitionnement basée Machine Learning est proposée avec un design complet, adaptée à chaque type d’encodeur et particulièrement approprié pour un encodeur matériel temps réel. Une approche basée CNN a ainsi été utilisée, avec des classificateurs pour différents niveaux, formes et types de partitionnement. Cette méthode est finalement évaluée par rapport à une recherche exhaustive et démontre des performances prometteuses qui sont soigneusement analysées.

Mots-clés : Encodage matériel en temps réel, HEVC, VVC, Filtre de prétraitement perceptuel, Apprentissage automatique, Sélection de résolution adaptative, Partitionnement rapide

——————————————————————————————————————————————————————————————————————-

Abstract: This thesis explores perceptual optimization and complexity reduction towards improving video compression schemes in a real-time encoding context. Different strategies are proposed to address perceptual enhancements and complexity reduction. The work is divided into three main parts that tackle several aspects to improve realtime video encoding. The first contribution introduces a perceptual pre-processing filter based on a model of the Human Visual System. This preprocessing filter can be tuned and has been optimized for multiple viewing conditions. An investigation of objective quality metric’s accuracy in measuring the performance of pre-processing is also reported. The second part of the thesis proposes a machine learning classification-based methodology to adaptively predict and select the best encoding resolution in a single-pass encoding scenario. For this purpose, three different classifiers have been considered: Support Vector Machine, Random Forest (RF), and Multi-Layer Perceptron. Several objective quality metrics have been characterized and benchmarked for various quality ranges concerning the uncertainty of subjective quality ground-truth to evaluate and drive the perceptual gain at a given bitrate.
Also, a new, subjectively more accurate RFbased fusion metric has been introduced for the classifier training. The final part focuses on tackling the most challenging encoding part of the new Versatile Video Coding (VVC) standard: the Multi-Type Tree partitioning decision. A new ML-based partitioning method is proposed with a complete design, suitable for every encoder but even more adapted for real-time hardware encoder. A CNN-based approach was considered, offering classifiers for different coding unit depth, shapes, and picture types. This method is finally evaluated against exhaustive search and demonstrate promising performance which are carefully analyzed.

Keywords: Real-time hardware encoding, HEVC , VVC , Perceptual pre-processing filter, Machine learning, Adaptive resolution selection, Fast parititioning

🏆 Un Emmy pour IPI !

Revenons sur un événement qui a fait la « une » de notre newsletter et qui est paru dans de nombreux médias : l’Université de Nantes a gagné un Emmy Award !
Quelles étaient les problématiques scientifiques qui nous ont menés à cette récompense ?

Citons d’abord quelques mots sur l’équipe. Il s’agit de travaux de recherche coordonnés par Patrick Le Callet, professeur des Universités au sein de l’équipe IPI, accompagné de :

  • Lukas Krasula, post-doctorant LS2N/IPI (ancien doctorant IRCCyN/IVC), et aujourd’hui chercheur chez Netflix,
  • Yoann Baveye, ingénieur de recherche Capacités,
  • Suiyi Ling, ingénieur de recherche Capacités (ancien doctorant LS2N/IPI)
  • et Jing Li, post-doctorante LS2N/IPI (ancienne doctorante IRCCyN/IVC)
    en collaboration étroite avec la cellule iXpel de Capacités.

Ces recherches font bien sûr écho aux activités menées dans l’équipe IPI – antérieurement IVC – depuis de nombreuses années, en interdisciplinarité et suivant les idées visionnaires de Dominique Barba, premier Professeur recruté à l’IRESTE (qui formera Polytech Nantes avec l’ISITEM et l’ESA IGELEC en 2000) et ex directeur-adjoint de l’IRCCyN, aux côtés de Jean-François Lafay.
La problématique générale est l’utilisation de tests subjectifs (évalués par des utilisateurs) réalisés sur des contenus multimédia (images fixes ou vidéo) pour optimiser des algorithmes de compression des images. Les algorithmes existants ont de nombreux paramètres ; la question est de choisir la meilleure configuration pour minimiser la quantité de données utilisée (à stocker ou à transporter) tout en maximisant la qualité d’expérience utilisateur.

Ce qui fait l’originalité des travaux récompensés ici, c’est l’utilisation de l’IA (principalement du deeplearning) pour booster les différentes étapes du processus :

Ce projet est aussi original par d’autres aspects. En grande partie financé via des fonds collectés par la Fondation de l’Université de Nantes, le projet est complètement orienté « open innovation » et a bénéficié de collaborations / échanges avec d’autres acteurs, universités américaines et géants du numérique, travaillant dans ce même cadre d’innovation ouverte. Les résultats sont tous directement disponibles en open source pour toutes les communautés. Ils ont bénéficié d’une tribune sur des démonstrateurs à très grande échelle, sur tous les continents, et ont de fait séduit et été adoptés par quasiment tous les ingénieurs travaillant dans le domaine de la diffusion multimédia.
Ce circuit court entre recherche – innovation jusqu’à faire partie de la boîte à outils de tous les ingénieurs du domaine est singulier.

Au-delà de leur aspect philanthropique, les travaux portent d’autres belles valeurs, adressant des objectifs de développement durable, notamment la réduction de l’empreinte carbone de la diffusion numérique, mais aussi de limitation de l’exclusion numérique en favorisant la diffusion des contenus culturels (et pas seulement ceux de Netflix) sur des infrastructures réseaux à débit limité.

Il reste encore beaucoup à faire, notamment pour les contenus générés / produits par le grand public, qui nécessitent de nouvelles recettes (respectueuses notamment de la confidentialité). Mais d’autres dons arrivent, donc à suivre !…

***************

NB : Retrouvez tous les articles et interviews dans la rubrique « revue de presse » de la LS2News.

L’Université de Nantes récompensée d’un Emmy® Award !

Et l’Emmy® Award est attribué à…. l’Université de Nantes !

« Très heureux et fier de vous annoncer que l’Université de Nantes est la 1ère université française à obtenir un Emmy® Award de la technologie et de l’ingénierie par l’Académie nationale américaine des arts et des sciences de la télévision (72ème édition de ce prix) pour sa collaboration avec Netflix par la NATAS !

C’est seulement la 2ème fois en 20 ans qu’une université est récompensée ! »

Patrick Le Callet (équipe IPI), la Fondation de l’Université, Capacités, ont été félicités pour une innovation ouverte (open innovation) fruit d’une collaboration exemplaire entre acteurs industriels et institutions académiques (3 universités, 2 américaines, et le LS2N).

« Nous sommes co-primés pour les outils « ouverts » pour optimiser la qualité perceptuelle de la compression vidéo. C’est en lien avec les choses que nous faisons notamment avec/grâce à Netflix dont vous avez sûrement déjà entendu parlé. » Patrick Le Callet

Patrick Le Callet est très heureux que soit mis ainsi en lumière une démarche d’open innovation, le continuum naturel de la science ouverte.

La cérémonie de remise des prix aura lieu en octobre 2021.

Journées Scientifiques de l’Université de Nantes – Colloque « L’IA pour tous, au service de la Santé et de l’Industrie : enjeux et défis »

À l’occasion de la 13e édition des Journées Scientifiques, qui auront lieu le 30 novembre 2020 (initialement prévues le 29 mai 2020) à La Cité des Congrès, l’Université de Nantes organise un colloque interdisciplinaire dédié à « L’Intelligence Artificielle pour tous, au service de la Santé et de l’Industrie : enjeux et défis ».

En collaboration avec ses partenaires académiques, laboratoires et industriels, cet événement est une occasion unique de présenter un panorama des différents projets de recherche et initiatives scientifiques menés à Nantes. Axée sur l’humain et orientée vers deux champs d’application majeurs que sont la Santé et l’Industrie du Futur, nous verrons comment ces approches sont à même de favoriser une recherche interdisciplinaire de pointe sur des questions émergentes dans le domaine de l’intelligence artificielle Nous nous intéresserons plus particulièrement aux :

• Applications médicales et industrielles : Génomique, imagerie médicale, données cliniques et de soins, usine du futur, robotique, matériaux du futur, villes intelligentes
• Méthodes d’apprentissage et de modélisation automatique : Deep Learning, réseaux bayésiens, analyse de données topologiques, traitement du signal, vision par ordinateur, traitement du langage naturel
• Enjeux éthiques sociétaux : Algorithmes discriminants, acceptabilité et impact social de l’IA, réglementation et RGPD, gouvernance transparente des données et des algorithmes, enseignement de l’IA

Plus d’infos.

Haold Mouchère (équipe IPI) animera ce colloque pour le LS2N

Actualités du projet ANR IA « AiBy4 »

Sélectionné par l’ANR dans le cadre de l’appel « contrats doctoraux en IA » 2020-2025, le projet AIby4 réunit 4 partenaires nantais : Université de Nantes, Centrale Nantes, INSERM et CHU de Nantes autour de 2 objectifs :

  • Animer la recherche en IA du site nantais, via la constitution d’une cohorte de doctorants et doctorantes du domaine qui auront accès aux animations et formations autour des thématiques du projet ainsi qu’une certaine visibilité lors des événements
  • Créer de nouvelles synergies entre les partenaires nantais via le cofinancement de thèses interdisciplinaires.

Désormais sur de bons rails, AIby4 présente les résultats suivants en cedébut d’année universitaire :

Conférence RJCIA – PFIA 2020 en webinaires

Les dix-huitièmes Rencontres des Jeunes Chercheur.ses en Intelligence Artificielle (RJCIA 2020) se dérouleront les deux derniers jours de l’édition 2020 de la PFIA (Plate-Forme Intelligence Artificielle), qui aura lieu du 29 juin au 3 juillet à l’ESEO à Angers.

Voir le programme complet.

Notons la participation de plusieurs membres du labo durant les sessions :

-Méthode d’analyse sémantique d’images combinant apprentissage profond et relations structurelles par appariement de graphes Jérémy Chopin, Jean-Baptiste Fasquel, Harold Mouchère, Isabelle Bloch et Rozenn Dahyot

-Génération automatique de graphe pour modéliser les singularités de trajectoires spatiales (article court) Hippolyte Dubois, Patrick Le Callet et Antoine Coutrot

-Tour d’horizon autour de l’explicabilité des modèles profonds Gaëlle Jouis, Harold Mouchère, Fabien Picarougne et Alexandre Hardouin

-Apprentissage profond appliqué à la classification d’images microscopiques embryonnaires Tristan Gomez, Harold Mouchère, Thomas Fréour et Magalie Feyeux

HAWAH : un dispositif ludique pour apprendre à bien se laver les mains

Suite au projet Corridoor, développé dans le cadre du Hackhaton « EU vs virus », et auquel a participé l’équipe IPI, le parcours pédagogique
HAWAH (pour « HAnd WAsh Health« ) a pu voir le jour et être testé dans quelques écoles de l’agglomération nantaise.
HAWAH est un dispositif ludique, sensoriel et expérimental pour mémoriser les gestes du lavage de mains. Il est constitué d’ :

  • une box mobile équipée d’une lampe néon à UV permettant de révéler les zones des mains insuffisamment nettoyées
  • un kit pédagogique : clip d’animation d’une minute + chorégraphie permettant d’apprendre les 7 gestes indispensables (accompagnés par 7 super-héros animaliers) dans un décor de jeu vidéo rétro.

Il est destiné aux écoles primaires et élémentaires, aux acteurs de l’éducation et de l’accompagnement scolaire, ou de la santé.

Plus d’infos sur le site de l’UN.

Mis à disposition gratuitement sur la plateforme http://www.hawah.live/, le projet a vocation à voyager. Alors, n’hésitez pas à diffuser le lien autour de vous !

Copyright : LS2N 2017 - Mentions Légales - 
 -