Home » évènement

Soutenance de thèse de Ali AK (équipe IPI)

Ali Ak, doctorant au sein de l’équipe IPI, soutiendra sa thèse intitulée « Évaluation de la qualité perceptuelle de contenus multimédias immersifs : HDR, champs lumineux et vidéos volumétriques » / « Perceptual quality evaluation of immersive multimedia content: HDR, Light Field and Volumetric Video »

lundi 24 janvier 2022 à

Jury :
– Directeur de thèse : Patrick LE CALLET – Professeur, Université de Nantes
– Rapporteurs : Maria MARTINI – Professeure, Kingston University ; Aladine CHETOUANI – Maître de conférence, HDR, Université d’Orléans
– Autres membres : Søren FORCHAMMER – Professeur, Technical University of Denmark; Frédéric DUFAUX -Directeur de Recherche CNRS, Paris Saclay ; Federica BATTISTI -Ass. Professeure, University of Padova

Résumé : Des formats multimédias immersifs ont émergé comme un puissant canevas dans de nombreuses disciplines pour offrir une expérience utilisateur hyperréaliste. Ils peuvent prendre de nombreuses formes, telles que des images HDR, des champs lumineux, des nuages de points et des vidéos volumétriques. L’objectif de cette thèse est de proposer de nouvelles méthodologies pour l’évaluation de la qualité de tels contenus. La première partie de la thèse porte sur l’évaluation subjective de la qualité d’image. Plus précisément, nous proposons une stratégie de sélection de contenu et d’observateurs, ainsi qu’une analyse approfondie de la fiabilité des plate-formes de crowdsourcing pour collecter des données subjectives à grande échelle. Nos résultats montrent une amélioration de la fiabilité des annotations subjectives collectées et répondent aux exigences liées en crowdsourcing à la reproduction d’expériences menés en laboratoire. La deuxième partie contribue à l’évaluation objective de la qualité avec une métrique de qualité d’image basée sur l’apprentissage automatique utilisant les informations de seuil de discrimination, et une métrique de qualité d’image pour les champs lumineux sans référence basée sur des représentations d’images planes épipolaires. Enfin, nous étudions l’impact des méthodologies d’agrégation temporel sur les performances des métriques de qualité objective pour les vidéos volumétriques. Dans l’ensemble, nous démontrons comment nos résultats peuvent être utilisés pour améliorer l’optimisation des outils de traitement pour les contenus multi-médias immersifs.

Mots-clés : Évaluation de la qualité, médias immersifs, mappage ton local, champs lumineux, vidéo volumétrique

—————————————————————————————————————————————————————————————————————————————————————-
Abstract: Immersive multimedia formats emerged as a powerful canvas in numerous disciplines for delivering hyper-realistic user experience. They can take many forms, such as HDR images, Light Fields, Point Clouds,and Volumetric Videos. The goal of this thesis is to propose novel methodologies for the quality assessment of such multimedia content. The first part of the thesis focuses on subjective image quality assessment. More specifically, we propose a content selection strategy, observer screening tools, and an extensive analysis on the reliability of crowdsourcing platforms to produce a large-scale dataset. Our findings improve the reliability
of the collected subjective annotations and address issues to transfer laboratory experiments into crowdsourcing. The second part contributes to the objective quality evaluation with a learning-based image quality metric utilizing the just noticeable difference information and a no-reference light field image qualitymetric based on epipolar plane image representations. Finally, we investigate the impact of temporal pooling methodologies in objective quality metric performances for volumetric videos. Overall, we demonstrate how our findings can be used to improve the optimization of processing tools for immersive multimedia content.

Keywords: Quality evaluation, immersive media, tone mapped images, light fields, volumetric video

 

 

Soutenance de thèse de Mona ABID (équipe IPI)

Mona Abid, doctorante au sein de l’équipe IPI, soutiendra sa thèse intitulée « Utilisation de l’attention visuelle sur les contenus 3D graphiques : De la modélisation à la mesure de la complexité attentionnelle et la prédiction de la préférence de vues » / « Visual attention on 3D graphical contents : From saliency modeling to attention complexity measures and viewpoint preference prediction »
mercredi 15 décembre 2021 à 13h30, dans l’Amphi 1 de l’IRESTE sur le site de Polytech.

Jury :
– Directeur de thèse : Patrick Le Callet – Professeur à l’université de Nantes
– Co-encadrant : Matthieu Perreira Da Silva – Maître de conférences à l’université de Nantes
– Rapporteurs : Giuseppe Valenzise – Chargé de Recherche, CNRS-HDR au L2S, Paris Saclay ; Lucile Sassatelli – Maîtresse de conférences, HDR à l’université Côte d’Azur
– Président : Guillaume Lavoué – Professeur des universités, Ecole Centrale de Lyon – ENISE
– Autres membres : Lina Karam – Professeure, Lebanese American University, Liban ; Giuseppe Valenzise – Chargé de Recherche, CNRS-HDR au L2S
– Invité : Isabelle Milleville – Chargée de Recherche, CNRS au LS2N

Résumé : L’attention visuelle est l’un des mécanismes les plus importants déployés par le système visuel humain pour réduire la quantité d’informations que le cerveau doit traiter. De plus en plus d’efforts ont été consacrés à l’étude de l’attention visuelle sur des images naturelles (image 2D). Cependant, peu de travaux ont été mené sur des contenus 3D, correspondant à des données plus complexes car elles incluent des informations sur la géométrie et les attributs d’apparence.  C’est cette problématique de l’attention visuelle sur les contenus 3D qui a principalement guidé notre démarche pour ces travaux de thèse.  Nos travaux sont principalement divisés en trois parties correspondants à trois niveaux conceptuels différents. La première partie de cette thèse correspond à un concept de bas niveau où nous proposons de prédire ce qui attire l’attention des individus lorsqu’ils observent des objets 3D en étudiant la validité des modèles et des hypothèses faites dans l’imagerie 2D. Ceci est très utile dans certains scénarios tels que le streaming interactif ou la visualisation des contenus 3D dans des applications de réalité virtuelle ou augmentée. La deuxième partie correspond à un concept de niveau intermédiaire où nous introduisons une mesure perceptuelle de la complexité de l’attentionelle qui est extraite à partir de l’information de la saillance. La mesure que nous proposons est utilisée dans l’évaluation de la qualité des contenus 3D ainsi que dans la caractérisation de ces contenus. La troisième partie traite un concept de plus haut niveau lié à la préférence de point de vue des objets graphiques 3D où nous montrons la pertinence d’un indicateur de complexité attentionelle, introduit dans la deuxième partie du manuscrit. Tout au long de la thèse, nous avons construit plusieurs bases de données d’objets 3D colorés et nous avons réalisé une série d’expériences subjectives pour différentes tâches, y compris des expériences de crowdsourcing comme alternatives aux expériences menées au laboratoire.

Mots-clés : Attention visuelle, contenus graphiques 3D, modélisation de la saillance, perception visuelle.

—————————————————————————————————————————————————————————————-
Abstract: Visual attention is one of the most important mechanisms deployed in the human visual system to reduce the amount of information that brain needs to process. In fact, an increasing amount of efforts have been dedicated in the studies of visual attention on natural images (2Dstimuli). However, less attention was made for 3D scenes which corresponds to a more complex data as it including the geometry and the appearance attributes information. In this thesis, we present studies focusing on several aspects of the researchof visual saliency. Our works is mainly divided into three parts including low level concept, mid level concept and higher level concept. The first part of this thesis addresses the low-level concept where we propose to predict where humans look when gazing 3D graphical objects by investigating the validity of the models and the hypothesis made in 2D imaging to 3D contents. This is very useful in certain scenarios such as interactive streaming or visualization of these contents in virtual or augmented reality applications. The second part corresponds to a mid-level concept where we introduce a perceptual measure for visual attention complexity which is pooled from the saliency information. Our proposed measure can be used to boost 3D-based quality assessment metrics and also for 3D content characterization . The third part explores a higher level concept related to view-point preference of 3D graphical objects where we show the relevance of the visual attention complexity feature. Along the thesis, we constructed several databases of colorful graphical 3D objects and we carried out a series of subjective experiments for different tasks, including crowd sourcing experiments as an alternative to in lab experiments.

Keywords: Visual attention, 3D graphical contents, saliency modeling, visual perception, attention complexity prediction, 3D immersive media.

Séminaire IPI avec Abdul Rahim Ahmad (Universiti Tenaga Nasional)

L’équipe IPI accueille actuellement Abdul Rahim Ahmad, Associate Professor au College of Computing and Informatics de l’Université Tenaga Nasional en Malaisie.
Ce dernier profitera de son séjour en France pour donner un séminaire ayant pour titre : « Artificial Intelligence Applications in Energy Sector : A case in Tenaga Nasional Berhad or TNB » (équivalent d’EDF en France)
jeudi 9 décembre 2021 de 11h15 à 12h15, à Polytech en salle D118.
Résumé :
Tenaga Nasional Berhad (TNB), is the sole company in the complete generation, transmission, and distribution spectrum of electricity in Malaysia, somewhat similar to « EDF » in France. Universiti Tenaga Nasional (UNITEN) is the private university which is a 100% owned subsidiary of TNB. UNITEN plays a role as one of the research institutions conducting research for TNB, getting a fair share of the funds allocated by TNB for academic research related to power sector. Another institution is the TNB Research (TNBR) which performs contract, targetted and commercial research.  This presentation provides some information about Research in UNITEN and TNBR, focusing on the uptake of the applications of Artificial Intelligence (AI) and related technologies in the Power sector within TNB with the hope that the information sharing may encourage future collaborations between UNITEN and Ecole Polytech Nantes.
NB : Les présentations sont disponibles sur le cloud.

Atelier « Réalité virtuelle pour la psychiatrie : données comportementales et expérientielles » dans le cadre du projet projet « DataSanté: médecine personnalisée et données en grand nombre »

Dans le cadre des ateliers interdisciplinaires du projet « DataSanté: médecine personnalisée et données en grand nombre »

https://www.data-sante.fr/presentation/le-programme-datasante/

une présentation sera faite le mercredi 8 décembre, de 14h à 16h,au Centre François Viète (UFR Sciences et Techniques):

Titre: Réalité virtuelle pour la psychiatrie : données comportementales et expérientielles

Interventions de Yannick Prié (LS2N, Université de Nantes), Toinon Vigier (LS2N, Université de Nantes) et Samuel Buteau (INSERM – SPHERE, CHU de Nantes)

https://www.data-sante.fr/event/realite-virtuelle-et-psychiatrie/

Soutenance de thèse de Madhukar BHAT (équipe IPI)

Madhukar Bhat, doctorant au sein de l’équipe IPI soutiendra sa thèse intitulée « Optimisation perceptuelle et réduction de complexité d’encodage vidéo dans un contexte temps-réel » / « Perceptual optimization and complexity reduction for real-time video encoding »

lundi 7 juin 2021 à 14h en visio.

Lien Zoom : https://univ-nantes-fr.zoom.us/j/95145814230?pwd=anlMRXluUmVDaTd3bnRsOUFQUk14QT09
(Meeting ID: 951 4581 4230 / Passcode: 099949)

Jury :
– Directeur de thèse : Patrick Le Callet
– Rapporteurs : Mathias Wien (Privatdozent, RWTH Aachen, Allemagne), Marco Cagnazzo (Professeur, Telecom Paristech, Paris)
– Autres membres : Jean-Marc Thiesse (Chef de service Algorithmes , VITEC, Chatillon)
– Invitée : Mme Lu ZHANG, Maitre de conférences, INSA Rennes

Résumé : Cette thèse explore l’optimisation perceptuelle et la réduction de la complexité afin d’améliorer les schémas de compression vidéo dans un contexte d’encodage temps réel. Le travail est divisé en trois parties qui abordent plusieurs aspects d’amélioration l’encodage vidéo en temps réel. La première contribution introduit un filtre de prétraitement perceptuel basé sur un modèle du système visuel humain. Ce filtre de prétraitement peut être réglé et a été optimisé pour plusieurs conditions de visualisation. Une étude sur la précision de différentes métriques de qualité objective dans le cadre spécifique de la mesure des performances de pré-filtrage est également menée. La deuxième partie de la thèse propose une méthodologie basée sur la classification par apprentissage automatique pour prédire et sélectionner de manière adaptative la meilleure résolution d’encodage dans un scénario de codage en une passe. À cette fin, trois classificateurs différents ont été considérés : Support Vector Machine, Random Forest (RF) et Multi-Layer Perceptron. Dans le but d’évaluer et piloter le gain perceptif à un débit donné, plusieurs métriques de qualité objectives ont ensuite été caractérisées et comparées à plusieurs niveaux de qualité du point de vue de l’incertitude de la qualité subjective de la vérité terrain. En outre, une nouvelle métrique de fusion basée sur RF, subjectivement plus précise, a été introduite pour la formation des classificateurs. La dernière partie se concentre sur la prise en charge de la partie de codage la plus complexe du nouveau standard Versatile Video Coding (VVC) : la décision de partitionnement Multi-Type Tree. Une nouvelle méthode de partitionnement basée Machine Learning est proposée avec un design complet, adaptée à chaque type d’encodeur et particulièrement approprié pour un encodeur matériel temps réel. Une approche basée CNN a ainsi été utilisée, avec des classificateurs pour différents niveaux, formes et types de partitionnement. Cette méthode est finalement évaluée par rapport à une recherche exhaustive et démontre des performances prometteuses qui sont soigneusement analysées.

Mots-clés : Encodage matériel en temps réel, HEVC, VVC, Filtre de prétraitement perceptuel, Apprentissage automatique, Sélection de résolution adaptative, Partitionnement rapide

——————————————————————————————————————————————————————————————————————-

Abstract: This thesis explores perceptual optimization and complexity reduction towards improving video compression schemes in a real-time encoding context. Different strategies are proposed to address perceptual enhancements and complexity reduction. The work is divided into three main parts that tackle several aspects to improve realtime video encoding. The first contribution introduces a perceptual pre-processing filter based on a model of the Human Visual System. This preprocessing filter can be tuned and has been optimized for multiple viewing conditions. An investigation of objective quality metric’s accuracy in measuring the performance of pre-processing is also reported. The second part of the thesis proposes a machine learning classification-based methodology to adaptively predict and select the best encoding resolution in a single-pass encoding scenario. For this purpose, three different classifiers have been considered: Support Vector Machine, Random Forest (RF), and Multi-Layer Perceptron. Several objective quality metrics have been characterized and benchmarked for various quality ranges concerning the uncertainty of subjective quality ground-truth to evaluate and drive the perceptual gain at a given bitrate.
Also, a new, subjectively more accurate RFbased fusion metric has been introduced for the classifier training. The final part focuses on tackling the most challenging encoding part of the new Versatile Video Coding (VVC) standard: the Multi-Type Tree partitioning decision. A new ML-based partitioning method is proposed with a complete design, suitable for every encoder but even more adapted for real-time hardware encoder. A CNN-based approach was considered, offering classifiers for different coding unit depth, shapes, and picture types. This method is finally evaluated against exhaustive search and demonstrate promising performance which are carefully analyzed.

Keywords: Real-time hardware encoding, HEVC , VVC , Perceptual pre-processing filter, Machine learning, Adaptive resolution selection, Fast parititioning

🏆 Un Emmy pour IPI !

Revenons sur un événement qui a fait la « une » de notre newsletter et qui est paru dans de nombreux médias : l’Université de Nantes a gagné un Emmy Award !
Quelles étaient les problématiques scientifiques qui nous ont menés à cette récompense ?

Citons d’abord quelques mots sur l’équipe. Il s’agit de travaux de recherche coordonnés par Patrick Le Callet, professeur des Universités au sein de l’équipe IPI, accompagné de :

  • Lukas Krasula, post-doctorant LS2N/IPI (ancien doctorant IRCCyN/IVC), et aujourd’hui chercheur chez Netflix,
  • Yoann Baveye, ingénieur de recherche Capacités,
  • Suiyi Ling, ingénieur de recherche Capacités (ancien doctorant LS2N/IPI)
  • et Jing Li, post-doctorante LS2N/IPI (ancienne doctorante IRCCyN/IVC)
    en collaboration étroite avec la cellule iXpel de Capacités.

Ces recherches font bien sûr écho aux activités menées dans l’équipe IPI – antérieurement IVC – depuis de nombreuses années, en interdisciplinarité et suivant les idées visionnaires de Dominique Barba, premier Professeur recruté à l’IRESTE (qui formera Polytech Nantes avec l’ISITEM et l’ESA IGELEC en 2000) et ex directeur-adjoint de l’IRCCyN, aux côtés de Jean-François Lafay.
La problématique générale est l’utilisation de tests subjectifs (évalués par des utilisateurs) réalisés sur des contenus multimédia (images fixes ou vidéo) pour optimiser des algorithmes de compression des images. Les algorithmes existants ont de nombreux paramètres ; la question est de choisir la meilleure configuration pour minimiser la quantité de données utilisée (à stocker ou à transporter) tout en maximisant la qualité d’expérience utilisateur.

Ce qui fait l’originalité des travaux récompensés ici, c’est l’utilisation de l’IA (principalement du deeplearning) pour booster les différentes étapes du processus :

Ce projet est aussi original par d’autres aspects. En grande partie financé via des fonds collectés par la Fondation de l’Université de Nantes, le projet est complètement orienté « open innovation » et a bénéficié de collaborations / échanges avec d’autres acteurs, universités américaines et géants du numérique, travaillant dans ce même cadre d’innovation ouverte. Les résultats sont tous directement disponibles en open source pour toutes les communautés. Ils ont bénéficié d’une tribune sur des démonstrateurs à très grande échelle, sur tous les continents, et ont de fait séduit et été adoptés par quasiment tous les ingénieurs travaillant dans le domaine de la diffusion multimédia.
Ce circuit court entre recherche – innovation jusqu’à faire partie de la boîte à outils de tous les ingénieurs du domaine est singulier.

Au-delà de leur aspect philanthropique, les travaux portent d’autres belles valeurs, adressant des objectifs de développement durable, notamment la réduction de l’empreinte carbone de la diffusion numérique, mais aussi de limitation de l’exclusion numérique en favorisant la diffusion des contenus culturels (et pas seulement ceux de Netflix) sur des infrastructures réseaux à débit limité.

Il reste encore beaucoup à faire, notamment pour les contenus générés / produits par le grand public, qui nécessitent de nouvelles recettes (respectueuses notamment de la confidentialité). Mais d’autres dons arrivent, donc à suivre !…

***************

NB : Retrouvez tous les articles et interviews dans la rubrique « revue de presse » de la LS2News.

L’Université de Nantes récompensée d’un Emmy® Award !

Et l’Emmy® Award est attribué à…. l’Université de Nantes !

« Très heureux et fier de vous annoncer que l’Université de Nantes est la 1ère université française à obtenir un Emmy® Award de la technologie et de l’ingénierie par l’Académie nationale américaine des arts et des sciences de la télévision (72ème édition de ce prix) pour sa collaboration avec Netflix par la NATAS !

C’est seulement la 2ème fois en 20 ans qu’une université est récompensée ! »

Patrick Le Callet (équipe IPI), la Fondation de l’Université, Capacités, ont été félicités pour une innovation ouverte (open innovation) fruit d’une collaboration exemplaire entre acteurs industriels et institutions académiques (3 universités, 2 américaines, et le LS2N).

« Nous sommes co-primés pour les outils « ouverts » pour optimiser la qualité perceptuelle de la compression vidéo. C’est en lien avec les choses que nous faisons notamment avec/grâce à Netflix dont vous avez sûrement déjà entendu parlé. » Patrick Le Callet

Patrick Le Callet est très heureux que soit mis ainsi en lumière une démarche d’open innovation, le continuum naturel de la science ouverte.

La cérémonie de remise des prix aura lieu en octobre 2021.

Journées Scientifiques de l’Université de Nantes – Colloque « L’IA pour tous, au service de la Santé et de l’Industrie : enjeux et défis »

À l’occasion de la 13e édition des Journées Scientifiques, qui auront lieu le 30 novembre 2020 (initialement prévues le 29 mai 2020) à La Cité des Congrès, l’Université de Nantes organise un colloque interdisciplinaire dédié à « L’Intelligence Artificielle pour tous, au service de la Santé et de l’Industrie : enjeux et défis ».

En collaboration avec ses partenaires académiques, laboratoires et industriels, cet événement est une occasion unique de présenter un panorama des différents projets de recherche et initiatives scientifiques menés à Nantes. Axée sur l’humain et orientée vers deux champs d’application majeurs que sont la Santé et l’Industrie du Futur, nous verrons comment ces approches sont à même de favoriser une recherche interdisciplinaire de pointe sur des questions émergentes dans le domaine de l’intelligence artificielle Nous nous intéresserons plus particulièrement aux :

• Applications médicales et industrielles : Génomique, imagerie médicale, données cliniques et de soins, usine du futur, robotique, matériaux du futur, villes intelligentes
• Méthodes d’apprentissage et de modélisation automatique : Deep Learning, réseaux bayésiens, analyse de données topologiques, traitement du signal, vision par ordinateur, traitement du langage naturel
• Enjeux éthiques sociétaux : Algorithmes discriminants, acceptabilité et impact social de l’IA, réglementation et RGPD, gouvernance transparente des données et des algorithmes, enseignement de l’IA

Plus d’infos.

Haold Mouchère (équipe IPI) animera ce colloque pour le LS2N

Copyright : LS2N 2017 - Mentions Légales - 
 -