Home » Évènement

Soutenance d’HDR de Vincent Ricordel (équipe IPI)

Vincent RICORDEL soutiendra son habilitation à diriger des recherches intitulée « Outils et méthodes pour le codage vidéo perceptuel« 
mercredi 22 janvier 2020 à 13h30, dans l’amphithéâtre A1 à Polytech.
Jury :
– Marc Antonini, DR. à l’Université de Nice (rapporteur)
– William Puech, Pr. à l’Université de Montpellier (rapporteur)
– Olivier Déforges, Pr. à l’INSA de Rennes (rapporteur)
– Marco Cagnazzo, Pr. à l’Institut Télécom-Paris (examinateur)
– Luce Morin, Pr. à l’INSA de Rennes (examinatrice)
– Bogdan Cramariuc, Directeur de l’ITCST à Bucarest (examinateur)
– Marc Gelgon, Pr. à l’Université de Nantes (examinateur)
La soutenance sera suivie d’un pot dans le même bâtiment Ireste.
Le mémoire (pas la version finale) est accessible ici : https://uncloud.univ-nantes.fr/index.php/s/RCdgg5XfkGEMjzK
Résumé :
On ne peut que constater combien la technologie vidéo est devenue omniprésente en un peu plus d’une décennie. Si les besoins des nouveaux services vidéo ont été en partie satisfaits par l’efficacité des réseaux et de leurs technologies de couche physique, en parallèle les codecs vidéo ont été primordiaux en offrant compression et nouvelles fonctionnalités. La recherche en codage vidéo se caractérise alors par un fort contexte normatif où le point de compatibilité se fait au niveau du décodage. Les performances de chaque nouveau standard sont remarquables, car typiquement chacun par rapport au précédent, code avec la même qualité objective un format vidéo donné mais en divisant par deux le débit nécessaire. Il est cependant frappant de constater que le paradigme de la couche de codage n’a pas changé depuis l’origine, avec un codec dissymétrique où les décisions sont prises à l’encodage via un schéma hybride intégrant les étapes de prédiction, transformation, quantification et codage entropique. Il est aussi surprenant de constater la persistance de l’implantation dans les codeurs pour la phase d’optimisation débit-distorsion, d’un calcul de distorsion de type erreur quadratique moyenne, alors que l’on sait la corrélation pauvre entre les résultats de cette métrique et le jugement humain.
C’est à ce niveau que se définit l’objectif du codage vidéo perceptuel qui est d’aller vers une représentation de l’information basée sur le contenu perçu et qui puisse servir de paradigme pour un codage basé qualité perceptuelle des contenus des vidéos 2D et 3D. Pour être en phase avec les approches standards, l’objectif devient de guider les choix de codage de façon à aller vers la fidélité perceptuelle sans perte des vidéos décodées. Mes travaux se positionnent donc dans cette recherche des outils et des méthodes où les choix pour améliorer la qualité perceptuelle guident le codage vidéo.
Ma présentation retracera mon itinéraire scientifique au sein des équipes IVC-IRCCyN puis IPI-LS2N qui, du fait des recherche qui y sont conduites sur la modélisation du système visuel humain, ont offert et offrent encore un cadre collaboratif particulièrement propice aux travaux liés au codage vidéo perceptuel.
Mes contributions au codage vidéo perceptuel se sont principalement organisées au sein de projets de recherche visant à contribuer aux efforts faits en normalisation, avec le projet ANR ArchiPEG qui avait pour objectif l’optimisation du codage vidéo HD en flux H.264/AVC, le projet ANR PERSEE qui s’intéressait au codage perceptuel des formats vidéo 2D et 3D via le codec H.264 et son extension MVC, et le projet européen ITN PROVISION qui visait le codage perceptuel via HEVC. Mes contributions ont été produites au travers l’encadrement de thèses (4 soutenues, 1 en cours), et nous verrons que nous avons agi à 2 niveaux de la boucle de codage vidéo hybride.
Une première possibilité est d’améliorer directement des unités de la boucle de codage.
C’est ainsi que nous avons mis en œuvre une transformation directionnelle tenant compte des orientations géométriques au sein de l’image. Nous avons exploité cette représentation de l’information afin de construire des classes de structures, puis adapté la quantification de leur contenu en se basant sur des critères perceptuels.
Nous avons aussi, après avoir défini la notion de textures spatio-temporelles visuelles, proposé un modèle mesurant la similarité entre ces textures visuelles. Ce modèle computationnel basé sur le traitement cortical du SVH, a ensuite été utilisé afin d’améliorer la boucle de codage de HEVC : en identifiant des classes de textures visuelles et en faisant correspondre à la distorsion objective standard calculée par le codeur sa valeur dans le domaine perceptuel.
Une autre approche consiste à mettre en place un schéma de pré-analyse avant encodage afin de piloter ensuite efficacement le codage des régions d’intérêt. La modélisation de l’attention visuelle est donc essentielle au niveau de cette analyse.
Nous avons conçu un schéma de pré-analyse basé sur des tubes spatio-temporels. Cet outil réalise la segmentation et le suivi des objets constitués de tubes connexes, et il leur associe une saillance visuelle. L’ensemble de ces informations est exploitée afin d’assurer un codage cohérent des objets en flux H.264/AVC. Exactement nous avons testé l’adaptation de la structure du GOP, et le guidage de la qualité visuelle.
Nous avons aussi développé le premier modèle computationnel de l’attention visuelle 3D s’appliquant à la visualisation d’images stéréoscopiques. Ce modèle combine deux cartes de saillance visuelle : celle 2D et celle de profondeur. Nous avons utilisé ce modèle afin d’améliorer la qualité d’expérience de visualisation de la TV3D, par ajout d’un flou de défocalisation sur la région ayant moins d’intérêt.
Dans la dernière partie de ma présentation, un bilan et des perspectives sont donnés. Nous nous intéressons en particulier au codage des formats vidéo immersifs représentés par des nuages de points 3D. Nos derniers travaux montrent l’intérêt d’une approche basée quantification vectorielle algébrique et arborescente, permettant de structurer graduellement la géométrie de la scène, et cela en fonction d’un critère débit-distorsion.
Index
ANR Agence Nationale  de la Recherche
AVC   Advanced video Coding
GOP Group of Pictures
HD   Haute Définition
HEVC   High Efficiency Video Coding
IPI Image Perception Interaction
IRCCyN Institut de Recherche en Communications et Cybernétique de Nantes, UMR 6597
ITN Initial Training Network
IVC   Image & Vidéo Communication
LS2N   Laboratoire des Sciences du Numérique de Nantes, UMR 6004
MVC   Multiview Video Coding
SVH   Système V

Séminaire IPI – Invité : Bogdan CRAMARIUC (ITCST Roumanie)

Le prochain séminaire IPI aura lieu mardi 21 janvier 2020 à 11h, en salle D005 sur le site de Polytech.

Bogdan Cramariuc, directeur de l’ITCST (IT Center for Science an Technology, Bucarest, Romania) animera ce séminaire intitulé « Robotic Platforms in Ambient Assisted Living (AAL)« .

Abstract:
The topics will cover the current context of changing demographics and emerging ICT solutions that are continuously developed to support independent living and optimize caregiving activities such as to reduce the social and economic impact of a worldwide aging population. The presentation will focus on completed and ongoing European projects and the obtained results. In particular, the use of robotic platforms as service robots will be presented in the above context. Various issues regarding safety, ethics and user acceptability will be discussed. Practical implementations on robotic platforms for object manipulation and activity recognition will be presented. In this context, a large amount of visual and depth (point-cloud) data is collected which needs to be compressed for storage and further analyzed. While fully automous robotics is not yet a practical solution in AAL, rapid advancement in the robotics field will make this approach feasible.

Présentation des séminaires sur l’UNCloud.

Soutenance de thèse d’Erwan DAVID (équipe IPI)

Erwan David, doctorant au sein de l’équipe IPI, soutiendra sa thèse sa thèse intitulée « L’impact des troubles du champ visuel sur les dynamiques spatio-temporelles de l’observation de scènes naturelles. Analyses et modélisation » / « Effects of visual field loss on the spatio-temporal dynamics of natural scene viewing »

jeudi 28 novembre 2019 à 13h30,  dans l’amphi 2 du bâtiment IRESTE à Polytech.

Jury :
– Présidente : Muriel Boucart, Directrice de recherche, Université Lille
– Rapporteurs : Anne Guérin-Dugué, Professeure, Université Grenoble-Alpes ; Pierre Kornprobst, Directeur de recherche, INRIA Sophia-Antipolis
– Examinateurs : Nathalie Guyader, Maître de conférences, Université Grenoble-Alpes ; Christine Cavaro-Menard, Maître de conférences, Université d’Angers
– Directeur de thèse : Patrick Le Callet, Professeur, Université de Nantes
– Co-encadrants de thèse : Matthieu Perreira Da Silva, Maître de conférences, Université de Nantes ; Pierre Lebranchu, MCU-PH, Université et CHU de Nantes

Résumé : Comment l’attention visuelle est-elle dirigée par la vision centrale et périphérique ? Nous étudions cette question en mesurant l’impact de pertes visuelles (scotome) sur les mouvements oculaires durant la visualisation libre de scènes naturelles. Nous simulons des scotomes sur écran et dans un casque de réalité virtuelle, dans une dernière expérimentation nous étudions des patients avec des troubles réels. Nous avons mis en place des analyses basées sur les statistiques globales et sur les séries temporelles (apprentissage machine) pour apprécier les dynamiques d’observation oculo-motrices.
Nos principaux résultats concernent des profils de saccades bien distincts selon le type de scotome. La direction et la cible des saccades informent sur le déploiement de l’attention, par conséquent nos résultats traduisent des mécanismes attentionnels propres aux champs visuels. En particulier, ressortent une augmentation forte de saccades de retour en présence de scotomes centraux et de saccades en avant avec des scotomes périphériques. Ces résultats appuient la théorie de la segmentation fonctionnelle des champs visuels. En outre les scotomes impactent peu les mouvements de tête, nous argumentons que la tête a un rôle secondaire visant principalement à étendre le champ visuel. Une meilleure compréhension du rôle de la vision centrale et périphérique trouve des applications aussi bien cliniques qu’en sciences de l’information. Notamment, pour l’amélioration de modèles de prédiction du regard, mais aussi pour le développement d’outils d’assistance à la vision, de protocoles de remédiation et de réhabilitation, ou de tests de dépistage des défauts du champ visuel.

Mots-clés : Attention visuelle, mouvement oculaire, tracé oculaire, perte visuelle, vision périphérique, stimuli 360°, modélisation

*********

Abstract: How is visual attention affected by the central and the peripheral field of view?
In an attempt at answering this question we study the effects of visual field losses (scotoma) on eye movements during a free-viewing task of natural scenes. In two experiments we simulated scotomas on screen and in a virtual reality headset, in a third one we recruited patients with non-simulated visual field defects. Our analyses are based on global statistical differences and time series (machine learning) in order to study the spatio-temporal dynamics of eye movements. We show that scotomas strongly impact saccadic programming. The amplitude and direction of saccades are related to the deployment of attention, therefore our findings inform about attention mechanisms pertaining to the different fields of view. Without central vision subjects show an increase in return saccades, whereas experimenting with peripheral field loss participants produce more forward saccades; these results support findings about a functional divide between the central and peripheral visions. We also show that head movements are weakly impacted by scotomas, the head appear to serve vision to extend the field of view but is not impacted by visual attention in the same way as the eyes. A better understanding of the role of central and peripheral visions has direct applications both clinical and related to computer science. For instance, to improve gaze prediction models, to develop vision assistance, therapeutic or rehabilitation tools, or even screening tests targeting the early detection of visual field defects.

Keywords: Visual attention, eye movement, scanpath, visual field defect, peripheral vision, 360° stimuli, modelling

Formation au calcul parallèle avec le CCIPL [COMPLET]

Le Centre de Calcul Intensif des Pays de la Loire organisera une formation théorique le 21 novembre 2019 à 10h dans la salle 105 du bâtiment 11 de la FST. La formation est en français (des supports en anglais sont disponibles).

La formation est prévue pour une vingtaine de personnes. Si l’équipe IPI est à l’initiative de cette formation, tout le monde est invité.

Pour information, certains projets du LS2N utilisent déjà les ressources CCIPL, mais nous pourrions mieux utiliser cette ressource. De plus, le CCIPL est en train de s’équiper de GPU, ce qui pourra intéresser certains d’entre vous.

UPDATE : COMPLET !

Séminaire IPI – Wenjie ZOU (Xidian University)

The next IPI seminar will held on Friday the 8th of November (2pm-3pm).
The room (at Polytech) will be D005.

The speaker will be Wenjie ZOU, who is a lecturer with the State Key Laboratory of Integrated Services Networks (Xidian University, Xi’an, China), and currently he is visiting our LS2N Lab.

Title: Presence Assessment for Virtual Reality Videos
 
Abstract:
Beyond the video quality concerned in the perceptual quality assessment for the traditional 2D videos, sense of presence is a higher level of experience provided by virtual reality videos. This experience describes the feeling, sense or state of “being there” in a mediated environment which not only depends on video quality, but also relies on many other aspects of virtual reality environment such as the matching level of virtual reality device, the realism of audio, the fidelity of scene, etc. The aim of this study was to develop a presence assessment model which can be deployed in real applications. The input of this model must be the technical parameters which can be extracted and recorded in practice. For this purpose, a presence assessment framework was firstly built as the basic framework which can be further extended to contain more aspects of perception. Then, subjective experiments were conducted to build the model. Until now, the model was only suitable for the 3DoF (degree of freedom) videos. We hope that the proposed assessment framework and model can be extended to apply to 6DoF videos and cloud virtual reality applications in our future research.

IT Tour Nantes 2019 – Intervention d’Harold Mouchère

Harold Mouchère est intervenu le 16 octobre à l’IT tour 2019 organisé par le « Le Monde informatique ».

Durant son exposé sur l’intelligence artificielle, il a présenté deux projets en cours au laboratoire :

  • un premier, CROHN-IPI, sur les réseaux profonds pour l’imagerie médicale visant à l’aide au diagnostic de la maladie de Crohn,
  • un second en environnement industriel : application de dévracage pour l’aide à la préparation automatisée assistée par robot industriel.

Utopiales 2019 : CODER / DECODER !

La 20ème édition des Utopiales, qui aura lieu du 31 octobre au 3 novembre 2019 abordera le thème Coder/Décoder !

Mais qu’est-ce que le code, que sont les codes ? S’agit-il seulement de systèmes plus ou moins construits, plus ou moins délibérés, visant à transporter un contenu qu’on espère pertinent vers un interlocuteur ? Ou alors, ces codes sont-ils également, schémas invisibles et indispensables, la structure de l’ADN de nos sociétés, de nos œuvres comme celui de nos corps ?

De la partition de La Neuvième Symphonie au C++ (code de programmation), des IA au big data, des équations qui décrivent le monde aux algorithmes qui le transforment, du langage des abeilles à la langue des signes ou au braille, du chiffre de César à Enigma, des langues mortes à l’esperanto ou au klingon, des stéréotypes genrés aux archétypes du récit… Artistes, auteurs et autrices, scientifiques, pertinent.e.s et impertinent.e.s, vont déchiffrer pour nous les structures cachées de la société, du langage, de l’information et de la création. Plus d’infos.

Notons la présence exceptionnelle de Gilles Dowek au travers de plusieurs événements : la machine à différences, la vérité, la puissance de l’algorithme…

Pierre-Antoine Gourraud, partenaire régulier du labo, interviendra le 1er novembre à 10h pour parler de la « méchante IA ».

IT Tour 2019

Pour la 8ème année consécutive, les rédactions du Monde Informatique et de CIO se mobilisent en régions et réunissent plus de 70 intervenants (RSSI, CISO, DSI, DPO, experts IT…) d’horizons professionnels variés.

L’IT Tour s’arrêtera à Nantes mercredi 16 octobre 2019 de 8h35 à 12h50, à la CCI de Nantes.

Harold Mouchère (équipe IPI) interviendra au cours de la matinée.

Les principaux thèmes 2019 sont :
– L’IA, moteur de la transformation numérique
– RGPD année II : réalités, aménagements et cas spécifiques
– Comment bien exploiter l’hyperconvergence
– Comment promouvoir et tirer les bénéfices de l’Open Innovation dans votre entreprise
– Les services viennent transformer le stockage

Programme détaillé et inscription en ligne.

Fête de la Science 2019 à Nantes

La prochaine édition de la Fête de la Science se tiendra du 5 au 13 octobre 2019 en Pays de la Loire.

Terre des Sciences coordonne la manifestation en région.

Cette année, trois thématiques régionales sont à l’honneur :
– L’égalité homme/femme
– La transition énergétique
– Le progrès scientifique et technique

Plus d’infos en ligne.

Voir le programme complet en Loire-Atlantique (pdf)

Soutenance de thèse de Julien LANGLOIS (équipe IPI)

Julien Langlois, doctorant au sein de l’équipe IPI, a soutenu sa thèse de doctorat intitulée « Vision industrielle et réseaux de neurones profonds – Application au dévracage de pièces industrielles en plastique » / « Industrial image processing and deep neural networks – Application to industrial plastic parts bin-picking »

mercredi 28 août 2019 à Polytech.
Cette thèse CIFRE est l’issue d’une collaboration entre le LS2N et l’entreprise Multitude-Technologies basée à Laval.

Jury :
Rapporteur : M. Cédric DEMONCEAUX, Professeur de l’université de Bourgogne
Rapporteur : M. Antoine TABBONE, Professeur de l’université de Lorraine
Examinatrice : Mme Véronique EGLIN, Professeure de l’INSA Lyon
Examinateur : M. Vincent LEPETIT, Professeur de l’université de Bordeaux
Directeur de thèse : M. Christian VIARD-GAUDIN, Professeur de l’université de Nantes
Co-directeur de thèse : M. Nicolas NORMAND, Professeur de l’université de Nantes
Encadrant de thèse : M. Harold MOUCHÈRE, MCF HDR de l’université de Nantes
Membre invité : Mme Morgane TANGUY, Docteure, responsable R&D du groupe WEDO

Résumé :
Ces travaux de thèse présentent une méthode d’estimation de pose de pièces industrielles en vue de leur dévracage à partir d’un système mono-caméra 2D en utilisant une approche par apprentissage avec des réseaux profonds. Dans un premier temps, des réseaux de neurones assurent la segmentation d’un nombre prédéterminé de pièces dans la scène. En appliquant le masque binaire d’une pièce à l’image originale, un second réseau infère la profondeur locale de cet objet. En parallèle des coordonnées de la pièce dans l’image, cette profondeur est employée dans deux réseaux estimant à la fois l’orientation de l’objet sous la forme d’un quaternion et sa translation sur l’axe Z. Enfin, un module de recalage travaillant sur la rétro-projection de la profondeur et le modèle 3D de l’objet, permet d’affiner la pose prédite par les réseaux. Afin de pallier le manque de données réelles annotées dans un contexte industriel, un processus de création de données synthétiques est proposé. En effectuant des rendus aux multiples luminosités, la versatilité du jeu de données permet d’anticiper les différentes conditions hostiles d’exploitation du réseau dans un environnement de production.

Abstract :
This work presents a pose estimation method from a rgb image of industrial parts placed in a bin. In a first time, neural networks are used to
segment a certain number of parts in the scene. After applying an object mask to the original image, a second network is inferring the local depth
of the part. Both the local pixel coordinates of the part and the local depth are used in two networks estimating the orientation of the object as
a quaternion and its translation on the Z axis. Finally, a registration module working on the back-projected local depth and the 3D model of the
part is refining the pose inferred from the previous networks. To deal with the lack of annotated real images in an industrial context, an data
generation process is proposed. By using various light parameters, the dataset versatility allows to anticipate multiple challenging exploitation
scenarios within an industrial environment.
Copyright : LS2N 2017 - Mentions Légales - 
 -