Soutenance de thèse de Madhukar BHAT (équipe IPI)

Name: Soutenance de thèse de Madhukar BHAT (équipe IPI)
Start: 2021-06-07T14:00:00+02:00
End: 2021-06-07T16:30:00+02:00
Location: visio

7 juin 2021 @ 14 h 00 min - 16 h 30 min

Madhukar Bhat, doctorant au sein de l’équipe IPI soutiendra sa thèse intitulée « Optimisation perceptuelle et réduction de complexité d’encodage vidéo dans un contexte temps-réel » / « Perceptual optimization and complexity reduction for real-time video encoding »

lundi 7 juin 2021 à 14h en visio.

Lien Zoom : https://univ-nantes-fr.zoom.us/j/95145814230?pwd=anlMRXluUmVDaTd3bnRsOUFQUk14QT09
(Meeting ID: 951 4581 4230 / Passcode: 099949)

Jury :
– Directeur de thèse : Patrick Le Callet
– Rapporteurs : Mathias Wien (Privatdozent, RWTH Aachen, Allemagne), Marco Cagnazzo (Professeur, Telecom Paristech, Paris)
– Autres membres : Jean-Marc Thiesse (Chef de service Algorithmes , VITEC, Chatillon)
– Invitée : Mme Lu ZHANG, Maitre de conférences, INSA Rennes

Résumé : Cette thèse explore l’optimisation perceptuelle et la réduction de la complexité afin d’améliorer les schémas de compression vidéo dans un contexte d’encodage temps réel. Le travail est divisé en trois parties qui abordent plusieurs aspects d’amélioration l’encodage vidéo en temps réel. La première contribution introduit un filtre de prétraitement perceptuel basé sur un modèle du système visuel humain. Ce filtre de prétraitement peut être réglé et a été optimisé pour plusieurs conditions de visualisation. Une étude sur la précision de différentes métriques de qualité objective dans le cadre spécifique de la mesure des performances de pré-filtrage est également menée. La deuxième partie de la thèse propose une méthodologie basée sur la classification par apprentissage automatique pour prédire et sélectionner de manière adaptative la meilleure résolution d’encodage dans un scénario de codage en une passe. À cette fin, trois classificateurs différents ont été considérés : Support Vector Machine, Random Forest (RF) et Multi-Layer Perceptron. Dans le but d’évaluer et piloter le gain perceptif à un débit donné, plusieurs métriques de qualité objectives ont ensuite été caractérisées et comparées à plusieurs niveaux de qualité du point de vue de l’incertitude de la qualité subjective de la vérité terrain. En outre, une nouvelle métrique de fusion basée sur RF, subjectivement plus précise, a été introduite pour la formation des classificateurs. La dernière partie se concentre sur la prise en charge de la partie de codage la plus complexe du nouveau standard Versatile Video Coding (VVC) : la décision de partitionnement Multi-Type Tree. Une nouvelle méthode de partitionnement basée Machine Learning est proposée avec un design complet, adaptée à chaque type d’encodeur et particulièrement approprié pour un encodeur matériel temps réel. Une approche basée CNN a ainsi été utilisée, avec des classificateurs pour différents niveaux, formes et types de partitionnement. Cette méthode est finalement évaluée par rapport à une recherche exhaustive et démontre des performances prometteuses qui sont soigneusement analysées.

Mots-clés : Encodage matériel en temps réel, HEVC, VVC, Filtre de prétraitement perceptuel, Apprentissage automatique, Sélection de résolution adaptative, Partitionnement rapide

——————————————————————————————————————————————————————————————————————-

Abstract: This thesis explores perceptual optimization and complexity reduction towards improving video compression schemes in a real-time encoding context. Different strategies are proposed to address perceptual enhancements and complexity reduction. The work is divided into three main parts that tackle several aspects to improve realtime video encoding. The first contribution introduces a perceptual pre-processing filter based on a model of the Human Visual System. This preprocessing filter can be tuned and has been optimized for multiple viewing conditions. An investigation of objective quality metric’s accuracy in measuring the performance of pre-processing is also reported. The second part of the thesis proposes a machine learning classification-based methodology to adaptively predict and select the best encoding resolution in a single-pass encoding scenario. For this purpose, three different classifiers have been considered: Support Vector Machine, Random Forest (RF), and Multi-Layer Perceptron. Several objective quality metrics have been characterized and benchmarked for various quality ranges concerning the uncertainty of subjective quality ground-truth to evaluate and drive the perceptual gain at a given bitrate.
Also, a new, subjectively more accurate RFbased fusion metric has been introduced for the classifier training. The final part focuses on tackling the most challenging encoding part of the new Versatile Video Coding (VVC) standard: the Multi-Type Tree partitioning decision. A new ML-based partitioning method is proposed with a complete design, suitable for every encoder but even more adapted for real-time hardware encoder. A CNN-based approach was considered, offering classifiers for different coding unit depth, shapes, and picture types. This method is finally evaluated against exhaustive search and demonstrate promising performance which are carefully analyzed.

Keywords: Real-time hardware encoding, HEVC , VVC , Perceptual pre-processing filter, Machine learning, Adaptive resolution selection, Fast parititioning

Détails

Date :: 7 juin 2021
Heure :: 14 h 00 min - 16 h 30 min
Organisateur
: LS2N
Catégories d’Évènement:: Actualités, Séminaire
Évènement Tags:: équipe IPI, soutenance, thèse

Lieu

visio

Soutenance de thèse de Madhukar BHAT (équipe IPI)

7 juin 2021 @ 14 h 00 min - 16 h 30 min

Détails

Lieu

Navigation Évènement

Navigation Évènement