Home » évènement » Soutenance de thèse de Félix GONTIER (équipe SIMS)
Chargement Évènements
  • Cet évènement est passé

Soutenance de thèse de Félix GONTIER (équipe SIMS)

15 décembre 2020 @ 10 h 00 min - 12 h 30 min

Félix Gontier, doctorant au sein de l’équipe SIMS soutient sa thèse intitulée « Analyse et synthèse de scènes sonores urbaines par approches d’apprentissage profond »

mardi 15 décembre 2020 à 10h00 en visio.

Jury :
– Rapporteurs : Dick Botteldooren – Professeur des Universités, Université de Ghent ; Gaël Richard – Professeur, Télécom Paris
– Examinateurs : Catherine Marquis-Favre – Directrice de recherche, ENTPE ; Romain Serizel – Maître de conférences, LORIA, Université de Lorraine
– Directeur de thèse : Jean-François Petiot – Professeur des Universités, École Centrale de Nantes
– Co-directrice de thèse : Catherine Lavandier – Professeur des Universités, Université de Cergy-Pontoise
– Co-encadrant de thèse : Mathieu Lagrange – Chargé de recherche (HDR), LS2N

Résumé :
L’avènement de l’Internet des Objets (IoT) a permis le développement de réseaux de capteurs acoustiques à grande échelle, dans le but d’évaluer en continu les environnements sonores urbains. Dans l’approche de paysages sonores, les attributs perceptifs de qualité sonore sont liés à l’activité de sources, quantités d’importance pour mieux estimer la perception humaine des environnements sonores. Utilisées avec succès dans l’analyse de scènes sonores, les approches d’apprentissage profond sont particulièrement adaptées pour prédire ces quantités. Cependant, les annotations nécessaires au processus d’entraînement de modèles profonds ne peuvent pas être directement obtenues, en partie à cause des limitations dans l’information enregistrée par les capteurs nécessaires pour assurer le respect de la vie privée.
Pour répondre à ce problème, une méthode pour l’annotation automatique de l’activité des sources d’intérêt sur des scènes sonores simulées est proposée. Sur des données simulées, les modèles d’apprentissage profond développés atteignent des performances « état de l’art » pour l’estimation d’attributs perceptifs liés aux sources, ainsi que de l’agrément sonore. Des techniques d’apprentissage par transfert semi-supervisé sont alors étudiées pour favoriser l’adaptabilité des modèles appris, en exploitant l’information contenue dans les grandes quantités de données enregistrées par les capteurs. Les évaluations sur des enregistrements réalisés in situ et annotés montrent qu’apprendre des représentations latentes des signaux audio compense en partie les défauts de validité écologique des scènes sonores simulées.
Dans une seconde partie, l’utilisation de méthodes d’apprentissage profond est considérée pour la resynthèse de signaux temporels à partir de mesures capteur, sous contrainte de respect de la vie privée. Deux approches convolutionelles sont développées et évaluées par rapport à des méthodes état de l’art pour la synthèse de parole.

Mots-clés : Paysages sonores, Réseaux de capteurs acoustiques, Perception de sources sonores, Synthèse sonore

Rejoindre la réunion Zoom :
https://ec-nantes.zoom.us/j/98212839223
ID de réunion : 982 1283 9223
Code secret : DU#3xGYV

—————————————————————————————————————————————————–

Abstract:
The advent of the Internet of Things (IoT) has enabled the development of large-scale acoustic sensor networks to continuously monitor sound environments in urban areas. In the soundscape approach, perceptual quality attributes are associated with the activity of sound sources, quantities of importance to better account for the human perception of its acoustic environment. With recent success in acoustic scene analysis, deep learning approaches are uniquely suited to predict these quantities. Though, annotations necessary to the training process of supervised deep learning models are not easily obtainable, partly due to the fact that the information content of sensor measurements is limited by privacy constraints.
To address this issue, a method is proposed for the automatic annotation of perceived source activity in large datasets of simulated acoustic scenes. On simulated data, trained deep learning models achieve state-of-the-art performances in the estimation of source-specific perceptual attributes and sound pleasantness. Semi-supervised transfer learning techniques are further studied to improve the adaptability of trained models by exploiting knowledge from the large amounts of unlabelled sensor data. Evaluations on annotated in situ recordings show that learning latent audio representations of sensor measurements compensates for the limited ecological validity of simulated sound scenes.
In a second part, the use of deep learning methods for the synthesis of time domain signals from privacy-aware sensor measurements is investigated. Two spectral convolutional approaches are developed and evaluated against state-of-the-art methods designed for speech synthesis.

Keywords: Soundscape, Acoustic sensor networks, Sound source perception, Sound synthesis

Détails

Date :
15 décembre 2020
Heure :
10 h 00 min - 12 h 30 min

Catégories d’évènement:
,
Étiquettes évènement :
, ,
Copyright : LS2N 2017 - Mentions Légales - 
 -