Thèse de doctorat : “Diarisation multimodale : vers des modèles robustes et justes en contexte réel”
Publié le 1 décembre 2023Télécom SudParis
L'École Doctorale de l'Institut Polytechnique de Paris et le Laboratoire de recherche SAMOVAR - Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux présentent l'avis de soutenance de monsieur Yannis TEVISSEN, autorisé à présenter ses travaux en vue de l’obtention du Doctorat de l'Institut Polytechnique de Paris, préparé à Télécom SudParis en : Signal, Images, Automatique et robotique.
“Diarisation multimodale : vers des modèles robustes et justes en contexte réel”
Le lundi 4 décembre 2023,
à 14 h 30
Amphithéâtre 7 de Télécom SudParis, Télécom Paris
19 place Marguerite Perey, 91120 PALAISEAU.
Lien de visioconférence disponible ici
Membres du jury :
- M. Björn SCHULLER, Professeur, Imperial College London, ROYAUME-UNI - Rapporteur
- M. Sylvain MEIGNIER, Professeur des universités, Laboratoire d’Informatique de l’Université du Mans, FRANCE - Rapporteur
- Mme Dijana PETROVSKA, Maître de conférences, Télécom SudParis, FRANCE - Examinateur
- M. Jérôme BOUDY, Professeur, Télécom SudParis, FRANCE - Directeur de thèse
- M. Gérard CHOLLET, Directeur de recherche émérite, Télécom SudParis, FRANCE - CoDirecteur de thèse
M. Hervé BREDIN, Chargé de recherche, IRIT, FRANCE - Examinateur
Résumé :
La diarisation du locuteur, c’est à dire la tache de déterminer automatiquement « qui parle, quand ? » dans un enregistrement audio ou vidéo, est un des piliers des systèmes modernes d’analyse des conversations. A la télévision, les contenus diffusés sont divers et couvrent à peu près tous les types de conversations, de la discussion calme entre deux personnes aux débats passionnés en passant par les interviews en terrain de guerre. L’archivage et l’indexation de ces contenus, réalisés par la société Newsbridge, requièrent des méthodes de traitement robustes et justes pour les analyser.
Dans ce travail, nous présentons deux nouvelles méthodes permettant d’améliorer la robustesse des systèmes via des approches de fusion. La première se concentre sur la détection d’activité vocale, prétraitement nécessaire à tout système de diarisation. La seconde est une approche multimodale qui tire notamment parti des dernières avancées en traitement du langage naturel.
Nous voyons également que les récentes avancées des systèmes de diarisation rendent l’utilisation de la diarisation du locuteur réaliste y compris dans des secteurs critiques tels que l’analyse de larges archives audiovisuelles ou le maintien à domicile de personnes âgées. Enfin ce travail présente une nouvelle méthode d’évaluation de la justesse algorithmique de la diarisation du locuteur en vue de rendre son utilisation plus responsable.