M. SAM Sethserey, doctorant en co-tutelle MICA - LIG Grenoble, a soutenu brillament sa thèse à Grenoble le 7 juin 2011 et ainsi obtenu le titre de Docteur en Sciences. Cette thèse est une co-tutelle vraie entre le LIG Grenoble et le Centre MICA Hanoi

Titre : Vers une adaptation autonome des modèles acoustiques multilingues pour le traitement automatique de la parole

Co-directeur de thèse (LIG) : M. Laurent BESACIER
Co-directeur de thèse (MICA) : M. Eric CASTELLI

Membres du jury :

M. Christian BOITET Président DE, PRE UJF Grenoble
M. Hervé GLOTIN Rapporteur PR USTV de Toulon
M. Christophe CERISARA Rapporteur DR HDR LORIA Vandoeuvre-lès-Nancy
Mme Martine ADDA-DECKER Examinateur DR LIMSI-CNRS Paris
M. Eric CASTELLI Co-directeur HDR, MCF MICA CNRS/UMI-2954
M. Laurent BESACIER Co-directeur PR UJF Grenoble (LIG)

Résumé :
Les technologies de reconnaissance automatique de la parole sont désormais intégrées dans de nombreux systèmes. La performance des systèmes de reconnaissance vocale pour les locuteurs non natifs continue cependant à souffrir de taux d'erreur élevés, en raison de la différence entre la parole non native et les modèles entraînés. La réalisation d’enregistrements en grande quantité de parole non native est généralement une tâche très difficile et peu réaliste pour représenter toutes les origines des locuteurs.
Cette thèse porte sur l’amélioration des modèles acoustiques multilingues pour la transcription phonétique de la parole de type « réunion multilingue ». Traiter ce type de parole implique de relever plusieurs défis : 1) il peut exister de la conversation entre des locuteurs natifs et non natifs ; 2) il y a non seulement de la parole non native d’une langue, mais de plusieurs langues parlées par des locuteurs venant de différentes origines ; 3) il est difficile de collecter suffisamment de données pour amorcer les systèmes de transcription. Pour résoudre ces problèmes, nous proposons un processus d’adaptation de modèles acoustiques multilingues que nous appelons « adaptation autonome ». Dans l’adaptation autonome, nous étudions plusieurs approches pour adapter les modèles acoustiques multilingues de manière non supervisée (les langues parlées et les origines des locuteurs ne sont pas connues à l’avance) en n’utilisant aucune donnée supplémentaire lors du processus d’adaptation. Les approches étudiées sont décomposées selon deux modules. Le premier module s’appelle « l’observateur de langues » et a pour but de calculer les caractéristiques linguistiques (langues parlées et origines des locuteurs) des segments à décoder. Le deuxième module vise à adapter le modèle acoustique multilingue en fonction des connaissances fournies par l’observateur de langues. Pour évaluer l’utilité de l’adaptation autonome d’un modèle acoustique multilingue, nous utilisons des données de test, qui sont extraites de réunions multilingues, contenant de la parole native et non native de trois langues : l’anglais (EN), le français (FR) et le vietnamien (VN). Selon les résultats d’expérimentation, l’adaptation autonome donne des résultats prometteurs pour la parole non native, mais dégrade très légèrement les performances sur de la parole native. Afin d’améliorer la performance globale des systèmes de transcription pour la parole native ainsi que non native, nous étudions plusieurs approches de détection de la parole non native et proposons de mettre un tel détecteur en cascade avec notre processus d’adaptation autonome. Les résultats obtenus ainsi sont les meilleurs parmi toutes les expériences réalisées sur notre corpus de réunions multilingues.
Mots-clés : Reconnaissance de la parole non native, adaptation autonome de modèles acoustiques multilingues, observateur de langues, interpolation, discrimination entre parole native et non native.

Abstract:
Automatic speech recognition technologies are now integrated into many systems. The performance of speech recognition systems for non-native speakers, however, continues to suffer from high error rates, due to the difference between non-native speech and models trained on native speech. The making of recordings in large quantities of nonnative speech to represent all the origins of the speakers is a very difficult and impractical task.
This thesis focuses on improving multilingual acoustic models for automatic phonetic transcription of speech in “multilingual meetings”. There are several challenges in “multilingual meeting” speech: 1) there can be a conversation between native and non-native speakers; 2) there is not only one language spoken by a non-native, but several languages spoken by speakers from different origins; 3) it is difficult to collect sufficient data to bootstrap the transcription systems. To meet these challenges, we propose a process of adaptation of multilingual acoustic models called "autonomous adaptation". In autonomous adaptation, we studied several approaches for adapting multilingual acoustic models in an unsupervised way (spoken languages and speakers’ origins are not known in advance) and no additional data are used during the adaptation process. The approaches studied are decomposed into two modules. The first module, called the "language observer", recovers the linguistic information (spoken languages and speakers’ origins) of the segments to be decoded. The second module adapts the multilingual acoustic models based on knowledge provided by the language observer. To evaluate the usefulness of autonomous adaptation of multilingual acoustic models, we use a set of test data, which are extracted from multilingual meeting corpora, containing native and non-native speech in three languages: English (EN), French (FR) and Vietnamese (VN). According to the experimental results, the autonomous adaptation approach shows promising results for non-native speech, but degrades very slightly the performance on native speech. To improve the overall performance of transcription systems for both native and non-native speech, we study several approaches for detecting non-native speech, and propose to cascade such a detector with our self-adaptation process (autonomous adaptation). The results obtained so far are the best among all experiments done on our corpus of multilingual meetings.
Keywords: Non-native speech recognition, autonomous adaptation of multilingual acoustic models, language observer, interpolation, discrimination between native and non-native speech.