M. Mac Dang Khoa, doctorant en co-tutelle MICA - LIG Grenoble, a soutenu brillament sa thèse à Grenoble le 15 juin 2012 et ainsi obtenu le titre de Docteur en Sciences. Il a obtenu les félicitations du jury.

Titre : Génération de parole expressive dans le cas des langues à tons

Co-directeur de thèse (LIG et MICA) : M. Eric CASTELLI
Co-directeur de thèse (MICA) :
Mme PHAM THI Ngoc Yen
Co-encadrante de thèse (LIG) : Mme Véronique AUBERGE

Membres du jury :

M. Laurent BESACIER Professeur à l'Université Joseph Fourier - Grenoble Président
M. Phlippe MARTIN Professeur à l'FR de Linguistique, Université Paris Diderot Rapporteur
M. Christophe D'ALESSANDRO Directeur de Recherche CNRS, Laboratoire LIMSI, Université Paris XI Rapporteur
M. René CARRE Directeur de recherche CNRS émérite, DDL Lyon Examinateur
Mme. PHAM Thi Ngoc Yen Professeur à l'Institut Polytechnique de Hanoi, Institut MICA Directeur
Mme. Véronique AUBERGE Chargé de Recherche CNRS, Laboratoire LIG Co-encadrante
M. Eric CASTELLI CR HDR CNRS - Professeur à l'Institut Polytechnique de Hanoi, Institut MICA Directeur

Résumé:
De plus en plus, l’interaction entre personne et machine se rapproche du naturel afin de ressembler à l’interaction entre humains, incluant l’expressivité (en particulier les émotions et les attitudes). Dans la communication parlée, les attitudes, et plus généralement les affects sociaux, sont véhiculés principalement par la prosodie. Pour les langues tonales, la prosodie est utilisée aussi pour coder l’information sémantique dans les variations de tons. Ce travail de thèse présente une étude des affects sociaux du vietnamien, une langue à tons et une langue peu dotée, afin d’appliquer les résultats obtenus à un système de synthèse de haute qualité capable de produire la parole « expressive » pour le vietnamien.
Le premier travail de cette thèse consiste en la construction du premier corpus audio-visuel des attitudes vietnamiennes, qui contient seize attitudes. Ce corpus est ensuite utilisé pour étudier la perception audio-visuelle et interculturelle des attitudes vietnamiennes. Pour cela, une série de tests perceptifs a été effectuée avec des auditeurs natifs et non-natifs (des auditeurs francophones pour les non-natifs). Les résultats de ces tests montrent que les facteurs influant sur la perception des attitudes sont l'expression de l’attitude elle-même et la modalité de présentation (audio, visuelle et audio-visuelle). Ces résultats nous ont ainsi permis de trouver des affects sociaux communs ou interculturels entre le vietnamien et le français. Puis, un autre test de perception a été réalisé sur des phrases avec tons afin d’explorer l’effet du système tonal du vietnamien sur la perception des attitudes. Les résultats montrent que les juges non-natifs peuvent traiter et séparer les indices tonals locaux et les traits saillants prosodiques de portée globale.
Après une présentation de nos études sur les affects sociaux en vietnamien, nous décrivons notre modélisation de la prosodie des attitudes en vue de la synthèse de la parole expressive en vietnamien. En nous basant sur le modèle de superposition des contours fonctionnels, nous proposons une méthode pour modéliser et générer de la prosodie expressive en vietnamien. Cette méthode est ensuite appliquée pour générer de la parole expressive en vietnamien, puis évaluée par des tests de perception sur les énoncés synthétiques. Les résultats de perception valident bien la performance de notre modèle et confirment que l’approche de superposition de contours fonctionnels peut être utilisée pour modéliser une prosodie complexe comme dans le cas de la parole expressive d’une langue à tons.

Mots clés : parole expressive, attitude, affects sociaux, tons, contours prosodiques, vietnamien, langue tonale, synthèse de la parole, modélisation de la prosodie.

Quelques photos :