AuCo: corpus audio de langues du Vietnam et des pays voisins

La collection AuCo (Audio Corpora) regroupe des documents linguistiques sonores de langues du Vietnam et des pays voisins, y compris dans des langues "rares" particulièrement peu dotées au plan informatique. AuCo est un acronyme pour “Audio Corpora”: corpus audio. C’est également une référence à la fée ÂuCơ, qui mit au monde une grande poche d'où sortirent cents œufs qui donnèrent naissance aux Cent Peuples (Bách Việt), ancêtres légendaires des Vietnamiens et de la multitude de groupes ethniques de la région. Les points ronds qui composent le logo de la collection AuCo/ÂuCơ sont une allusion à ces cent œufs, symbole de la diversité culturelle et linguistique que reflète la collection.


Le but de la collection AuCo est de recueillir les documents recueillis par les chercheurs au fil de leur activité de recherche. Elle remplit par là une fonction importante: inscrire la collecte de données orales dans une perspective cumulative. La préparation, la réalisation et l'annotation d’enregistrements sont des tâches gourmandes en temps; au prix d’un léger surcroît de travail, il est possible de préparer les données de façon à ce qu’elles puissent être réutilisées par d’autres, pour des finalités variées (notamment: analyse phonétique/phonologique, traitement automatique de la parole, mais aussi didactique des langues/projets de revitalisation de langues en danger). La collection AuCo a vocation à contribuer à la documentation du patrimoine humain que représentent les langues du monde; elle a aussi vocation à faciliter les travaux de recherche interdisciplinaires associant ingénieurs et linguistes, autour de techniques communes.

Il est prévu de verser à la collection des documents de types très divers, et de valeur patrimoniale très inégale: des récits traditionnels aux documents lus, en passant par les dialogues et les enquêtes de vocabulaire; des collections uniques datant de plusieurs décennies, et concernant des parlers aujourd'hui en voie de disparition, jusqu'au tout-venant des enregistrements de langues nationales (réalisés ponctuellement pour les besoins d'études phonétiques/phonologiques ou d'outils de traitement automatique). Les utilisations nouvelles et créatives des données sont rarement prévisibles; d’où le choix de ne fermer la collection AuCo à aucun type de données.

Enregistrement de la langue Naxi - Yunnan

Les documents de la collection AuCo ont été enregistrés et transcrits/annotés par des chercheurs d'horizons très variés, dont les membres du département "Parole et Communication" de l'Institut de recherche international MICA (HUST – CNRS/UMI-2954 – Grenoble INP, Hanoi University of Science and Technology). Leur préparation pour archivage et diffusion en ligne est assuré par des membres du département “Parole et Communication” de l'Institut de recherche international MICA. Archivage pérenne et diffusion en ligne sont assurés par la grille de services du Très Grand Equipement Adonis (en partenariat avec le CINES et l’IN2P3); la préparation des documents en vue de leur dépôt s'effectue avec le concours des deux services versants pour les données orales, collection Pangloss / réservoir de données CoCoON (CNRS-LACITO) et Speech and Language Data Repository: SLDR (CNRS-LPL).

Minorité Mo Piu De 2009 à 2013, le travail de collecte de données des membres de l’Institut MICA s'est concentré sur la langue mơ piu, membre de la branche hmong (hmongic) de la famille hmong-mien, dont il existe moins de 250 locuteurs. Une importante documentation a été recueillie, au moyen de séjours sur place (dans la province de Lào Cai) et d’invitations de locuteurs à Hanoi. Les données recueillies sont en cours de dépôt auprès de l'archive SLDR.

 Les travaux en cours (2014-2016) concernent en particulier :

 

Langues Personnes impliquées Principaux objectifs
Tai Yo et Tai Pao
(famille Tai-Kadai)
Frédéric Pain,
Matthew Deo,
Đinh Thị Hằng
- édition électronique multimédia d'un manuscrit en écriture Lai Pao, système d'écriture uniquement attesté au Vietnam
- publication en ligne d'enregistrements entièrement phonémisés, annotés et traduits
langues Việt-Mường (Vietic) :
Mường, Cuối Chăm, Arem
Nguyễn Thị Minh Châu,
Phạm Thị Thu Hà,
Cao Thành Việt
- documentation fondamentale et étude d'un dialecte Mường à partir de données nouvellement collectées
- annotation et publication en ligne d'enregistrements historiques
- saisie de données à partir de notes de terrain (vérifiées), et synchronisation avec les enregistrements
dialecte vietnamien de :
Phong Nha, Quảng Bình
Michel Ferlus,
Alexis Michaud,
Nguyễn Thị Minh Châu
- mise en forme et publication de données
- analyse diachronique des données

Un formulaire en vietnamien est disponible pour recueillir le consentement des locuteurs, en vue de la mise en ligne des données selon une licence CreativeCommons. Ce formulaire est à établir en 2 exemplaires dont 1 est remis au locuteur et l'autre est conservé par l'équipe du projet AuCo.

 

Mise à jour - novembre 2014:

La liste de vocabulaire multilingue est en ligne. Un script pour la création de documents XML à partir d'annotations Praat est en ligne. Le principe et le mode de fonctionnement sont expliqués ici. Les outils sont fonctionnels et nous allons passer en production.

 

Mise à jour - août 2015:

Les données de trois langues sont disponibles en ligne: Cuối Chăm, Arem, et Mường. Les données de 7 langues du groupe tai-kadai sont en cours de finalisation; mise en ligne prévue dans un avenir proche (avant fin 2015).

Un outil pour l'affichage de manuscrits synchronisés avec leur annotation a été élaboré, permettant de traiter un fonds de documents dans des parlers tai du Vietnam. Démonstration en ligne (en anglais) ici.

Voir également une vidéo (en vietnamien) présentant la re-découverte de l'écriture Lai Pao (Lai Paw), qui sera, avec le tai don (tai blanc), l'une des premières écritures qui bénéficieront de ce traitement documentaire. Matthew Deo a bénéficié en 2014 d'un premier soutien financier de la Bibliothèque Scientifique Numérique, au titre du projet DO-RE-MI-FA, "Documents des Recherches Linguistiques de Michel Ferlus en Asie du Sud-Est", réalisé au sein de l'Institut MICA. En 2015, Matthew Deo a bénéficié d'un soutien du LabEx "Empirical Foundations of Linguistics".