Âu Cơ: cơ sở dữ liệu âm thanh ngôn ngữ Việt Nam và các nước láng giềng

Cơ sở dữ liệu ÂuCơ thu thập và lưu trữ các bản thu âm bằng các ngôn ngữ trên lãnh thổ Việt Nam và cả các nước láng giềng, bao gồm những ngôn ngữ đang có nguy cơ tuyệt chủng và những ngôn ngữ nghèo dữ liệu.
Tên dự án là AuCo: Audio Corpora, Cơ sở dữ liệu tiếng nói. Cũng có ý nghĩa là Âu Cơ, một nhân vật gắn liền với truyền thuyết về tổ tiên của người Việt. Trong truyền thuyết này, mẹ Âu Cơ sinh ra một trăm trứng, trăm trứng này nở ra trăm con và từ một trăm người con (Bách Việt) này đã hình thành nên các nhóm dân tộc khác nhau.
Các chấm tròn sử dụng trong thiết kế logo của dự án tượng trưng cho trăm trứng - là biểu tượng của sự đa dạng văn hóa và ngôn ngữ được phản ánh trong bộ dữ liệu AuCo.


Mục đích của dự án AuCo là thu thập dữ liệu của các nhà nghiên cứu qua các hoạt động nghiên cứu của họ. Do đó, Cơ sở dữ liệu AuCo có vai trò đặc biệt quan trọng đảm bảo một tiến trình xây dựng và tích lũy dữ liệu tiếng nói.
Quá trình chuẩn bị, thu âm và gán nhãn dữ liệu âm thanh tiêu tốn rất nhiều thời gian và công sức. Đa phần các nghiên cứu khác không có kế hoạch lưu trữ hay tái sử dụng dữ liệu lâu dài. Trong khi đó, với dự án này, chỉ cần đầu tư thêm một lượng nhỏ công sức thì cơ sở dữ liệu có thể được sử dụng lại trong các mục đích nghiên cứu khác: không chỉ trong phân tích ngữ âm, xử lý tiếng nói tự động mà còn cả trong lĩnh vực dạy học ngôn ngữ.

Cơ sở dữ liệu AuCo sẽ đóng góp một tài liệu quý giá bởi ngôn ngữ chính là di sản của thế giới. Một điều quan trọng nữa mà dự án hướng tới, đó là làm đơn giản hóa việc kết nối các nhóm kỹ sư và các nhà ngôn ngữ học thông qua việc chia sẻ dữ liệu, công cụ hỗ trợ và phương pháp nghiên cứu.
Dự án AuCo thu thập các dữ liệu đa dạng từ những đoạn ghi âm giá trị từ vài thập kỷ trước tới những đoạn ghi âm hàng ngày trong các nghiên cứu hiện tại.

Recording the Naxi language - Yunnan

Cơ sở dữ liệu AuCo được thực hiện bởi các nhà nghiên cứu từ nhiều đơn vị và lĩnh vực khác nhau, trong đó có các thành viên của Phòng giao tiếp tiếng nói của Viện nghiên cứu quốc tế MICA (HUST-CNRS/UMI-2954-Grenoble INP, Trường ĐH Bách Khoa Hà Nội). Việc chuẩn bị tài liệu lưu trữ và cung cấp trực tuyến được thực hiện bởi các thành viên của Phòng Giao tiếp tiếng nói thuộc Viện nghiên cứu quốc tế MICA. Các tài liệu và dữ liệu trực tuyến này sẽ được duy trì với sự giúp đỡ của một số đơn vị nghiên cứu của Cộng hòa Pháp: TGE-Adonis, một đối tác với CINESIN2P3, và hai trung tâm Pangloss/CoCoON (CNRS-LACITO) và SLDR (CNRS-LPL).

Mo Piu minority
Hiện tại, việc thu thập dữ liệu được tiến hành bởi các thành viên MICA tập trung vào ngôn ngữ Mơ Piu (thuộc ngữ hệ H’mông-Miền), một ngôn ngữ có ít hơn 250 người sử dụng. Từ năm 2009, các tập dữ liệu bổ sung được thu thập qua các chuyến đi thực địa (tại làng Nậm Tu Thượng, tỉnh Lào Cai) và việc mời người Mơ Piu tới Hà Nội. Qua đó, ngôn ngữ Mơ Piu sẽ dần dần được tài liệu hóa một cách đầy đủ và hoàn chỉnh.

Khi có thêm dữ liệu mới, các thông tin cập nhật sẽ được đăng tải trên trang này. Các dữ liệu đầu tiên được cung cấp vào tháng 5 năm 2013, là một vài bản thu âm tiếng Hà Nội.

Giấy cho phép sử dụng và công bố cơ sở dữ liệu tiếng nói và hình ảnh, để công bố tài liệu theo li-xăng CreativeCommons BY-NC-SA (được in làm hai bản: một bản cho người tham gia xây dựng cơ sở dữ liệu, một bản để lưu trữ).