Download as pdf or txt
Download as pdf or txt
You are on page 1of 44

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG


TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG VIỆT – HÀN

BÁO CÁO TỔNG KẾT


ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN
NĂM 2024

XÂY DỰNG VÀ PHÁT TRIỂN MÔ HÌNH NHẬN DẠNG PHÁT ÂM SAI


TRONG TIẾNG VIỆT

Mã số đề tài: ĐHVH-2024-SV-15
Thuộc lĩnh vực khoa học và công nghệ: Khoa học dữ liệu và trí tuệ nhân tạo

Sinh viên thực hiện : Nguyễn Kết Đoàn


Nguyễn Trần Tiến
Trần Nguyên Anh
Võ Văn Nam
Ngành học : Khoa học dữ liệu và trí tuệ nhân tạo
Kỹ thuật phần mềm
Giảng viên hướng dẫn : TS. Nguyễn Hữu Nhật Minh

Đà Nẵng, tháng 5 năm 2024


ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG VIỆT – HÀN

BÁO CÁO TỔNG KẾT


ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN
NĂM 2024

XÂY DỰNG VÀ PHÁT TRIỂN MÔ HÌNH NHẬN DẠNG PHÁT ÂM SAI


TRONG TIẾNG VIỆT

Mã số đề tài: ĐHVH-2024-SV-15
Thuộc lĩnh vực khoa học và công nghệ: Kỹ thuật máy tính và Điện tử

Sinh viên thực hiện : Nguyễn Kết Đoàn


Nguyễn Trần Tiến
Trần Nguyên Anh
Võ Văn Nam
Ngành học : Khoa học dữ liệu và trí tuệ nhân tạo
Kỹ thuật phần mềm

Giảng viên hướng dẫn : TS. Nguyễn Hữu Nhật Minh

Đà Nẵng, tháng 5 năm 2024


ĐẠI HỌC ĐÀ NẴNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC CNTT Độc lập – tự do – hạnh phúc
VÀ TRUYỀN THÔNG VIỆT - HÀN

Đà Nẵng, ngày 10 tháng 5 năm 2024

THÔNG TIN KẾT QUẢ NGHIÊN CỨU CỦA ĐỀ TÀI

1. Thông tin chung:


- Tên đề tài: Xây dựng và phát triển mô hình nhận dạng phát âm trong ngôn ngữ
Tiếng Việt
- Mã đề tài: ĐHVH-2024-SV-15
- Sinh viên chịu trách nhiệm chính: Nguyễn Kết Đoàn
- Lớp: 20AD Khoa: Khoa học máy tính Năm thứ: 04 Số năm đào tạo: 4,5
- Người hướng dẫn: TS. Nguyễn Hữu Nhật Minh
- Thời gian thực hiện: 11/2023 - 04/2024
2. Mục tiêu:
- Xây dựng và phát triển mô hình nhận dạng và xử lý tiếng nói thực hiện công việc
phát hiện lỗi phát âm trong tiếng nói Tiếng Việt. Cụ thể, mô hình có thể xác định
các lỗi phát âm về âm vị và thanh điệu vì sai sót trong Tiếng Việt đa số tập trung
vào hai yếu tố này. Mô hình có thể nhận dạng được vị trí của âm vị bị phát âm
sai và đề xuất cách phát âm đúng của âm vị cho người dùng.
3. Tính mới và sáng tạo:
- Đề tài tập trung vào vấn đề nhận dạng phát âm sai trong tiếng Việt, một lĩnh
vực chưa được nghiên cứu và phát triển nhiều tại Việt Nam. Hầu hết các nghiên
cứu hiện nay tập trung vào nhận dạng giọng nói, nhận dạng từ hoặc câu, nhưng
chưa có nhiều công trình nghiên cứu sâu về nhận dạng phát âm sai.
- Mô hình này có thể ứng dụng trong nhiều lĩnh vực như giáo dục (hỗ trợ học
sinh, sinh viên học phát âm tiếng Việt), công nghệ nhận dạng giọng nói, phần
mềm hỗ trợ người khuyết tật, v.v. Do đó, đề tài có tính ứng dụng cao và mang
lại nhiều lợi ích thực tế.
- Việc xây dựng mô hình nhận dạng phát âm sai trong tiếng Việt sẽ đòi hỏi phải
xây dựng các tập dữ liệu phát âm tiếng Việt đa dạng, bao gồm cả phát âm đúng
và sai. Điều này sẽ góp phần làm giàu nguồn tài nguyên ngôn ngữ tiếng Việt.
- Đề tài có tính mới và sáng tạo cao, kết hợp nhiều lĩnh vực, có tính ứng dụng thực
tế và mở ra nhiều hướng nghiên cứu mới trong tương lai.
4. Kết quả nghiên cứu:
Xây dựng được mô hình nhận dạng và phát hiện lỗi phát âm sai trong tiếng Việt,
đồng thời đề xuất cách phát âm đúng của âm vị cho người dùng, hổ trợ cho việc
học tiếng Việt trong lĩnh vực Giáo dục ở Việt Nam
5. Sản phẩm:
- Xây dựng và Phát triển mô hình nhận dạng phát âm sai trong tiếng Việt.
- Website để người dùng dể dàng học phát âm tiếng Việt thông qua chức năng của
mô hình nhận dạng phát âm sai và chức năng đề xuất phát âm đúng cho những
âm vị bị phát âm sai
- Báo cáo kết quả nghiên cứu.
- Có thể nộp một bài báo trên kỷ yếu hội nghị CITA 2024.
- Có thể nộp một bài báo trên challange của Association for Vietnamese Language
and Speech Processing (VLSP 2023).
6. Về các đóng góp của đề tài cho giáo dục và đào tạo, kinh tế - xã hội, an ninh,
quốc phòng:

Nhận diện lỗi sai trong Tiếng Việt được coi là một trong những mô hình tiềm
năng nhất của trí thông minh nhân tạo (AI) vào nhiều lĩnh vực xã hội. Đề tài đóng
góp trong giáo dục và đào tạo bằng công cụ hỗ trợ học phát âm tiếng Việt chuẩn
mực, giúp người dân nâng cao năng lực sử dụng tiếng Việt. Về kinh tế-xã hội,
tạo sản phẩm công nghệ mới cho ngành công nghiệp phần mềm, ứng dụng hỗ trợ
người khuyết tật ngôn ngữ, xây dựng hệ thống tương tác giọng nói thông minh.
Về an ninh quốc phòng, hỗ trợ đào tạo tiếng Việt cho lực lượng vũ trang, xây
dựng hệ thống nhận dạng người dùng qua giọng nói, góp phần phát triển công
nghệ cao về xử lý ngôn ngữ và âm thanh. Vì vậy, mô hình nhận dạng phát âm sai
trong ngôn ngữ Tiếng Việt rất cần thiết trong tương lai.

7. Công bố khoa học của sinh viên từ kết quả nghiên cứu đề tài
Doan Nguyen, Anh Tran, Nam Vo, Tien Nguyen, Tuyen Le, Vuong Nguyen and
Minh Nguyen “DaNangVMD: Vietnamese Speech Mispronunciation Detection”,
Accepted to present in CITA 2024 (International Track)
Sinh viên chịu trách nhiệm chính
thực hiện đề tài

Nhận xét của người hướng dẫn về những đóng góp khoa học của sinh viên thực
hiện đề tài (phần này do người hướng dẫn ghi):
Nội dung đề tài đã giải quyết hiệu quả vấn đề nhận dạng và xử lý lỗi phát âm sai trong
tiếng Việt thông qua việc xây dựng và triển khai thành công mô hình máy học nhận dạng
phát âm sai. Mô hình này đã được đánh giá và thử nghiệm trên các tập dữ liệu phát âm
đa dạng, cho thấy khả năng nhận dạng chính xác các lỗi phát âm về âm vị và thanh điệu
cũng như đề xuất cách phát âm đúng cho người dùng. Giải pháp đề xuất đã được triển
khai thành công trong một ứng dụng web hỗ trợ người dùng học và rèn luyện phát âm
tiếng Việt trong lĩnh vực giáo dục và đào tạo. Thành quả nghiên cứu của đề tài đã được
công bố tại hội thảo quốc tế CITA 2024 thông qua bài báo "DaNangVMD: Vietnamese
Speech Mispronunciation Detection”. Bên cạnh đó, đề tài đã thành công đạt giải ba tại
cuộc thi VLSP 2023 cho bài toán “VLSP 2023 challenge on Vietnamese
Mispronunciation Detection”.

Xác nhận của đơn vị Người hướng dẫn

TS. Nguyễn Hữu Nhật Minh


ĐẠI HỌC ĐÀ NẴNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC CNTT Độc lập – tự do – hạnh phúc
VÀ TRUYỀN THÔNG VIỆT - HÀN
Đà Nẵng, ngày 10 tháng 5 năm 2024

THÔNG TIN VỀ SINH VIÊN


CHỊU TRÁCH NHIỆM CHÍNH THỰC HIỆN ĐỀ TÀI
I. SƠ LƯỢC VỀ SINH VIÊN:
Họ và tên: Nguyễn Kết Đoàn
Sinh ngày: 20 tháng 05 năm 2001 Nơi sinh: Quảng Ngãi
Lớp: 20AD Khóa: 2020 – 2025 Khoa: Khoa học máy tính
Địa chỉ liên hệ: 470 Trần Đại Nghĩa, phường Hòa Quý, quận Ngũ Hành Sơn, Đà Nẵng
Điện thoại: 0396090576 Email: nkdoan.20it7@vku.udn.vn
II. QUÁ TRÌNH HỌC TẬP
* Năm thứ 1:
Ngành học: Công nghệ thông tin Khoa: Khoa học máy tính
Kết quả xếp loại học tập: Giỏi
* Năm thứ 2:
Ngành học: Công nghệ thông tin Khoa: Khoa học máy tính
Kết quả xếp loại học tập: Khá
* Năm thứ 3:
Ngành học: Công nghệ thông tin Khoa: Khoa học máy tính
Kết quả xếp loại học tập: Giỏi
* Năm thứ 4:
Ngành học: Công nghệ thông tin Khoa: Khoa học máy tính
Kết quả xếp loại học tập: Giỏi

Xác nhận của đơn vị Sinh viên chịu trách nhiệm chính
thực hiện đề tài
MỞ ĐẦU

Ngày nay, công nghệ xử lý giọng nói đã đạt được nhiều thành tựu đáng kể trên
toàn cầu và được ứng dụng rộng rãi trong các lĩnh vực như trí tuệ nhân tạo, xử lý ngôn
ngữ tự nhiên, trợ lý ảo, phụ đề tự động và nhiều hơn nữa. Các hãng công nghệ hàng đầu
như Google, Apple, Microsoft đã phát triển và tích hợp các hệ thống nhận dạng giọng
nói vào các sản phẩm và dịch vụ của mình, mang lại trải nghiệm người dùng tối ưu. Tuy
nhiên, hầu hết những hệ thống này chỉ tập trung vào các ngôn ngữ phổ biến như tiếng
Anh, tiếng Trung, trong khi việc nghiên cứu và phát triển cho các ngôn ngữ khác, đặc
biệt là tiếng Việt, vẫn còn nhiều hạn chế.
Tiếng Việt là một ngôn ngữ đơn âm tiết, có hệ thống dấu thanh phức tạp và đặc
thù riêng biệt. Vì vậy, việc áp dụng các phương pháp nhận diện giọng nói từ các ngôn
ngữ đa âm tiết sẽ không mang lại hiệu quả cao cho tiếng Việt. Mặc dù đã có một số ứng
dụng sử dụng tính năng nhận dạng giọng nói tiếng Việt, nhưng độ chính xác và hiệu quả
vẫn chưa được như mong đợi.
Bên cạnh đó, trong giao tiếp hàng ngày, việc phát âm sai trong tiếng Việt là điều
khó tránh khỏi, đặc biệt với những người không phải là người bản ngữ. Sự kết hợp giữa
các dấu thanh và từ vựng có thể dẫn đến nhiều ý nghĩa khác nhau, gây ra sự nhầm lẫn
trong giao tiếp. Do đó, việc xây dựng và phát triển một hệ thống nhận dạng phát âm sai
trong tiếng Việt trở nên cấp thiết, không chỉ để nâng cao chất lượng giao tiếp, mà còn
góp phần thúc đẩy sự phát triển của công nghệ xử lý ngôn ngữ tự nhiên và trí tuệ nhân
tạo cho tiếng Việt.
Nhìn chung, việc xây dựng và phát triển một hệ thống nhận dạng phát âm sai
trong tiếng Việt dựa trên trí tuệ nhân tạo có thể mang lại nhiều lợi ích đáng kể. Hệ thống
này sẽ cải thiện khả năng giao tiếp bằng tiếng Việt, giúp người dùng phát hiện và khắc
phục các lỗi phát âm, đồng thời cung cấp trải nghiệm được cá nhân hóa, không chỉ chỉ
ra lỗi sai mà còn hướng dẫn cách phát âm đúng. Hệ thống cũng có thể được ứng dụng
trong các lĩnh vực như giáo dục, đào tạo ngôn ngữ, trợ lý ảo và hỗ trợ người khuyết tật
ngôn ngữ. Bên cạnh đó, dự án này sẽ thúc đẩy sự phát triển của công nghệ xử lý ngôn
ngữ tự nhiên và trí tuệ nhân tạo cho tiếng Việt, góp phần nâng cao năng lực công nghệ
của đất nước.

1
MỤC LỤC

MỞ ĐẦU ......................................................................................................................... 1
DANH MỤC CÁC TỪ VIẾT TẮT .............................................................................. 4
DANH MỤC HÌNH ẢNH ............................................................................................. 5
DANH MỤC BẢNG BIỂU ........................................................................................... 6
CHƯƠNG 1 – KIẾN THỨC TỔNG QUAN ............................................................... 7
1.1. Tổng quan về xử lý ngôn ngữ tự nhiên (NLP) .................................................. 7
1.2. Tổng quan về nhận dạng giọng nói (ASR) ........................................................ 7
1.3. Ngữ âm học và Nhận dạng phát âm sai trong tiếng Việt ................................ 8
1.4. Các kỹ thuật, công nghệ, thư viện có liên quan ................................................ 9
1.4.1 Học máy (Machine Learning) và Học sâu (Deep Learning) ...........................9
1.4.2 Transformer và Multi-Head Attention ........................................................... 10
1.4.2.1 Transformer ............................................................................................. 10
1.4.2.2 Multi-Head Self-Attention .......................................................................12
1.4.3 LSTM .............................................................................................................14
1.4.4 Log mel Spectrogram ....................................................................................15
1.4.5 PyTorch ..........................................................................................................17
1.4.6 HuggingFace ..................................................................................................19
CHƯƠNG 2 – MÔ HÌNH NHẬN DẠNG PHÁT ÂM SAI TRONG TV ................ 21
2.1. Các đề tài về nhận dạng phát âm sai trước đây .......................................... 21
2.1.2. An Approach to Mispronunciation Detection and Diagnosis with Acoustic,
Phonetic, and Linguistic (APL) Embedding ........................................................... 21
2.1.2. Mispronunciation detection and diagnosis model for tonal language, applied
to Vietnamese .........................................................................................................22
2.1. DaNangVMD: Mô hình nhận dạng phát âm sai trong Tiếng Việt ............ 23
2.2.1. Tổng quan về mô hình nhận dạng phát âm sai .............................................23
2.2.2. Tổng quan về âm vị tiếng Việt .....................................................................24
2.2.3. Xây dựng bộ dữ liệu phát âm sai trong Tiếng Việt ......................................24
2.2.3.1 Bộ dữ liệu VLSP 2023 ........................................................................26
2.2.3.2 Bộ dữ liệu từ cộng đồng HS, SV phát âm tiếng địa phương ..............26
2.2.3.3. Bộ dữ liệu người nước ngoài phát âm tiếng Việt từ OpenAI TTS ..........27
2.2.4. Kiến trúc mô hình đề xuất của DaNangVMD ..............................................28
2.2.4.1. Mô hình cơ bản.......................................................................................28
2.2.4.2. Phonetic Encoder ...................................................................................29
2
2.2.4.3. Linguitic Encoder ...................................................................................30
2.2.4.4. Decoder ..................................................................................................30
2.2.4.5. Kết quả thử nghiệm ................................................................................31
2.2.4.5.1. Thiết lập thử nghiệm ........................................................................31
2.2.4.5.2. Nhận dạng âm vị (Phoneme Recognition) .......................................32
4.2.4.5.3. Nhận dạng các âm vị phát âm sai (MDD) .......................................33
CHƯƠNG 3 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................ 35
3.1. Kết quả đạt được ............................................................................................... 35
3.2. Những điểm hạn chế. ........................................................................................ 35
3.3. Hướng phát triển ............................................................................................... 35
TÀI LIỆU THAM KHẢO........................................................................................... 37

3
DANH MỤC CÁC TỪ VIẾT TẮT

STT Cụm từ viết tắt Từ viết tắt


1 Natural Language Processing NLP
2 Automatic Speech Recognition ASR
3 Text-to-Speech TTS
4 Long Short-Term Memory LSTM
5 Multi-Head Attention MHA
6 Acoustic-Phonetic-Linguistic APL
7 Pitch-Acoustic-Phonetic-Linguistic PAPL

4
DANH MỤC HÌNH ẢNH

Hình 1. Kiến trúc mô hình Transformer .......................................................................11


Hình 2. Cơ chế Multi-Head Attention và Scaled Dot-Product Attention ....................13
Hình 3. Kiến trúc của Long Short-Term Memory (LSTM) .........................................14
Hình 4. Quá trình tính toán Log Mel Spectrogram ......................................................16
Hình 5. Log Mel Spectrogram của một đoạn âm thanh ...............................................17
Hình 6. Xếp hạng các mô hình nhận dạng giọng nói trên Hugging Face Hub. ...........20
Hình 7. Minh họa về phương pháp đề xuất để Phát hiện và Chẩn đoán lỗi phát âm với
các đặc điểm âm thanh, các nhúng ngữ âm và ngôn ngữ (APL) ...................................21
Hình 8. Kiến trúc mô hình MDD được đề xuất cho các ngôn ngữ có ngữ điệu. .........22
Hình 9. Cấu trúc phân cấp của âm tiết tiếng Việt.........................................................24
Hình 10. Ví dụ về cách trình bày âm vị tiếng Việt .......................................................24
Hình 11. Mô tả cấu trúc, quá trình thu thập dữ liệu DaNangVMD.............................. 25
Hình 12. Đề xuất DaNangVMD phát hiện phát âm sai giọng nói tiếng Việt...............29
Hình 13. Kiến trúc của mô hình Wav2Vec2 trong bài toán ASR ................................ 29

5
DANH MỤC BẢNG BIỂU

Bảng 1. Bảng thống kê bộ dữ liệu DaNangVMD ........................................................25


Bảng 2. Bảng thống kê bộ dữ liệu người lớn phát âm VLSP 2023 .............................. 26
Bảng 3. Bảng thống kê bộ dữ liệu trẻ nhỏ phát âm VLSP 2023 ..................................26
Bảng 4. Bảng thống kê bộ dữ liệu giọng địa phương từ cộng đồng HS, SV ...............27
Bảng 5. Bảng thống kê bộ dữ liệu giọng người nước ngoài phát âm tiếng Việt từ
OpenAI TTS ..................................................................................................................27
Bảng 6. Kết quả thực nghiệm các mô hình cho nhiệm vụ VMD .................................32

6
CHƯƠNG 1 – KIẾN THỨC TỔNG QUAN
1.1. Tổng quan về xử lý ngôn ngữ tự nhiên (NLP)
Xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực nghiên cứu và ứng dụng thuộc
ngành trí tuệ nhân tạo, tập trung vào việc phát triển các kỹ thuật và mô hình cho phép
máy tính có khả năng hiểu và xử lý ngôn ngữ tự nhiên của con người. NLP giúp thiết
lập giao tiếp giữa con người và máy tính bằng ngôn ngữ tự nhiên, bao gồm cả văn bản
và giọng nói.
Các lĩnh vực và ứng dụng của NLP: NLP có nhiều lĩnh vực nghiên cứu và ứng
dụng khác nhau, bao gồm:
+ Xử lý ngôn ngữ tự nhiên văn bản: phân tích cú pháp, phân tích ngữ nghĩa, trích
xuất thông tin, tóm tắt văn bản, dịch máy, trả lời câu hỏi, phân loại văn bản...
+ Xử lý ngôn ngữ tự nhiên giọng nói: nhận dạng giọng nói, tổng hợp giọng nói,
hệ thống đối thoại bằng giọng nói...
Ứng dụng của NLP rất đa dạng trong nhiều lĩnh vực như trợ lý ảo, tìm kiếm thông
tin, hỗ trợ khách hàng, phân tích dữ liệu văn bản, tóm tắt tin tức, dịch thuật, kiểm tra lỗi
chính tả, phát hiện tin giả...
Vai trò của NLP trong việc xây dựng hệ thống nhận dạng phát âm: Nhận dạng
phát âm là một nhiệm vụ kết hợp giữa xử lý ngôn ngữ tự nhiên giọng nói và xử lý ngôn
ngữ tự nhiên văn bản. NLP đóng vai trò quan trọng trong việc xây dựng hệ thống nhận
dạng phát âm thông qua các khía cạnh sau:
+ Xử lý âm thanh và tín hiệu giọng nói để chuyển đổi sang dữ liệu văn bản.
+ Phân tích ngữ âm, âm vị học của tiếng nói để xác định từng âm trong chuỗi
phát âm.
+ Xây dựng mô hình ngôn ngữ để nhận diện các từ và cụm từ được phát âm.
+ Áp dụng các kỹ thuật so sánh, đối chiếu giữa phát âm và mô hình chuẩn để xác
định lỗi phát âm.
Nhờ sự phát triển của NLP mà việc xây dựng các hệ thống nhận dạng phát âm
ngày càng trở nên khả thi và hiệu quả hơn, đáp ứng nhu cầu giao tiếp và học tập ngôn
ngữ của con người.
1.2. Tổng quan về nhận dạng giọng nói (ASR)
Khái niệm và nguyên lý cơ bản của nhận dạng giọng nói: Nhận dạng giọng nói
(Automatic Speech Recognition - ASR) là một quá trình chuyển đổi tín hiệu âm thanh
thành dữ liệu văn bản. Nói cách khác, ASR là việc sử dụng máy tính để xác định
những gì một người nói dựa trên tín hiệu âm thanh đầu vào. Nguyên lý cơ bản của
ASR là sử dụng các mô hình toán học và thuật toán để phân tích và nhận dạng các đặc
trưng âm thanh trong giọng nói con người.

7
Các phương pháp và kỹ thuật nhận dạng giọng nói phổ biến:
+ Phương pháp dựa trên mô hình ngôn ngữ và mô hình âm thanh: Sử dụng mô
hình ngôn ngữ để ước lượng xác suất xuất hiện của các chuỗi từ, kết hợp với mô hình
âm thanh để xác định âm thanh đầu vào tương ứng với từ nào.
+ Phương pháp dựa trên mạng nơ-ron (Neural Network): Sử dụng các mạng nơ-
ron như mạng nơ-ron tính toán (CNN), mạng nơ-ron truy hồi (RNN), mạng nơ-ron tự
chú ý (Transformer) để học các đặc trưng âm thanh và ngôn ngữ từ dữ liệu huấn luyện.
+ Phương pháp dựa trên mô hình lai kết hợp (Hybrid): Kết hợp các kỹ thuật
truyền thống và mạng nơ-ron để tận dụng ưu điểm của cả hai phương pháp
Ứng dụng của nhận dạng giọng nói trong thực tế, Nhận dạng giọng nói đã được
ứng dụng rộng rãi trong nhiều lĩnh vực như:
+ Trợ lý ảo (Virtual Assistant): Hỗ trợ giao tiếp bằng giọng nói như Siri, Alexa,
Google Assistant.
+ Điều khiển bằng giọng nói: Điều khiển các thiết bị, ứng dụng bằng giọng nói
+ Hội nghị truyền hình: Phụ đề tự động cho video, ghi chú cuộc họp...
+ Hỗ trợ người khuyết tật: Giúp người khiếm khuyết thính giác, khuyết tật vận
động giao tiếp dễ dàng hơn.
+ Dịch thuật giọng nói: Dịch nhanh giọng nói sang ngôn ngữ khác
+ Kiểm tra giọng nói: Xác thực danh tính người dùng qua giọng nói.
Nhận dạng giọng nói đã và đang đóng một vai trò quan trọng trong việc phát
triển các ứng dụng trí tuệ nhân tạo, tạo ra nhiều tiện ích cho cuộc sống con người.
1.3. Ngữ âm học và Nhận dạng phát âm sai trong tiếng Việt
Giới thiệu về ngữ âm học tiếng Việt: Ngữ âm học là một nhánh của ngôn ngữ
học, nghiên cứu về cấu trúc và đặc điểm âm vị của ngôn ngữ. Ngữ âm học tiếng Việt
tập trung vào việc mô tả, phân tích và xác định các quy luật của hệ thống âm vị trong
tiếng Việt, bao gồm nguyên âm, phụ âm và dấu thanh.
Hệ thống nguyên âm và phụ âm tiếng Việt: Tiếng Việt có 11 nguyên âm đơn (a,
ă, â, e, ê, i, o, ô, ơ, u, ư) và các nguyên âm phức tạp hơn như nhóm trưng dần (oa, oe,
uô, ...) và nhóm trưng đứng (ay, au, ăm, ...). Về phụ âm, tiếng Việt có 22 phụ âm đơn,
trong đó có cả phụ âm vốn và phụ âm mượn từ các ngôn ngữ khác.
Đặc điểm của hệ thống dấu thanh trong tiếng Việt: Điểm đặc biệt của tiếng Việt
là hệ thống dấu thanh phức tạp, gồm 6 dấu thanh: ngang, huyền, hỏi, ngã, sắc, nặng.
Dấu thanh đóng vai trò quan trọng trong việc phân biệt ý nghĩa của các từ, tạo nên sự
đa dạng và phong phú cho tiếng Việt.

8
Các quy tắc phát âm trong tiếng Việt: Tiếng Việt có các quy tắc phát âm đặc
thù như quy tắc phát âm âm đầu, âm cuối; quy tắc về trọng âm, nhịp điệu; quy tắc về
sự kết hợp giữa nguyên âm, phụ âm và dấu thanh. Việc tuân thủ các quy tắc này là rất
quan trọng để phát âm tiếng Việt chính xác.
Nhận dạng phát âm sai trong tiếng Việt: Khái niệm và tầm quan trọng của nhận
dạng phát âm sai: Nhận dạng phát âm sai là quá trình xác định những lỗi phát âm
không đúng với chuẩn ngữ âm của tiếng Việt. Việc nhận dạng phát âm sai có ý nghĩa
quan trọng trong việc rèn luyện kỹ năng phát âm tiếng Việt chuẩn mực, giúp người
học tiếng Việt khắc phục những lỗi phát âm.
Các nghiên cứu và hệ thống nhận dạng phát âm sai hiện có: Hiện nay, đã có
một số nghiên cứu và hệ thống nhận dạng phát âm sai trong tiếng Việt được phát triển,
tuy nhiên vẫn còn nhiều hạn chế về độ chính xác và khả năng ứng dụng rộng rãi.
Thách thức và hạn chế của việc nhận dạng phát âm sai trong tiếng Việt: Việc
nhận dạng phát âm sai trong tiếng Việt gặp phải nhiều thách thức như sự đa dạng về
giọng địa phương, ảnh hưởng của các yếu tố như âm vực, tốc độ phát âm, môi trường
ồn ào, ... Hệ thống dấu thanh phức tạp và các quy tắc phát âm đặc thù của tiếng Việt
cũng là những trở ngại lớn trong quá trình nhận dạng phát âm sai.
Việc nghiên cứu sâu về ngữ âm học tiếng Việt và nhận dạng phát âm sai sẽ giúp
xây dựng các hệ thống nhận dạng phát âm hiệu quả hơn, góp phần nâng cao chất lượng
giảng dạy và học tập tiếng Việt.
1.4. Các kỹ thuật, công nghệ, thư viện có liên quan

1.4.1 Học máy (Machine Learning) và Học sâu (Deep Learning)

Học máy (Machine Learning) và Học sâu (Deep Learning) là hai lĩnh vực quan
trọng của Trí tuệ Nhân tạo (AI) và đóng vai trò then chốt trong việc xây dựng và phát
triển mô hình nhận dạng phát âm sai trong ngôn ngữ Tiếng Việt.
Học máy (Machine Learning) là khoa học về việc xây dựng các thuật toán và mô
hình toán học có khả năng học hỏi và cải thiện từ dữ liệu. Trong bối cảnh của đề tài này,
các kỹ thuật học máy được sử dụng để xây dựng các mô hình có khả năng nhận dạng và
phân loại các mẫu phát âm dựa trên dữ liệu huấn luyện. Một số kỹ thuật học máy phổ
biến có thể được áp dụng trong đề tài bao gồm:
+ Học có giám sát (Supervised Learning): Sử dụng dữ liệu đã được gắn nhãn
(phát âm đúng hoặc sai) để huấn luyện mô hình phân loại hoặc hồi quy.
+ Học không giám sát (Unsupervised Learning): Sử dụng dữ liệu không gắn nhãn
để tìm kiếm các mẫu và cấu trúc ẩn trong dữ liệu.
+ Học bán giám sát (Semi-supervised Learning): Kết hợp cả dữ liệu có nhãn và
không có nhãn trong quá trình huấn luyện.

9
+ Học tăng cường (Reinforcement Learning): Mô hình học cách ra quyết định
dựa trên phần thưởng nhận được từ môi trường.
Học sâu (Deep Learning) Học sâu là một nhánh của học máy, tập trung vào việc
xây dựng và huấn luyện các mạng nơ-ron nhân tạo (Artificial Neural Networks - ANN)
có nhiều lớp ẩn để học các đặc trưng phức tạp từ dữ liệu. Học sâu đã đạt được những
thành tựu đáng kể trong nhiều lĩnh vực, bao gồm cả xử lý ngôn ngữ tự nhiên và nhận
dạng giọng nói. Trong đề tài nhận dạng phát âm sai, các mô hình học sâu có thể được
sử dụng để học các đặc trưng phức tạp từ dữ liệu âm thanh và văn bản. Một số kiến trúc
mạng nơ-ron phổ biến bao gồm:
+ Mạng Nơ-ron Tích chập (Convolutional Neural Networks - CNN): Thích hợp
cho việc xử lý dữ liệu có cấu trúc như hình ảnh, âm thanh.
+ Mạng Nơ-ron Truy hồi (Recurrent Neural Networks - RNN): Thích hợp cho
việc xử lý dữ liệu tuần tự như văn bản, giọng nói.
+ Mạng Nơ-ron Transformer: Một kiến trúc mạng nơ-ron mới, phát huy hiệu quả
trong các bài toán xử lý ngôn ngữ tự nhiên.
+ Mạng Nơ-ron Tích hợp (Hybrid Networks): Kết hợp các kiến trúc khác nhau
để khai thác ưu điểm của từng loại mạng.
Việc sử dụng các kỹ thuật học máy và học sâu sẽ giúp xây dựng các mô hình
nhận dạng phát âm sai hiệu quả, có khả năng học hỏi và cải thiện từ dữ liệu huấn luyện.
Tuy nhiên, việc lựa chọn kỹ thuật phù hợp, thiết kế kiến trúc mô hình và xử lý dữ liệu
đầu vào là rất quan trọng để đạt được kết quả tốt nhất.
1.4.2 Transformer và Multi-Head Attention

1.4.2.1 Transformer
Transformer là một kiến trúc mạng nơ-ron đột phá, đã đạt được thành công lớn
trong nhiều lĩnh vực xử lý ngôn ngữ tự nhiên như dịch máy, trả lời câu hỏi, tóm tắt văn
bản. Trong bối cảnh của đề tài "Xây dựng và phát triển mô hình nhận dạng phát âm sai
trong ngôn ngữ Tiếng Việt", Transformer đóng vai trò quan trọng trong việc xây dựng
mô hình ngôn ngữ, mô hình nhận dạng âm thanh và tích hợp hai mô hình này. Kiến trúc
cơ bản của Transformer bao gồm hai phần chính: Encoder và Decoder.

10
Hình 1. Kiến trúc mô hình Transformer
Mô hình Transformer được xây dựng dựa trên cơ chế tự chú ý (Self-Attention)
thay vì sử dụng các khối truy hồi (Recurrent) hoặc tích chập (Convolutional) truyền
thống. Kiến trúc Transformer bao gồm hai thành phần chính: Encoder và Decoder.
Encoder được sử dụng để xử lý đầu vào và tạo ra một biểu diễn véc-tơ cho toàn
bộ chuỗi đầu vào. Encoder bao gồm các thành phần sau:
+ Embedding Layer: Đầu vào được biểu diễn dưới dạng các véc-tơ embedding,
thường là các véc-tơ one-hot hoặc các véc-tơ từ điển được huấn luyện trước.
+ Position Embedding: Vì Transformer không sử dụng cấu trúc truy hồi, nên cần
thêm thông tin vị trí của các từ trong chuỗi đầu vào. Điều này được thực hiện bằng cách
thêm một véc-tơ position embedding vào véc-tơ embedding của từng từ.
+ Multi-Head Self-Attention Layers cho phép mô hình học được các mối quan
hệ giữa các từ trong chuỗi đầu vào.
+ Feed-Forward Layers: Các lớp feed-forward được sử dụng để tạo ra các biểu
diễn mới cho từng vị trí trong chuỗi đầu vào, dựa trên các biểu diễn từ lớp tự chú ý.
+ Layer Normalization và Residual Connections: Các kỹ thuật này được sử dụng
để giúp mô hình học tốt hơn và ổn định hơn trong quá trình huấn luyện.

11
Encoder áp dụng các lớp tự chú ý và feed-forward lặp lại nhiều lần, tạo ra các
biểu diễn véc-tơ ngày càng phong phú và bao quát hơn cho toàn bộ chuỗi đầu vào.
Decoder được sử dụng để tạo ra đầu ra mục tiêu dựa trên biểu diễn từ Encoder
và đầu vào bổ sung (ví dụ: câu tiếng mục tiêu trong dịch máy). Decoder bao gồm các
thành phần tương tự như Encoder, bao gồm:
+ Embedding Layer và Position Embedding: Tương tự như trong Encoder, nhưng
áp dụng cho đầu vào của Decoder.
+ Masked Multi-Head Self-Attention Layers: Các lớp tự chú ý đa đầu, nhưng với
một phần của ma trận chú ý bị che để đảm bảo rằng mỗi vị trí trong đầu ra chỉ tham khảo
các vị trí trước đó.
+ Encoder-Decoder Attention Layers: Các lớp chú ý mã hóa-giải mã (Encoder-
Decoder Attention) cho phép Decoder tham khảo biểu diễn từ Encoder để tạo ra đầu ra
phù hợp.
+ Feed-Forward Layers: Tương tự như trong Encoder, các lớp feed-forward được
sử dụng để tạo ra các biểu diễn mới cho từng vị trí trong đầu ra.
+ Layer Normalization và Residual Connections: Các kỹ thuật này cũng được sử
dụng trong Decoder để giúp mô hình học tốt hơn và ổn định hơn trong quá trình huấn
luyện.
Decoder áp dụng lặp lại các lớp tự chú ý, chú ý mã hóa-giải mã và feed-forward
để tạo ra đầu ra mục tiêu dựa trên biểu diễn từ Encoder và đầu vào bổ sung. Nhờ sử
dụng cơ chế tự chú ý, Transformer có khả năng học các mối quan hệ phức tạp giữa các
từ trong chuỗi đầu vào và đầu ra mà không bị giới hạn bởi khoảng cách như trong các
mô hình truy hồi truyền thống. Điều này giúp Transformer đạt hiệu suất cao trong nhiều
tác vụ xử lý ngôn ngữ tự nhiên phức tạp.
1.4.2.2 Multi-Head Self-Attention
Cơ chế Multi-Head Self-Attention là một thành phần trọng tâm của kiến trúc
Transformer, cho phép mô hình học được các mối quan hệ bất đối xứng và phức tạp
giữa các từ trong câu hoặc giữa các câu trong đoạn văn. Quá trình tự chú ý đa đầu bao
gồm các bước chính sau:
+ Tính toán trọng số chú ý (Attention Weights): Tính toán độ tương quan giữa
các từ trong chuỗi đầu vào dựa trên sự tương đồng của các biểu diễn véc-tơ của chúng.
Các trọng số này cho biết mức độ quan trọng của mỗi từ đối với từ đang xét.
+ Tính toán véc-tơ biểu diễn (Representation Vectors): Tính toán véc-tơ biểu diễn
mới cho mỗi từ dựa trên tổ hợp tuyến tính của các véc-tơ đầu vào khác, được trọng số
bởi trọng số chú ý tương ứng. Điều này cho phép mô hình tập trung vào các từ quan
trọng hơn trong quá trình xử lý.

12
+ Đa đầu (Multi-Head): Quá trình tự chú ý được thực hiện song song trên nhiều
"đầu" khác nhau, mỗi đầu học được các mối quan hệ khác nhau giữa các từ. Điều này
giúp mô hình có khả năng nắm bắt các đặc trưng khác nhau từ dữ liệu đầu vào.
+ Tích hợp kết quả từ các đầu: Kết quả từ các đầu khác nhau được tích hợp lại
thành một véc-tơ biểu diễn cuối cùng cho mỗi từ, kết hợp các đặc trưng quan trọng từ
nhiều góc nhìn khác nhau.
Cơ chế Multi-Head Self-Attention cho phép mô hình học được các đặc trưng
quan trọng từ các mối quan hệ phức tạp giữa các từ trong chuỗi đầu vào, cải thiện hiệu
suất của mô hình trong các tác vụ xử lý ngôn ngữ tự nhiên như dịch máy, trả lời câu hỏi,
tóm tắt văn bản.

Hình 2. Cơ chế Multi-Head Attention và Scaled Dot-Product Attention


Trong đề tài "Xây dựng và phát triển mô hình nhận dạng phát âm sai trong ngôn
ngữ Tiếng Việt", Transformer và Multi-Head Self-Attention đóng vai trò quan trọng.
Chúng có thể được ứng dụng trong việc xây dựng mô hình ngôn ngữ để học các mối
quan hệ giữa các từ và cấu trúc câu trong tiếng Việt, giúp mô hình dự đoán và so sánh
với phát âm chuẩn.
Đồng thời, Transformer cũng có thể được sử dụng để xây dựng mô hình nhận
dạng âm thanh, chuyển đổi tín hiệu âm thanh thô thành biểu diễn véc-tơ, trong đó cơ
chế tự chú ý giúp mô hình học được các đặc trưng quan trọng trong tín hiệu âm thanh.
Ngoài ra, Transformer còn có thể được sử dụng để tích hợp mô hình ngôn ngữ và
mô hình nhận dạng âm thanh, cho phép mô hình kết hợp thông tin từ cả hai phần để
nhận dạng và so sánh phát âm một cách hiệu quả. Cơ chế tự chú ý đa đầu đóng vai trò

13
quan trọng trong việc học các đặc trưng từ cả tín hiệu âm thanh và cấu trúc ngôn ngữ,
giúp mô hình có khả năng nhận dạng phát âm sai trong tiếng Việt chính xác hơn.
1.4.3 LSTM

LSTM là một kiến trúc đặc biệt của Mạng Nơ-ron Truy hồi (RNN), rất phù hợp
cho bài toán nhận dạng phát âm sai trong ngôn ngữ Tiếng Việt. Trong bài toán này, dữ
liệu đầu vào là một chuỗi các frame âm thanh, và mục tiêu là dự đoán xem mỗi frame
có phát âm âm vị gì và có phát âm đúng hay sai.
Một trong những tính năng quan trọng nhất của LSTM là khả năng nắm bắt các
mối quan hệ dài hạn giữa các frame trong chuỗi âm thanh. Điều này rất cần thiết trong
bài toán nhận dạng phát âm vì một âm thanh không chỉ được xác định bởi một frame
đơn lẻ, mà phụ thuộc vào chuỗi các frame liền kề trước và sau nó.

Hình 3. Kiến trúc của Long Short-Term Memory (LSTM)


Thành phần, hoạt động và cấu trúc của Long Short-Term Memory (LSTM):
+ Cửa quên (Forget Gate - f_t): Cửa quên quyết định xem thông tin nào từ trạng
thái ẩn trước đó (C_t-1) sẽ được giữ lại hoặc "quên đi". Nó làm việc này bằng cách nhận
đầu vào từ trạng thái ẩn trước (h_t-1) và đầu vào hiện tại (x_t), sau đó áp dụng hàm kích
hoạt sigmoid (σ) để tạo ra một vector số thực có giá trị từ 0 đến 1. Giá trị 0 có nghĩa là
hoàn toàn quên thông tin tương ứng, trong khi giá trị 1 có nghĩa là giữ nguyên thông tin
đó.
+ Cửa nhập (Input Gate - i_t): Cửa nhập quyết định thông tin mới nào sẽ được
cập nhật vào trạng thái ẩn hiện tại (C_t). Nó bao gồm hai bộ phận: Phần sigmoid (σ)
quyết định những giá trị nào sẽ được cập nhật, và phần tanh (tanh) tạo ra một vector của
những giá trị ứng viên mới có thể cập nhật vào trạng thái ẩn.

14
+ Trạng thái ẩn dự đoán (Candidate State - C̃ _t): Đây là vector được tạo ra bởi
phần tanh (tanh) của cửa nhập, chứa những giá trị ứng viên mới có thể được cập nhật
vào trạng thái ẩn hiện tại.
+ Trạng thái ẩn (Cell State - C_t): Trạng thái ẩn hiện tại được cập nhật dựa trên
ba thành phần: trạng thái ẩn trước đó (C_t-1) được điều chỉnh bởi cửa quên (f_t), trạng
thái ẩn dự đoán (C̃ _t) được điều chỉnh bởi cửa nhập (i_t), và phép tổng của hai thành
phần này.
+ Cửa đầu ra (Output Gate - o_t): Cửa đầu ra quyết định những phần nào của
trạng thái ẩn hiện tại (C_t) sẽ được đưa ra làm đầu ra cuối cùng (h_t). Nó hoạt động
bằng cách nhận đầu vào từ trạng thái ẩn hiện tại và đầu vào hiện tại (x_t), sau đó áp
dụng hàm sigmoid để tạo ra một vector điều khiển.
+ Đầu ra cuối cùng (h_t): Đầu ra cuối cùng của đơn vị LSTM tại thời điểm hiện
tại được tính bằng cách áp dụng hàm tanh lên trạng thái ẩn hiện tại (C_t), và nhân với
vector điều khiển từ cửa đầu ra (o_t). Đây là đầu ra được truyền đến các đơn vị LSTM
tiếp theo hoặc được sử dụng để dự đoán kết quả cuối cùng.
Quá trình này được lặp lại cho từng bước thời gian trong chuỗi dữ liệu đầu vào,
với trạng thái ẩn hiện tại (C_t và h_t) được truyền sang bước thời gian tiếp theo làm đầu
vào. Nhờ cơ chế cửa, LSTM có khả năng điều chỉnh dòng thông tin qua các trạng thái
ẩn, giúp nó vượt qua vấn đề đoạn gradient và phình gradient, đồng thời nắm bắt được
các mối quan hệ dài hạn trong dữ liệu trình tự.
Nhờ cơ chế này, LSTM có thể mô hình hóa các mối quan hệ phức tạp giữa các
frame trong chuỗi âm thanh, giúp nhận dạng phát âm chính xác hơn. Ví dụ, khi phát âm
một âm tiết dài, các frame giữa có thể khác so với các frame đầu và cuối, nhưng LSTM
có thể kết hợp thông tin từ tất cả các frame để đưa ra dự đoán đúng. LSTM nắm bắt các
mối quan hệ dài hạn trong chuỗi dữ liệu trình tự, rất phù hợp cho bài toán nhận dạng
phát âm sai trong ngôn ngữ Tiếng Việt. Với khả năng tuyệt vời này, LSTM đã trở thành
một lựa chọn hàng đầu trong các mô hình nhận dạng giọng nói hiện đại, đặc biệt là trong
dự án nhận dạng phát âm sai, giúp cải thiện đáng kể hiệu suất và chính xác của mô hình
1.4.4 Log mel Spectrogram

Trong lĩnh vực xử lý tín hiệu âm thanh và nhận dạng giọng nói, Log Mel
Spectrogram là một kỹ thuật biểu diễn tín hiệu âm thanh rất quan trọng và phổ biến. Nó
giúp biến đổi tín hiệu âm thanh thô thành một biểu diễn đặc trưng phù hợp hơn với cách
thức con người nhận thức âm thanh, từ đó cải thiện hiệu suất của các mô hình học máy
trong các bài toán liên quan đến âm thanh, đặc biệt là trong bài toán nhận dạng phát âm
sai trong ngôn ngữ Tiếng Việt.

15
Hình 4. Quá trình tính toán Log Mel Spectrogram
Log Mel Spectrogram là một biểu diễn của tín hiệu âm thanh được tính toán thông
qua một chuỗi các bước xử lý tín hiệu. Quá trình tính toán chi tiết như sau:
+ Phân khung tín hiệu âm thanh: Tín hiệu âm thanh thô được chia thành các
khung (frame) ngắn, thường có độ dài khoảng 20-40ms và có sự chồng chéo giữa các
khung lân cận. Mỗi khung âm thanh được nhân với một hàm cửa sổ (window function)
như Hamming hoặc Hanning để giảm hiệu ứng rìa (edge effects).
+ Biến đổi Fourier rời rạc (DFT): Trên mỗi khung âm thanh, ta áp dụng biến đổi
Fourier rời rạc (DFT) để tính toán phổ tần số của khung đó. Phổ tần số biểu diễn mức
năng lượng của các thành phần tần số khác nhau trong khung âm thanh.
+ Tính toán Spectrogram: Các phổ tần số của tất cả các khung âm thanh được sắp
xếp theo trục thời gian, tạo thành một ma trận gọi là Spectrogram. Spectrogram biểu
diễn sự thay đổi của năng lượng tần số theo thời gian trong tín hiệu âm thanh.
+ Áp dụng Mel Filter Bank: Mel Filter Bank là một tập hợp các bộ lọc băng thông
hội tụ theo thang đo Mel, phù hợp hơn với cách thức con người nhận thức tần số âm
thanh. Mỗi bộ lọc Mel tính toán trọng số của các tần số khác nhau trong một khoảng tần
số nhất định, tạo thành hệ số Mel tương ứng. Ma trận Spectrogram được nhân với Mel
Filter Bank để thu được các hệ số Mel, biểu diễn năng lượng trong các khoảng tần số
Mel khác nhau.
+ Tính toán Log: Cuối cùng, ta áp dụng hàm logarit lên các hệ số Mel để thu
được Log Mel Spectrogram. Việc này giúp nén phạm vi giá trị của các hệ số Mel và
nhấn mạnh sự khác biệt giữa các mức năng lượng khác nhau.

16
Kết quả cuối cùng là ma trận Log Mel Spectrogram, biểu diễn sự thay đổi của
năng lượng tần số theo thời gian trong tín hiệu âm thanh, với các tần số được ánh xạ lên
thang đo Mel phù hợp với cách nhận thức của con người.

Hình 5. Log Mel Spectrogram của một đoạn âm thanh


Trong hình minh họa, ta có thể quan sát thấy Log Mel Spectrogram của một đoạn
âm thanh. Trục ngang biểu diễn thời gian, trục dọc biểu diễn các khoảng tần số Mel khác
nhau, và mức độ sáng tối của các điểm ảnh biểu diễn mức năng lượng tương ứng. Các
vùng sáng hơn chỉ ra năng lượng cao hơn tại các khoảng tần số và thời gian tương ứng.
Log Mel Spectrogram là một biểu diễn quan trọng của tín hiệu âm thanh, được sử dụng
rộng rãi trong các ứng dụng xử lý âm thanh và nhận dạng giọng nói, bao gồm cả bài
toán nhận dạng phát âm sai trong ngôn ngữ Tiếng Việt.
1.4.5 PyTorch

PyTorch là một thư viện học sâu (deep learning) mã nguồn mở, được phát triển
bởi Facebook AI Research. PyTorch đã trở thành một trong những thư viện phổ biến
nhất trong cộng đồng nghiên cứu và phát triển trí tuệ nhân tạo (AI), đặc biệt là trong lĩnh
vực xử lý ngôn ngữ tự nhiên (NLP) và xử lý tín hiệu số (DSP).
Trong dự án xây dựng và phát triển mô hình nhận dạng phát âm sai trong ngôn
ngữ Tiếng Việt, PyTorch đóng vai trò quan trọng, cung cấp các công cụ và thư viện hỗ
trợ tích hợp cho việc xây dựng, huấn luyện và triển khai mô hình học sâu.
Các lớp và thư viện chính trong PyTorch:

17
+ nn.Module và nn.Embedding: nn.Module là lớp cơ sở cho tất cả các mô-đun và
lớp trong PyTorch, cung cấp các phương thức để xây dựng, huấn luyện và triển khai mô
hình. nn.Embedding là một lớp quan trọng trong xử lý ngôn ngữ tự nhiên, cho phép biểu
diễn các từ hoặc ký tự dưới dạng vector đầu vào cho các lớp tiếp theo.
+ nn.RNN, nn.LSTM, nn.GRU: PyTorch cung cấp các lớp cơ bản cho các kiến
trúc mạng nơ-ron truy hồi (RNN), bao gồm LSTM (Long Short-Term Memory) và GRU
(Gated Recurrent Unit). Các lớp này rất phù hợp cho các bài toán xử lý dữ liệu trình tự
như nhận dạng giọng nói hay nhận dạng phát âm sai.
+ nn.MultiheadAttention: Lớp nn.MultiheadAttention cung cấp cơ chế Attention,
một thành phần quan trọng trong các mô hình Transformer và các mô hình học sâu hiện
đại khác. Cơ chế Attention giúp mô hình tập trung vào các phần quan trọng của đầu vào,
cải thiện hiệu suất trong các bài toán NLP và DSP.
+ nn.Linear, nn.ReLU, nn.Dropout: nn.Linear biểu diễn các lớp kết nối đầy đủ
(fully connected) trong mô hình học sâu. nn.ReLU là một hàm kích hoạt phổ biến, giúp
giải quyết vấn đề gradient biến mất trong quá trình huấn luyện. nn.Dropout là một kỹ
thuật đơn giản nhưng hiệu quả để tránh overfitting trong quá trình huấn luyện.
+ nn.CTCLoss: nn.CTCLoss là một hàm mất mát đặc biệt, được sử dụng trong
các bài toán nhận dạng giọng nói và nhận dạng phát âm sai. Hàm này giúp đối phó với
sự không đồng nhất giữa độ dài của đầu vào và đầu ra trong các bài toán xử lý trình tự.
Torchaudio là một thư viện con của PyTorch, chuyên dụng cho xử lý âm thanh
và tín hiệu số. Thư viện này cung cấp các công cụ và hàm tiện ích để đọc, ghi và xử lý
dữ liệu âm thanh, cũng như các kỹ thuật biểu diễn tín hiệu như Spectrogram, STFT, và
MFCC. Torchaudio là một công cụ mạnh mẽ và linh hoạt cho việc xử lý âm thanh, đóng
vai trò quan trọng trong phát triển mô hình nhận dạng phát âm sai trong ngôn ngữ Tiếng
Việt. Thư viện này cung cấp nhiều tính năng hữu ích, giúp đơn giản hóa và nâng cao
hiệu quả của quá trình xử lý âm thanh, từ đó góp phần cải thiện độ chính xác của mô
hình nhận dạng phát âm sai.
Công dụng của PyTorch trong dự án PyTorch đóng vai trò then chốt trong việc
xây dựng, huấn luyện và triển khai mô hình nhận dạng phát âm sai trong ngôn ngữ Tiếng
Việt. Một số công dụng chính bao gồm:
+ Xây dựng kiến trúc mô hình: PyTorch cho phép xây dựng các kiến trúc mô
hình học sâu phức tạp một cách linh hoạt, bao gồm cả các mô hình kết hợp như mô hình
Transformer và mô hình RNN-CTC.
+ Tính toán đạo hàm tự động: Một tính năng quan trọng của PyTorch là khả năng
tính toán đạo hàm tự động (automatic differentiation), giúp tối ưu hóa quá trình huấn
luyện mô hình.

18
+ Huấn luyện và tối ưu hóa: PyTorch cung cấp các công cụ và thư viện hỗ trợ
cho việc huấn luyện và tối ưu hóa mô hình, bao gồm cả các kỹ thuật tiên tiến như huấn
luyện phân tán (distributed training) và huấn luyện bằng GPU.
+ Triển khai và phân phối: Sau khi được huấn luyện, mô hình có thể được triển
khai và phân phối dễ dàng thông qua các công cụ và thư viện hỗ trợ của PyTorch, cho
phép ứng dụng mô hình trong các ứng dụng thực tế.
+ Cộng đồng và tài nguyên: PyTorch có một cộng đồng người dùng và nhà phát
triển lớn, cung cấp nhiều tài nguyên hướng dẫn, ví dụ mẫu và gói phần mềm bổ sung,
hỗ trợ cho quá trình phát triển và nghiên cứu.
Ngoài ra, PyTorch còn có các tính năng và công cụ hỗ trợ khác như tính toán
song song trên GPU, trình gỡ lỗi Python, tích hợp với các thư viện khác như NumPy và
CUDA, v.v.
Với các tính năng và công cụ hỗ trợ đa dạng, PyTorch đã trở thành một lựa chọn
hàng đầu cho các dự án nghiên cứu và phát triển trong lĩnh vực trí tuệ nhân tạo, đặc biệt
là trong dự án xây dựng và phát triển mô hình nhận dạng phát âm sai trong ngôn ngữ
Tiếng Việt.
1.4.6 HuggingFace

HuggingFace là một nền tảng mã nguồn mở hàng đầu cho xử lý ngôn ngữ tự
nhiên (NLP) và học máy (ML), cung cấp các công cụ, thư viện và mô hình đã được đào
tạo sẵn cho cộng đồng nghiên cứu và phát triển.
Trong đề tài "Xây dựng và phát triển mô hình nhận dạng phát âm sai trong ngôn
ngữ Tiếng Việt", HuggingFace có thể đóng vai trò quan trọng trong việc cung cấp các
mô hình đã được đào tạo sẵn và các công cụ hỗ trợ cho bài toán này.
Một trong những tính năng nổi bật của HuggingFace là tập hợp các mô hình đã
được đào tạo sẵn (pretrained models) cho nhiều tác vụ khác nhau, bao gồm cả các mô
hình cho bài toán chuyển đổi giọng nói thành văn bản (Speech-to-Text). Một số mô hình
nổi bật cho bài toán này trên HuggingFace bao gồm:
+ Wav2Vec2: Đây là một mô hình tiên tiến cho bài toán chuyển đổi giọng nói
thành văn bản, được phát triển bởi Facebook AI Research. Mô hình này sử dụng cơ chế
tự chú ý (self-attention) và các kỹ thuật mã hóa âm thanh hiệu quả để đạt được hiệu suất
cao trong việc nhận dạng giọng nói.
+ Whisper: Mô hình STT đa ngôn ngữ được phát triển bởi Openai, có thể thực
hiện nhận dạng âm thanh thành văn bản với độ chính xác cao.
+ HuBERT: Là một mô hình học sâu cho bài toán chuyển đổi giọng nói thành
văn bản, được phát triển bởi Hugging Face và các đối tác. Mô hình này sử dụng cơ chế
học không giám sát (self-supervised learning) để học các biểu diễn âm thanh hiệu quả,
đạt được kết quả tốt trong nhiều bài toán liên quan đến xử lý giọng nói.
19
+ Conformer-CTC: Đây là một mô hình kết hợp giữa kiến trúc Transformer và
Conformer, được tối ưu hóa cho bài toán nhận dạng giọng nói sử dụng phương pháp
CTC (Connectionist Temporal Classification).

Hình 6. Xếp hạng các mô hình nhận dạng giọng nói trên Hugging Face Hub.
Ngoài các mô hình đã được đào tạo sẵn, HuggingFace cũng cung cấp các thư
viện và công cụ hỗ trợ cho việc huấn luyện, tinh chỉnh và triển khai các mô hình học sâu
cho bài toán chuyển đổi giọng nói thành văn bản. Các công cụ này bao gồm:
+ Transformers: Là một thư viện Python hàng đầu cho xử lý ngôn ngữ tự nhiên
và học máy, cung cấp các lớp và chức năng để xây dựng, huấn luyện và sử dụng các mô
hình dựa trên kiến trúc Transformer, bao gồm cả các mô hình cho bài toán chuyển đổi
giọng nói thành văn bản.
+ Datasets: Là một thư viện để tải, chuẩn bị và xử lý dữ liệu cho các bài toán học
máy, bao gồm cả dữ liệu âm thanh cho bài toán chuyển đổi giọng nói thành văn bản.
+ Tokenizers: Là một thư viện để xử lý và biểu diễn dữ liệu văn bản và âm thanh
thành các token đầu vào cho các mô hình học sâu.
Ngoài ra, HuggingFace cũng cung cấp các công cụ và API tiện lợi để tải, sử dụng
và fine-tune các mô hình, giúp quá trình triển khai và phát triển mô hình trở nên dễ dàng
và hiệu quả hơn.
Tóm lại, việc kết hợp PyTorch và các mô hình pre-trained từ HuggingFace sẽ là
một phương pháp tiếp cận hiệu quả để xây dựng và phát triển mô hình nhận dạng phát
âm sai trong tiếng Việt, tiết kiệm thời gian và tài nguyên, đồng thời đạt được hiệu suất
cao.

20
CHƯƠNG 2 – MÔ HÌNH NHẬN DẠNG PHÁT ÂM SAI TRONG TV
2.1. Các đề tài về nhận dạng phát âm sai trước đây

2.1.2. An Approach to Mispronunciation Detection and Diagnosis with Acoustic,


Phonetic, and Linguistic (APL) Embedding
Bài báo này của các tác giả Wenxuan Ye, Shaoguang Mao, Frank Soong,
Wenshan Wu, Yan Xia, Jonathan Tien, Zhiyong Wu được xuất bản vào ngày 31 tháng
3 năm 2022.

Hình 7. Minh họa về phương pháp đề xuất để Phát hiện và Chẩn đoán lỗi phát âm với
các đặc điểm âm thanh, các nhúng ngữ âm và ngôn ngữ (APL)

Bài báo này đề xuất một phương pháp để phát hiện và chẩn đoán lỗi phát âm bằng
cách tận dụng các đặc trưng âm thanh, đặc trưng ngữ âm và đặc trưng ngôn ngữ (APL).
Đề xuất: Sử dụng kết hợp 3 loại đặc trưng là âm thanh, ngữ âm (từ mô hình nhận dạng
giọng nói đã huấn luyện) và ngôn ngữ (chuỗi âm tiêu chuẩn) để huấn luyện mô hình
nhận dạng âm vị từ cho MD&D. Kiến trúc gồm bộ mã hóa âm thanh, ngữ âm, ngôn ngữ
và bộ giải mã với cơ chế tập trung để tích hợp thông tin. Đặc trưng ngữ âm từ ASR
model có khả năng biểu diễn phân bố ngữ âm khá đúng, giúp bổ sung thông tin ngữ âm
hiệu quả.
Huấn luyện và đánh giá trên tập dữ liệu TIMIT (người bản ngữ) và L2-ARCTIC
(người học ngôn ngữ thứ 2). So sánh với các phương pháp cơ sở chỉ dùng âm thanh hoặc
âm thanh+ngôn ngữ. Sử dụng 2 loại đặc trưng ngữ âm khác nhau từ 2 mô hình ASR đã
huấn luyện.
Mô hình đề xuất (APL) vượt trội các phương pháp cơ sở về độ chính xác phát
hiện lỗi, tỷ lệ lỗi chẩn đoán và độ đo F-measure. Kết quả cho thấy việc kết hợp 3 loại
đặc trưng là hiệu quả, đặc biệt đặc trưng ngữ âm từ ASR model đóng góp đáng kể. Mô
hình khá ổn định với 2 loại đặc trưng ngữ âm khác nhau

21
Việc tận dụng thông tin ngữ âm từ ASR model đã huấn luyện là điểm sáng tạo
và hiệu quả của phương pháp này.
2.1.2. Mispronunciation detection and diagnosis model for tonal language,
applied to Vietnamese
Bài báo này của các tác giả Huu Tuong Tu, Pham Viet Thanh, Dao Thai Lai,
Nguyen Thi Thu Trang. Bài báo này được trình bày tại hội nghị INTERSPEECH 2023,
diễn ra từ ngày 20-24 tháng 8 năm 2023 tại Dublin, Ireland.

Hình 8. Kiến trúc mô hình MDD được đề xuất cho các ngôn ngữ có ngữ điệu.
Bài báo đề xuất xây dựng bộ dữ liệu tiếng Việt đầu tiên cho bài toán Phát hiện và
Chẩn đoán Phát âm Sai (MD&D), bên cạnh đó đề xuất mô hình end-to-end PAPL (Pitch-
Augmented APL) để phát hiện và chẩn đoán phát âm sai cho ngôn ngữ có thanh điệu
đặc biệt là tiếng Việt, bằng cách kết hợp phân tích thanh điệu vào mô hình APL
(Acoustic-Phonetic-Linguistic) tiền nhiệm.
Bài báo đã xây dựng và huấn luyện mô hình trên tổng cộng 84 trẻ em người Việt
tham gia tạo dữ liệu, gồm 3.818 đoạn âm thanh từ trẻ tiểu học và 448 đoạn từ trẻ mẫu
giáo. Dữ liệu được ghi âm từ đọc văn bản cho sẵn và nói tự nhiên 20 người ghi nhận sai
sót phát âm cấp phoneme trong dữ liệu.
Mô hình đề xuất: Sử dụng APL làm mô hình cơ sở, kết hợp đầu vào acoustic,
phonetic và linguistic embeddings. Thêm bộ mã hóa pitch riêng, sử dụng thuật toán
Kaldipitch để trích xuất dấu thanh điệu. Đầu ra là xác suất nhận dạng phoneme thông
qua mô hình CTC
Kết quả thực nghiệm: PAPL-KALDI-MHA (với pitch từ Kaldipitch) cho kết quả
nhận dạng phoneme tốt nhất 83.67% PAPL-NCCF có kết quả tốt nhất cho bài toán
MD&D về F1-score (28.06%), Recall (79.15%) và Precision (17.05%). Việc kết hợp
22
pitch cải thiện đáng kể tỷ lệ nhận dạng dấu thanh điệu là cho các thanh điệu khó như C2
(111.48% cao hơn baseline)
Tóm lại, bài báo này đề xuất mô hình và cung cấp bộ dữ liệu đầu tiên cho bài
toán MD&D trên tiếng Việt, chứng minh việc kết hợp phân tích dấu thanh điệu hiệu quả
để cải thiện khả năng phát hiện và chẩn đoán sai sót phát âm trong ngôn ngữ có tônănhư
tiếng Việt.
2.1. DaNangVMD: Mô hình nhận dạng phát âm sai trong Tiếng Việt

2.2.1. Tổng quan về mô hình nhận dạng phát âm sai

Tiếng Việt là ngôn ngữ dân tộc quan trọng tại Việt Nam, nhưng việc phát âm
đúng chuẩn luôn là thách thức lớn cho người học, đặc biệt là trẻ em và người nước ngoài.
Nguyên nhân chính là do hệ thống ngữ âm phức tạp của tiếng Việt, với những khó khăn
như thanh điệu, âm đầu, âm cuối đặc thù. Nếu không được rèn luyện đúng cách từ sớm,
những lỗi phát âm sẽ khó sửa chữa về sau. Điều này không chỉ ảnh hưởng đến hiệu quả
giao tiếp mà còn có thể dẫn đến tự ti, mất tự tin cho người học.
Trong bối cảnh đó, việc xây dựng một hệ thống trí tuệ nhân tạo giúp nhận dạng
và sửa chữa lỗi phát âm tiếng Việt là rất cần thiết và thiết thực. Đề tài này đặt mục tiêu
nghiên cứu, phát triển một mô hình máy học hiệu năng cao, có khả năng phát hiện chính
xác những lỗi phát âm về âm vị (âm đầu, âm cuối, vần) và thanh điệu của người nói.
Đầu vào của mô hình sẽ là dữ liệu giọng nói tiếng Việt, còn đầu ra là vị trí lỗi phát âm
cụ thể cùng với cách phát âm đúng tương ứng. Bên cạnh đó, chúng tôi còn đang phát
triển chức năng hướng dẫn người dùng các phát âm đúng bằng cách nghe lại cách phát
âm đúng của cụm từ đầu vào thông qua mô hình Text to Speech.
Đây là một đề tài mang tính ứng dụng và sáng tạo cao. Tính mới của đề tài thể
hiện ở việc lĩnh vực nhận dạng phát âm chi tiết bằng công nghệ AI vẫn chưa được khai
phá nhiều tại Việt Nam. Thành công của đề tài sẽ mở ra tiềm năng to lớn trong các ứng
dụng hỗ trợ học tập và rèn luyện kỹ năng phát âm tiếng Việt cho nhiều đối tượng khác
nhau như trẻ em, người lớn, người học tiếng Việt là ngoại ngữ, …
Quá trình xây dựng mô hình đòi hỏi phải có các bước quan trọng như: thu thập
dữ liệu phát âm đa dạng (chuẩn và lỗi), xây dựng hệ thống gán nhãn lỗi phát âm, huấn
luyện mô hình nhận dạng tích hợp các kỹ thuật tiên tiến như Transformer, Multi Head
Attention, LSTM, ASR pretrain model, ... Việc thiết lập được tập dữ liệu phong phú,
chuẩn hóa gán nhãn tốt sẽ là yếu tố then chốt quyết định hiệu năng của mô hình.
Bên cạnh phát triển mô hình, nhóm cũng sẽ xây dựng một website, ứng dụng trực
tuyến giúp người dùng có thể dễ dàng tận dụng chức năng của mô hình để học phát âm
tiếng Việt đúng chuẩn.

23
Tóm lại, đề tài hứa hẹn sẽ đem lại nhiều giá trị thiết thực và đột phá trong lĩnh
vực ứng dụng công nghệ AI cho việc học và dạy tiếng Việt, góp phần nâng cao năng lực
ngôn ngữ và tự tin giao tiếp của người học.
2.2.2. Tổng quan về âm vị tiếng Việt

Hình 9. Cấu trúc phân cấp của âm tiết tiếng Việt

Hình 10. Ví dụ về cách trình bày âm vị tiếng Việt


Cấu trúc phân cấp của vần tiếng Việt được minh họa trong Hình 9, theo đề xuất của
[8]. Mỗi vần tiếng Việt được chia thành 3 phần: Initial, Rhyme và Tone. Rhyme lại
được phân chia thành Medial, Nucleus và Ending. Tiếng Việt có sáu thanh điệu: thanh
ngang (không dấu), thanh huyền (`), thanh sắc (´), thanh hỏi (?), thanh ngã (˜) và thanh
nặng (.). Nghiên cứu này ánh xạ mỗi vần tiếng Việt thành một phoneme, bao gồm 53
phoneme. Việc ánh xạ này giữ nguyên cấu trúc phân cấp của vần, giúp phát hiện các
loại lỗi phát âm khác nhau. Hình 10 minh họa ví dụ về quá trình chuyển đổi vần thành
phoneme. Bởi vì phoneme có thể duy trì cấu trúc phân cấp ban đầu của vần, phương
pháp ánh xạ này cho phép chúng ta phát hiện mọi loại lỗi phát âm. Trong bộ dữ liệu
DaNangVMD, chúng tôi sẽ kết hợp loại phoneme để biểu diễn bản ghi âm chuẩn một
cách trung thực hơn, giữ nguyên các cấu trúc cơ bản của ngôn ngữ nói tiếng Việt.

2.2.3. Xây dựng bộ dữ liệu phát âm sai trong Tiếng Việt

Một trong những thách thức lớn nhất khi phát triển mô hình nhận dạng phát âm
sai trong tiếng Việt là vấn đề dữ liệu. Hiện nay, dữ liệu về phát âm sai trong tiếng Việt
còn hạn chế và hiếm. Nhận thấy điều này, chúng tôi đã tìm kiếm và thu thập được bộ dữ
liệu từ cuộc thi VLSP 2023, bao gồm trẻ em phát âm một đoạn văn, đoạn hội thoại và
người lớn phát âm cặp từ có hai âm tiết. Tuy nhiên, chúng tôi nhận ra rằng bộ dữ liệu
này khó áp dụng trong thực tế vì chỉ bao gồm giọng phổ thông.

24
Trên thực tế, Việt Nam có rất nhiều giọng địa phương khác nhau ở các tỉnh thành
khác nhau. Vì vậy, chúng tôi quyết định xây dựng một bộ dữ liệu dành riêng cho giọng
địa phương bằng cách thu thập dữ liệu từ học sinh, sinh viên trên nhiều tỉnh thành ở ba
miền Bắc, Trung, Nam. Bộ dữ liệu này làm giàu thêm về tiếng địa phương, giúp mô
hình có thể áp dụng trong thực tế ở Việt Nam.
Bên cạnh đó, chúng tôi nhận thấy mô hình nhận dạng phát âm sai có thể áp dụng
cho đối tượng là người nước ngoài học phát âm tiếng Việt, giúp họ cải thiện khả năng
phát âm. Vì thế, chúng tôi đã sử dụng OpenAI TTS để thu thập thêm dữ liệu về người
nước ngoài phát âm tiếng Việt, nhằm làm giàu thêm bộ dữ liệu DaNangVMD, giúp mô
hình có thể nhận dạng phát âm sai tốt hơn và áp dụng được cho bài toán thực tế.
Việc xây dựng, huấn luyện và kiểm tra trên ba bộ dữ liệu chính từ các nguồn như:
VLSP 2023, cộng đồng học sinh, sinh viên phát âm giọng địa phương và OpenAI Text
To Speech tăng cường giọng người nước ngoài phát âm tiếng Việt, giúp tăng tính đa
dạng và phù hợp với thực tế hơn. Tổng cộng có 7.958 bản ghi âm, trong đó 4.938 bản
ghi từ VLSP 2023, 975 bản ghi từ cộng đồng và 2.000 bản ghi được tạo ra bởi AI.

Nguồn Số bản ghi âm Thời lượng


VLSP 2023 4983 5.3 giờ

Cộng đồng HS, SV 975 0.53 giờ

OpenAI TTS 2000 1.11 giờ

Tổng 7958 6.94 giờ

Bảng 1. Bảng thống kê bộ dữ liệu DaNangVMD

Hình 11. Mô tả cấu trúc, quá trình thu thập dữ liệu DaNangVMD

25
2.2.3.1 Bộ dữ liệu VLSP 2023
Bộ dữ liệu đầu tiên [23] bao gồm các bản ghi âm của người lớn phát âm các cặp
từ tiếng Việt một âm tiết (do MachinaX phát hành). Tập dữ liệu đầu tiên được tạo bởi
một tập hợp các cặp từ có một âm tiết. Mỗi cặp sẽ có thêm năm biến thể khác nhau,
tương ứng với 6 dấu câu trong tiếng Việt: sắc, huyền, ngã, hỏi, nặng, ngang. Những cặp
từ đơn âm tiết sẽ được người bản xứ phát âm và ghi âm lại.

Thuộc tính Người lớn

Số bản ghi âm 746


Tổng thời lượng 0.41 giờ
Bảng 2. Bảng thống kê bộ dữ liệu người lớn phát âm VLSP 2023
Bộ dữ liệu thứ hai [24] bao gồm các bản ghi âm của trẻ em từ 5 đến 7 tuổi nói
hoặc đọc một câu tiếng Việt trong các đoạn văn hoặc đoạn hội thoại (do SoICT-HUST
và Hội Tâm lý-Sư phạm Việt Nam phát hành). Tập dữ liệu thứ 2 sẽ được một nhóm trẻ
em Việt Nam từ mẫu giáo đến tiểu học tham gia tạo nên. Những đoạn ghi âm của các
em học sinh mẫu giáo sẽ mang tính tự phát. Ngược lại, các em học sinh tiểu học sẽ đọc
các câu mẫu có trong sách giáo khoa tiếng Việt.

Thuộc tính Mẫu giáo Tiểu học

Số người đọc 53 31
Số bản ghi âm 448 3818

Tổng thời lượng 0.31 giờ 4.58 giờ


Bảng 3. Bảng thống kê bộ dữ liệu trẻ nhỏ phát âm VLSP 2023
Có 20 người chú thích đã được đào tạo để đánh giá toàn bộ tập dữ liệu và đánh
dấu mọi trường hợp phát âm sai hoặc bị lỗi. Có tổng cộng 4983 bản ghi, trong đó 4263
là bản ghi giọng trẻ em, còn lại là giọng người lớn.
2.2.3.2 Bộ dữ liệu từ cộng đồng HS, SV phát âm tiếng địa phương
Bộ dữ liệu này bao gồm 975 bản ghi âm của cộng đồng học sinh, sinh viên phát
âm các cặp từ tiếng Việt một âm tiết, dựa trên ý tưởng của tập dữ liệu đầu tiên. Đây là
một nỗ lực đáng kể của nhóm nghiên cứu trong việc thu thập dữ liệu phát âm thực tế từ
cộng đồng, nhằm phản ánh đầy đủ các đặc điểm và khó khăn trong phát âm của người
Việt Nam.
Để thu thập dữ liệu này, nhóm đã phát triển một trang web "Thu thập dữ liệu" và
lan truyền rộng rãi cho cộng đồng học sinh, sinh viên trên toàn quốc. Điều này đảm bảo
sự đa dạng về nguồn gốc địa lý và giọng phát âm của người tham gia. Các cặp từ tiếng
Việt một âm tiết được lựa chọn cẩn thận, với các biến thể như thay đổi phụ âm đầu,
nguyên âm hoặc phụ âm cuối, để đại diện cho các khó khăn phát âm phổ biến.

26
Quá trình thu thập dữ liệu không chỉ đơn thuần là ghi âm, mà còn bao gồm việc
gán nhãn những trường hợp phát âm sai hoặc giọng địa phương. Điều này đòi hỏi sự
tham gia của các chuyên gia ngôn ngữ và người bản ngữ Việt Nam để đảm bảo tính
chính xác và tin cậy của dữ liệu. Trong số 975 bản ghi âm, có 775 bản ghi của sinh viên
và 200 bản ghi của học sinh cấp 3, phản ánh sự đa dạng về độ tuổi và trình độ học vấn.

Thuộc tính Học sinh Sinh viên

Số người đọc 20 50

Số bản ghi âm 200 775

Tổng thời lượng 0.1 giờ 0.42 giờ


Bảng 4. Bảng thống kê bộ dữ liệu giọng địa phương từ cộng đồng HS, SV
Bộ dữ liệu này đóng vai trò quan trọng trong việc đào tạo mô hình nhận dạng
phát âm sai, giúp mô hình có khả năng nhận diện và xử lý các lỗi phát âm phổ biến của
người Việt Nam. Việc kết hợp với các bộ dữ liệu khác từ nguồn thực, giọng địa phương
và người nước ngoài đã tạo nên một tập dữ liệu toàn diện, phù hợp với mục tiêu xây
dựng một mô hình nhận dạng phát âm sai trong ngôn ngữ Tiếng Việt có khả năng áp
dụng rộng rãi trong thực tế.
2.2.3.3. Bộ dữ liệu người nước ngoài phát âm tiếng Việt từ OpenAI TTS
Bộ dữ liệu này bao gồm 2000 bản ghi âm được tạo ra từ AI - OpenAI Text To
Speech [25], với các cặp từ tiếng Việt một âm tiết. Đây là một nỗ lực sáng tạo và đầy
tham vọng của nhóm nghiên cứu, nhằm mô phỏng giọng phát âm tiếng Việt của người
nước ngoài - một đối tượng mà mô hình nhận dạng phát âm sai cũng hướng tới.

Thuộc tính Giọng nam Giọng nữ

Số bản ghi âm 1500 500

Tổng thời lượng 0.83 giờ 0.28 giờ


Bảng 5. Bảng thống kê bộ dữ liệu giọng người nước ngoài phát âm tiếng Việt từ
OpenAI TTS
Việc tạo ra bộ dữ liệu phát âm tiếng Việt cho người nước ngoài từ OpenAI Text
To Speech là một bước đi quan trọng và sáng tạo. Mặc dù có nhiều công cụ AI hỗ trợ
tạo giọng nói từ văn bản, nhưng việc áp dụng cho tiếng Việt và đặc biệt là giọng nói của
người nước ngoài phát âm tiếng Việt là một thách thức không nhỏ. Nhóm nghiên cứu
đã khai thác tối đa khả năng của API OpenAI để tạo ra một bộ dữ liệu phong phú, đa
dạng về giọng nói và mô phỏng chân thực việc người nước ngoài phát âm tiếng Việt.
Quá trình tạo bộ dữ liệu này bao gồm nhiều bước kỹ lưỡng. Đầu tiên, nhóm
nghiên cứu đã lựa chọn một tập hợp các cặp từ tiếng Việt một âm tiết đại diện cho các
khó khăn phát âm phổ biến của người nước ngoài. Sau đó, văn bản này được đưa vào

27
API OpenAI Text To Speech để tạo ra các bản ghi âm tương ứng. Để đảm bảo tính đa
dạng, các bản ghi được tạo ra với nhiều giọng nói nam và nữ khác nhau.
Bộ dữ liệu cuối cùng với 2000 bản ghi âm đa dạng về giọng nói và mức độ khó
khăn trong phát âm rất có ích cho việc huấn luyện và đánh giá mô hình nhận dạng phát
âm sai cho người nước ngoài học tiếng Việt. Việc kết hợp bộ dữ liệu này với các bộ dữ
liệu khác từ nguồn thực và giọng địa phương đã giúp tăng cường tính đa dạng và khả
năng áp dụng rộng rãi của mô hình trong thực tế.
2.2.4. Kiến trúc mô hình đề xuất của DaNangVMD

2.2.4.1. Mô hình cơ bản


Trong nghiên cứu này, chúng tôi lựa chọn kiến trúc PAPL (Phonetic-Acoustic-
Pitch-Linguistic) [4] được mô tả ở hình 8. Kiến trúc này được xem là tiếp cận tiên tiến
nhất cho vấn đề nhận dạng phát âm sai trong tiếng Việt làm mô hình cơ sở. Phương pháp
PAPL tích hợp các đặc trưng về âm học (acoustic), nhịp điệu (pitch), ngữ âm (phonetic)
và ngôn ngữ (linguistic) vào một không gian embedding chung để huấn luyện end-to-
end với hàm mất mát CTC. Điều này giúp mô hình học và trích xuất các mẫu hiệu quả,
nâng cao khả năng xử lý lỗi phát âm trong tiếng Việt.
Tuy nhiên, trong quá trình thực nghiệm, chúng tôi nhận thấy các đặc trưng âm
học và nhịp điệu rất nhạy cảm với nhiễu và có thể gây ảnh hưởng tiêu cực đến kết quả
đầu ra, đặc biệt là với tập dữ liệu huấn luyện nhỏ. Ngược lại, đặc trưng ngữ âm và thanh
điệu đã được mã hóa trong mô hình Wav2Vec2 [11] được tiền huấn luyện cho nhận
dạng giọng nói tiếng Việt trên một tập dữ liệu lớn. Mô hình tiền huấn luyện này mang
lại kết quả tuyệt vời trong việc trích xuất embedding ngữ âm ngay cả khi dữ liệu có chứa
nhiễu.
Vì vậy, chúng tôi quyết định loại bỏ bộ mã hóa âm học và nhịp điệu khỏi kiến
trúc PAPL, chỉ giữ lại bộ mã hóa ngữ âm để học mối quan hệ giữa các khung âm thanh.
Thêm vào đó, chúng tôi tùy chỉnh bộ mã hóa ngôn ngữ với thông tin bổ sung từ văn bản
ghi âm và bộ giải mã cho nhận dạng ngữ âm. Các phần tiếp theo sẽ trình bày chi tiết các
thành phần trong mô hình đề xuất của chúng tôi.

28
Hình 12. Đề xuất DaNangVMD phát hiện phát âm sai giọng nói tiếng Việt
2.2.4.2. Phonetic Encoder
Trong phần Phonetic Encoder, chúng tôi sử dụng mô hình Wav2Vec2 đã được
tiền huấn luyện để trích xuất đặc trưng ngữ âm (phonetic embedding) từ tệp âm thanh.
Mô hình Wav2Vec2 là một kiến trúc transformer được đề xuất bởi Facebook AI cho
việc nhận dạng giọng nói. Nó được huấn luyện một cách không giám sát trên dữ liệu âm
thanh lớn bằng cách tối đa hóa khả năng dự đoán đúng các khung âm thanh bị che khuất
từ ngữ cảnh xung quanh.

Hình 13. Kiến trúc của mô hình Wav2Vec2 trong bài toán ASR

29
Trong nghiên cứu này, chúng tôi sử dụng phiên bản Wav2Vec2 tiền huấn luyện
của nguyenvulebinh trên 13.000 giờ dữ liệu âm thanh YouTube tiếng Việt chưa gắn
nhãn. Sau đó, mô hình được tinh chỉnh lại bằng cách huấn luyện giám sát trên 250 giờ
dữ liệu gắn nhãn từ tập VLSP ASR, là một tập dữ liệu giọng nói tiếng Việt được lấy
mẫu ở 16kHz. Quá trình này giúp mô hình Wav2Vec2 học được các đặc trưng ngữ âm
phù hợp với tiếng Việt.
Sau khi trích xuất thành công các phonetic embedding từ Wav2Vec2, chúng được
đưa qua Phonetic Decoder với kiến trúc gồm một lớp Bi-LSTM, lớp BatchNorm và cuối
cùng là lớp Dropout. Ngoài ra, chúng tôi áp dụng kỹ thuật Positional Encoding [26] để
bổ sung thông tin về vị trí cho từng khung âm thanh (audio frame). Với kiến trúc này,
Phonetic Decoder học được mối tương quan giữa các khung âm thanh một cách hiệu
quả.
2.2.4.3. Linguitic Encoder
Trong mô hình nhận dạng phát âm sai tiếng Việt của chúng tôi, Linguistic
Decoder đóng vai trò quan trọng giúp tăng cường khả năng nhận diện ngữ âm chính xác.
Đầu vào của Linguistic Decoder là chuỗi ngữ âm chuẩn (canonical) được biểu diễn dưới
dạng embedding vector (canonical embedding).
Ngoài ra, chúng tôi cũng cung cấp thông tin bổ sung về loại ngữ âm (type
phoneme embedding) như âm khởi đầu, âm trung gian, nguyên âm, âm cuối và thanh
điệu. Việc này giúp mô hình hiểu được cấu trúc và thành phần của chuỗi ngữ âm trong
quá trình huấn luyện. Các embedding vector từ canonical và type phoneme được nối lại
với nhau bằng phép toán concat, tạo thành một embedding vector duy nhất chứa đầy đủ
thông tin về chuỗi ngữ âm chuẩn. Embedding vector này sau đó được đưa vào một tầng
Bi-LSTM để mô hình học được mối tương quan giữa các ngữ âm trong chuỗi.
Kiến trúc của Linguistic Decoder bao gồm một tầng LSTM, theo sau là các lớp
BatchNorm, Dropout và cuối cùng là lớp fully-connected Linear. Đầu ra cuối cùng của
Linguistic Decoder là một vector các xác suất ứng với từng ngữ âm trong bộ ký tự ngữ
âm.
Với cấu trúc này, Linguistic Decoder cho phép mô hình kết hợp thông tin từ chuỗi
ngữ âm chuẩn và biểu diễn ngữ cảnh để nâng cao hiệu suất nhận diện, góp phần xử lý
tốt hơn các lỗi phát âm trong tiếng Việt.
2.2.4.4. Decoder
Trong mô hình nhận dạng phát âm sai của chúng tôi, phần Decoder đóng vai trò
quan trọng để kết hợp và tương tác giữa thông tin ngữ âm từ Phonetic Encoder và thông
tin ngôn ngữ từ Linguistic Encoder. Chúng tôi áp dụng cơ chế Multi-Head Attention
(MHA) [26] để tăng cường hiệu suất dự đoán bằng cách xây dựng các mối liên kết chéo
(cross-attention) giữa hai nguồn thông tin này.
Cụ thể, vector biểu diễn Hq từ Phonetic Decoder và vector Hk, Hv từ Linguistic
Decoder được truyền vào khối MHA. Tại đây, MHA tính toán sự tương quan giữa các

30
đặc trưng ngữ âm và ngôn ngữ tương ứng, cho phép mô hình kết hợp và làm nổi bật các
đặc điểm quan trọng từ cả hai nguồn dữ liệu. Điều này đóng vai trò thiết yếu trong việc
nhận dạng chính xác các lỗi phát âm.
Trong trường hợp phát âm sai, các đặc trưng ngữ âm cần được nhấn mạnh để bổ
sung thông tin cho Decoder. Do đó, đầu ra của MHA được cộng thêm vào vector Hq từ
Phonetic Decoder. Quá trình này giúp tăng khả năng của mô hình trong việc chú ý đến
các ngữ âm bị phát âm sai và các đặc trưng ngữ âm tương ứng.
Sau khi kết hợp thông tin từ MHA, dữ liệu được truyền qua các lớp BatchNorm,
ReLU, Linear và Dropout để điều chỉnh và chuẩn hóa. Cuối cùng, lớp LogSoftmax được
áp dụng để tính toán xác suất cho từng khung âm thanh dựa trên các nhãn ngữ âm đã
học.
Toàn bộ quá trình này được minh họa trong hình ảnh kiến trúc 12, thể hiện các
giai đoạn xử lý của mô hình để đạt được kết quả nhận dạng phát âm sai chính xác. Áp
dụng Multi-Head Attention giúp tăng cường sự tương tác và kết hợp hiệu quả giữa thông
tin ngữ âm và ngôn ngữ, góp phần nâng cao hiệu suất của mô hình.
2.2.4.5. Kết quả thử nghiệm
2.2.4.5.1. Thiết lập thử nghiệm
Trong công việc này, chúng tôi xác thực chín mô hình để đánh giá và tăng dần
tìm ra dựa trên nghiên cứu bớt đi các thành phần tốt nhất cho kiến trúc DaNangVMD:
- PAPL Baseline: Mô hình Pitch - Acoustic - Phonetic - Linguistic [4];
- PPL: Sử dụng Pitch Features (thư viện Kaldi [15]), Phonetic Embedding, và
Linguistic Embedding (chuỗi phoneme tiêu chuẩn) làm đầu vào và không sử dụng
Acoustic Features
- APL: Sử dụng Acoustic Features (spectrogram mel), Phonetic Embedding, và
Linguistic Embedding làm đầu vào và không sử dụng Pitch Features
- PAPL được tùy chỉnh (C-PAPL): Tương tự như mô hình PAPL cơ sở [4], nhưng
không sử dụng CNN trong Phonetic Encoder
- C-PL: Chỉ sử dụng Phonetic Embedding và Linguistic Embedding làm đầu vào
và không sử dụng CNN trong Phonetic Encoder
- C-PL1: Tương tự như mô hình C-PL, nhưng sử dụng thêm Type Phoneme
Embedding trong Linguistic Encoder
- C-PL2: Tương tự như mô hình C-PL, nhưng sử dụng một Lớp LSTM (LSTM -
> Norm -> Dropout) thay vì LSTM trong Linguistic Encoder
- C-PL3: Tương tự như mô hình C-PL, nhưng sử dụng Multi-Head Attention
(MHA) trong Decoder
- DaNangVMD (Kiến trúc đề xuất): Sử dụng Phonetic Embedding và Linguistic
Embedding làm đầu vào; không sử dụng CNN trong Phonetic Encoder; sử dụng
thêm Type Phoneme Embedding và một Lớp LSTM trong Linguistic Encoder;

31
sử dụng Multi-Head cross Attention (MHA) trong Decoder như được hiển thị
trong Hình 12.
VMD model Params Phoneme Recognition Mispronunciation
performance (%) Detection&Diagnosis(%)
Accuracy Correctness Recall Precision F1
PAPL (Baseline) 64.6M 79.46 80.91 87.95 29.72 44.43
PPL (without 46.2M 80.95 82.59 86.79 31.76 46.51
Acoustic)
PPL (without 46.2M 80.95 82.59 86.79 31.76 46.51
Acoustic)
APL (without 61M 81.41 82.89 85.37 32.26 46.83
Pitch)
C-PAPL (without 29.2M 81.38 82.8 86.25 32.03 46.71
CNN in Phonetic)
C-PL 8M 82.87 84.96 68.39 31.48 43.12
C-PL1 (Using 8.6M 83.55 85.34 82.5 35.66 49.8
Type Phoneme)
C-PL2 (Using 8M 84.46 86.13 83.75 37.39 51.69
LSTM Layer)
C-PL3 (MHA in 9.6M 90.68 92.9 32.68 47.41 38.69
Decoder)
DaNangVMD 10.4M 92.3 93.53 55.54 63.73 59.35
(Đề xuất)
Bảng 6. Kết quả thực nghiệm các mô hình cho nhiệm vụ VMD
Các tệp âm thanh được lấy mẫu đồng đều ở tốc độ 16000Hz, và chúng tôi tạo ra
mel-spectrogram, pitch, và Phonetic Embedding bằng cách sử dụng một bước trượt của
20ms và một độ dài khung là 25ms. Đối với việc huấn luyện mô hình, chúng tôi sử dụng
tối ưu hóa AdamW, thiết lập một tỷ lệ học là 0.00005 với tối đa 100 epochs
2.2.4.5.2. Nhận dạng âm vị (Phoneme Recognition)

Để đồng bộ hóa kết quả dự đoán của mô hình nhận dạng giọng nói (ASR) với dữ
liệu ghi chú của con người, chúng tôi sử dụng thuật toán Needleman-Wunsch [14].
Chúng tôi đánh giá hiệu suất theo công thức (1), trong đó "I" đại diện cho số lượng chèn
thêm, "D" đại diện cho số lượng xóa, "S" đại diện cho số lượng thay thế và "N" đại diện
cho tổng số đơn vị ngữ âm. Kết quả hiệu suất nhận dạng ngữ âm của các mô hình được
thể hiện trong Bảng 6.

N−S−D N−S−D−I
Correctness = , Accuracy = (1)
N N

32
Độ chính xác nhận dạng ngữ âm của kiến trúc cơ sở PAPL đạt 79,46%. Tuy
nhiên, với PPL, độ chính xác tăng lên 80,95%, APL đạt 81,41% và C-PL cải thiện lên
81,38%. Do đó, nghiên cứu này chỉ ra rằng chúng ta có thể nâng cao độ chính xác của
mô hình bằng cách loại bỏ các đặc trưng Âm học và Nhịp điệu, và không sử dụng CNN
trong Phonetic Encoder cũng giúp tăng độ chính xác. Sự cải thiện này có thể được giải
thích bởi chất lượng tốt của mô hình Wav2Vec2.0 được tiền huấn luyện trong việc trích
xuất đặc trưng Âm học và Nhịp điệu thay vì huấn luyện từ đầu các bộ mã hóa âm học,
nhịp điệu trên tập dữ liệu phát âm sai nhỏ. Ngoài ra, vì mô hình Wav2Vec2.0 đã tích
hợp các lớp CNN, nên việc sử dụng CNN trong Phonetic Encoder trở nên dư thừa. Dựa
trên quan sát này, chúng tôi đã xác nhận mô hình C-PAPL không có các lớp CNN trong
Phonetic encoder. Từ đó, chúng tôi xây dựng mô hình C-PL, đạt độ chính xác 82,87%
và độ chính xác cao hơn là 84,86%. Những kết quả này chứng minh sự cải thiện đáng
kể của kiến trúc C-PL so với cơ sở PAPL trong việc nhận dạng ngữ âm chính xác hơn
cũng như giảm đáng kể kích thước mô hình.

Dựa trên mô hình C-PL, chúng tôi tiếp tục điều chỉnh và cải tiến các phiên bản
khác nhau. C-PL1 đạt độ chính xác 83,55%, C-PL2 đạt 84,46%, và đáng chú ý C-PL3
với cơ chế multi-head cross attention đạt độ chính xác ấn tượng 90,68%, cho thấy sự cải
thiện đáng kể. Điều này nhấn mạnh hiệu quả của việc tích hợp Type Phoneme
Embedding bổ sung, sử dụng lớp LSTM trong Linguistic Encoder và Multi-Head
Attention (MHA) trong Decoder trong kiến trúc.

Dựa trên tất cả các quan sát và cải tiến nêu trên, chúng tôi xây dựng mô hình
DaNangVMD, đạt độ chính xác 92,3% và độ chính xác cao hơn là 93,53%. Đây là mức
cải thiện đáng kể so với mô hình cơ sở PAPL ban đầu, lần lượt là 12,84% và 11,39%.
DaNangVMD thể hiện hiệu suất vượt trội so với các mô hình cơ sở khác, đặc biệt trong
việc nhận dạng âm sắc. Hơn nữa, DaNangVMD đạt được sự giảm đáng kể về số lượng
tham số mô hình, từ 64,6 triệu xuống còn 10,4 triệu. Sự giảm đáng kể này làm tăng đáng
kể tốc độ nhận dạng ngữ âm trong tiếng Việt và thời gian huấn luyện.

4.2.4.5.3. Nhận dạng các âm vị phát âm sai (MDD)

Cấu trúc đánh giá phân cấp được sử dụng để đo lường hiệu suất của hệ thống
nhận dạng phát âm sai (MD). Đối với các phát âm đúng, TA (True Acceptance) có nghĩa
là chuỗi ngữ âm được nhận dạng trùng khớp với văn bản tham chiếu, và FR (False
Rejection) có nghĩa là chuỗi ngữ âm nhận dạng khác với văn bản tham chiếu. Đối với
các phát âm sai, TR (True Rejection) có nghĩa là các ngữ âm phát âm sai được phát hiện,
và FA (False Acceptance) có nghĩa là không thể nhận ra các ngữ âm phát âm sai.

TR TR Precision∗ Recall
Precision = , Recall = , F1 Score = 2 ∗ (2)
𝐹𝐴+𝑇𝑅 FR+TR Precision+Recall

Như thể hiện trong Bảng 6, mô hình cơ sở PAPL đạt điểm Recall cao nhất là
87,95% nhưng điểm Precision rất thấp, chỉ 29,72%, dẫn đến điểm F1 thấp 44,43%.
33
Chúng tôi phân tích và tìm ra nguyên nhân điểm Recall rất cao nhưng Precision rất thấp
là do mô hình đánh nhãn sai một số lượng lớn các ngữ âm không liên quan. Do đó,
chúng tôi đề xuất và phát triển mô hình DaNangVMD để khắc phục các vấn đề trên.
Mô hình DaNangVMD vượt trội hơn mô hình cơ sở PAPL 14,92% về điểm F1
và 34,01% về điểm Precision. Kết quả này nhấn mạnh hiệu suất xuất sắc của mô hình
DaNangVMD, đặc biệt trong lĩnh vực nhận dạng ngữ âm phát âm sai trong tiếng Việt.
Cụ thể, với các phát âm đúng, DaNangVMD đạt TA (True Acceptance) 97,26%
và FR (False Rejection) chỉ 2,74%, cho thấy khả năng nhận dạng chính xác các ngữ âm
được phát âm đúng. Quan trọng hơn, với các trường hợp phát âm sai, DaNangVMD đạt
được TR (True Rejection) 63,73%, nghĩa là có thể phát hiện được hơn một nửa số lượng
ngữ âm phát âm sai. Điểm FA (False Acceptance) là 36,27%, thể hiện vẫn còn một số
lượng nhỏ các trường hợp phát âm sai chưa được nhận ra.
Tóm lại, với các con số ấn tượng về F1, Precision, TA, TR và FA, mô hình
DaNangVMD của chúng tôi đã chứng minh sự vượt trội so với mô hình cơ sở PAPL
trong việc nhận dạng lỗi phát âm tiếng Việt. Những kết quả này đánh dấu một bước tiến
quan trọng trong lĩnh vực xử lý giọng nói tiếng Việt và mở ra tiềm năng ứng dụng trong
các lĩnh vực như giáo dục ngôn ngữ, trợ lý ảo, giao tiếp người - máy, v.v.

34
CHƯƠNG 3 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
3.1. Kết quả đạt được
Trong nghiên cứu này, chúng tôi giới thiệu kiến trúc DaNangVMD được thiết kế để phát
hiện lỗi phát âm trong giọng nói tiếng Việt. Những phát hiện của chúng tôi trong việc
loại bỏ các lớp CNN khỏi bộ mã hóa âm vị, tích hợp nhúng Âm vị Loại trong Bộ mã
hóa Âm vị và sử dụng MHA trong quá trình Giải mã đã chứng minh được sự cải thiện
đáng kể trong việc nhận dạng âm vị trong bối cảnh của ngôn ngữ tiếng Việt. Kết quả
thực nghiệm cho thấy hiệu quả của hệ thống DaNangVMD đề xuất, bằng cách cải thiện
đáng kể Recall, Precision và điểm F1 lần lượt là 55,54%, 63,73% và 59,35%. Độ chính
xác tổng thể đạt mức ấn tượng 92,3%, đại diện cho một bước tiến đáng kể so với mô
hình cơ sở.
3.2. Những điểm hạn chế.
Tập dữ liệu hạn chế: Nghiên cứu có thể bị hạn chế bởi kích thước và đa dạng của
tập dữ liệu được sử dụng để đào tạo mô hình. Một tập dữ liệu nhỏ hoặc thiếu đa dạng có
thể dẫn đến khả năng nhận dạng lỗi phát âm kém và khó mở rộng sang các trường hợp
mới.
Phức tạp của ngôn ngữ tiếng Việt: Tiếng Việt là một ngôn ngữ đơn lập tonal phức
tạp với nhiều quy tắc phát âm khác nhau. Điều này có thể làm cho việc xây dựng mô
hình nhận dạng lỗi phát âm trở nên khó khăn hơn so với các ngôn ngữ khác.
Khó khăn trong việc xác định lỗi phát âm: Một số lỗi phát âm có thể khó phân
biệt với các cách phát âm hợp lệ khác, đặc biệt trong trường hợp của các từ có nhiều
cách phát âm chính xác. Điều này có thể dẫn đến việc nhận dạng sai lỗi phát âm.
Mặc dù có những hạn chế này, nghiên cứu vẫn đạt được những kết quả đầy hứa
hẹn trong việc nhận dạng lỗi phát âm tiếng Việt. Tuy nhiên, cần có thêm nhiều nghiên
cứu và phát triển để giải quyết những thách thức này và nâng cao hiệu suất của hệ thống.
3.3. Hướng phát triển
Trong các công việc tương lai, chúng tôi sẽ tiếp tục phát triển hệ thống
DaNangVMD thành một công cụ nhận dạng giọng nói mạnh mẽ và hiệu quả hơn. Điều
này bao gồm tối ưu hóa khả năng học tập của nó bằng cách tận dụng các tập dữ liệu
tiếng Việt đa dạng và phong phú, bao gồm cả giọng nói của các dân tộc thiểu số và các
vùng miền khác nhau. Bên cạnh đó, chúng tôi sẽ nghiên cứu cải tiến các thành phần và
thuật toán trong kiến trúc DaNangVMD để đạt được hiệu suất tốt hơn trong việc phát
hiện lỗi phát âm.
Một trong những ưu tiên hàng đầu của chúng tôi là tích hợp các kỹ thuật học sâu
tiên tiến và tối ưu hóa mô hình để nâng cao khả năng nhận dạng và phân loại lỗi phát
âm chính xác hơn. Chúng tôi cũng sẽ tập trung vào việc xây dựng các tập dữ liệu đào
tạo chất lượng cao, bao gồm nhiều trường hợp lỗi phát âm khác nhau, thêm dữ liệu giọng
vùng miền, địa phương, giọng dân tộc thiểu số để đảm bảo hệ thống DaNangVMD có

35
thể học và phát hiện được các lỗi phát âm phổ biến cũng như những lỗi phát âm hiếm
gặp.
Cuối cùng, chúng tôi sẽ nghiên cứu tích hợp hệ thống DaNangVMD vào các ứng
dụng thực tế như phần mềm học tiếng Việt, công cụ đánh giá phát âm và hỗ trợ người
học ngôn ngữ. Bằng cách làm việc chặt chẽ với các chuyên gia ngôn ngữ và giáo viên,
chúng tôi mong muốn phát triển DaNangVMD thành một công cụ hữu ích cho việc học
tập và cải thiện kỹ năng phát âm tiếng Việt.

36
TÀI LIỆU THAM KHẢO

[1] Wai-Kim Leun. “CNN-RNN-CTC BASED END-TO-END MISPRONUNCIATION


DETECTION AND DIAGNOSIS.” Department of Systems Engineering and
Engineering Management,
https://www1.se.cuhk.edu.hk/~hccl/publications/pub/ICASSP2019-mdd.pdf.
Accessed 22 November 2023.
[2] Kun Li, and Helen Meng. “Mispronunciation Detection and Diagnosis in L2 English
Speech Using Multi-Distribution Deep Neural Networks.” Human-Computer
Communications Laboratory Department of System Engineering and Engineering
Management The Chinese University of Hong Kong, Hong Kong SAR, China, 16 June
2023,
https://www1.se.cuhk.edu.hk/~hccl/publications/pub/2014_PID3298385_LK.pdf.
Accessed 22 November 2023.
[3] Wenxuan Ye, et al. “An Approach to Mispronunciation Detection and Diagnosis with
Acoustic, Phonetic and Linguistic (APL) Embeddings.” arXiv, 14 October 2021,
https://arxiv.org/abs/2110.07274.
Accessed 24 November 2023.
[4] Huu Tuong Tu, et al. “Mispronunciation detection and diagnosis model for tonal
language, applied to Vietnamese.” [Dublin, Ireland], 20-24 8 2023, https://www.isca-
speech.org/archive/pdfs/interspeech_2023/huu23_interspeech.pdf.
[5] Pegah Ghahremani. “A PITCH EXTRACTION ALGORITHM TUNED FOR
AUTOMATIC SPEECH RECOGNITION Pegah Ghahremani1, Bagher BabaAli2,
Daniel Povey1, Korbinian.” https://danielpovey.com/files/2014_icassp_pitch.pdf.
Accessed 22 November 2023.
[6] Kaiqi Fu. Jones Lin, Dengfeng Ke, Yanlu Xie, Jinsong Zhang, Binghuai Lin “A Full
Text-Dependent End to End Mispronunciation Detection and Diagnosis with Easy
Data Augmentation Techniques.” arXiv, 17 April 2021,
https://arxiv.org/abs/2104.08428.
Accessed 24 November 2023.
[7] Yiqing Feng, et al. “SED-MDD: Towards Sentence Dependent End-To-End
Mispronunciation Detection and Diagnosis.” 16 June 2023,
https://ieeexplore.ieee.org/document/9052975. Accessed 24 November 2023.
[8] Thi Thu Trang Nguyen. HMM-based Vietnamese Text-To-Speech: Prosodic Phrasing
Modeling, Corpus Design System Design, and Evaluation, 22 January 2016,
https://theses.hal.science/tel-01260884/document.
Accessed 24 November 2023.
[9] Alexei Baevski, Alexis Conneau, Michael Auli. “Wav2vec 2.0: Learning the structure
of speech from raw audio.” Meta AI, 24 September 2020,
https://ai.meta.com/blog/wav2vec-20-learning-the-structure-of-speech-from-raw-
audio/. Accessed 24 November 2023.

37
[10] Nguyen Quang Minh, Phan Duy Hung. The System for Detecting Vietnamese
Mispronunciation. In: Dang, T.K., Küng, J., Chung, T.M., Takizawa, M. (eds) Future
Data and Security Engineering. Big Data, Security and Privacy, Smart City and
Industry 4.0 Applications. FDSE 2021. Communications in Computer and Information
Science, vol 1500. Springer, Si, 2021. The System for Detecting Vietnamese
Mispronunciation, https://doi.org/10.1007/978-981-16-8062-5_32.
[11] Nguyen Vu Le Binh. “wav2vec2-base-vietnamese-250h.” Hugging Face, 14 June
2023, https://huggingface.co/nguyenvulebinh/wav2vec2-base-vietnamese-250h.
Accessed 24 November 2023.
[12 VLSP 2020. “Automatic Speech Recognition for Vietnamese | Association for
Vietnamese Language and Speech Processing.” VLSP,
https://vlsp.org.vn/vlsp2020/eval/asr.
Accessed 24 November 2023.
[13] VLSP 2023. “VLSP 2023 challenge on Vietnamese Mispronunciation Detection |
Association for Vietnamese Language and Speech Processing.” VLSP,
https://vlsp.org.vn/vlsp2023/eval/vmd. Accessed 24 November 2023.
[14] Ashish Vaswani, et al. “Attention Is All You Need.” arXiv, 12 June 2017,
https://arxiv.org/abs/1706.03762. Accessed 12 Jun 2017.
[15] M. Ravanelli, T. Parcollet, Y. Bengio, "The PyTorch-Kaldi Speech Recognition
Toolkit", https://arxiv.org/abs/1811.07453. Accessed 19 Nov 2018.
[16] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. "BERT: Pre-training of Deep
Bidirectional Transformers for Language Understanding."
[17] VLSP 2023. “VLSP 2023 challenge on Vietnamese Mispronunciation Detection |
Association for Vietnamese Language and Speech Processing.” VLSP,
https://vlsp.org.vn/vlsp2023/eval/vmd. Accessed 24 November 2023.
[18] Nguyen Quang Minh, Phan Duy Hung. The System for Detecting Vietnamese
Mispronunciation. In: Dang, T.K., Küng, J., Chung, T.M., Takizawa, M. (eds) Future
Data and Security Engineering. Big Data, Security and Privacy, Smart City and
Industry 4.0 Applications. FDSE 2021. Communications in Computer and Information
Science, vol 1500. Springer, Si, 2021. The System for Detecting Vietnamese
Mispronunciation, https://doi.org/10.1007/978-981-16-8062-5_32.
[19] Huu Tuong Tu, et al. “Mispronunciation detection and diagnosis model for tonal
language, applied to Vietnamese.” [Dublin, Ireland], 20-24 8 2023, https://www.isca-
speech.org/archive/pdfs/interspeech_2023/huu23_interspeech.pdf.
[20] https://platform.openai.com/docs/guides/text-to-speech, OpenAI Text To Speech API
[21] Ashish Vaswani, et al. “Attention Is All You Need.” arXiv, 12 June 2017,
https://arxiv.org/abs/1706.03762. Accessed 12 Jun 2017.

38

You might also like