Professional Documents
Culture Documents
Xu Li Tieng Noi - Tong Quan
Xu Li Tieng Noi - Tong Quan
IVR Systems
handicapped
communication
Mô phỏng
Tin tức Truyện Thơ
Ver.
B T N B T N B T N
1.6 - - - - - -
2.5
3.0
Gốc Nhạy
Barack Obama
UBND TP
Washington
VOS – Ứng dụng báo nói iNghe
…......
ASR – Trợ lý du lịch theo mô hình KHDV - iSago
buffers
từng câu, đọc toàn văn, đọc hay truyện, thơ, tin tức…
text
normalized text Chuẩn hóa
text
text Tổng hợp text
TTS engine Bridged interface Tổng hợp
ghép nối HMM
- VOS - - SAPI -
buffers
Parse và
Phân đọan
xấp xỉ phones
Tìm kiếm
Lựa chọn
Database & phát sinh
đơn vị
tham số
speech units parameters
Tái cấu
Ghép nối
trúc âm
synthetic speech
borer
Hệ thống chuyển mạch tự động “Yes.”
“Đúng rồi.”
“Anything else?”
“Quý khách còn muốn biết thông tin gì
nữa không?”
“No, thanks.”
“Không, cám ơn.”
– Vega Corporation
http://www.vega.com.vn/
Audio Classification
Audio Classification
Đây có lẽ là bài toán phổ biến nhất của Audio. Input là 1 đoạn Audio, Output là
nhãn của nó.
- Phát hiện sự hư hỏng của máy móc thông qua tiếng kêu khi hoạt động bình
thường và khi hư hỏng.
- Phát hiện trộm dựa vào phát hiện tiếng đập vỡ cữa kính
- Phát hiện bệnh thông qua tiếng ho, tiếng thở
Audio Separation and Segmentation
Audio Separation and Segmentation
Bài toán này liên quan đến viêc tách riêng các tín hiệu thành phần từ tín hiệu
gốc ban đầu.
Một số Deep Learning model có thể sinh ra các bản nhạc theo thể loại, loại nhạc
cụ hay thậm chí là phong cách của một nhạc sĩ cụ thể.
Ở chiều ngược lại, từ một bản nhạc dạng Audio, Deep Learning model có thể
dịch ngược lại thành Text, kèm theo giai điệu, node nhạc, …
References
[1] http://www.nusuara.com/products/voice-solutions/airport-information-system/
[2] Nuance White Paper of The Business Case for Speech Recognition
[3] Benchmark Portal, Survey Underway on Call Center Inbound Sales Best Practices
[4] Povey, D., et al., “Subspace Gaussian mixture models for speech recognition,” Proceedings of ICASSP’10, 2010
[5] K. Tokuda, H. Zen, and A. Black, “An HMM-based speech synthesis system applied to English,” IEEE Speech Synthesis
Workshop, 2002
[6] Y. Alvarez, M. Huckvale, The reliability of the ITU-T P.85 standard for the evaluation of text-to-speech systems,
Proceedings of the ICSLP'02, Denver, pp. 329-332, 2002
[8] T.H. Le, VietVoice, Virtual Voice Inc., http://noitiengviet.ca, retrieved August 2009