Xu Li Tieng Noi - Tong Quan

XỬ LÝ NGÔN NGỮ NÓI
& ỨNG DỤNG

Xử lý ngôn ngữ nói (SLP)
Máy nói Máy nghe Máy hiểu
– Tổng hợp tiếng nói (TTS) – Nhận dạng tiếng nói (ASR) – Xử lý ngôn ngữ tự nhiên (NLP)
xin ngài …...... “đem cafe

tới đây” cafe ~
chào
Nghiên cứu SLP trên thế giới
– Nghiên cứu SLP ở AT&T

3
Ứng dụng của SLP
IVR Systems
handicapped
communication
Robot & Intelligent Systems

4
Ứng dụng của SLP trên mobile
- Siri - - App tìm nhà hàng - - Google Voice Search -

TTS – Tiếng nói Phương Nam (VOS)
Mô phỏng
Tin tức Truyện Thơ
Ver.
B T N B T N B T N
1.6 - - - - - -
2.5
3.0
Gốc Nhạy
Đọc từ tiếng nước ngoài Đọc từ viết tắt
Rất chậm Rất nhanh
Barack Obama
UBND TP
Washington
VOS – Ứng dụng báo nói iNghe
Hỗ trợ người khiếm thị Tùy chỉnh người dùng

Nghe theo báo hoặc chuyên mục (tổ chức mục yêu thích)
(máy đọc cho người dùng nghe) (tương tác giọng nói)
– Tích hợp công nghệ ASR – – Hỗ trợ cả 3 giọng đọc –
VOS in Community
Bộ đọc trang web
Bộ Thông tin và Truyền thông Bộ Xây dựng

http:// mic.gov.vn http:// moc.gov.vn
Hỗ trợ người khiếm thị
– Phát triển động cơ TTS tích hợp vào phần

mềm đọc màn hình (NVDA, JAWS) hỗ trợ
cộng động người khiếm thị sử dụng máy
tính
– AILab hiện đang phối hợp với hội VBA

và tổ chức CRS của Mỹ để đưa phần mềm
7
vào ứng dụng trong cả nước.
ASR – Bài toán lớn
…......
ASR – Trợ lý du lịch theo mô hình KHDV - iSago
Trợ lý du lịch di động Cung cấp thông tin du lịch

(thông tin & định vị) Tương tác người dùng
(tương tác tiếng nói) (thu thập phản hồi & đánh giá)
– ASR, TTS – – nhà hàng, quán ăn, địa điểm giải trí –
Vừa là giao diện người dùng, vừa là

công cụ cho nhà cung cấp dịch vụ
ASR – Hệ thống truy vấn Video bằng giọng nói
VBA – Động cơ TTS hỗ trợ người khiếm thị sử dụng máy tính
Mô hình phần mềm VBA Động cơ TTS lai – hybrid system
– Đáp ứng nhu cầu: nghe rõ , nghe hay

Navigator
- NVDA - – Đáp ứng đa dạng ngữ cảnh: đành vần, đọc từng từ, đọc
buffers
từng câu, đọc toàn văn, đọc hay truyện, thơ, tin tức…
text
normalized text Chuẩn hóa
text
text Tổng hợp text
TTS engine Bridged interface Tổng hợp
ghép nối HMM
- VOS - - SAPI -
buffers
Parse và
Phân đọan
xấp xỉ phones
text units phones
Tìm kiếm
Lựa chọn
Database & phát sinh
đơn vị
tham số
speech units parameters
Tái cấu
Ghép nối
trúc âm
synthetic speech
Kết hợp giữa tổng hợp ghép nối

và tổng hợp tham số HMM
Các ứng dụng của VIS
Tổng đài bình chọn Tổng đài giải đáp thắc mắc cho nông dân
“Hello, welcome to…

What do you want to ask?”
“Xin chào, quý khách vui lòng đặt câu hỏi?”
“The ravage of borers?”

“Cho tôi biết đặc điểm gây hại của sâu
đục thân hai chấm”
“Did you say ‘borer’?”

“Quý khách muốn biết đặc điểm gây hại
của sâu đục thân hai chấm phải không”
borer
Hệ thống chuyển mạch tự động “Yes.”
“Đúng rồi.”
“The information regarding borer is…”

Telephone “Đặc điểm gây hại của sâu đục thân hai
Network chấm là.…”
“Anything else?”
“Quý khách còn muốn biết thông tin gì
nữa không?”
“No, thanks.”
“Không, cám ơn.”
P. Đào tạo P. Tài vụ P. TCHC

Chuyển giao công nghệ
Các tổ chức, công ty, tập đoàn
– Ministry of Information & Communications (MIC)

http://mic.gov.vn
– Ministry of Construction (MOC)

http://www.moc.gov.vn
– Vietnam Data-communication Company (VDC)

http://vdc.com.vn
– Financing Promoting Technology (FPT) Corporation

http://fpt.com.vn
– Vega Corporation
http://www.vega.com.vn/
Audio Classification
Audio Classification
Đây có lẽ là bài toán phổ biến nhất của Audio. Input là 1 đoạn Audio, Output là
nhãn của nó.
Một số ứng dụng thực tế của bài toán này:
- Phát hiện sự hư hỏng của máy móc thông qua tiếng kêu khi hoạt động bình
thường và khi hư hỏng.
- Phát hiện trộm dựa vào phát hiện tiếng đập vỡ cữa kính
- Phát hiện bệnh thông qua tiếng ho, tiếng thở
Audio Separation and Segmentation
Audio Separation and Segmentation
Bài toán này liên quan đến viêc tách riêng các tín hiệu thành phần từ tín hiệu
gốc ban đầu.
Một số ví dụ ứng dụng thực tế:
- Tách riêng giọng của mỗi người trong 1 cuộc họp.

- Tách riêng âm thanh của một loại nhạc cụ trong một buổi hòa nhạc.
- Tách giọng ca sĩ khỏi bài hát.
Music Generation - Music Transcription
Music Generation - Music Transcription
Một số Deep Learning model có thể sinh ra các bản nhạc theo thể loại, loại nhạc
cụ hay thậm chí là phong cách của một nhạc sĩ cụ thể.
Ở chiều ngược lại, từ một bản nhạc dạng Audio, Deep Learning model có thể
dịch ngược lại thành Text, kèm theo giai điệu, node nhạc, …
References
[1] http://www.nusuara.com/products/voice-solutions/airport-information-system/
[2] Nuance White Paper of The Business Case for Speech Recognition
[3] Benchmark Portal, Survey Underway on Call Center Inbound Sales Best Practices
[4] Povey, D., et al., “Subspace Gaussian mixture models for speech recognition,” Proceedings of ICASSP’10, 2010
[5] K. Tokuda, H. Zen, and A. Black, “An HMM-based speech synthesis system applied to English,” IEEE Speech Synthesis
Workshop, 2002
[6] Y. Alvarez, M. Huckvale, The reliability of the ITU-T P.85 standard for the evaluation of text-to-speech systems,
Proceedings of the ICSLP'02, Denver, pp. 329-332, 2002
[7] H.M. Le, VnSpeech, http://www.vnisg.com, retrieved August 2009.
[8] T.H. Le, VietVoice, Virtual Voice Inc., http://noitiengviet.ca, retrieved August 2009

Xu Li Tieng Noi - Tong Quan

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Xu Li Tieng Noi - Tong Quan

Uploaded by

Copyright:

Available Formats

XỬ LÝ NGÔN NGỮ NÓI

& ỨNG DỤNG

xin ngài …...... “đem cafe

Nghiên cứu SLP trên thế giới

– Nghiên cứu SLP ở AT&T

Ứng dụng của SLP

Robot & Intelligent Systems

Ứng dụng của SLP trên mobile

- Siri - - App tìm nhà hàng - - Google Voice Search -

Đọc từ tiếng nước ngoài Đọc từ viết tắt

Rất chậm Rất nhanh

Hỗ trợ người khiếm thị Tùy chỉnh người dùng

Bộ Thông tin và Truyền thông Bộ Xây dựng

Hỗ trợ người khiếm thị

– Phát triển động cơ TTS tích hợp vào phần

– AILab hiện đang phối hợp với hội VBA

Trợ lý du lịch di động Cung cấp thông tin du lịch

Vừa là giao diện người dùng, vừa là

– Đáp ứng nhu cầu: nghe rõ , nghe hay

text units phones

Kết hợp giữa tổng hợp ghép nối

“Hello, welcome to…

“The ravage of borers?”

“Did you say ‘borer’?”

“The information regarding borer is…”

P. Đào tạo P. Tài vụ P. TCHC

– Ministry of Information & Communications (MIC)

– Ministry of Construction (MOC)

– Vietnam Data-communication Company (VDC)

– Financing Promoting Technology (FPT) Corporation

Một số ứng dụng thực tế của bài toán này:

Một số ví dụ ứng dụng thực tế:

- Tách riêng giọng của mỗi người trong 1 cuộc họp.

[7] H.M. Le, VnSpeech, http://www.vnisg.com, retrieved August 2009.

You might also like