Download as pdf or txt
Download as pdf or txt
You are on page 1of 20

XỬ LÝ NGÔN NGỮ NÓI

& ỨNG DỤNG


Xử lý ngôn ngữ nói (SLP)
Máy nói Máy nghe Máy hiểu
– Tổng hợp tiếng nói (TTS) – Nhận dạng tiếng nói (ASR) – Xử lý ngôn ngữ tự nhiên (NLP)

xin ngài …...... “đem cafe


tới đây” cafe ~
chào

Nghiên cứu SLP trên thế giới

– Nghiên cứu SLP ở AT&T


3

Ứng dụng của SLP

IVR Systems

handicapped
communication

Robot & Intelligent Systems


4

Ứng dụng của SLP trên mobile

- Siri - - App tìm nhà hàng - - Google Voice Search -


TTS – Tiếng nói Phương Nam (VOS)

Mô phỏng
Tin tức Truyện Thơ
Ver.
B T N B T N B T N

1.6 - - - - - -

2.5

3.0
Gốc Nhạy

Đọc từ tiếng nước ngoài Đọc từ viết tắt

Rất chậm Rất nhanh

Barack Obama
UBND TP
Washington
VOS – Ứng dụng báo nói iNghe

Hỗ trợ người khiếm thị Tùy chỉnh người dùng


Nghe theo báo hoặc chuyên mục (tổ chức mục yêu thích)
(máy đọc cho người dùng nghe) (tương tác giọng nói)
– Tích hợp công nghệ ASR – – Hỗ trợ cả 3 giọng đọc –
VOS in Community
Bộ đọc trang web

Bộ Thông tin và Truyền thông Bộ Xây dựng


http:// mic.gov.vn http:// moc.gov.vn

Hỗ trợ người khiếm thị

– Phát triển động cơ TTS tích hợp vào phần


mềm đọc màn hình (NVDA, JAWS) hỗ trợ
cộng động người khiếm thị sử dụng máy
tính

– AILab hiện đang phối hợp với hội VBA


và tổ chức CRS của Mỹ để đưa phần mềm
7
vào ứng dụng trong cả nước.
ASR – Bài toán lớn

…......
ASR – Trợ lý du lịch theo mô hình KHDV - iSago

Trợ lý du lịch di động Cung cấp thông tin du lịch


(thông tin & định vị) Tương tác người dùng
(tương tác tiếng nói) (thu thập phản hồi & đánh giá)
– ASR, TTS – – nhà hàng, quán ăn, địa điểm giải trí –

Vừa là giao diện người dùng, vừa là


công cụ cho nhà cung cấp dịch vụ
ASR – Hệ thống truy vấn Video bằng giọng nói
VBA – Động cơ TTS hỗ trợ người khiếm thị sử dụng máy tính
Mô hình phần mềm VBA Động cơ TTS lai – hybrid system

– Đáp ứng nhu cầu: nghe rõ , nghe hay


Navigator
- NVDA - – Đáp ứng đa dạng ngữ cảnh: đành vần, đọc từng từ, đọc

buffers
từng câu, đọc toàn văn, đọc hay truyện, thơ, tin tức…

text
normalized text Chuẩn hóa
text
text Tổng hợp text
TTS engine Bridged interface Tổng hợp
ghép nối HMM
- VOS - - SAPI -
buffers
Parse và
Phân đọan
xấp xỉ phones

text units phones

Tìm kiếm
Lựa chọn
Database & phát sinh
đơn vị
tham số
speech units parameters

Tái cấu
Ghép nối
trúc âm

synthetic speech

Kết hợp giữa tổng hợp ghép nối


và tổng hợp tham số HMM
Các ứng dụng của VIS
Tổng đài bình chọn Tổng đài giải đáp thắc mắc cho nông dân

“Hello, welcome to…


What do you want to ask?”
“Xin chào, quý khách vui lòng đặt câu hỏi?”

“The ravage of borers?”


“Cho tôi biết đặc điểm gây hại của sâu
đục thân hai chấm”

“Did you say ‘borer’?”


“Quý khách muốn biết đặc điểm gây hại
của sâu đục thân hai chấm phải không”

borer
Hệ thống chuyển mạch tự động “Yes.”
“Đúng rồi.”

“The information regarding borer is…”


Telephone “Đặc điểm gây hại của sâu đục thân hai
Network chấm là.…”

“Anything else?”
“Quý khách còn muốn biết thông tin gì
nữa không?”

“No, thanks.”
“Không, cám ơn.”

P. Đào tạo P. Tài vụ P. TCHC


Chuyển giao công nghệ
Các tổ chức, công ty, tập đoàn

– Ministry of Information & Communications (MIC)


http://mic.gov.vn

– Ministry of Construction (MOC)


http://www.moc.gov.vn

– Vietnam Data-communication Company (VDC)


http://vdc.com.vn

– Financing Promoting Technology (FPT) Corporation


http://fpt.com.vn

– Vega Corporation
http://www.vega.com.vn/
Audio Classification
Audio Classification

Đây có lẽ là bài toán phổ biến nhất của Audio. Input là 1 đoạn Audio, Output là
nhãn của nó.

Một số ứng dụng thực tế của bài toán này:

- Phát hiện sự hư hỏng của máy móc thông qua tiếng kêu khi hoạt động bình
thường và khi hư hỏng.
- Phát hiện trộm dựa vào phát hiện tiếng đập vỡ cữa kính
- Phát hiện bệnh thông qua tiếng ho, tiếng thở
Audio Separation and Segmentation
Audio Separation and Segmentation

Bài toán này liên quan đến viêc tách riêng các tín hiệu thành phần từ tín hiệu
gốc ban đầu.

Một số ví dụ ứng dụng thực tế:

- Tách riêng giọng của mỗi người trong 1 cuộc họp.


- Tách riêng âm thanh của một loại nhạc cụ trong một buổi hòa nhạc.
- Tách giọng ca sĩ khỏi bài hát.
Music Generation - Music Transcription
Music Generation - Music Transcription

Một số Deep Learning model có thể sinh ra các bản nhạc theo thể loại, loại nhạc
cụ hay thậm chí là phong cách của một nhạc sĩ cụ thể.

Ở chiều ngược lại, từ một bản nhạc dạng Audio, Deep Learning model có thể
dịch ngược lại thành Text, kèm theo giai điệu, node nhạc, …
References

[1] http://www.nusuara.com/products/voice-solutions/airport-information-system/

[2] Nuance White Paper of The Business Case for Speech Recognition

[3] Benchmark Portal, Survey Underway on Call Center Inbound Sales Best Practices

[4] Povey, D., et al., “Subspace Gaussian mixture models for speech recognition,” Proceedings of ICASSP’10, 2010

[5] K. Tokuda, H. Zen, and A. Black, “An HMM-based speech synthesis system applied to English,” IEEE Speech Synthesis
Workshop, 2002

[6] Y. Alvarez, M. Huckvale, The reliability of the ITU-T P.85 standard for the evaluation of text-to-speech systems,
Proceedings of the ICSLP'02, Denver, pp. 329-332, 2002

[7] H.M. Le, VnSpeech, http://www.vnisg.com, retrieved August 2009.

[8] T.H. Le, VietVoice, Virtual Voice Inc., http://noitiengviet.ca, retrieved August 2009

You might also like