Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 13

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN VIỆN

CÔNG NGHỆ THÔNG TIN VÀ KINH TẾ SỐ


-----***-----

BÀI TIỂU LUẬN


HỌC PHẦN: CẤU TRÚC DỮ LIỆU VÀ GIẢI THUẬT

ĐỀ TÀI:
Internet of thing và Voice activation

Thực hiện : Nhóm 5

Lớp học phần :


Giảng viên :

Hà Nội – 2023
[1]
ST
Họ và tên Mã sinh viên Phần công việc
T

1 Nguyễn Thế Hà Cường

DANH SÁCH THÀNH VIÊN NHÓM

[2]
A. LỜI MỞ ĐẦU

[3]
B. TỔNG QUAN VỀ IOT
.

[4]
C. Công nghệ điều khiển bằng giọng nói (voice
activation)
I. Tổng quan về voice activation
1. Khái niệm
- Thiết bị nhận diện giọng nói là một phần mềm có khả năng giải mã
giọng nói của con người, giúp người dùng có thể tương tác với các thiết bị điện
tử qua giọng nói. Công nghệ này được kết hợp cùng với các thiết bị khác như
điện thoại hay nhà thông minh để giúp người dùng có thể ra lệnh, tìm kiếm
thông tin một cách dễ dàng. Một số ví dụ có thể kể đến là Siri, Cotana,…

1. Mô hình, cách thức hoạt động


2.1, Các công nghệ chính
a, Nhận diện giọng nói (voice recognition)
- Hệ thống nhận diện giọng hoạt động bằng cách phận tích tầng số giọng
nói của con người qua bảng quang phổ. Mỗi khi nhận diện một câu nói, hệ
thống sẽ chia nhỏ bảng quang phổ của câu nói ấy rồi đem các phần nhỏ đấy đi
so sánh, phân tích trong thư viện các âm tiết xem phần đó là chữ cái gì. Thông
tin này có thể được chuyển trực tiếp lên mạng nơ-ron hồi quy từ đó tạo nên một
mô hình nhận dạng giọng nói. Quá trình này lặp đi lặp lại cho đến khi thiết bị
phận tích hết câu nói.
VD: Nhân diện từ recognition

Chia nhỏ Nhân diện từ


*,Mạng nơ-ron hồi quy (Recurrent Neural networks-RNN)
- Lấy cảm hứng từ cách hoạt động của não người, các nhà khoa học đã
phát triển một loạt thuật toán có khả năng xử lý một tập dữ liệu lớn và xử lý
chúng bằng cách đưa ra một cấu trúc chung từ các dữ liệu đó để đưa ra kết quả.
Các thuật toán này được gọi là mạng nơ-ron vì chúng cố gắng sao chép cách các
tế bào thần kinh trong não người hoạt động (học qua mẫu).
- Mạng nơ-ron hồi quy (RNN) có khả năng ghi nhớ dữ liệu từ đó ảnh
hưởng đến kết quả trong tương lai. Nghĩa là khi RNN đọc từng chữ cái, nó có
thể dự đoán được chữ cái tiếp theo. Ví dụ, nếu người dùng nói SOR, rất có thể
anh ta sẽ nói RY sau đó, mà không phải cái gì đó vô nghĩa như BM. RNN lưu
trữ các dự đoán trước đó trong bộ nhớ của nó để dự đoán chính xác các từ được
nói trong tương lai.
b, Nhận diện câu nói (speech recognition)
- Nhận diện câu nói là công nghệ cho phép máy tính có thể chuyển
đổi ngôn ngữ từ dạng âm thanh sang văn bản.
Để hiểu rõ hơn phần này ta sẽ phân tích một mô hình nhận diện câu
nói là NLP.
*, Xử lý ngôn ngữ tự nhiên (natural language processing hay
NLP)
- NLP là một nhánh của trí tuệ nhân tạo cho phép máy tính có khả năng
tương tác, giải thích và hiểu được ngôn ngữ con người.
- Việc triển khai NLP bắt đầu bằng việc chuẩn bị và thu thập các dữ liệu
từ ngữ từ các nguồn như tương tác trực tiếp, các thư viện dữ liệu đám mây,
email hoặc các ứng dụng khác.
- Sau đó, hệ thống NLP ứng dụng kỹ thuật xử lý trước để chuẩn bị dữ liệu
tùy vào các tình huống sử dụng khác nhau:
+ Token hóa: quá trình chia nhỏ câu nói thành các chữ, từ ngữ
riêng lẻ - token. Bằng cách token hóa câu nói, hệ thống sẽ có thể dễ dàng
nhận diện được cấu trúc câu nói, từ đó cho phép nó có thể hiểu và đáp lại

1 [6] “w” “i” “n”


“win”
2 “Nah, I’d win” “Nah”, “I” “’d” “win”
câu nói. Ví dụ, khi máy tính bắt gặp từ “win”, nó không nhận biết từ này
là một thực thể riêng biệt mà là một chuỗi token mà nó có thể phân tích.
Vd: 1. Token hóa chữ, 2. Token hóa từ

+ Phục hồi nguyên thể từ: quá trình phục hồi rút gọn từ về dạng
gốc của chúng. Ví dụ từ “sucked” sau quá trình này sẽ trở thành “suck”.
+ Loại bỏ từ dừng: quá trình loại bỏ các từ xuất hiện thường xuyên
trong ngôn ngữ nhưng mang ít hoặc không có nghĩa – từ dừng vd: a, the,
in,… Quá trình này đảm bảo độ chính xác và giảm thiểu số lượng tài
nguyên tính toán cần thiết cho các bước tiếp theo.
- Tiếp theo, các nhà phát triển sử dụng các dữ liệu đã được xử lý trước để
đào tạo các mô hình NLP tuy theo công việc cụ thể dựa trên thông tin lời nói
được cung cấp.
- Cuối cùng, NLP được triển khai và tích hợp, NLP nhận dữ liệu đầu vào
và đưa ra phản hồi tuy vào trường hợp sử dụng cụ thể mà nó được thiết kế.
2.2, Hệ thống điều khiển bằng giọng nói
- Công nghệ điều khiển bằng giọng nói thường được kết hợp cùng các
công nghệ khác vì vây để hiểu hơn cách hoạt động của nó ta sẽ phân tích ví dụ
về trợ lý giọng nói như sau:

- Ví dụ : bạn mở điện thoại và yêu cầu trợ lý giọng nói của bạn giới thiệu
một nhà hàng Ý tốt gần đây. Đây là cách trợ lý giọng nói sử dụng công nghệ
điều khiển giọng nói để thực hiện yêu cầu của bạn, trích xuất thông tin liên quan
và cung cấp một phản hồi phù hợp.

Chuyển đổi: trợ lý giọng nói chuyển đổi các từ nói của bạn thành văn bản
bằng công nghệ nhận dạng giọng nói. Quá trình này cho phép trợ lý giọng
nói làm việc với biểu diễn văn bản của yêu cầu của bạn.

Nhận biết ý định NLP giúp trợ lý giọng nói nhận biết ý định đằng sau yêu
cầu của bạn, trong trường hợp này là tìm một nhà hàng Ý tốt gần đây.

[7]
NLP xác định các thực thể có tên quan trọng trong truy vấn của bạn,
chẳng hạn như “Ý” và “nhà hàng,” giúp trợ lý giọng nói hiểu được lĩnh
vực và ngữ cảnh cụ thể của yêu cầu của bạn.

Các thuật toán NLP phân tích cấu trúc và ý nghĩa của truy vấn của bạn,
xem xét cú pháp, ngữ pháp và ngữ nghĩa. Điều này cho phép trợ lý giọng
nói nắm bắt được chính xác yêu cầu của bạn và cung cấp một phản hồi phù
hợp.

Truy xuất kiến thức: Trợ lý giọng nói sử dụng kiến thức đã có hoặc truy
cập vào các cơ sở dữ liệu bên ngoài để tìm thông tin liên quan về các nhà
hàng Ý trong khu vực của bạn. NLP giúp trợ lý hiểu và giải thích thông tin
đã truy xuất.

Tạo Phản hồi: dựa trên thông tin đã trích xuất, trợ lý giọng nói tạo ra một
phản hồi phù hợp với yêu cầu của bạn. Ví dụ, nó có thể cung cấp một danh
sách các nhà hàng Ý được đánh giá hàng đầu, địa chỉ của họ, thông tin liên
hệ, đánh giá và thậm chí là hướng dẫn đến nhà hàng gần nhất.

Chuyển đổi: sau khi tạo ra phản hồi, trợ lý giọng nói chuyển đổi văn bản
thành các từ nói bằng cách tổng hợp văn bản thành giọng nói. Điều này
cho phép trợ lý truyền đạt thông tin trở lại cho bạn bằng một giọng nói tự
nhiên và giống như con người.
- Một ví dụ khác là hệ thống điều khiển bằng giọng nói trong nhà thông
minh của Samsung:
Hệ thống nhà thông minh của điều khiển bằng giọng nói Sam sung có
mô hình như sau:

[8]
Các thiết bị Samsung được tích hợp Bixby sẽ cho phép người dùng có
thể giao tiếp với chúng. Và qua nền tảng SmartThing các dữ liệu sẽ được
chuyển tới các đồ dùng thông minh được liên kết với nền tảng này để thực
hiện yêu cầu của người dùng. Ví dụ khi bạn ra lệnh “khởi động máy lọc
không khí”, mệnh lệnh của bạn trước tiên sẽ được gửi đến Bixby để thực
hiện các bước chuyển đổi, phân tích ý nghĩa cấu trúc câu lệnh của bạn như
ở VD trên, sau đó mệnh lệnh đó được chuyền qua nền tảng IoT đến với
máy lọc không khí.

[9]
- Qua ví dụ trên ta có thể rút ra, một hệ thống điều khiển giọng nói hiện
nay thường có mô hình gồm:
+ Thiết bị có khả năng nhận diện giọng nói
+ Một mô hình nhân diện câu nói: chuyển đổi, phân tích yêu cầu của
người dùng.
+ Nền tảng IoT: tra cứu thông tin dữ liệu, di chuyển dữ liệu đến các thiết
bị thông minh.
+ Thiết bị thông minh liên kết nền tảng IoT.

ON

(2) (3)

ON

(1) (4)

1. Thiết bị thông minh tích hợp nhận diện giọng nói


2. Mô hình nhận diện câu nói
3. Nền tảng IoT
4. Thiết bị thông minh liên kết nền tảng IoT

3, Các loại hệ thống nhận diện


- Hệ thống phụ thuộc người nói (Speaker dependent systems).
- Hệ thống không phụ thuộc người nói (Speaker independent systems):
- Hệ thống nhận diện câu từ rời rạc (Discrete speech recognition): -
Hệ thống nhận diện câu nói liền mạch
- Ngôn ngữ tự nhiên (Natural language
4, Ưu nhược điểm

[10]
Ưu điểm Nhược điểm

- Khả năng tiếp cận: hệ thống điều khiển - Chi phí: Các thiết bị sử dụng hệ
bằng giọng nói cho phép lượng lớn thộng điều khiển giọng nói có giá
người dùng tiếp cận với cộng nghệ số. thành cao, khó tiếp cận với một số
Nâng cao chất lượng sống cho những người.
người khuyết tật, khiếm thị, hay không
- Lỗi, nhận diện sai từ: Mặc dù khả
thể di chuyển.
năng nhận diện giọng nói đã được
- Khả năng kết nối: hệ thống nhận có thể cải thiện trong một vài năm gần đây
dễ dàng kết nối với các công nghệ khác nhưng khi đưa các yếu ảnh hưởng
giúp việc hoàn thành công việc đơn giản đến giọng nói như chất giọng, tiếng
hơn ồn bên ngoài thì khả năng nhận
diện giọng nói của hệ thống lại bị
- Sự tiện lợi: việc tìm kiếm thông tin,
giảm đi đáng kể.
đưa ra các mệnh lệnh sẽ trở nên nhanh
+ Các từ đồng âm khác nghĩa
hơn và dễ dàng hơn bằng giọng nói thay
cũng là một trở ngại lớn cho công
vì phải viết hoặc gõ phím.
nghệ này
- Khả năng cá nhân hóa: hệ thống có thể
được thay đổi, ghỉ nhớ thông tin từ các
cuộc trò chuyện trước từ đó đưa ra gợi ý,
nhắc nhở phù hợp với từng người dùng.

II. Ứng dụng công nghệ điều khiển bằng giọng nói trong
nhà thông minh
Công nghệ nhận dạng giọng nói đang là xu hướng đối với các sản phẩm nhà
thông minh. Nó giúp chủ nhà có thể thực hiện các thao tác bật tắt các thiết bị
điện, các thiết bị an ninh bằng chính giọng nói của mình, không cần phải thao
tác qua smartphone như trước nữa.

[11]
Đối với các gia đình có trẻ nhỏ hay người khuyết tật, khi các thi quá cao
hoặc không thể sử dụng smartphone thì tính năng điều khiển bằng giọng nói sẽ
giúp họ thực hiện một số lệnh cơ bản như bật tắt các thiết bị điện tử, đóng mở
cửa rèm, Hay đối với những gia đình có người cao tuổi, khó khăn trong việc sử
dụng điện thoại thì đây thực sự là một trợ lý đắc lực cho các cụ.
Điều khiển các thiết bị: Người dùng có thể ra lệnh bằng giọng nói để bật/tắt
đèn, điều chỉnh nhiệt độ, mở cửa garage, hoặc thậm chí khóa cửa từ xa.
Thiết lập và điều khiển các kịch bản: Công nghệ nhận dạng giọng nói có thể
được sử dụng để thiết lập và kích hoạt các kịch bản tự động trong nhà thông
minh, chẳng hạn như kịch bản "Buổi tối" để tắt đèn và khóa cửa trước khi đi
ngủ.
Kiểm soát qua trợ lý ảo:
Quản lý hệ thống an ninh:
II. Tương lai của công nghệ điều khiển bằng giọng nói
1. Một số cập nhật mới về công nghệ điều khiển bằng
giọng nói trong năm 2023
- Khả năng hỗ trợ đa ngôn ngữ.
Các hệ thống nhận dạng giọng nói hàng đầu hiện nay cung cấp khả năng đa
ngôn ngữ mạnh mẽ, cho phép người dùng tương tác bằng ngôn ngữ chính của
họ. Điều này mở rộng phạm vi và tính khả dụng của các thiết bị và ứng dụng
được điều khiển bằng giọng nói.

- Cải thiện xử lý tiếng ồn:


Các hệ thống nhận dạng giọng nói đã tiến xa trong việc loại bỏ tiếng ồn và xử lý
tiếng ồn. Chúng có thể lọc ra âm thanh xung quanh, giúp dễ dàng bắt và hiểu
chính xác giọng nói ngay cả trong môi trường ồn ào.
Điều này giúp việc sử dụng công nghệ nhận dạng giọng nói dễ dàng hơn khi có
tiếng chó sủa hoặc em bé khóc.

[12]
- Chuyển đổi thời gian thực:
Các hệ thống nhận dạng giọng nói trong năm 2023 có thể cung cấp chuyển đổi
thời gian thực, cho phép người dùng nhận được bản ghi âm trực tiếp của lời nói
của họ. Tính năng này đặc biệt hữu ích trong các tình huống như viết phụ đề
trực tiếp trong sự kiện, cuộc họp hoặc phát sóng.

2. Tiềm năng phát triển


- Được đánh giá là xu hướng của tương lai, công nghệ điều khiển bằng
giọng nói hứa hẹn mang lại tiềm năng trong nhiều lĩnh vực, hỗ trợ thực hiện các
tác vụ nhanh chóng nhằm nâng cao trải nghiệm người dùng, từ đó giúp doanh
nghiệp tối ưu hóa chu trình, giảm thiểu chi phí và gia tăng lợi nhuận.
Cơ hội phát triển của nhận dạng giọng nói
- Theo thống kê, có đến 27% người sử dụng thao tác tìm kiếm bằng giọng nói
và hơn 111 triệu người Mỹ sử dụng các giải pháp bằng giọng nói. Thị trường
của công nghệ nhận dạng giọng nói sẽ có thể đạt tới 26,8 tỷ đô la trong năm
2025. Những con số thống kê này cho thấy được nhận dạng giọng nói chính là
một công nghệ vô cùng tiềm năng và có nhiều điều kiện để phát triển nhất là khi
nhu cầu sử dụng của người dùng được đánh giá là tương đối cao.

C. Kết luận

[13]

You might also like