Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 23

Nguyễn Tấn Hưng – 2174802010210 – Week3

Module 1 : Unit 1:
Unit 2:
Unit 3:
Unit 4:
Unit 5:
Module 2:

Unit 1:
Để kích hoạt loại tương tác này, hệ thống AI phải hỗ trợ hai khả năng:
- Nhận dạng giọng nói - khả năng phát hiện và giải thích đầu vào bằng giọng
nói.
- Tổng hợp giọng nói - khả năng tạo ra đầu ra nói.

Nhận dạng giọng nói liên quan đến việc lấy từ được nói và chuyển đổi nó thành
dữ liệu có thể được xử lý - thường bằng cách phiên âm nó thành một biểu diễn
văn bản. Các từ được nói có thể ở dạng giọng nói được ghi lại trong tệp âm thanh
hoặc âm thanh trực tiếp từ micrô. Các mẫu giọng nói được phân tích trong âm
thanh để xác định các mẫu có thể nhận biết được ánh xạ tới các từ. Để thực hiện
kỳ tích này, phần mềm thường sử dụng nhiều loại mô hình, bao gồm:
- Một mô hình âm thanh chuyển đổi tín hiệu âm thanh thành âm vị (đại diện
cho các âm thanh cụ thể).
- Một mô hình ngôn ngữ ánh xạ âm vị thành từ, thường sử dụng thuật toán
thống kê dự đoán chuỗi từ có thể xảy ra nhất dựa trên các âm vị.
Các từ được nhận dạng thường được chuyển đổi thành văn bản, bạn có thể sử
dụng cho các mục đích khác nhau, chẳng hạn như.
- Cung cấp phụ đề cho video đã quay hoặc video trực tiếp
- Tạo bản chép lại cuộc gọi điện thoại hoặc cuộc họp
- Đọc chính tả ghi chú tự động
- Xác định thông tin đầu vào dự kiến của người dùng để xử lý thêm
Tổng hợp giọng nói ở nhiều khía cạnh là mặt trái của nhận dạng giọng nói. Nó liên
quan đến dữ liệu phát âm, thường bằng cách chuyển đổi văn bản thành giọng nói.
Một giải pháp tổng hợp giọng nói thường yêu cầu các thông tin sau:
- Văn bản sẽ được nói.
- Giọng nói được sử dụng để phát âm bài phát biểu.
Bạn có thể sử dụng đầu ra của tổng hợp giọng nói cho nhiều mục đích, bao gồm:
- Tạo phản hồi bằng giọng nói cho đầu vào của người dùng.
- Tạo menu thoại cho hệ thống điện thoại.
- Đọc to email hoặc tin nhắn văn bản trong các tình huống rảnh tay.
- Phát thông báo tại các địa điểm công cộng, chẳng hạn như nhà ga hoặc sân
bay.
Unit 2:
Microsoft Azure cung cấp cả khả năng nhận dạng giọng nói và tổng hợp giọng nói
thông qua dịch vụ Nhận thức giọng nói, bao gồm các giao diện lập trình ứng dụng
(API) sau:
- API Chuyển giọng nói thành văn bản
- API Chuyển văn bản thành giọng nói
Để sử dụng dịch vụ Giọng nói trong một ứng dụng, bạn phải tạo một tài nguyên
thích hợp trong đăng ký Azure của mình. Bạn có thể chọn tạo một trong các loại
tài nguyên sau:
- Tài nguyên Giọng nói - chọn loại tài nguyên này nếu bạn chỉ định sử dụng
dịch vụ Giọng nói hoặc nếu bạn muốn quản lý quyền truy cập và thanh toán
cho tài nguyên tách biệt với các dịch vụ khác.
- Tài nguyên Dịch vụ nhận thức - chọn loại tài nguyên này nếu bạn định sử
dụng dịch vụ Giọng nói kết hợp với các dịch vụ nhận thức khác và bạn muốn
cùng nhau quản lý quyền truy nhập và thanh toán cho các dịch vụ này.
Bạn có thể sử dụng API chuyển giọng nói thành văn bản để thực hiện phiên âm
hàng loạt hoặc theo thời gian thực của âm thanh sang định dạng văn bản. Nguồn
âm thanh để phiên âm có thể là luồng âm thanh thời gian thực từ micrô hoặc tệp
âm thanh. Chuyển giọng nói thành văn bản theo thời gian thực cho phép bạn
phiên âm văn bản trong các luồng âm thanh. Bạn có thể sử dụng phiên âm thời
gian thực cho các bài thuyết trình, bản demo hoặc bất kỳ tình huống nào khác mà
một người đang nói.
Để phiên âm thời gian thực hoạt động, ứng dụng của bạn sẽ cần phải nghe âm
thanh đến từ micrô hoặc nguồn đầu vào âm thanh khác như tệp âm thanh. Mã
ứng dụng của bạn truyền âm thanh đến dịch vụ, trả về văn bản được phiên âm.
Phiên âm hàng loạt nên được chạy theo cách không đồng bộ vì các tác vụ hàng
loạt được lên lịch trên cơ sở nỗ lực cao nhất. Thông thường, một tác vụ sẽ bắt
đầu thực thi trong vòng vài phút kể từ khi yêu cầu nhưng không có ước tính về
thời điểm một tác vụ thay đổi thành trạng thái đang chạy. API chuyển văn bản
thành giọng nói cho phép bạn chuyển đổi đầu vào văn bản thành giọng nói có thể
nghe được, có thể phát trực tiếp qua loa máy tính hoặc được ghi vào tệp âm
thanh.
Khi bạn sử dụng API chuyển văn bản thành giọng nói, bạn có thể chỉ định giọng
nói sẽ được sử dụng để phát âm văn bản. Khả năng này cung cấp cho bạn sự linh
hoạt để cá nhân hóa giải pháp tổng hợp giọng nói của mình và cung cấp cho nó
một đặc điểm cụ thể.
Dịch vụ này bao gồm nhiều giọng nói được xác định trước với sự hỗ trợ cho nhiều
ngôn ngữ và phát âm theo vùng, bao gồm giọng nói tiêu chuẩn cũng như giọng
nói thần kinh tận dụng mạng nơ-ron để khắc phục những hạn chế phổ biến trong
tổng hợp giọng nói liên quan đến ngữ điệu, dẫn đến giọng nói tự nhiên hơn. Bạn
cũng có thể phát triển giọng nói tùy chỉnh và sử dụng chúng với API chuyển văn
bản thành giọng nói
Cả API chuyển giọng nói thành văn bản và chuyển văn bản thành giọng nói đều hỗ
trợ nhiều ngôn ngữ khác nhau. Sử dụng các liên kết bên dưới để tìm thông tin chi
tiết về các ngôn ngữ được hỗ trợ:
- Ngôn ngữ chuyển giọng nói thành văn bản.
- Ngôn ngữ chuyển văn bản thành giọng nói.
Unit 3:

Unit 4:
Unit 5:
Tóm lại: Nhận dạng giọng nói liên quan đến việc lấy từ được nói và chuyển đổi nó
thành một biểu diễn văn bản, trong khi tổng hợp giọng nói là quá trình chuyển đổi
dữ liệu văn bản thành giọng nói có thể nghe được. Cả hai nhiệm vụ này đều được
hỗ trợ bởi dịch vụ nhận thức Lời nói.
Bạn có thể tìm hiểu thêm về dịch vụ Giọng nói trong tài liệu dịch vụ.
Nếu bạn đã học xong, bạn có thể xóa nhóm nguồn lực hoặc các tài nguyên riêng lẻ
khỏi đăng ký Azure của mình:
- Trong cổng thông tin Azure, trong trang Nhóm nguồn lực, hãy mở
nhóm nguồn lực mà bạn đã chỉ định khi tạo tài nguyên của mình.
- Nhấp vào Xóa nhóm nguồn lực, nhập tên nhóm nguồn lực để xác nhận bạn
muốn xóa nhóm đó và chọn Xóa. Bạn cũng có thể chọn xóa các tài nguyên
riêng lẻ bằng cách chọn (các) tài nguyên, nhấp vào ba dấu chấm để xem các
tùy chọn khác và nhấp vào Xóa.
Module 3:
Unit 1:
Giới thiệu:
Khi các tổ chức và cá nhân ngày càng cần hợp tác với mọi người ở các nền văn hóa
và vị trí địa lý khác, việc loại bỏ rào cản ngôn ngữ đã trở thành một vấn đề quan
trọng.
Một giải pháp là tìm những người song ngữ, hoặc thậm chí đa ngôn ngữ, để dịch
giữa các ngôn ngữ. Tuy nhiên, sự khan hiếm của các kỹ năng như vậy và số lượng
các kết hợp ngôn ngữ có thể có thể làm cho cách tiếp cận này khó mở rộng quy
mô. Càng ngày, dịch tự động, đôi khi được gọi là dịch máy, đang được sử dụng để
giải quyết vấn đề này.
Dịch nghĩa đen và ngữ nghĩa:
Những nỗ lực ban đầu trong việc dịch máy áp dụng các bản dịch theo nghĩa đen.
Bản dịch theo nghĩa đen là nơi mỗi từ được dịch sang từ tương ứng trong ngôn
ngữ đích. Cách tiếp cận này trình bày một số vấn đề. Đối với một trường hợp, có
thể không có một từ tương đương trong ngôn ngữ đích. Một trường hợp khác là
khi dịch theo nghĩa đen có thể thay đổi ý nghĩa của cụm từ hoặc không làm cho
ngữ cảnh chính xác.
Các hệ thống trí tuệ nhân tạo phải có khả năng hiểu, không chỉ các từ, mà cả bối
cảnh ngữ nghĩa mà chúng được sử dụng. Bằng cách này, dịch vụ có thể trả về bản
dịch chính xác hơn của cụm từ hoặc cụm từ đầu vào. Các quy tắc ngữ pháp, chính
thức so với không chính thức và thông tục đều cần được xem xét.
Dịch văn bản và giọng nói:
Dịch văn bản có thể được sử dụng để dịch tài liệu từ ngôn ngữ này sang ngôn ngữ
khác, dịch thông tin liên lạc qua email đến từ các chính phủ nước ngoài và thậm
chí cung cấp khả năng dịch các trang web trên Internet. Nhiều khi bạn sẽ thấy tùy
chọn Dịch cho các bài đăng trên các trang mạng xã hội hoặc công cụ tìm kiếm Bing
có thể cung cấp dịch toàn bộ trang web được trả về trong kết quả tìm kiếm.
Dịch giọng nói được sử dụng để dịch giữa các ngôn ngữ nói, đôi khi trực tiếp (dịch
giọng nói thành giọng nói) và đôi khi bằng cách dịch sang định dạng văn bản trung
gian (dịch giọng nói thành văn bản).
Unit 2:
Microsoft Azure cung cấp các dịch vụ nhận thức hỗ trợ dịch thuật. Cụ thể, bạn có
thể sử dụng các dịch vụ sau:
- Dịch vụ Translator, hỗ trợ dịch văn bản thành văn bản.
- Dịch vụ Giọng nói, cho phép dịch giọng nói thành văn bản và chuyển giọng
nói thành giọng nói.
Tài nguyên Azure cho Trình dịch và Giọng nói:
Trước khi có thể sử dụng dịch vụ Trình dịch hoặc Giọng nói, bạn phải cung cấp tài
nguyên thích hợp trong đăng ký Azure của mình.
Có các loại tài nguyên Phiên dịch và Giọng nói chuyên dụng cho các dịch vụ này,
bạn có thể sử dụng loại tài nguyên này nếu muốn quản lý quyền truy cập và thanh
toán cho từng dịch vụ riêng lẻ.
Ngoài ra, bạn có thể tạo tài nguyên Dịch vụ nhận thức cung cấp quyền truy cập
vào cả hai dịch vụ thông qua một tài nguyên Azure duy nhất, hợp nhất thanh toán
và cho phép các ứng dụng truy cập cả hai dịch vụ thông qua một điểm cuối và
khóa xác thực duy nhất.
Dịch văn bản với dịch vụ Phiên dịch:
Dịch vụ Translator dễ dàng tích hợp trong các ứng dụng, trang web, công cụ và
giải pháp của bạn. Dịch vụ sử dụng mô hình Dịch máy thần kinh (NMT) để dịch,
phân tích ngữ cảnh ngữ nghĩa của văn bản và kết quả là hiển thị bản dịch chính
xác và đầy đủ hơn.
Hỗ trợ ngôn ngữ dịch vụ dịch thuật:
Khi sử dụng dịch vụ Trình dịch, bạn có thể chỉ định một từ ngôn ngữ với nhiều
ngôn ngữ, cho phép bạn dịch đồng thời một tài liệu nguồn sang nhiều ngôn ngữ.
Cấu hình tùy chọn:
API Translator cung cấp một số cấu hình tùy chọn để giúp bạn tinh chỉnh kết quả
được trả về, bao gồm:
- Lọc ngôn từ tục tĩu. Nếu không có bất kỳ cấu hình nào, dịch vụ sẽ dịch văn
bản đầu vào, không lọc ra ngôn từ tục tĩu. Mức độ ngôn từ tục tĩu thường
dành riêng cho văn hóa nhưng bạn có thể kiểm soát bản dịch thô tục bằng
cách đánh dấu văn bản đã dịch là tục tĩu hoặc bằng cách bỏ qua nó trong
kết quả.
- Dịch chọn lọc. Bạn có thể gắn thẻ nội dung để nội dung đó không bị dịch. Ví
dụ: bạn có thể muốn gắn thẻ mã, tên thương hiệu hoặc từ/cụm từ không
có ý nghĩa khi được bản địa hóa.
Dịch giọng nói với dịch vụ Giọng nói:
Dịch vụ Giọng nói bao gồm các giao diện lập trình ứng dụng (API) sau:
- Chuyển giọng nói thành văn bản - được sử dụng để chuyển lời nói từ nguồn
âm thanh sang định dạng văn bản.
- Chuyển văn bản thành giọng nói - được sử dụng để tạo âm thanh nói từ
nguồn văn bản.
- Dịch giọng nói - được sử dụng để dịch giọng nói bằng ngôn ngữ này sang
văn bản hoặc lời nói bằng ngôn ngữ khác.
Hỗ trợ ngôn ngữ dịch vụ giọng nói
Unit 3:

Unit 4:
Unit 5:
Tóm tắt:
Khả năng tự động dịch giữa các ngôn ngữ giúp loại bỏ các rào cản đối với sự hợp
tác xuyên ranh giới văn hóa và địa lý.
Các dịch vụ nhận thức về Trình dịch và Giọng nói trong Azure cung cấp trí thông
minh dựa trên đám mây để hỗ trợ dịch văn bản và giọng nói, cho phép một loạt
các tình huống để dịch theo thời gian thực và quy trình hàng loạt.
Đó là một ý tưởng hay khi kết thúc một dự án để xác định xem bạn có còn cần các
tài nguyên bạn đã tạo hay không. Tài nguyên còn lại chạy có thể khiến bạn mất
tiền.
Nếu bạn đang tiếp tục sử dụng các mô-đun khác trong lộ trình học tập này, bạn có
thể giữ lại tài nguyên của mình để sử dụng trong các phòng thí nghiệm khác.
Module 4:
Unit 1:
Giới thiệu
Trên Microsoft Azure, tính năng hiểu ngôn ngữ hội thoại được hỗ trợ thông
qua Dịch vụ Ngôn ngữ. Để làm việc với Hiểu ngôn ngữ đàm thoại, bạn cần tính
đến ba khái niệm cốt lõi: lời nói, thực thể và ý định.
Lời nói
Lời nói là một ví dụ về điều gì đó mà người dùng có thể nói và ứng dụng của bạn
phải diễn giải.
Thực thể
Một thực thể là một mục mà một lời nói đề cập đến.
Intents
Một ý định đại diện cho mục đích hoặc mục tiêu, được thể hiện trong lời nói của
người dùng. Ví dụ: đối với cả hai cách nói được xem xét trước đó, mục đích là bật
thiết bị; vì vậy trong ứng dụng Hiểu ngôn ngữ hội thoại của bạn, bạn có thể xác
định ý định TurnOn có liên quan đến những lời nói này.
Unit 2:
Bắt đầu với Hiểu ngôn ngữ hội thoại
Tài nguyên Azure cho Hiểu ngôn ngữ hội thoại
Authoring
Tạo ý định
Tạo thực thể
Đào tạo mô hình
Dự đoán
Unit 3:

Unit 4:
Unit 5:

Module 5:

Unit 1:
Giới thiệu
Chẳng hạn: Cuộc gọi thoại, Dịch vụ nhắn tin, Ứng dụng trò chuyện trực tuyến,
Email, Nền tảng truyền thông xã hội, Các công cụ cộng tác tại nơi làm việc. Chúng
tôi đã trở nên quá quen với kết nối phổ biến, đến nỗi chúng tôi hy vọng các tổ
chức mà chúng tôi giao dịch có thể dễ dàng liên hệ và phản hồi ngay lập tức thông
qua các kênh mà chúng tôi đã sử dụng. Trong thế giới kết nối ngày nay, mọi người
sử dụng nhiều công nghệ khác nhau để giao tiếp.
AI đàm thoại
Trong khi nhiều tổ chức xuất bản thông tin hỗ trợ và câu trả lời cho các câu hỏi
thường gặp (FAQ) có thể được truy cập thông qua trình duyệt web hoặc ứng dụng
chuyên dụng. Thông thường, các tổ chức này nhận thấy nhân viên hỗ trợ của họ
bị quá tải với các yêu cầu trợ giúp thông qua các cuộc gọi điện thoại, email, tin
nhắn văn bản, mạng xã hội và các kênh khác.
Unit 2:
Bắt đầu với dịch vụ Ngôn ngữ và Dịch vụ Azure Bot
Bạn có thể dễ dàng tạo giải pháp bot hỗ trợ người dùng trên Microsoft Azure
bằng cách sử dụng kết hợp hai dịch vụ cốt lõi:
- Dịch vụ ngôn ngữ. Dịch vụ Ngôn ngữ bao gồm tính năng trả lời câu hỏi tùy
chỉnh cho phép bạn tạo cơ sở kiến thức về các cặp câu hỏi và câu trả lời có
thể được truy vấn bằng cách sử dụng đầu vào ngôn ngữ tự nhiên.
- Dịch vụ Azure Bot. Dịch vụ này cung cấp một khuôn khổ để phát triển, xuất
bản và quản lý bot trên Azure.
Tạo cơ sở kiến thức trả lời câu hỏi tùy chỉnh
Thách thức đầu tiên trong việc tạo bot hỗ trợ người dùng là sử dụng dịch vụ Ngôn
ngữ để tạo cơ sở kiến thức. Bạn có thể sử dụng tính năng trả lời câu hỏi tùy chỉnh
của Language Studio để tạo, đào tạo, xuất bản và quản lý cơ sở kiến thức.
Cung cấp dịch vụ ngôn ngữ Tài nguyên Azure
Để tạo cơ sở kiến thức, trước tiên bạn phải cung cấp tài nguyên Dịch vụ ngôn
ngữ trong đăng ký Azure của mình.
Xác định câu hỏi và câu trả lời
Sau khi cung cấp tài nguyên dịch vụ Ngôn ngữ, bạn có thể sử dụng tính năng trả
lời câu hỏi tùy chỉnh của Language Studio để tạo cơ sở kiến thức bao gồm các cặp
câu hỏi và câu trả lời. Những câu hỏi và câu trả lời này có thể là:
- Được tạo từ một tài liệu hoặc trang web FAQ hiện có.
- Đã nhập và chỉnh sửa thủ công.
Kiểm tra cơ sở kiến thức
Sau khi tạo một tập hợp các cặp câu hỏi và trả lời, bạn phải lưu nó.
Sử dụng kho kiến thức
Khi bạn hài lòng với kho kiến thức của mình, hãy triển khai nó. Sau đó, bạn có thể
sử dụng nó trên giao diện REST của nó. Để truy cập cơ sở kiến thức, các ứng dụng
khách yêu cầu:
- ID cơ sở kiến thức
- Điểm cuối cơ sở tri thức
- Khóa ủy quyền cơ sở kiến thức
Xây dựng bot bằng Dịch vụ Azure Bot
Sau khi đã tạo và triển khai kho kiến thức, bạn có thể cung cấp kho kiến thức đó
cho người dùng thông qua bot.
Tạo bot cho kho kiến thức của bạn
Bạn có thể tạo bot tùy chỉnh bằng cách sử dụng Microsoft Bot Framework SDK để
viết mã kiểm soát luồng hội thoại và tích hợp với cơ sở kiến thức của bạn.
Mở rộng và cấu hình bot
Sau khi tạo bot, bạn có thể quản lý bot trong cổng thông tin Azure, nơi bạn có thể:
- Mở rộng chức năng của bot bằng cách thêm mã tùy chỉnh.
- Kiểm tra bot trong giao diện kiểm tra tương tác.
- Định cấu hình ghi nhật ký, phân tích và tích hợp với các dịch vụ khác.
Kết nối các kênh
Khi bot của bạn đã sẵn sàng để được phân phối cho người dùng, bạn có thể kết
nối nó với nhiều kênh; giúp người dùng có thể tương tác với nó thông qua trò
chuyện trên web, email, Microsoft Teams và các phương tiện liên lạc phổ biến
khác.
Unit 3:
Unit 4:

Unit 5:
Hoàn thành

You might also like