Nhóm5_NPL

TRƯỜNG ĐẠI HỌC PHENIKAA
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO MÔN HỌC

XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Tìm hiểu: Khám phá cách sử dụng mô hình Transformers cho nhận dạng tiếng nói
và so sánh với các phương pháp truyền thống
Giảng viên hướng dẫn: NGUYỄN VĂN SƠN

NGUYỄN NGỌC LĨNH
Sinh viên thực hiện: Lê Chí Hoàn (22010063)
Nguyễn Tiến Dự (22012277)
Phạm Văn Duy (22010068)
Nguyễn Văn Hiếu (22010103)
Trần Quốc Huy (22010241)
Khoá: K16 ( 2022 - 2026)

Ngành/ chuyên ngành: Công nghệ thông tin
Hà Nội, tháng 06 năm 2024

PHÂN CÔNG NHIỆM VỤ
Thành viên Nhiệm vụ Đánh giá
Vấn đề và bài toán cần
Lê Chí Hoàn 9
giải quyết
So sánh Transformer với
Trần Quốc Huy các phương pháp hiện 9
truyền thống
Tìm hiểu về các phương
Nguyễn Tiến Dự 9
pháp truyền thống
Tìm hiểu về Phương
Phạm Văn Duy pháp Transformers 9
Hoàn thiện bài báo cáo
Phân chia nhiệm vụ
Thực hiện phân tích
Nguyễn Văn Hiếu tổng hợp lại toàn bộ tài 9
liệu của các thành viên.
LỜI NÓI ĐẦU
Trong thời đại công nghệ số ngày càng phát triển, giao tiếp giữa con người và máy móc đã
trở thành một yếu tố không thể thiếu. Nhận diện giọng nói (Speech Recognition) là một trong
những công nghệ tiên tiến nhất, giúp hiện thực hóa giấc mơ về sự tương tác tự nhiên và hiệu quả
giữa con người và thiết bị thông minh. Từ trợ lý ảo như Siri, Google Assistant đến các hệ thống
dịch thuật tự động và hỗ trợ người khuyết tật, nhận diện giọng nói đang ngày càng khẳng định vai
trò quan trọng trong cuộc sống hàng ngày.
Tuy nhiên, việc xây dựng một hệ thống nhận diện giọng nói chính xác và hiệu quả vẫn là một
thách thức lớn. Các phương pháp truyền thống như Hidden Markov Model (HMM) và Gaussian
Mixture Model (GMM) đã đạt được một số thành tựu, nhưng còn nhiều hạn chế như độ chính xác
không cao trong môi trường có nhiều tiếng ồn, khả năng mở rộng kém và khó khăn trong việc
thích ứng với các ngữ cảnh mới.
Trong bối cảnh đó, mô hình Transformer, được giới thiệu lần đầu tiên trong lĩnh vực xử lý ngôn
ngữ tự nhiên (NLP) vào năm 2017 bởi Vaswani và cộng sự, đã mang lại một luồng gió mới. Với
khả năng xử lý song song và cơ chế Attention mạnh mẽ, Transformers đã chứng minh được hiệu
quả vượt trội trong nhiều ứng dụng khác nhau, bao gồm cả nhận diện giọng nói.
Bài viết này sẽ đi sâu vào việc khám phá ứng dụng của mô hình Transformers trong lĩnh vực nhận
diện giọng nói, trình bày các phương pháp chính như End-to-End Speech Recognition và Hybrid
Models, và làm sáng tỏ những lợi ích mà Transformers mang lại so với các phương pháp truyền
thống. Từ đó, chúng ta sẽ có cái nhìn toàn diện về tiềm năng và triển vọng của công nghệ này trong
việc nâng cao trải nghiệm người dùng và mở ra những cơ hội mới trong tương lai.
1
Mục Lục
VẤN ĐỀ VÀ BÀI TOÁN CẦN GIẢI QUYẾT ........................................................3
1.1. Đặt vấn đề ........................................................................................................3
1.2. Bài toán cần giải quyết.....................................................................................3
1.3. Mục tiêu ...........................................................................................................3
CÁC PHƯƠNG PHÁP KHẢ THI ĐỂ GIẢI BÀI TOÁN .........................................5
2.1. Hidden Markov Models (HMMs):...................................................................5
2.2. Dynamic Time Warping (DTW): .....................................................................5
2.3. Artificial Neural Networks (ANNs): ...............................................................5
2.4. Recurrent Neural Networks (RNNs): ..............................................................6
2.5. Convolutional Neural Networks (CNNs): .......................................................6
2.6. Transformer-Based Models (End to End): .......................................................6
PHƯƠNG PHÁP SỬ DỤNG MODEL TRANSFORMER .......................................7
3.1. Cấu trúc của Transformers ...............................................................................7
3.2. Ứng dụng trong Speech Recognition ...............................................................8
SO SÁNH VÀ ĐÁNH GIÁ HIỆU NĂNG ..............................................................10
TÀI LIỆU THAM KHẢO........................................................................................14
KẾT LUẬN ..............................................................................................................15
2
VẤN ĐỀ VÀ BÀI TOÁN CẦN GIẢI QUYẾT
1.1. Đặt vấn đề

Trong thời đại công nghệ 4.0, việc giao tiếp giữa con người và máy tính ngày càng trở nên
quan trọng và phổ biến. Một trong những phương thức giao tiếp tự nhiên nhất là thông qua giọng
nói. Công nghệ nhận diện giọng nói (Speech Recognition) đã phát triển mạnh mẽ trong những năm
qua và đang được ứng dụng rộng rãi trong nhiều lĩnh vực như trợ lý ảo, dịch thuật tự động, điều
khiển thiết bị thông minh, và hỗ trợ người khuyết tật. Tuy nhiên, việc xây dựng hệ thống nhận diện
giọng nói chính xác và hiệu quả vẫn còn nhiều thách thức.
1.2. Bài toán cần giải quyết

Các hệ thống nhận diện giọng nói truyền thống thường dựa trên mô hình Hidden Markov
Model (HMM) và Gaussian Mixture Model (GMM), kết hợp với các kỹ thuật như Mel-Frequency
Cepstral Coefficients (MFCC) để trích xuất đặc trưng giọng nói. Mặc dù các phương pháp này đã
đạt được một số thành tựu, chúng vẫn gặp nhiều hạn chế như:
− Độ chính xác không cao: Các mô hình truyền thống thường gặp khó khăn trong
việc xử lý các biến đổi ngữ âm, tạp âm môi trường, và các giọng nói khác nhau.
− Khả năng mở rộng kém: Khi tăng cường dữ liệu hoặc thêm ngôn ngữ mới, hệ thống
thường phải được huấn luyện lại từ đầu, tốn nhiều thời gian và tài nguyên.
− Khả năng thích ứng thấp: Các mô hình này khó thích ứng với các ngữ cảnh và tình
huống sử dụng khác nhau mà không cần sự can thiệp đáng kể.
Để giải quyết các hạn chế trên, mô hình Transformer, ban đầu được giới thiệu trong lĩnh
vực xử lý ngôn ngữ tự nhiên (NLP) bởi Vaswani và cộng sự năm 2017, đã được áp dụng và chứng
minh hiệu quả vượt trội trong nhiều ứng dụng khác nhau, bao gồm cả nhận diện giọng nói.
1.3. Mục tiêu

Bài toán chính đặt ra là xây dựng một hệ thống nhận diện giọng nói sử dụng mô hình
Transformer với các mục tiêu cụ thể như sau:
3
Cải thiện độ chính xác: Nâng cao khả năng nhận diện giọng nói chính xác hơn trong các
điều kiện khác nhau, bao gồm cả môi trường có nhiều tiếng ồn và giọng nói của nhiều người khác
nhau.
Khả năng mở rộng: Tạo ra một hệ thống dễ dàng mở rộng và thích ứng với các ngôn ngữ
và ngữ cảnh mới mà không cần phải huấn luyện lại toàn bộ mô hình.
Hiệu suất thời gian thực: Đảm bảo hệ thống hoạt động nhanh chóng và hiệu quả trong các
ứng dụng yêu cầu phản hồi thời gian thực, chẳng hạn như trợ lý ảo hoặc dịch vụ khách hàng.
Việc sử dụng Transformer trong nhận diện giọng nói hứa hẹn mang lại những cải tiến đáng
kể, giúp nâng cao trải nghiệm người dùng và mở ra nhiều ứng dụng mới trong tương lai.
4
CÁC PHƯƠNG PHÁP KHẢ THI ĐỂ GIẢI BÀI TOÁN
2.1. Hidden Markov Models (HMMs):

- Phương pháp: HMMs phân tách quá trình nhận dạng thành hai thành phần chính: một chuỗi
các trạng thái ẩn (hidden states) và một chuỗi các trạng thái quan sát (observed states). Các
trạng thái ẩn biểu thị các điều kiện âm thanh không quan sát được mà hệ thống cần dự
đoán. HMMs sử dụng ma trận chuyển đổi (transition matrix) để mô tả xác suất chuyển đổi
giữa các trạng thái ẩn và ma trận quan sát (observation matrix) để xác định xác suất quan
sát các trạng thái quan sát từ các trạng thái ẩn tương ứng.
- Ứng dụng: Trong nhận dạng giọng nói, HMMs được sử dụng để mô hình hóa quá trình
thay đổi của âm thanh theo thời gian và phân biệt các âm thanh khác nhau dựa trên xác suất
chuyển đổi giữa các trạng thái âm thanh.
2.2. Dynamic Time Warping (DTW):

- Phương pháp: DTW là một phương pháp so sánh mẫu không phụ thuộc vào tốc độ để so
sánh các chuỗi dữ liệu thay vì đơn giản là tính khoảng cách Euclidean giữa các điểm dữ
liệu. Nó cho phép đo lường sự tương đồng giữa hai chuỗi thời gian bằng cách tối ưu hóa
phép gán các điểm trong các chuỗi một cách tối ưu.
- Ứng dụng: DTW đã được áp dụng để so sánh và phân loại các mẫu giọng nói dựa trên sự
tương đồng thời gian giữa chúng, giúp trong việc nhận diện và phân biệt các mẫu âm thanh
có sự biến đổi về tốc độ hoặc nhịp điệu.
2.3. Artificial Neural Networks (ANNs):

- Phương pháp: ANN là một mạng nơ-ron nhân tạo gồm các nơ-ron kết nối và có thể học từ
dữ liệu. Các mô hình này có thể bao gồm từ mạng nơ-ron tiếp thị (feedforward neural
networks) đơn giản đến các kiến trúc phức tạp hơn như mạng nơ-ron hồi quy (recurrent
neural networks) để xử lý dữ liệu chuỗi.
- Ứng dụng: Trong nhận dạng giọng nói, ANN thường được sử dụng để học từ các đặc trưng
âm thanh để cải thiện khả năng phân loại và nhận dạng các mẫu giọng nói, thường được
kết hợp với các kỹ thuật khác như HMMs để cải thiện hiệu suất.
5
2.4. Recurrent Neural Networks (RNNs):
- Phương pháp: RNN là một loại mạng nơ-ron có khả năng xử lý dữ liệu chuỗi bằng cách
lưu trữ trạng thái trước đó. LSTM là một biến thể của RNN có khả năng giải quyết vấn đề
mất mát dài hạn (long-term dependencies) bằng cách sử dụng các cổng (gates) để điều
chỉnh thông tin được lưu trữ.
- Ứng dụng: RNN và LSTM đã được sử dụng để mô hình hóa các mối quan hệ phức tạp
trong dữ liệu giọng nói, đặc biệt là trong việc nhận dạng các từ và câu nói dựa trên thông
tin liên tục từ các mẫu giọng nói.
2.5. Convolutional Neural Networks (CNNs):

- Phương pháp: CNN là một mạng nơ-ron nhân tạo chủ yếu được sử dụng cho phân tích hình
ảnh bằng cách áp dụng các bộ lọc tích chập để trích xuất đặc trưng cục bộ từ dữ liệu không
gian. Trong ngữ cảnh nhận dạng giọng nói, CNNs thường được áp dụng trực tiếp vào các
biểu đồ phổ âm thanh (spectrogram) để trích xuất đặc trưng.
- Ứng dụng: CNNs đã được sử dụng để cải thiện khả năng phân tích và nhận dạng các đặc
trưng từ tín hiệu âm thanh, đặc biệt là trong việc trích xuất thông tin từ các biểu đồ phổ âm
thanh để cải thiện hiệu suất của hệ thống nhận dạng giọng nói.
2.6. Transformer-Based Models (End to End):

- Phương pháp: Các mô hình dựa trên transformer như Transformer, Conformer, hoặc các
biến thể như Transformer Transducer (Transducer) đã thay đổi cách thức xử lý và nhận
dạng giọng nói bằng cách sử dụng self-attention và các lớp feedforward để trực tiếp mã
hóa và giải mã các tín hiệu âm thanh.
- Ứng dụng: Các mô hình transformer thường cho hiệu suất nhận dạng cao hơn so với các
mô hình trước đó, nhờ khả năng xử lý ngữ cảnh rộng rãi và tính toán song song hiệu quả,
giúp cải thiện tỷ lệ lỗi và tăng tốc quá trình nhận dạng giọng nói.
6
PHƯƠNG PHÁP SỬ DỤNG MODEL TRANSFORMER
Transformers là một loại mô hình học sâu được giới thiệu bởi Vaswani và cộng sự vào năm
2017, chủ yếu được sử dụng trong các nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP). Khác với các mô
hình truyền thống như Recurrent Neural Networks (RNNs) và Long Short-Term Memory (LSTM),
Transformers dựa trên cơ chế Attention, giúp chúng xử lý dữ liệu một cách song song thay vì tuần
tự.
3.1. Cấu trúc của Transformers

a. Mô hình Transformer gồm hai phần chính: Encoder và Decoder.
- Encoder:
• Bao gồm một số lớp (layers) Encoder giống nhau.
• Mỗi lớp Encoder bao gồm hai thành phần chính: Multi-Head Self-Attention
Mechanism: Giúp mô hình tập trung vào các phần khác nhau của chuỗi đầu vào
(input sequence). Feed-Forward Neural Network: Một mạng nơ-ron đơn giản áp
dụng cho từng vị trí của chuỗi.
- Decoder:
• Cũng bao gồm một số lớp Decoder giống nhau.
• Mỗi lớp Decoder bao gồm ba thành phần chính: Masked Multi-Head Self-Attention
Mechanism: Tương tự như trong Encoder nhưng có thêm mặt nạ (mask) để ngăn
không cho mô hình nhìn thấy các phần tử tương lai trong chuỗi đầu ra (output
sequence). Multi-Head Attention: Giúp mô hình tập trung vào các phần khác nhau
của chuỗi đầu vào (output of Encoder). Feed-Forward Neural Network: Như trong
Encoder.
b. Cơ chế Attention
Attention là một cơ chế giúp mô hình Transformer tập trung vào các phần quan trọng của
chuỗi đầu vào. Điều này giúp giải quyết các vấn đề như:
- Long-Range Dependencies: Khả năng nắm bắt mối quan hệ giữa các từ hoặc ký tự cách xa
nhau trong chuỗi.
7
- Parallel Processing: Khả năng xử lý dữ liệu song song, tăng hiệu suất và tốc độ huấn luyện
mô hình.
Cơ chế Attention được tính toán qua ba ma trận: Query (Q), Key (K), và Value (V). Các
ma trận này giúp xác định trọng số của từng phần tử trong chuỗi đầu vào.
3.2. Ứng dụng trong Speech Recognition

Trong nhận diện giọng nói, Transformers có thể được áp dụng theo hai cách chính:
3.2.1. End-to-End Speech Recognition
Trong cách tiếp cận này, mục tiêu là xây dựng một mô hình nhận diện giọng nói
hoàn chỉnh từ đầu vào là chuỗi âm thanh và đầu ra là văn bản mà không cần phải phân chia
thành các bước nhỏ như trích xuất đặc trưng hay mô hình hóa ngôn ngữ riêng biệt.
Quy trình:
- Trích xuất đặc trưng từ chuỗi âm thanh: Sử dụng các kỹ thuật như Mel-Frequency
Cepstral Coefficients (MFCC), Mel-spectrogram, hoặc sử dụng các lớp
Convolutional Neural Networks (CNNs) để trích xuất các đặc trưng từ dữ liệu âm
thanh thô.
- Encoder của Transformer:
• Chuỗi đặc trưng âm thanh sau khi được trích xuất sẽ được đưa vào phần
Encoder của mô hình Transformer.
• Encoder sẽ chuyển đổi chuỗi đặc trưng này thành các biểu diễn
(representations) cấp cao hơn.
- Decoder của Transformer:
• Phần Decoder sẽ nhận đầu vào là các biểu diễn từ Encoder và tạo ra chuỗi
văn bản tương ứng.
• Trong quá trình huấn luyện, đầu ra của mô hình sẽ được so sánh với chuỗi
văn bản thực tế để tính toán lỗi và điều chỉnh trọng số của mô hình.
3.2.2. Hybrid Models

Trong cách tiếp cận này, Transformers được kết hợp với các mô hình khác để tận
dụng các ưu điểm của từng loại mô hình, giúp cải thiện hiệu suất và độ chính xác của hệ
thống nhận diện giọng nói.
8
Quy trình:
- Trích xuất đặc trưng âm thanh bằng CNNs:
• Dữ liệu âm thanh thô được đưa qua các lớp CNNs để trích xuất các đặc
trưng không gian và thời gian.
• Các đặc trưng này có thể là Mel-spectrograms hoặc các đặc trưng cấp cao
hơn.
- Transformer Encoder:
• Các đặc trưng trích xuất từ CNNs sẽ được đưa vào phần Encoder của
Transformer.
• Encoder sẽ chuyển đổi các đặc trưng này thành các biểu diễn cấp cao hơn.
- Language Modeling bằng Transformer Decoder:
• Phần Decoder của Transformer sẽ nhận các biểu diễn từ Encoder và thực
hiện mô hình hóa ngôn ngữ để dự đoán các từ hoặc ký tự trong chuỗi văn
bản.
• Quá trình này giúp mô hình hiểu ngữ cảnh và ngữ pháp, cải thiện độ chính
xác của nhận diện giọng nói.
9
SO SÁNH VÀ ĐÁNH GIÁ HIỆU NĂNG
Dưới đây là bảng so sánh phương pháp Transformers với các phương pháp truyền thống
cụ thể là các phương pháp HMM (Hidden Markov Model), RNN (Recurrent Neural Networks),
DNN (Deep Neural Networks), và CNN (Convolutional Neural Networks).
Tiêu Chí Sử dụng Transformers Các phương pháp truyền thống
Độ phức tạp Transformers: Thường có nhiều tham HMM: Có thể dễ dàng cài đặt với số
số hơn so với các mô hình truyền lượng tham số thấp hơn, tài nguyên
thống, có thể yêu cầu tài nguyên tính tính toán thấp hơn so với các mô
toán và bộ nhớ lớn hơn. hình học sâu.
RNN, DNN, CNN: Độ phức tạp
thay đổi tùy thuộc vào cấu trúc
mạng, tuy nhiên thường không quá
phức tạp so với Transformers.
Khả năng xử Transformers: Thường có khả năng xử HMM: Thường phù hợp với các bài
lý dữ liệu lý dữ liệu tốt trong các bối cảnh mà dữ toán có tính chất chuỗi, dễ xử lý dữ
liệu đầu vào có tính tương tác cao và liệu nhưng có thể hạn chế trong việc
cấu trúc phức tạp, như nhận dạng mô hình hóa sự phức tạp của dữ
giọng nói. Cơ chế chú ý đa đầu và lớp liệu.
tự chuẩn hóa giúp cải thiện khả năng RNN, DNN, CNN: Có khả năng xử
này. lý dữ liệu tốt nhưng cần thiết kế cẩn
thận để đảm bảo hiệu quả về mặt
tính toán và xử lý dữ liệu đầu vào.
Khả năng học Transformers: Học được cấu trúc HMM: Phụ thuộc nhiều vào các giả
phức tạp của ngữ âm và mối quan hệ định về quá trình phát sinh của dữ
giữa các âm thanh, có khả năng học
10
tổng quát hơn và hiệu quả hơn so với liệu, hạn chế trong việc mô hình hóa
các mô hình truyền thống. sự phức tạp của dữ liệu giọng nói.
RNN, DNN, CNN: Có khả năng
học các đặc trưng từ dữ liệu, tuy
nhiên, có thể gặp hạn chế trong việc
mô hình hóa các mối quan hệ phức
tạp trong ngữ âm so với
Transformers.
Độ chính xác Có khả năng học cấu trúc phức tạp HMM: Dễ bị hạn chế bởi mô hình
của ngữ âm và mối quan hệ giữa các phân phối xác suất đơn giản hơn, có
âm thanh, cung cấp độ chính xác cao thể dẫn đến độ chính xác thấp hơn
trong nhận dạng giọng nói. so với các mô hình học sâu.
RNN, DNN, CNN: Có khả năng

học các đặc trưng ẩn sâu từ dữ liệu,
tuy nhiên, khả năng tổng quát hóa
và độ chính xác phụ thuộc nhiều
vào cấu trúc mạng và việc xử lý dữ
liệu.
Tốc độ xử lý Transformers: Thường có thể xử lý HMM: Thường có tốc độ xử lý

đầu vào dưới dạng chuỗi dài hơn mà nhanh với các phép tính thống kê
không gặp vấn đề về chiều dài cố đơn giản.
định, có thể phù hợp với nhận dạng RNN, DNN, CNN: Có thể cần thiết
giọng nói liên tục. kế cẩn thận để đảm bảo tối ưu hóa
tốc độ tính toán, có thể gặp khó
khăn khi xử lý dữ liệu đầu vào dài.
11
Khả năng Transformers: Thường có khả năng HMM: Có thể gặp khó khăn trong
tổng quát hóa tổng quát hóa tốt hơn nhờ vào khả việc tổng quát hóa do giới hạn của
năng học các đặc trưng phức tạp từ dữ mô hình phân phối xác suất đơn
liệu lớn, có thể áp dụng được cho giản, yêu cầu điều chỉnh đặc biệt
nhiều loại dữ liệu giọng nói khác nhau cho từng bộ dữ liệu cụ thể.
mà không cần phải điều chỉnh nhiều. RNN, DNN, CNN: Tùy thuộc vào
thiết kế và cấu hình mạng, có thể có
khả năng tổng quát hóa khác nhau,
thường cần thực hiện điều chỉnh và
fine-tune mô hình cho từng ứng
dụng cụ thể.
Khả năng mở Transformers: Có thể gặp thách thức HMM: Thường có thể triển khai dễ
rộng và triển khi triển khai trên các thiết bị có tài dàng trên các thiết bị có tài nguyên
khai nguyên hạn chế do yêu cầu tính toán hạn chế do tính đơn giản và yêu cầu
và bộ nhớ cao. Tuy nhiên, các biến thể tính toán thấp.
như Transformer Lite hay các phương RNN, DNN, CNN: Cần phải thiết
pháp tối ưu hóa như Distillation giúp kế lại mạng và tối ưu hóa để phù
giảm bớt tài nguyên. hợp với yêu cầu triển khai trên các
thiết bị nhúng và có tài nguyên hạn
chế.
Trong lĩnh vực nhận dạng giọng nói, sử dụng Transformers đã mang lại nhiều cải tiến so
với các phương pháp truyền thống như HMM, RNN, DNN và CNN. Đây là một số điểm đáng
chú ý khi đánh giá hiệu năng của Transformers trong ứng dụng nhận dạng giọng nói:
- Xử lý dữ liệu tuần tự hiệu quả hơn: Transformers được thiết kế để xử lý dữ liệu tuần tự,
như âm thanh trong nhận dạng giọng nói, một cách hiệu quả hơn các mạng neural truyền
thống như RNN, DNN hay CNN. Điều này đặc biệt quan trọng vì giọng nói là một chuỗi
dữ liệu liên tục và phức tạp.
- Khả năng học biểu diễn tốt hơn: Transformers có khả năng học biểu diễn phong phú của
dữ liệu âm thanh, giúp cải thiện khả năng nhận dạng so với HMM (Hidden Markov
12
Models) và các mô hình DNN (Deep Neural Networks) trước đây. Điều này có thể dẫn
đến việc nhận dạng giọng nói chính xác hơn.
- Khả năng tổng hợp thông tin toàn cục: Transformers có khả năng tổng hợp thông tin toàn
cục từ toàn bộ chuỗi đầu vào, trong khi các mô hình như RNN phụ thuộc nhiều vào thông
tin lịch sử. Điều này giúp cho Transformers có thể hiểu bối cảnh rộng hơn và có thể dẫn
đến kết quả nhận dạng tốt hơn.
- Độ phức tạp tính toán và huấn luyện: Tuy nhiên, việc sử dụng Transformers cũng có thể
đòi hỏi nhiều tài nguyên tính toán hơn trong quá trình huấn luyện và dự đoán so với các
phương pháp truyền thống như HMM, do đó cần phải xem xét về mặt hiệu năng tính
toán.
Transformers đã chứng minh được khả năng cải thiện hiệu quả trong nhận dạng giọng nói
so với các phương pháp cũ như HMM, RNN, DNN và CNN, đặc biệt là trong việc xử lý dữ liệu
tuần tự phức tạp và tổng hợp thông tin toàn cục. Tuy nhiên, việc áp dụng cần phải cân nhắc đến
yếu tố tính toán và tài nguyên hệ thống.
13
TÀI LIỆU THAM KHẢO
- Transformers in Speech Processing: A Survey: https://arxiv.org/abs/2303.11607

- A study of transformer-based end-to-end speech recognition:
https://scholar.google.com.vn/scholar?q=transformers+for+speech+recognition&hl=vi&a
s_sdt=0&as_vis=1&oi=scholart
- Speech Recognition: https://youtube.com
- Các bài viết liên quan:
• Models HMM, RNN
• Processing Wav2Vec, SpecAugment
14
KẾT LUẬN
Ứng dụng mô hình Transformers trong nhận diện giọng nói đã và đang mang lại những
đột phá quan trọng, hứa hẹn thay đổi cách chúng ta tương tác với công nghệ và máy móc. Với
cơ chế Attention và khả năng xử lý dữ liệu song song, Transformers đã vượt qua những hạn
chế của các mô hình truyền thống như Recurrent Neural Networks (RNNs) và Long Short-
Term Memory (LSTM), mang đến hiệu quả cao hơn và khả năng mở rộng tốt hơn.
Nhận diện giọng nói là một lĩnh vực có tính ứng dụng rất cao, đóng vai trò quan trọng
trong nhiều khía cạnh của cuộc sống hiện đại như:
− Trợ lý ảo thông minh: Các ứng dụng như Siri, Google Assistant, và Alexa ngày
càng trở nên phổ biến và hữu ích nhờ vào khả năng nhận diện và hiểu giọng nói
người dùng một cách chính xác.
− Dịch thuật tự động: Công nghệ nhận diện giọng nói kết hợp với dịch thuật máy
giúp phá bỏ rào cản ngôn ngữ, hỗ trợ giao tiếp toàn cầu.
− Hỗ trợ người khuyết tật: Các hệ thống nhận diện giọng nói giúp người khiếm
thị và người khiếm thính tương tác với công nghệ và môi trường xung quanh
một cách dễ dàng hơn.
Transformers vượt trội so với các mô hình truyền thống nhờ vào một số ưu điểm chính:
− Độ chính xác cao: Nhờ cơ chế Attention, Transformers có khả năng nắm bắt các
mối quan hệ dài hạn trong dữ liệu, giúp nhận diện chính xác hơn trong các điều
kiện phức tạp như môi trường có nhiều tiếng ồn hoặc giọng nói đa dạng.
− Khả năng mở rộng: Transformers dễ dàng mở rộng để áp dụng cho nhiều ngôn
ngữ và ngữ cảnh khác nhau mà không cần huấn luyện lại toàn bộ mô hình.
− Hiệu suất cao: Khả năng xử lý song song của Transformers giúp tăng tốc độ
huấn luyện và triển khai mô hình, đáp ứng được yêu cầu của các ứng dụng thời
gian thực.
Hai phương pháp chính trong ứng dụng Transformers

1. End-to-End Speech Recognition:
− Phương pháp này tích hợp toàn bộ quy trình từ đầu vào là chuỗi âm thanh đến
đầu ra là văn bản vào một mô hình Transformer duy nhất. Điều này giúp đơn
giản hóa quy trình và tối ưu hóa toàn bộ quá trình nhận diện giọng nói.
15
− Nhờ khả năng học từ dữ liệu một cách toàn diện, mô hình có thể tự động tối ưu
hóa các bước từ trích xuất đặc trưng đến mô hình hóa ngôn ngữ, mang lại độ
chính xác và hiệu suất cao hơn.
2. Hybrid Models:
− Phương pháp kết hợp này sử dụng các lớp Convolutional Neural Networks
(CNNs) để trích xuất đặc trưng từ dữ liệu âm thanh, sau đó sử dụng
Transformer để xử lý và mô hình hóa ngôn ngữ.
− Việc kết hợp này giúp tận dụng ưu điểm của từng loại mô hình, cải thiện khả
năng trích xuất đặc trưng và mô hình hóa ngôn ngữ, đảm bảo hệ thống hoạt
động hiệu quả trong nhiều điều kiện khác nhau.
Hướng tới tương lai: Việc áp dụng Transformers trong nhận diện giọng nói không chỉ
dừng lại ở các ứng dụng hiện có mà còn mở ra nhiều cơ hội mới. Các nhà nghiên cứu và phát
triển đang tiếp tục khám phá và tối ưu hóa các mô hình này, nhằm mang lại những cải tiến vượt
bậc cho công nghệ nhận diện giọng nói. Những nỗ lực này sẽ góp phần vào sự phát triển của
các ứng dụng AI tiên tiến, từ đó mang lại lợi ích cho xã hội và nâng cao chất lượng cuộc sống
của con người. Trong tương lai, chúng ta có thể mong đợi những hệ thống nhận diện giọng nói
ngày càng chính xác, nhanh chóng và hiệu quả hơn, phục vụ đa dạng nhu cầu của người dùng
trong mọi lĩnh vực.
16
TRƯỜNG ĐẠI HỌC PHENIKAA
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO BÀI TẬP LỚN MÔN HỌC

XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Xây dựng chatbot cho sổ tay sinh viên
Giảng viên hướng dẫn: NGUYỄN VĂN SƠN

NGUYỄN NGỌC LĨNH
Sinh viên thực hiện: Lê Chí Hoàn (22010063)
Nguyễn Tiến Dự (22012277)
Phạm Văn Duy (22010068)
Nguyễn Văn Hiếu (22010103)
Trần Quốc Huy (22010241)
Khoá: K16 ( 2022 - 2026)

Ngành/ chuyên ngành: Công nghệ thông tin
Hà Nội, 30 tháng 06 năm 2024

PHÂN CHIA NHIỆM VỤ
Thành viên Nhiệm vụ Đánh giá
Vấn đề và bài toán cần
Lê Chí Hoàn 9
giải quyết
Các phương pháp có thể
Trần Quốc Huy 9
sử dụng
Tìm hiểu về Generative
Nguyễn Tiến Dự 9
chatbot
Tìm hiểu về Retrieval-
Phạm Văn Duy Based chatbot 9
Phân chia nhiệm vụ
Thực hiện phân tích
Nguyễn Văn Hiếu tổng hợp lại toàn bộ tài 9
liệu của các thành viên.
1
MỤC LỤC
LỜI NÓI ĐẦU .......................................................................................................................... 3

VẤN ĐỀ VÀ BÀI TOÁN CẦN GIẢI QUYẾT ...................................................................... 4
CÁC PHƯƠNG PHÁP CÓ THỂ SỬ DỤNG ......................................................................... 6
1. Mô hình Retrieval-Based ................................................................................................ 6
1. Mô hình Generative ........................................................................................................ 6
1. Kết hợp mô hình (Hybrid Approach) .............................................................................. 7
PHƯƠNG PHÁP KẾT HỢP MÔ HÌNH (HYBRID APPROACH)..................................... 8
1. 1. Xác Định Mục Tiêu và Yêu Cầu ................................................................................. 8
2. 2. Thiết Kế Kiến Trúc Chatbot ...................................................................................... 10
3. 3. Đào tạo và phát triển Chatbot ................................................................................... 13
THỰC NGHIỆM ĐÁNH GIÁ HIỆU NĂNG, KẾT QUẢ ĐẠT ĐƯỢC ........................... 17
1. Thực nghiệm ................................................................................................................. 17
2. Đánh Giá ....................................................................................................................... 17
3. Tối Ưu và Nâng Cấp ..................................................................................................... 18
4. Bảo Trì và Duy Trì ........................................................................................................ 18
5. Mở Rộng và Cải Tiến .................................................................................................... 19
KẾT LUẬN ............................................................................................................................. 20
TÀI LIỆU THAM KHẢO ..................................................................................................... 21
2
LỜI NÓI ĐẦU
Trong thời đại công nghệ số phát triển vượt bậc, trí tuệ nhân tạo (AI) và các ứng dụng
của nó đang dần trở thành một phần không thể thiếu trong nhiều lĩnh vực, bao gồm cả giáo dục.
Một trong những ứng dụng nổi bật của AI là xử lý ngôn ngữ tự nhiên (NLP - Natural Language
Processing), một ngành khoa học nghiên cứu cách máy tính có thể hiểu, diễn giải và đáp ứng
các lệnh ngôn ngữ của con người.
NLP không chỉ giúp máy tính hiểu được ngôn ngữ tự nhiên mà còn cho phép tạo ra các
hệ thống thông minh có khả năng giao tiếp và tương tác với con người một cách tự nhiên và
hiệu quả. Trong bối cảnh đó, việc xây dựng một chatbot hỗ trợ sinh viên mới nhập học dựa trên
các kỹ thuật NLP trở nên vô cùng tiềm năng và hữu ích.
Sinh viên mới nhập học thường đối mặt với nhiều thách thức khi làm quen với môi trường
học tập mới. Từ việc tìm hiểu các quy định của trường, nắm bắt thông tin về các khóa học, đến
việc tham gia các hoạt động ngoại khóa và hòa nhập vào cộng đồng sinh viên, tất cả đều là
những vấn đề mà họ phải giải quyết. Một chatbot thông minh có khả năng hỗ trợ trả lời các câu
hỏi và cung cấp thông tin chính xác sẽ là một công cụ đắc lực, giúp sinh viên nhanh chóng hòa
nhập và tận dụng tối đa thời gian học tập của mình.
Với mục tiêu đó, nhóm chúng tôi đã nghiên cứu và phát triển một chatbot hỗ trợ sinh
viên mới nhập học, sử dụng kết hợp giữa hai phương pháp nổi bật trong NLP: mô hình truy
xuất thông tin (Retrieval-Based) và mô hình tạo sinh (Generative). Trong báo cáo này, chúng
tôi sẽ trình bày chi tiết về bài toán cần giải quyết, các phương pháp tiếp cận, phương pháp mà
nhóm sử dụng, quá trình thực nghiệm đánh giá hiệu năng và những kết quả đạt được. Qua đó,
chúng tôi hy vọng có thể đóng góp một phần vào việc cải thiện trải nghiệm học tập và sinh hoạt
của sinh viên trong những ngày đầu tại trường
3
VẤN ĐỀ VÀ BÀI TOÁN CẦN GIẢI QUYẾT
Sinh viên mới nhập học luôn phải đối mặt với một loạt các thách thức trong những ngày đầu
tiên tại trường đại học Phenikaa. Những thách thức này bao gồm việc làm quen với môi trường
học tập mới, hiểu rõ quy định của trường, nắm bắt thông tin về các khóa học, tham gia các hoạt
động ngoại khóa, và hòa nhập với môi trường sinh đại học. Quá trình này có thể gây ra khó khăn
và tốn nhiều thời gian để tìm hiểu, ảnh hưởng đến trải nghiệm học tập và cuộc sống của sinh viên
trong trường.
Những khó khăn mà sinh viên trường Đại học Phenikaa mới nhập học thường gặp phải:
− Thiếu thông tin chính xác và kịp thời: Việc này thường xuyên xảy ra, một phần do sinh
viên mới chưa biết cách chủ động tiếp nhận thông tin, vẫn còn thói quen thông báo trực
tiếp từ các giáo viên bộ môn, chưa có thói quen kiểm tra email, trang quản lý đào tạo.
Phần nhiều do việc nhà trường có quá nhiều nguồn thông tin (trang qldt, trang canvas,
email từ tài khoản nhà trường cung cấp, .v.v…) gây khó khăn và khiến sinh viên rất tốn
kém về mặt thời gian để tìm hiểu đôi khi là khó khăn trong việc tìm nguồn thông tin
chính xác (như muốn xem lịch học phải truy cập trang qldt, muốn xem trang bài tập, tải
tài liệu phải vào trang canvas, …).
− Khó khăn trong việc làm quen với môi trường mới: Không giống như cấp 3, ở bậc đại
học, sinh viên phải tự sắp xếp môn học, tự lựa chọn môn học hợp lý cho bản thân. Mặc
dù, hiện nay, trường đại học Phenikaa hỗ trợ sinh viên bằng cách đưa ra lộ trình học tập
cho sinh viên, đưa ra các gợi ý môn học nên học ở kỳ này hoặc kỳ sau. Tuy nhiên, đó
vẫn là lộ trình chung và không thể thay đổi theo từng sinh viên được
− Thiếu nhân sự hỗ trợ cá nhân hóa cho từng sinh viên: Không thể bố trí nhân sự hỗ trợ
cho từng sinh viên được. Điều này là bất khả thi! Có quá nhiều sinh viên cần được hỗ
trợ, mà việc trả lời trực tiếp các câu hỏi của sinh viên thì không thể thực hiện được nên
đôi khi giáo viên hướng dẫn chỉ hướng dẫn sinh viên cách tìm câu trả lời. Đôi khi việc
này bị phức tạp hoá nếu câu hỏi của sinh viên bao gôm quá nhiều ý và phải tìm ở rất
nhiều nguồn tài liệu chính thức khác nhau.
Bài toán cần giải quyết: Làm thế nào để cung cấp một hệ thống hỗ trợ tự động, hiệu quả và
cá nhân hóa cho sinh viên mới nhập học, giúp họ nhanh chóng làm quen với môi trường học tập
4
mới, nắm bắt thông tin cần thiết và giải quyết các thắc mắc một cách nhanh chóng và chính xác?
Một giải pháp tiềm năng cho bài toán này là xây dựng một chatbot thông minh, có khả năng giao
tiếp tự nhiên với sinh viên, cung cấp thông tin cần thiết và giải đáp các câu hỏi một cách nhanh
chóng và chính xác.
Mục tiêu của chatbot hỗ trợ sinh viên:
Cung cấp thông tin chính xác và kịp thời: Chatbot sẽ cung cấp thông tin về thời gian và địa
điểm của các lớp học, các quy định của trường, lịch thi, các hoạt động ngoại khóa và các dịch vụ
hỗ trợ như thư viện, nhà ăn, ký túc xá, v.v.
Hỗ trợ cá nhân hóa: Chatbot sẽ cung cấp hỗ trợ cá nhân hóa dựa trên nhu cầu và thắc mắc
cụ thể của từng sinh viên.
Giảm áp lực cho sinh viên: Bằng cách cung cấp thông tin chính xác và kịp thời, chatbot sẽ
giúp giảm bớt áp lực và lo lắng cho sinh viên, giúp họ tập trung vào học tập và tham gia các hoạt
động xã hội một cách hiệu quả hơn.
Tiết kiệm tài nguyên và nhân lực cho nhà trường: Chatbot sẽ giúp giảm tải công việc cho
các nhân viên hỗ trợ sinh viên, cho phép họ tập trung vào các nhiệm vụ quan trọng khác.
5
CÁC PHƯƠNG PHÁP CÓ THỂ SỬ DỤNG
Mô hình Retrieval-Based
Mô tả:
Mô hình Retrieval-Based (dựa trên truy xuất thông tin) hoạt động bằng cách tìm
kiếm câu trả lời từ một kho dữ liệu có sẵn. Khi nhận được một câu hỏi từ người
dùng, mô hình này sẽ sử dụng các kỹ thuật truy xuất thông tin để so khớp câu
hỏi với các câu hỏi và câu trả lời trong kho dữ liệu, sau đó trả lời dựa trên câu
trả lời tương tự đã được lưu trữ.
Kỹ thuật áp dụng:
TF-IDF (Term Frequency-Inverse Document Frequency): Đây là một kỹ thuật phổ
biến trong truy xuất thông tin, tính toán mức độ quan trọng của từ trong một tài
liệu dựa trên tần suất xuất hiện của từ trong tài liệu đó và tần suất xuất hiện của
từ trong toàn bộ tập dữ liệu.
BM25: Một biến thể nâng cao của TF-IDF, BM25 là một thuật toán xếp hạng phổ
biến được sử dụng trong hệ thống tìm kiếm văn bản, cải thiện độ chính xác của
việc truy xuất thông tin.
Mô hình nhúng từ (Word Embedding): Sử dụng các kỹ thuật như Word2Vec,
GloVe, hoặc BERT để biểu diễn câu hỏi và câu trả lời dưới dạng vector từ. Sau
đó, tính toán sự tương đồng giữa các vector này để tìm kiếm câu trả lời phù hợp.
Mô hình Generative
Mô tả:
Mô hình Generative (dựa trên mô hình tạo sinh) sử dụng các mô hình ngôn ngữ lớn
để tạo ra câu trả lời mới dựa trên ngữ cảnh của câu hỏi. Thay vì chỉ tìm kiếm
câu trả lời từ một kho dữ liệu có sẵn, mô hình này sẽ "sáng tạo" ra câu trả lời
dựa trên các kiến thức và ngữ cảnh đã học được từ dữ liệu huấn luyện.
Kỹ thuật áp dụng
GPT-3, GPT-4 (Generative Pre-trained Transformer): Đây là các mô hình ngôn ngữ
lớn của OpenAI, được huấn luyện trên một lượng dữ liệu khổng lồ và có khả
6
năng tạo ra văn bản tự nhiên dựa trên ngữ cảnh đầu vào. Mô hình này có thể
hiểu và tạo ra các câu trả lời phù hợp với ngữ cảnh của câu hỏi.
T5 (Text-to-Text Transfer Transformer): Một mô hình ngôn ngữ mạnh mẽ khác của
Google, chuyển đổi mọi nhiệm vụ ngôn ngữ thành nhiệm vụ dựa trên văn bản.
T5 có thể tạo ra các câu trả lời mạch lạc và tự nhiên.
Kết hợp mô hình (Hybrid Approach)

Mô tả:
Phương pháp kết hợp tận dụng ưu điểm của cả hai mô hình Retrieval-Based và
Generative. Khi nhận được câu hỏi, chatbot sẽ đầu tiên sử dụng mô hình
Retrieval-Based để tìm kiếm các câu trả lời có sẵn từ kho dữ liệu. Nếu không
tìm thấy câu trả lời phù hợp, chatbot sẽ sử dụng mô hình Generative để tạo ra
câu trả lời mới. Các câu trả lời từ cả hai mô hình sẽ được đánh giá và xếp hạng
để chọn ra câu trả lời tốt nhất cho người dùng.
Kỹ thuật áp dụng:
Kết hợp các phương pháp truy xuất thông tin và tạo sinh: Sử dụng TF-IDF, BM25
hoặc các mô hình nhúng từ để tìm kiếm câu trả lời có sẵn. Nếu không có câu
trả lời phù hợp, sử dụng GPT-4 hoặc T5 để tạo ra câu trả lời mới.
Đánh giá và xếp hạng câu trả lời: Sử dụng các kỹ thuật học máy để đánh giá và xếp
hạng các câu trả lời từ cả hai mô hình, chọn ra câu trả lời tốt nhất dựa trên độ
chính xác, tính liên quan và sự hài lòng của người dùng.
7
PHƯƠNG PHÁP KẾT HỢP MÔ HÌNH (HYBRID
APPROACH)
Nhóm chúng tôi chọn phương pháp kết hợp giữa Retrieval-Based và Generative model để
xây dựng chatbot hỗ trợ sinh viên mới nhập học vì nó mang lại nhiều lợi ích vượt trội: Mô hình
Retrieval-Based cung cấp các câu trả lời có sẵn một cách nhanh chóng, phù hợp cho các câu hỏi
thường gặp. Mô hình Generative có khả năng tạo ra câu trả lời mới dựa trên ngữ cảnh câu hỏi, hữu
ích cho các câu hỏi phức tạp hoặc chưa từng gặp. Phương pháp kết hợp này giúp chatbot của chúng
tôi không chỉ cung cấp các câu trả lời chính xác và kịp thời mà còn có khả năng tạo ra các câu trả
lời mới chưa từng gặp.
Xác Định Mục Tiêu và Yêu Cầu

a. Mục tiêu
− Cung cấp Thông tin Chính xác: Chatbot phải cung cấp thông tin chính xác và cập nhật về
các chính sách, quy định, lịch học, sự kiện, và các câu hỏi thường gặp của sinh viên.
− Tăng cường Trải nghiệm Người dùng:
• Cải thiện trải nghiệm của sinh viên khi tìm kiếm thông tin, giúp họ tiết kiệm thời
gian và công sức.
• Đảm bảo chatbot dễ sử dụng, thân thiện và có thể giao tiếp tự nhiên bằng tiếng Việt.
− Tích hợp Hệ thống Hiện tại: Chatbot cần tích hợp dễ dàng vào các hệ thống hiện có của
trường đại học như website, ứng dụng di động, hoặc hệ thống quản lý học tập (LMS).
− Khả năng Học hỏi và Cải thiện: Chatbot phải có khả năng học hỏi từ các tương tác với sinh
viên để cải thiện chất lượng phản hồi theo thời gian.
b. Yêu cầu
− Ngôn ngữ: Chatbot phải hỗ trợ tiếng Việt và có khả năng hiểu và phản hồi tự nhiên trong
ngữ cảnh tiếng Việt.
8
− Khả năng Tích hợp: Chatbot phải có khả năng tích hợp với các nền tảng khác nhau như
website của trường, ứng dụng di động, và các hệ thống quản lý thông tin khác.
− Khả năng Tự học: Chatbot cần sử dụng công nghệ học máy để học hỏi từ các cuộc trò
chuyện và cải thiện phản hồi của mình theo thời gian.
− Bảo mật và Quyền riêng tư: Đảm bảo các dữ liệu của sinh viên được bảo mật và tuân thủ
các quy định về quyền riêng tư.
− Khả năng Mở rộng: Chatbot phải có khả năng mở rộng để xử lý nhiều loại câu hỏi và tình
huống khác nhau khi cần thiết.
− Độ Chính xác và Tốc độ: Đảm bảo chatbot có thể cung cấp phản hồi chính xác và nhanh
chóng, không để người dùng phải chờ đợi lâu.
c. Các Tính năng Cụ thể
− Tra cứu thông tin: Chatbot phải cung cấp thông tin về các chính sách và quy định của
trường, lịch học, các sự kiện, và các thông tin liên quan khác.
− Hỗ trợ tư vấn Hỗ trợ sinh viên với các câu hỏi về học tập, hành chính, và các vấn đề cá
nhân khác.
− Thông báo và nhắc nhở: Gửi thông báo và nhắc nhở về các sự kiện quan trọng, hạn nộp
bài, và các thông tin cần thiết khác.
− Tương tác đa kênh: Chatbot phải có khả năng hoạt động trên nhiều kênh giao tiếp khác
nhau như website, ứng dụng di động, và các nền tảng nhắn tin (ví dụ: Facebook Messenger,
Zalo).
− Phản hồi theo thời gian thực: Cung cấp phản hồi ngay lập tức hoặc trong thời gian ngắn
nhất có thể để nâng cao trải nghiệm người dùng.
d. Ví dụ Cụ thể
− Sinh viên A: hỏi về lịch học kỳ hiện tại. Chatbot phải trả lời ngay lập tức với thông tin lịch
học chính xác, bao gồm cả thời gian và địa điểm các lớp học.
− Sinh viên B: muốn biết về quy định xin nghỉ học. Chatbot sẽ cung cấp thông tin chi tiết về
quy trình và các yêu cầu cần thiết.
9
− Sinh viên C: hỏi về các sự kiện sắp tới trong trường. Chatbot sẽ liệt kê các sự kiện và cung
cấp thông tin chi tiết về mỗi sự kiện.
Thiết Kế Kiến Trúc Chatbot

a. Lựa chọn nền tảng và công nghệ
Nền tảng: Dialogflow (Google):
• Hỗ trợ ngôn ngữ tự nhiên mạnh mẽ.
• Dễ tích hợp với nhiều nền tảng khác nhau.
• Có công cụ phát triển trực quan và hỗ trợ nhiều ngôn ngữ, bao gồm tiếng Việt.
Công nghệ: Xử lý ngôn ngữ tự nhiên (NLP), Học máy (Machine Learning), Cơ sở dữ
liệu (Database)
• Sử dụng các thư viện như spaCy, NLTK hoặc các dịch vụ như Google NLP,
Microsoft LUIS để xử lý và hiểu ngôn ngữ tự nhiên.
• Đảm bảo chatbot có khả năng phân tích và hiểu ngữ cảnh câu hỏi của người dùng.
• Sử dụng các mô hình học máy để cải thiện khả năng học hỏi và phản hồi của
chatbot.
• Tích hợp các mô hình học sâu (deep learning) để nâng cao độ chính xác trong việc
hiểu và phản hồi các câu hỏi phức tạp.
• Lựa chọn cơ sở dữ liệu phù hợp như MySQL, PostgreSQL, hoặc MongoDB để
lưu trữ thông tin và lịch sử trò chuyện.
• Đảm bảo cơ sở dữ liệu có khả năng mở rộng và bảo mật tốt.
10
b. Xây dựng mô hình hội thoại
Tạo các quy định (Intents) theo cấu trúc sau:
"tag": "nhãn của câu hỏi hoặc thông điệp",
"patterns": ["các câu hỏi hoặc thông điệp tương ứng"],
"responses": ["các câu trả lời tương ứng"],
"context": ["các ngữ cảnh liên quan"]
} (file.json)
● Ý định hỏi về lịch học: Nhận biết các câu hỏi liên quan đến lịch học và cung cấp thông
tin chính xác. Ví dụ: “Lịch học môn Toán tuần này là gì?”
● Ý định hỏi về quy định: Xác định các câu hỏi về quy định và cung cấp thông tin chi
tiết. Ví dụ: “Quy định xin nghỉ học như thế nào?”
● Ý định hỏi về sự kiện: Phản hồi về các sự kiện sắp tới trong trường. Ví dụ: “Có sự kiện
gì diễn ra trong tháng này?”
Định nghĩa các thực thể (Entities) từ dữ liệu cập nhật liên tục:
● Thực thể thời gian: Xác định thời gian cụ thể từ câu hỏi của người dùng. Ví dụ: “tuần
này,” “tháng sau.”
● Thực thể địa điểm: Xác định địa điểm liên quan đến câu hỏi. Ví dụ: “phòng học A105,”
“Toà A6.”
● Thực thể loại sự kiện: Xác định loại sự kiện mà người dùng quan tâm. Ví dụ: “sự kiện
thể thao,” “hội thảo học thuật.”
Tạo các kịch bản hội thoại (Dialog Flow)
11
● Kịch bản hỏi và trả lời đơn giản: Tạo kịch bản cho các câu hỏi đơn giản với câu trả lời
trực tiếp. Ví dụ: “Lịch học hôm nay là gì?” -> “Hôm nay bạn có môn Toán lúc 10 giờ
sáng ở phòng A101.”
● Kịch bản tương tác phức tạp: Xây dựng kịch bản cho các tình huống yêu cầu nhiều
bước và thông tin liên quan. Ví dụ: “Làm thế nào để xin nghỉ học?” -> Chatbot sẽ
hướng dẫn từng bước quy trình và yêu cầu cung cấp thông tin cần thiết.
c. Tích hợp
● Website của trường: Tích hợp chatbot vào trang web chính của trường đại học
Phenikaa. Đảm bảo giao diện người dùng trực quan và dễ sử dụng.
● Ứng dụng di động: Tích hợp chatbot vào ứng dụng di động của trường. Đảm bảo
chatbot hoạt động mượt mà và tương thích với cả hai hệ điều hành iOS và Android.
● Các nền tảng nhắn tin: Tích hợp với các nền tảng như Facebook Messenger, Zalo. Đảm
bảo chatbot có khả năng giao tiếp và phản hồi nhanh chóng trên các nền tảng này.
d. Ví dụ Cụ thể:
Lịch học:
● Ý định: Hỏi về lịch học.

● Thực thể: Thời gian, môn học.
● Kịch bản: Sinh viên hỏi về lịch học môn Toán, chatbot xác định môn học và thời gian,
sau đó cung cấp lịch học cụ thể.
12
● Ví dụ: “Lịch học môn Toán tuần này là gì?” -> “Lịch học môn Toán tuần này là Thứ Hai
và Thứ Tư lúc 10 giờ sáng ở phòng A101.”
Quy định:
● Ý định: Hỏi về quy định nghỉ học.

● Thực thể: Loại quy định.
● Kịch bản: Sinh viên hỏi về quy định nghỉ học, chatbot xác định loại quy định và cung cấp
thông tin chi tiết về quy trình xin nghỉ.
○ Ví dụ: “Quy định xin nghỉ học như thế nào?” -> “Để xin nghỉ học, bạn cần nộp đơn xin
nghỉ và báo cáo lý do nghỉ cho phòng hành chính trước ngày nghỉ ít nhất 3 ngày.”
Sự kiện:
● Ý định: Hỏi về sự kiện sắp tới.

● Thực thể: Loại sự kiện, thời gian.
● Kịch bản: Sinh viên hỏi về sự kiện thể thao sắp tới, chatbot xác định loại sự kiện và thời
gian, sau đó liệt kê các sự kiện thể thao sắp tới và chi tiết liên quan.
○ Ví dụ: “Có sự kiện thể thao nào diễn ra trong tháng này không?” -> “Trong tháng này,
trường sẽ tổ chức giải bóng đá vào ngày 20 và giải cầu lông vào ngày 25. Bạn có thể đăng
ký tham gia tại phòng Thể dục thể thao.”
Đào tạo và phát triển Chatbot

a. Thu thập và xử lý dữ liệu
Thu thập dữ liệu
● Nguồn dữ liệu:
○ Sổ tay sinh viên, website trường, các tài liệu hướng dẫn, và các cơ sở dữ liệu khác.
○ Phỏng vấn và khảo sát sinh viên để thu thập các câu hỏi thường gặp và các vấn đề
thường gặp phải.
● Loại dữ liệu:
○ Văn bản: Câu hỏi và câu trả lời, hướng dẫn, chính sách, quy định.
13
○ Dữ liệu cấu trúc: Lịch học, danh sách sự kiện, thông tin liên lạc.
Xử lý dữ liệu
● Làm sạch dữ liệu:

○ Loại bỏ các dữ liệu không cần thiết, trùng lặp, hoặc không liên quan.
○ Chỉnh sửa lỗi chính tả, ngữ pháp và định dạng để đảm bảo dữ liệu chính xác và nhất
quán.
● Định dạng dữ liệu:
○ Chuyển đổi dữ liệu thành các định dạng dễ sử dụng và phù hợp với yêu cầu của các
mô hình học máy. Cụ thể ở đây là gắn nhãn cho dữ liệu
○ Sắp xếp dữ liệu theo các danh mục và ý định để dễ dàng quản lý và truy xuất.
"tag": "nhãn của câu hỏi hoặc thông điệp",
"patterns": ["các câu hỏi hoặc thông điệp tương ứng"],
"responses": ["các câu trả lời tương ứng"],
"context": ["các ngữ cảnh liên quan"]
b. Xây dựng và đào tạo mô hình
Xây dựng mô hình NLP
● Lựa chọn mô hình:

○ Sử dụng mô hình NLP GPT kết hợp mô hình cụ thể cho tiếng Việt PhoBERT.
● Đào tạo mô hình:
○ Sử dụng dữ liệu đã được xử lý để đào tạo mô hình, đảm bảo mô hình có khả năng
hiểu và phản hồi chính xác các câu hỏi của người dùng.
○ Thực hiện điều chỉnh siêu tham số (hyperparameter tuning) để tối ưu hóa hiệu suất
của mô hình.
14
d. Triển khai và duy trì
Triển khai chatbot:
● Chọn nền tảng triển khai:

○ Triển khai chatbot trên các máy chủ hoặc nền tảng đám mây như Google Cloud,
AWS, hoặc Azure.
● Tích hợp với các hệ thống hiện tại:
○ Tích hợp chatbot vào website trường, ứng dụng di động, và các nền tảng nhắn tin
phổ biến.
Duy trì và nâng cấp:
● Giám sát hiệu suất:

○ Liên tục giám sát hiệu suất của chatbot để đảm bảo nó hoạt động mượt mà và đáp
ứng được nhu cầu của sinh viên.
● Phản hồi và cải tiến:
○ Thu thập phản hồi từ người dùng để phát hiện các vấn đề và cơ hội cải tiến.
○ Thực hiện các cập nhật và nâng cấp cần thiết để cải thiện chức năng và hiệu suất
của chatbot.
● Bảo trì hệ thống:
○ Thực hiện bảo trì định kỳ để đảm bảo hệ thống hoạt động ổn định và bảo mật.
○ Cập nhật thông tin mới nhất về chính sách, quy định và các sự kiện của trường để
chatbot luôn cung cấp thông tin chính xác và kịp thời.
e. Ví dụ Cụ Thể
Lịch học
● Dữ liệu:
○ Thu thập lịch học từ hệ thống quản lý học tập của trường.
● Mô hình:
○ Đào tạo mô hình để nhận diện các câu hỏi liên quan đến lịch học và cung cấp phản
hồi chính xác.
15
● Kiểm thử:
○ Kiểm thử với các câu hỏi như “Lịch học môn Toán tuần này là gì?” để đảm bảo
chatbot trả lời đúng.
Quy định
● Dữ liệu:
○ Thu thập quy định từ các tài liệu hướng dẫn và chính sách của trường.
● Mô hình:
○ Đào tạo mô hình để nhận diện các câu hỏi về quy định và cung cấp thông tin chi
tiết.
● Kiểm thử:
○ Kiểm thử với các câu hỏi như “Quy định xin nghỉ học như thế nào?” để đảm bảo
chatbot cung cấp thông tin chính xác và chi tiết.
Sự kiện
● Dữ liệu:
○ Thu thập thông tin về các sự kiện từ các thông báo và lịch sự kiện của trường.
● Mô hình:
○ Đào tạo mô hình để nhận diện các câu hỏi về sự kiện và liệt kê các sự kiện sắp tới.
● Kiểm thử:
○ Kiểm thử với các câu hỏi như “Có sự kiện thể thao nào diễn ra trong tháng này
không?” để đảm bảo chatbot liệt kê đúng các sự kiện và cung cấp chi tiết liên quan.
16
THỰC NGHIỆM ĐÁNH GIÁ HIỆU NĂNG, KẾT QUẢ ĐẠT
ĐƯỢC
Thực nghiệm
Kiểm thử chức năng
● Chatbot đảm bảo các chức năng cơ bản: khả năng hiểu câu hỏi, sinh câu trả lời, cập nhật
dữ liệu mới.
Kiểm thử tích hợp:
● Nhờ việc áp dụng cơ sở dữ liệu mà chatbot tích hợp hoàn hảo vảo các ứng dụng bên ngoài
như zalo, facebook, … Đặc biệt là ứng dụng nội bộ của trường.
Kiểm thử hiệu năng:
● Chatbot sinh câu trả lời phản hồi người dùng rất nhanh chóng
● Câu trả lời dựa trên những câu hỏi được tích hợp sẵn, chatbot trả lời rất chính xác. Những
câu hỏi người dùng nhập, chatbot sinh câu trả lời khá chính xác
● Tuy nhiên, với những câu hỏi chưa được gắn nhãn, định nghĩa, chatbot chưa đảm bảo được
tính chính xác cao. Đặc biệt với những câu hỏi viết tắt, viết thiếu chatbot chưa xử lý được
trơn tru.
Đánh Giá
Nhờ việc sử dụng kết hợp song song 2 phương pháp Retrieval-Based và Generative
mà chatbot có khả năng trả lời câu hỏi linh hoạt, không phụ thuộc hoàn toàn vào lượng dữ
liệu gắn nhãn, giúp trải nghiệm người dùng trở nên mượt mà hơn.
Tuy nhiên, phần khó khăn của model này là lượng dữ liệu gắn nhãn quá quan trọng
với nó. Để đảm bảo được tính chính xác tuyệt đối, bắt buộc phải sử dụng đến dữ liệu gắn
17
nhãn được định nghĩa trước. Tránh việc chatbot sinh câu trả lời lung tung, không quan thậm
chí là không chính xác đến người dùng.
Chatbot cần thường xuyên thu thấp dữ liệu người dùng để nâng cao khả năng sinh câu
trả lời chính xác. Cũng như cần liên tục cập nhật dữ liệu gắn nhãn giúp chatbot luôn được
cập nhật những thông tin chính xác nhất
Tối Ưu và Nâng Cấp
Tối ưu hóa hiệu suất:
● Theo dõi và phân tích:

○ Sử dụng các công cụ theo dõi và phân tích để giám sát hiệu suất của chatbot, nhận
diện các vấn đề và cơ hội cải tiến.
● Cập nhật và đào tạo lại:
○ Thường xuyên cập nhật và đào tạo lại mô hình với dữ liệu mới để cải thiện độ chính
xác và hiệu quả phản hồi của chatbot.
○ Thực hiện các điều chỉnh dựa trên phản hồi của người dùng và phân tích dữ liệu sử
dụng.
Cập nhật và đào tạo lại mô hình:
● Thường xuyên cập nhật dữ liệu mới và đào tạo lại mô hình học máy để chatbot có thể tự
động hóa các quy trình và cải thiện khả năng phản hồi dựa trên phản hồi của người dùng.
Bảo Trì và Duy Trì
Bảo trì hệ thống:
● Thực hiện bảo trì định kỳ để đảm bảo chatbot luôn hoạt động ổn định và bảo mật. Bảo trì
này bao gồm cả việc cập nhật bản vá bảo mật và quản lý dữ liệu một cách an toàn.
Phản hồi và hỗ trợ người dùng:
18
● Xây dựng và duy trì một hệ thống phản hồi nhanh chóng và hiệu quả để giải quyết các vấn
đề của người dùng. Thu thập phản hồi thường xuyên để cải thiện chatbot và đáp ứng tốt
hơn nhu cầu của người dùng.
Mở Rộng và Cải Tiến

a. Mở Rộng Khả năng Xử Lý và Tính Năng
• Xử lý nhiều loại câu hỏi: Nâng cao khả năng xử lý của chatbot để đáp ứng các câu
hỏi phức tạp và đa dạng từ các sinh viên về học tập, hành chính và cuộc sống sinh
viên.
• Phát triển tính năng mới: Phát triển và triển khai các tính năng mới như tích hợp trí
tuệ nhân tạo để cải thiện khả năng tương tác và trải nghiệm người dùng.
b. Cải Tiến Liên Tục
• Tích hợp công nghệ mới: Áp dụng các công nghệ mới như học máy, xử lý ngôn ngữ tự
nhiên và học sâu để cải thiện khả năng phân tích và dự đoán của chatbot.
• Tối ưu hóa trải nghiệm người dùng: Điều chỉnh giao diện và luồng hội thoại để tối ưu
hóa trải nghiệm người dùng và tăng tính thân thiện của chatbot.
c. Đánh Giá
• Thiết lập các chỉ số hiệu quả: Thiết lập các chỉ số và phương pháp đo lường hiệu quả của
chatbot dựa trên tiêu chí như độ chính xác, tốc độ phản hồi và mức độ hài lòng của người
dùng.
• Phản hồi từ người dùng: Liên tục thu thập phản hồi từ người dùng để cải tiến và phát triển
chatbot theo hướng ngày càng cải thiện.
19
KẾT LUẬN
Phương pháp kết hợp giữa Retrieval-Based và Generative model đã chọn cho chatbot hỗ trợ
sinh viên mới nhập học đem lại những lợi ích rõ rệt và đáng giá. Bằng cách kết hợp sức mạnh của
hai mô hình này, chúng tôi không chỉ tận dụng được khả năng truy xuất thông tin nhanh chóng và
chính xác của Retrieval-Based mà còn khai thác được tính linh hoạt và sáng tạo của Generative.
Retrieval-Based model giúp chatbot cung cấp các câu trả lời sẵn có một cách hiệu quả, đặc
biệt là đối với các câu hỏi thường gặp và có câu trả lời cụ thể. Nó giúp giảm thời gian phản hồi và
đảm bảo tính chính xác của thông tin được cung cấp.
Generative model, với khả năng sinh ra các câu trả lời mới dựa trên ngữ cảnh câu hỏi, là
công cụ hữu ích cho việc giải quyết các câu hỏi phức tạp và đáp ứng những yêu cầu không có sẵn
trong dữ liệu huấn luyện. Mặc dù đòi hỏi nhiều tài nguyên tính toán và dữ liệu huấn luyện, nhưng
đó là một đầu tư đáng giá để cải thiện trải nghiệm người dùng và tăng cường khả năng phục vụ
của chatbot.
Chúng tôi tin rằng sự kết hợp này sẽ giúp chatbot không chỉ cung cấp câu trả lời nhanh chóng
và chính xác cho sinh viên mới nhập học mà còn thúc đẩy sự tiếp cận thông tin hiệu quả và nâng
cao trải nghiệm học tập của họ. Với sự phát triển của công nghệ và sự tăng cường khả năng học
tập của chatbot, chúng tôi hy vọng rằng nó sẽ ngày càng được cải thiện và mở rộng ứng dụng trong
các lĩnh vực giáo dục và hỗ trợ sinh viên.
20
TÀI LIỆU THAM KHẢO
https://youtube.com : chatbot
Architecture: https://www.cis.upenn.edu/wp-content/uploads/2021/10/Xufei-
Huang-thesis.pdf
Google Cloud
Các nguồn tài liệu liên quan: chatbot, Generative chatbot, Retrieval-Based
chatbot, build chatbot
21

Nhóm5_NPL

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Nhóm5_NPL

Uploaded by

Copyright:

Available Formats

TRƯỜNG ĐẠI HỌC PHENIKAA

KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO MÔN HỌC

Giảng viên hướng dẫn: NGUYỄN VĂN SƠN

Khoá: K16 ( 2022 - 2026)

Hà Nội, tháng 06 năm 2024

VẤN ĐỀ VÀ BÀI TOÁN CẦN GIẢI QUYẾT ........................................................3

1.1. Đặt vấn đề ........................................................................................................3

1.2. Bài toán cần giải quyết.....................................................................................3

1.3. Mục tiêu ...........................................................................................................3

CÁC PHƯƠNG PHÁP KHẢ THI ĐỂ GIẢI BÀI TOÁN .........................................5

2.1. Hidden Markov Models (HMMs):...................................................................5

2.2. Dynamic Time Warping (DTW): .....................................................................5

2.3. Artificial Neural Networks (ANNs): ...............................................................5

2.4. Recurrent Neural Networks (RNNs): ..............................................................6

2.5. Convolutional Neural Networks (CNNs): .......................................................6

2.6. Transformer-Based Models (End to End): .......................................................6

PHƯƠNG PHÁP SỬ DỤNG MODEL TRANSFORMER .......................................7

3.1. Cấu trúc của Transformers ...............................................................................7

3.2. Ứng dụng trong Speech Recognition ...............................................................8

SO SÁNH VÀ ĐÁNH GIÁ HIỆU NĂNG ..............................................................10

TÀI LIỆU THAM KHẢO........................................................................................14

KẾT LUẬN ..............................................................................................................15

1.1. Đặt vấn đề

1.2. Bài toán cần giải quyết

1.3. Mục tiêu

2.1. Hidden Markov Models (HMMs):

2.2. Dynamic Time Warping (DTW):

2.3. Artificial Neural Networks (ANNs):

2.5. Convolutional Neural Networks (CNNs):

2.6. Transformer-Based Models (End to End):

3.1. Cấu trúc của Transformers

3.2. Ứng dụng trong Speech Recognition

3.2.2. Hybrid Models

Tiêu Chí Sử dụng Transformers Các phương pháp truyền thống

RNN, DNN, CNN: Có khả năng

Tốc độ xử lý Transformers: Thường có thể xử lý HMM: Thường có tốc độ xử lý

- Transformers in Speech Processing: A Survey: https://arxiv.org/abs/2303.11607

Hai phương pháp chính trong ứng dụng Transformers

BÁO CÁO BÀI TẬP LỚN MÔN HỌC

Xây dựng chatbot cho sổ tay sinh viên

Giảng viên hướng dẫn: NGUYỄN VĂN SƠN

Khoá: K16 ( 2022 - 2026)

Hà Nội, 30 tháng 06 năm 2024

LỜI NÓI ĐẦU .......................................................................................................................... 3

Kết hợp mô hình (Hybrid Approach)

Xác Định Mục Tiêu và Yêu Cầu

c. Các Tính năng Cụ thể

Thiết Kế Kiến Trúc Chatbot

Tạo các quy định (Intents) theo cấu trúc sau:

"tag": "nhãn của câu hỏi hoặc thông điệp",

"patterns": ["các câu hỏi hoặc thông điệp tương ứng"],

"responses": ["các câu trả lời tương ứng"],

"context": ["các ngữ cảnh liên quan"]

Tạo các kịch bản hội thoại (Dialog Flow)

● Ý định: Hỏi về lịch học.

● Ý định: Hỏi về quy định nghỉ học.

● Ý định: Hỏi về sự kiện sắp tới.

Đào tạo và phát triển Chatbot

Thu thập dữ liệu

● Làm sạch dữ liệu:

"tag": "nhãn của câu hỏi hoặc thông điệp",

"patterns": ["các câu hỏi hoặc thông điệp tương ứng"],

"responses": ["các câu trả lời tương ứng"],