Professional Documents
Culture Documents
Nhóm5_NPL
Nhóm5_NPL
Tìm hiểu: Khám phá cách sử dụng mô hình Transformers cho nhận dạng tiếng nói
và so sánh với các phương pháp truyền thống
1
Mục Lục
2
VẤN ĐỀ VÀ BÀI TOÁN CẦN GIẢI QUYẾT
Để giải quyết các hạn chế trên, mô hình Transformer, ban đầu được giới thiệu trong lĩnh
vực xử lý ngôn ngữ tự nhiên (NLP) bởi Vaswani và cộng sự năm 2017, đã được áp dụng và chứng
minh hiệu quả vượt trội trong nhiều ứng dụng khác nhau, bao gồm cả nhận diện giọng nói.
3
Cải thiện độ chính xác: Nâng cao khả năng nhận diện giọng nói chính xác hơn trong các
điều kiện khác nhau, bao gồm cả môi trường có nhiều tiếng ồn và giọng nói của nhiều người khác
nhau.
Khả năng mở rộng: Tạo ra một hệ thống dễ dàng mở rộng và thích ứng với các ngôn ngữ
và ngữ cảnh mới mà không cần phải huấn luyện lại toàn bộ mô hình.
Hiệu suất thời gian thực: Đảm bảo hệ thống hoạt động nhanh chóng và hiệu quả trong các
ứng dụng yêu cầu phản hồi thời gian thực, chẳng hạn như trợ lý ảo hoặc dịch vụ khách hàng.
Việc sử dụng Transformer trong nhận diện giọng nói hứa hẹn mang lại những cải tiến đáng
kể, giúp nâng cao trải nghiệm người dùng và mở ra nhiều ứng dụng mới trong tương lai.
4
CÁC PHƯƠNG PHÁP KHẢ THI ĐỂ GIẢI BÀI TOÁN
6
PHƯƠNG PHÁP SỬ DỤNG MODEL TRANSFORMER
Transformers là một loại mô hình học sâu được giới thiệu bởi Vaswani và cộng sự vào năm
2017, chủ yếu được sử dụng trong các nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP). Khác với các mô
hình truyền thống như Recurrent Neural Networks (RNNs) và Long Short-Term Memory (LSTM),
Transformers dựa trên cơ chế Attention, giúp chúng xử lý dữ liệu một cách song song thay vì tuần
tự.
b. Cơ chế Attention
Attention là một cơ chế giúp mô hình Transformer tập trung vào các phần quan trọng của
chuỗi đầu vào. Điều này giúp giải quyết các vấn đề như:
- Long-Range Dependencies: Khả năng nắm bắt mối quan hệ giữa các từ hoặc ký tự cách xa
nhau trong chuỗi.
7
- Parallel Processing: Khả năng xử lý dữ liệu song song, tăng hiệu suất và tốc độ huấn luyện
mô hình.
Cơ chế Attention được tính toán qua ba ma trận: Query (Q), Key (K), và Value (V). Các
ma trận này giúp xác định trọng số của từng phần tử trong chuỗi đầu vào.
8
Quy trình:
- Trích xuất đặc trưng âm thanh bằng CNNs:
• Dữ liệu âm thanh thô được đưa qua các lớp CNNs để trích xuất các đặc
trưng không gian và thời gian.
• Các đặc trưng này có thể là Mel-spectrograms hoặc các đặc trưng cấp cao
hơn.
- Transformer Encoder:
• Các đặc trưng trích xuất từ CNNs sẽ được đưa vào phần Encoder của
Transformer.
• Encoder sẽ chuyển đổi các đặc trưng này thành các biểu diễn cấp cao hơn.
- Language Modeling bằng Transformer Decoder:
• Phần Decoder của Transformer sẽ nhận các biểu diễn từ Encoder và thực
hiện mô hình hóa ngôn ngữ để dự đoán các từ hoặc ký tự trong chuỗi văn
bản.
• Quá trình này giúp mô hình hiểu ngữ cảnh và ngữ pháp, cải thiện độ chính
xác của nhận diện giọng nói.
9
SO SÁNH VÀ ĐÁNH GIÁ HIỆU NĂNG
Dưới đây là bảng so sánh phương pháp Transformers với các phương pháp truyền thống
cụ thể là các phương pháp HMM (Hidden Markov Model), RNN (Recurrent Neural Networks),
DNN (Deep Neural Networks), và CNN (Convolutional Neural Networks).
Độ phức tạp Transformers: Thường có nhiều tham HMM: Có thể dễ dàng cài đặt với số
số hơn so với các mô hình truyền lượng tham số thấp hơn, tài nguyên
thống, có thể yêu cầu tài nguyên tính tính toán thấp hơn so với các mô
toán và bộ nhớ lớn hơn. hình học sâu.
RNN, DNN, CNN: Độ phức tạp
thay đổi tùy thuộc vào cấu trúc
mạng, tuy nhiên thường không quá
phức tạp so với Transformers.
Khả năng xử Transformers: Thường có khả năng xử HMM: Thường phù hợp với các bài
lý dữ liệu lý dữ liệu tốt trong các bối cảnh mà dữ toán có tính chất chuỗi, dễ xử lý dữ
liệu đầu vào có tính tương tác cao và liệu nhưng có thể hạn chế trong việc
cấu trúc phức tạp, như nhận dạng mô hình hóa sự phức tạp của dữ
giọng nói. Cơ chế chú ý đa đầu và lớp liệu.
tự chuẩn hóa giúp cải thiện khả năng RNN, DNN, CNN: Có khả năng xử
này. lý dữ liệu tốt nhưng cần thiết kế cẩn
thận để đảm bảo hiệu quả về mặt
tính toán và xử lý dữ liệu đầu vào.
Khả năng học Transformers: Học được cấu trúc HMM: Phụ thuộc nhiều vào các giả
phức tạp của ngữ âm và mối quan hệ định về quá trình phát sinh của dữ
giữa các âm thanh, có khả năng học
10
tổng quát hơn và hiệu quả hơn so với liệu, hạn chế trong việc mô hình hóa
các mô hình truyền thống. sự phức tạp của dữ liệu giọng nói.
RNN, DNN, CNN: Có khả năng
học các đặc trưng từ dữ liệu, tuy
nhiên, có thể gặp hạn chế trong việc
mô hình hóa các mối quan hệ phức
tạp trong ngữ âm so với
Transformers.
Độ chính xác Có khả năng học cấu trúc phức tạp HMM: Dễ bị hạn chế bởi mô hình
của ngữ âm và mối quan hệ giữa các phân phối xác suất đơn giản hơn, có
âm thanh, cung cấp độ chính xác cao thể dẫn đến độ chính xác thấp hơn
trong nhận dạng giọng nói. so với các mô hình học sâu.
11
Khả năng Transformers: Thường có khả năng HMM: Có thể gặp khó khăn trong
tổng quát hóa tổng quát hóa tốt hơn nhờ vào khả việc tổng quát hóa do giới hạn của
năng học các đặc trưng phức tạp từ dữ mô hình phân phối xác suất đơn
liệu lớn, có thể áp dụng được cho giản, yêu cầu điều chỉnh đặc biệt
nhiều loại dữ liệu giọng nói khác nhau cho từng bộ dữ liệu cụ thể.
mà không cần phải điều chỉnh nhiều. RNN, DNN, CNN: Tùy thuộc vào
thiết kế và cấu hình mạng, có thể có
khả năng tổng quát hóa khác nhau,
thường cần thực hiện điều chỉnh và
fine-tune mô hình cho từng ứng
dụng cụ thể.
Khả năng mở Transformers: Có thể gặp thách thức HMM: Thường có thể triển khai dễ
rộng và triển khi triển khai trên các thiết bị có tài dàng trên các thiết bị có tài nguyên
khai nguyên hạn chế do yêu cầu tính toán hạn chế do tính đơn giản và yêu cầu
và bộ nhớ cao. Tuy nhiên, các biến thể tính toán thấp.
như Transformer Lite hay các phương RNN, DNN, CNN: Cần phải thiết
pháp tối ưu hóa như Distillation giúp kế lại mạng và tối ưu hóa để phù
giảm bớt tài nguyên. hợp với yêu cầu triển khai trên các
thiết bị nhúng và có tài nguyên hạn
chế.
Trong lĩnh vực nhận dạng giọng nói, sử dụng Transformers đã mang lại nhiều cải tiến so
với các phương pháp truyền thống như HMM, RNN, DNN và CNN. Đây là một số điểm đáng
chú ý khi đánh giá hiệu năng của Transformers trong ứng dụng nhận dạng giọng nói:
- Xử lý dữ liệu tuần tự hiệu quả hơn: Transformers được thiết kế để xử lý dữ liệu tuần tự,
như âm thanh trong nhận dạng giọng nói, một cách hiệu quả hơn các mạng neural truyền
thống như RNN, DNN hay CNN. Điều này đặc biệt quan trọng vì giọng nói là một chuỗi
dữ liệu liên tục và phức tạp.
- Khả năng học biểu diễn tốt hơn: Transformers có khả năng học biểu diễn phong phú của
dữ liệu âm thanh, giúp cải thiện khả năng nhận dạng so với HMM (Hidden Markov
12
Models) và các mô hình DNN (Deep Neural Networks) trước đây. Điều này có thể dẫn
đến việc nhận dạng giọng nói chính xác hơn.
- Khả năng tổng hợp thông tin toàn cục: Transformers có khả năng tổng hợp thông tin toàn
cục từ toàn bộ chuỗi đầu vào, trong khi các mô hình như RNN phụ thuộc nhiều vào thông
tin lịch sử. Điều này giúp cho Transformers có thể hiểu bối cảnh rộng hơn và có thể dẫn
đến kết quả nhận dạng tốt hơn.
- Độ phức tạp tính toán và huấn luyện: Tuy nhiên, việc sử dụng Transformers cũng có thể
đòi hỏi nhiều tài nguyên tính toán hơn trong quá trình huấn luyện và dự đoán so với các
phương pháp truyền thống như HMM, do đó cần phải xem xét về mặt hiệu năng tính
toán.
Transformers đã chứng minh được khả năng cải thiện hiệu quả trong nhận dạng giọng nói
so với các phương pháp cũ như HMM, RNN, DNN và CNN, đặc biệt là trong việc xử lý dữ liệu
tuần tự phức tạp và tổng hợp thông tin toàn cục. Tuy nhiên, việc áp dụng cần phải cân nhắc đến
yếu tố tính toán và tài nguyên hệ thống.
13
TÀI LIỆU THAM KHẢO
14
KẾT LUẬN
Ứng dụng mô hình Transformers trong nhận diện giọng nói đã và đang mang lại những
đột phá quan trọng, hứa hẹn thay đổi cách chúng ta tương tác với công nghệ và máy móc. Với
cơ chế Attention và khả năng xử lý dữ liệu song song, Transformers đã vượt qua những hạn
chế của các mô hình truyền thống như Recurrent Neural Networks (RNNs) và Long Short-
Term Memory (LSTM), mang đến hiệu quả cao hơn và khả năng mở rộng tốt hơn.
Nhận diện giọng nói là một lĩnh vực có tính ứng dụng rất cao, đóng vai trò quan trọng
trong nhiều khía cạnh của cuộc sống hiện đại như:
− Trợ lý ảo thông minh: Các ứng dụng như Siri, Google Assistant, và Alexa ngày
càng trở nên phổ biến và hữu ích nhờ vào khả năng nhận diện và hiểu giọng nói
người dùng một cách chính xác.
− Dịch thuật tự động: Công nghệ nhận diện giọng nói kết hợp với dịch thuật máy
giúp phá bỏ rào cản ngôn ngữ, hỗ trợ giao tiếp toàn cầu.
− Hỗ trợ người khuyết tật: Các hệ thống nhận diện giọng nói giúp người khiếm
thị và người khiếm thính tương tác với công nghệ và môi trường xung quanh
một cách dễ dàng hơn.
Transformers vượt trội so với các mô hình truyền thống nhờ vào một số ưu điểm chính:
− Độ chính xác cao: Nhờ cơ chế Attention, Transformers có khả năng nắm bắt các
mối quan hệ dài hạn trong dữ liệu, giúp nhận diện chính xác hơn trong các điều
kiện phức tạp như môi trường có nhiều tiếng ồn hoặc giọng nói đa dạng.
− Khả năng mở rộng: Transformers dễ dàng mở rộng để áp dụng cho nhiều ngôn
ngữ và ngữ cảnh khác nhau mà không cần huấn luyện lại toàn bộ mô hình.
− Hiệu suất cao: Khả năng xử lý song song của Transformers giúp tăng tốc độ
huấn luyện và triển khai mô hình, đáp ứng được yêu cầu của các ứng dụng thời
gian thực.
15
− Nhờ khả năng học từ dữ liệu một cách toàn diện, mô hình có thể tự động tối ưu
hóa các bước từ trích xuất đặc trưng đến mô hình hóa ngôn ngữ, mang lại độ
chính xác và hiệu suất cao hơn.
2. Hybrid Models:
− Phương pháp kết hợp này sử dụng các lớp Convolutional Neural Networks
(CNNs) để trích xuất đặc trưng từ dữ liệu âm thanh, sau đó sử dụng
Transformer để xử lý và mô hình hóa ngôn ngữ.
− Việc kết hợp này giúp tận dụng ưu điểm của từng loại mô hình, cải thiện khả
năng trích xuất đặc trưng và mô hình hóa ngôn ngữ, đảm bảo hệ thống hoạt
động hiệu quả trong nhiều điều kiện khác nhau.
Hướng tới tương lai: Việc áp dụng Transformers trong nhận diện giọng nói không chỉ
dừng lại ở các ứng dụng hiện có mà còn mở ra nhiều cơ hội mới. Các nhà nghiên cứu và phát
triển đang tiếp tục khám phá và tối ưu hóa các mô hình này, nhằm mang lại những cải tiến vượt
bậc cho công nghệ nhận diện giọng nói. Những nỗ lực này sẽ góp phần vào sự phát triển của
các ứng dụng AI tiên tiến, từ đó mang lại lợi ích cho xã hội và nâng cao chất lượng cuộc sống
của con người. Trong tương lai, chúng ta có thể mong đợi những hệ thống nhận diện giọng nói
ngày càng chính xác, nhanh chóng và hiệu quả hơn, phục vụ đa dạng nhu cầu của người dùng
trong mọi lĩnh vực.
16
TRƯỜNG ĐẠI HỌC PHENIKAA
KHOA CÔNG NGHỆ THÔNG TIN
1
MỤC LỤC
2
LỜI NÓI ĐẦU
Trong thời đại công nghệ số phát triển vượt bậc, trí tuệ nhân tạo (AI) và các ứng dụng
của nó đang dần trở thành một phần không thể thiếu trong nhiều lĩnh vực, bao gồm cả giáo dục.
Một trong những ứng dụng nổi bật của AI là xử lý ngôn ngữ tự nhiên (NLP - Natural Language
Processing), một ngành khoa học nghiên cứu cách máy tính có thể hiểu, diễn giải và đáp ứng
các lệnh ngôn ngữ của con người.
NLP không chỉ giúp máy tính hiểu được ngôn ngữ tự nhiên mà còn cho phép tạo ra các
hệ thống thông minh có khả năng giao tiếp và tương tác với con người một cách tự nhiên và
hiệu quả. Trong bối cảnh đó, việc xây dựng một chatbot hỗ trợ sinh viên mới nhập học dựa trên
các kỹ thuật NLP trở nên vô cùng tiềm năng và hữu ích.
Sinh viên mới nhập học thường đối mặt với nhiều thách thức khi làm quen với môi trường
học tập mới. Từ việc tìm hiểu các quy định của trường, nắm bắt thông tin về các khóa học, đến
việc tham gia các hoạt động ngoại khóa và hòa nhập vào cộng đồng sinh viên, tất cả đều là
những vấn đề mà họ phải giải quyết. Một chatbot thông minh có khả năng hỗ trợ trả lời các câu
hỏi và cung cấp thông tin chính xác sẽ là một công cụ đắc lực, giúp sinh viên nhanh chóng hòa
nhập và tận dụng tối đa thời gian học tập của mình.
Với mục tiêu đó, nhóm chúng tôi đã nghiên cứu và phát triển một chatbot hỗ trợ sinh
viên mới nhập học, sử dụng kết hợp giữa hai phương pháp nổi bật trong NLP: mô hình truy
xuất thông tin (Retrieval-Based) và mô hình tạo sinh (Generative). Trong báo cáo này, chúng
tôi sẽ trình bày chi tiết về bài toán cần giải quyết, các phương pháp tiếp cận, phương pháp mà
nhóm sử dụng, quá trình thực nghiệm đánh giá hiệu năng và những kết quả đạt được. Qua đó,
chúng tôi hy vọng có thể đóng góp một phần vào việc cải thiện trải nghiệm học tập và sinh hoạt
của sinh viên trong những ngày đầu tại trường
3
VẤN ĐỀ VÀ BÀI TOÁN CẦN GIẢI QUYẾT
Sinh viên mới nhập học luôn phải đối mặt với một loạt các thách thức trong những ngày đầu
tiên tại trường đại học Phenikaa. Những thách thức này bao gồm việc làm quen với môi trường
học tập mới, hiểu rõ quy định của trường, nắm bắt thông tin về các khóa học, tham gia các hoạt
động ngoại khóa, và hòa nhập với môi trường sinh đại học. Quá trình này có thể gây ra khó khăn
và tốn nhiều thời gian để tìm hiểu, ảnh hưởng đến trải nghiệm học tập và cuộc sống của sinh viên
trong trường.
Những khó khăn mà sinh viên trường Đại học Phenikaa mới nhập học thường gặp phải:
− Thiếu thông tin chính xác và kịp thời: Việc này thường xuyên xảy ra, một phần do sinh
viên mới chưa biết cách chủ động tiếp nhận thông tin, vẫn còn thói quen thông báo trực
tiếp từ các giáo viên bộ môn, chưa có thói quen kiểm tra email, trang quản lý đào tạo.
Phần nhiều do việc nhà trường có quá nhiều nguồn thông tin (trang qldt, trang canvas,
email từ tài khoản nhà trường cung cấp, .v.v…) gây khó khăn và khiến sinh viên rất tốn
kém về mặt thời gian để tìm hiểu đôi khi là khó khăn trong việc tìm nguồn thông tin
chính xác (như muốn xem lịch học phải truy cập trang qldt, muốn xem trang bài tập, tải
tài liệu phải vào trang canvas, …).
− Khó khăn trong việc làm quen với môi trường mới: Không giống như cấp 3, ở bậc đại
học, sinh viên phải tự sắp xếp môn học, tự lựa chọn môn học hợp lý cho bản thân. Mặc
dù, hiện nay, trường đại học Phenikaa hỗ trợ sinh viên bằng cách đưa ra lộ trình học tập
cho sinh viên, đưa ra các gợi ý môn học nên học ở kỳ này hoặc kỳ sau. Tuy nhiên, đó
vẫn là lộ trình chung và không thể thay đổi theo từng sinh viên được
− Thiếu nhân sự hỗ trợ cá nhân hóa cho từng sinh viên: Không thể bố trí nhân sự hỗ trợ
cho từng sinh viên được. Điều này là bất khả thi! Có quá nhiều sinh viên cần được hỗ
trợ, mà việc trả lời trực tiếp các câu hỏi của sinh viên thì không thể thực hiện được nên
đôi khi giáo viên hướng dẫn chỉ hướng dẫn sinh viên cách tìm câu trả lời. Đôi khi việc
này bị phức tạp hoá nếu câu hỏi của sinh viên bao gôm quá nhiều ý và phải tìm ở rất
nhiều nguồn tài liệu chính thức khác nhau.
Bài toán cần giải quyết: Làm thế nào để cung cấp một hệ thống hỗ trợ tự động, hiệu quả và
cá nhân hóa cho sinh viên mới nhập học, giúp họ nhanh chóng làm quen với môi trường học tập
4
mới, nắm bắt thông tin cần thiết và giải quyết các thắc mắc một cách nhanh chóng và chính xác?
Một giải pháp tiềm năng cho bài toán này là xây dựng một chatbot thông minh, có khả năng giao
tiếp tự nhiên với sinh viên, cung cấp thông tin cần thiết và giải đáp các câu hỏi một cách nhanh
chóng và chính xác.
Mục tiêu của chatbot hỗ trợ sinh viên:
Cung cấp thông tin chính xác và kịp thời: Chatbot sẽ cung cấp thông tin về thời gian và địa
điểm của các lớp học, các quy định của trường, lịch thi, các hoạt động ngoại khóa và các dịch vụ
hỗ trợ như thư viện, nhà ăn, ký túc xá, v.v.
Hỗ trợ cá nhân hóa: Chatbot sẽ cung cấp hỗ trợ cá nhân hóa dựa trên nhu cầu và thắc mắc
cụ thể của từng sinh viên.
Giảm áp lực cho sinh viên: Bằng cách cung cấp thông tin chính xác và kịp thời, chatbot sẽ
giúp giảm bớt áp lực và lo lắng cho sinh viên, giúp họ tập trung vào học tập và tham gia các hoạt
động xã hội một cách hiệu quả hơn.
Tiết kiệm tài nguyên và nhân lực cho nhà trường: Chatbot sẽ giúp giảm tải công việc cho
các nhân viên hỗ trợ sinh viên, cho phép họ tập trung vào các nhiệm vụ quan trọng khác.
5
CÁC PHƯƠNG PHÁP CÓ THỂ SỬ DỤNG
Mô hình Retrieval-Based
Mô tả:
Mô hình Retrieval-Based (dựa trên truy xuất thông tin) hoạt động bằng cách tìm
kiếm câu trả lời từ một kho dữ liệu có sẵn. Khi nhận được một câu hỏi từ người
dùng, mô hình này sẽ sử dụng các kỹ thuật truy xuất thông tin để so khớp câu
hỏi với các câu hỏi và câu trả lời trong kho dữ liệu, sau đó trả lời dựa trên câu
trả lời tương tự đã được lưu trữ.
Kỹ thuật áp dụng:
TF-IDF (Term Frequency-Inverse Document Frequency): Đây là một kỹ thuật phổ
biến trong truy xuất thông tin, tính toán mức độ quan trọng của từ trong một tài
liệu dựa trên tần suất xuất hiện của từ trong tài liệu đó và tần suất xuất hiện của
từ trong toàn bộ tập dữ liệu.
BM25: Một biến thể nâng cao của TF-IDF, BM25 là một thuật toán xếp hạng phổ
biến được sử dụng trong hệ thống tìm kiếm văn bản, cải thiện độ chính xác của
việc truy xuất thông tin.
Mô hình nhúng từ (Word Embedding): Sử dụng các kỹ thuật như Word2Vec,
GloVe, hoặc BERT để biểu diễn câu hỏi và câu trả lời dưới dạng vector từ. Sau
đó, tính toán sự tương đồng giữa các vector này để tìm kiếm câu trả lời phù hợp.
Mô hình Generative
Mô tả:
Mô hình Generative (dựa trên mô hình tạo sinh) sử dụng các mô hình ngôn ngữ lớn
để tạo ra câu trả lời mới dựa trên ngữ cảnh của câu hỏi. Thay vì chỉ tìm kiếm
câu trả lời từ một kho dữ liệu có sẵn, mô hình này sẽ "sáng tạo" ra câu trả lời
dựa trên các kiến thức và ngữ cảnh đã học được từ dữ liệu huấn luyện.
Kỹ thuật áp dụng
GPT-3, GPT-4 (Generative Pre-trained Transformer): Đây là các mô hình ngôn ngữ
lớn của OpenAI, được huấn luyện trên một lượng dữ liệu khổng lồ và có khả
6
năng tạo ra văn bản tự nhiên dựa trên ngữ cảnh đầu vào. Mô hình này có thể
hiểu và tạo ra các câu trả lời phù hợp với ngữ cảnh của câu hỏi.
T5 (Text-to-Text Transfer Transformer): Một mô hình ngôn ngữ mạnh mẽ khác của
Google, chuyển đổi mọi nhiệm vụ ngôn ngữ thành nhiệm vụ dựa trên văn bản.
T5 có thể tạo ra các câu trả lời mạch lạc và tự nhiên.
7
PHƯƠNG PHÁP KẾT HỢP MÔ HÌNH (HYBRID
APPROACH)
Nhóm chúng tôi chọn phương pháp kết hợp giữa Retrieval-Based và Generative model để
xây dựng chatbot hỗ trợ sinh viên mới nhập học vì nó mang lại nhiều lợi ích vượt trội: Mô hình
Retrieval-Based cung cấp các câu trả lời có sẵn một cách nhanh chóng, phù hợp cho các câu hỏi
thường gặp. Mô hình Generative có khả năng tạo ra câu trả lời mới dựa trên ngữ cảnh câu hỏi, hữu
ích cho các câu hỏi phức tạp hoặc chưa từng gặp. Phương pháp kết hợp này giúp chatbot của chúng
tôi không chỉ cung cấp các câu trả lời chính xác và kịp thời mà còn có khả năng tạo ra các câu trả
lời mới chưa từng gặp.
− Cung cấp Thông tin Chính xác: Chatbot phải cung cấp thông tin chính xác và cập nhật về
các chính sách, quy định, lịch học, sự kiện, và các câu hỏi thường gặp của sinh viên.
− Tăng cường Trải nghiệm Người dùng:
• Cải thiện trải nghiệm của sinh viên khi tìm kiếm thông tin, giúp họ tiết kiệm thời
gian và công sức.
• Đảm bảo chatbot dễ sử dụng, thân thiện và có thể giao tiếp tự nhiên bằng tiếng Việt.
− Tích hợp Hệ thống Hiện tại: Chatbot cần tích hợp dễ dàng vào các hệ thống hiện có của
trường đại học như website, ứng dụng di động, hoặc hệ thống quản lý học tập (LMS).
− Khả năng Học hỏi và Cải thiện: Chatbot phải có khả năng học hỏi từ các tương tác với sinh
viên để cải thiện chất lượng phản hồi theo thời gian.
b. Yêu cầu
− Ngôn ngữ: Chatbot phải hỗ trợ tiếng Việt và có khả năng hiểu và phản hồi tự nhiên trong
ngữ cảnh tiếng Việt.
8
− Khả năng Tích hợp: Chatbot phải có khả năng tích hợp với các nền tảng khác nhau như
website của trường, ứng dụng di động, và các hệ thống quản lý thông tin khác.
− Khả năng Tự học: Chatbot cần sử dụng công nghệ học máy để học hỏi từ các cuộc trò
chuyện và cải thiện phản hồi của mình theo thời gian.
− Bảo mật và Quyền riêng tư: Đảm bảo các dữ liệu của sinh viên được bảo mật và tuân thủ
các quy định về quyền riêng tư.
− Khả năng Mở rộng: Chatbot phải có khả năng mở rộng để xử lý nhiều loại câu hỏi và tình
huống khác nhau khi cần thiết.
− Độ Chính xác và Tốc độ: Đảm bảo chatbot có thể cung cấp phản hồi chính xác và nhanh
chóng, không để người dùng phải chờ đợi lâu.
− Tra cứu thông tin: Chatbot phải cung cấp thông tin về các chính sách và quy định của
trường, lịch học, các sự kiện, và các thông tin liên quan khác.
− Hỗ trợ tư vấn Hỗ trợ sinh viên với các câu hỏi về học tập, hành chính, và các vấn đề cá
nhân khác.
− Thông báo và nhắc nhở: Gửi thông báo và nhắc nhở về các sự kiện quan trọng, hạn nộp
bài, và các thông tin cần thiết khác.
− Tương tác đa kênh: Chatbot phải có khả năng hoạt động trên nhiều kênh giao tiếp khác
nhau như website, ứng dụng di động, và các nền tảng nhắn tin (ví dụ: Facebook Messenger,
Zalo).
− Phản hồi theo thời gian thực: Cung cấp phản hồi ngay lập tức hoặc trong thời gian ngắn
nhất có thể để nâng cao trải nghiệm người dùng.
d. Ví dụ Cụ thể
− Sinh viên A: hỏi về lịch học kỳ hiện tại. Chatbot phải trả lời ngay lập tức với thông tin lịch
học chính xác, bao gồm cả thời gian và địa điểm các lớp học.
− Sinh viên B: muốn biết về quy định xin nghỉ học. Chatbot sẽ cung cấp thông tin chi tiết về
quy trình và các yêu cầu cần thiết.
9
− Sinh viên C: hỏi về các sự kiện sắp tới trong trường. Chatbot sẽ liệt kê các sự kiện và cung
cấp thông tin chi tiết về mỗi sự kiện.
Công nghệ: Xử lý ngôn ngữ tự nhiên (NLP), Học máy (Machine Learning), Cơ sở dữ
liệu (Database)
• Sử dụng các thư viện như spaCy, NLTK hoặc các dịch vụ như Google NLP,
Microsoft LUIS để xử lý và hiểu ngôn ngữ tự nhiên.
• Đảm bảo chatbot có khả năng phân tích và hiểu ngữ cảnh câu hỏi của người dùng.
• Sử dụng các mô hình học máy để cải thiện khả năng học hỏi và phản hồi của
chatbot.
• Tích hợp các mô hình học sâu (deep learning) để nâng cao độ chính xác trong việc
hiểu và phản hồi các câu hỏi phức tạp.
• Lựa chọn cơ sở dữ liệu phù hợp như MySQL, PostgreSQL, hoặc MongoDB để
lưu trữ thông tin và lịch sử trò chuyện.
• Đảm bảo cơ sở dữ liệu có khả năng mở rộng và bảo mật tốt.
10
b. Xây dựng mô hình hội thoại
} (file.json)
● Ý định hỏi về lịch học: Nhận biết các câu hỏi liên quan đến lịch học và cung cấp thông
tin chính xác. Ví dụ: “Lịch học môn Toán tuần này là gì?”
● Ý định hỏi về quy định: Xác định các câu hỏi về quy định và cung cấp thông tin chi
tiết. Ví dụ: “Quy định xin nghỉ học như thế nào?”
● Ý định hỏi về sự kiện: Phản hồi về các sự kiện sắp tới trong trường. Ví dụ: “Có sự kiện
gì diễn ra trong tháng này?”
Định nghĩa các thực thể (Entities) từ dữ liệu cập nhật liên tục:
● Thực thể thời gian: Xác định thời gian cụ thể từ câu hỏi của người dùng. Ví dụ: “tuần
này,” “tháng sau.”
● Thực thể địa điểm: Xác định địa điểm liên quan đến câu hỏi. Ví dụ: “phòng học A105,”
“Toà A6.”
● Thực thể loại sự kiện: Xác định loại sự kiện mà người dùng quan tâm. Ví dụ: “sự kiện
thể thao,” “hội thảo học thuật.”
11
● Kịch bản hỏi và trả lời đơn giản: Tạo kịch bản cho các câu hỏi đơn giản với câu trả lời
trực tiếp. Ví dụ: “Lịch học hôm nay là gì?” -> “Hôm nay bạn có môn Toán lúc 10 giờ
sáng ở phòng A101.”
● Kịch bản tương tác phức tạp: Xây dựng kịch bản cho các tình huống yêu cầu nhiều
bước và thông tin liên quan. Ví dụ: “Làm thế nào để xin nghỉ học?” -> Chatbot sẽ
hướng dẫn từng bước quy trình và yêu cầu cung cấp thông tin cần thiết.
c. Tích hợp
● Website của trường: Tích hợp chatbot vào trang web chính của trường đại học
Phenikaa. Đảm bảo giao diện người dùng trực quan và dễ sử dụng.
● Ứng dụng di động: Tích hợp chatbot vào ứng dụng di động của trường. Đảm bảo
chatbot hoạt động mượt mà và tương thích với cả hai hệ điều hành iOS và Android.
● Các nền tảng nhắn tin: Tích hợp với các nền tảng như Facebook Messenger, Zalo. Đảm
bảo chatbot có khả năng giao tiếp và phản hồi nhanh chóng trên các nền tảng này.
d. Ví dụ Cụ thể:
Lịch học:
12
● Ví dụ: “Lịch học môn Toán tuần này là gì?” -> “Lịch học môn Toán tuần này là Thứ Hai
và Thứ Tư lúc 10 giờ sáng ở phòng A101.”
Quy định:
Sự kiện:
● Nguồn dữ liệu:
○ Sổ tay sinh viên, website trường, các tài liệu hướng dẫn, và các cơ sở dữ liệu khác.
○ Phỏng vấn và khảo sát sinh viên để thu thập các câu hỏi thường gặp và các vấn đề
thường gặp phải.
● Loại dữ liệu:
○ Văn bản: Câu hỏi và câu trả lời, hướng dẫn, chính sách, quy định.
13
○ Dữ liệu cấu trúc: Lịch học, danh sách sự kiện, thông tin liên lạc.
Xử lý dữ liệu
14
d. Triển khai và duy trì
e. Ví dụ Cụ Thể
Lịch học
● Dữ liệu:
○ Thu thập lịch học từ hệ thống quản lý học tập của trường.
● Mô hình:
○ Đào tạo mô hình để nhận diện các câu hỏi liên quan đến lịch học và cung cấp phản
hồi chính xác.
15
● Kiểm thử:
○ Kiểm thử với các câu hỏi như “Lịch học môn Toán tuần này là gì?” để đảm bảo
chatbot trả lời đúng.
Quy định
● Dữ liệu:
○ Thu thập quy định từ các tài liệu hướng dẫn và chính sách của trường.
● Mô hình:
○ Đào tạo mô hình để nhận diện các câu hỏi về quy định và cung cấp thông tin chi
tiết.
● Kiểm thử:
○ Kiểm thử với các câu hỏi như “Quy định xin nghỉ học như thế nào?” để đảm bảo
chatbot cung cấp thông tin chính xác và chi tiết.
Sự kiện
● Dữ liệu:
○ Thu thập thông tin về các sự kiện từ các thông báo và lịch sự kiện của trường.
● Mô hình:
○ Đào tạo mô hình để nhận diện các câu hỏi về sự kiện và liệt kê các sự kiện sắp tới.
● Kiểm thử:
○ Kiểm thử với các câu hỏi như “Có sự kiện thể thao nào diễn ra trong tháng này
không?” để đảm bảo chatbot liệt kê đúng các sự kiện và cung cấp chi tiết liên quan.
16
THỰC NGHIỆM ĐÁNH GIÁ HIỆU NĂNG, KẾT QUẢ ĐẠT
ĐƯỢC
Thực nghiệm
● Chatbot đảm bảo các chức năng cơ bản: khả năng hiểu câu hỏi, sinh câu trả lời, cập nhật
dữ liệu mới.
● Nhờ việc áp dụng cơ sở dữ liệu mà chatbot tích hợp hoàn hảo vảo các ứng dụng bên ngoài
như zalo, facebook, … Đặc biệt là ứng dụng nội bộ của trường.
● Chatbot sinh câu trả lời phản hồi người dùng rất nhanh chóng
● Câu trả lời dựa trên những câu hỏi được tích hợp sẵn, chatbot trả lời rất chính xác. Những
câu hỏi người dùng nhập, chatbot sinh câu trả lời khá chính xác
● Tuy nhiên, với những câu hỏi chưa được gắn nhãn, định nghĩa, chatbot chưa đảm bảo được
tính chính xác cao. Đặc biệt với những câu hỏi viết tắt, viết thiếu chatbot chưa xử lý được
trơn tru.
Đánh Giá
Nhờ việc sử dụng kết hợp song song 2 phương pháp Retrieval-Based và Generative
mà chatbot có khả năng trả lời câu hỏi linh hoạt, không phụ thuộc hoàn toàn vào lượng dữ
liệu gắn nhãn, giúp trải nghiệm người dùng trở nên mượt mà hơn.
Tuy nhiên, phần khó khăn của model này là lượng dữ liệu gắn nhãn quá quan trọng
với nó. Để đảm bảo được tính chính xác tuyệt đối, bắt buộc phải sử dụng đến dữ liệu gắn
17
nhãn được định nghĩa trước. Tránh việc chatbot sinh câu trả lời lung tung, không quan thậm
chí là không chính xác đến người dùng.
Chatbot cần thường xuyên thu thấp dữ liệu người dùng để nâng cao khả năng sinh câu
trả lời chính xác. Cũng như cần liên tục cập nhật dữ liệu gắn nhãn giúp chatbot luôn được
cập nhật những thông tin chính xác nhất
● Thường xuyên cập nhật dữ liệu mới và đào tạo lại mô hình học máy để chatbot có thể tự
động hóa các quy trình và cải thiện khả năng phản hồi dựa trên phản hồi của người dùng.
● Thực hiện bảo trì định kỳ để đảm bảo chatbot luôn hoạt động ổn định và bảo mật. Bảo trì
này bao gồm cả việc cập nhật bản vá bảo mật và quản lý dữ liệu một cách an toàn.
18
● Xây dựng và duy trì một hệ thống phản hồi nhanh chóng và hiệu quả để giải quyết các vấn
đề của người dùng. Thu thập phản hồi thường xuyên để cải thiện chatbot và đáp ứng tốt
hơn nhu cầu của người dùng.
• Xử lý nhiều loại câu hỏi: Nâng cao khả năng xử lý của chatbot để đáp ứng các câu
hỏi phức tạp và đa dạng từ các sinh viên về học tập, hành chính và cuộc sống sinh
viên.
• Phát triển tính năng mới: Phát triển và triển khai các tính năng mới như tích hợp trí
tuệ nhân tạo để cải thiện khả năng tương tác và trải nghiệm người dùng.
• Tích hợp công nghệ mới: Áp dụng các công nghệ mới như học máy, xử lý ngôn ngữ tự
nhiên và học sâu để cải thiện khả năng phân tích và dự đoán của chatbot.
• Tối ưu hóa trải nghiệm người dùng: Điều chỉnh giao diện và luồng hội thoại để tối ưu
hóa trải nghiệm người dùng và tăng tính thân thiện của chatbot.
c. Đánh Giá
• Thiết lập các chỉ số hiệu quả: Thiết lập các chỉ số và phương pháp đo lường hiệu quả của
chatbot dựa trên tiêu chí như độ chính xác, tốc độ phản hồi và mức độ hài lòng của người
dùng.
• Phản hồi từ người dùng: Liên tục thu thập phản hồi từ người dùng để cải tiến và phát triển
chatbot theo hướng ngày càng cải thiện.
19
KẾT LUẬN
Phương pháp kết hợp giữa Retrieval-Based và Generative model đã chọn cho chatbot hỗ trợ
sinh viên mới nhập học đem lại những lợi ích rõ rệt và đáng giá. Bằng cách kết hợp sức mạnh của
hai mô hình này, chúng tôi không chỉ tận dụng được khả năng truy xuất thông tin nhanh chóng và
chính xác của Retrieval-Based mà còn khai thác được tính linh hoạt và sáng tạo của Generative.
Retrieval-Based model giúp chatbot cung cấp các câu trả lời sẵn có một cách hiệu quả, đặc
biệt là đối với các câu hỏi thường gặp và có câu trả lời cụ thể. Nó giúp giảm thời gian phản hồi và
đảm bảo tính chính xác của thông tin được cung cấp.
Generative model, với khả năng sinh ra các câu trả lời mới dựa trên ngữ cảnh câu hỏi, là
công cụ hữu ích cho việc giải quyết các câu hỏi phức tạp và đáp ứng những yêu cầu không có sẵn
trong dữ liệu huấn luyện. Mặc dù đòi hỏi nhiều tài nguyên tính toán và dữ liệu huấn luyện, nhưng
đó là một đầu tư đáng giá để cải thiện trải nghiệm người dùng và tăng cường khả năng phục vụ
của chatbot.
Chúng tôi tin rằng sự kết hợp này sẽ giúp chatbot không chỉ cung cấp câu trả lời nhanh chóng
và chính xác cho sinh viên mới nhập học mà còn thúc đẩy sự tiếp cận thông tin hiệu quả và nâng
cao trải nghiệm học tập của họ. Với sự phát triển của công nghệ và sự tăng cường khả năng học
tập của chatbot, chúng tôi hy vọng rằng nó sẽ ngày càng được cải thiện và mở rộng ứng dụng trong
các lĩnh vực giáo dục và hỗ trợ sinh viên.
20
TÀI LIỆU THAM KHẢO
https://youtube.com : chatbot
Architecture: https://www.cis.upenn.edu/wp-content/uploads/2021/10/Xufei-
Huang-thesis.pdf
Google Cloud
Các nguồn tài liệu liên quan: chatbot, Generative chatbot, Retrieval-Based
chatbot, build chatbot
21