Download as pdf or txt
Download as pdf or txt
You are on page 1of 5

Language detection Vietnamese

and Laos report

Question : How to apply for detect Vietnamese language and Laos Language?

Dataset sẽ gồm 2 columns là Text và Language với Language là nhãn để


training

EX :

ID Text Language

1 ໄດ້ອະນຸຍາດໃຫ້ຜູ້ໃຊ້ດາວໂຫລດຂໍ້ຄວາມແລ Laos

2 Tôi yêu bạn Vietnamese

Đầu tiên chúng ta phải Tokenizer và Vectorizer text (vietnamese and laos)
thành các vector.

Chọn model phù hợp cho task classification để phân loại vietnamese and laos

Training model model với các vector để predict.

⇒ Nó sẽ đơn giản giống việc training bình thường chỉ khác là sử dụng tokenizer
cho text để biến nó thành các vector cho việc training

Question : Implement detect Vietnamese language and Laos Language


Introduction :

Trong thí nghiệm này em sẽ sử dụng một số model Machine Learning và một
vài Neural Network quen thuộc trong NLP.

Sử dụng TF-IDF tokenizer để vectorizer các Text trong training data

Với yêu cầu phân biệt ngôn ngữ Việt và Lào ⇒ Ta cần những model cho binary
classification, và em sẽ thử nghiệm một vài model sau

Logisstic Regression

Language detection Vietnamese and Laos report 1


Multinomial Naive Bayes

RNN

LSTM

Kết quả đạt được khá ổn với các thử nghiệm trên
Method

TF-IDF vectorizer

TF-IDF (Term Frequency-Inverse Document Frequency) là một kỹ thuật


được sử dụng phổ biến trong khai phá văn bản và xử lý ngôn ngữ tự nhiên
để đánh giá mức độ quan trọng của một từ trong một tài liệu so với toàn bộ
tập hợp tài liệu.

TF (Term Frequency) đo lường tần suất xuất hiện của một từ trong một tài
liệu.

IDF (Inverse Document Frequency) đánh giá mức độ phổ biến của từ đó
trong toàn bộ tập hợp tài liệu.

Cụ thể, TF-IDF giúp làm nổi bật những từ có tần suất cao trong một tài liệu
cụ thể nhưng hiếm khi xuất hiện trong các tài liệu khác, từ đó giúp cải thiện
độ chính xác của các hệ thống tìm kiếm và phân loại văn bản.

Logistic Regression

Logistic Regression (Hồi quy Logistic) là một thuật toán phân loại được sử
dụng để dự đoán xác suất một mẫu thuộc vào một trong hai nhóm (nhị
phân). Thuật toán này sử dụng một hàm sigmoid để biến đổi tổng hợp
tuyến tính của các biến đầu vào thành giá trị xác suất từ 0 đến 1

Language detection Vietnamese and Laos report 2


Logistic Regression sử dụng phương pháp Maximum Likelihood Estimation
(MLE) để tối ưu hóa các tham số

Multinomial Naive Bayes

Multinomial Naive Bayes là một thuật toán phân loại dựa trên định lý Bayes,
đặc biệt hữu ích cho các bài toán phân loại văn bản và xử lý ngôn ngữ tự
nhiên. Thuật toán này giả định rằng các đặc trưng (features) xuất hiện độc
lập với nhau và tuân theo phân phối đa thức (multinomial distribution).

RNN

Recurrent Neural Network (RNN) là một loại mạng nơ-ron nhân tạo được
thiết kế để xử lý dữ liệu tuần tự.

Khác với mạng nơ-ron truyền thống, RNN có khả năng duy trì thông tin từ
các bước trước đó thông qua các kết nối hồi tiếp, giúp mô hình hóa các
mối quan hệ phụ thuộc theo thời gian.

Mỗi nút trong RNN không chỉ nhận đầu vào từ bước hiện tại mà còn từ
trạng thái ẩn của bước trước đó, cho phép mạng lưu giữ thông tin dài hạn.

Language detection Vietnamese and Laos report 3


LSTM

Nhược điểm của RNN là hồi quy tuần tự nên tốc độ rất chậm và ghi nhớ
những thông tin ở rất xa mà không dùng đến

Long Short-Term Memory (LSTM) là một loại Recurrent Neural Network


(RNN) đặc biệt được thiết kế để xử lý và ghi nhớ các phụ thuộc dài hạn
trong dữ liệu tuần tự.

LSTM khắc phục những hạn chế của RNN truyền thống bằng cách sử
dụng các cơ chế cổng để kiểm soát luồng thông tin, giúp giảm thiểu vấn
đề vanishing gradient và explore gradient.

Dataset

Language detection Vietnamese and Laos report 4


Dataset gồm khoảng 40000 samples (36000 cho train và 4000 cho test) dữ
liệu mà em thu thập và crawl từ một vài web trên internet. Data gồm 2 phần là
Text và Language.

Text : Một câu ngắn với ngôn ngữ Việt hoặc Lào.

Language : Ngôn ngữ được sử dụng trong Text.

Target : Phải detect (predict) mỗi Text thuộc loại ngôn ngữ nào.

Expriment

Tokenizer các text bằng tf-idf

Clean data

Chạy các model với tập dataset với các hyperparameter phù hợp.

Result

Nhìn chung hầu hết các model đều đạt kết quả tốt, mức accuracy là 100 cho
tất cả model.

Có thể do hình thức của 2 ngôn ngữ là hoàn toàn khác nhau ⇒ Việc phân loại
là vô cùng dễ dàng.

Kết quả và một số thử nghiệm được lưu ở trong code.

Language detection Vietnamese and Laos report 5

You might also like