Language detection Vietnamese and Laos report 5844d0db34e64b46993729f4e1b33f9c

Language detection Vietnamese
and Laos report
Question : How to apply for detect Vietnamese language and Laos Language?
Dataset sẽ gồm 2 columns là Text và Language với Language là nhãn để

training
EX :
ID Text Language
1 ໄດ້ອະນຸຍາດໃຫ້ຜູ້ໃຊ້ດາວໂຫລດຂໍ້ຄວາມແລ Laos
2 Tôi yêu bạn Vietnamese
Đầu tiên chúng ta phải Tokenizer và Vectorizer text (vietnamese and laos)
thành các vector.
Chọn model phù hợp cho task classification để phân loại vietnamese and laos
Training model model với các vector để predict.
⇒ Nó sẽ đơn giản giống việc training bình thường chỉ khác là sử dụng tokenizer
cho text để biến nó thành các vector cho việc training
Question : Implement detect Vietnamese language and Laos Language

Introduction :
Trong thí nghiệm này em sẽ sử dụng một số model Machine Learning và một
vài Neural Network quen thuộc trong NLP.
Sử dụng TF-IDF tokenizer để vectorizer các Text trong training data
Với yêu cầu phân biệt ngôn ngữ Việt và Lào ⇒ Ta cần những model cho binary
classification, và em sẽ thử nghiệm một vài model sau
Logisstic Regression
Language detection Vietnamese and Laos report 1

Multinomial Naive Bayes
RNN
LSTM
Kết quả đạt được khá ổn với các thử nghiệm trên
Method
TF-IDF vectorizer
TF-IDF (Term Frequency-Inverse Document Frequency) là một kỹ thuật

được sử dụng phổ biến trong khai phá văn bản và xử lý ngôn ngữ tự nhiên
để đánh giá mức độ quan trọng của một từ trong một tài liệu so với toàn bộ
tập hợp tài liệu.
TF (Term Frequency) đo lường tần suất xuất hiện của một từ trong một tài
liệu.
IDF (Inverse Document Frequency) đánh giá mức độ phổ biến của từ đó
trong toàn bộ tập hợp tài liệu.
Cụ thể, TF-IDF giúp làm nổi bật những từ có tần suất cao trong một tài liệu
cụ thể nhưng hiếm khi xuất hiện trong các tài liệu khác, từ đó giúp cải thiện
độ chính xác của các hệ thống tìm kiếm và phân loại văn bản.
Logistic Regression
Logistic Regression (Hồi quy Logistic) là một thuật toán phân loại được sử
dụng để dự đoán xác suất một mẫu thuộc vào một trong hai nhóm (nhị
phân). Thuật toán này sử dụng một hàm sigmoid để biến đổi tổng hợp
tuyến tính của các biến đầu vào thành giá trị xác suất từ 0 đến 1

Logistic Regression sử dụng phương pháp Maximum Likelihood Estimation
(MLE) để tối ưu hóa các tham số
Multinomial Naive Bayes
Multinomial Naive Bayes là một thuật toán phân loại dựa trên định lý Bayes,
đặc biệt hữu ích cho các bài toán phân loại văn bản và xử lý ngôn ngữ tự
nhiên. Thuật toán này giả định rằng các đặc trưng (features) xuất hiện độc
lập với nhau và tuân theo phân phối đa thức (multinomial distribution).
RNN
Recurrent Neural Network (RNN) là một loại mạng nơ-ron nhân tạo được
thiết kế để xử lý dữ liệu tuần tự.
Khác với mạng nơ-ron truyền thống, RNN có khả năng duy trì thông tin từ
các bước trước đó thông qua các kết nối hồi tiếp, giúp mô hình hóa các
mối quan hệ phụ thuộc theo thời gian.
Mỗi nút trong RNN không chỉ nhận đầu vào từ bước hiện tại mà còn từ
trạng thái ẩn của bước trước đó, cho phép mạng lưu giữ thông tin dài hạn.

LSTM
Nhược điểm của RNN là hồi quy tuần tự nên tốc độ rất chậm và ghi nhớ
những thông tin ở rất xa mà không dùng đến
Long Short-Term Memory (LSTM) là một loại Recurrent Neural Network

(RNN) đặc biệt được thiết kế để xử lý và ghi nhớ các phụ thuộc dài hạn
trong dữ liệu tuần tự.
LSTM khắc phục những hạn chế của RNN truyền thống bằng cách sử
dụng các cơ chế cổng để kiểm soát luồng thông tin, giúp giảm thiểu vấn
đề vanishing gradient và explore gradient.
Dataset

Dataset gồm khoảng 40000 samples (36000 cho train và 4000 cho test) dữ
liệu mà em thu thập và crawl từ một vài web trên internet. Data gồm 2 phần là
Text và Language.
Text : Một câu ngắn với ngôn ngữ Việt hoặc Lào.
Language : Ngôn ngữ được sử dụng trong Text.
Target : Phải detect (predict) mỗi Text thuộc loại ngôn ngữ nào.
Expriment
Tokenizer các text bằng tf-idf
Clean data
Chạy các model với tập dataset với các hyperparameter phù hợp.
Result
Nhìn chung hầu hết các model đều đạt kết quả tốt, mức accuracy là 100 cho
tất cả model.
Có thể do hình thức của 2 ngôn ngữ là hoàn toàn khác nhau ⇒ Việc phân loại
là vô cùng dễ dàng.
Kết quả và một số thử nghiệm được lưu ở trong code.

Language detection Vietnamese and Laos report 5844d0db34e64b46993729f4e1b33f9c

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Language detection Vietnamese and Laos report 5844d0db34e64b46993729f4e1b33f9c

Uploaded by

Copyright:

Available Formats

Language detection Vietnamese

and Laos report

Dataset sẽ gồm 2 columns là Text và Language với Language là nhãn để

2 Tôi yêu bạn Vietnamese

Training model model với các vector để predict.

Question : Implement detect Vietnamese language and Laos Language

Sử dụng TF-IDF tokenizer để vectorizer các Text trong training data

Language detection Vietnamese and Laos report 1

TF-IDF (Term Frequency-Inverse Document Frequency) là một kỹ thuật

Language detection Vietnamese and Laos report 2

Multinomial Naive Bayes

Language detection Vietnamese and Laos report 3

Long Short-Term Memory (LSTM) là một loại Recurrent Neural Network

Language detection Vietnamese and Laos report 4

Language : Ngôn ngữ được sử dụng trong Text.

Tokenizer các text bằng tf-idf

Kết quả và một số thử nghiệm được lưu ở trong code.

Language detection Vietnamese and Laos report 5

You might also like