Professional Documents
Culture Documents
Language detection Vietnamese and Laos report 5844d0db34e64b46993729f4e1b33f9c
Language detection Vietnamese and Laos report 5844d0db34e64b46993729f4e1b33f9c
Question : How to apply for detect Vietnamese language and Laos Language?
EX :
ID Text Language
1 ໄດ້ອະນຸຍາດໃຫ້ຜູ້ໃຊ້ດາວໂຫລດຂໍ້ຄວາມແລ Laos
Đầu tiên chúng ta phải Tokenizer và Vectorizer text (vietnamese and laos)
thành các vector.
Chọn model phù hợp cho task classification để phân loại vietnamese and laos
⇒ Nó sẽ đơn giản giống việc training bình thường chỉ khác là sử dụng tokenizer
cho text để biến nó thành các vector cho việc training
Trong thí nghiệm này em sẽ sử dụng một số model Machine Learning và một
vài Neural Network quen thuộc trong NLP.
Với yêu cầu phân biệt ngôn ngữ Việt và Lào ⇒ Ta cần những model cho binary
classification, và em sẽ thử nghiệm một vài model sau
Logisstic Regression
RNN
LSTM
Kết quả đạt được khá ổn với các thử nghiệm trên
Method
TF-IDF vectorizer
TF (Term Frequency) đo lường tần suất xuất hiện của một từ trong một tài
liệu.
IDF (Inverse Document Frequency) đánh giá mức độ phổ biến của từ đó
trong toàn bộ tập hợp tài liệu.
Cụ thể, TF-IDF giúp làm nổi bật những từ có tần suất cao trong một tài liệu
cụ thể nhưng hiếm khi xuất hiện trong các tài liệu khác, từ đó giúp cải thiện
độ chính xác của các hệ thống tìm kiếm và phân loại văn bản.
Logistic Regression
Logistic Regression (Hồi quy Logistic) là một thuật toán phân loại được sử
dụng để dự đoán xác suất một mẫu thuộc vào một trong hai nhóm (nhị
phân). Thuật toán này sử dụng một hàm sigmoid để biến đổi tổng hợp
tuyến tính của các biến đầu vào thành giá trị xác suất từ 0 đến 1
Multinomial Naive Bayes là một thuật toán phân loại dựa trên định lý Bayes,
đặc biệt hữu ích cho các bài toán phân loại văn bản và xử lý ngôn ngữ tự
nhiên. Thuật toán này giả định rằng các đặc trưng (features) xuất hiện độc
lập với nhau và tuân theo phân phối đa thức (multinomial distribution).
RNN
Recurrent Neural Network (RNN) là một loại mạng nơ-ron nhân tạo được
thiết kế để xử lý dữ liệu tuần tự.
Khác với mạng nơ-ron truyền thống, RNN có khả năng duy trì thông tin từ
các bước trước đó thông qua các kết nối hồi tiếp, giúp mô hình hóa các
mối quan hệ phụ thuộc theo thời gian.
Mỗi nút trong RNN không chỉ nhận đầu vào từ bước hiện tại mà còn từ
trạng thái ẩn của bước trước đó, cho phép mạng lưu giữ thông tin dài hạn.
Nhược điểm của RNN là hồi quy tuần tự nên tốc độ rất chậm và ghi nhớ
những thông tin ở rất xa mà không dùng đến
LSTM khắc phục những hạn chế của RNN truyền thống bằng cách sử
dụng các cơ chế cổng để kiểm soát luồng thông tin, giúp giảm thiểu vấn
đề vanishing gradient và explore gradient.
Dataset
Text : Một câu ngắn với ngôn ngữ Việt hoặc Lào.
Target : Phải detect (predict) mỗi Text thuộc loại ngôn ngữ nào.
Expriment
Clean data
Chạy các model với tập dataset với các hyperparameter phù hợp.
Result
Nhìn chung hầu hết các model đều đạt kết quả tốt, mức accuracy là 100 cho
tất cả model.
Có thể do hình thức của 2 ngôn ngữ là hoàn toàn khác nhau ⇒ Việc phân loại
là vô cùng dễ dàng.