Professional Documents
Culture Documents
Ứng dụng thuật toán Naive Bayes trong phân lớp văn bản
Ứng dụng thuật toán Naive Bayes trong phân lớp văn bản
Ứng dụng thuật toán Naive Bayes trong phân lớp văn bản
Nhóm 26
Nội dung
Giới thiệu về thuật toán Naive Bayes Phân lớp văn bản với thuật toán Naive
I III
Bayes
Trong đó:
P(A|B) là xác suất xảy ra của A khi B xảy
ra
P(B|A) là xác suất xảy ra của B khi A xảy
ra
P(A) là xác suất xảy ra của A
P(B) là xác suất xảy ra của B
• Công thức Bayes tổng quát
I.Giới thiệu về thuật - Với P(A) > 0 và {B1, B2, … Bn } là một hệ đầy đủ các
toán Naive Bayes biến cố.
Khi đó ta có:
II. Phân lớp sử dụng thuật toán
Naive Bayes
1. Thuật toán Naive Bayes cơ bản
II. Phân lớp văn bản • Bước 1: Huấn luyện Naive Bayes
bằng thuật toán
Naive Bayes - Tính xác suất P(Ci)
- Tính
Naive Bayes
2. Một số biến thể của thuật toán Naive Bayes
Yes
Lưu mô hình
Kết thúc
Ví dụ
Có 2 lớp dự báo:
+ P(Nắng|C1) = 0/3 = 0
+ P(Mưa|C1) = 2/3
+ P(Mưa|C2) = 1/4
Ví dụ
+ P(Nóng|C1) = 1/3
+ P(Cao|C1) = 2/3
+ P(Yếu|C1) = 3/3 = 1
Lược đồ của thuật + P(Yếu|C2) = 2/4 = 1/2
toán Naive Bayes
+ P(Mạnh|C1) = 0/3 = 0
Naive Bayes -Dữ liệu là yếu tố quan trọng nhất và cũng là vấn
đề mà chúng ta cần quan tâm nhất. Trong quá
trình xây dựng mô hình phân loại văn bản, bước
chuẩn bị và tiền xử lý dữ liệu có vai trò quyết định.
-Đối với bài toán phân loại văn bản tiếng Việt, dữ liệu
cần chuẩn bị là các bài báo tiếng Việt kèm theo chủ
đề. Loại dữ liệu này nhìn chung là rất dễ kiếm, bởi vì
có vô số website đăng tin tức mỗi ngày.
Dữ liệu dùng cho bài toán phân loại văn bản của
mình sau khi tiền xử lý được lưu thành 1 file duy
nhất. Mỗi dòng là một bài báo kèm theo thông tin
danh mục của nó.
Đọc dữ liệu từ file và tách làm 2 list text (dữ liệu) và label
(nhãn). Dữ liệu text[i] sẽ có nhãn là label[i].
Chia làm 2 tập train (X_train, y_train) và test (X_test,
y_test) theo tỉ lệ 80% train, 20% test.
IV. Đánh giá và kết luận
IV. Đánh giá và kết luận
IV. Đánh giá và kết luận
Tài liệu tham khảo:
Thanks for
watching!