Professional Documents
Culture Documents
Bảng Nhân Viên
Bảng Nhân Viên
Bảng Nhân Viên
Để ánh xạ xác suất này tới kết quả hai danh mục rời rạc, cần chọn
một ngưỡng để phân loại. Ngưỡng này gọi là “danh giới quyết định”
(decision bound).
Ví dụ S( z ) ≥ 0.5 (danh mục 1), S( z )≤ 0.5 (danh mục 0)
+ Hàm mất mát (Loss Function) được sử dụng để đánh giá kết quả mà mô
hình của chúng ta tạo ra khi dự đoán các kết quả từ dữ liệu đầu vào.
n
−1
Công thức: L(w )=
n ∑ [ y i log pi ¿ +( 1− y i ) log ( 1− pi ) ]¿
i=1
Trong đó:
n : số lượng mẫu dữ liệu trong tập huấn luyện.
y i : giá trị thực tế của đầu ra thứ i.
pi: xác suất dự đoán thuộc lớp 1 của mô hình cho đầu vào thứ i.
Hàm mất mát đo lường khoảng cách giữa hai phân phối xác suất y i
và pi. Khi mô hình dự đoán chính xác, tức là nếu y i=1 thì pi càng
gần 1, và ngược lại, sau đó hàm mất mát sẽ tiến gần về 0.
+ Để tìm giá trị tối ưu cho bộ trọng số w ( đại diện cho các đặc trưng trong
mô hình) chúng ta có thể sử dụng kỹ thuật Gradient Descent. Tại mỗi bước
lặp, chúng ta cập nhật w theo phương trình tương ứng với đạo hàm của hàm
mất mát L(w ¿ theo w .
2.2.2 Hồi quy logistic đa thức
- Hồi quy logistic đa thức là một mô hình hồi quy logistic được sử dụng để dự
đoán một biến phụ thuộc có nhiều hơn hai giá trị. Ví dụ như phân loại các con vật:
chó, mèo, hổ,… Trong hồi quy logistic đa thức, ý tưởng chính là thay vì sử dụng
một đường thẳng để phân tách các lớp, chúng ta sử dụng một đa thức để mô tả mối
quan hệ giữa biến độc lập và xác suất phân loại. Mô hình có thể có dạng như sau:
1
S( z )= −( β0+ β1 + …+β )
1+ e
x n
x
n
- Quy trình huấn luyện mô hình hồi quy logistic đa thức giống như quy trình của
hồi quy logistic thông thường, chúng ta sử dụng các phương pháp tối ưu hóa như
gradient descent để tối ưu hóa hàm mất mát của mô hình.
2.2.3 Ưu điểm và nhược điểm của thuật toán Logistic Regression
Ưu điểm:
Dễ hiểu và dễ triển khai
Có thể xử lý dữ liệu nhiễu
Có thể áp dụng cho nhiều bài toán phân loại
Nhược điểm:
Không thể xử lý dữ liệu không tuyến tính
Có thể dẫn đến quá khớp (overfitting)
2.3. Thuật Toán Random Forest
2.3.1 Khái niệm
- Random Forest là một thuật toán học có giám sát. Thuật toán này được xây dựng
từ nhiều cây quyết định (decision trees) mà mỗi cây được chọn theo một thuật toán
dựa vào ngẫu nhiên.
2.3.2 Cây quyết định
(https://trituenhantao.io/kien-thuc/decision-tree/)
- Cây quyết định (Decision Tree) là một thuật toán học có giám sát, l à một cây
phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật
- Cấu trúc của cây quyết định là:
+ Nút gốc (Root node): nút đầu tiên của cây, được sử dụng để phân chia dữ
liệu thành các nhánh con.
+ Nhánh (Branches): Mỗi nhánh đại diện cho một giá trị của thuộc tính.
+ Nút bên trong (Internal Nodes): đại diện cho việc kiểm tra một thuộc tính
cụ thể và dẫn đến các nhánh con.
+ Nút lá (Leaf Nodes): các nút cuối cùng của cây. Chúng đại diện cho kết
quả phân loại hoặc dự đoán.
Thuật toán ID3:
+ Ý tưởng: ID3 xây dựng cây quyết định bằng cách tìm kiếm thông
qua không gian của các thuộc tính để tạo ra các quy tắc đơn giản để
phân loại dữ liệu. Để đưa ra quyết định về việc chọn thuộc tính phân
chia, thuật tính này sử dụng Entropy và Information Gain.
+ Thuật toán:
Độ đo Entropy đo sự đồng nhất của tập dữ liệu D Entropy (D)
Với một phân phối xác suất của một biến rời rạc x có thể
nhận n giá trị khác nhau x 1, x 2 , … , x n.
pi: xác suất để một phần tử bất kỳ trong tập dữ liệu D thuộc
về lớp C i với biến rời rạc i = 1,..,m
C i: đại diện cho lớp thứ i trong bài toán phân loại. Một C i biển
diễn một nhãn hay một phân loại cụ thể
C i , D: tập các phần tử của lớp C i trong D
Information Gain: xác định các nút của cây Info ( D )
m
Entropy (D)=Info ( D )=−∑ pi log 2 ( pi )
i=1
pi=¿ C i , D∨ ¿ ¿
¿ D∨¿ ¿
Gain (A )
GainRatio ( A )=
SplitInfo A ( D )
m
Gini (D)=1−∑ p 2i
i =1
2.3.3 Cách thức hoạt động của thuật toán Random Forest
(https://couhpcode.wordpress.com/2018/01/24/random-forest-the-nao-la-mot-rung-ngau-
nhien/)
- Huấn luyện Ramdom Forest:
Với bộ dữ liệu của mình có n dữ liệu (sample) và mỗi dữ liệu có m thuộc
tính (feature)
Bước 1: Chọn ngẫu nhiên k thuộc tính từ tập m thuộc tính.
Bước 2: Từ tập k thuộc tính, tính toán ra node d sao cho d có sự tinh khiết
cao nhất để làm node phân loại.
Bước 3: Chia thành hai hoặc nhiều nhánh theo node tốt nhất vừa tìm được
Bước 4: Lặp lại bước 1-3 cho đến khi đạt đến k node
Bước 5: Lặp lại bước 1-4 để tạo ra n cây
- Để biểu diễn dự đoán sử dụng Random Forest đã huấn luyện:
Bước 1: Lấy các thuộc tính của dữ liệu thử nghiệm và sử dụng các Cây
quyết định đã tạo ra để dự đoán kết quả.
Bước 2: Đối với mỗi dự đoán của mỗi cây, ghi lại dự đoán và đếm số lượng
lần xuất hiện của mỗi kết quả.
Bước 3: Lấy kết quả có số lượng vote lớn nhất làm kết quả cuối cho mô
hình.
2.3.4 Ưu điểm và nhược điểm của thuật toán Random Forest
- Ưu điểm:
Chính xác cao.
Khả năng chống nhiễu.
Khả năng xử lý dữ liệu lớn.
Khả năng áp dụng cho nhiều nhiệm vụ.
- Nhược điểm của thuật toán Random Forest
Khó giải thích
Yêu cầu nhiều tài nguyên