Các phương pháp đã được đề xuất

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 3

5.

Các phương pháp đã được đề xuất

Phương pháp đã được


Ưu điểm Nhược điểm
đề xuất
- Dễ hiểu và dễ giải thích: Mô - Nguy cơ overfitting cao: Cây
hình dễ hiểu, dễ trực quan hóa và quyết định có xu hướng phù
giải thích, thích hợp cho việc đưa hợp quá mức với dữ liệu huấn
ra quyết định dựa trên mô hình. luyện, dẫn đến nguy cơ
- Không cần chuẩn hóa dữ liệu: overfitting cao nếu không được
Decision Tree
Decision Tree có thể xử lý tốt cả xử lý đúng cách.
dữ liệu số và dữ liệu phân loại mà - Tính ổn định kém: Một thay
không cần chuẩn hóa hoặc chuyển đổi nhỏ trong dữ liệu có thể dẫn
đổi. đến một cây quyết định hoàn
toàn khác.
- Hiệu suất cao: SVM thường cho - Khó chọn tham số: Việc tìm
kết quả tốt trong các bài toán phân kiếm bộ tham số tối ưu (ví dụ:
loại, đặc biệt là trong các không tham số C và gamma trong hàm
gian đặc trưng có chiều cao. nhân) có thể khó khăn và đòi
Support Vector - Linh hoạt: Khả năng sử dụng hỏi kiến thức chuyên sâu.
Machine (SVM) hàm nhân khác nhau cho phép - Không hiệu quả với dữ liệu
SVM linh hoạt trong việc xử lý lớn: SVM có thể không hiệu
các loại dữ liệu khác nhau. quả về mặt tính toán khi làm
việc với bộ dữ liệu có kích
thước lớn.
- Đơn giản và dễ hiểu: k-NN là - Không hiệu quả với dữ liệu
một trong những thuật toán dễ lớn: k-NN cần phải so sánh
hiểu và dễ triển khai nhất, không mẫu test với mỗi mẫu trong dữ
đòi hỏi quá nhiều toán học phức liệu huấn luyện để tìm ra k
k-Nearest Neighbors tạp. hàng xóm gần nhất, dẫn đến
(k-NN) - Không cần giả định về dữ liệu: hiệu suất thấp khi làm việc với
k-NN không đòi hỏi giả định về dữ liệu lớn.
phân phối của dữ liệu, làm cho nó - Nhạy cảm với dữ liệu nhiễu:
linh hoạt hơn với các loại dữ liệu. k-NN có thể bị ảnh hưởng bởi
sự xuất hiện của dữ liệu nhiễu
và các điểm dữ liệu bất thường.
Random Forest - Hiệu suất cao: Random Forest - Khó giải thích: Mô hình
thường cho kết quả rất tốt trên Random Forest có thể khó giải
nhiều loại bộ dữ liệu và thường thích và hiểu rõ về cách nó đưa
không cần tinh chỉnh nhiều. ra quyết định so với một cây
- Giảm nguy cơ overfitting: Sử quyết định đơn lẻ.
dụng nhiều cây quyết định và kỹ - Tốn kém về mặt tài nguyên:
thuật bagging giúp giảm nguy cơ Việc xây dựng nhiều cây quyết
overfitting so với một cây quyết định đòi hỏi nhiều tài nguyên
định đơn lẻ. tính toán và bộ nhớ.
- Xử lý tốt dữ liệu thiếu và nhiễu:
Random Forest có khả năng xử lý
dữ liệu thiếu một cách hiệu quả và
ít bị ảnh hưởng bởi nhiễu.
- Hiệu quả với dữ liệu nhỏ: Naive - Giả định độc lập mạnh: Giả
Bayes có thể làm việc tốt ngay cả định rằng tất cả các đặc trưng
với dữ liệu có kích thước nhỏ. đều độc lập với nhau có thể
- Tốc độ tính toán nhanh: Do giả không phản ánh chính xác thực
định độc lập giữa các đặc trưng, tế, làm giảm hiệu suất của mô
Naive Bayes có tốc độ tính toán hình.
Naive Bayes
nhanh. - Nhạy cảm với dữ liệu không
phù hợp với giả định: Khi dữ
liệu không phản ánh giả định
độc lập, hiệu suất của Naive
Bayes có thể bị ảnh hưởng
nghiêm trọng.
- Hiệu suất cao: Gradient - Thời gian huấn luyện lâu: Do
Boosting thường cung cấp hiệu cần phải huấn luyện tuần tự
suất cao và độ chính xác tốt trên nhiều mô hình, Gradient
nhiều loại bộ dữ liệu khác nhau, Boosting thường mất thời gian
bao gồm cả bộ dữ liệu có đặc tính huấn luyện lâu hơn so với các
phức tạp. phương pháp khác.
- Xử lý tốt dữ liệu phi tuyến và - Dễ dẫn đến overfitting: Nếu
tương tác giữa các đặc trưng: không được điều chỉnh kỹ
Bằng cách sử dụng các cây quyết càng, đặc biệt với dữ liệu huấn
Gradient Boosting
định làm mô hình cơ bản, luyện nhỏ hoặc khi số lượng
Gradient Boosting có khả năng cây quyết định lớn, mô hình có
nắm bắt mối quan hệ phi tuyến và thể bị overfitting
tương tác giữa các đặc trưng mà - Đòi hỏi tinh chỉnh nhiều tham
không cần biến đổi phức tạp. số: Có nhiều tham số cần được
- Linh hoạt: Có thể tùy chỉnh để tinh chỉnh để đạt được hiệu suất
tối ưu hóa cho các loại mất mát tốt nhất, yêu cầu người dùng
khác nhau, cho phép ứng dụng phải có kinh nghiệm và kiến
rộng rãi trên nhiều loại bài toán. thức về mô hình.
Logistic Regression - Dễ hiểu và dễ giải thích: - Giới hạn trong việc mô hình
Logistic Regression cung cấp một hóa mối quan hệ phi tuyến:
mô hình dễ hiểu, giúp giải thích Logistic Regression có thể
mối quan hệ giữa các đặc trưng và không hiệu quả khi mối quan
xác suất của sự kiện mục tiêu. hệ giữa các đặc trưng và mục
- Hiệu suất tốt với dữ liệu tuyến tiêu là phi tuyến.
tính: Trong trường hợp mối quan - Nhạy cảm với dữ liệu nhiễu:
hệ giữa các đặc trưng và mục tiêu Mô hình có thể bị ảnh hưởng
tương đối đơn giản và tuyến tính, bởi sự xuất hiện của dữ liệu
Logistic Regression có thể cung nhiễu và điểm dữ liệu bất
cấp hiệu suất tốt với ít tài nguyên thường.
tính toán. - Giả định về sự độc lập của
- Xử lý tốt dữ liệu lớn: Có thể xử các đặc trưng: Logistic
lý hiệu quả dữ liệu lớn và đa Regression hoạt động tốt nhất
chiều. khi các đặc trưng độc lập với
nhau, điều này không luôn
đúng trong thực tế.

You might also like