Ưu điểm Nhược điểm đề xuất - Dễ hiểu và dễ giải thích: Mô - Nguy cơ overfitting cao: Cây hình dễ hiểu, dễ trực quan hóa và quyết định có xu hướng phù giải thích, thích hợp cho việc đưa hợp quá mức với dữ liệu huấn ra quyết định dựa trên mô hình. luyện, dẫn đến nguy cơ - Không cần chuẩn hóa dữ liệu: overfitting cao nếu không được Decision Tree Decision Tree có thể xử lý tốt cả xử lý đúng cách. dữ liệu số và dữ liệu phân loại mà - Tính ổn định kém: Một thay không cần chuẩn hóa hoặc chuyển đổi nhỏ trong dữ liệu có thể dẫn đổi. đến một cây quyết định hoàn toàn khác. - Hiệu suất cao: SVM thường cho - Khó chọn tham số: Việc tìm kết quả tốt trong các bài toán phân kiếm bộ tham số tối ưu (ví dụ: loại, đặc biệt là trong các không tham số C và gamma trong hàm gian đặc trưng có chiều cao. nhân) có thể khó khăn và đòi Support Vector - Linh hoạt: Khả năng sử dụng hỏi kiến thức chuyên sâu. Machine (SVM) hàm nhân khác nhau cho phép - Không hiệu quả với dữ liệu SVM linh hoạt trong việc xử lý lớn: SVM có thể không hiệu các loại dữ liệu khác nhau. quả về mặt tính toán khi làm việc với bộ dữ liệu có kích thước lớn. - Đơn giản và dễ hiểu: k-NN là - Không hiệu quả với dữ liệu một trong những thuật toán dễ lớn: k-NN cần phải so sánh hiểu và dễ triển khai nhất, không mẫu test với mỗi mẫu trong dữ đòi hỏi quá nhiều toán học phức liệu huấn luyện để tìm ra k k-Nearest Neighbors tạp. hàng xóm gần nhất, dẫn đến (k-NN) - Không cần giả định về dữ liệu: hiệu suất thấp khi làm việc với k-NN không đòi hỏi giả định về dữ liệu lớn. phân phối của dữ liệu, làm cho nó - Nhạy cảm với dữ liệu nhiễu: linh hoạt hơn với các loại dữ liệu. k-NN có thể bị ảnh hưởng bởi sự xuất hiện của dữ liệu nhiễu và các điểm dữ liệu bất thường. Random Forest - Hiệu suất cao: Random Forest - Khó giải thích: Mô hình thường cho kết quả rất tốt trên Random Forest có thể khó giải nhiều loại bộ dữ liệu và thường thích và hiểu rõ về cách nó đưa không cần tinh chỉnh nhiều. ra quyết định so với một cây - Giảm nguy cơ overfitting: Sử quyết định đơn lẻ. dụng nhiều cây quyết định và kỹ - Tốn kém về mặt tài nguyên: thuật bagging giúp giảm nguy cơ Việc xây dựng nhiều cây quyết overfitting so với một cây quyết định đòi hỏi nhiều tài nguyên định đơn lẻ. tính toán và bộ nhớ. - Xử lý tốt dữ liệu thiếu và nhiễu: Random Forest có khả năng xử lý dữ liệu thiếu một cách hiệu quả và ít bị ảnh hưởng bởi nhiễu. - Hiệu quả với dữ liệu nhỏ: Naive - Giả định độc lập mạnh: Giả Bayes có thể làm việc tốt ngay cả định rằng tất cả các đặc trưng với dữ liệu có kích thước nhỏ. đều độc lập với nhau có thể - Tốc độ tính toán nhanh: Do giả không phản ánh chính xác thực định độc lập giữa các đặc trưng, tế, làm giảm hiệu suất của mô Naive Bayes có tốc độ tính toán hình. Naive Bayes nhanh. - Nhạy cảm với dữ liệu không phù hợp với giả định: Khi dữ liệu không phản ánh giả định độc lập, hiệu suất của Naive Bayes có thể bị ảnh hưởng nghiêm trọng. - Hiệu suất cao: Gradient - Thời gian huấn luyện lâu: Do Boosting thường cung cấp hiệu cần phải huấn luyện tuần tự suất cao và độ chính xác tốt trên nhiều mô hình, Gradient nhiều loại bộ dữ liệu khác nhau, Boosting thường mất thời gian bao gồm cả bộ dữ liệu có đặc tính huấn luyện lâu hơn so với các phức tạp. phương pháp khác. - Xử lý tốt dữ liệu phi tuyến và - Dễ dẫn đến overfitting: Nếu tương tác giữa các đặc trưng: không được điều chỉnh kỹ Bằng cách sử dụng các cây quyết càng, đặc biệt với dữ liệu huấn Gradient Boosting định làm mô hình cơ bản, luyện nhỏ hoặc khi số lượng Gradient Boosting có khả năng cây quyết định lớn, mô hình có nắm bắt mối quan hệ phi tuyến và thể bị overfitting tương tác giữa các đặc trưng mà - Đòi hỏi tinh chỉnh nhiều tham không cần biến đổi phức tạp. số: Có nhiều tham số cần được - Linh hoạt: Có thể tùy chỉnh để tinh chỉnh để đạt được hiệu suất tối ưu hóa cho các loại mất mát tốt nhất, yêu cầu người dùng khác nhau, cho phép ứng dụng phải có kinh nghiệm và kiến rộng rãi trên nhiều loại bài toán. thức về mô hình. Logistic Regression - Dễ hiểu và dễ giải thích: - Giới hạn trong việc mô hình Logistic Regression cung cấp một hóa mối quan hệ phi tuyến: mô hình dễ hiểu, giúp giải thích Logistic Regression có thể mối quan hệ giữa các đặc trưng và không hiệu quả khi mối quan xác suất của sự kiện mục tiêu. hệ giữa các đặc trưng và mục - Hiệu suất tốt với dữ liệu tuyến tiêu là phi tuyến. tính: Trong trường hợp mối quan - Nhạy cảm với dữ liệu nhiễu: hệ giữa các đặc trưng và mục tiêu Mô hình có thể bị ảnh hưởng tương đối đơn giản và tuyến tính, bởi sự xuất hiện của dữ liệu Logistic Regression có thể cung nhiễu và điểm dữ liệu bất cấp hiệu suất tốt với ít tài nguyên thường. tính toán. - Giả định về sự độc lập của - Xử lý tốt dữ liệu lớn: Có thể xử các đặc trưng: Logistic lý hiệu quả dữ liệu lớn và đa Regression hoạt động tốt nhất chiều. khi các đặc trưng độc lập với nhau, điều này không luôn đúng trong thực tế.