Professional Documents
Culture Documents
K Means
K Means
K Means
K-MEANS
Machine learning
THÀNH Nhóm 6
Ví dụ Python
Giải giải quyết bài toán, ta cần giải quyết tối ưu ràng buộc:
2.3. THUẬT TOÁN
TỐI ƯU HÓA
Giả sử đã tìm được các tâm cụm, xác định cụm cho mỗi điểm dữ liệu để
hàm mất mát là nhỏ nhất. (Cố định 𝑚, tìm 𝑦 )
Giả sử đã biết cụm của từng điểm dữ liệu, xác định tâm cụm mới để
hàm mất mát là nhỏ nhất. (Cố định 𝑦, tìm 𝑚 )
Ta cứ làm xen kẽ như vậy đến khi hàm mất mát hội tụ tại giá trị nhỏ nhất.
2.3.1. Cố định m, tìm y
Hàm mj là hàm liên tục và có đạo hàm xác định tại mọi điểm nên ta sẽ tối
ưu bằng cách cho đạo hàm bằng 0.
Đặt L(mj) là hàm bên trong dấu argmin, ta có đạo hàm:
Tâm cụm mj chính là trung bình cộng của các điểm trong cluster j.
Tên gọi K-means cluster cũng xuất phát từ đây.
3.QUY Bước 1 Khởi tạo số lượng cụm (clusters) K
TRÌNH Bước 2 Khởi tạo các điểm trung tâm ban đầu
THỰC HIỆN
K-MEANS
Bước 3 Gán dữ liệu vào các cụm
Quy trình thực hiện thuật toán K- Bước 4 Cập nhật điểm trung tâm
means trong Machine learning
bao gồm các bước: Bước 3 và bước 4 sẽ được lặp đi lặp lại
Bước 5
cho tới khi vị trí của tâm cụm không
thay đổi hoặc tâm của tất cả các điểm
dữ liệu không thay đổi
4. VÍ DỤ PYTHON
4.1. Giới thiệu bài toán
Có 1 tập hợp các điểm trên không
gian tọa độ Oxy. Mỗi điểm sẽ có
tọa độ (x, y) xác định. Bài toán cần
giải quyết là chia các điểm này
thành K cụm khác nhau phân biệt.
4.2. Kết quả
Toàn bộ thuật toán K – means:
4.2. Kết quả
Kết quả cho ra tọa độ của 3 tâm cụm khá sát vớt các tâm mà chúng ta khởi
tạo là (2, 2), (9, 2) và (4,9). Điều đó cho thấy K-means đã làm rất tốt trong bài
toán này.
5.1. Ưu điểm
K-means là thuật toán đơn giản, có độ phức tạp
thấp
Dễ dàng thích ứng với các dữ liệu mới.
K-means thực hiện phân cụm tốt mà không cần
biết nhãn dữ liệu đầu vào.
5. ƯU VÀ K-means là nền tảng cho nhiều thuật toán phức
tạp sau này.
NHƯỢC Các cụm được tách biệt rõ ràng không có hiện
ĐIỂM tượng một đối tượng xuất hiện trong nhiều cụm
dữ liệu khác nhau.
CỦA Có khả năng sửa đổi, nâng cấp để tổng quát hóa
với các cụm có hình dạng, kích thước khác nhau
K-MEANS
5. ƯU VÀ NHƯỢC
ĐIỂM CỦA K-MEANS
5.2. Nhược điểm
K-medoid: Sử dụng một đối tượng ở gần tâm cụm nhất làm đại diện. Điều này giúp
k-Medoids trở nên ổn định hơn với các giá trị ngoại lai và và có khả năng xử lý tốt
hơn với các dữ liệu không phải là số, nhưng độ phức tạp lớn hơn.
Fuzzy c-mean (FCM): FCM là phân cụm dữ liệu mở. Thuật toán này khắc phục được
các cụm dữ liệu chồng nhau trên các tập dữ liệu có kích thước lớn hơn, nhiều chiều
và nhiễu. Song nhưng chúng vẫn nhạy cảm với các phần tử ngoại lai
THANKS
FOR
LISTENING!
Nhóm 6
Machine learing