Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 6

Học máy không giám sát

- Khái niệm: Là một nhóm thuận toán sử dụng dữ liệu không có nhãn. Các thuật toán
theo cách tiếp cận này hướng đến việc mô hình hóa được cấu trúc hay thông tin ẩn
trong dữ liệu.

Như bạn có thể thấy dữ liệu ở đây không được gán nhãn.
- Phân cụm (Clustering): Vấn đề về phân cụm là nơi bạn muốn khám phá các nhóm
vốn có trong dữ liệu, chẳng hạn như phân nhóm khách hàng theo hành vi của khách
hàng.

Kmeans Clustering

+) K-means clustering (Phận cụm K-means): Thuật toán này hoạt động theo từng
bước để gán mỗi điểm dữ liệu vào một trong K nhóm dựa trên các đặc điểm được cung
cấp. Các điểm dữ liệu được phân cụm dựa trên sự tương đồng về đặc điểm.
+) Có thể thấy dữ liệu ở đây đã được chia ra thành 2 cụm tương ứng với K = 2. Vậy
làm sao chúng ta có thể xác định được K ở đây là bằng 2.

Evaluation of Clustering
+) Sau khi xác định được có 2 cụm. Chúng ta hãy thử đánh giá 2 cụm đấy bằng cách
sử dụng bảng tương quan (cross tabulation table)

Ý nghĩa:
+) Cụm đầu tiên cho ta 80 mẫu không bình thường (Abnormal) và 0 mẫu bình thường
(Normal).
+) Cụm thứ 2 cho ta 130 mẫu không bình thường (Abnormal) và 100 mẫu bình thường
(Normal).
 Phần lớn 2 cụm là những bệnh nhân bất bình thường.
- Phương pháp khuỷu tay (elbow method):
+) B1: Tính bình phương khoảng cách giữa tâm cụm đến các điểm còn lại ở trong cụm
(Inertia).
+) B2: Tính trung bình cộng của tất cả các điểm thuộc cụm đó và vẽ biểu đồ.
+) B3: Thử cho K chạy từ trong khoảng giá trị xác định nào đó ví dụ ở đây là từ 0 cho
đến 7.
+) B4: Chọn giá trị của K sao cho khi tăng K lên thì Inertia giảm đi ít nhất.
Standardization
- Là một phương pháp để chuẩn hóa các đặc trưng (features) trong dữ liệu về một
phạm vi cố định. Đây là một bước quan trọng trong tiền xử lý dữ liệu. Các bước để
thực hiện standardization:
- Standardization (Chuẩn hóa):
+) Chuẩn hóa là việc biến đổi các đặc trưng sao cho chúng có trung bình bằng 0 và độ
lệch chuẩn bằng 1.
+) Cụ thể, với mỗi đặc trưng, ta trừ đi giá trị trung bình của toàn bộ dữ liệu và chia cho
độ lệch chuẩn của toàn bộ dữ liệu.
+) Phương pháp này giúp đảm bảo rằng các đặc trưng có cùng tỷ lệ và đồng nhất về
đơn vị đo.

Hierarchy
- Thuật toán Hierarchy (hay còn gọi là Hierarchical Clustering): là một phương
pháp phân cụm dựa trên cấu trúc cây. Dưới đây là tóm tắt về thuật toán này:
- Ý tưởng chính:
+) Thuật toán Hierarchy xây dựng một cây phân cấp (dendrogram) để biểu diễn sự
tương quan giữa các điểm dữ liệu.
+) Bắt đầu với việc xem xét mỗi điểm dữ liệu là một cụm riêng lẻ.
+) Tiếp tục gộp các cụm gần nhau thành cụm lớn hơn, dựa trên khoảng cách giữa
chúng.
+) Quá trình này tiếp tục cho đến khi tất cả các điểm dữ liệu được gộp thành một cụm
duy nhất.
Thuật toán T-SNE (T – Distributed Stochastic Neighbor Embedding)
- Ý tưởng chính của T-SNE: là tạo ra một biểu diễn dữ liệu thấp hơn sao cho các
điểm dữ liệu gần bằng nhau trong không gian ban đầu vẫn gần bằng nhau trong không
gian mới.
- Cách T-SNE là chuyển đổi sự tương tự giữa các điểm dữ liệu thành xác suất chung và
sau đó tối ưu hóa độ lệch Kullback-Leibler giữa xác suất chung của embedding chiều
thấp và dữ liệu chiều cao.
- Quá trình này giúp T-SNE gom nhóm các điểm dữ liệu tương tự lại với nhau trong
không gian chiều thấp.

Principal Component Analysis (PCA)


- Ý tưởng chính của PCA: là giúp giảm số chiều của dữ liệu bằng cách tìm không
gian con có số chiều nhỏ hơn không gian ban đầu.
- Nó tìm ra các thành phần chính của dữ liệu để giữ lại thông tin quan trọng.
- Cách hoạt động: Tìm các thành phần chính sao cho khi chiếu dữ liệu lên chúng, sự
biến động của dữ liệu là lớn nhất.

- Trong hình vẽ dưới đây, một biểu đồ phân tán (scatter plot) được tạo ra từ dữ liệu đã
được biến đổi bằng PCA. Hai nhóm điểm màu đỏ và xanh lá cây cho thấy sự phân chia
rõ rệt sau khi áp dụng PCA.

You might also like