Unsupervised Learning

I/ Học máy không giám sát:
1.Khái niệm:
Máy học không có giám sát là khi bạn cung cấp dữ liệu đầu vào thuật toán mà không
có bất kỳ dữ liệu đầu ra được gắn nhãn nào. Sau đó, tự nó, thuật toán xác định các mẫu
và mối quan hệ trong và giữa dữ liệu.
Học dựa trên các quan hệ tương tự, sự đồng xuất hiện, hay các phép biến đổi ma trận.
2.Một số ứng dụng:
Học máy không giám sát có nhiều ứng dụng trong thực tế, bao gồm:
Phân cụm (Clustering): là một kỹ thuật phổ biến giúp tìm ra các nhóm dữ liệu tự
nhiên. Ví dụ, trong lĩnh vực kinh doanh, phân cụm có thể được sử dụng để phân loại
khách hàng dựa trên hành vi mua hàng, giúp doanh nghiệp phát triển chiến lược tiếp
thị cá nhân hóa.
Phát hiện bất thường: Học máy không giám sát có thể được sử dụng để phát hiện các
mẫu dữ liệu bất thường, giúp phát hiện gian lận, phát hiện xâm nhập mạng, hoặc phát
hiện sự cố trong hệ thống.
Phân tích giỏ hàng: Trong lĩnh vực bán lẻ, học máy không giám sát có thể được sử
dụng để phân tích các mục hàng được mua cùng nhau, giúp tối ưu hóa việc bán hàng.
II/ Kmeans method:

Một trong những thuật toán cơ bản nhất trong Unsupervised Learning. K-means
Clustering được sử dụng rộng rãi trong nhiều lĩnh vực của khoa học dữ liệu như phân
loại khách hàng, xử lý ảnh, giảm chiều dữ liệu, và phát hiện outlier.
Trong thuật toán K-means clustering, chúng ta không biết nhãn (label) của từng điểm
dữ liệu. Mục đích là làm thể nào để phân dữ liệu thành các cụm (cluster) khác nhau
sao cho dữ liệu trong cùng một cụm có tính chất giống nhau.
Nguyên lý hoạt động:
1. Khởi tạo K điểm dữ liệu trong bộ dữ liệu và tạm thời coi nó là tâm của các
cụm dữ liệu của chúng ta.
2. Với mỗi điểm dữ liệu trong bộ dữ liệu, tâm cụm của nó sẽ được xác định là
1 trong K tâm cụm gần nó nhất.
3. Sau khi tất cả các điểm dữ liệu đã có tâm, tính toán lại vị trí của tâm cụm để
đảm bảo tâm của cụm nằm ở chính giữa cụm.
4. Bước 2 và bước 3 sẽ được lặp đi lặp lại cho tới khi vị trí của tâm cụm không
thay đổi hoặc tâm của tất cả các điểm dữ liệu không thay đổi.
Ưu điểm và nhược điểm
Ưu điểm:
1. Là một trong những thuật toán đơn giản và hiệu quả nhất trong việc gom cụm dữ
liệu.
2. Tốc độ hội tụ nhanh
3. Thường được sử dụng khi làm việc với tập dữ liệu lớn.
Nhược điểm:
1. K-means có thể cho kết quả khác nhau tùy thuộc vào cách khởi tạo các trung tâm.
2. Yêu cầu biết trước số lượng cụm
3. Có thể không hoạt động tốt với các cụm có hình dạng phức tạp hoặc kích thước, số
lượng điểm khác nhau.
4. Có thể bị ảnh hưởng bởi dữ liệu nhiễu và ngoại lệ.
III/ Đánh giá phân cụm ( Evaluation of Clustering )

Không có tiêu chí nào là tốt nhất để đánh giá hiệu suất của phân cụm. Điều này phụ
thuộc vào mục đích của việc phân cụm.
Tiêu chí
1. Độ tương tự trong cụm: Các điểm dữ liệu trong cùng một cụm nên giống nhau càng
nhiều càng tốt (thường được đo lường bằng tổng bình phương khoảng cách giữa các
điểm dữ liệu và trung tâm của cụm).
2. Độ khác biệt giữa các cụm: Các cụm nên càng khác biệt (càng xa) nhau càng tốt.
Điều này thường được đo lường bằng khoảng cách giữa các trung tâm cụm.
3. Đánh giá dựa trên hình dạng và kích thước cụm: Một số thuật toán phân cụm giả
định rằng các cụm có hình dạng hình tròn và kích thước tương đương. Nếu dữ liệu
không tuân theo những giả định này, kết quả phân cụm có thể không tốt.
Phương pháp
1. Phương pháp Elbow: Là phương pháp phổ biến để xác định số lượng cụm tối ưu
trong thuật toán K-means. Phương pháp này vẽ đồ thị biểu diễn tổng bình phương
khoảng cách giữa các điểm dữ liệu và trung tâm cụm tương ứng với số lượng cụm. Số
lượng cụm tối ưu thường là giá trị tại "khủyu tay" của đồ thị, nơi việc tăng thêm số
lượng cụm không làm giảm đáng kể tổng bình phương khoảng cách.
2. Phương pháp Silhouette: Là một phương pháp khác để xác định số lượng cụm tối
ưu. Phương pháp này tính toán một giá trị silhouette cho mỗi điểm dữ liệu, đo lường
mức độ gần gũi của điểm dữ liệu đó với các điểm dữ liệu khác trong cùng một cụm so
với các cụm khác. Giá trị silhouette cao cho biết điểm dữ liệu đó được phân cụm tốt.
IV/ Chuẩn hóa
Khái niệm:
Chuẩn hóa dữ liệu là phương pháp khoa học để phân một bảng có cấu trúc phức tạp
thành những bảng có cấu trúc đơn giản theo những quy luật đảm bảo không làm mất
thông tin dữ liệu. Kết quả sẽ làm giảm bớt dư thừa và loại bỏ những sự cố mâu thuẫn
về dữ liệu, tiết kiệm không gian lưu trữ.
Một số dạng chuẩn hóa dữ liệu thông dụng là:
i. Dạng chuẩn thứ nhất (First Normal Form - 1NF)

ii. Dạng chuẩn thứ hai (Second Normal Form - 2NF)
iii. Dạng chuẩn thứ ba (Third Normal Form - 3NF)
iv. Dạng chuẩn Boyce-Codd (Boyce-Codd Normal Form - BCNF)
Phân cấp ( Hierarchy)

Phân cụm dữ liệu là bài toán gom nhóm các đối tượng dữ liệu vào thánh từng cụm
(cluster) sao cho các đối tượng trong cùng một cụm có sự tương đồng theo một tiêu chí
nào đó.
Đặc điểm:
 Số cụm dữ liệu không được biết trước
 Có nhiều các tiếp cận, mối cách lại có vài kỹ thuật
 Các kỹ thuật khác nhau thường mang lại kết quả khác nhau.
Nguyên lý:
Ý tưởng
Ban đầu mỗi điểm (đối tượng) là một cụm riêng biệt. Thuật toán phân cụm phân cấp sẽ
tạo ra các cụm lớn hơn bằng các sát nhập các cụm nhỏ hơn gần nhau nhất tại mỗi vòng
lặp.
Thuật toán
Trước khi thực hiện bài toán cần phải xác định:
 Tiêu chí chọn hai cụm "gần nhau nhất"
 Điều kiện dừng của thuật toán.
WHILE ( ! điều kiện dừng ) DO
 Chọn hai cụm gần nhau nhất theo tiêu chí đã xác định ban đầu.
 Sát nhập hai cụm gần nhau thành cụm lớn hơn.
 Điều kiện dừng:
Có sự hiểu biết và phỏng đoán được số cụm trong tập dữ liệu.
Khi việc sát nhập hai cụm tạo ra một cụm kém chất lượng.
Khi tạo ra cụm cuối cùng chứa tất cả các đối tượng. Kết quả sẽ cho ra một cây
phân cấp cụm.
 END WHILE;
Các phương pháp phân cấp: (các tiêu chí phân cấp)
1. Centroid-linkage: Sát nhập hai cụm có khoảng cách giữa hai tâm của hai cụm
này là nhỏ nhất.
2. Single-linkage: Sát nhập 2 cụm có khoảng cách giữa hai điểm gần nhau nhất
nhỏ nhất.
3. Average-linkage: Sát nhập 2 cụm có trung bình các khoảng cách giữa hai cặp
điểm bất kì nhỏ nhất.
4. Complete-linkage: sát nhập 2 cụm có khoảng cách giữa hai điểm xa nhau nhất
nhỏ nhất
5. Radius: bán kính của một cụm là khoảng cách từ tâm tới điểm xa nhất của cụm,
sát nhập hai cụm nếu hai cụm tạo ra một cụm có bán kính nhỏ nhất.
6. Diameter: đường kính của một cụm là khoảng cách của hai điểm xa nhau nhất
trong cụm, sát nhập hai cụm nếu chúng tạo nên một cụm có đường kính nhỏ
nhất.
7. Phân cụm phân cấp trong không gian khác Euclid
 Không tính toán dựa trên tọa độ các điểm (đối tượng)
 Áp dụng các độ đo khác Euclid như: Jaccard, Kullback-Leibler,...
 Không sử dụng được tâm của các cụm để tính toán như trong không gian
Euclid. Thay vào đó chọn một đối tượng trong cụm làm trung tâm của cụm
(clustroid). Đối tượng được chọn thường gần với tất cả các đối tượng trong
cụm. Một số cách chọn:
o Tổng khoảng cách từ clustroid đến các đối tượng khác trong cụm là nhỏ
nhất.
o Khoảng cách từ clustroid đến điểm xa nhất trong cụm là nhỏ nhất.
o Trung bình khoảng cách từ clustroid đến các đối tượng khác trong cụm
là nhỏ nhất.
Nhúng tản mạn (t-SNE)
Khái niệm:
Là một thuật toán giảm chiều dữ liệu phổ biến, nó thống kê để trực quan hóa dữ liệu
nhiều chiều bằng cách cung cấp cho mỗi điểm dữ liệu một vị trí trong bản đồ hai hoặc
ba chiều.
Mục đích:
Giảm kích thước phi tuyến tính để nhúng dữ liệu chiều cao để hiển thị trong không
gian chiều thấp có hai hoặc ba chiều. T-SNE cho phép chúng ta phân tách dữ liệu
không thể phân tách bằng bất kỳ đường thẳng nào.
Ứng dụng:
Được sử dụng để trực quan hóa trong nhiều ứng dụng, bao gồm gen , nghiên cứu bảo
mật máy tính , xử lý ngôn ngữ tự nhiên , phân tích âm nhạc, nghiên cứu ung thư , tin
sinh học , giải thích miền địa chất và xử lý tín hiệu y sinh.
Phân tích thành phần chính (PCA)
Khái niệm:
Là một kỹ thuật giảm kích thước tuyến tính với các ứng dụng trong phân tích dữ liệu
thăm dò , trực quan hóa và tiền xử lý dữ liệu .
Ý nghĩa:
Dữ liệu được chuyển đổi tuyến tính sang một hệ tọa độ mới sao cho có thể dễ dàng xác
định được các hướng (thành phần chính) nắm bắt được sự thay đổi lớn nhất trong dữ
liệu.
Giảm chiều dữ liệu mà vẫn giữ được đặc trưng chính, chỉ mất đi “chút ít” đặc trưng.
Tiết kiệm thời gian, chi phí tính toán
Dễ dàng visualize dữ liệu hơn để ta có cái nhìn trực quan hơn.
Ứng dụng:
Phân tích thành phần chính có ứng dụng trong nhiều lĩnh vực như di truyền quần thể ,
nghiên cứu hệ vi sinh vật và khoa học khí quyển .

Unsupervised Learning

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Unsupervised Learning

Uploaded by

Copyright:

Available Formats

I/ Học máy không giám sát:

II/ Kmeans method:

III/ Đánh giá phân cụm ( Evaluation of Clustering )

i. Dạng chuẩn thứ nhất (First Normal Form - 1NF)

Phân cấp ( Hierarchy)

You might also like