Professional Documents
Culture Documents
Unsupervised Learning
Unsupervised Learning
1.Khái niệm:
Máy học không có giám sát là khi bạn cung cấp dữ liệu đầu vào thuật toán mà không
có bất kỳ dữ liệu đầu ra được gắn nhãn nào. Sau đó, tự nó, thuật toán xác định các mẫu
và mối quan hệ trong và giữa dữ liệu.
Học dựa trên các quan hệ tương tự, sự đồng xuất hiện, hay các phép biến đổi ma trận.
2.Một số ứng dụng:
Học máy không giám sát có nhiều ứng dụng trong thực tế, bao gồm:
Phân cụm (Clustering): là một kỹ thuật phổ biến giúp tìm ra các nhóm dữ liệu tự
nhiên. Ví dụ, trong lĩnh vực kinh doanh, phân cụm có thể được sử dụng để phân loại
khách hàng dựa trên hành vi mua hàng, giúp doanh nghiệp phát triển chiến lược tiếp
thị cá nhân hóa.
Phát hiện bất thường: Học máy không giám sát có thể được sử dụng để phát hiện các
mẫu dữ liệu bất thường, giúp phát hiện gian lận, phát hiện xâm nhập mạng, hoặc phát
hiện sự cố trong hệ thống.
Phân tích giỏ hàng: Trong lĩnh vực bán lẻ, học máy không giám sát có thể được sử
dụng để phân tích các mục hàng được mua cùng nhau, giúp tối ưu hóa việc bán hàng.
Các phương pháp phân cấp: (các tiêu chí phân cấp)
1. Centroid-linkage: Sát nhập hai cụm có khoảng cách giữa hai tâm của hai cụm
này là nhỏ nhất.
2. Single-linkage: Sát nhập 2 cụm có khoảng cách giữa hai điểm gần nhau nhất
nhỏ nhất.
3. Average-linkage: Sát nhập 2 cụm có trung bình các khoảng cách giữa hai cặp
điểm bất kì nhỏ nhất.
4. Complete-linkage: sát nhập 2 cụm có khoảng cách giữa hai điểm xa nhau nhất
nhỏ nhất
5. Radius: bán kính của một cụm là khoảng cách từ tâm tới điểm xa nhất của cụm,
sát nhập hai cụm nếu hai cụm tạo ra một cụm có bán kính nhỏ nhất.
6. Diameter: đường kính của một cụm là khoảng cách của hai điểm xa nhau nhất
trong cụm, sát nhập hai cụm nếu chúng tạo nên một cụm có đường kính nhỏ
nhất.
7. Phân cụm phân cấp trong không gian khác Euclid
Không tính toán dựa trên tọa độ các điểm (đối tượng)
Áp dụng các độ đo khác Euclid như: Jaccard, Kullback-Leibler,...
Không sử dụng được tâm của các cụm để tính toán như trong không gian
Euclid. Thay vào đó chọn một đối tượng trong cụm làm trung tâm của cụm
(clustroid). Đối tượng được chọn thường gần với tất cả các đối tượng trong
cụm. Một số cách chọn:
o Tổng khoảng cách từ clustroid đến các đối tượng khác trong cụm là nhỏ
nhất.
o Khoảng cách từ clustroid đến điểm xa nhất trong cụm là nhỏ nhất.
o Trung bình khoảng cách từ clustroid đến các đối tượng khác trong cụm
là nhỏ nhất.
Nhúng tản mạn (t-SNE)
Khái niệm:
Là một thuật toán giảm chiều dữ liệu phổ biến, nó thống kê để trực quan hóa dữ liệu
nhiều chiều bằng cách cung cấp cho mỗi điểm dữ liệu một vị trí trong bản đồ hai hoặc
ba chiều.
Mục đích:
Giảm kích thước phi tuyến tính để nhúng dữ liệu chiều cao để hiển thị trong không
gian chiều thấp có hai hoặc ba chiều. T-SNE cho phép chúng ta phân tách dữ liệu
không thể phân tách bằng bất kỳ đường thẳng nào.
Ứng dụng:
Được sử dụng để trực quan hóa trong nhiều ứng dụng, bao gồm gen , nghiên cứu bảo
mật máy tính , xử lý ngôn ngữ tự nhiên , phân tích âm nhạc, nghiên cứu ung thư , tin
sinh học , giải thích miền địa chất và xử lý tín hiệu y sinh.
Phân tích thành phần chính (PCA)
Khái niệm:
Là một kỹ thuật giảm kích thước tuyến tính với các ứng dụng trong phân tích dữ liệu
thăm dò , trực quan hóa và tiền xử lý dữ liệu .
Ý nghĩa:
Dữ liệu được chuyển đổi tuyến tính sang một hệ tọa độ mới sao cho có thể dễ dàng xác
định được các hướng (thành phần chính) nắm bắt được sự thay đổi lớn nhất trong dữ
liệu.
Giảm chiều dữ liệu mà vẫn giữ được đặc trưng chính, chỉ mất đi “chút ít” đặc trưng.
Tiết kiệm thời gian, chi phí tính toán
Dễ dàng visualize dữ liệu hơn để ta có cái nhìn trực quan hơn.
Ứng dụng:
Phân tích thành phần chính có ứng dụng trong nhiều lĩnh vực như di truyền quần thể ,
nghiên cứu hệ vi sinh vật và khoa học khí quyển .