Professional Documents
Culture Documents
BT-KHOI-NGHIEP Nhom 2
BT-KHOI-NGHIEP Nhom 2
Bước 1: Khởi tạo hai centroid (hai điểm trung tâm) ban đầu. Ta có thể chọn bất kỳ hai
điểm từ tập dữ liệu làm centroid ban đầu. Chọn A(1,1) và C(5,5) làm các centroid ban
đầu.
Chọn A(1,1) làm trung tâm cho cụm 1 và C(5,5) làm trung tâm cho cụm 2.
Bước 2: Gán từng điểm dữ liệu vào nhóm (cluster) gần nhất dựa trên khoảng cách
Euclidean tới các centroid. Tính khoảng cách giữa mỗi điểm dữ liệu và hai centroid
(Tính toán khoảng cách từ mỗi vector đến các điểm trung tâm và gán chúng vào cụm
tương ứng gần nhất.).
Để tính khoảng cách giữa hai vector, ta có thể sử dụng công thức khoảng cách
Euclidean (Ơclit):
- Độ đo khoảng cách giữa điểm A và centroid 1 (A(1,1)) là 0.
- Độ đo khoảng cách giữa điểm B và centroid 1 (A(1,1)) là sqrt((1.5 - 1)^2 + (1.5 -
1)^2) ≈ 0.71.
- Độ đo khoảng cách giữa điểm C và centroid 1 (A(1,1)) là sqrt((5 - 1)^2 + (5 - 1)^2) ≈
5.66.
- Độ đo khoảng cách giữa điểm D và centroid 1 (A(1,1)) là sqrt((3 - 1)^2 + (4 - 1)^2) ≈
3.16.
- Độ đo khoảng cách giữa điểm E và centroid 1 (A(1,1)) là sqrt((4 - 1)^2 + (4 - 1)^2) ≈
3.16.
- Độ đo khoảng cách giữa điểm F và centroid 1 (A(1,1)) là sqrt((3 - 1)^2 + (3.5 - 1)^2)
≈ 2.50.
Như vậy, các điểm A, B, và F gần centroid 1 hơn. Các điểm C, D, và E gần centroid 2
hơn.
Tương tự, tổng kết lại ta sẽ có:
- Khoảng cách từ A đến A là 0.
- Khoảng cách từ A đến C là 5.
- Khoảng cách từ B đến A là 0.5.
- Khoảng cách từ B đến C là 3.54.
- Khoảng cách từ D đến A là 2.83.
- Khoảng cách từ D đến C là 2.24.
- Khoảng cách từ E đến A là 3.16.
- Khoảng cách từ E đến C là 1.12.
- Khoảng cách từ F đến A là 2.5.
- Khoảng cách từ F đến C là 1.12.
Bước 3: Cập nhật lại các centroid cho mỗi nhóm bằng cách tính trung bình của tất cả
các điểm dữ liệu trong cùng một nhóm. Trong trường hợp này, centroid mới cho nhóm
1 là trung bình của A, B, và F, và centroid mới cho nhóm 2 là trung bình của C, D, và
E. Phân lớp tập dữ liệu dựa trên khoảng cách gần nhất.
- Vector A gần hơn với A hơn là C, nên vector A thuộc cụm A.
- Vector B gần hơn với A hơn là C, nên vector B thuộc cụm A.
- Vector D gần hơn với C hơn là A, nên vector D thuộc cụm C.
- Vector E gần hơn với C hơn là A, nên vector E thuộc cụm C.
- Vector F gần hơn với C hơn là A, nên vector F thuộc cụm C.
Bước 5: Lặp lại Bước 2 và Bước 3 cho đến khi các centroid không thay đổi hoặc đạt
đủ số lần lặp cố định hay hiểu cách khác là “Lặp lại bước 2 và bước 3 cho đến khi
không có sự thay đổi trong việc gán vector vào các cụm hoặc khi đạt đến một số lần
lặp tối đa”.
Ứng dụng thuật toán K-means với các bước trên, ta có thể phân lớp tập dữ liệu trên
thành hai cụm dựa trên độ tương tự giữa các vector (khoảng cách Ơclit) và đại diện
điểm của mỗi cụm là vector trung bình.
Đó sẽ là kết quả cuối cùng sẽ là hai nhóm (cluster) dựa trên độ đo khoảng cách
Euclidean và các centroid tương ứng của từng nhóm. Kết quả cuối cùng là:
- Cụm A gồm vector A và B.
- Cụm C gồm vector D, E và F.
Bài 2:Nguyễn Thị Dịu Xây dựng tập luật, sử dụng thuật toán ILA.
Bước 1: Chia tập mẫu ban đầu thành hai bảng con (2 lớp) bởi 2 loại quyết định “Yes” và
“No” như sau:
Bước 2: Áp dụng lần lượt các bước từ 2 đến 8 với bảng con thứ nhất
Với j = 1. Có 3 tổ hợp, mỗi tổ hợp gồm một thuộc tính là {Size}, {Color}, {Shape}
Với tổ hợp {Size} thuộc tính “Medium” xuất hiện 1 lần trong bảng 1 và không xuất
hiện trong bảng 2; thuộc tính “Small” và “Large” xuất hiện trên cả hai bảng
T(Sizemedium) = 1; T(Sizesmall) = 0; T(Sizelarge) = 0
Với tổ hợp {Color} thuộc tính “Green” xuất hiện 2 lần trong bảng 1 và không xuất
hiện trong bảng 2; thuộc tính “Blue” xuất hiện 1 lần trong bảng 1 và không xuất
hiện trong bảng 2; thuộc tính “Large” xuất hiện trên cả hai bảng
T(Colorgreen) = 2; T(Colorblue) = 1; T(Colorred) = 0
Với tổ hợp {Shape} thuộc tính “Brick” xuất hiện 1 lần trong bảng 1 và không xuất
hiện trong bảng 2; thuộc tính “Sphere” xuất hiện 2 lần trong bảng 1 và không xuất
hiện trong bảng 2; thuộc tính “Pillar” xuất hiện trên cả hai bảng
T(Shapebrick) = 1; T(Shapesphere) = 2; T(Shapepillar) = 0
Như vậy, ta có T(Colorgreen) và T(Shapesphere) lớn nhất và đều bằng 2. Ta mặc định chọn
T(Colorgreen) và ta sẽ có luật:
IF Color = Green THEN Decision = Yes (a)
Kế tiếp, loại bỏ hai dòng ứng với Color = Green ra khỏi bảng ta được:
Kế tiếp, loại bỏ dòng ứng với Size = Medium ra khỏi bảng ta được
Như vậy tất cả các dòng trong bảng 1 bị loại bỏ ta chuyển sang bảng 2
Với j = 1, có 3 tổ hợp mỗi tổ hợp gồm 1 thuộc tính là {Size}, {Color}, {Shape}. Ta
tính được:
T(Shapewedge) = 2 là lớn nhất. Do đó ta có luật:
IF Shape = Wedge THEN Decision = No (d)
Chọn trường hợp đầu tiên để xây dựng luật ta có luật sau:
IF (Size = Large) AND (Color = Red) THEN Decision = No (e)
Thuật toán kết thúc vì tất cả các bảng đã được xét đến và tất cả các dòng trong
các bảng đã được loại bỏ.
Bài 3: Nguyễn Như Thái Vẽ cây quyết định và tìm tập luật suy diễn ra Profit sử dụng
thuật toán ID3
Bài 4: Lê Thị HưngCho cơ sở dữ liệu gồm các giao dịch như bảng sau:
TID Items Bought
100 a; q; c; d; m;p
200 q; b; c; a; l; m; k
300 b; a;
400 b; c; k; p
500 q; a; c; e; l; p; m; n
Bài 5:Trần Văn Dũng Cho cơ sở dữ liệu gồm các giao dịch như bảng sau:
TID Items Bought
100 a; d; c; q; m;p
200 d; b; c; a; h; m; k
300 b; a; g
400 b; c; k; p
500 d; a; c; e; h; p; m; g
Cho ngưỡng hỗ trợ min support = 4.
1. Hãy vẽ FP – tree
2. Từ FP – tree trên, hãy khai phá các tập mục thường xuyên.
**Bước 1:** Tạo danh sách các mục và đếm tần suất xuất hiện của mỗi mục trong cơ
sở dữ liệu.
- Mục: a, b, c, d, e, g, h, k, m, p, q
- Tần suất xuất hiện: a(4), b(3), c(4), d(3), e(1), g(2), h(2), k(2), m(3), p(3), q(1)
**Bước 2:** Loại bỏ các mục không đạt đủ ngưỡng hỗ trợ (min support). Các mục
thường xuyên sẽ là: a, b, c, d, h, k, m, p.
**Bước 3:** Tạo FP-Tree từ các giao dịch sau khi loại bỏ các mục không đủ ngưỡng
hỗ trợ.
```
Root
|
a(4)
|\
b(3) c(4) d(3) h(2) m(3) p(3)
| | | | | | | |
k(2) c(1) p(2) q(1) b(2) a(3) k(1)
| | | | |
d(2) k(1) h(1) m(1) h(1)
| | | | |
h(1) h(1) m(1) p(1) e(1)
```
**Bước 4:** Từ FP-Tree trên, bạn có thể khai phá các tập mục thường xuyên bằng
cách duyệt ngược từ các mục lá (leaf) lên đến gốc cây và tạo các tập mục thường
xuyên từ các đường dẫn ngược.