Professional Documents
Culture Documents
Huong Dan Giai BT On Tap Hoc May
Huong Dan Giai BT On Tap Hoc May
STT Màu tóc Chiều cao Cân nặng Dùng thuốc? Kết quả
1 Đen Tầm thước Nhẹ Không Bị rám
2 Đen Cao Vừa phải Có Không
3 Râm Thấp Vừa phải Có Không
4 Đen Thấp Vừa phải Không Bị rám
5 Bạc Tầm thước Nặng Không Bị rám
6 Râm Cao Nặng Không Không
7 Râm Tầm thước Nặng Không Không
8 Đen Thấp Nhẹ Có Không
9 Râm Cao Nặng Có Không
10 Bạc Thấp Nhẹ Không Bị rám
11 Đen Thấp Nặng Có Bị rám
12 Râm Cao Nặng Không Không
- Train set: {1, … , 8}
- Test set : {9, …, 12}
Giai đoạn 2: khoảng cách từ các điểm cần dự đoán đến các điểm trong dữ liệu huấn luyện
p(i) d((9), p(i)) d((10), p(i)) d((11), p(i)) d((12), p(i))
1 2.65 2.24 2.45 2.45 Bị rám
2 1.41 3.16 2.24 1.73 Không
3 2.24 1.73 1.41 2.45 Không
4 2.65 2.24 1.41 2.45 Bị rám
5 1.73 2.24 2.45 1.41 Bị rám
6 1.00 3.00 2.45 0.00 Không
7 1.41 2.45 1.73 1.00 Không
8 3.00 2.24 2.00 3.16 Không
Positive: Bị Rám
Negative: Không
Giai đoạn 1:Tiền xử lý dữ liệu ( Chuyển đổi dữ liệu) 1.2. Dữ liệu sau khi chuyển đổi
Dùng
Kết quả
thuốc?
0 1
1 0
1 0
0 1
0 1
0 0
0 0
1 0
1 0
0 1
1 1
0 0
(3),(4), (7)}
Số lượng
2
1
(5),(6), (7)}
Số lượng
2
1
STT Màu tóc Chiều cao Cân nặng Dùng thuốc? Kết quả
Positive: Bị Rám
Negative: Không
Ghi chú:
d((9), (1)) = 4 vì
(1) (9) So sánh
Màu tóc Râm Đen Khác
Chiều cao Cao Tầm thước Khác
Cân nặng Nặng Nhẹ Khác
Dùng thuốc? Có Không Khác
=> Có 4 thuộc tính khác nhau do đó khoảng cách hamming từ (9) đến (1) là 4
Bước 2
Xác định tập k -láng giềng gần (NBs) và dự đoán
NBs(p(9)) = {(2),(6), (7)} NBs(p(11)) = {(3),(4), (7)}
Dự đoán cho p(9) Số lượng Dự đoán cho p(11)
Không (0) 3
Bị rám (1) 0
=> Kết quả (9): Không => Kết quả (11): Không
Bước 3
Dự đoán X1 = (Màu tóc=Râm, Chiều cao = Cao, Cân nặng = Nặng, Dùng thuốc = Có)
p(X1|c1) = p(Màu tóc=Râm|c1)*p(Chiều cao = Cao|c1)*p(Cân nặng = Nặng|c1)*p(Dùng th
p(X1|c2) = p(Màu tóc=Râm|c2)*p(Chiều cao = Cao|c2)*p(Cân nặng = Nặng|c2)*p( Dùng t
Dự đoán X2 = (Màu tóc=Bạc, Chiều cao = Thấp, Cân nặng = Nhẹ, Dùng thuốc = Không)
p(X2|c1) = p(Màu tóc=Bạc|c1)*p(Chiều cao = Thấp|c1)*p(Cân nặng = Nhẹ|c1)*p( D
p(X2|c2) = p(Màu tóc=Bạc|c2)*p(Chiều cao =Thấp|c2)*p(Cân nặng =Nhẹ|c2)*p( D
Dự đoán X3 = (Màu tóc = Đen, Chiều cao = Thấp, Cân nặng = Nặng, Dùng thuốc =Có)
p(X3|c1) = p(Màu tóc=Bạc|c1)*p(Chiều cao = Thấp|c1)*p(Cân nặng = Nhẹ|c1)*p( D
p(X3|c2) = p(Màu tóc=Bạc|c2)*p(Chiều cao =Thấp|c2)*p(Cân nặng =Nhẹ|c2)*p( D
Dự đoán X4 = (Màu tóc = Râm, Chiều cao = Cao, Cân nặng = Nặng, Dùng thuốc = Không)
p(X4|c1) = p(Màu tóc = Râm|c1)*p(Chiều cao = Cao|c1)*p(Cân nặng = Nặng|c1)*p
p(X4|c2) = p(Màu tóc=Bạc|c2)*p(Chiều cao =Thấp|c2)*p(Cân nặng =Nhẹ|c2)*p( D
Positive: Bị Rám
Negative: Không
Biểu diễn lại bài toán
Phân lớp:
c1(Kết quả = Không)
c2(Kết quả = Bị rám)
Mẫu mới
X1 = (Màu tóc=Râm, Chiều cao = Cao, Cân nặng = Nặng, Dùng thuốc = Có)
X2 = (Màu tóc=Bạc, Chiều cao = Thấp, Cân nặng = Nhẹ, Dùng thuốc = Không)
X3 = (Màu tóc = Đen, Chiều cao = Thấp, Cân nặng = Nặng, Dùng thuốc =Có)
N+FP+FN) 0.75
1
0.5
call) / (Precision + Recall) 0.66666667
STT Màu tóc Chiều cao Cân nặng Dùng thuốc?Kết quả
1 Đen Tầm thước Nhẹ Không Bị rám
2 Đen Cao Vừa phải Có Không
3 Râm Thấp Vừa phải Có Không
4 Đen Thấp Vừa phải Không Bị rám
5 Bạc Tầm thước Nặng Không Bị rám
6 Râm Cao Nặng Không Không
7 Râm Tầm thước Nặng Không Không
8 Đen Thấp Nhẹ Có Không
9 Râm Cao Nặng Có Không
10 Bạc Thấp Nhẹ Không Bị rám
11 Đen Thấp Nặng Có Bị rám
12 Râm Cao Nặng Không Không
STT Màu tóc Chiều cao Cân nặng Dùng thuốc? Kết quả (1) Xét tập S_Đen
1 Đen Tầm thước Nhẹ Không Bị rám
2 Đen Cao Vừa phải Có Không
4 Đen Thấp Vừa phải Không Bị rám
8 Đen Thấp Nhẹ Có Không
STT Màu tóc Chiều cao Cân nặng Dùng thuốc? Kết quả
3 Râm Thấp Vừa phải Có Không Xét S_Râm => Đồng nhất về class (Khôn
6 Râm Cao Nặng Không Không
7 Râm Tầm thước Nặng Không Không
STT Màu tóc Chiều cao Cân nặng Dùng thuốc? Kết quả Xét S_Bạc => Đồng nhất về class (Bị rám
5 Bạc Tầm thước Nặng Không Bị rám
Vậy mô hình cây quyết đinh từ tập huấn
Positive: Bị Rám
Negative: Không
Tính entropy tổng quát
S{3+, 5-} |S| = 8
Bị rám (+) Không (-) |S| p(Bị rám) p(Không)
3 5 8 3/8 5/8
Entropy(S) = 0.954
Gain (S_Đen, x = Dùng thuốc) là lớn nhất => dùng "Dùng thuốc" làm thuộc tính phân chia tiếp của S_Đen
Chia S_Đen theo 'Dùng thuốc'
S_Đen_Có = [2, 8] => Đồng nhất class (Không) cho nút (lá) và dừng
S_Đen_Không = [1,4] => Đồng nhất class (Bị rám) => gán thuộc class (Bị rám) cho nút (lá) và dừng
S_Râm => Đồng nhất về class (Không) => gán nhãn cho nút = 'Không'
S_Bạc => Đồng nhất về class (Bị rám) => gán nhãn cho nút = 'Bị rám'
mô hình cây quyết đinh từ tập huấn luyện
TP+TN)/(TP+TN+FP+FN) 0.75
1
0.5
(Precision*Recall) / (Precision + Recall) 0.6666666667
1/8 * Entropy(Màu tóc_Bạc)
hia tiếp của S_Đen
(lá) và dừng
0.75
1
0.5
0.6666666667
Hours of Mid-term Final
Student ID
study grade grade
1 10 80 90
2 8 75 85
3 5 60 70
4 12 90 95
5 6 65 75
6 9 85 88
7 7 70 80
8 11 88 92
9 4 50 60
10 8 72 78
11 10 78 87
12 3 45 55
Kết quả
Hours of Mid-term Final Predict by
Student ID
study grade grade KNN (k = 3)
10 8 72 78 80
11 10 78 87 87.67
12 3 45 55 68.33
ươc 2: Xác định tập láng giềng gần nhất Bước 3: Xác định giá trị Final Grade cho std (id = 10)
Bs(10) = {(2),(5),(7)} ID Final grade
1 90
2 85
6 88
ươc 2: Xác định tập láng giềng gần nhất Bước 3: Xác định giá trị Final Grade cho std (id = 10)
Bs(10) = {(2),(5),(7)} ID Final grade
3 70
5 75
9 60
Dự đóán
D15 = ( Sunny, Hot, High, Weak)
P(D15 |c1) = P(Out. = Sunny |c1) * P(Temp. = Hot|c1) * P(Humid. = High|c1) * P (Wind =
= 2/9 * 2/9 *3/9 * 6/9 = 0.01097394
P(D15 |c2) = P(Out. = Sunny |c2) * P(Temp. = Hot|c2) * P(Humid. = High|c2) * P (Wind =
= 3/5 * 2/5 *4/5 *2/5 = 0.0768
Kết quả
Temperat Play
Day Outlook Humidity Wind
ure Tennis
D15 Sunny Hot High Weak No
D16 Rain Mild Normal Strong Yes
D17 Overcast Cool Normal Strong Yes
D18 Rain Cool High Weak Yes
S= { 9+ , 5- }
D17) = Yes)
D18) = Yes)
A1(2, 10), A2(2,5), A3(8,4), A4(5,8), A5(7,5), A6(6,4), A7(1,2), A8(4,9)
Số cụm k = 3
VL1
Bước 1: tính khoảng cách từ các điểm dữ liệu đến tâm 3 cụm
P(i) X1 X2 cụm d(m1, P(i)) d(m2, P(i)) d(m3, P(i))
A1 2 10 0.00 3.61 8.06
A2 2 5 5.00 4.24 3.16
A3 8 4 8.49 5.00 7.28
A4 5 8 3.61 0.00 7.21
A5 7 5 7.07 3.61 6.71
A6 6 4 7.21 4.12 5.39
A7 1 2 8.06 7.21 0.00
A8 4 9 2.24 1.41 7.62
B2: Xác định các cụm và cập nhật tâm mới
Mô tả lại bài toán Cụm Tâm
Gom dữ liệu thành 3 cụm (C1,C2,C3) C1 = {A1} m1
Gọi m1, m2, m3 lần lượt là tâm của 3 cụm C1,C2,C3 C2 = {A3, A4, A5, A6, A8} m2
Trạng thái Ban đầu: C3 = {A2, A7} m3
X1 X2
m1 = A1 2 10
m2 = A4 5 8
m3 = A7 1 2
X2
12
10
0
0 1 2 3 4 5 6 7 8 9
VL2
ểm dữ liệu đến tâm 3 cụm Bước 1: tính khoảng cách từ các điểm dữ liệu đến tâm 3 cụm
Cụm mới d(m1, P(i)) d(m2, P(i)) d(m3, P(i)) Cụm mới
C1 0.00 5.66 6.52 C1
C3 5.00 4.12 1.58 C3
C2 8.49 2.83 6.52 C2
C2 3.61 2.24 5.70 C2
C2 7.07 1.41 5.70 C2
C2 7.21 2.00 4.53 C2
C3 8.06 6.40 1.58 C3
C2 2.24 3.61 6.04 C2
B2: Xác định các cụm và cập nhật tâm mới
X1 X2 Cụm Tâm X1 X2
2.00 10.00 C1 = {A1, A8} m1 3.00 9.50
6.00 6.00 C2 = {A3, A4, A5, A6} m2 6.50 5.25
1.50 3.50 C3 = {A2, A7} m3 1.50 3.50
VL3 VL4
Bước 1: tính khoảng cách từ các điểm dữ liệu đến tâm 3 cụm Bước 1: tính khoảng cách từ các điểm d
d(m1, P(i)) d(m2, P(i)) d(m3, P(i)) Cụm mới d(m1, P(i)) d(m2, P(i))
1.12 6.54 6.52 C1 1.95 7.58
4.61 4.51 1.58 C3 4.33 5.05
7.43 1.95 6.52 C2 6.61 1.04
2.50 3.13 5.70 C2 1.66 4.21
6.02 0.56 5.70 C2 5.20 0.70
6.26 1.35 4.53 C2 5.52 1.04
7.76 6.39 1.58 C3 7.49 6.43
1.12 4.51 6.04 C2 0.33 5.58
B2: Xác định các cụm và cập nhật tâm mới B2: Xác định các cụm và cập nhật tâm m
Cụm Tâm X1 X2 Cụm
C1 = {A1, A4, A8} m1 3.67 9.00 C1 = {A1, A4, A8}
C2 = {A3, A5,A6} m2 7.00 4.33 C2 = {A3, A5,A6}
C3 = {A2, A7} m3 1.50 3.50 C3 = {A2, A7}
SSE = 14.313
VL4
ảng cách từ các điểm dữ liệu đến tâm 3 cụm
d(m3, P(i)) Cụm mới
6.52 C1
1.58 C3
6.52 C2
5.70 C2
5.70 C2
4.53 C2
1.58 C3
6.04 C2
cụm và cập nhật tâm mới
Tâm X1 X2
m1 3.67 9.00
m2 7.00 4.33
m3 1.50 3.50