Professional Documents
Culture Documents
BT KPDL
BT KPDL
BT KPDL
Transaction ID Items
T2 HotDogs, Buns
T4 Chips, Coke
T5 Chips, Ketchup
Hãy xây dựng tập luật rút ra từ bảng nói trên và nhận xét với S=33.34%, C=60%
Bước 1: Tìm tập mục thường xuyên
1 item-sets Freq
HotDogs 4
Buns 2
Ketchup 2
Coke 3
Chips 4
Với S=33.34%, ta tìm được tập mục thường xuyên 1 phần tử như sau:
1 item-sets Freq
HotDogs 4
Coke 3
Chips 4
Với S=33.34%, ta tìm được tập mục thường xuyên 2 phần tử như sau:
2 item-sets Freq
Coke, Chips 3
Với S=33.34%, không còn chỗ để tạo tập mục thường xuyên 3 phần tử. Vậy nên bộ sản
phẩm cao nhất phù hợp với mức hỗ trợ 33.34% là bộ sản phẩm gồm 2 món.
Bước 2: Xây dựng luật kết hợp:
- Coke Chips: Trong 6 giao dịch, Coke xuất hiện 3 lần; tập (Coke, Chips) xuất hiện
3 lần.
Độ hỗ trợ là S = 3/6 = 50% và C = 3/3 = 100%
- Chips Coke: Trong 6 giao dịch, Chips xuất hiện 4 lần; tập (Coke, Chips) xuất hiện
3 lần.
Độ hỗ trợ là S = 4/6 = 50% và C = 3/4 = 75%
Với 2 luật trên, các ngưỡng cho hỗ trợ S=33.34% và độ tin cậy C=60% đều được đáp
ứng.
Bước 3: Kết luận
Từ luật kết hợp xây dựng được ở trên, nhận thấy Luật 1 có độ hỗ trợ và độ tin cậy lớn
nhất. Dự báo 2 trường hợp giỏ hàng 7,8
TT Items
3 Apple, beer
4 Apple, peer
7 Milk, beer
8 Milk, peer
Hãy xây dựng tập luật rút ra từ bảng nói trên và nhận xét với S=30%, C=33%
Bước 1: Tìm tập mục thường xuyên
1 item-sets Freq
apple 4
milk 4
beer 6
peer 2
rice 4
chicken 2
Với S=30%, ta tìm được tập mục thường xuyên 1 phần tử như sau:
1 item-sets Freq
apple 4
milk 4
beer 6
rice 4
Với S=30%, không có tập mục thường xuyên 3 phần tử nào được lựa chọn. Vậy nên bộ
sản phẩm cao nhất phù hợp với mức hỗ trợ 30% là bộ sản phẩm gồm 2 món.
Bước 2: Xây dựng luật kết hợp:
- Apple Beer: Trong 8 giao dịch, (Apple) (X) xuất hiện 4 lần; tập (apple, beer) xuất
hiện 3 lần.
Độ hỗ trợ là S = 3/8 = 37.5% và C = 3/4 = 75%
- Beer apple: Trong 8 giao dịch, (Beer) (X) xuất hiện 6 lần; tập (apple, beer) xuất
hiện 3 lần.
Độ hỗ trợ là S = 3/8 = 37.5% và C = 3/6 = 50%
- Milk beer: Trong 8 giao dịch, (Milk) (X) xuất hiện 4 lần; tập (milk, beer) xuất
hiện 3 lần.
Độ hỗ trợ là S = 3/8 = 37.5% và C = 3/4 = 75%
- Beer milk: Trong 8 giao dịch, (Beer) X xuất hiện 6 lần; tập (milk, beer) xuất hiện
3 lần.
Độ hỗ trợ là S = 3/8 = 37.5% và C = 3/6 = 50%
- Beer rice: Trong 8 giao dịch, (Beer) X xuất hiện 6 lần; tập (beer, rice) xuất hiện 4
lần.
Độ hỗ trợ là S = 4/8 = 50% và C = 4/6 = 66.67%
- Rice beer: Trong 8 giao dịch, (Rice) X xuất hiện 4 lần; tập (beer, rice) xuất hiện 4
lần.
Độ hỗ trợ là S = 4/8 = 50% và C = 4/4 = 100%
Với 6 luật trên, các ngưỡng cho hỗ trợ S=30% và độ tin cậy C=33% đều được đáp ứng.
Từ luật kết hợp được xây dựng ở trên, nhận thấy có Luật 6 có đỗ hỗ trợ lớn nhất. Dựnbáo
3 giỏ hàng tiếp 9, 10, 11
Bước 1: Tìm nút gốc của cây từ 2/3 dữ liệu của đề bài
Bước 2: Xác định các nút tiếp theo
Bước 3: Test độ chính xác của cây
Bước 4: Dự báo dữ liệu
1. Xây dựng cây quyết định trên với 8 dòng đầu
B1: Xác định nút gốc của cây
4 Negative 0/5
Blackwall 1/6
Negative
Từ bảng trên ta có thể thấy biến Doors là biến có ít lỗi nhất (2/10), coi Doors là nút gốc,
ta có cây quyết định như sau:
Bước 2: Xác định các nút tiếp theo
Nhìn vào bảng độ lỗi, ta thấy 2 thuộc tính Type và Tires đều có ít lỗi nhất (1/5). Do đó có
thể chọn 1 trong 2 thuộc tính làm nút lá của cây. Ở đây coi thuộc tính Type là nút lá, ta có
cây quyết định như sau:
Blackwall 0/2
Negative
Từ bảng trên ta có thể thấy biến Tires là biến có ít lỗi nhất (0/3), coi Tires là nút lá tiếp
theo, ta có cây quyết định như sau:
2. Test cây quyết định và xác định độ chính xác của nó sử dụng các dòng còn lại
Lấy 4 dòng dữ liệu còn lại của bộ dữ liệu cho ở đề bài để test độ chính xác của cây:
12 Positive Negative FN
13 Positive Positive TP
14 Negative Negative TN
15 Negative Negative TN
TP+TN 1+2 3
Accuracy= = = =75 %
TP+TN + FP+ FN 1+2+1+0 4
TP 1 1
Recall= = = =50 %
TP+ FN 1+ 1 2
TP 1 1
Precision= = = =100 %
TP+ FP 1+0 1
CQĐ 2:
Bước 1: Tìm nút gốc của cây từ 2/3 dữ liệu của đề bài
Bước 2: Xác định các nút tiếp theo
Bước 3: Test độ chính xác của cây
Bước 4: Dự báo dữ liệu
1. Xây dựng cây quyết định trên với 8 dòng đầu
B1: Xác định nút gốc của cây
Average 0/3
Influenza
Từ bảng trên ta có thể thấy biến Fever là biến có ít lỗi nhất (1/8), coi Fever là nút gốc, ta
có cây quyết định như sau:
No Poinsoning 0/1
Nhìn vào bảng độ lỗi, ta thấy cả 3 thuộc tính Vomiting, Diarrhea và Shivering đều không
có lỗi. Do đó có thể chọn 1 trong 3 thuộc tính làm nút lá của cây. Ở đây coi thuộc tính
Vomiting là nút lá, ta có cây quyết định như sau:
2. Test cây quyết định và xác định độ chính xác của nó sử dụng các dòng còn lại
Lấy 3 dòng dữ liệu còn lại của bộ dữ liệu cho ở đề bài để test độ chính xác của cây:
9 Poinsoning Poinsoning TN
10 Influenza Influenza TP
11 Poinsoning Influenza FN
TP+TN 1+1 2
Accuracy= = = =66.67 %
TP+TN + FP+ FN 1+1+0+1 3
TP 1 1
Recall= = = =50 %
TP+ FN 1+ 1 2
TP 1 1
Precision= = = =100 %
TP+ FP 1+0 1