BT KPDL

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 16

LKH 1:

Bảng giao dịch:

Transaction ID Items

T1 HotDogs, Buns, Ketchup

T2 HotDogs, Buns

T3 HotDogs, Coke, Chips

T4 Chips, Coke

T5 Chips, Ketchup

T6 HotDogs, Coke, Chips

Hãy xây dựng tập luật rút ra từ bảng nói trên và nhận xét với S=33.34%, C=60%
Bước 1: Tìm tập mục thường xuyên
1 item-sets Freq
HotDogs 4
Buns 2
Ketchup 2
Coke 3
Chips 4

Với S=33.34%, ta tìm được tập mục thường xuyên 1 phần tử như sau:
1 item-sets Freq
HotDogs 4
Coke 3
Chips 4

Từ tập mục thường xuyên 1 phần tử, ta có:


2 item-sets Freq
HotDogs, Coke 2
HotDogs, Chips 2
Coke, Chips 3

Với S=33.34%, ta tìm được tập mục thường xuyên 2 phần tử như sau:
2 item-sets Freq
Coke, Chips 3

Với S=33.34%, không còn chỗ để tạo tập mục thường xuyên 3 phần tử. Vậy nên bộ sản
phẩm cao nhất phù hợp với mức hỗ trợ 33.34% là bộ sản phẩm gồm 2 món.
Bước 2: Xây dựng luật kết hợp:

- Coke  Chips: Trong 6 giao dịch, Coke xuất hiện 3 lần; tập (Coke, Chips) xuất hiện
3 lần.
 Độ hỗ trợ là S = 3/6 = 50% và C = 3/3 = 100%
- Chips  Coke: Trong 6 giao dịch, Chips xuất hiện 4 lần; tập (Coke, Chips) xuất hiện
3 lần.
 Độ hỗ trợ là S = 4/6 = 50% và C = 3/4 = 75%

Với 2 luật trên, các ngưỡng cho hỗ trợ S=33.34% và độ tin cậy C=60% đều được đáp
ứng.
Bước 3: Kết luận

Các luật kết hợp là:

Coke  Chips {S = 50%, C = 100%}

Chips  Coke {S = 50%, C = 75%}

Từ luật kết hợp xây dựng được ở trên, nhận thấy Luật 1 có độ hỗ trợ và độ tin cậy lớn
nhất. Dự báo 2 trường hợp giỏ hàng 7,8

- Giỏ hàng 7: Coke


Theo luật 1 với dộ hỗ trợ là 50%, độ tin cậy là 100% sẽ dự đoán Chips. Khi khách
hàng mua sản phẩm Coke có thể sẽ quan tâm và mua thêm Chips
 Giao dịch 7: Coke, Chips
- Giỏ hàng 8: Coke, Ketchup
- Theo luật 1 với dộ hỗ trợ là 50%, độ tin cậy là 100% sẽ dự đoán Chips. Khi khách
hàng mua sản phẩm Coke, Ketchup có thể sẽ quan tâm và mua thêm Chips
 Giỏ hàng 8: Coke, Ketchup, Chips
LKH 2:
Bảng giao dịch:

TT Items

1 Apple, beer, rice, chicken

2 Apple, beer, rice

3 Apple, beer

4 Apple, peer

5 Milk, beer, rice, chicken

6 Milk, beer, rice

7 Milk, beer

8 Milk, peer
Hãy xây dựng tập luật rút ra từ bảng nói trên và nhận xét với S=30%, C=33%
Bước 1: Tìm tập mục thường xuyên
1 item-sets Freq
apple 4
milk 4
beer 6
peer 2
rice 4
chicken 2

Với S=30%, ta tìm được tập mục thường xuyên 1 phần tử như sau:
1 item-sets Freq
apple 4
milk 4
beer 6
rice 4

Từ tập mục thường xuyên 1 phần tử, ta có:


2 item-sets Freq
apple, milk 0
apple, beer 3
apple, rice 2
milk, beer 3
milk, rice 2
beer, rice 4
Với S=30%, ta tìm được tập mục thường xuyên 2 phần tử như sau:
2 item-sets Freq
apple, beer 3
milk, beer 3
beer, rice 4

Từ tập mục thường xuyên 2 phần tử, ta có:


3 item-sets Freq
apple, beer, milk 0
apple, beer, rice 2
milk, beer, rice 2

Với S=30%, không có tập mục thường xuyên 3 phần tử nào được lựa chọn. Vậy nên bộ
sản phẩm cao nhất phù hợp với mức hỗ trợ 30% là bộ sản phẩm gồm 2 món.
Bước 2: Xây dựng luật kết hợp:

- Apple  Beer: Trong 8 giao dịch, (Apple) (X) xuất hiện 4 lần; tập (apple, beer) xuất
hiện 3 lần.
 Độ hỗ trợ là S = 3/8 = 37.5% và C = 3/4 = 75%
- Beer  apple: Trong 8 giao dịch, (Beer) (X) xuất hiện 6 lần; tập (apple, beer) xuất
hiện 3 lần.
 Độ hỗ trợ là S = 3/8 = 37.5% và C = 3/6 = 50%
- Milk  beer: Trong 8 giao dịch, (Milk) (X) xuất hiện 4 lần; tập (milk, beer) xuất
hiện 3 lần.
 Độ hỗ trợ là S = 3/8 = 37.5% và C = 3/4 = 75%
- Beer  milk: Trong 8 giao dịch, (Beer) X xuất hiện 6 lần; tập (milk, beer) xuất hiện
3 lần.
 Độ hỗ trợ là S = 3/8 = 37.5% và C = 3/6 = 50%
- Beer  rice: Trong 8 giao dịch, (Beer) X xuất hiện 6 lần; tập (beer, rice) xuất hiện 4
lần.
 Độ hỗ trợ là S = 4/8 = 50% và C = 4/6 = 66.67%
- Rice  beer: Trong 8 giao dịch, (Rice) X xuất hiện 4 lần; tập (beer, rice) xuất hiện 4
lần.
 Độ hỗ trợ là S = 4/8 = 50% và C = 4/4 = 100%

Với 6 luật trên, các ngưỡng cho hỗ trợ S=30% và độ tin cậy C=33% đều được đáp ứng.

Bước 3: Kết luận

Các luật kết hợp là:

Apple  beer {S = 37,5%, C = 75%}

Beer  apple {S = 37,5%, C = 50%}

Milk  beer {S = 37,5%, C = 75%}

Beer  milk {S = 37,5%, C = 50%}

Beer  rice {S = 50%, C = 66,67%}

Rice  beer {S = 50%, C = 100%}

Từ luật kết hợp được xây dựng ở trên, nhận thấy có Luật 6 có đỗ hỗ trợ lớn nhất. Dựnbáo
3 giỏ hàng tiếp 9, 10, 11

- Giỏ hàng 9: Rice


Theo luật 6 với độ hỗ trợ là 50% và độ tin cậy là 100% sẽ dự đoán Beer. Khi KH
mua sản phẩm Rice có thể sẽ quan tâm và mua thêm Beer
 Giao dịch 9: Rice, Beer
- Giỏ hàng 10: Rice, Chicken
Theo luật 6 với độ hỗ trợ là 50% và độ tin cậy là 100% sẽ dự đoán Beer. Khi KH
mua sản phẩm Rice, Chicken có thể sẽ quan tâm và mua thêm Beer
 Giao dịch 9: Rice, Beer, Chicken
- Giỏ hàng 11: Rice, Apple, Milk
Theo luật 6 với độ hỗ trợ là 50% và độ tin cậy là 100% sẽ dự đoán Beer. Khi KH
mua sản phẩm Rice có thể sẽ quan tâm và mua thêm Beer
 Giao dịch 9: Rice, Beer, Apple, Mike
CQĐ 1:

Bước 1: Tìm nút gốc của cây từ 2/3 dữ liệu của đề bài
Bước 2: Xác định các nút tiếp theo
Bước 3: Test độ chính xác của cây
Bước 4: Dự báo dữ liệu
1. Xây dựng cây quyết định trên với 8 dòng đầu
B1: Xác định nút gốc của cây

Attribute Rule Error Total Error

Color Red  Negative 1/3 3/10

Blue  Negative 1/4


Green  Negative 1/3

Type SUV  Negative 1/4 3/10

Minivan  Negative 0/2

Car  Negative 2/4

Doors 2  Positive 2/5 2/10

4  Negative 0/5

Tires Whitewall  2/4 3/10


Negative

Blackwall  1/6
Negative

Từ bảng trên ta có thể thấy biến Doors là biến có ít lỗi nhất (2/10), coi Doors là nút gốc,
ta có cây quyết định như sau:
Bước 2: Xác định các nút tiếp theo

Attribute Rule Error Total Error

Color Red  Positive 1/2 2/5

Blue  Positive 1/2

Green  Positive 0/1

Type SUV  Negative 1/3 1/5

Car  Positive 0/2

Tires Whitewall  0/2 1/5


Positive
Blackwall  1/3
Negative

Nhìn vào bảng độ lỗi, ta thấy 2 thuộc tính Type và Tires đều có ít lỗi nhất (1/5). Do đó có
thể chọn 1 trong 2 thuộc tính làm nút lá của cây. Ở đây coi thuộc tính Type là nút lá, ta có
cây quyết định như sau:

Xác định nút tiếp theo:

Attribute Rule Error Total Error

Color Red  Positive 1/2 1/3

Blue  Negative 0/1

Green  Positive 0/1


Tires Whitewall  0/1 0/3
Positive

Blackwall  0/2
Negative

Từ bảng trên ta có thể thấy biến Tires là biến có ít lỗi nhất (0/3), coi Tires là nút lá tiếp
theo, ta có cây quyết định như sau:

2. Test cây quyết định và xác định độ chính xác của nó sử dụng các dòng còn lại
Lấy 4 dòng dữ liệu còn lại của bộ dữ liệu cho ở đề bài để test độ chính xác của cây:

No Color Type Doors Tires Class

12 Green SUV 4 Whitewall Positive


13 Red Car 2 Blackwall Positive

14 Green SUV 2 Blackwall Negative

15 Green Minivan 4 Whitewall Negative

Test độ chính xác của cây:

No Actual Estimate Validation

12 Positive Negative FN

13 Positive Positive TP

14 Negative Negative TN

15 Negative Negative TN

TP+TN 1+2 3
Accuracy= = = =75 %
TP+TN + FP+ FN 1+2+1+0 4
TP 1 1
Recall= = = =50 %
TP+ FN 1+ 1 2
TP 1 1
Precision= = = =100 %
TP+ FP 1+0 1

 Vậy độ chính xác của cây quyết định là 75%


3. Dự báo cho 3 dòng dữ liệu bất kì kế tiếp với cây vừa xây dựng

No Color Type Doors Tires Class

16 Red SUV 4 Whitewall Negative

17 Blue Car 2 Blackwall Positive

18 Green Car 2 Whitewall Positive

CQĐ 2:
Bước 1: Tìm nút gốc của cây từ 2/3 dữ liệu của đề bài
Bước 2: Xác định các nút tiếp theo
Bước 3: Test độ chính xác của cây
Bước 4: Dự báo dữ liệu
1. Xây dựng cây quyết định trên với 8 dòng đầu
B1: Xác định nút gốc của cây

Attribute Rule Error Total Error

Fever No  Poinsoning 0/3 1/8

Average  0/3
Influenza

High  Poinsoning 1/2

Vomiting No  Influenza 2/5 3/8


Yes  Poinsoning 1/3

Diarhea No  Influenza 1/4 2/8

Yes  Poinsoning 1/4

Shivering No  Poinsoning 2/6 2/8

Yes  Influenza 0/2

Từ bảng trên ta có thể thấy biến Fever là biến có ít lỗi nhất (1/8), coi Fever là nút gốc, ta
có cây quyết định như sau:

Bước 2: Xác định các nút tiếp theo

Attribute Rule Error Total Error

Vomiting No  Influenza 0/1 0/2

Yes  Poinsoning 0/1


Diarhea No  Influenza 0/1 0/2

Yes  Poinsoning 0/1

Shivering Yes  Influenza 0/1 0/2

No  Poinsoning 0/1

Nhìn vào bảng độ lỗi, ta thấy cả 3 thuộc tính Vomiting, Diarrhea và Shivering đều không
có lỗi. Do đó có thể chọn 1 trong 3 thuộc tính làm nút lá của cây. Ở đây coi thuộc tính
Vomiting là nút lá, ta có cây quyết định như sau:

2. Test cây quyết định và xác định độ chính xác của nó sử dụng các dòng còn lại
Lấy 3 dòng dữ liệu còn lại của bộ dữ liệu cho ở đề bài để test độ chính xác của cây:

No Fever Vomiting Diarrhea Shivering Class


9 High Yes Yes No Poinsoning

10 Average Yes Yes Yes Influenza

11 High No No Yes Poinsoning

Test độ chính xác của cây:

No Actual Estimate Validation

9 Poinsoning Poinsoning TN

10 Influenza Influenza TP

11 Poinsoning Influenza FN

TP+TN 1+1 2
Accuracy= = = =66.67 %
TP+TN + FP+ FN 1+1+0+1 3
TP 1 1
Recall= = = =50 %
TP+ FN 1+ 1 2
TP 1 1
Precision= = = =100 %
TP+ FP 1+0 1

 Vậy độ chính xác của cây quyết định là 66.67%


3. Dự báo cho 3 dòng dữ liệu bất kì kế tiếp với cây vừa xây dựng

No Fever Vomiting Diarrhea Shivering Class

12 No Yes No Yes Poinsoning

13 Average No Yes No Influenza

14 High Yes No Yes Poinsoning

You might also like