DataMining - Chuong 8

Khai thác dữ liệu trong kinh doanh Chương 8
CHƯƠNG 8
CÂY QUYẾT ĐỊNH
Nội dung chương này:

 Mô tả khái niệm về cây quyết định
 Mô tả khái niệm về sự hấp dẫn của quy tắc
 Minh họa quy tắc cây quyết định trong một trường hợp cụ thể
 Điểm lại các ứng dụng thực tế mô hình cây quyết định
 Thể hiện các ứng dụng của mô hình cây quyết định trong một tập dữ liệu lớn
 Minh họa phần mềm phân tích cây quyết định See5 trong Phần phụ lục
Các cửa hàng thực phẩm ngày nay quản lý hàng trăm ngàn mặt hàng (với các khác biệt về mùi
vị, kích cỡ…). Điều này làm nảy sinh dữ liệu quản lý tồn kho rất đồ sộ, sử dụng rất nhiều kĩ
thuật mã vạch. Kĩ thuật này cho phép ghi nhận các hồ sơ đưa hàng ra, và lưu lại được bộ dữ
liệu lớn về các giao dịch mà nếu khai thác bộ dữ liệu này sẽ nắm được nhu cầu của khách
hàng. Các cửa hàng thực phẩm tạo ra rất nhiều dữ liệu về mua (thậm chí hơn cả các cửa hàng
của Wal-Mart). Điều này đưa đến số lượng dữ liệu rất lớn mà có thể khai thác cho nhiều mục
đích đa dạng liên quan đến quản lý tồn kho.
Số lượng sản phẩm quá nhiều khiến cho thế hệ tự động của các mô hình dự đoán trở nên hữu
ích. Cây quyết định cung cấp một phương tiện để có được mô hình dự đoán sản phẩm cụ thể
dưới dạng các quy tắc dễ thực hiện. Quy tắc này có dạng NẾU-THÌ, rất dễ thực hiện với nhân
viên các cửa hàng thực phẩm. Các tiếp cận này của khai thác dữ liệu có thể được sử dụng bởi
các cửa hàng thực phẩm trong một số quyết định chính sách, như yêu cầu bổ sung hàng hóa
và đánh giá các chiến dịch khuyến mãi khác nhau.
Cũng tương tự như mô hình hồi qui và mạng thần kinh, mô hình cây quyết định hỗ trợ quá
trình khai thác dữ liệu thông qua mô hình hóa.
Cây quyết định trong bối cảnh khai thác dữ liệu ám chỉ cấu trúc hình cây của các quy tắc
(thường gọi là quy tắc liên kết). Quy trình cây quyết định khai thác dữ liệu bao gồm thu thập
các biến mà các nhà phân tích nghĩ rằng có khả năng liên quan đến quyết định đang được cân
nhắc, và phân tích khả năng của các biến này trong việc dự đoán kết cục. Cây quyết định cũng
hữu dụng trong việc hình thành cái nhìn sâu vào bên trong hành vi khách hàng và tìm ra cách
thức hoạt động tạo ra lợi nhuận dựa trên các kết quả 1. Thuật toán xác định một cách tự động
những biến nào quan trọng nhất, căn cứ trên khả năng của nó sắp xếp dữ liệu vào phân nhóm
kết quả đúng. Phương pháp này có một ưu điểm đáng kể so với phương pháp mạng thần kinh
và thuật toán di truyền là cung cấp tập các quy tắc có thể sử dụng lại, nhờ đó giải thích những
kết luận về mô hình 2. Có nhiều ví dụ ở đó cây quyết định được ứng dụng vào khai thác dữ
liệu kinh doanh, bao gồm phân loại những người xin vay nợ, xác định khách hàng tiềm năng,
và cho điểm đánh giá người xin việc.
Cây quyết định cung cấp phương pháp thực hiện cách tiếp cận hệ thống căn cứ trên quy tắc.
Hệ thống ID3 chọn một thuộc tính làm gốc, với các nhánh chia ra tương ứng với những giá
trị khác nhau của thuộc tính đó 3. Tất cả các đối tượng trong tập dữ liệu phân tích được phân
loại vào các nhánh này. Nếu tất cả các đối tượng trong một nhánh thuộc về cùng phân nhóm
kết quả, một nút được đặt tên và nhánh này kết thúc. Nếu có nhiều phân nhóm kết quả trong
một nhánh, một thuộc tính khác được chọn như một nút, và từ nút này có các phân nhánh là
tất cả những giá trị có thể có của thuộc tính này. Phương pháp entropy kinh nghiệm (entropy
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 129
heuristic) được sử dụng để chọn những thuộc tính có thông tin nhiều nhất. Trong các công cụ
khai thác dữ liệu khác nhau, những cách chọn các nhánh có khác nhau.
THAO TÁC CÂY QUYẾT ĐỊNH
Một ngân hàng có cơ sở dữ liệu về các người vay nợ ngắn hạn trong quá khứ. Cơ sở dữ liệu
này (được trình bày giản lược trong Bảng 4.4) bao gồm tuổi người xin vay, thu nhập người
xin vay, đánh giá rủi ro về người xin vay, và kết cục khoản nợ có được trả đúng hạn hay
không. Chính sách của ngân hàng đối xử với những người vay nợ khác nhau theo nhóm tuổi,
mức độ thu nhập và đánh giá rủi ro. Các nhóm tuổi là bé hơn hoặc bằng 30, trên 30 nhưng bé
hơn hoặc bằng 60, và trên 60. Các mức thu nhập lần lượt là bé hơn hoặc bằng 30.000$ mỗi
năm, trên 30.000 nhưng bé hơn hoặc bằng 80.000$ mỗi năm, và trên 80000$. Rủi ro cao được
đặt cho những người vay nợ có khoản nợ lớn hơn tài sản. Nếu tài sản của một người xin vay
nợ trừ đi tổng khoản xin vay còn lớn hơn khoản nợ thì rủi ro được đánh giá là thấp. Những
người xin vay mà có quan hệ nợ-tài sản nằm giữa những mức này được xếp hạng rủi ro trung
bình. Một cây sắp xếp thứ tự những kết nối có khả năng của những biến này. Một cây đầy đủ
liệt kê tất cả các kết nối của các giá trị của biến trong Bảng 8.1. Cây cho tập những quy tắc
này được thể hiện một phần trong Hình 8.1.
Hình 8.1: Một phần cây quyết định cho dữ liệu xin vay
Tuổi
Trẻ Trung niên Già
Thu nhập
Thấp Trung bình Cao
Rủi ro
Thấp Trung bình Cao
Kết cục Kết cục Kết cục
Một mô hình hệ thống căn cứ trên quy tắc đòi hỏi các nhân viên tín dụng của Ngân hàng
chuyên chịu trách nhiệm xét duyệt cho vay được phỏng vấn để phân loại và điều chỉnh quyết
định cho mỗi kết hợp của các biến. Một số cây có thể đơn giản ví dụ nếu thu nhập cao, khoản
cho vay có thể được chấp nhận một cách tự động bởi một số nhân viên tín dụng, điều này sẽ
làm giảm quy mô của cây xuống vì tuổi và rủi ro sẽ không được chú ý đến trong tình huống
này. Thêm nữa với những trường hợp không có thu nhập thấp, nếu rủi ro là cao, khoản vay có
thể không được duyệt. Quy tắc đầu tiên sẽ được thể hiện trong Bảng 8.2.
Cấu trúc này sử dụng dữ liệu phân loại vì số lượng kết cục là rõ ràng và có giới hạn (không
cho vay, cho vay, và có thể cho vay một phần). Dạng cây này được coi như một cây phân loại.
Các cây cũng được dùng cho dữ liệu với các kết cục liên tục, trong phương thức ước lượng
hoặc dự đoán. Trong những trường hợp này, thuật ngữ là cây hồi qui.
Bảng 8.1: Liệt kê sự kết hợp các biến về xin vay nợ
Tuổi = trẻ Thu nhập = thấp Rủi ro = thấp

Rủi ro = trung bình
Rủi ro = cao
Thu nhập = trung bình Rủi ro = thấp
Rủi ro = cao
Thu nhập = cao Rủi ro = thấp
Rủi ro = cao
Tuổi = trung bình Thu nhập = thấp Rủi ro = thấp
Rủi ro = cao
Rủi ro = cao
Rủi ro = cao
Tuổi = Già Thu nhập = thấp Rủi ro = thấp
Rủi ro = cao
Rủi ro = cao
Rủi ro = cao
Bảng 8.2: Quy tắc ban đầu

Tuổi Thu nhập Rủi ro Quy tắc
Cao Cho vay
Không cao Không cho vay
ĐỘ HẤP DẪN CỦA QUY TẮC
Dữ liệu, ngay cả là dữ liệu phân loại, có tiềm năng sử dụng nhiều quy tắc phân tích. Ví dụ
trong dữ liệu xin vay vừa minh họa trên có 3 biến, mỗi biến có thể nhận 3 giá trị. Vậy có
3_3_3=27 kết hợp, mỗi kết hợp được cho trong Bảng 8.1. Nếu có 10 biến, mỗi biến có 4 giá
trị có thể, số kết hợp có thể lên tới hàng triệu (1.048.576). Rõ ràng những kết cục theo quy tắc
kiểu nhẩm tính thô sơ như trên không còn phù hợp nữa. May mắn thay phương pháp cây
quyết định xác định các quy tắc hữu dụng nhất dưới dạng các kết cục tiên đoán. Hiệu quả của
quy tắc được đo lường dưới dạng độ tin cậy và mức hỗ trợ. Độ tin cậy là mức độ chính xác
của quy tắc, mức hỗ trợ là mức độ mà các điều kiện trước đó xảy ra trong dữ liệu. Ví dụ một
người bán lẻ sách có thể phát hiện ra rằng tất cả các trường hợp trong đó sách về bóng chày
của Zane Grey’s là cuốn The Short Stop được mua, thì cuốn sách khác của tác giả này là The
Young Pitcher cũng được mua. Điều này có thể xảy ra hết 8 trong 10 lần, đem lại sự tin cậy
0,8 cho quy tắc: nếu mua The Short Stop thì sau đó sẽ mua The Young Pitcher. Tuy nhiên quy
tắc này có thể không hữu dụng lắm khi cả hai cuốn đều hiếm được mua. Mức hỗ trợ cho một
quy tắc kết hợp chỉ ra tỉ lệ các hồ sơ quan sát được bao hàm bởi tập các thuộc tính trong quy
tắc kết hợp đó. Nếu có 10 triệu giao dịch mua sách, mức hỗ trợ cho quy tắc trên sẽ là
10/10.000.000, một mức đo lường hỗ trợ rất nhỏ chỉ 0,000001. Khái niệm này thường được sử
dụng hạn chế trong hệ thống kiến thức tự động (học máy). Độ tin cậy tối thiểu và mức độ hỗ
trợ có thể được xác định để giữ lại những quy tắc mà phương pháp cây quyết định (hoặc
phương pháp quy tắc liên kết khác) đã nhận diện
Để quy tắc hấp dẫn, chúng ta phải nhận diện một vài thứ hữu dụng (có độ tin cậy cao và mức
hỗ trợ đủ cao) và mới lạ. Ví dụ người bán thực phẩm áp dụng khai thác dữ liệu phát hiện ra
rằng trứng và thịt heo xông khói được mua chung nhau với độ tin cậy 0,9 và mức độ hỗ trợ
0,2 có thể không ấn tượng. Người bán thực phẩm đã biết điều đó trước khi khai thác dữ liệu.
Độ hấp dẫn là khả năng phân tích khai thác dữ liệu phát hiện ra một số điều không ngờ tới
(khám phá kiến thức). Xác nhận giả thuyết rằng trứng và thịt heo xông khói được bán chung
nhau vẫn hữu ích. Nhưng sẽ hữu dụng hơn khi khám phá ra rằng mứt dâu đen và trứng hay
được mua chung với một tỷ lệ tương tự (chú ý cho rằng chúng tôi không biết mối quan hệ
thực như thế có hay không). Các thông tin tìm được dạng này có thể dẫn đến việc sắp xếp lại
cách trưng bày hàng hoặc cách khuyến mãi.
HỌC MÁY– Machine learning
Thuật toán quy nạp quy tắc được xây dựng để xử lý dữ liệu phân loại một cách tự động (nó
cũng có thể hoạt động với dữ liệu liên tục). Với cách tiếp cận này trong xử lý, cần một kết cục
rõ ràng4. Thật may mắn trong trường hợp này có một kết cục rõ ràng: hai phân loại của kết
cục trả nợ. Quy nạp quy tắc hoạt động bằng cách tìm kiếm xuyên suốt bộ dữ liệu để tìm kiếm
mẫu và mối quan hệ. Các hồ sơ có thể được chia cụm vào các phân loại cụ thể. Học máy bắt
đầu không có giả định gì, chỉ xem xét dữ liệu đầu vào và kết quả. Sự phán đoán của các
chuyên gia không được sử dùng đến, điều này nghe có vẻ không hiệu quả, nhưng có nghĩa là
những sai lệch do con người gây ra sẽ bị loại trừ. Thuật toán phân chia đệ qui chia dữ liệu (dữ
liệu gốc chứ không phải dữ liệu đã nhóm như đã thể hiện ở trên) thành những tập con ngày
càng nhỏ hơn đưa tới cây quyết định 5.
Ví dụ xem xét 20 người xin vay nợ trước đây được thể hiện trong Bảng 8.3 với các kết cục đã
biết. Có 3 biến xem xét ở đây, mỗi biến có 3 mức độ có thể. Trong thực tế chúng ta có thể có
hàng ngàn quan sát, điều này khiến cho khó có khả năng xảy ra việc bất kì kết hợp nào của
các quan sát bị trống. Chúng ta dùng 20 quan sát để minh họa quy tắc tính toán, và của 27 kết
hợp, nhiều cái ở đây là trống. Những kết hợp của các quan sát minh họa được thể hiện trong
Bảng 8.4.
Bảng 8.3: Hai mươi trường hợp xin vay nợ trước đây
Tuổi Thu nhập Tài sản Nợ Xin vay Rủi ro Kết quả
20(trẻ) 17152(thấp) 11090 20455 400 Cao Đúng hạn
23(trẻ) 25862(thấp) 24756 30083 2300 Cao Đúng hạn
28(trẻ) 26169(thấp) 47355 49341 3100 Cao Trễ hạn
23(trẻ) 21117(thấp) 21242 30278 300 Cao Không trả
22(trẻ) 7127(thấp) 23903 17231 900 Thấp Đúng hạn
26(trẻ) 42083(trung bình) 35726 41421 300 Cao Trễ hạn
24(trẻ) 55557(trung bình) 27040 48191 1500 Cao Đúng hạn
23(trẻ) 38887(trung bình) 6260 33635 9400 Thấp Đúng hạn
28(trẻ) 31758(trung bình) 58492 49268 1000 Thấp Đúng hạn
25(trẻ) 80180(cao) 31696 69529 1000 Cao Trễ hạn
33(Trung niên 40921(trung bình) 91111 90076 2900 Trung bình Trễ hạn
36(Trung niên) 63124(trung bình) 164631 144697 300 Thấp Đúng hạn
39(Trung niên) 59006(trung bình) 195759 161750 600 Thấp Đúng hạn
39(Trung niên) 125713(cao) 382180 315396 5200 Thấp Đúng hạn
55(Trung niên) 80149(cao) 511937 21923 1000 Thấp Đúng hạn
62(già) 101291(cao) 783164 23052 1800 Thấp Đúng hạn
Bảng 8.4: Dữ liệu đã được nhóm

Tuổi Thu nhập Rủi ro Tổng cộng Đúng hạn Trễ hạn Xác suất
Trẻ Thấp Cao 4 2 2 0,50
Trẻ Thấp Thấp 1 1 0 1,00
Trẻ Trung bình Cao 4 3 1 0,75
Trẻ Trung bình Thấp 2 2 0 1,00
Trẻ Cao Cao 1 0 1 0,00
Trung niên Trung bình Trung bình 1 0 1 0,00
Trung niên Trung bình Thấp 2 2 0 1,00
Trung niên Cao Thấp 2 2 0 1,00
Gìa Cao Thấp 3 3 0 1,00
Học máy tự động bắt đầu với việc nhận diện những biến mà có khả năng phân biệt các kết cục
có thể có tốt nhất. Với mỗi trong 3 biến này, chúng ta có thể nhận diện các xác suất kết cục
trong Bảng 8.5.
Hầu hết phần mềm khai thác dữ liệu sử dụng đo lường entropy để đánh giá sức mạnh phân
biệt của mỗi biến, chọn biến với sức mạnh phân biệt cao nhất như biến đầu tiên để tách tập dữ
liệu. (Đo lường Chi-bình phương cũng có thể được sử dụng để chọn biến. Ba trong chín phân
loại được thể hiện ở đây có toàn bộ các quan sát thuộc về hẳn một loại kết cục này hoặc kết
cục khác (tuổi = cao và rủi ro = thấp có toàn bộ các trường hợp thuộc về loại trả đúng hạn; rủi
ro = trung bình chỉ có một trường hợp, và nó thuộc về loại trả trễ hạn, theo logic điều này
đáng nghi ngờ và nó dựa trên một cỡ mẫu có thể tối thiểu, nhưng nhớ rằng chúng ta đang cố
gắng minh họa thủ tục với tập dữ liệu nhỏ).
Một công thức cho entropy (Koonce và các đồng sự, 1997) với p là số quan sát thuộc về phân
loại dương và n là số quan sát thuộc về phân loại âm trong tập dữ liệu phân tích cho mỗi giá
trị của thuộc tính: 6
p p n n
Inform   log 2  log 2
pn pn pn pn
Công thức này có một vấn đề là nếu cả p và n bằng 0 (sẽ xảy ra nếu các kết cục đều thuộc về
một phân loại) thì log cơ số 2 không xác định được, và công thức này không thể sử dụng. Tuy
nhiên với các giá trị trên 0, công thức Inform sẽ hội tụ về 0. Với biến tuổi có 3 kết cục.
Entropy cho mỗi phân loại tuổi được xác lập bởi công thức này được trình bày trong Bảng 8.6
Bảng 8.5: Kết hợp các kết cục
Biến Giá trị Trường hợp Đúng hạn Trễ hạn Xác suất (đúng hạn)
Độ tuổi Trẻ 12 8 4 0,67
Trung niên 5 4 1 0,80
Già 3 3 0 1,00
Thu nhập Thấp 5 3 2 0,60
Trung bình 9 7 2 0,78
Cao 6 5 1 0,83
Rủi ro Cao 9 5 4 0,55
Trung bình 1 0 1 0,00
Thấp 10 10 0 1,00
Bảng 8.6: Tính toán entropy cho tuổi

p/(p+n) Log2 n/(p+n) Log2 Tổng kết quả Xác suất (trẻ) Tích số
Trẻ 8/12 -0,585 4/12 -1,585 0,918 12/20 0,551
Trung niên 4/5 -0,322 1/5 -2,322 0,722 5/20 0,180
Già 3/3 0* 0/3 0* 0* 3/20 0*
Tổng 0,731
* Công thức hoàn toàn không xác định được nhưng hội tụ về 0
Cho phân loại Trẻ, tính toán là [-(8/12)x(-0,5851)-(4/12)x(-1,585)]x(12/20)=0,551. Thước đo

entropy càng thấp, lượng thông tin càng nhiều (xác suất chấp nhận càng lớn). Các đo lường
entropy cho 3 biến này là:
Tuổi 0,731
Thu nhập 0,782
Rủi ro 0,446
Với thước đo này, biến rủi ro bao hàm nội dung thông tin lớn nhất. Nếu rủi ro thấp, dữ liệu
chỉ ra một xác suất = 1 (10 trên 10 trường hợp) mà người xin vay sẽ trả khoản nợ đúng hạn.
Nếu rủi ro không thấp, dữ liệu này cho thấy một xác suất 0,5 là người vay nợ sẽ trả đúng hạn.
Đây sẽ là quy tắc đầu tiên được chọn bởi thuật toán học máy.
NẾU (Rủi ro = Thấp) THÌ Dự đoán trả đúng hạn
NGƯỢC LẠI Dự đoán Trễ hạn
Quy tắc này có hai loại lỗi. Đầu tiên, những người xin vay này được đánh giá Rủi ro thấp có
thể thực sự trả không đúng hạn. (từ dữ liệu, xác suất điều này xảy ra là 0,0). Thứ hai, những
người được đánh giá rủi ro cao hoặc trung bình thực ra có thể thực sự trả đúng hạn nếu được
cho vay. (từ dữ liệu, xác suất điều này xảy ra là 0,5). Kì vọng của điều này là xác suất một
người xin vay được đánh giá rủi ro trung bình hoặc cao (10/20 hay 0,5) nhân xác suất sai
(0,5), đưa ra một sai số kì vọng bằng 0,25. Để kiểm tra quy luật này tốt nhất là áp dụng cho
tập dữ liệu thứ 2 khác với tập dữ liệu được sử dụng để phát triển quy tắc.
Tập các quy tắc này có thể được khảo sát kĩ hơn để phát hiện liệu có đạt được độ chính xác
cao hơn không. Công thức entropy cho tuổi, biết rằng rủi ro không thấp, là 0,991, trong khi
tính toán tương tự cho thu nhập là 1,971. Điều này có nghĩa là tuổi có khả năng phân biệt
mạnh hơn. Với dữ liệu này, nếu tuổi là trung niên, đó là trường hợp không trả đúng hạn.
Không có trường hợp lớn tuổi trong nhóm này. Vì vậy quy tắc thứ hai như sau:
1
Là kết quả của log2(8/12)
NẾU (Rủi ro KHÔNG Thấp) VÀ (Tuổi = Trung niên) THÌ Dự đoán trả Trễ hạn
NGƯỢC LẠI Dự đoán Trả đúng hạn
Trong trường hợp này, dữ liệu sẽ chỉ ra xác suất, như trong Bảng 8.7.
Bảng 8.7: xác suất theo từng trường hợp
Rủi ro Tuổi Tần số Xác suất (đúng hạn)
Thấp 10/20 1,0
Không thấp Trung niên 1/20 0,0
Không thấp Trẻ 9/20 0,56
Toàn bộ 10 quan sát trong tập con này của dữ liệu với đánh giá Rủi ro thấp đã trả đúng hạn.
Với 10 trường hợp khác mà rủi ro không thấp, 1 trường hợp với tuổi trung niên đã không trả
đúng hạn (như đã nói ở trước), trong khi 5 trong 9 trường hợp trẻ tuổi (vẫn nhóm rủi ro không
thấp này) đã trả đúng hạn. Sai số kì vọng ở đây là xác suất 4/9 cho 9 trường hợp trong toàn bộ
20, (4/9.9/20 hay = 0,2). Đây là một sự tiến bộ hơn trường hợp cũ với sai số kì vọng 0,25.
Với biến Thu nhập, biết Rủi ro không thấp và Tuổi không phải trung niên, có 9 trường hợp
còn lại, thể hiện trong Bảng 8.8. Bốn trong chín trường hợp này là có thu nhập thấp, với hai
trường hợp trả đúng hạn và hai trường hợp không trả đúng hạn. Bốn trường hợp có thu nhập
trung bình, 3 trong 4 trường hợp này trả đúng hạn và 1 không trả đúng hạn. Trường hợp cuối
cùng có thu nhập cao mà không trả đúng hạn.
Một quy tắc thứ ba, tận dụng những trường hợp với kết cục đồng nhất, là
NẾU (Rủi ro KHÔNG Thấp) VÀ (Tuổi KHÔNG Trung niên) VÀ (Thu nhập cao) THÌ Dự đoán trả Trễ hạn
NGƯỢC LẠI Dự đoán Trả đúng hạn
Mức độ chính xác kì vọng của 3 quy tắc cùng nhau được thể hiện trong Bảng 8.9. Sai số kì
vọng ở đây là 8/20 nhân với 0,375 bằng 0,15.
Một quy tắc bổ sung có thể được suy diễn. Với những trường hợp Rủi ro không cao, Tuổi =
trẻ và Thu nhập KHÔNG cao, có 4 trường hợp với thu nhập thấp (xác suất của trả đúng hạn là
0,5) và 4 trường hợp với thu nhập trung bình (xác suất của trả đúng hạn là 0,75). Sự phân biệt
rõ nhất được cung cấp bởi thu nhập trung bình, đưa đến quy tắc sau:
NẾU (Rủi ro KHÔNG Thấp) VÀ (Tuổi KHÔNG Trung niên) VÀ (Thu nhập trung bình) THÌ Dự đoán trả đúng hạn
NGƯỢC LẠI Dự đoán cái thứ hai
Với quy tắc này không tăng thêm độ chính xác, thể hiện trong Bảng 8.10
Bảng 8.8: Các xác suất được tính toán
Thu nhập Đúng hạn Trễ Xác suất (đúng hạn)
Thấp 2 2 0,50
Trung bình 3 1 0,75
Cao 0 1 0,00
Bảng 8.9: Mức độ chính xác được kì vọng của ba quy tắc
Rủi ro Độ tuổi Thu nhập Tần số Xác xuất (Đúng hạn)
Thấp 10/20 1,0
KHÔNG thấp Trung niên 1/20 0.0
KHÔNG thấp Trẻ Cao 1/20 0,0
KHÔNG thấp Trẻ KHÔNG CAO 8/20 0,625
Bảng 8.10: Mức độ chính xác của quy tắc thứ tư

Rủi ro Độ tuổi Thu nhập Tần số Xác xuất (Đúng hạn)
Thấp 10/20 1,0
KHÔNG thấp Trung niên 1/20 0.0
KHÔNG thấp Trẻ Cao 1/20 0,0
KHÔNG thấp Trẻ Trung bình 4/20 0,75
KHÔNG thấp Trẻ Thấp 4/20 0,5
Sai số kì vọng là 4/20×0,25 + 4/20×0,5 = 0,15, tương tự với khi không có quy tắc. Khi đó
phương pháp học máy không đạt được sự cải thiện hơn, thì quy tắc ngừng lại. (Ở đây chúng ta
đã khảo sát hết tất cả các cách kết hợp). Vì thế, quy tắc cuối cùng sẽ không được cộng thêm
vào 3 quy tắc đầu tiên. Thuật toán học máy sẽ dừng lại tại:
Nếu (Rủi ro thấp) THÌ dự đoán Đúng hạn

NGƯỢC LẠI
Nếu (Rủi ro không thấp) VÀ (Tuổi trung niên) THÌ dự đoán Trễ
NGƯỢC LẠI
Nếu (Rủi ro KHÔNG thấp) VÀ (Tuổi KHÔNG trung niên) VÀ (Thu nhập cao) THÌ dự đoán Trễ
NGƯỢC LẠI Dự đoán Đúng hạn
Mô hình này có thể được kiểm tra trên bộ dữ liệu được cho trong Bảng 4.5. Bảng 8.11 thể
hiện kết quả này. Hình 8.2 thể hiện cây quyết định cho tập các quy tắc này. Trong trường hợp
này ma trận trùng thể hiện ở Bảng 8.12. Trong trường hợp này độ chính xác của mô hình là
8/10 hoặc 80%. Có những sai số thuộc cả hai dạng (từ chối một đơn xin vay tốt, chấp nhận
một đơn xin vay xấu).
Bảng 8.11: Những quy tắc áp dụng cho các trường hợp kiểm tra
Hồ sơ Thực tế Dự đoán quy tắc Theo quy tắc Kết quả
1 Đúng hạn Đúng hạn 1 Phù hợp
4 Đúng hạn Đúng hạn Ngược lại Phù hợp
6 Đúng hạn Đúng hạn Ngược lại Phù hợp
7 Trễ hạn Đúng hạn Ngược lại Lệch
9 Đúng hạn Trễ hạn 3 Lệch
Bảng 8.12: Ma trận trùng cho tập quy tắc

Thực tế Trễ Đúng hạn Tổng
Trễ 0 1 1
Đúng hạn 1 8 9
Tổng 1 9 10
Hình 8.2: Cây quyết định cho các quy tắc
Rủi ro
Thấp Không thấp
Đúng hạn Tuổi
Trung niên Không trung niên
Trễ hạn Thu nhập
Cao Không cao
Trễ Đúng hạn
ỨNG DỤNG CÂY QUYẾT ĐỊNH
Phần này trình bày tóm tắt ngắn gọn về ứng dụng cây quyết định. Đầu tiên là dự báo tồn kho,
thứ hai là khai thác dữ liệu trong y tế, và thứ ba là kĩ thuật phần mềm. Sau đó chúng ta minh
họa phát triển cây quyết định được áp dụng cho chất lượng phát triển phần mềm.
Dự báo tồn kho

Cửa hàng thực phẩm kinh doanh nhiều mặt hàng với vô số dạng và kích cỡ. Các đơn vị hàng
trong kho là các món hàng hóa cụ thể, từng món trong số đó có một mức giá có thể kiểm tra
một cách mau lẹ bằng mã vạch. Các cửa hàng thực phẩm lớn có thế quản lý hơn 100.000 đơn
vị hàng. Tính tiền bằng mã vạch cung cấp dịch vụ nhanh chóng cho khách hàng nhưng cũng
đem lại lượng dữ liệu khổng lồ cần thiết cho người bán để quản lý tồn kho hàng hóa. Trong
khi có nhiều mặt hàng có thể dễ dàng dự đoán với phạm vi biến động nhỏ, các sự kiện như
khuyến mãi có thể tạo ra những bất thường trong biến động doanh số và tồn kho. Nhiều mối
tương tác giữa nhà sản xuất, nhà phân phối và các cửa hàng bán lẻ thách thức các kỹ thuật dự
báo truyền thống.
Một công cụ khai thác dữ liệu được thiết kế và thực hiện để phát hiện các kiểu mẫu trong
phần dư của các mô hình dự báo phản ánh những hiểu biết tại chỗ 7. Một mẫu ngẫu nhiên của
1,6 triệu hồ sơ thu thập trong một thời kì 30 tháng (từ một tổng thể 19 triệu hồ sơ) được sử
dụng để phản ánh khuyến mãi bán lẻ thực phẩm của 95 cửa hàng thực phẩm của một nhà bán
lẻ tại một khu vực dân cư rộng lớn. Mô hình này được kiểm tra lại trên một mẫu 400.000 hồ
sơ sau khi xây dựng mô hình.
Một mô hình dự đoán, bao gồm sản xuất và bán lẻ sẽ có khoảng trên 2.000 biến giả (Dummy),
vì thế rất khó nếu đưa các mô hình dự đoán truyền thống vào trong ứng dụng này. Khai thác
dữ liệu được sử dụng để phát triển một mô hình quy nạp quy tắc nhằm phát hiện khi nào
thông tin trong hai biến bị loại ra là thực sự quan trọng. Khi mô hình quy nạp quy tắc nhận ra
các biến này là quan trọng thì dự đoán truyền thống được điều chỉnh để đạt được dự đoán
chính xác hơn.
Phân tích khai thác dữ liệu tạo ra 28.000 quy tắc. Khoảng một nửa của số trường hợp dự đoán
có liên quan đến khuyến mãi, do đó không cần có sự điều chỉnh nào đối với mô hình dự đoán
truyền thống. Dự đoán được điều chỉnh theo quy tắc này là rất chính xác, chỉ một sản phẩm
cần điều chỉnh trong 80% các trường hợp, và chỉ có hai sản phẩm cần điều chỉnh trong 90%
các trường hợp. Sự cải thiện kết quả của mô hình truyền thống dao động từ 0% điều chỉnh cho
dầu gội gói nhỏ đến trên 27% điều chỉnh cho yogurt.
Khai thác cơ sở dữ liệu lâm sàng

Các chuyên gia y tế dùng cả hai triệu chứng tích cực và tiêu cực khi chuẩn đoán bệnh. Có trên
60 kiểm tra có khả năng mà có thể tìm ra nhiều nguyên nhân khác nhau gây ra đau đầu. Triệu
chứng loại trừ (được đại diện bởi các quy tắc âm) loại bỏ dấu hiệu các bệnh tật cụ thể khi một
triệu chứng có liên quan vắng mặt. Các triệu chứng bao hàm (được đại diện bởi các quy tắc
dương) dẫn tới nghi ngờ một căn bệnh cụ thể khi một triệu chứng liên quan có mặt.
Hệ thống quy nạp dựa trên quy tắc theo xác suất được phát triển dựa trên một tập các lý
thuyết thô cho lĩnh vực y tế về bệnh đau đầu, bệnh cerebulovasular (CVD) và bệnh viêm
màng não 8. Có 50.000 mẫu trong tập phân tích về bệnh đau đầu, bao gồm 45 nhóm và 147
thuộc tính. .Có trên 7500 mẫu trong tập phân tích mô hình bệnh CVD, với 285 thuộc tính có
sẵn để phân loại các trường hợp thành 22 loại. Mô hình bệnh viêm màng não có trên 1.200
mẫu trong tập phân tích trên 41 thuộc tính thành 4 nhóm của biến kết quả.
Người ta so sánh hiệu quả mô hình. Các mẫu được ngẫu nhiên chia thành mẫu phân tích mới
và mẫu kiểm tra mới. Phương pháp quy nạp quy tắc thông thường AQ15 và C4.5 được sử
dụng trên mẫu phân tích mới. Quy tắc cũng được hình thành (một cách thủ công) từ các nhà
chuyên môn. Các quy tắc quy nạp và các quy tắc từ các nhà chuyên môn được kiểm tra dựa
trên một mẫu kiểm tra mới. Thủ tục này được lặp lại 100 lần, vì thế đó là kiểm tra chéo hai
lần. Các quy tắc từ các chuyên gia có 92% chính xác trong toàn bộ ba loại bệnh. Mô hình
AQ15 và C4.5 đã tính trung bình khoảng 82% chính xác, với AQ15 có trung bình hơi cao hơn
chút và C4.5 với kết quả tối thiểu hơi cao hơn. Hệ thống thô các quy tắc đã được ấn định căn
cứ chỉ trên quy tắc dương là có nhiều lỗi hơn, trung bình khoảng 70% chính xác. Tuy nhiên
mô hình căn cứ trên cả hai tập quy tắc dương và âm từ tập thô đã tính trung bình trên 90%
chính xác, gần như phù hợp với mô hình căn cứ trên ý kiến chuyên gia.
Một giá trị khác của mô hình hệ thống quy tắc đã phát triển là hiểu thấu các mối quan hệ mới
mà các chuyên gia không nhận ra. Đúng là thu nhận kiến thức tự động.
Chất lượng phát triển phần mềm

Kĩ thuật phần mềm là sự phát triển các mô đun phần mềm với xác xuất bị lỗi. Lỗi được định
nghĩa như một khiếm khuyết chương trình gây ra sự vận hành không chính xác của phần
mềm. Mục tiêu của ứng dụng khám phá kiến thức này là để tìm ra các kiểu mẫu trong dữ liệu
về sự phát triển những mô đun quá khứ sẽ cho phép đưa đến sự dự đoán tốt hơn liệu các mô
đun phần mềm có khả năng bị lỗi. Mục đích là để nhận ra lỗi trong quá trình phát triển phần
mềm càng sớm càng tốt, vì vậy sự gia tăng độ tin cậy (ví dụ như nhiều đặc tính nghiêm ngặt,
kiểm tra và thanh tra) để giảm rủi ro về lỗi được nhận diện bởi khách hàng 9.
Nghiên cứu được tiến hành bởi một công ty liên lạc điện thoại lớn. Tỷ lệ lỗi cho các mô đun
không cần cập nhật là khá thấp (khoảng 99% các mô đun không có lỗi). Vì thế nghiên cứu tập
trung vào các mô đun được cập nhật sau khi công bố. Các mô đun tiêu biểu bao gồm nhiều
triệu dòng mã lệnh (line of code) trong vài ngàn mô đun như vậy. Với những mô đun đã cập
nhật thì xác suất lỗi là 0,074. Dữ liệu gần như được chia đôi, một nửa dùng cho phân tích và
một nửa dùng cho kiểm tra.
Xử lý sơ bộ bao gồm phát triển một bộ nhận dạng mô đun sạch, và các thước đo đặc trưng mã
nguồn. Có hai đo lường dạng đồ thị các lệnh gọi (ví dụ số lệnh gọi từ một mô đun này tới một
mô đun khác), 13 đo lường lưu đồ (ví dụ số nút vào hoặc số nút ra) và 9 đo lường câu lệnh
(bao gồm số dòng mã lệnh). Những mô đun khuyết dữ liệu bị loại bỏ.
Dữ liệu được giảm xuống bằng cách rút trích dữ liệu bị lỗi được phát hiện bởi khách hàng và
các biến xử lý phần mềm từ cơ sở dữ liệu của công ty. Cách thức tiến hành là dự đoán từ các
hồ sơ triển khai và các kế hoạch cài đặt.
Một mô đun là một tập các file nguồn, ở đây một giao dịch xảy ra với mỗi một thay đổi đến
một file nguồn. Kỹ thuật thu nhỏ dữ liệu được sử dụng để rút trích 7 biến ở mức độ mô đun.
Bao gồm dòng lệnh chết (code churn), hoặc tổng số lượng mã đã thay đổi trong mô đun, cũng
như kinh nghiệm của người lập trình dưới dạng số lượng cập nhật đã thực hiện trước đó.
Cũng có dữ liệu triển khai nhận dạng 4 giá trị biến: nhận diện địa điểm khách hàng, nhận diện
mô đun, các phiên bản được cài đặt, và ngày được cài đặt. Các thông tin này được dùng để
tính toán biến USAGE (sử dụng). Dữ liệu báo cáo vấn đề căn cứ trên 9 biến liên quan đến một
hệ thống báo cáo vấn đề. Thông tin này được sử dụng để tạo ra 8 biến cho nghiên cứu khai
thác dữ liệu.
Cây phân loại được sử dụng cho phân tích khám phá kiến thức này sử dụng thuật toán cây hồi
quy và phân loại (CART). CART cho phép xác định xác suất trước và sử dụng phí tổn của
phân loại sai. Ở đây cả hai loại lỗi đều được coi quan trọng ngang nhau, vì vậy tỉ lệ của phí
tổn phân loại sai là 1.0. CART thực hiện bằng cách bắt đầu với 40 biến và sau đó tỉa bớt cho
đến khi tỉ lệ lỗi chỉ còn trong một giới hạn xác định.
Mô hình đầu tiên được nhận diện bởi thuật toán CART dùng biến FLINCUQ (số lượng file
khác biệt, và đo lường câu lệnh), SRC_MOD (mạng mới và các dòng mã đã thay đổi),
CTRNSTMX (bộ cấu trúc điều khiển tối đa), UPD_CAR (số lượng những cập nhật mà các
nhà thiết kế đã thêm vào trong suốt thời gian làm việc tại công ty của họ), STMCTL (số câu
lệnh điều khiển), và USAGE (tỉ trọng các khu vực khách hàng theo một mô đun của phiên bản
đang lưu hành). Mô hình bao gồm dòng quy tắc sau:
Quy tắc Điều kiện Kết quả

1 Nếu FILINCUQ27 Không thiên về lỗi
2 Nếu FILINCUQ>27 & SRC_MOD30 & CTRNSTMX6 Không thiên về lỗi
3 Nếu FILINCUQ>27 & SRC_MOD&CTRNSTMX >6 & Không thiên về lỗi
UPD_CAR10
4 Nếu27<FILINCUQ29 & SRC_MOD30 & CTRNSTMX>6 & Thiên về lỗi
UPD_CAR>10 & STMCTL<630
5 Nếu29<FILINCUQ34 & SRC_MOD30 & CTRNSTMX>6 & Không thiên về lỗi
6 Nếu FILINCUQ>34 & SRC_MOD30 & CTRNSTMX>6 & Thiên về lỗi
7 Nếu FILINCUQ>27 & SRC_MOD30 & CTRNSTMX>6 & Không thiên về lỗi
UPD_CAR>10 & STMCTL≥630
8 Nếu FILINCUQ>27 & SRC_MOD>30 & USAGE0,005 Không thiên về lỗi

9 Nếu FILINCUQ>27 & SRC_MOD>30 & USAGE>0,005 Thiên về lỗi
Bảng 8.13: Ma trận trùng dữ liệu kiểm tra chất lượng phần mềm
Thiên về không lỗi Thiên về lỗi
Thực sự thiên về không có lỗi 73,8% 26,2%
Thực sự thiên về lỗi 28,9% 71,1%
Mô hình đơn thứ hai được nhận diện bởi CART xem xét sáu biến số được cho điểm là quan
trọng nhất trong mô hình đầu tiên. Mô hình cuối cùng sinh ra một bộ quy tắc đơn giản hơn
dùng biến số FILICUQ và VARSPNSM (toàn bộ các biến số; một thước đo câu lệnh khác).
Quy tắc Điều kiện Kết quả

1 Nếu FILINCUQ  27 không thiên về lỗi
2 Nếu 27 < FILINCUQ  49 & VARSPNSM  15657 không thiên về lỗi
3 Nếu 27 < FILINCUQ  49 & VARSPNSM > 15657 thiên về lỗi
4 Nếu FILINCUQ > 49 thiên về lỗi
Đánh giá
Mô hình đầu tiên đạt được ma trận trùng sau đây dựa trên bộ dữ liệu kiểm tra, trình bày dưới
dạng phần trăm trong Bảng 8.13. Mô hình thứ hai đơn giản hơn có tỷ lệ lỗi được trình bày
trong Bảng 8.14.
Hai mô hình có độ chính xác rất gần nhau. Mô hình đầu tiên tốt hơn ở độ chính xác kiểm tra
chéo, nhưng các biến của nó chỉ sẵn có trước khi phần mềm được đưa ra sử dụng. Mô hình
thứ hai có ưu điểm hơn là chỉ căn cứ trên dữ liệu sẵn có tại giai đoạn sớm hơn và cũng đòi hỏi
ít hơn việc giảm bớt dữ liệu.
Có nhiều ứng dụng khác của mô hình cây quyết định trong khai thác dữ liệu. Ngành công
nghiệp giấy là một ví dụ của tiến trình sản xuất liên tục. Cây quyết định được sử dụng bởi một
công ty sản xuất giấy 10. Mục tiêu sản xuất trong ví dụ này là giảm mức độ phế thải trong sản
xuất giấy. Dữ liệu về chất lượng sản xuất được lưu trữ tại nhiều trạm khác nhau trong xưởng,
bao gồm các đo lường giấy như trọng lượng, độ ẩm, độ dày. Dữ liệu từ mỗi cuộn giấy được so
sánh với dữ liệu quá khứ theo loại giấy được sản xuất. Cần nhiều tháng để nhận diện các hồ
sơ kết quả sản xuất tốt và xấu. Phương pháp quy nạp được chọn như một công cụ khai thác dữ
liệu, vì muốn giải thích được các kết luận mô hình. Hệ thống đưa ra kết quả rất tốt, dự đoán
chính xác 96% số cuộn giấy tốt và 88% số cuộn giấy lỗi. Một số vấn đề của mô hình dự đoán
là ngược lại với trực giác, cho thấy nghiên cứu mà giúp gia tăng hiểu biết về tiến trình sản
xuất giấy.
Ứng dụng khác của cây quyết định là ứng dụng thuật toán cây quyết định nghiên cứu quy nạp
để cải tiến tiến trình ra quyết định của Ủy ban lương bổng của công nhân New York 11. Việc
giảm thiểu chi phí quản lý được tìm từ việc áp dụng thủ tục hiệu quả hơn cho các yêu cầu vì
lương thấp số tiền nhỏ. Hệ thống đưa ra các quy tắc có thể được sử dụng để phân chia các
trường hợp vào những quy trình xử lý khác nhau. Trong trường hợp này hệ thống tự động đưa
ra quy tắc, sau đó được áp dụng như hệ chuyên gia (expert systems)quy tắc sản xuất.
Bảng 8.14: Ma trận trùng dữ liệu kiểm tra chất lượng phần mềm
Thiên về không lỗi Thiên về lỗi
Thực sự thiên về không có lỗi 73,0% 27%
Thực sự thiên về lỗi 27,4% 72,6%
ỨNG DỤNG PP CÂY QUYẾT ĐỊNH CHO BỘ DỮ LIỆU LỚN
Chúng ta sử dụng bộ số liệu Xin vay để minh họa thủ tục cây quyết định.
Dữ liệu Xin vay

Toàn bộ tập dữ liệu có 650 quan sát trên bốn biến. Chúng ta sử dụng 400 quan sát đầu tiên
cho phân tích, để lại 250 quan sát cuối để kiểm tra mô hình. 400 quan sát phân tích được phân
thành các mục hiển thị trong các bảng từ Bảng 8.15 đến Bảng 8.17. Bảng 8.16 trình bày tần số
của từng phân loại cho độ tuổi trung niên. Sau cùng, chúng ta có bảng dữ liệu người xin vay
nợ cao tuổi trong Bảng 8.17.
Bảng 8.15: Dữ liệu đã nhóm - Trẻ
Tuổi Thu nhập Rủi ro Đánh giá Đúng hạn Trễ hạn Xác suất
tín dụng
Trẻ Thấp Cao Đỏ 3 1 0,750
Vàng 7 1 0,875
Xanh 17 1 0,944
Trung bình Đỏ 1 1 0,500
Xanh 1 0 1,000
Thấp Xanh 7 0 1,000
Trung bình Cao Đỏ 9 9 0,500
Vàng 24 10 0,706
Xanh lá 42 6 0,875
Trung bình Vàng 1 0 1,000
Xanh 4 0 1,000
Thấp Đỏ 2 0 1,000
Cao Cao Đỏ 1 1 0,500
Vàng 5 3 0,625
Xanh 12 0 1,000
Bảng 8.16: Dữ liệu đã nhóm - Trung niên

Tuổi Thu nhập Rủi ro Đánh giá Đúng hạn Trễ hạn Xác suất
tín dụng
Trung niên Thấp Trung bình Xanh 3 0 1,000
Thấp Đỏ 0 1 0
Vàng 1 0 1,000
Xanh 2 0 1,000
Trung bình Cao Đỏ 1 1 0,500
Vàng 4 2 0,667
Xanh 17 1 0,994
Trung bình Vàng 4 0 1,000
Xanh 4 0 1,000
Thấp Đỏ 13 1 0,929
Vàng 37 4 0,902
Xanh 64 1 0,985
Cao Cao Vàng 1 0 1,000
Xanh 7 0 1,000
Thấp Đỏ 8 0 1,000
Vàng 14 0 1,000
Xanh 30 0 1,000
Bảng 8.17: Dữ liệu đã nhóm – lớn tuổi

Tuổi Thu nhập Rủi ro Đánh giá Đúng hạn Trễ hạn Xác xuất
tín dụng
già Trung bình Thấp Đỏ 0 1 0
Vàng 1 0 1,000
Xanh 2 0 1,000
cao Thấp Đỏ 2 0 1,000
Vàng 1 0 1,000
Xanh 3 0 1,000
Bảng 8.18: Kết cục kết hợp

Biến Giá trị Trường đúng hạn Trễ hạn Xác suất
hợp (đúng hạn)
Tuổi Trẻ 169 136 33 0,805
Trung niên 221 210 11 0,950
Lớn tuổi 10 9 1 0,900
Thu nhập Thấp 47 42 5 0,894
Trung bình 265 229 36 0,864
Cao 88 84 4 0,955
Nguy cơ Cao 186 150 36 0,806
Trung bình 19 18 1 0,947
Thấp 195 187 8 0,959
Đánh giá tín dụng Đỏ 56 40 16 0,714
Vàng 120 100 20 0,833
Xanh lá 224 215 9 0,960
Bảng 8.19: Tính toán Entropy cho Tuổi

p/(p+n) Log(base 2) n/(p+n) Log (base 2) Tổng Xác suất Product
(tích số)
Trẻ 136/169 -0,313 33/169 -2,356 0,712 169/400 0,301
Trung niên 210/221 -0,074 11/221 -4,328 0,285 22/400 0,158
Lớn tuổi 9/10 -0,152 1/10 -3,322 0,469 10/400 0,012
Tổng 0,470
Hầu hết các phân mục người già đều trống. Hơn nữa, tất cả các mục của người xin vay đã có
tuổi có sự đồng nhất trong kết cục của họ. Học máy tự động bắt đầu nhận diện những biến có
khả năng cao nhất phân biệt giữa các kết cục có thể. Với mỗi biến trong 4 biến chúng ta có thể
xác định được xác suất của các kết cục trong Bảng 8.18.
Đối với biến số về Tuổi, có ba kết cục. Entropy cho Tuổi tác theo công thức này được hiển thị
trong Bảng 8.19.
Trong Bảng 8.19 dưới tiêu đề Tổng là phép tính toán sau đây: Đối với người trẻ, cụm đầu tiên
của phương trình thông tin ta nhân tỉ lệ 136/169 với -0,313 rồi với -1 ; cụm thứ hai nhân tỉ lệ
33/169 với -2,356, rồi với -1. Tổng 2 cụm này là 0,712. Điều này biểu thị 169 của 400 trường
hợp phân tích. Cột có tiêu đề product (tích số) là kết quả của tổng theo xác suất. Đối với độ
tuổi trẻ (thanh niên), đây là 0,712 nhân 169/400, mang lại 0,301. Tổng của ba tích số này
mang lại đo lường entropy. Đo lường entropy càng thấp hơn, nội dung thông tin càng lớn hơn
(xác suất đồng ý càng lớn hơn). Đo lường entropy cho bốn biến số là:
Tuổi 0,473
Thu nhập 0,500
Rủi ro 0,470
Đánh giá tín dụng 0,461
Với đo lường này, đánh giá tín dụng có nội dung thông tin lớn nhất. Trong những mục đánh
giá tín dụng, chúng ta muốn chọn một cái có khả năng lớn nhất để phân loại dữ liệu chính xác
(xác suất gần nhất tới 1,0 để cho vay hoặc 0,0 để từ chối cho vay). Chúng ta có thể xem xét
chi phí liên quan đến lỗi. Một lỗi của việc chấp nhận cho vay trong trường hợp không trả tiền
đúng hạn có thể thiệt hại gấp chín lần (900$) một lỗi trả đúng hạn (nhưng bị từ chối, 100$).
Do vậy chúng ta có thể sử dụng giới hạn điểm cắt xác suất 0,90. Nếu các mục được xem là có
một xác suất lớn hơn hoặc bằng 0,9 chúng ta sẽ tạo ra một quy tắc duyệt các khoản cho vay.
Nếu các mục đang được xem xét có một xác suất thấp hơn 0,9, chúng ta sẽ từ chối cho vay.
Nếu đánh giá tín dụng là màu xanh, dữ liệu chỉ báo một xác suất 0,953 (244 trong số 256
trường hợp) là người xin vay sẽ trả các khoản cho vay đúng hẹn. Nếu đánh giá tín dụng không
phải màu xanh, dữ liệu này cho biết một xác suất 0,815 rằng người xin vay sẽ trả các khoản
cho vay đúng hạn. Đây này là quy tắc đầu tiên được lựa chọn bởi các thuật toán học máy.
Nếu (tín dụng = màu xanh lá cây) Thì dự đoán trả đúng hạn
NGƯỢC LẠI Dự đoán Trễ
Quy tắc này có hai kiểu sai số. Đầu tiên, những người xin vay được đánh giá như là màu xanh
thật sự không trả nợ đúng hạn. (Từ dữ liệu, xác suất xảy ra việc này là 0,040.). Thứ hai, những
người xin vay được đánh giá màu vàng hay màu đỏ thật sự đã trả nợ, nếu được cho vay tiền.
(Từ dữ liệu, xác suất xảy ra việc này là 0,815). Kỳ vọng của điều này là xác suất của một
người nộp đơn xin vay được đánh giá như là màu xanh lá cây (224/400, hoặc 0,550) nhân xác
suất sai (là 0,040), cộng với xác suất không được đánh giá màu xanh (176/400, hay 0,440)
nhân xác suất sai (0,795), tính ra một kì vọng lỗi là 0,022 + 0,350 = 0,372. Chúng ta cũng có
thể tính toán hàm chi phí lỗi. Đây sẽ là 900$× 0,022 + 100$× 0,350, hay 55,14$. Để kiểm tra
quy tắc này, cách tốt nhất là áp dụng nó vào tập dữ liệu thứ hai, khác tập dữ liệu được sử dụng
để phát triển các quy tắc. Sử dụng 250 quan sát như là tập dữ liệu kiểm tra, Bảng 8.20 hiển thị
ma trận trùng.
Tỷ lệ phân loại chính xác là 0,620. Hàm chi phí cho kết quả này sẽ là 900$×7 + 100$ ×88 =
15.100$. Vì chúng ta có 250 trường hợp, chi phí lỗi trung bình là 60,40$ cho mỗi trường hợp.
Tập các quy tắc có thể được khảo sát thêm để xem có đạt được độ chính xác cao hơn không.
Những công thức entropy về Tuổi, biết rằng Đánh giá tín dụng không phải là màu xanh lá cây,
là 0,672; cho Thu nhập 0,720; và cho Rủi ro 0,657 ; và cho sự khác biệt giữa đánh giá tín
dụng màu đỏ và màu vàng là 0,718. Điều này chỉ ra rằng Rủi ro có sức mạnh phân biệt lớn
hơn tại điểm này. Với dữ liệu này, nếu Rủi ro thấp, 79 của 86 trường hợp đã được thanh toán
đúng hạn (0,919). Hai tình trạng khác đã có 61 trong 90 trường hợp trả đúng hạn (0,678). Do
đó, nguyên tắc thứ hai là:
Nếu (Đánh giá tín dụng không là màu xanh lá VÀ(Rủi ro = thấp) THÌ (Dự báo đúng hạn)
NGƯỢC LẠI Dự báo trễ
Trong trường hợp này, dữ liệu hiển thị xác suất trong Bảng 8.21. Kỳ vọng lỗi ở đây là
224/400 lần (1 - 0.960) + 86/400 nhân (1-0.919) + 90/400 nhân (1-0.678) = 0,112. Hàm chi
phí là 900$ nhân 224/400 nhân 0,040 (20,16$) cộng với 900$ nhân 86/400 nhân 0,081
(15,67$) cộng với 100$ nhân 90/400 nhân 0,678 (15,26$), hoặc 51,09$ cho mỗi trường hợp.
Đây là một bước cải tiến hơn các trường hợp cũ, ở đó kì vọng lỗi là 0,380 với một chi phí kì
vọng cho mỗi trường hợp 60,40$. Ma trận trùng ở đây được hiển thị trong Bảng 8.22.
Bảng 8.20 Ma trận trùng cho quy tắc đầu tiên
Thực tế Trễ Đúng hạn Tổng cộng
Trễ 13 7 20
Đúng hạn 88 142 230
Tổng cộng 101 149 250
Bảng 8.21 Xác suất theo từng trường hợp

Đánh giá tín dụng Rủi ro Số đếm Xác suất (đúng hạn)
Xanh lá 224/400 0,960
KHÔNG xanh lá Thấp 86/400 0,919
KHÔNG xanh lá KHÔNG thấp 90/400 0,678
Bảng 8.22 Ma trận trùng cho hai quy tắc đầu tiên
Trễ 11 9 20
Đúng hạn 43 187 230
Tổng cộng 54 196 250
Bảng 8.23 Xác suất được tính lại

Đánh giá tín dụng Đúng hạn Trễ Xác suất (đúng hạn)
Đỏ 15 13 0,536
Hổ phách 46 16 0,742
Bảng 8.24 Độ chính xác kì vọng của ba quy tắc

Đánh giá tín dụng Nguy cơ Đánh giá tín dụng Số lượng Xác suất (đúng hạn)
Xanh 224/400 0,960
KHÔNG xanh Cao 86/400 0,919
KHÔNG xanh KHÔNG cao vàng 62/400 0,742
KHÔNG xanh KHÔNG cao Không cao 28/400 0,536
Bảng 8.25 Ma trận trùng cho 3 quy tắc

Trễ 3 17 20
Đúng hạn 11 219 230
Tổng cộng 14 236 250
Bảng 8.26 Kết quả từ việc cân đối tập dữ liệu

Tập dữ liệu phân tích Trễ Đúng hạn Tỉ lệ Dự đoán 0=1 Dự đoán 1=0 Tỉ lệ đúng Chi phí
400 45 355 0,1125 20 0 0,920 $18000
325 45 280 0,1385 20 0 0,920 $18000
225 45 180 0,2000 9 39 0,808 $12000
180 45 135 0,2500 9 39 0,808 $12000
150 45 105 0,3000 9 32 0,956 $11300
Tỷ lệ phân loại đúng là 0,792, cao hơn trong Bảng 8.20. Hàm chi phí ở đây sẽ là 900$×9 +
100$×4 = 12400$, hay 49,60$ cho mỗi trường hợp.
Chúng ta tính toán lại entropy, loại trừ Đánh giá tín dụng màu xanh và Đánh giá rủi ro thấp.
Các giá trị đạt được là 0,902 cho Tuổi ; 0,893 cho Thu nhập ; 0,897 cho Rủi ro ; và 0,877 cho
các Đánh giá tín dụng. Thấp nhất của những giá trị này là cho tín dụng. Biết Đánh giá tín
dụng không phải là màu xanh, và Rủi ro là không cao. Điều đó đưa lại 90 trường hợp cho
phân tích, như được hiển thị trong Bảng 8.23.
Trong khi dưới đây giới hạn điểm cắt là 0,9 ; những người có Đánh giá tín dụng màu vàng rõ
ràng đã có một xác suất trả đúng hẹn cao hơn người có đánh giá tín dụng của màu đỏ. Một
nguyên tắc thứ ba là :
NẾU(Đánh giá tín dụng không xanh) VÀ(Rủi ro KHÔNG cao) VÀ(Đánh giá tín dụng THÌ dự đoán Đúng hạn
NGƯỢC LẠI vàng) Dự đoán trễ hạn
Độ chính xác kì vọng của ba quy tắc này kết hợp lại được thể hiện trong Bảng 8.24.
Lỗi kì vọng ở đây là 0,117 với một hàm chi phí kì vọng mỗi trường hợp 75,57$ (vì tỷ lệ sai số
cao cho quy tắc thứ ba). Sai số phân biệt kì vọng hạ xuống, mặc dù hàm chi phí kì vọng tăng
lên. Bảng 8.25 đưa ra ma trận trùng cho tập quy tắc này sử dụng trên tập dữ liệu kiểm tra.
Ở đây tỷ lệ phân loại đúng tăng lên 0,888 (nó là 0,792 sau hai quy tắc), trong khi chi phí trung
bình mỗi trường hợp gia tăng đến 65,60$ từ 49,6$. Khi không thể cải thiện thêm, nói chung
phương pháp học máy sẽ dừng lại. Vì vậy, quy tắc cuối cùng sẽ không được thêm vào hai quy
tắc đầu tiên. Thuật toán học máy sẽ dừng lại tại:
NẾU (Đánh giá tín dụng là màu xanh) THÌ Dự đoán Đúng hạn
NẾU( Đánh giá tín dụng KHÔNG phải xanh) VÀ (Rủi ro = thấp) THÌ Dự đoán Đúng hạn
NGƯỢC LẠI Dự đoán Trễ
Chú ý rằng cách tiếp cận này không đảm bảo sự tối ưu. Theo nghĩa là nó chỉ đưa ra giải pháp
chấp nhận được, có nghĩa là nó có khuynh hướng đưa ra một mô hình tốt, nhưng có thể còn có
những cái tốt hơn.
Mô hình cũng chạy với See5 (xem minh họa của phân tích cây quyết định See5 ở phần phụ
lục của chương này). Mô hình ban đầu, sử dụng 400 quan sát của tập phân tích để phân loại
toàn bộ các trường hợp Đúng hạn. Vì tập dữ liệu lệch nhiều (45 trường hợp trễ và 355 trường
hợp đúng hạn), điều này có một tỷ lệ phân loại đúng khá cao, tới 0,92. Tuy nhiên, ứng dụng
dự đoán rất kém đối với các trường hợp thực sự trễ hạn. Cân bằng dữ liệu có thể cải tiến kết
quả. Chúng tôi đã lược bớt số quan sát từ tập dữ liệu phân tích để điều chỉnh tỷ lệ những
trường hợp trễ, thể hiện trong Bảng 8.26 . Việc sử dụng 325 quan sát một lần nữa cung cấp tất
cả những dự báo Đúng hạn. Mô hình dựa trên 225 sự quan sát (cũng như mô hình dựa vào
180 quan sát), là để tạo ra tất cả trường hợp Đúng hạn ngoại trừ Rủi ro cao, và đánh giá tín
dụng màu đỏ hay màu vàng. Mô hình phân tích 150 quan sát để phân chia tất cả các trường
hợp Đúng hạn, ngoại trừ người xin vay Trẻ và đánh giá tín dụng màu đỏ hay màu vàng. Mô
hình đạt được được kiểm tra trên cùng tập kiểm tra 250 quan sát. Dữ liệu này thể hiện xu
hướng rõ ràng những kết quả mô hình hữu dụng hơn bằng cách cân bằng dữ liệu.
Dữ liệu gian lận bảo hiểm

Một bộ dữ liệu 4.000 quan sát đã được sử dụng với dữ liệu liên tục (với Tuổi tác và Mức đòi
bồi thường đã chuẩn hóa giữa 0 và 1) trên See5. Tập dữ liệu chỉ này chỉ có 60 trường hợp
gian lận, và vì vậy có độ lệch cao. See5 đưa ra một mô hình phân chia toàn toàn bộ các trường
hợp là không gian lận. Điều này chứng tỏ cần phải cân bằng dữ liệu. Một tập dữ liệu mới cho
việc phân tích được tạo ra giữ lại toàn bộ 60 trường hợp gian lận và cắt ngẫu nhiên những
trường hợp không gian lận xuống 600, gấp 10 lần số lượng các trường hợp gian lận. Việc này
đưa ra mô hình sau:
Trường hợp Lỗi

NẾU(yêu cầu > 0,38) THÌ(không gian lận) 634 48
NẾU(yêu cầu  0,38) NẾU(Trước đây1) THÌ(không gian lận) 8 0
NẾU(Trước đây>1) THÌ(gian lận) 18 6
Mô hình này như vậy đã có 54 lỗi trên 660 trường hợp, tỷ lệ phân loại chính xác là 0,918.
(Mô hình bỏ lỡ 48 của 60 trường hợp thực sự gian lận, tức là lỗi 80 phần trăm trong phân loại
quan trọng). Áp dụng cho 1.000 trường hợp kiểm tra, kết quả được hiển thị trong Bảng 8.27.
Mô hình có một tỷ lệ phân loại đúng là 0,968; khá tốt. Tuy nhiên, trong số 22 trường hợp có
gian lận trong thực tế thì đã bỏ sót 86%. Tuy vậy, cân bằng dữ liệu có thể là cần thiết để có
được mô hình tốt hơn. Phần mềm khai thác dữ liệu cũng thường có khả năng này.
Bảng 8.27 Ma trận trùng cho mô hình Gian lận trên See5
Thực tế Không gian lận Gian lận Tổng cộng
Không gian lận 965 13 978
Gian lận 19 3 22
Tổng cộng 984 16 1000
Dữ liệu xin việc

Dữ liệu xin việc lệch rất nhiều, với rất ít trường hợp được đánh giá "cao". Tuy nhiên, chúng
tôi có thể áp dụng See5 trên dữ liệu, hoặc cho dạng phân loại hay cho dạng số chuẩn hóa. Sử
dụng 300 quan sát cho phân tích, chúng tôi có được các quy tắc sau đây:
Trường Lỗi
hợp
NẾU(chuyên môn = không) THÌ (tối thiểu) 53 27
NẾU(chuyên môn = khác) THÌ (tối thiểu) 21 7
NẾU(chuyên môn = khoa học máy tính) THÌ (trung bình) 34 6
NẾU(chuyên môn = kĩ sư) THÌ (trung bình) 38 1
NẾU(chuyên môn = khoa học) THÌ (trung bình) 18 2
NẾU(chuyên môn = Hệ thống thông tin) THÌ (trung bình) 34 8
NẾU(chuyên môn = Quản trị kinh doanh) VÀ (kinh nghiệm= không) THÌ (quá thấp) 1 0
“ VÀ (kinh nghiệm<3) THÌ (tối thiểu) 11 3
“ VÀ (kinh nghiệm>2) VÀ (tuổi<25) THÌ (trung bình) 0 0
“ “ VÀ (tuổi 25-30) THÌ (tối thiểu) 71 37
“ “ VÀ (tuổi>30) THÌ (trung bình) 19 5
Mô hình này có tỉ lệ phân loại đúng là 68% trên các dữ liệu phân tích, mà không phải là xấu
cho bốn kết cục. Áp dụng cho dữ liệu kiểm tra mang lại ma trận trùng trong Bảng 8.28.
Mô hình này đúng 116 trong 200 lần, hay 58% số lần. Lưu ý rằng mô hình không dự đoán
một kết cục “cao”, và chỉ có 5 kết cục “quá thấp” (và đã sai bốn trong các trường hợp này).
Thiếu kết quả cao là do sự thưa thớt của các trường hợp này trong dữ liệu phân tích. 300
trường hợp cho phân tích, 34 là quá thấp, 96 tối thiểu, 162 trung bình, và chỉ có 8 là cao.
Bảng 8.28 Ma trận trùng cho dữ liệu Xin việc, mô hình phân loại trên dữ liệu kiểm tra
Thực tế Quá thấp Tổi thiểu Trung bình Cao Tổng cộng
Quá thấp 1 24 25
Tổi thiểu 4 48 7 59
Trung bình 34 67 101
Cao 15 15
Tổng cộng 5 106 89 0 200
Bảng 8.29 Ma trận trùng cho dữ liệu Xin việc, mô hình phân loại trên dữ liệu kiểm tra.
Thực tế Quá thấp Tổi thiểu Trung bình Cao Tổng cộng
Quá thấp 9 15 1 25
Tổi thiểu 7 37 15 59
Trung bình 28 73 101
Cao 15 15
Tổng cộng 16 80 104 0 200
Tập dữ liệu dạng chuẩn hóa liên tục cũng được phân tích với mô hình cây quyết định từ See5.
Cây quyết định kết quả như sau:
Trường hợp Lỗi
NẾU(bằng cấp = không) Nếu (tình trạng>0) THÌ (tối thiểu) 11 3
“ “ Nếu (kinh nghiệm0,8) THÌ (quá thấp) 34 14
“ “ Nếu (kinh nghiệm>0,8) THÌ (tối thiểu) 8 2
NẾU(bằng cấp > không) Nếu (chuyên môn>0,7) THÌ (trung bình) 124 17
“ Nếu (chuyên môn0,7) Nếu (tuổi0,333) THÌ (tối thiểu) 101 46
“ “ Nếu (tuổi>0,333) THÌ (trung bình) 22 6
Một lần nữa, cây quyết định này không nhận dạng bất cứ trường hợp nào cao (cũng vì sự thưa
thớt các trường hợp cao này trong tập dữ liệu phân tích). Trên bộ dữ liệu này mô hình đúng
212 trong 300 lần với tỷ lệ phân loại đúng 0,71. Ma trận trùng cho mô hình này trên tập dữ
liệu kiểm tra được cho trong Bảng 8.29.
Trên dữ liệu kiểm tra mô hình, mô hình này có tỷ lệ phân loại đúng 119/200, hoặc 0,595. Điều
này thực tế cũng tương tự với mô hình căn cứ trên dữ liệu dạng phân loại.
SẢN PHẨM PHẦN MỀM CÂY QUYẾT ĐỊNH
Phần mềm với giải thuật này đã có trên thị trường, ví dụ CART (cây phân biệt và hồi quy),
CHAID (Phát hiện tương tác tự động chi bình phương), ID3, và ID4.5. Nock và Jappy (1999)
phân loại các thuật toán nghiên cứu cây quyết định 12: Greedy, thuật toán tương tác như CN2
thêm từng qui tắc một cho đến khi khai thác hết tập dữ liệu; Thuật toán tìm kiếm khoảng
trống quy tắc trước khi thêm vào danh sách quy tắc quyết định, sử dụng nhánh và ranh giới, ví
dụ như BruteD; Loại thuật toán cuối cùng sử dụng tìm kiếm ngẫu nhiên, ví dụ SDL dùng
trong chương trình rèn luyện giả lập.
Nhiều phần mềm khai thác dữ liệu bao gồm thuật toán cây quyết định/quy nạp quy tắc, ví dụ
như C4.5 (và See5), và các phần mềm ra sau như ID3 13. DBMine bao gồm phương pháp luận
cây quyết định 14. Các hệ thống khác, ví dụ BussinessObjects Phiên bản 4.0 căn cứ trên kĩ
thuật cây quyết định mang tính trực giác. CART cung cấp mô hình dự đoán và phân loại đáng
tin cậy cho việc nhận diện chân dung khách hàng tốt nhất, xác định mục tiêu cho thư trực tiếp,
phát hiện gian lận, và phân tích rủi ro tín dụng 15. Phần mềm Cognos’ Scenario cung cấp một
loạt sản phẩm cây quyết định 16.
PHỤ LỤC
MINH HỌA PHÂN TÍCH CÂY QUYẾT ĐỊNH See5
Chúng tôi minh họa việc sử dụng phần mềm khai thác dữ liệu trên file dữ liệu chi tiêu, phân
tích số tiền chi tiêu trên các khoản khác nhau ví dụ như sở hữu và vận hành xe ô tô, quần áo,
giải trí, hàng thực phẩm, nhà ở, và ăn nhà hàng.
Làm sạch dữ liệu
File dữ liệu có 19 biến và 10.000 hồ sơ. Có hai loại biến là nhân khẩu học và chi tiêu (thể hiện
tỷ lệ của thu nhập chi cho một số khoản) thể hiện trong Bảng 8A.1.
Mục tiêu của nhiệm vụ khai thác dữ liệu là để tìm các đặc tính của khách hàng tiềm năng cho
mỗi loại chi tiêu. Một trường hợp đơn giản là phân loại chi tiêu quần áo (hoặc chi tiêu khác
trong tập dữ liệu) mỗi năm như một bài toán phân loại hai lớp. Căn cứ trên dữ liệu nguồn hiện
tại, một vài biến đã chuyển đổi được cộng thêm vào để làm chi tiết hơn cho bài toán phân loại
hai lớp. Thủ tục này như sau:
1. Tạo các biến mới bằng cách nhân “Thu nhập” lần lượt với từng tỉ lệ. Ví dụ: biến mới
“Cloth” là kết quả của “income-thu nhập” nhân với “ProCloth-tỷ lệ chi cho quần áo”. Tương
tự vậy, các biến khác như Nghỉ, Nhà, Tiện ích, Xe, Thực phẩm và Giải trí là được thêm vào.
2. Tính giá trị trung bình của mỗi biến mới. Sau đó tạo một biến nhị phân cho mỗi biến mục
tiêu (Nghỉ, Nhà, Tiện ích, Xe, Bách hóa và Giải trí). Các biến nhị phân này có giá trị 0 và 1.
Cho mỗi biến mới, khi giá trị của nó cao hơn giá trị trung bình, nó được đánh dấu giá trị 1.
Ngược lại, nó được đánh dấu 0. Những biến nhị phân này được gọi là Phân loại chi cho hàng
Thực phẩm, phân loại Nghỉ ngơi, phân loại Nhà ở, Phân loại Hàng tiện ích, Phân loại chi cho
Xe hơi, phân loại cho Quần áo, và phân loại cho Giải trí.
3. Dữ liệu cho khai thác. Lấy “Cloth-Mặc” làm ví dụ để minh họa cho phần này. Trước khi
quyết định quyết định khách hàng có lưu tâm đến lĩnh vực này hay không, cần thiết các định
“những biến nào được cần”. Biến “Mặc” tự bản thân nó không thể sử dụng cho khai thác vì
trong thực tế không biết giá trị này trước khi dự đoán. Có 25 biến cho khai thác “Mặc” (hồ sơ
đầu tiên trong bộ dữ liệu). Năm quan sát đầu tiên thể hiện trong Bảng 8A.2.
Bảng 8A.1 Các biến trong tập dữ liệu Chi tiêu
Biến nhân khẩu học Mô tả Biến tiêu dùng Tỉ lệ thu nhập dành
cho chi tiêu
Tuổi Số nguyên, 16 trở lên ProGroc Cho hàng tạp hóa
Giới tính 0-nữ, 1-nam ProRest Ăn nhà hàng
Tình trạng hôn nhân 0-độc than; 0,5- li hôn; 1-có gia đình Prohous Cho nhà Ở
Số người phụ thuộc Số nguyên ProUntil Hàng tiện ích
Thu nhập $ hàng năm ProAuto Sở hữu và sử dụng ô tô
Số năm công tác Số nguyên, công việc hiên tại ProCLoth Cho quần áo
Số năm sống tại thành phố Số nguyên, thành phố đang ở ProEnt Cho giải trí
Số năm đi học Số nguyên, hoàn tất chương trình
Giấy phép lái xe 0-không có, 1-có
Sở hữu nhà 0-không có 1-có
Số lượng thẻ tín dụng Số nguyên, dạng số
Churn (số dư thẻ tín dụng bị Số nguyên, bị hủy năm vừa qua
hủy năm ngoái)
Chú giải tên các biến viết tắt
ProGroc tỷ lệ thu nhập chi mua hàng thực phẩm năm ngoái
ProRest tỷ lệ thu nhập chi cho việc ăn nhà hàng
ProHous tỷ lệ thu nhập chi cho nhà ở
ProUtil tỷ lệ thu nhập chi cho tiện ích (điện, nước, gas)
ProAuto tỷ lệ thu nhập chi cho ô tô (sở hữu và vận hành)
ProCloth tỷ lệ thu nhập chi cho quần áo
ProEnt tỷ lệ thu nhập chi cho giải trí
Bảng 8A.2 Năm quan sát đầu tiên trong Cloth2.data

Biến Quan sát 1 Quan sát 2 Quan sát 3 Quan sát 4 Quan sát 5
Tuổi 87 64 23 48 56
Giới tính 0 0 0 0 1
Trình trạng hôn nhân 0,5 1 0 1 1
Số người phụ thuộc 0 0 0 1 1
Thu nhập 80,054 51,253 41,426 59,073 57,397
Số năm công tác 5 4 7 13 21
Số năm ở tại tp 0 0 223 0 18
Số năm đi học 13 11 11 13 13
Giấy phép lái xe 0 1 1 1 1
Sở hữu nhà 0 0 0 1 1
Số thẻ tín dụng 1 13 1 4 9
Churn 0 1 0 0 1
ProGrpc 0,031 0,044 0,000 0,073 0,037
ProRest 0,009 0,032 0,080 0,002 0,019
Prohous 0,132 0,210 0,247 0,248 0,237
ProUtil 0,031 0,042 0,081 0,098 0,079
ProAuto 0,000 0,069 0,081 0,059 0,067
ProCloth 0,066 0,119 0,146 0,106 0,116
ProEnt 0,049 0,062 0,091 0,035 0,050

Hàng tạp hóa 2,458 2,271 0 4,319 2,140
Nhà hàng 0,759 1,633 3,331 0,133 1,098
Nhà ở 10,596 10,779 10,219 14,663 13,578
Hàng tiện ích 2,458 2,133 3,341 5,805 4,553
Xe 0 3,539 3,,354 3,512 3,872
Quần áo 5,308 6,118 6,038 6,259 6,643
Giải trí 3,936 3,174 3,751 2,059 2,850
Phân Loại Mặc 0 0 0 0 0
Tiến trình khai thác dữ liệu

Trong phần này chúng ta vẫn khai thác “Mặc” như ví dụ của chúng ta. Đầu tiên dữ liệu phải
được chuyển thành định dạng như yêu cầu của See5. Hồ sơ đầu tiên của dữ liệu cho khai thác
“Mặc” là
87,00; 0,00; 0,05; 0,00; 80,05 ….
Sau dấu chấm phẩy cuối cùng, biến Phân Loại Mặc là nhóm mà các trường hợp được phân
loại vào đó. File dữ liệu được đặt tên Cloth2.dat. Có một file khác gọi là “Cloth2.name” dùng
để tổng hợp dữ liệu. Nó được tổ chức như sau
0,00; 1,00. | Các loại
A1: tiếp tục
A2: tiếp tục
….
A25: tiếp tục
1,00. | Các loại” có nghĩa là file này bao gồm 2 loại đại diện bởi 1 và 0. A1  A25 là
“0,00;
những biến trong tập dữ liệu.
Hình 8A.1 Cho một minh họa màn hình của phân tích See5 cho tập dữ liệu Cloth.data
Hình 8A.2 Cho một minh họa trên màn hình sau khi dữ liệu được tải xuống
Hình 8A.3 Cho một minh họa mệnh lệnh để chọn xây dựng phân loại
Hình 8A.4 cung cấp các lựa chọn bao gồm nhân tố tin cậy lược bớt, và tập tối thiểu của các
trường hợp được yêu cầu trong phân loại (trong ví dụ này, số 2 được nhập vào)
Hình 8A1: Xác định dữ liệu để tải vào chương trình
Hình 8.A.2: Dữ liệu đã được tải
Hình 8.A.3: Chọn mục Construct Classifier
Hình 8A.4: Xây dựng cấu hình
Hình 8A.5: Cây quyết định được tạo ra sau khi phân tích
Hình 8A.5 thể hiện cây quyết định cho kết quả sau khi tập dữ liệu dùng cho phân tích được xử
lý. Trong trường hợp này 50% của 10.000 quan sát được sử dụng cho phân tích. Chú ý rằng
phần mềm khai thác dữ liệu chọn ngẫu nhiên các quan sát theo tỷ lệ này, trong khi ví dụ của
chúng ta sử dụng Excel được điều khiển trước số quan sát cụ thể dùng cho phân tích và kiểm
tra mô hình. Tính ngẫu nhiên là một đặc điểm được chú trọng. Tuy nhiên nó cũng đảm bảo là
một phân tích cụ thể không thể bị lặp lại (trừ khi sử dụng một số hạt giống số ngẫu nhiên).
Hình 8A.6 chọn Use Classifier
Hình 8A.7 Nhập dữ liệu mẫu
Hình 8A.8 Kết quả dự đoán
Kết quả từ mô hình cây quyết định được báo cáo trong các ma trận trùng. Đầu tiên là một báo
cáo khi dùng toàn bộ các quan sát như dữ liệu phân tích. Nó đã cung cấp một bức tranh toàn
diện về độ phù hợp của mô hình với dữ liệu.
1.2 Mặc
(a) Toàn bộ dữ liệu cho phân tích
Đánh giá trên tập dữ liệu phân tích (10000 trường hợp):
Cây quyết định

Cỡ Các lỗi
91 227(2,3%) <<
(a) (b) -phân loại như

6670 124 (a): Nhóm 0,00
103 3103 (b): Nhóm 1,00
Trường hợp này có độ phù hợp rất tốt, với chỉ 2,3% lỗi (phân phối một cách khá đều trên hai
phân lớp kết quả). Kế tiếp, kết quả được báo cáo khi dùng tập phân tích (5000 trường hợp
được sử dụng để xây dựng mô hình) và tập kiểm tra (5000 trường hợp mà phần mềm giữ lại).
Mô hình có tỷ lệ lỗi phân loại là 4,4% trên dữ liệu kiểm tra.
(b) 50% cho phân tích và 50% cho kiểm tra
Đánh giá trên tập dữ liệu phân tích (5000 trường hợp)

Cỡ Các lỗi
68 107(2,1%) <<

3310 46 (a): Nhóm 0,00
61 1583 (b): Nhóm 1,00
Đánh giá trên tập dữ liệu kiểm tra (5000 trường hợp)

Cỡ Các lỗi
68 221(4,4%) <<

3359 79 (a): Nhóm 0,00
142 1420 (b): Nhóm 1,00
TÓM TẮT
Cây quyết định là mô hình khai thác dữ liệu rất hiệu quả và hữu dụng. Nó tự động, là một ứng
dụng của học máy, chính đặc tính này làm cho cây quyết định trở nên hấp dẫn. Nó tương đối
mạnh, ít bị ảnh hưởng bất lợi bởi nhiễu và dữ liệu khuyết. Nó có thể vận dụng cho tập dữ liệu
lớn, và có thể xử lý cả dữ liệu dạng số và phân loại. Nó cũng mạnh trong cả khả năng giải
thích kết luận (các quy tắc có thể được diễn giải theo ngôn ngữ tự nhiên, và có thể giải thích
với các nhà quản trị rất tốt). Như đã trình bày ở các phần trước, có nhiều phần mềm sẵn có
cho phân tích cây quyết định.
Chú thích thuật ngữ

Branches: những nhánh con (phân loại phụ) trong một cây quyết định
Confidence level (độ tin cậy): số biến cố trong đó các mục được liên kết chia cho tổng số
biến cố của mục căn bản.
Decision trees (cây quyết định): sự phân nhánh hợp lý trên các biến, các quan sát được liệt kê
theo kết cục.
Entropy: thước đo thông tin, hoặc cụ thể hơn, là mức độ ngẫu nhiên trong dữ liệu. Trị số thấp
hơn chỉ ra một khả năng cao hơn trong phân biệt các loại kết cục.
Expert system (hệ chuyên gia): hệ thống thông minh nhân tạo để lập lại hành vi của một
chuyên gia. Thường được thực hiện thông qua một chuỗi những quy tắc sản xuất (Nếu-Thì).
Goal driven (hướng mục tiêu): phương pháp tạo ra quy tắc thông qua quy nạp căn cứ trên
hoạt động được cải tiến thành công
Heuristic (kinh nghiệm/tìm tòi): phương pháp đạt tới kết luận khá thành công nhưng không
đảm bảo sự tối ưu.
Interestingness (tính hấp dẫn): đặc tính của các quy tắc được nhận diện quan trọng và không
ngờ tới.
Machine learning (học máy): một hệ thống phát triển quy tắc một cách tự động
Node (Nút): một yếu tố trong cây quyết định tại đó các nhánh tỏa ra.
Rule induction (quy nạp quy tắc): khả năng thuật toán tạo ra một tập các quy tắc căn cứ trên
sự phân tích dữ liệu.
Rule-based system (hệ thống căn cứ trên quy tắc): thuật toán mà phân loại các trường hợp
căn cứ trên một tập các các quy tắc liên kết phát triển từ tập phân tích.
Support (mức hỗ trợ): tỷ lệ các hồ sơ được bao hàm trong tập các thuộc tính
Bài tập
1. 1.Ứng dụng thuật toán cây quyết định cho file dữ liệu xin việc. Sử dụng dữ liệu phân loại.
Dùng toàn bộ 500 quan sát, 50% cho phân tích và 50% cho kiểm tra. Dùng phần mềm
khai thác dữ liệu nếu có, hoặc là dùng Excel. Phát triển ma trận trùng cho dữ liệu.
2. Ứng dụng thuật toán cây quyết định cho file dữ liệu xin việc. Dùng dữ liệu dạng liên tục
đã chuẩn hóa. Dùng toàn bộ 500 quan sát, 50% cho phân tích và 50% cho kiểm tra. Dùng
phần mềm khai thác dữ liệu nếu có, hoặc dùng Excel. Phát triển ma trận trùng cho dữ liệu.
3. Ứng dụng thuật toán cây quyết định cho file dữ liệu xin vay nợ. Dùng các biến phân loại:
tuổi, thu nhập, rủi ro và đánh giá tín dụng. Dùng toàn bộ 650 quan sát, 50% cho phân tích.
Phát triển ma trận trùng. Bình luận kết quả.
4. Ứng dụng thuật toán cây quyết định cho file dữ liệu xin vay nợ. Dùng dữ liệu phân loại
cho các biến: tuổi, thu nhập, rủi ro và đánh giá tín dụng. Dùng toàn bộ 650 quan sát, 50%
cho phân tích. Phát triển ma trận trùng. Bình luận kết quả.
5. Áp dụng thuật toán cây quyết định cho toàn bộ 5.000 quan sát của tập dữ liệu gian lận bảo
hiểm. Chuyển hóa tuổi bằng cách: 20 (hoặc trẻ hơn) =0; 50 (hoặc già hơn) =1; và mọi tuổi
ở giữa= tuổi - 20/30. Chuyển giới tính là 1 hoặc 0. Chuyển hóa số tiền yêu cầu trả bảo
hiểm bằng cách chia Yêu cầu cho 5000. Chuyển đổi số vé phạt và số lần đòi bảo hiểm
trước đây bằng cách đổi 0 = 0;1 = 0,5; và 2 hoặc hơn = 1. Chuyển đổi luật sư bằng cách
“không có” = 0 và các trường hợp khác bằng 1. Sử dụng 60% dữ liệu cho phân tích. Dùng
phần mềm khai thác dữ liệu nếu có, hoặc dùng Excel. Phát triển ma trận trùng. Bình luận
kết quả.
6. Áp dụng thuật toán cây quyết định cho toàn bộ 5000 quan sát của tập dữ liệu gian lận bảo
hiểm. Dùng dữ liệu phân loại. Sử dụng 60% dữ liệu cho phân tích. Dùng phần mềm khai
thác dữ liệu nếu có, hoặc là dùng Excel. Phát triển ma trận trùng sau đó bình luận kết quả.
7. Áp dụng thuật toán cây quyết định cho tập dữ liệu chi tiêu của khách hàng với dự định
nhận diện các loại người chi tiêu tỷ lệ thu nhập của họ cho hàng bách hóa như sau: dưới
1%, 1-5%; 5-10% và trên 10%. Sử dụng dữ liệu đã chuẩn hóa cho các biến đầu vào. Dùng
8.000 quan sát như dữ liệu phân tích và áp dụng trên 2.000 quan sát kiểm tra mô hình.
Dùng phần mềm khai thác dữ liệu nếu có, hoặc dùng Excel. Phát triển ma trận trùng và
sau đó đếm các quy tắc hình thành.
nhận diện các loại người chi tiêu tỷ lệ thu nhập của họ cho nhà hàng như sau: dưới 1%, 1-
5%; 5-10% và trên 10%. Sử dụng dữ liệu đã chuẩn hóa cho các biến đầu vào. Dùng 8.000
quan sát như dữ liệu phân tích và áp dụng trên 2.000 quan sát kiểm tra mô hình. Dùng
phần mềm khai thác dữ liệu nếu có, hoặc là dùng Excel. Phát triển ma trận trùng và sau đó
đếm các quy tắc hình thành.
nhận diện các loại người chi tiêu tỷ lệ thu nhập của họ cho nhà ở như sau: dưới 1%, 1-5%;
5-10% và trên 10%. Sử dụng dữ liệu đã chuẩn hóa cho các biến đầu vào. Dùng 8.000 quan
sát như dữ liệu phân tích và áp dụng trên 2.000 quan sát kiểm tra mô hình. Dùng phần
mềm khai thác dữ liệu nếu có, hoặc dùng Excel. Phát triển ma trận trùng và sau đó đếm
các quy tắc hình thành.
nhận diện các loại người chi tiêu tỷ lệ thu nhập của họ cho hàng tiện ích như sau: dưới
1%, 1-5%; 5-10% và trên 10%. Sử dụng dữ liệu đã chuẩn hóa cho các biến đầu vào. Dùng
8.000 quan sát như dữ liệu phân tích và áp dụng trên 2.000 quan sát kiểm tra mô hình.
Dùng phần mềm khai thác dữ liệu nếu có, hoặc dùng Excel. Phát triển ma trận trùng và
sau đó đếm các quy tắc hình thành.
nhận diện các loại người chi tiêu tỷ lệ thu nhập của họ cho mua và sử dụng xe hơi như
sau: dưới 1%, 1-5%; 5-10% và trên 10%. Sử dụng dữ liệu đã chuẩn hóa cho các biến đầu
vào. Dùng 8000 quan sát như dữ liệu phân tích và áp dụng trên 2000 quan sát kiểm tra mô
hình. Dùng phần mềm khai thác dữ liệu nếu có, hoặc dùng Excel. Phát triển ma trận trùng
và sau đó đếm các quy tắc hình thành.
nhận diện các loại người chi tiêu tỷ lệ thu nhập của họ cho quần áo như sau: dưới 1%, 1-
5%; 5-10% và trên 10%. Sử dụng dữ liệu đã chuẩn hóa cho các biến đầu vào. Dùng 8000
quan sát như dữ liệu phân tích và áp dụng trên 2000 quan sát kiểm tra mô hình. Dùng
phần mềm khai thác dữ liệu nếu có, hoặc dùng Excel. Phát triển ma trận trùng và sau đó
nhận diện các loại người chi tiêu tỷ lệ thu nhập của họ cho giải trí như sau: dưới 1%, 1-
5%; 5-10% và trên 10%. Sử dụng dữ liệu đã chuẩn hóa cho các biến đầu vào. Dùng 8.000
quan sát như dữ liệu phân tích và áp dụng trên 2.000 quan sát kiểm tra mô hình. Dùng
phần mềm khai thác dữ liệu nếu có, hoặc dùng Excel. Phát triển ma trận trùng và sau đó
Kết chú
1
G. Linoff, “ Which Way to the Mine? As/400 Systems Management, volume 26, Number 1 ( January
1998), pp 42-44.
2
D. Michie, “Learning Concepts from Data”, Expert Systems with Application, volume 15, number 34
(1998), pp 193-204.
3
D.A. Koonce, C.H Fang, and S-C.Tsai, “ A Data Mining Tool for Learning from Manufacturing
Systems”, Computers & Industrial Engineering, volume 33, numbers 1-2 (1997), pp . 27-30.
4
V. Dhar vaf R.Stein, Intelligent Decision Support Methods: The Science of Knowledge Work, (Upper
saddle River, NJ: Prentice Hall, 1997).
5
V. Dhar vaf R.Stein, Intelligent Decision Support Methods: The Science of Knowledge Work, (Upper
saddle River, NJ: Prentice Hall, 1997).
6
D. A. Knooce, C-H Fang, and S-C.Tsai, “A Data Mining Tool for Learning from Manufacturing
SYSTEMS”, Computers & Industrial Engineering, Volume 33, Numbers 1-2 (1997), pp. 27-30.
7
L.G Cooper and G.Guiffrida, “Turning Data Mining into a Management Science Tool: New
Algorithms and Empirical Results”, Management Science, volume 46, number 2 (2000), p p. 249-264.
8
S.Tsumoto, “Automated Knowledge Discovery in Clinical Database Based on Rough Set Model,”
INFOR, volume 38, number 3 (2000), p p. 196-207.
9
T.M Khoshgoftaar, E.B. Allen, W.d. Jones, and J.P. Hudepohl, “Data Mining for Predictors of
Software Quality,” International Journal of Software Engineering and Knowledge Engineering,
volume 9, number 5 (1995), p p.547-563.
R.Milne, M.Drummond, and P. Renoux, “ Predicting Paper Making Defects On-line Using Data
10
Mining,” Knowledge-Based Systems, volume 11 (1998), pp. 331-338.

11
R.G Arunasalam, J.T.Richie, W.Egan, O.Gur-ali, and W.A. Wallace. “Reengineering Claims
Processing Using Probabilistic Inductive Learning”. IEEE Transaction on Engineering Management,
volume 46, number 3 (August 1999), p p. 335-345.
12
R.Nock and P.Jappy, “Decision Tree Based Induction of Decision Lists”, Intelligent Data Analysis,
volume 3 (1999), p p. 227-240.
13
S. Lavington, N. Dewhurst, E. Wilkins, and A. Freitas, “Interfacing Knowledge Discovery
Algorithms to Large Database Management Systems,” Information & Software technology, volume
41, number 9 (June 1999), p p. 605-617.
14
Koonce et al. (1997), op. cit.
15
R. McLaughlin, “Ansering the Age-Old question of When ?”, Zip/Target Marketing, volume 21,
number 8, (August 1998), p. 24.
16
B. De Ville, “ Data Mining for the Destop,” Marketing Research: a Magazine of Management &
Applications, volume 9, number 4 ( Winter 197), p p.57-59.

DataMining - Chuong 8

Uploaded by

Copyright:

Available Formats

You might also like

DataMining - Chuong 8

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

DataMining - Chuong 8

Uploaded by

Copyright:

Available Formats

Khai thác dữ liệu trong kinh doanh Chương 8

CÂY QUYẾT ĐỊNH

Nội dung chương này:

THAO TÁC CÂY QUYẾT ĐỊNH

Trẻ Trung niên Già

Thấp Trung bình Cao

Thấp Trung bình Cao

Kết cục Kết cục Kết cục

Tuổi = trẻ Thu nhập = thấp Rủi ro = thấp

Bảng 8.2: Quy tắc ban đầu

ĐỘ HẤP DẪN CỦA QUY TẮC

HỌC MÁY– Machine learning

Bảng 8.4: Dữ liệu đã được nhóm

Bảng 8.6: Tính toán entropy cho tuổi

Cho phân loại Trẻ, tính toán là [-(8/12)x(-0,5851)-(4/12)x(-1,585)]x(12/20)=0,551. Thước đo

Bảng 8.10: Mức độ chính xác của quy tắc thứ tư

Nếu (Rủi ro thấp) THÌ dự đoán Đúng hạn

Bảng 8.12: Ma trận trùng cho tập quy tắc

Hình 8.2: Cây quyết định cho các quy tắc

Thấp Không thấp

Đúng hạn Tuổi

Trung niên Không trung niên

Trễ hạn Thu nhập

Cao Không cao

Trễ Đúng hạn

ỨNG DỤNG CÂY QUYẾT ĐỊNH

Dự báo tồn kho

Khai thác cơ sở dữ liệu lâm sàng

Chất lượng phát triển phần mềm

Quy tắc Điều kiện Kết quả

8 Nếu FILINCUQ>27 & SRC_MOD>30 & USAGE0,005 Không thiên về lỗi

Quy tắc Điều kiện Kết quả

ỨNG DỤNG PP CÂY QUYẾT ĐỊNH CHO BỘ DỮ LIỆU LỚN

Dữ liệu Xin vay

Bảng 8.16: Dữ liệu đã nhóm - Trung niên

Bảng 8.17: Dữ liệu đã nhóm – lớn tuổi

Bảng 8.18: Kết cục kết hợp

Bảng 8.19: Tính toán Entropy cho Tuổi

Bảng 8.21 Xác suất theo từng trường hợp

Bảng 8.23 Xác suất được tính lại

Bảng 8.24 Độ chính xác kì vọng của ba quy tắc

Bảng 8.25 Ma trận trùng cho 3 quy tắc

Bảng 8.26 Kết quả từ việc cân đối tập dữ liệu

Dữ liệu gian lận bảo hiểm

Trường hợp Lỗi

Dữ liệu xin việc

SẢN PHẨM PHẦN MỀM CÂY QUYẾT ĐỊNH

MINH HỌA PHÂN TÍCH CÂY QUYẾT ĐỊNH See5

Làm sạch dữ liệu

Bảng 8A.2 Năm quan sát đầu tiên trong Cloth2.data

ProEnt 0,049 0,062 0,091 0,035 0,050

Tiến trình khai thác dữ liệu

Hình 8.A.2: Dữ liệu đã được tải

Hình 8.A.3: Chọn mục Construct Classifier

Hình 8A.4: Xây dựng cấu hình

Hình 8A.6 chọn Use Classifier

Hình 8A.7 Nhập dữ liệu mẫu

Hình 8A.8 Kết quả dự đoán

Cây quyết định