Professional Documents
Culture Documents
DataMining - Chuong 8
DataMining - Chuong 8
DataMining - Chuong 8
CHƯƠNG 8
Các cửa hàng thực phẩm ngày nay quản lý hàng trăm ngàn mặt hàng (với các khác biệt về mùi
vị, kích cỡ…). Điều này làm nảy sinh dữ liệu quản lý tồn kho rất đồ sộ, sử dụng rất nhiều kĩ
thuật mã vạch. Kĩ thuật này cho phép ghi nhận các hồ sơ đưa hàng ra, và lưu lại được bộ dữ
liệu lớn về các giao dịch mà nếu khai thác bộ dữ liệu này sẽ nắm được nhu cầu của khách
hàng. Các cửa hàng thực phẩm tạo ra rất nhiều dữ liệu về mua (thậm chí hơn cả các cửa hàng
của Wal-Mart). Điều này đưa đến số lượng dữ liệu rất lớn mà có thể khai thác cho nhiều mục
đích đa dạng liên quan đến quản lý tồn kho.
Số lượng sản phẩm quá nhiều khiến cho thế hệ tự động của các mô hình dự đoán trở nên hữu
ích. Cây quyết định cung cấp một phương tiện để có được mô hình dự đoán sản phẩm cụ thể
dưới dạng các quy tắc dễ thực hiện. Quy tắc này có dạng NẾU-THÌ, rất dễ thực hiện với nhân
viên các cửa hàng thực phẩm. Các tiếp cận này của khai thác dữ liệu có thể được sử dụng bởi
các cửa hàng thực phẩm trong một số quyết định chính sách, như yêu cầu bổ sung hàng hóa
và đánh giá các chiến dịch khuyến mãi khác nhau.
Cũng tương tự như mô hình hồi qui và mạng thần kinh, mô hình cây quyết định hỗ trợ quá
trình khai thác dữ liệu thông qua mô hình hóa.
Cây quyết định trong bối cảnh khai thác dữ liệu ám chỉ cấu trúc hình cây của các quy tắc
(thường gọi là quy tắc liên kết). Quy trình cây quyết định khai thác dữ liệu bao gồm thu thập
các biến mà các nhà phân tích nghĩ rằng có khả năng liên quan đến quyết định đang được cân
nhắc, và phân tích khả năng của các biến này trong việc dự đoán kết cục. Cây quyết định cũng
hữu dụng trong việc hình thành cái nhìn sâu vào bên trong hành vi khách hàng và tìm ra cách
thức hoạt động tạo ra lợi nhuận dựa trên các kết quả 1. Thuật toán xác định một cách tự động
những biến nào quan trọng nhất, căn cứ trên khả năng của nó sắp xếp dữ liệu vào phân nhóm
kết quả đúng. Phương pháp này có một ưu điểm đáng kể so với phương pháp mạng thần kinh
và thuật toán di truyền là cung cấp tập các quy tắc có thể sử dụng lại, nhờ đó giải thích những
kết luận về mô hình 2. Có nhiều ví dụ ở đó cây quyết định được ứng dụng vào khai thác dữ
liệu kinh doanh, bao gồm phân loại những người xin vay nợ, xác định khách hàng tiềm năng,
và cho điểm đánh giá người xin việc.
Cây quyết định cung cấp phương pháp thực hiện cách tiếp cận hệ thống căn cứ trên quy tắc.
Hệ thống ID3 chọn một thuộc tính làm gốc, với các nhánh chia ra tương ứng với những giá
trị khác nhau của thuộc tính đó 3. Tất cả các đối tượng trong tập dữ liệu phân tích được phân
loại vào các nhánh này. Nếu tất cả các đối tượng trong một nhánh thuộc về cùng phân nhóm
kết quả, một nút được đặt tên và nhánh này kết thúc. Nếu có nhiều phân nhóm kết quả trong
một nhánh, một thuộc tính khác được chọn như một nút, và từ nút này có các phân nhánh là
tất cả những giá trị có thể có của thuộc tính này. Phương pháp entropy kinh nghiệm (entropy
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 129
Khai thác dữ liệu trong kinh doanh Chương 8
heuristic) được sử dụng để chọn những thuộc tính có thông tin nhiều nhất. Trong các công cụ
khai thác dữ liệu khác nhau, những cách chọn các nhánh có khác nhau.
Một ngân hàng có cơ sở dữ liệu về các người vay nợ ngắn hạn trong quá khứ. Cơ sở dữ liệu
này (được trình bày giản lược trong Bảng 4.4) bao gồm tuổi người xin vay, thu nhập người
xin vay, đánh giá rủi ro về người xin vay, và kết cục khoản nợ có được trả đúng hạn hay
không. Chính sách của ngân hàng đối xử với những người vay nợ khác nhau theo nhóm tuổi,
mức độ thu nhập và đánh giá rủi ro. Các nhóm tuổi là bé hơn hoặc bằng 30, trên 30 nhưng bé
hơn hoặc bằng 60, và trên 60. Các mức thu nhập lần lượt là bé hơn hoặc bằng 30.000$ mỗi
năm, trên 30.000 nhưng bé hơn hoặc bằng 80.000$ mỗi năm, và trên 80000$. Rủi ro cao được
đặt cho những người vay nợ có khoản nợ lớn hơn tài sản. Nếu tài sản của một người xin vay
nợ trừ đi tổng khoản xin vay còn lớn hơn khoản nợ thì rủi ro được đánh giá là thấp. Những
người xin vay mà có quan hệ nợ-tài sản nằm giữa những mức này được xếp hạng rủi ro trung
bình. Một cây sắp xếp thứ tự những kết nối có khả năng của những biến này. Một cây đầy đủ
liệt kê tất cả các kết nối của các giá trị của biến trong Bảng 8.1. Cây cho tập những quy tắc
này được thể hiện một phần trong Hình 8.1.
Hình 8.1: Một phần cây quyết định cho dữ liệu xin vay
Tuổi
Thu nhập
Rủi ro
Một mô hình hệ thống căn cứ trên quy tắc đòi hỏi các nhân viên tín dụng của Ngân hàng
chuyên chịu trách nhiệm xét duyệt cho vay được phỏng vấn để phân loại và điều chỉnh quyết
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 130
Khai thác dữ liệu trong kinh doanh Chương 8
định cho mỗi kết hợp của các biến. Một số cây có thể đơn giản ví dụ nếu thu nhập cao, khoản
cho vay có thể được chấp nhận một cách tự động bởi một số nhân viên tín dụng, điều này sẽ
làm giảm quy mô của cây xuống vì tuổi và rủi ro sẽ không được chú ý đến trong tình huống
này. Thêm nữa với những trường hợp không có thu nhập thấp, nếu rủi ro là cao, khoản vay có
thể không được duyệt. Quy tắc đầu tiên sẽ được thể hiện trong Bảng 8.2.
Cấu trúc này sử dụng dữ liệu phân loại vì số lượng kết cục là rõ ràng và có giới hạn (không
cho vay, cho vay, và có thể cho vay một phần). Dạng cây này được coi như một cây phân loại.
Các cây cũng được dùng cho dữ liệu với các kết cục liên tục, trong phương thức ước lượng
hoặc dự đoán. Trong những trường hợp này, thuật ngữ là cây hồi qui.
Bảng 8.1: Liệt kê sự kết hợp các biến về xin vay nợ
Dữ liệu, ngay cả là dữ liệu phân loại, có tiềm năng sử dụng nhiều quy tắc phân tích. Ví dụ
trong dữ liệu xin vay vừa minh họa trên có 3 biến, mỗi biến có thể nhận 3 giá trị. Vậy có
3_3_3=27 kết hợp, mỗi kết hợp được cho trong Bảng 8.1. Nếu có 10 biến, mỗi biến có 4 giá
trị có thể, số kết hợp có thể lên tới hàng triệu (1.048.576). Rõ ràng những kết cục theo quy tắc
kiểu nhẩm tính thô sơ như trên không còn phù hợp nữa. May mắn thay phương pháp cây
quyết định xác định các quy tắc hữu dụng nhất dưới dạng các kết cục tiên đoán. Hiệu quả của
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 131
Khai thác dữ liệu trong kinh doanh Chương 8
quy tắc được đo lường dưới dạng độ tin cậy và mức hỗ trợ. Độ tin cậy là mức độ chính xác
của quy tắc, mức hỗ trợ là mức độ mà các điều kiện trước đó xảy ra trong dữ liệu. Ví dụ một
người bán lẻ sách có thể phát hiện ra rằng tất cả các trường hợp trong đó sách về bóng chày
của Zane Grey’s là cuốn The Short Stop được mua, thì cuốn sách khác của tác giả này là The
Young Pitcher cũng được mua. Điều này có thể xảy ra hết 8 trong 10 lần, đem lại sự tin cậy
0,8 cho quy tắc: nếu mua The Short Stop thì sau đó sẽ mua The Young Pitcher. Tuy nhiên quy
tắc này có thể không hữu dụng lắm khi cả hai cuốn đều hiếm được mua. Mức hỗ trợ cho một
quy tắc kết hợp chỉ ra tỉ lệ các hồ sơ quan sát được bao hàm bởi tập các thuộc tính trong quy
tắc kết hợp đó. Nếu có 10 triệu giao dịch mua sách, mức hỗ trợ cho quy tắc trên sẽ là
10/10.000.000, một mức đo lường hỗ trợ rất nhỏ chỉ 0,000001. Khái niệm này thường được sử
dụng hạn chế trong hệ thống kiến thức tự động (học máy). Độ tin cậy tối thiểu và mức độ hỗ
trợ có thể được xác định để giữ lại những quy tắc mà phương pháp cây quyết định (hoặc
phương pháp quy tắc liên kết khác) đã nhận diện
Để quy tắc hấp dẫn, chúng ta phải nhận diện một vài thứ hữu dụng (có độ tin cậy cao và mức
hỗ trợ đủ cao) và mới lạ. Ví dụ người bán thực phẩm áp dụng khai thác dữ liệu phát hiện ra
rằng trứng và thịt heo xông khói được mua chung nhau với độ tin cậy 0,9 và mức độ hỗ trợ
0,2 có thể không ấn tượng. Người bán thực phẩm đã biết điều đó trước khi khai thác dữ liệu.
Độ hấp dẫn là khả năng phân tích khai thác dữ liệu phát hiện ra một số điều không ngờ tới
(khám phá kiến thức). Xác nhận giả thuyết rằng trứng và thịt heo xông khói được bán chung
nhau vẫn hữu ích. Nhưng sẽ hữu dụng hơn khi khám phá ra rằng mứt dâu đen và trứng hay
được mua chung với một tỷ lệ tương tự (chú ý cho rằng chúng tôi không biết mối quan hệ
thực như thế có hay không). Các thông tin tìm được dạng này có thể dẫn đến việc sắp xếp lại
cách trưng bày hàng hoặc cách khuyến mãi.
Thuật toán quy nạp quy tắc được xây dựng để xử lý dữ liệu phân loại một cách tự động (nó
cũng có thể hoạt động với dữ liệu liên tục). Với cách tiếp cận này trong xử lý, cần một kết cục
rõ ràng4. Thật may mắn trong trường hợp này có một kết cục rõ ràng: hai phân loại của kết
cục trả nợ. Quy nạp quy tắc hoạt động bằng cách tìm kiếm xuyên suốt bộ dữ liệu để tìm kiếm
mẫu và mối quan hệ. Các hồ sơ có thể được chia cụm vào các phân loại cụ thể. Học máy bắt
đầu không có giả định gì, chỉ xem xét dữ liệu đầu vào và kết quả. Sự phán đoán của các
chuyên gia không được sử dùng đến, điều này nghe có vẻ không hiệu quả, nhưng có nghĩa là
những sai lệch do con người gây ra sẽ bị loại trừ. Thuật toán phân chia đệ qui chia dữ liệu (dữ
liệu gốc chứ không phải dữ liệu đã nhóm như đã thể hiện ở trên) thành những tập con ngày
càng nhỏ hơn đưa tới cây quyết định 5.
Ví dụ xem xét 20 người xin vay nợ trước đây được thể hiện trong Bảng 8.3 với các kết cục đã
biết. Có 3 biến xem xét ở đây, mỗi biến có 3 mức độ có thể. Trong thực tế chúng ta có thể có
hàng ngàn quan sát, điều này khiến cho khó có khả năng xảy ra việc bất kì kết hợp nào của
các quan sát bị trống. Chúng ta dùng 20 quan sát để minh họa quy tắc tính toán, và của 27 kết
hợp, nhiều cái ở đây là trống. Những kết hợp của các quan sát minh họa được thể hiện trong
Bảng 8.4.
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 132
Khai thác dữ liệu trong kinh doanh Chương 8
Bảng 8.3: Hai mươi trường hợp xin vay nợ trước đây
Tuổi Thu nhập Tài sản Nợ Xin vay Rủi ro Kết quả
20(trẻ) 17152(thấp) 11090 20455 400 Cao Đúng hạn
23(trẻ) 25862(thấp) 24756 30083 2300 Cao Đúng hạn
28(trẻ) 26169(thấp) 47355 49341 3100 Cao Trễ hạn
23(trẻ) 21117(thấp) 21242 30278 300 Cao Không trả
22(trẻ) 7127(thấp) 23903 17231 900 Thấp Đúng hạn
26(trẻ) 42083(trung bình) 35726 41421 300 Cao Trễ hạn
24(trẻ) 55557(trung bình) 27040 48191 1500 Cao Đúng hạn
27(trẻ) 34843(trung bình) 0 21031 2100 Cao Đúng hạn
29(trẻ) 74295(trung bình) 88827 100599 100 Cao Đúng hạn
23(trẻ) 38887(trung bình) 6260 33635 9400 Thấp Đúng hạn
28(trẻ) 31758(trung bình) 58492 49268 1000 Thấp Đúng hạn
25(trẻ) 80180(cao) 31696 69529 1000 Cao Trễ hạn
33(Trung niên 40921(trung bình) 91111 90076 2900 Trung bình Trễ hạn
36(Trung niên) 63124(trung bình) 164631 144697 300 Thấp Đúng hạn
39(Trung niên) 59006(trung bình) 195759 161750 600 Thấp Đúng hạn
39(Trung niên) 125713(cao) 382180 315396 5200 Thấp Đúng hạn
55(Trung niên) 80149(cao) 511937 21923 1000 Thấp Đúng hạn
62(già) 101291(cao) 783164 23052 1800 Thấp Đúng hạn
71(già) 81723(cao) 776344 20277 900 Thấp Đúng hạn
63(già) 99522(cao) 783491 24643 200 Thấp Đúng hạn
Học máy tự động bắt đầu với việc nhận diện những biến mà có khả năng phân biệt các kết cục
có thể có tốt nhất. Với mỗi trong 3 biến này, chúng ta có thể nhận diện các xác suất kết cục
trong Bảng 8.5.
Hầu hết phần mềm khai thác dữ liệu sử dụng đo lường entropy để đánh giá sức mạnh phân
biệt của mỗi biến, chọn biến với sức mạnh phân biệt cao nhất như biến đầu tiên để tách tập dữ
liệu. (Đo lường Chi-bình phương cũng có thể được sử dụng để chọn biến. Ba trong chín phân
loại được thể hiện ở đây có toàn bộ các quan sát thuộc về hẳn một loại kết cục này hoặc kết
cục khác (tuổi = cao và rủi ro = thấp có toàn bộ các trường hợp thuộc về loại trả đúng hạn; rủi
ro = trung bình chỉ có một trường hợp, và nó thuộc về loại trả trễ hạn, theo logic điều này
đáng nghi ngờ và nó dựa trên một cỡ mẫu có thể tối thiểu, nhưng nhớ rằng chúng ta đang cố
gắng minh họa thủ tục với tập dữ liệu nhỏ).
Một công thức cho entropy (Koonce và các đồng sự, 1997) với p là số quan sát thuộc về phân
loại dương và n là số quan sát thuộc về phân loại âm trong tập dữ liệu phân tích cho mỗi giá
trị của thuộc tính: 6
p p n n
Inform log 2 log 2
pn pn pn pn
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 133
Khai thác dữ liệu trong kinh doanh Chương 8
Công thức này có một vấn đề là nếu cả p và n bằng 0 (sẽ xảy ra nếu các kết cục đều thuộc về
một phân loại) thì log cơ số 2 không xác định được, và công thức này không thể sử dụng. Tuy
nhiên với các giá trị trên 0, công thức Inform sẽ hội tụ về 0. Với biến tuổi có 3 kết cục.
Entropy cho mỗi phân loại tuổi được xác lập bởi công thức này được trình bày trong Bảng 8.6
Bảng 8.5: Kết hợp các kết cục
Biến Giá trị Trường hợp Đúng hạn Trễ hạn Xác suất (đúng hạn)
Độ tuổi Trẻ 12 8 4 0,67
Trung niên 5 4 1 0,80
Già 3 3 0 1,00
Thu nhập Thấp 5 3 2 0,60
Trung bình 9 7 2 0,78
Cao 6 5 1 0,83
Rủi ro Cao 9 5 4 0,55
Trung bình 1 0 1 0,00
Thấp 10 10 0 1,00
Quy tắc này có hai loại lỗi. Đầu tiên, những người xin vay này được đánh giá Rủi ro thấp có
thể thực sự trả không đúng hạn. (từ dữ liệu, xác suất điều này xảy ra là 0,0). Thứ hai, những
người được đánh giá rủi ro cao hoặc trung bình thực ra có thể thực sự trả đúng hạn nếu được
cho vay. (từ dữ liệu, xác suất điều này xảy ra là 0,5). Kì vọng của điều này là xác suất một
người xin vay được đánh giá rủi ro trung bình hoặc cao (10/20 hay 0,5) nhân xác suất sai
(0,5), đưa ra một sai số kì vọng bằng 0,25. Để kiểm tra quy luật này tốt nhất là áp dụng cho
tập dữ liệu thứ 2 khác với tập dữ liệu được sử dụng để phát triển quy tắc.
Tập các quy tắc này có thể được khảo sát kĩ hơn để phát hiện liệu có đạt được độ chính xác
cao hơn không. Công thức entropy cho tuổi, biết rằng rủi ro không thấp, là 0,991, trong khi
tính toán tương tự cho thu nhập là 1,971. Điều này có nghĩa là tuổi có khả năng phân biệt
mạnh hơn. Với dữ liệu này, nếu tuổi là trung niên, đó là trường hợp không trả đúng hạn.
Không có trường hợp lớn tuổi trong nhóm này. Vì vậy quy tắc thứ hai như sau:
1
Là kết quả của log2(8/12)
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 134
Khai thác dữ liệu trong kinh doanh Chương 8
NẾU (Rủi ro KHÔNG Thấp) VÀ (Tuổi = Trung niên) THÌ Dự đoán trả Trễ hạn
NGƯỢC LẠI Dự đoán Trả đúng hạn
Trong trường hợp này, dữ liệu sẽ chỉ ra xác suất, như trong Bảng 8.7.
Bảng 8.7: xác suất theo từng trường hợp
Rủi ro Tuổi Tần số Xác suất (đúng hạn)
Thấp 10/20 1,0
Không thấp Trung niên 1/20 0,0
Không thấp Trẻ 9/20 0,56
Toàn bộ 10 quan sát trong tập con này của dữ liệu với đánh giá Rủi ro thấp đã trả đúng hạn.
Với 10 trường hợp khác mà rủi ro không thấp, 1 trường hợp với tuổi trung niên đã không trả
đúng hạn (như đã nói ở trước), trong khi 5 trong 9 trường hợp trẻ tuổi (vẫn nhóm rủi ro không
thấp này) đã trả đúng hạn. Sai số kì vọng ở đây là xác suất 4/9 cho 9 trường hợp trong toàn bộ
20, (4/9.9/20 hay = 0,2). Đây là một sự tiến bộ hơn trường hợp cũ với sai số kì vọng 0,25.
Với biến Thu nhập, biết Rủi ro không thấp và Tuổi không phải trung niên, có 9 trường hợp
còn lại, thể hiện trong Bảng 8.8. Bốn trong chín trường hợp này là có thu nhập thấp, với hai
trường hợp trả đúng hạn và hai trường hợp không trả đúng hạn. Bốn trường hợp có thu nhập
trung bình, 3 trong 4 trường hợp này trả đúng hạn và 1 không trả đúng hạn. Trường hợp cuối
cùng có thu nhập cao mà không trả đúng hạn.
Một quy tắc thứ ba, tận dụng những trường hợp với kết cục đồng nhất, là
NẾU (Rủi ro KHÔNG Thấp) VÀ (Tuổi KHÔNG Trung niên) VÀ (Thu nhập cao) THÌ Dự đoán trả Trễ hạn
NGƯỢC LẠI Dự đoán Trả đúng hạn
Mức độ chính xác kì vọng của 3 quy tắc cùng nhau được thể hiện trong Bảng 8.9. Sai số kì
vọng ở đây là 8/20 nhân với 0,375 bằng 0,15.
Một quy tắc bổ sung có thể được suy diễn. Với những trường hợp Rủi ro không cao, Tuổi =
trẻ và Thu nhập KHÔNG cao, có 4 trường hợp với thu nhập thấp (xác suất của trả đúng hạn là
0,5) và 4 trường hợp với thu nhập trung bình (xác suất của trả đúng hạn là 0,75). Sự phân biệt
rõ nhất được cung cấp bởi thu nhập trung bình, đưa đến quy tắc sau:
NẾU (Rủi ro KHÔNG Thấp) VÀ (Tuổi KHÔNG Trung niên) VÀ (Thu nhập trung bình) THÌ Dự đoán trả đúng hạn
NGƯỢC LẠI Dự đoán cái thứ hai
Với quy tắc này không tăng thêm độ chính xác, thể hiện trong Bảng 8.10
Bảng 8.8: Các xác suất được tính toán
Thu nhập Đúng hạn Trễ Xác suất (đúng hạn)
Thấp 2 2 0,50
Trung bình 3 1 0,75
Cao 0 1 0,00
Bảng 8.9: Mức độ chính xác được kì vọng của ba quy tắc
Rủi ro Độ tuổi Thu nhập Tần số Xác xuất (Đúng hạn)
Thấp 10/20 1,0
KHÔNG thấp Trung niên 1/20 0.0
KHÔNG thấp Trẻ Cao 1/20 0,0
KHÔNG thấp Trẻ KHÔNG CAO 8/20 0,625
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 135
Khai thác dữ liệu trong kinh doanh Chương 8
Sai số kì vọng là 4/20×0,25 + 4/20×0,5 = 0,15, tương tự với khi không có quy tắc. Khi đó
phương pháp học máy không đạt được sự cải thiện hơn, thì quy tắc ngừng lại. (Ở đây chúng ta
đã khảo sát hết tất cả các cách kết hợp). Vì thế, quy tắc cuối cùng sẽ không được cộng thêm
vào 3 quy tắc đầu tiên. Thuật toán học máy sẽ dừng lại tại:
Mô hình này có thể được kiểm tra trên bộ dữ liệu được cho trong Bảng 4.5. Bảng 8.11 thể
hiện kết quả này. Hình 8.2 thể hiện cây quyết định cho tập các quy tắc này. Trong trường hợp
này ma trận trùng thể hiện ở Bảng 8.12. Trong trường hợp này độ chính xác của mô hình là
8/10 hoặc 80%. Có những sai số thuộc cả hai dạng (từ chối một đơn xin vay tốt, chấp nhận
một đơn xin vay xấu).
Bảng 8.11: Những quy tắc áp dụng cho các trường hợp kiểm tra
Hồ sơ Thực tế Dự đoán quy tắc Theo quy tắc Kết quả
1 Đúng hạn Đúng hạn 1 Phù hợp
2 Đúng hạn Đúng hạn 1 Phù hợp
3 Đúng hạn Đúng hạn 1 Phù hợp
4 Đúng hạn Đúng hạn Ngược lại Phù hợp
5 Đúng hạn Đúng hạn 1 Phù hợp
6 Đúng hạn Đúng hạn Ngược lại Phù hợp
7 Trễ hạn Đúng hạn Ngược lại Lệch
8 Đúng hạn Đúng hạn 1 Phù hợp
9 Đúng hạn Trễ hạn 3 Lệch
10 Đúng hạn Đúng hạn 1 Phù hợp
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 136
Khai thác dữ liệu trong kinh doanh Chương 8
Rủi ro
Phần này trình bày tóm tắt ngắn gọn về ứng dụng cây quyết định. Đầu tiên là dự báo tồn kho,
thứ hai là khai thác dữ liệu trong y tế, và thứ ba là kĩ thuật phần mềm. Sau đó chúng ta minh
họa phát triển cây quyết định được áp dụng cho chất lượng phát triển phần mềm.
Một công cụ khai thác dữ liệu được thiết kế và thực hiện để phát hiện các kiểu mẫu trong
phần dư của các mô hình dự báo phản ánh những hiểu biết tại chỗ 7. Một mẫu ngẫu nhiên của
1,6 triệu hồ sơ thu thập trong một thời kì 30 tháng (từ một tổng thể 19 triệu hồ sơ) được sử
dụng để phản ánh khuyến mãi bán lẻ thực phẩm của 95 cửa hàng thực phẩm của một nhà bán
lẻ tại một khu vực dân cư rộng lớn. Mô hình này được kiểm tra lại trên một mẫu 400.000 hồ
sơ sau khi xây dựng mô hình.
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 137
Khai thác dữ liệu trong kinh doanh Chương 8
Một mô hình dự đoán, bao gồm sản xuất và bán lẻ sẽ có khoảng trên 2.000 biến giả (Dummy),
vì thế rất khó nếu đưa các mô hình dự đoán truyền thống vào trong ứng dụng này. Khai thác
dữ liệu được sử dụng để phát triển một mô hình quy nạp quy tắc nhằm phát hiện khi nào
thông tin trong hai biến bị loại ra là thực sự quan trọng. Khi mô hình quy nạp quy tắc nhận ra
các biến này là quan trọng thì dự đoán truyền thống được điều chỉnh để đạt được dự đoán
chính xác hơn.
Phân tích khai thác dữ liệu tạo ra 28.000 quy tắc. Khoảng một nửa của số trường hợp dự đoán
có liên quan đến khuyến mãi, do đó không cần có sự điều chỉnh nào đối với mô hình dự đoán
truyền thống. Dự đoán được điều chỉnh theo quy tắc này là rất chính xác, chỉ một sản phẩm
cần điều chỉnh trong 80% các trường hợp, và chỉ có hai sản phẩm cần điều chỉnh trong 90%
các trường hợp. Sự cải thiện kết quả của mô hình truyền thống dao động từ 0% điều chỉnh cho
dầu gội gói nhỏ đến trên 27% điều chỉnh cho yogurt.
Hệ thống quy nạp dựa trên quy tắc theo xác suất được phát triển dựa trên một tập các lý
thuyết thô cho lĩnh vực y tế về bệnh đau đầu, bệnh cerebulovasular (CVD) và bệnh viêm
màng não 8. Có 50.000 mẫu trong tập phân tích về bệnh đau đầu, bao gồm 45 nhóm và 147
thuộc tính. .Có trên 7500 mẫu trong tập phân tích mô hình bệnh CVD, với 285 thuộc tính có
sẵn để phân loại các trường hợp thành 22 loại. Mô hình bệnh viêm màng não có trên 1.200
mẫu trong tập phân tích trên 41 thuộc tính thành 4 nhóm của biến kết quả.
Người ta so sánh hiệu quả mô hình. Các mẫu được ngẫu nhiên chia thành mẫu phân tích mới
và mẫu kiểm tra mới. Phương pháp quy nạp quy tắc thông thường AQ15 và C4.5 được sử
dụng trên mẫu phân tích mới. Quy tắc cũng được hình thành (một cách thủ công) từ các nhà
chuyên môn. Các quy tắc quy nạp và các quy tắc từ các nhà chuyên môn được kiểm tra dựa
trên một mẫu kiểm tra mới. Thủ tục này được lặp lại 100 lần, vì thế đó là kiểm tra chéo hai
lần. Các quy tắc từ các chuyên gia có 92% chính xác trong toàn bộ ba loại bệnh. Mô hình
AQ15 và C4.5 đã tính trung bình khoảng 82% chính xác, với AQ15 có trung bình hơi cao hơn
chút và C4.5 với kết quả tối thiểu hơi cao hơn. Hệ thống thô các quy tắc đã được ấn định căn
cứ chỉ trên quy tắc dương là có nhiều lỗi hơn, trung bình khoảng 70% chính xác. Tuy nhiên
mô hình căn cứ trên cả hai tập quy tắc dương và âm từ tập thô đã tính trung bình trên 90%
chính xác, gần như phù hợp với mô hình căn cứ trên ý kiến chuyên gia.
Một giá trị khác của mô hình hệ thống quy tắc đã phát triển là hiểu thấu các mối quan hệ mới
mà các chuyên gia không nhận ra. Đúng là thu nhận kiến thức tự động.
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 138
Khai thác dữ liệu trong kinh doanh Chương 8
Nghiên cứu được tiến hành bởi một công ty liên lạc điện thoại lớn. Tỷ lệ lỗi cho các mô đun
không cần cập nhật là khá thấp (khoảng 99% các mô đun không có lỗi). Vì thế nghiên cứu tập
trung vào các mô đun được cập nhật sau khi công bố. Các mô đun tiêu biểu bao gồm nhiều
triệu dòng mã lệnh (line of code) trong vài ngàn mô đun như vậy. Với những mô đun đã cập
nhật thì xác suất lỗi là 0,074. Dữ liệu gần như được chia đôi, một nửa dùng cho phân tích và
một nửa dùng cho kiểm tra.
Xử lý sơ bộ bao gồm phát triển một bộ nhận dạng mô đun sạch, và các thước đo đặc trưng mã
nguồn. Có hai đo lường dạng đồ thị các lệnh gọi (ví dụ số lệnh gọi từ một mô đun này tới một
mô đun khác), 13 đo lường lưu đồ (ví dụ số nút vào hoặc số nút ra) và 9 đo lường câu lệnh
(bao gồm số dòng mã lệnh). Những mô đun khuyết dữ liệu bị loại bỏ.
Dữ liệu được giảm xuống bằng cách rút trích dữ liệu bị lỗi được phát hiện bởi khách hàng và
các biến xử lý phần mềm từ cơ sở dữ liệu của công ty. Cách thức tiến hành là dự đoán từ các
hồ sơ triển khai và các kế hoạch cài đặt.
Một mô đun là một tập các file nguồn, ở đây một giao dịch xảy ra với mỗi một thay đổi đến
một file nguồn. Kỹ thuật thu nhỏ dữ liệu được sử dụng để rút trích 7 biến ở mức độ mô đun.
Bao gồm dòng lệnh chết (code churn), hoặc tổng số lượng mã đã thay đổi trong mô đun, cũng
như kinh nghiệm của người lập trình dưới dạng số lượng cập nhật đã thực hiện trước đó.
Cũng có dữ liệu triển khai nhận dạng 4 giá trị biến: nhận diện địa điểm khách hàng, nhận diện
mô đun, các phiên bản được cài đặt, và ngày được cài đặt. Các thông tin này được dùng để
tính toán biến USAGE (sử dụng). Dữ liệu báo cáo vấn đề căn cứ trên 9 biến liên quan đến một
hệ thống báo cáo vấn đề. Thông tin này được sử dụng để tạo ra 8 biến cho nghiên cứu khai
thác dữ liệu.
Cây phân loại được sử dụng cho phân tích khám phá kiến thức này sử dụng thuật toán cây hồi
quy và phân loại (CART). CART cho phép xác định xác suất trước và sử dụng phí tổn của
phân loại sai. Ở đây cả hai loại lỗi đều được coi quan trọng ngang nhau, vì vậy tỉ lệ của phí
tổn phân loại sai là 1.0. CART thực hiện bằng cách bắt đầu với 40 biến và sau đó tỉa bớt cho
đến khi tỉ lệ lỗi chỉ còn trong một giới hạn xác định.
Mô hình đầu tiên được nhận diện bởi thuật toán CART dùng biến FLINCUQ (số lượng file
khác biệt, và đo lường câu lệnh), SRC_MOD (mạng mới và các dòng mã đã thay đổi),
CTRNSTMX (bộ cấu trúc điều khiển tối đa), UPD_CAR (số lượng những cập nhật mà các
nhà thiết kế đã thêm vào trong suốt thời gian làm việc tại công ty của họ), STMCTL (số câu
lệnh điều khiển), và USAGE (tỉ trọng các khu vực khách hàng theo một mô đun của phiên bản
đang lưu hành). Mô hình bao gồm dòng quy tắc sau:
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 139
Khai thác dữ liệu trong kinh doanh Chương 8
Bảng 8.13: Ma trận trùng dữ liệu kiểm tra chất lượng phần mềm
Thiên về không lỗi Thiên về lỗi
Thực sự thiên về không có lỗi 73,8% 26,2%
Thực sự thiên về lỗi 28,9% 71,1%
Mô hình đơn thứ hai được nhận diện bởi CART xem xét sáu biến số được cho điểm là quan
trọng nhất trong mô hình đầu tiên. Mô hình cuối cùng sinh ra một bộ quy tắc đơn giản hơn
dùng biến số FILICUQ và VARSPNSM (toàn bộ các biến số; một thước đo câu lệnh khác).
Đánh giá
Mô hình đầu tiên đạt được ma trận trùng sau đây dựa trên bộ dữ liệu kiểm tra, trình bày dưới
dạng phần trăm trong Bảng 8.13. Mô hình thứ hai đơn giản hơn có tỷ lệ lỗi được trình bày
trong Bảng 8.14.
Hai mô hình có độ chính xác rất gần nhau. Mô hình đầu tiên tốt hơn ở độ chính xác kiểm tra
chéo, nhưng các biến của nó chỉ sẵn có trước khi phần mềm được đưa ra sử dụng. Mô hình
thứ hai có ưu điểm hơn là chỉ căn cứ trên dữ liệu sẵn có tại giai đoạn sớm hơn và cũng đòi hỏi
ít hơn việc giảm bớt dữ liệu.
Có nhiều ứng dụng khác của mô hình cây quyết định trong khai thác dữ liệu. Ngành công
nghiệp giấy là một ví dụ của tiến trình sản xuất liên tục. Cây quyết định được sử dụng bởi một
công ty sản xuất giấy 10. Mục tiêu sản xuất trong ví dụ này là giảm mức độ phế thải trong sản
xuất giấy. Dữ liệu về chất lượng sản xuất được lưu trữ tại nhiều trạm khác nhau trong xưởng,
bao gồm các đo lường giấy như trọng lượng, độ ẩm, độ dày. Dữ liệu từ mỗi cuộn giấy được so
sánh với dữ liệu quá khứ theo loại giấy được sản xuất. Cần nhiều tháng để nhận diện các hồ
sơ kết quả sản xuất tốt và xấu. Phương pháp quy nạp được chọn như một công cụ khai thác dữ
liệu, vì muốn giải thích được các kết luận mô hình. Hệ thống đưa ra kết quả rất tốt, dự đoán
chính xác 96% số cuộn giấy tốt và 88% số cuộn giấy lỗi. Một số vấn đề của mô hình dự đoán
là ngược lại với trực giác, cho thấy nghiên cứu mà giúp gia tăng hiểu biết về tiến trình sản
xuất giấy.
Ứng dụng khác của cây quyết định là ứng dụng thuật toán cây quyết định nghiên cứu quy nạp
để cải tiến tiến trình ra quyết định của Ủy ban lương bổng của công nhân New York 11. Việc
giảm thiểu chi phí quản lý được tìm từ việc áp dụng thủ tục hiệu quả hơn cho các yêu cầu vì
lương thấp số tiền nhỏ. Hệ thống đưa ra các quy tắc có thể được sử dụng để phân chia các
trường hợp vào những quy trình xử lý khác nhau. Trong trường hợp này hệ thống tự động đưa
ra quy tắc, sau đó được áp dụng như hệ chuyên gia (expert systems)quy tắc sản xuất.
Bảng 8.14: Ma trận trùng dữ liệu kiểm tra chất lượng phần mềm
Thiên về không lỗi Thiên về lỗi
Thực sự thiên về không có lỗi 73,0% 27%
Thực sự thiên về lỗi 27,4% 72,6%
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 140
Khai thác dữ liệu trong kinh doanh Chương 8
Chúng ta sử dụng bộ số liệu Xin vay để minh họa thủ tục cây quyết định.
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 141
Khai thác dữ liệu trong kinh doanh Chương 8
Hầu hết các phân mục người già đều trống. Hơn nữa, tất cả các mục của người xin vay đã có
tuổi có sự đồng nhất trong kết cục của họ. Học máy tự động bắt đầu nhận diện những biến có
khả năng cao nhất phân biệt giữa các kết cục có thể. Với mỗi biến trong 4 biến chúng ta có thể
xác định được xác suất của các kết cục trong Bảng 8.18.
Đối với biến số về Tuổi, có ba kết cục. Entropy cho Tuổi tác theo công thức này được hiển thị
trong Bảng 8.19.
Trong Bảng 8.19 dưới tiêu đề Tổng là phép tính toán sau đây: Đối với người trẻ, cụm đầu tiên
của phương trình thông tin ta nhân tỉ lệ 136/169 với -0,313 rồi với -1 ; cụm thứ hai nhân tỉ lệ
33/169 với -2,356, rồi với -1. Tổng 2 cụm này là 0,712. Điều này biểu thị 169 của 400 trường
hợp phân tích. Cột có tiêu đề product (tích số) là kết quả của tổng theo xác suất. Đối với độ
tuổi trẻ (thanh niên), đây là 0,712 nhân 169/400, mang lại 0,301. Tổng của ba tích số này
mang lại đo lường entropy. Đo lường entropy càng thấp hơn, nội dung thông tin càng lớn hơn
(xác suất đồng ý càng lớn hơn). Đo lường entropy cho bốn biến số là:
Tuổi 0,473
Thu nhập 0,500
Rủi ro 0,470
Đánh giá tín dụng 0,461
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 142
Khai thác dữ liệu trong kinh doanh Chương 8
Với đo lường này, đánh giá tín dụng có nội dung thông tin lớn nhất. Trong những mục đánh
giá tín dụng, chúng ta muốn chọn một cái có khả năng lớn nhất để phân loại dữ liệu chính xác
(xác suất gần nhất tới 1,0 để cho vay hoặc 0,0 để từ chối cho vay). Chúng ta có thể xem xét
chi phí liên quan đến lỗi. Một lỗi của việc chấp nhận cho vay trong trường hợp không trả tiền
đúng hạn có thể thiệt hại gấp chín lần (900$) một lỗi trả đúng hạn (nhưng bị từ chối, 100$).
Do vậy chúng ta có thể sử dụng giới hạn điểm cắt xác suất 0,90. Nếu các mục được xem là có
một xác suất lớn hơn hoặc bằng 0,9 chúng ta sẽ tạo ra một quy tắc duyệt các khoản cho vay.
Nếu các mục đang được xem xét có một xác suất thấp hơn 0,9, chúng ta sẽ từ chối cho vay.
Nếu đánh giá tín dụng là màu xanh, dữ liệu chỉ báo một xác suất 0,953 (244 trong số 256
trường hợp) là người xin vay sẽ trả các khoản cho vay đúng hẹn. Nếu đánh giá tín dụng không
phải màu xanh, dữ liệu này cho biết một xác suất 0,815 rằng người xin vay sẽ trả các khoản
cho vay đúng hạn. Đây này là quy tắc đầu tiên được lựa chọn bởi các thuật toán học máy.
Nếu (tín dụng = màu xanh lá cây) Thì dự đoán trả đúng hạn
NGƯỢC LẠI Dự đoán Trễ
Quy tắc này có hai kiểu sai số. Đầu tiên, những người xin vay được đánh giá như là màu xanh
thật sự không trả nợ đúng hạn. (Từ dữ liệu, xác suất xảy ra việc này là 0,040.). Thứ hai, những
người xin vay được đánh giá màu vàng hay màu đỏ thật sự đã trả nợ, nếu được cho vay tiền.
(Từ dữ liệu, xác suất xảy ra việc này là 0,815). Kỳ vọng của điều này là xác suất của một
người nộp đơn xin vay được đánh giá như là màu xanh lá cây (224/400, hoặc 0,550) nhân xác
suất sai (là 0,040), cộng với xác suất không được đánh giá màu xanh (176/400, hay 0,440)
nhân xác suất sai (0,795), tính ra một kì vọng lỗi là 0,022 + 0,350 = 0,372. Chúng ta cũng có
thể tính toán hàm chi phí lỗi. Đây sẽ là 900$× 0,022 + 100$× 0,350, hay 55,14$. Để kiểm tra
quy tắc này, cách tốt nhất là áp dụng nó vào tập dữ liệu thứ hai, khác tập dữ liệu được sử dụng
để phát triển các quy tắc. Sử dụng 250 quan sát như là tập dữ liệu kiểm tra, Bảng 8.20 hiển thị
ma trận trùng.
Tỷ lệ phân loại chính xác là 0,620. Hàm chi phí cho kết quả này sẽ là 900$×7 + 100$ ×88 =
15.100$. Vì chúng ta có 250 trường hợp, chi phí lỗi trung bình là 60,40$ cho mỗi trường hợp.
Tập các quy tắc có thể được khảo sát thêm để xem có đạt được độ chính xác cao hơn không.
Những công thức entropy về Tuổi, biết rằng Đánh giá tín dụng không phải là màu xanh lá cây,
là 0,672; cho Thu nhập 0,720; và cho Rủi ro 0,657 ; và cho sự khác biệt giữa đánh giá tín
dụng màu đỏ và màu vàng là 0,718. Điều này chỉ ra rằng Rủi ro có sức mạnh phân biệt lớn
hơn tại điểm này. Với dữ liệu này, nếu Rủi ro thấp, 79 của 86 trường hợp đã được thanh toán
đúng hạn (0,919). Hai tình trạng khác đã có 61 trong 90 trường hợp trả đúng hạn (0,678). Do
đó, nguyên tắc thứ hai là:
Nếu (Đánh giá tín dụng không là màu xanh lá VÀ(Rủi ro = thấp) THÌ (Dự báo đúng hạn)
NGƯỢC LẠI Dự báo trễ
Trong trường hợp này, dữ liệu hiển thị xác suất trong Bảng 8.21. Kỳ vọng lỗi ở đây là
224/400 lần (1 - 0.960) + 86/400 nhân (1-0.919) + 90/400 nhân (1-0.678) = 0,112. Hàm chi
phí là 900$ nhân 224/400 nhân 0,040 (20,16$) cộng với 900$ nhân 86/400 nhân 0,081
(15,67$) cộng với 100$ nhân 90/400 nhân 0,678 (15,26$), hoặc 51,09$ cho mỗi trường hợp.
Đây là một bước cải tiến hơn các trường hợp cũ, ở đó kì vọng lỗi là 0,380 với một chi phí kì
vọng cho mỗi trường hợp 60,40$. Ma trận trùng ở đây được hiển thị trong Bảng 8.22.
Bảng 8.20 Ma trận trùng cho quy tắc đầu tiên
Thực tế Trễ Đúng hạn Tổng cộng
Trễ 13 7 20
Đúng hạn 88 142 230
Tổng cộng 101 149 250
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 143
Khai thác dữ liệu trong kinh doanh Chương 8
Bảng 8.22 Ma trận trùng cho hai quy tắc đầu tiên
Thực tế Trễ Đúng hạn Tổng cộng
Trễ 11 9 20
Đúng hạn 43 187 230
Tổng cộng 54 196 250
Tỷ lệ phân loại đúng là 0,792, cao hơn trong Bảng 8.20. Hàm chi phí ở đây sẽ là 900$×9 +
100$×4 = 12400$, hay 49,60$ cho mỗi trường hợp.
Chúng ta tính toán lại entropy, loại trừ Đánh giá tín dụng màu xanh và Đánh giá rủi ro thấp.
Các giá trị đạt được là 0,902 cho Tuổi ; 0,893 cho Thu nhập ; 0,897 cho Rủi ro ; và 0,877 cho
các Đánh giá tín dụng. Thấp nhất của những giá trị này là cho tín dụng. Biết Đánh giá tín
dụng không phải là màu xanh, và Rủi ro là không cao. Điều đó đưa lại 90 trường hợp cho
phân tích, như được hiển thị trong Bảng 8.23.
Trong khi dưới đây giới hạn điểm cắt là 0,9 ; những người có Đánh giá tín dụng màu vàng rõ
ràng đã có một xác suất trả đúng hẹn cao hơn người có đánh giá tín dụng của màu đỏ. Một
nguyên tắc thứ ba là :
NẾU(Đánh giá tín dụng không xanh) VÀ(Rủi ro KHÔNG cao) VÀ(Đánh giá tín dụng THÌ dự đoán Đúng hạn
NGƯỢC LẠI vàng) Dự đoán trễ hạn
Độ chính xác kì vọng của ba quy tắc này kết hợp lại được thể hiện trong Bảng 8.24.
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 144
Khai thác dữ liệu trong kinh doanh Chương 8
Lỗi kì vọng ở đây là 0,117 với một hàm chi phí kì vọng mỗi trường hợp 75,57$ (vì tỷ lệ sai số
cao cho quy tắc thứ ba). Sai số phân biệt kì vọng hạ xuống, mặc dù hàm chi phí kì vọng tăng
lên. Bảng 8.25 đưa ra ma trận trùng cho tập quy tắc này sử dụng trên tập dữ liệu kiểm tra.
Ở đây tỷ lệ phân loại đúng tăng lên 0,888 (nó là 0,792 sau hai quy tắc), trong khi chi phí trung
bình mỗi trường hợp gia tăng đến 65,60$ từ 49,6$. Khi không thể cải thiện thêm, nói chung
phương pháp học máy sẽ dừng lại. Vì vậy, quy tắc cuối cùng sẽ không được thêm vào hai quy
tắc đầu tiên. Thuật toán học máy sẽ dừng lại tại:
NẾU (Đánh giá tín dụng là màu xanh) THÌ Dự đoán Đúng hạn
NẾU( Đánh giá tín dụng KHÔNG phải xanh) VÀ (Rủi ro = thấp) THÌ Dự đoán Đúng hạn
NGƯỢC LẠI Dự đoán Trễ
Chú ý rằng cách tiếp cận này không đảm bảo sự tối ưu. Theo nghĩa là nó chỉ đưa ra giải pháp
chấp nhận được, có nghĩa là nó có khuynh hướng đưa ra một mô hình tốt, nhưng có thể còn có
những cái tốt hơn.
Mô hình cũng chạy với See5 (xem minh họa của phân tích cây quyết định See5 ở phần phụ
lục của chương này). Mô hình ban đầu, sử dụng 400 quan sát của tập phân tích để phân loại
toàn bộ các trường hợp Đúng hạn. Vì tập dữ liệu lệch nhiều (45 trường hợp trễ và 355 trường
hợp đúng hạn), điều này có một tỷ lệ phân loại đúng khá cao, tới 0,92. Tuy nhiên, ứng dụng
dự đoán rất kém đối với các trường hợp thực sự trễ hạn. Cân bằng dữ liệu có thể cải tiến kết
quả. Chúng tôi đã lược bớt số quan sát từ tập dữ liệu phân tích để điều chỉnh tỷ lệ những
trường hợp trễ, thể hiện trong Bảng 8.26 . Việc sử dụng 325 quan sát một lần nữa cung cấp tất
cả những dự báo Đúng hạn. Mô hình dựa trên 225 sự quan sát (cũng như mô hình dựa vào
180 quan sát), là để tạo ra tất cả trường hợp Đúng hạn ngoại trừ Rủi ro cao, và đánh giá tín
dụng màu đỏ hay màu vàng. Mô hình phân tích 150 quan sát để phân chia tất cả các trường
hợp Đúng hạn, ngoại trừ người xin vay Trẻ và đánh giá tín dụng màu đỏ hay màu vàng. Mô
hình đạt được được kiểm tra trên cùng tập kiểm tra 250 quan sát. Dữ liệu này thể hiện xu
hướng rõ ràng những kết quả mô hình hữu dụng hơn bằng cách cân bằng dữ liệu.
Mô hình này như vậy đã có 54 lỗi trên 660 trường hợp, tỷ lệ phân loại chính xác là 0,918.
(Mô hình bỏ lỡ 48 của 60 trường hợp thực sự gian lận, tức là lỗi 80 phần trăm trong phân loại
quan trọng). Áp dụng cho 1.000 trường hợp kiểm tra, kết quả được hiển thị trong Bảng 8.27.
Mô hình có một tỷ lệ phân loại đúng là 0,968; khá tốt. Tuy nhiên, trong số 22 trường hợp có
gian lận trong thực tế thì đã bỏ sót 86%. Tuy vậy, cân bằng dữ liệu có thể là cần thiết để có
được mô hình tốt hơn. Phần mềm khai thác dữ liệu cũng thường có khả năng này.
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 145
Khai thác dữ liệu trong kinh doanh Chương 8
Bảng 8.27 Ma trận trùng cho mô hình Gian lận trên See5
Thực tế Không gian lận Gian lận Tổng cộng
Không gian lận 965 13 978
Gian lận 19 3 22
Tổng cộng 984 16 1000
Mô hình này có tỉ lệ phân loại đúng là 68% trên các dữ liệu phân tích, mà không phải là xấu
cho bốn kết cục. Áp dụng cho dữ liệu kiểm tra mang lại ma trận trùng trong Bảng 8.28.
Mô hình này đúng 116 trong 200 lần, hay 58% số lần. Lưu ý rằng mô hình không dự đoán
một kết cục “cao”, và chỉ có 5 kết cục “quá thấp” (và đã sai bốn trong các trường hợp này).
Thiếu kết quả cao là do sự thưa thớt của các trường hợp này trong dữ liệu phân tích. 300
trường hợp cho phân tích, 34 là quá thấp, 96 tối thiểu, 162 trung bình, và chỉ có 8 là cao.
Bảng 8.28 Ma trận trùng cho dữ liệu Xin việc, mô hình phân loại trên dữ liệu kiểm tra
Thực tế Quá thấp Tổi thiểu Trung bình Cao Tổng cộng
Quá thấp 1 24 25
Tổi thiểu 4 48 7 59
Trung bình 34 67 101
Cao 15 15
Tổng cộng 5 106 89 0 200
Bảng 8.29 Ma trận trùng cho dữ liệu Xin việc, mô hình phân loại trên dữ liệu kiểm tra.
Thực tế Quá thấp Tổi thiểu Trung bình Cao Tổng cộng
Quá thấp 9 15 1 25
Tổi thiểu 7 37 15 59
Trung bình 28 73 101
Cao 15 15
Tổng cộng 16 80 104 0 200
Tập dữ liệu dạng chuẩn hóa liên tục cũng được phân tích với mô hình cây quyết định từ See5.
Cây quyết định kết quả như sau:
Trường hợp Lỗi
NẾU(bằng cấp = không) Nếu (tình trạng>0) THÌ (tối thiểu) 11 3
“ “ Nếu (kinh nghiệm0,8) THÌ (quá thấp) 34 14
“ “ Nếu (kinh nghiệm>0,8) THÌ (tối thiểu) 8 2
NẾU(bằng cấp > không) Nếu (chuyên môn>0,7) THÌ (trung bình) 124 17
“ Nếu (chuyên môn0,7) Nếu (tuổi0,333) THÌ (tối thiểu) 101 46
“ “ Nếu (tuổi>0,333) THÌ (trung bình) 22 6
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 146
Khai thác dữ liệu trong kinh doanh Chương 8
Một lần nữa, cây quyết định này không nhận dạng bất cứ trường hợp nào cao (cũng vì sự thưa
thớt các trường hợp cao này trong tập dữ liệu phân tích). Trên bộ dữ liệu này mô hình đúng
212 trong 300 lần với tỷ lệ phân loại đúng 0,71. Ma trận trùng cho mô hình này trên tập dữ
liệu kiểm tra được cho trong Bảng 8.29.
Trên dữ liệu kiểm tra mô hình, mô hình này có tỷ lệ phân loại đúng 119/200, hoặc 0,595. Điều
này thực tế cũng tương tự với mô hình căn cứ trên dữ liệu dạng phân loại.
Phần mềm với giải thuật này đã có trên thị trường, ví dụ CART (cây phân biệt và hồi quy),
CHAID (Phát hiện tương tác tự động chi bình phương), ID3, và ID4.5. Nock và Jappy (1999)
phân loại các thuật toán nghiên cứu cây quyết định 12: Greedy, thuật toán tương tác như CN2
thêm từng qui tắc một cho đến khi khai thác hết tập dữ liệu; Thuật toán tìm kiếm khoảng
trống quy tắc trước khi thêm vào danh sách quy tắc quyết định, sử dụng nhánh và ranh giới, ví
dụ như BruteD; Loại thuật toán cuối cùng sử dụng tìm kiếm ngẫu nhiên, ví dụ SDL dùng
trong chương trình rèn luyện giả lập.
Nhiều phần mềm khai thác dữ liệu bao gồm thuật toán cây quyết định/quy nạp quy tắc, ví dụ
như C4.5 (và See5), và các phần mềm ra sau như ID3 13. DBMine bao gồm phương pháp luận
cây quyết định 14. Các hệ thống khác, ví dụ BussinessObjects Phiên bản 4.0 căn cứ trên kĩ
thuật cây quyết định mang tính trực giác. CART cung cấp mô hình dự đoán và phân loại đáng
tin cậy cho việc nhận diện chân dung khách hàng tốt nhất, xác định mục tiêu cho thư trực tiếp,
phát hiện gian lận, và phân tích rủi ro tín dụng 15. Phần mềm Cognos’ Scenario cung cấp một
loạt sản phẩm cây quyết định 16.
PHỤ LỤC
Chúng tôi minh họa việc sử dụng phần mềm khai thác dữ liệu trên file dữ liệu chi tiêu, phân
tích số tiền chi tiêu trên các khoản khác nhau ví dụ như sở hữu và vận hành xe ô tô, quần áo,
giải trí, hàng thực phẩm, nhà ở, và ăn nhà hàng.
File dữ liệu có 19 biến và 10.000 hồ sơ. Có hai loại biến là nhân khẩu học và chi tiêu (thể hiện
tỷ lệ của thu nhập chi cho một số khoản) thể hiện trong Bảng 8A.1.
Mục tiêu của nhiệm vụ khai thác dữ liệu là để tìm các đặc tính của khách hàng tiềm năng cho
mỗi loại chi tiêu. Một trường hợp đơn giản là phân loại chi tiêu quần áo (hoặc chi tiêu khác
trong tập dữ liệu) mỗi năm như một bài toán phân loại hai lớp. Căn cứ trên dữ liệu nguồn hiện
tại, một vài biến đã chuyển đổi được cộng thêm vào để làm chi tiết hơn cho bài toán phân loại
hai lớp. Thủ tục này như sau:
1. Tạo các biến mới bằng cách nhân “Thu nhập” lần lượt với từng tỉ lệ. Ví dụ: biến mới
“Cloth” là kết quả của “income-thu nhập” nhân với “ProCloth-tỷ lệ chi cho quần áo”. Tương
tự vậy, các biến khác như Nghỉ, Nhà, Tiện ích, Xe, Thực phẩm và Giải trí là được thêm vào.
2. Tính giá trị trung bình của mỗi biến mới. Sau đó tạo một biến nhị phân cho mỗi biến mục
tiêu (Nghỉ, Nhà, Tiện ích, Xe, Bách hóa và Giải trí). Các biến nhị phân này có giá trị 0 và 1.
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 147
Khai thác dữ liệu trong kinh doanh Chương 8
Cho mỗi biến mới, khi giá trị của nó cao hơn giá trị trung bình, nó được đánh dấu giá trị 1.
Ngược lại, nó được đánh dấu 0. Những biến nhị phân này được gọi là Phân loại chi cho hàng
Thực phẩm, phân loại Nghỉ ngơi, phân loại Nhà ở, Phân loại Hàng tiện ích, Phân loại chi cho
Xe hơi, phân loại cho Quần áo, và phân loại cho Giải trí.
3. Dữ liệu cho khai thác. Lấy “Cloth-Mặc” làm ví dụ để minh họa cho phần này. Trước khi
quyết định quyết định khách hàng có lưu tâm đến lĩnh vực này hay không, cần thiết các định
“những biến nào được cần”. Biến “Mặc” tự bản thân nó không thể sử dụng cho khai thác vì
trong thực tế không biết giá trị này trước khi dự đoán. Có 25 biến cho khai thác “Mặc” (hồ sơ
đầu tiên trong bộ dữ liệu). Năm quan sát đầu tiên thể hiện trong Bảng 8A.2.
Bảng 8A.1 Các biến trong tập dữ liệu Chi tiêu
Biến nhân khẩu học Mô tả Biến tiêu dùng Tỉ lệ thu nhập dành
cho chi tiêu
Tuổi Số nguyên, 16 trở lên ProGroc Cho hàng tạp hóa
Giới tính 0-nữ, 1-nam ProRest Ăn nhà hàng
Tình trạng hôn nhân 0-độc than; 0,5- li hôn; 1-có gia đình Prohous Cho nhà Ở
Số người phụ thuộc Số nguyên ProUntil Hàng tiện ích
Thu nhập $ hàng năm ProAuto Sở hữu và sử dụng ô tô
Số năm công tác Số nguyên, công việc hiên tại ProCLoth Cho quần áo
Số năm sống tại thành phố Số nguyên, thành phố đang ở ProEnt Cho giải trí
Số năm đi học Số nguyên, hoàn tất chương trình
Giấy phép lái xe 0-không có, 1-có
Sở hữu nhà 0-không có 1-có
Số lượng thẻ tín dụng Số nguyên, dạng số
Churn (số dư thẻ tín dụng bị Số nguyên, bị hủy năm vừa qua
hủy năm ngoái)
Chú giải tên các biến viết tắt
ProGroc tỷ lệ thu nhập chi mua hàng thực phẩm năm ngoái
ProRest tỷ lệ thu nhập chi cho việc ăn nhà hàng
ProHous tỷ lệ thu nhập chi cho nhà ở
ProUtil tỷ lệ thu nhập chi cho tiện ích (điện, nước, gas)
ProAuto tỷ lệ thu nhập chi cho ô tô (sở hữu và vận hành)
ProCloth tỷ lệ thu nhập chi cho quần áo
ProEnt tỷ lệ thu nhập chi cho giải trí
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 148
Khai thác dữ liệu trong kinh doanh Chương 8
1,00. | Các loại” có nghĩa là file này bao gồm 2 loại đại diện bởi 1 và 0. A1 A25 là
“0,00;
những biến trong tập dữ liệu.
Hình 8A.1 Cho một minh họa màn hình của phân tích See5 cho tập dữ liệu Cloth.data
Hình 8A.2 Cho một minh họa trên màn hình sau khi dữ liệu được tải xuống
Hình 8A.3 Cho một minh họa mệnh lệnh để chọn xây dựng phân loại
Hình 8A.4 cung cấp các lựa chọn bao gồm nhân tố tin cậy lược bớt, và tập tối thiểu của các
trường hợp được yêu cầu trong phân loại (trong ví dụ này, số 2 được nhập vào)
Hình 8A1: Xác định dữ liệu để tải vào chương trình
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 149
Khai thác dữ liệu trong kinh doanh Chương 8
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 150
Khai thác dữ liệu trong kinh doanh Chương 8
Hình 8A.5: Cây quyết định được tạo ra sau khi phân tích
Hình 8A.5 thể hiện cây quyết định cho kết quả sau khi tập dữ liệu dùng cho phân tích được xử
lý. Trong trường hợp này 50% của 10.000 quan sát được sử dụng cho phân tích. Chú ý rằng
phần mềm khai thác dữ liệu chọn ngẫu nhiên các quan sát theo tỷ lệ này, trong khi ví dụ của
chúng ta sử dụng Excel được điều khiển trước số quan sát cụ thể dùng cho phân tích và kiểm
tra mô hình. Tính ngẫu nhiên là một đặc điểm được chú trọng. Tuy nhiên nó cũng đảm bảo là
một phân tích cụ thể không thể bị lặp lại (trừ khi sử dụng một số hạt giống số ngẫu nhiên).
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 151
Khai thác dữ liệu trong kinh doanh Chương 8
Kết quả từ mô hình cây quyết định được báo cáo trong các ma trận trùng. Đầu tiên là một báo
cáo khi dùng toàn bộ các quan sát như dữ liệu phân tích. Nó đã cung cấp một bức tranh toàn
diện về độ phù hợp của mô hình với dữ liệu.
1.2 Mặc
(a) Toàn bộ dữ liệu cho phân tích
Đánh giá trên tập dữ liệu phân tích (10000 trường hợp):
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 152
Khai thác dữ liệu trong kinh doanh Chương 8
Trường hợp này có độ phù hợp rất tốt, với chỉ 2,3% lỗi (phân phối một cách khá đều trên hai
phân lớp kết quả). Kế tiếp, kết quả được báo cáo khi dùng tập phân tích (5000 trường hợp
được sử dụng để xây dựng mô hình) và tập kiểm tra (5000 trường hợp mà phần mềm giữ lại).
Mô hình có tỷ lệ lỗi phân loại là 4,4% trên dữ liệu kiểm tra.
(b) 50% cho phân tích và 50% cho kiểm tra
Đánh giá trên tập dữ liệu phân tích (5000 trường hợp)
Đánh giá trên tập dữ liệu kiểm tra (5000 trường hợp)
TÓM TẮT
Cây quyết định là mô hình khai thác dữ liệu rất hiệu quả và hữu dụng. Nó tự động, là một ứng
dụng của học máy, chính đặc tính này làm cho cây quyết định trở nên hấp dẫn. Nó tương đối
mạnh, ít bị ảnh hưởng bất lợi bởi nhiễu và dữ liệu khuyết. Nó có thể vận dụng cho tập dữ liệu
lớn, và có thể xử lý cả dữ liệu dạng số và phân loại. Nó cũng mạnh trong cả khả năng giải
thích kết luận (các quy tắc có thể được diễn giải theo ngôn ngữ tự nhiên, và có thể giải thích
với các nhà quản trị rất tốt). Như đã trình bày ở các phần trước, có nhiều phần mềm sẵn có
cho phân tích cây quyết định.
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 153
Khai thác dữ liệu trong kinh doanh Chương 8
Bài tập
1. 1.Ứng dụng thuật toán cây quyết định cho file dữ liệu xin việc. Sử dụng dữ liệu phân loại.
Dùng toàn bộ 500 quan sát, 50% cho phân tích và 50% cho kiểm tra. Dùng phần mềm
khai thác dữ liệu nếu có, hoặc là dùng Excel. Phát triển ma trận trùng cho dữ liệu.
2. Ứng dụng thuật toán cây quyết định cho file dữ liệu xin việc. Dùng dữ liệu dạng liên tục
đã chuẩn hóa. Dùng toàn bộ 500 quan sát, 50% cho phân tích và 50% cho kiểm tra. Dùng
phần mềm khai thác dữ liệu nếu có, hoặc dùng Excel. Phát triển ma trận trùng cho dữ liệu.
3. Ứng dụng thuật toán cây quyết định cho file dữ liệu xin vay nợ. Dùng các biến phân loại:
tuổi, thu nhập, rủi ro và đánh giá tín dụng. Dùng toàn bộ 650 quan sát, 50% cho phân tích.
Phát triển ma trận trùng. Bình luận kết quả.
4. Ứng dụng thuật toán cây quyết định cho file dữ liệu xin vay nợ. Dùng dữ liệu phân loại
cho các biến: tuổi, thu nhập, rủi ro và đánh giá tín dụng. Dùng toàn bộ 650 quan sát, 50%
cho phân tích. Phát triển ma trận trùng. Bình luận kết quả.
5. Áp dụng thuật toán cây quyết định cho toàn bộ 5.000 quan sát của tập dữ liệu gian lận bảo
hiểm. Chuyển hóa tuổi bằng cách: 20 (hoặc trẻ hơn) =0; 50 (hoặc già hơn) =1; và mọi tuổi
ở giữa= tuổi - 20/30. Chuyển giới tính là 1 hoặc 0. Chuyển hóa số tiền yêu cầu trả bảo
hiểm bằng cách chia Yêu cầu cho 5000. Chuyển đổi số vé phạt và số lần đòi bảo hiểm
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 154
Khai thác dữ liệu trong kinh doanh Chương 8
trước đây bằng cách đổi 0 = 0;1 = 0,5; và 2 hoặc hơn = 1. Chuyển đổi luật sư bằng cách
“không có” = 0 và các trường hợp khác bằng 1. Sử dụng 60% dữ liệu cho phân tích. Dùng
phần mềm khai thác dữ liệu nếu có, hoặc dùng Excel. Phát triển ma trận trùng. Bình luận
kết quả.
6. Áp dụng thuật toán cây quyết định cho toàn bộ 5000 quan sát của tập dữ liệu gian lận bảo
hiểm. Dùng dữ liệu phân loại. Sử dụng 60% dữ liệu cho phân tích. Dùng phần mềm khai
thác dữ liệu nếu có, hoặc là dùng Excel. Phát triển ma trận trùng sau đó bình luận kết quả.
7. Áp dụng thuật toán cây quyết định cho tập dữ liệu chi tiêu của khách hàng với dự định
nhận diện các loại người chi tiêu tỷ lệ thu nhập của họ cho hàng bách hóa như sau: dưới
1%, 1-5%; 5-10% và trên 10%. Sử dụng dữ liệu đã chuẩn hóa cho các biến đầu vào. Dùng
8.000 quan sát như dữ liệu phân tích và áp dụng trên 2.000 quan sát kiểm tra mô hình.
Dùng phần mềm khai thác dữ liệu nếu có, hoặc dùng Excel. Phát triển ma trận trùng và
sau đó đếm các quy tắc hình thành.
8. Áp dụng thuật toán cây quyết định cho tập dữ liệu chi tiêu của khách hàng với dự định
nhận diện các loại người chi tiêu tỷ lệ thu nhập của họ cho nhà hàng như sau: dưới 1%, 1-
5%; 5-10% và trên 10%. Sử dụng dữ liệu đã chuẩn hóa cho các biến đầu vào. Dùng 8.000
quan sát như dữ liệu phân tích và áp dụng trên 2.000 quan sát kiểm tra mô hình. Dùng
phần mềm khai thác dữ liệu nếu có, hoặc là dùng Excel. Phát triển ma trận trùng và sau đó
đếm các quy tắc hình thành.
9. Áp dụng thuật toán cây quyết định cho tập dữ liệu chi tiêu của khách hàng với dự định
nhận diện các loại người chi tiêu tỷ lệ thu nhập của họ cho nhà ở như sau: dưới 1%, 1-5%;
5-10% và trên 10%. Sử dụng dữ liệu đã chuẩn hóa cho các biến đầu vào. Dùng 8.000 quan
sát như dữ liệu phân tích và áp dụng trên 2.000 quan sát kiểm tra mô hình. Dùng phần
mềm khai thác dữ liệu nếu có, hoặc dùng Excel. Phát triển ma trận trùng và sau đó đếm
các quy tắc hình thành.
10. Áp dụng thuật toán cây quyết định cho tập dữ liệu chi tiêu của khách hàng với dự định
nhận diện các loại người chi tiêu tỷ lệ thu nhập của họ cho hàng tiện ích như sau: dưới
1%, 1-5%; 5-10% và trên 10%. Sử dụng dữ liệu đã chuẩn hóa cho các biến đầu vào. Dùng
8.000 quan sát như dữ liệu phân tích và áp dụng trên 2.000 quan sát kiểm tra mô hình.
Dùng phần mềm khai thác dữ liệu nếu có, hoặc dùng Excel. Phát triển ma trận trùng và
sau đó đếm các quy tắc hình thành.
11. Áp dụng thuật toán cây quyết định cho tập dữ liệu chi tiêu của khách hàng với dự định
nhận diện các loại người chi tiêu tỷ lệ thu nhập của họ cho mua và sử dụng xe hơi như
sau: dưới 1%, 1-5%; 5-10% và trên 10%. Sử dụng dữ liệu đã chuẩn hóa cho các biến đầu
vào. Dùng 8000 quan sát như dữ liệu phân tích và áp dụng trên 2000 quan sát kiểm tra mô
hình. Dùng phần mềm khai thác dữ liệu nếu có, hoặc dùng Excel. Phát triển ma trận trùng
và sau đó đếm các quy tắc hình thành.
12. Áp dụng thuật toán cây quyết định cho tập dữ liệu chi tiêu của khách hàng với dự định
nhận diện các loại người chi tiêu tỷ lệ thu nhập của họ cho quần áo như sau: dưới 1%, 1-
5%; 5-10% và trên 10%. Sử dụng dữ liệu đã chuẩn hóa cho các biến đầu vào. Dùng 8000
quan sát như dữ liệu phân tích và áp dụng trên 2000 quan sát kiểm tra mô hình. Dùng
phần mềm khai thác dữ liệu nếu có, hoặc dùng Excel. Phát triển ma trận trùng và sau đó
đếm các quy tắc hình thành.
13. Áp dụng thuật toán cây quyết định cho tập dữ liệu chi tiêu của khách hàng với dự định
nhận diện các loại người chi tiêu tỷ lệ thu nhập của họ cho giải trí như sau: dưới 1%, 1-
5%; 5-10% và trên 10%. Sử dụng dữ liệu đã chuẩn hóa cho các biến đầu vào. Dùng 8.000
quan sát như dữ liệu phân tích và áp dụng trên 2.000 quan sát kiểm tra mô hình. Dùng
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 155
Khai thác dữ liệu trong kinh doanh Chương 8
phần mềm khai thác dữ liệu nếu có, hoặc dùng Excel. Phát triển ma trận trùng và sau đó
đếm các quy tắc hình thành.
Kết chú
1
G. Linoff, “ Which Way to the Mine? As/400 Systems Management, volume 26, Number 1 ( January
1998), pp 42-44.
2
D. Michie, “Learning Concepts from Data”, Expert Systems with Application, volume 15, number 34
(1998), pp 193-204.
3
D.A. Koonce, C.H Fang, and S-C.Tsai, “ A Data Mining Tool for Learning from Manufacturing
Systems”, Computers & Industrial Engineering, volume 33, numbers 1-2 (1997), pp . 27-30.
4
V. Dhar vaf R.Stein, Intelligent Decision Support Methods: The Science of Knowledge Work, (Upper
saddle River, NJ: Prentice Hall, 1997).
5
V. Dhar vaf R.Stein, Intelligent Decision Support Methods: The Science of Knowledge Work, (Upper
saddle River, NJ: Prentice Hall, 1997).
6
D. A. Knooce, C-H Fang, and S-C.Tsai, “A Data Mining Tool for Learning from Manufacturing
SYSTEMS”, Computers & Industrial Engineering, Volume 33, Numbers 1-2 (1997), pp. 27-30.
7
L.G Cooper and G.Guiffrida, “Turning Data Mining into a Management Science Tool: New
Algorithms and Empirical Results”, Management Science, volume 46, number 2 (2000), p p. 249-264.
8
S.Tsumoto, “Automated Knowledge Discovery in Clinical Database Based on Rough Set Model,”
INFOR, volume 38, number 3 (2000), p p. 196-207.
9
T.M Khoshgoftaar, E.B. Allen, W.d. Jones, and J.P. Hudepohl, “Data Mining for Predictors of
Software Quality,” International Journal of Software Engineering and Knowledge Engineering,
volume 9, number 5 (1995), p p.547-563.
R.Milne, M.Drummond, and P. Renoux, “ Predicting Paper Making Defects On-line Using Data
10
Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 156