Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 41

ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH

KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

BÀI TIỂU LUẬN KẾT THÚC HỌC PHẦN


Môn: KHOA HỌC DỮ LIỆU
Đề tài: DỰ ĐOÁN PHÁ SẢN

Giảng viên hướng dẫn: Thạc sĩ Trương Việt Phương


Mã lớp HP: 23C1INF50905974
Buổi: Sáng thứ 6

Thành phố Hồ Chí Minh, 11 tháng 10 năm 2023


TỈ LỆ ĐIỂM CỦA CÁC THÀNH VIÊN CỦA NHÓM

HỌ VÀ TÊN MSSV MỨC ĐỘ HOÀN THÀNH (%)

Võ Thiệu Bình 31221022404 100%


Vũ Đức Dũng 31221022804 100%
Huỳnh Thị An Kiều 31211025334 100%
Trần Thị Ngọc Tuyền 31221021726 100%
Trương Ý Vy 31221024165 100%
MỤC LỤC
Phần 1: MỤC ĐÍCH, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU...................2
I. Lý do chọn đề tài......................................................................................................2
II. Mục tiêu nghiên cứu.............................................................................................2
III. Phương pháp nghiên cứu.....................................................................................2
1. Phương pháp nghiên cứu lý luận........................................................................2
2. Phương pháp nghiên cứu thực tiễn....................................................................3
Phần 2: GIỚI THIỆU TỔNG QUAN VỀ BỘ DỮ LIỆU...............................................3
I. Giới thiệu về bộ dữ liệu...........................................................................................3
1. Thông tin tổng quát..............................................................................................3
2. Thông tin về các thuộc tính.................................................................................4
II. Các bài nghiên cứu liên quan đến bộ dữ liệu...................................................11
Phần 3: QUY TRÌNH TIỀN XỬ LÍ BỘ DỮ LIỆU.......................................................11
I. Quy trình thực hiện tiền xử lí dữ liệu..................................................................11
II. Quan sát tổng quan bộ dữ liệu..........................................................................11
1. Thực hiện quan sát đặc điểm của các đặc tính................................................11
2. Phân tích kết quả quan sát................................................................................12
III. Quy trình tiền xử lí tổng quan bộ dữ liệu........................................................15
Phần 4: THỰC HIỆN PHÂN CỤM DỮ LIỆU.............................................................17
I. Lựa chọn phương pháp phân cụm dữ liệu..........................................................17
II. Thực hiện và phân tích kết quả phân cụm.......................................................17
1. Phân cụm phân cấp............................................................................................17
2. Thuật toán K-Means..........................................................................................23
III. Kết luận cuối cùng..............................................................................................25
Phần 5: THỰC HIỆN PHÂN LỚP DỮ LIỆU...............................................................25
I. Lựa chọn phương pháp phân lớp dữ liệu............................................................25
II. Thực hiện và phân tích kết quả phân lớp........................................................27
1. Hồi quy Logistic và hiệu chỉnh hồi quy Logistic.............................................27
2. Cây quyết định....................................................................................................31
3. SVM.....................................................................................................................32
4. Mạng thần kinh nơ ron nhân tạo......................................................................33
III. Lời nói sau cùng và kết luận..............................................................................34
Phần 6: THỰC HIỆN DỰ BÁO DỰA TRÊN MÔ HÌNH HỌC MÁY TỐT NHẤT..35
Phần 7: KẾT LUẬN........................................................................................................37
DANH MỤC TÀI LIỆU THAM KHẢO........................................................................39

1
Phần 1: MỤC ĐÍCH, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
I. Lý do chọn đề tài:
Lời đầu tiên, chúng em xin gửi lời cảm ơn chân thành đến Thạc sĩ Trương Việt
Phương đã hỗ trợ chúng em trong suốt thời gian học tập giúp chúng em có cái nhìn tổng
quát và hoàn thiện hơn đối với phần mềm Orange nói riêng và môn Khoa học dữ liệu nói
chung. Qua dự án lần này, nhóm chúng em xin trình bày những kiến thức và kỹ năng mà
chúng em đã được hướng dẫn qua các buổi học. Trong quá trình hoàn thành dự án chúng
em còn nhiều hạn chế nên sẽ không tránh khỏi những thiếu sót. Vì vậy, nhóm chúng em
mong nhận được phản hồi góp ý của thầy để dự án kết thúc môn học này của chúng em
được hoàn thiện một cách tốt hơn.
Dự đoán khả năng phá sản của các doanh nghiệp là một vấn đề vô cùng quan trọng
và cần thiết bởi vì nó giúp các doanh nghiệp có thể dự tính trước được mức độ sử dụng
nguồn vốn sao cho hợp lý cũng như việc quản lí doanh nghiệp của mình như thế nào để
không rơi vào tình trạng phá sản. Trong bối cảnh nền kinh tế phức tạp như hiện nay, việc
sản xuất, vận hành của các doanh nghiệp gặp không ít khó khăn do đó việc dự báo khả
năng phá sản của các doanh nghiệp lại càng quan trọng hơn bao giờ hết. Vì vậy, nhóm
chúng em chọn “Dự đoán phá sản” làm đề tài nghiên cứu nhằm mục đích giúp các nhà
quản lý, nhà đầu tư có thêm thông tin khi đưa ra quyết định của mình.
II. Mục tiêu nghiên cứu:
Mục tiêu chính của nghiên cứu này là dự báo khả năng phá sản của các doanh
nghiệp, để từ đó đưa ra các biện pháp cũng như cái nhìn tổng quan, giúp cho doanh
nghiệp giảm nguy cơ phá sản.
Nghiên cứu này tập trung vào các lý thuyết và kỹ thuật cơ bản của khoa học dữ
liệu và khai thác dữ liệu. Các mô hình được xây dựng dựa trên bộ dữ liệu sẵn có và mô
hình phù hợp nhất được lựa chọn để thực hiện dự báo đối với bộ dữ liệu dự báo. Nghiên
cứu này góp phần tạo nền tảng cho các nghiên cứu tiếp theo.
III. Phương pháp nghiên cứu:
1. Phương pháp nghiên cứu lý luận:

2
Tiến hành nghiên cứu, thu thập, chọn lọc và phân tích dữ liệu, thông tin bằng cách
đọc sách, báo, tài liệu nhằm tìm ra các quan niệm, quan điểm xây dựng cơ sở lý luận cho
nghiên cứu, dự đoán các thuộc tính của đối tượng nghiên cứu, xây dựng sơ bộ lý luận.
Các phương pháp nghiên cứu bao gồm:
+ Phương pháp phân tích tổng hợp lý thuyết: kết hợp cả kỹ năng phân tích lẫn kỹ năng
tổng hợp tư liệu. Phân tích dựa trên nền tảng là những thông tin khoa học thu được từ các
nguồn tài liệu có sẵn.
+ Phương pháp phân tích - tổng hợp lý thuyết: Đọc và tổng hợp các lý thuyết, quan niệm,
quan điểm liên quan đến đối tượng nghiên cứu để rút ra những nội dung cần thiết.
+ Phương pháp mô hình hóa: Xây dựng mô hình nghiên cứu dựa trên lý thuyết và ứng
dụng mô hình để dự báo nhằm kiểm định tính chính xác của mô hình.
2. Phương pháp nghiên cứu thực tiễn:
Từ cơ sở lý luận ấy, tiến hành vận dụng vào các phương pháp nghiên cứu thực
tiễn: Thông qua các thuật toán của phần mềm Orange - một công cụ khá trực quan để
nghiên cứu về các thuật toán machine learning và thực hành khoa học dữ liệu phổ biến
hiện nay để phân tích dữ liệu và làm rõ vấn đề nghiên cứu. Từ đó, xây dựng các mô hình
dự báo dựa vào bộ dữ liệu huấn luyện có sẵn và so sánh các kết quả rút ra được với nhau
nhằm giúp các nhà quản lý, nhà đầu tư có thêm thông tin khi đưa ra quyết định của mình.

Phần 2: GIỚI THIỆU TỔNG QUAN VỀ BỘ DỮ LIỆU


I. Giới thiệu về bộ dữ liệu:
1. Thông tin tổng quát:
- Bộ dữ liệu được sử dụng trong bài tiểu luận này là bộ dữ liệu có tên là
“Taiwanese Bankruptcy Prediction” (Dự đoán phá sản ở Đài Loan).
- Bộ dữ liệu trên được lấy từ UCI Machine Learning Repository, với các tác
giả là Deron Liang và Chih-Fong Tsai, deronliang '@' gmail.com; cftsai '@'
mgt.ncu.edu.tw, Đại học Quốc lập Trung Ương Đài Loan (National Central
University), Đài Loan.
- Bộ dữ liệu trên lấy thông tin về các doanh nghiệp từ Tạp chí Tài chính Đài
Loan trong giai đoạn 1999 đến 2009. Định nghĩa phá sản của công ty trong bộ
dữ liệu này được định đoạt dựa trên luật doanh nghiệp của Sàn chứng khoán
Đài Loan.
- Bộ dữ liệu trên bao gồm một số thông tin cơ bản như sau:

3
 Đặc điểm của bộ dữ liệu: Đa biến.
 Lĩnh vực chủ yếu của bộ dữ liệu: Doanh nghiệp, tài chính.
 Loại dữ liệu của các thuộc tính: Số thực.
 Số lượng thuộc tính: 96.
 Số lượng thực thể: 6819.
2. Thông tin về các thuộc tính:
- Bộ dữ liệu bao gồm 96 thuộc tính với nội dung lần lượt là:
Bankruptcy Label: Thuộc tính phân nhãn Nhãn
dữ liệu: 0 nếu không phá sản, 1 nếu phá
0,1
1 sản.
Cost of Interest-bearing Debt: Chi phí nợ Số thực dương liên tục
có lãi.
2 [0;1]
Cash Reinvestment Ratio: Số thực dương liên tục
3 [0;1]
Current Ratio: Hệ số thanh toán hiện hành. Số thực dương liên tục
4 [0;2.75e+09]
Acid Test: Hệ số thanh toán nhanh (Còn Số thực dương liên tục
5 gọi là Quick Ratio). [0;9.23e+09]
Interest Expenses/Total Revenue: Tỉ lệ chi Số thực dương liên tục
phí lãi trên tổng doanh thu trước thuế và trả
[0;1]
6 lãi.
Total Liability/Equity Ratio: Tỉ số nợ phải Số thực dương liên tục
7 trả/vốn chủ sở hữu. [0;9.94e+09]
Liability/Total Assets: tỉ số nợ phải trả/tổng Số thực dương liên tục
tài sản.
8 [0;1]
Interest-bearing Debt/Equity: Tỉ số nợ có Số thực dương liên tục
9 lãi/vốn chủ sở hữu. [0;9.9e+08]
Contingent Liability/Equity: Tỉ số nợ Số thực dương liên tục
không chắc chắn/vốn chủ sở hữu.
10 [0;1]
Operating Income/Capital: Thu nhập hoạt Số thực dương liên tục
động/Vốn.
11 [0;1]

4
Pretax Income/Capital: Thu nhập trước Số thực dương liên tục
thuế/Vồn.
12 [0;1]
Working Capital to Total Assets: Vốn lưu Số thực dương liên tục
động trên tổng tài sản.
13 [0;1]
Quick Assets/Total assets: Tài sản Số thực dương liên tục
nhanh/Tổng tài sản.
14 [0;1]
Current Assets/Total Assets: Tài sản ngắn Số thực dương liên tục
hạn/Tổng tài sản.
15 [0;1]
Cash/Total Assets: Tiền/Tổng tài sản. Số thực dương liên tục
16 [0;1]
Quick Assets/Current Liability: Tài sản Số thực dương liên tục
17 nhanh/Nợ ngắn hạn. [0;8.82e+09]
Cash/Current Liability: Tiền/Nợ ngắn hạn. Số thực dương liên tục
18 [0;9.65e+09]
Current Liability to Assets: Nợ ngắn hạn Số thực dương liên tục
trên tài sản.
19 [0;1]
Operating Funds to Liability: Số thực dương liên tục
20 [0;1]
Inventory/Working Capital: Hàng tồn Số thực dương liên tục
kho/Vốn lưu động.
21 [0;1]
Inventory/Current Liability: Hàng tồn Số thực dương liên tục
22 kho/Nợ phải trả ngắn hạn. [0;9.91e+09]
Current Liabilities/Liability: Nợ phải trả Số thực dương liên tục
ngắn hạn/Nợ phải trả.
23 [0;1]
Working Capital/Equity: Vốn lưu Số thực dương liên tục
động/Vốn chủ sổ hữu.
24 [0;1]
25 Current Liabilities/Equity: Nợ phải trả ngắn Số thực dương liên tục

5
hạn/Vốn chủ sở hữu. [0;1]
Long-term Liability to Current Assets: Nợ Số thực dương liên tục
26 phải trả dài hạn/Tài sản ngắn hạn. [0;9.54e+09]
Current Liability to Current Assets: Nợ Số thực dương liên tục
phải trả ngắn hạn trên Tài sản ngắn hạn.
27 [0;1]
One if Total Liability exceeds Total Assets: Giá trị định tính
Chỉ số 1 nếu tổng nợ phải trả cao hơn tổng
0;1
28 tài sản.
Equity to Liability: Vốn chủ sở hữu trên nợ Số thực dương liên tục
phải trả.
29 [0;1]
Equity/Total Assets: Vốn chủ sở hữu/Tổng Số thực dương liên tục
tài sản.
30 [0;1]
(Long-term Liability+Equity)/Fixed Assets: Số thực dương liên tục
(Nợ phải trả dài hạn + Vốn chủ sở hữu)/Tài
[0;1]
31 sản cố định.
Fixed Assets to Assets: Tài sản cố định/Tài Số thực dương liên tục
32 sản. [0;8.32e+09]
Current Liability to Liability: Nợ phải trả Số thực dương liên tục
ngắn hạn/ Nợ phải trả.
33 [0;1]
Current Liability to Equity: Nợ phải trả Số thực dương liên tục
ngắn hạn/Vốn chủ sở hữu.
34 [0;1]
Equity to Long-term Liability: Vốn chủ sở Số thực dương liên tục
hựu/Nợ phải trả dài hạn.
35 [0;1]
Liability to Equity: Nợ phải trả/Vốn chủ sở Số thực dương liên tục
hữu.
36 [0;1]
Degree of Financial Leverage: Mức độ/ tỉ Số thực dương liên tục
số đòn bẩy tài chính.
37 [0;1]
38 Interest Coverage Ratio: Hệ số trả lãi. Số thực dương liên tục

6
[0;1]
Operating Expenses/Net Sales: Chi phí Số thực dương liên tục
39 hoạt động/Lợi nhuận gộp. [0;9.99e+09]
(Research and Development Expenses)/Net Số thực dương liện tục
Sales: Chi phí nghiên cứu và phát triển/Lợi [0;9.98e+9]
40 nhuận gộp.
Effective Tax Rate: Tỉ lệ thuế thực tế. Số thực dương liên tục
41 [0;1]
Book Value Per Share(B): Giá cổ phiếu ghi Số thực dương liên tục
sổ theo tiêu chí (B).
42 [0;1]
Book Value Per Share(A): Giá cổ phiếu ghi Số thực dương liên tục
sổ theo tiêu chí (A).
43 [0;1]
Book Value Per Share(C): Giá cổ phiếu ghi Số thực dương liên tục
sổ theo tiêu chí (C).
44 [0;1]
Cash Flow Per Share: Dòng tiền trên một Số thực dương liên tục
cổ phiếu.
45 [0;1]
Sales Per Share: Thu nhập trên một cố Số thực dương liên tục
46 phiếu. [0;3.02e+09]
Operating Income Per Share: Thu nhập Số thực dương liên tục
hoạt động trên một cổ phiếu.
47 [0;1]
Sales Per Employee: Doanh thu trên mỗi Số thực dương liên tục
48 nhân viên. [0;8.81e+09]
Operation Income Per Employee: Số thực dương liên tục
49 [0;1]
Fixed Assets Per Employee: Số thực dương liên tục
50 [0;9.99e+09]
Total assets to GNP price: Số thực dương liên tục
51 [0;9.57e+09]
52 Return On Total Assets(C): Tỉ suát sinh lợi Số thực dương liên tục

7
trên tài sản (C).
[0;1]
Return On Total Assets(A): Tỉ suát sinh lợi Số thực dương liên tục
trên tài sản (A).
53 [0;1]
Return On Total Assets(B): Tỉ suát sinh lợi Số thực dương liên tục
trên tài sản (B).
54 [0;1]
Gross Profit /Net Sales: Lợi nhuận gộp trên Số thực dương liên tục
Doanh thu thuần.
55 [0;1]
Realized Gross Profit/Net Sales: Lợi nhuận Số thực dương liên tục
gợp thực hiện được.
56 [0;1]
Operating Income /Net Sales: Thu nhập Số thực dương liên tục
hoạt động / Doanh thu thuần.
57 [0;1]
Pre-Tax Income/Net Sales: Thu nhập trước Số thực dương liên tục
thuế/doanh thu thuần.
58 [0;1]
Net Income/Net Sales: Thu nhập thuần/ Số thực dương liên tục
Doanh thu thuần.
59 [0;1]
Net Non-operating Income Ratio: Tỉ lệ của Số thực dương liên tục
thu nhập khác.
60 [0;1]
Net Income-Exclude Disposal Gain or Số thực dương liên tục
Loss/Net Sales: KHÔNG RÕ.
61 [0;1]
EPS-Net Income:Thu nhập trên mỗi cổ Số thực dương liên tục
phần – Thu nhập thuần.
62 [0;1]
Pretax Income Per Share: Thu nhập mỗi cổ Số thực dương liên tục
phần trước thuế.
63 [0;1]
Retained Earnings to Total Assets: Tỷ lệ lợi Số thực dương liên tục
nhuận giữ lại trên tổng tài sản.
64 [0;1]
65 Total Income to Total Expenses: Tổng thu Số thực dương liên tục
8
nhập trên tổng chi phí.
[0;1]
Total Expenses to Assets: Tổng chi phí trên Số thực dương liên tục
tài sản.
66 [0;1]
Net Income to Total Assets: Thu nhập Số thực dương liên tục
thuần trên tổng tài sản.
67 [0;1]
Gross Profit to Sales: Lợi nhuận thuần trên Số thực dương liên tục
doanh thu.
68 [0;1]
Net Income to Stockholder's Equity: Thu Số thực dương liên tục
nhập thuần trên vốn cổ phần.
69 [0;1]
One if Net Income is Negative for the Last Nhãn
Two Years; Zero Otherwise: Giá trị phân
0,1
loại: Đánh cờ 1 nếu thu nhập thuần âm
70 trong 2 năm liên tiếp. 0 nếu không phải.
(Inventory +Accounts Receivables) Số thực dương liên tục
/Equity: Tổng hàng tồn kho và khoản phải
[0;1]
71 thu trên vốn chủ sở hữu.
Total Asset Turnover: Vòng quay tổng tài Số thực dương liên tục
sản.
72 [0;1]
Accounts Receivable Turnover: Vòng quay Số thực dương liên tục
73 khoản phải thu. [0;9.74e+09]
Days Receivable Outstanding: Thời gian Số thực dương liên tục
74 thu khoản phải thu [0;9.73e+09]
Inventory Turnover: Vòng quay hàng tồn Số thực dương liên tục
75 kho. [0;9.99e+09]
Fixed Asset Turnover: Vòng quay tài sản Số thực dương liên tục
76 cố định. [0;9.99e+09]
Equity Turnover: Vòng quay vốn chủ sở Số thực dương liên tục
hữu
77 [0;1]
78 Current Assets to Sales: Tài sản ngắn hạn Số thực dương liên tục
9
trên doanh thu. [0;1e+10]
Quick Assets to Sales: Tài sản tưởng đương Số thực dương liên tục
79 tiền trên doanh thu. [0;1e+10]
Working Capital to Sales: Vốn luân chuyển Số thực dương liên tục
trên doanh thu.
80 [0;1]
Cash to Sales: tổng tiền trên doanh thu. Số thực dương liên tục
81 [0;1e+10]
Cash Flow to Sales: Dòng tiền ròng trên Số thực dương liên tục
doanh thu.
82 [0;1]
No-credit Interval: Thời gian không có tín Số thực dương liên tục
dụng.
83 [0;1]
Cash Flow from Operating/Current Số thực dương liên tục
Liabilities: Dòng tiên hoạt động kinh
[0;1]
84 doanh/ Nghĩa vụ nợ ngắn hạn.
Cash Flow to Total Assets: Dòng tiền trẹn Số thực dương liên tục
tổng tài sản.
85 [0;1]
Cash Flow to Liability: Dòng tiền trên nợ. Số thực dương liên tục
86 [0;1]
CFO to Assets: Dòng tiền hoạt động kinh Số thực dương liên tục
doanh trên tài sản
87 [0;1]
Cash Flow to Equity: Dòng tiền trên vốn Số thực dương liên tục
chủ sở hữu
88 [0;1]
Realized Gross Profit Growth Rate: Tốc độ Số thực dương liên tục
tăng trưởng lợi nhuận gộp thực hiện được.
89 [0;1]
Operating Income Growth: Tăng trưởng Số thực dương liên tục
thu nhập hoạt động
90 [0;1]
91 Net Income Growth: Tăng trường thu nhập Số thực dương liên tục
ròng.

10
[0;1]
Continuing Operating Income after Tax Số thực dương liên tục
Growth: Thu nhập hoạt động liên tục sau
[0;1]
92 tăng trưởng thuế.
Net Income-Excluding Disposal Gain or Số thực dương liên tục
Loss Growth: KHÔNG RÕ
93 [0;1]
Total Asset Growth: Tổng tăng trưởng tài Số thực dương liên tục
94 sản. [0;9.99e+09]
Total Equity Growth: Tổng tăng trưởng vốn Số thực dương liên tục
95 chủ sở hữu. [0;9.33e+09]
Return on Total Asset Growth: Tỉ suất sinh Số thực dương liên tục
lợi trên tăng trưởng tổng tài sản.
96 [0;1]
II. Các bài nghiên cứu liên quan đến bộ dữ liệu:
- Tựa đề Financial Ratios and Corporate Governance Indicators in Bankruptcy
Prediction: A Comprehensive Study.
- Tác giả: Deron Liang, Chia-Chi Lu, Chih-Fong Tsai, and Guan-An Shih.

Phần 3: QUY TRÌNH TIỀN XỬ LÍ BỘ DỮ LIỆU


I. Quy trình thực hiện tiền xử lí dữ liệu:
Thực hiện quy trình cơ bản: đưa bộ dữ liệu vào khu vực quan sát để thu thập
thông tin về đánh giá thứ hạn các đặc tính, phân bố dữ liệu, phân bố giá trị, và
từ đó đưa quyết định và thực hiện tiền xử lý dữ liệu.
II. Quan sát tổng quan bộ dữ liệu:
1. Thực hiện quan sát đặc điểm của các đặc tính:
- Mục tiêu thực hiện từ việc quan sát dữ liệu: nhận ra thông tin mấu chốt cho
quá trình tiền xử lí dữ liệu để quyết định các công cụ cho quá trình tiền xử lí.
- Công cụ: Phần mềm lập trình trực quan Orange (Công cụ Files, Feature
Statistics, Rank để quan sát và công cụ Merge Data, Data Table và Save Data
để tổng hợp dữ liệu.
- Quy trình thực hiện:
1. Đưa dữ liệu vào công cụ Files.

11
Hình 3.1: Đưa bộ dữ liệu vào File.

2. Dẫn dữ liệu qua công cụ Feature Statistics và Rank.

3. Nghiên cứu,
nhận xét kết quả
quan sát dữ liệu, từ
đó đưa ra kết
luận và những quy

Hình 3.2: Mô hình lấy thông tin về các đặc tính của dữ liệu.

trình thực hiện tiền xử lí dữ liệu.


2. Phân tích kết quả quan sát:
Bộ dữ liệu “data.csv” có kết quả quan sát như được trình bày dưới đây:

Hình 3.3: Đặc điểm của các đặc


tính (1).
- Trung bình, giá trị nhỏ nhất,
lớn nhất, mode, trung vị, giá
trị trống.

Hình 3.4: Đặc điểm của các đặc


tính (2).

12
Bộ dữ liệu có 3 đặc tính định tính (1 nhãn, 2 đặc tính phổ thông) và 93 đặc tính
định lượng phổ thông. Do mục tiêu của bộ dữ liệu là dự báo phá sản nên đặc tính nhãn
“Bankrupt?” phải được chọn làm mục tiêu dự báo (Target trong Orange) khi nhập Files
hay bằng Select Columns.
Hình 3.7: 24 đặc tính định lượng
biến thiên ngoài [0;1].

Nhóm quyết định chuyển kết quả của Feature Statistics sang dạng bảng vì mục
đích làm gọn bài luận. Từ bốn bảng dữ liệu trên, thì ta thấy được rằng đa số các đặc tính
định lượng đều dao động trong khoảng [0;1]. Tuy vậy, bộ dữ liệu có 24 đặc tính định
lượng (bảng dữ liệu ở trên) dao động từ không đến một số giá trị rất lớn (vài trăm triệu
đến một chục tỷ). Các đặc tính đó bao gồm : Interest-bearing debt interest rate; Current
Ratio; Revenue Per Share (Yuan ¥); Fixed Assets to Assets; Revenue per person; Quick
Assets/Current Liability; Quick Ratio; Net Value Growth Rate; Long-term Liability to
Current Assets; Allocation rate per person; Cash/Current Liability; Average Collection
Days; Accounts Receivable Turnover; Total assets to GNP price; Inventory/Current
Liability; Total debt/Total net worth; Research and development expense rate; Fixed
Assets Turnover Frequency; Inventory Turnover Rate (times); Total Asset Growth Rate;
Operating Expense Rate; Cash Turnover Rate; Quick Asset Turnover Rate; Current Asset
Turnover Rate.
Chúng ta phải chuẩn hóa 24 đặc tính trên về khoảng [0;1] mà không phải các
khoảng khác vì:
- Các đặc tính định lượng khác đều biến thiên trong đoạn [0;1].
- Không chuẩn hóa sẽ tạo ra thiên vị, nhầm lẫn cho các biến có giá trị lớn.
- Các giá trị lớn tạo thêm phức tạp trong quá trình học máy và phân cụm, làm
giảm độ chính xác của dự báo sau cùng.
Bộ dữ liệu không có dữ liệu trống nên không cần phải điền khuyết giá trị bị thiếu.
Bộ dữ liệu trên có phân bố dữ liệu theo kiểu phân phối (gần) chuẩn và không có
nhiều phần tử ngoại lai cũng như phần tử thiếu nên không cần loại bỏ phần tử ngoài và

13
phân giỏ, tách rời dữ liệu (Kết quả quan sát phân bố dữ liệu không chèn vào bài, vì kết
quả rất nhiều sẽ làm bài luận quá dài).
Cuối cùng, do các đặc tính còn lại đều ảnh hưởng đáng kể lên dự báo phá sản cũng
như là bộ dữ liệu bị không cân đối (220/6599) nên không thể loại thêm dữ liệu hay phân
tích PCA mà ít ảnh hưởng đến độ thiên vị (bias) của dữ liệu.
Bây giờ, nhóm thực hiện quan sát kết quả từ công cụ Rank:
Hình 3.8, 3.9, 3.10, 3.11, 3.12:
Kết quả Rank 95 đặc tính.

14
Sắp xếp dữ liệu theo mức độ tăng dần của Information Gains, từ công cụ Rank, ta
thấy đa số đặc tính đếu có ảnh hưởng đến lượng thông tin nhận được và độ chuẩn của kết
quả phân lớp/ phân cụm dữ liệu. Tuy vậy, có 6 đặc tính gần như không ảnh hưởng đến kết
quả: Net Income Flag (toàn bộ giá trị đều như nhau), Net Worth Turnover Rate (times),
Operating Expense Rate, Revenue Per Person, Current Liability to Liability, Current
Liabilities/Liability. Vì thế, ta sẽ lọc bỏ sáu đặc tính này để giảm thiểu kích cỡ dữ liệu,
tăng độ chính xác và giảm bớt khối lượng dữ liệu cần xử lý.
III. Quy trình tiền xử lí tổng quan bộ dữ liệu:

Hình 3.7: Mô hình tiền xử lí dữ


liệu.

Dựa trên phân tích trên, bộ dữ liệu trên sẽ được xử lí bằng các phương pháp sau:
1. Loại bỏ biến không cần thiết, dùng công cụ Rank, chọn lấy 89/95 đặc trưng (Loại
6) trong công cụ Rank.
2. Chuẩn hóa dữ liệu về khoảng [0;1], bằng công cụ Preprocessing, dùng công cụ
Normalize Features (chọn chuẩn Normalize to interval [0;1]).
3. Cho phương pháp phân cụm: Skip cột “Bankrupt?”, do đặc điểm của phân cụm
nên bộ dữ liệu phải không có biến mục tiêu thì mới thấy phân bố và phân cụm của
dữ liệu.
4. Lưu kết quả dữ liệu đã tiền xử lý với Save Data và quan sát kết quả phân cụm với
Data Table.
Quy trình tiền xử lí dữ liệu được thực hiện như sau:

15
Hình 3.13: Loại 6 đặc điểm không
quan trọng bằng Rank.

Hình 3.14: Tiền xử lí bằng chuẩn


hóa khoảng dữ liệu.

Hình 3.15: Mẫu kết quả tiền xử lí


dữ liệu.

Phần 4: THỰC HIỆN PHÂN CỤM DỮ LIỆU


I. Lựa chọn phương pháp phân cụm dữ liệu:
Các phương pháp phân cụm được sử dụng trong phần này, đồng thời cũng là các
phương pháp được hướng dẫn kỹ lưỡng nhất là:
1. Phân cụm phân cấp (Hierarchical Clustering) : Xây dựng một cây phân cấp dựa
trên dữ liệu được tổng hợp và tiền xử lí thông qua các phương pháp, bao gồm ma
trần khoảng cách và đo khoảng cách cụm.

16
2. Thuật toán phân cụm K-Means: Là một trong thuật toán phân hoạch, dựa trên
phân chia dữ liệu vào các cụm ngẫu nhiên và tính tâm cụm đến khi tâm cụm bao
quát mọi điểm dữ liệu được phân.
II. Thực hiện và phân tích kết quả phân cụm:

Hình 4.1: Mô hình phân cụm dữ liệu bằng Orange

Hình 4.2: Bỏ biến mục tiêu “Bankrupt?”


để phân cụm (Chuyển từ Target thành
Meta).

1. Phân cụm phân cấp:


Quy trình thực hiện phân cụm:

Hình 4.3: Tùy chỉnh công cụ


Distances:
+ So sánh: Dòng với nhau.
+ Cách tính: Euclidean.

17
- Với công cụ Distances, chuyển hóa dữ liệu đã tiền xử lí thành khoảng cách
giữa các phần tử với nhau, sử dụng cách tính dữ liệu Ơ-Clít (Euclidean) không
bình thường hóa dữ liệu do đã chuẩn hóa từ trước.
- Chuyền dữ liệu khoảng cách vào công cụ Hierarchical Clustering và Silhouette
Plot.
Hình 4.4: Tùy chỉnh công cụ
Hierarchical Clustering.

- Thu thập kết quả với các tùy chỉnh khác nhau: Cách tính khoảng cách các cụm
(Single, Average, Weighted, Complete và Ward), sau đó đến độ cao cây (Giới
hạn/Không giới hạn) và số cụm phần tử.
- So sánh và phân tích kết quả của các phân cụm khác nhau.
Tiêu chí lựa chọn phân cụm theo phân cụm phân phân cấp:
- Kết quả phân cụm không quá mất cân đối. Do bộ dữ liệu mất cân đối nên ta sẽ
chọn chuẩn là từ 150 đến 200 trở lên cho cụm thiểu số.
- Điểm Silhouette Score từ 0.25 trở lên (càng gần/ trên 0.5 càng tốt). Do nhóm
có chuyên môn tương đối về chủ đề dự báo hoạt đồng phá sản của công ty nên
có thể lựa chọn kết quả silhouette 0.25.
- Chỉ khi thỏa hai điều kiện trên thì mới xét đến độ cao cây và số cụm khác nhau.
Do khi phân cụm cho kết quả 1 cụm có số phần tử quá thấp thì khi chia them
cụm sẽ làm dữ liệu thêm mất cân đối / không thay đổi gì hết..
Kết quả của quá trình phân cụm được thể hiện như sau:

Hình 4.5: Kết quả phân cụm bởi thuật


toán phân cụm phân lớp theo cách tính
khoảng cách nối đơn.

18 Hình 4.6,4.7: Điểm silhouette của phân


cụm trên.
- Với cách nối trung bình (average linkage), thuật toán cho 2 cụm với số phần tử
là 2 (C1, S=0.051) và 6817 (C2, S=0.495) => Không chọn cách này do kết quả
phân cụm quá không đều (2/6817) và một cụm có silhouette là 0.051 < 0.25.

Hình 4.11: Kết quả phân cụm bởi thuật


toán phân cụm phân lớp theo cách nối
được cận trọng.

Hình 4.12, 4.13: Kết quả điểm


silhouette của cách nối trên.

19
- Với cách nối được cân trọng (weighted linkage), thuật toán cũng cho 2 cụm với
số phần tử là 18 (C1, S=0.306) và 6801 (C2, S=0.245) => Không chọn cách
này do kết quả phân cụm quá không đều (18/6801) và một cụm có silhouette là
0.245 < 0.25.

Hình 4.14: Kết quả phân cụm bởi thuật


toán phân cụm phân lớp theo cách nối
toàn diện.

Hình 4.15, 4.16: Kết quả điểm


silhouette của cách nối trên.

- Với cách nối toàn diện (complete linkage), thuật toán cho 2 cụm có số phần tử
là 4 (C1, S=0.210) và 6815 (C2, S=0.417) => Không chọn cách này do kết quả
phân cụm quá không đều (4/6815) và một cụm có silhouette là 0.210 < 0.25.

Hình 4.17, 4.18: Kết quả điểm


silhouette của cách nối khu vực..

20
- Với cách nối khu vực (ward linkage), thuật toán cho 2 cụm có số phần tử là
1757 (C1, S=0.168) và 5062 (C2, S=0.166) => Không chọn cách này do kết
quả phân cụm cho 2 cụm có silhouette là 0.166<0.168<0.25.
Kết luận: Từ những kết quả trên, ta có thể thấy kết quả phân cụm từ thuật toán
phân cụm phân cấp rất không hiệu quả với độ chính xác thấp, độ khớp với dữ
liệu gốc. Phương pháp tốt nhất chính là phân cấp theo khoảng cách khu vực
nên kiểm tra độ chính xác của nó:

Hình 4.19: Pivot Table thể hiện ma


trận nhầm lẫn cho độ chính xác của
thuật toán phân cụm dữ liệu theo cách
tính khoảng cách khu vực.

- Thông số cơ bản (Do không xác định rõ được cụm nào là công ty phá sản nên
thử chọn 1: Công ty phá sản là True Positive (C2/Other), C1 là công ty không
phá sản):
 Độ chính xác (Precision) = 0.21819
 Độ phủ (Recall) = 0.02731
 F1-score = 0.04854
 Từ kết quả giả định, ta thấy phương pháp phân cụm phân lớp theo cách
tính khoảng cách cụm Ward có độ chính xác, độ phủ và F1-Score thấp
nên không đáng tin cậy.
- 4 cách tính khoảng cách cho kết quả phân cụm 1 cụm có số phần tử quá ít (1 –
5) nên khi phân cụm từ 2 cụm thành 3 cụm thì vẫn sẽ có cụm vi phạm điều
kiện phân cụm tối thiểu. => Phải dùng phân cụm phân cấp theo cách tính
khoảng cách Ward (Theo khu vực).
- Phân cụm phân lớp theo cách tính khoảng cách Ward cho kết quả tốt nhất nên
chúng ta thử phân thành 3 cụm:

21
Hình 4.20: Ma trận nhầm lẫn
cho phép phân thành 3 cụm.
Hình 4.21, 4.22, 4.23:
Silhouette Score của 3 cụm khi
phân cụm phân cấp dữ liệu theo
cách tính khoảng cách Ward
thành 3 cụm.

- Quan sát kết quả phân cụm, ta thấy cả ba cụm đều có Silhouette Score bé hơn
chuẩn là 0.152, 0.174 và 0.172 đều bé hơn chuẩn là 0.250; bên cạnh đó, ma
trận nhầm lẫn cho kết quả phân lớp không xác định được, vì thế, không chấp
nhân kết quả phân cụm khi phân thành 3 cụm.
- Kết luận tổng: Không chấp nhận thuật toán phân cụm phân lớp trong bài
toán này.
2. Thuật toán K-Means:
Quy trình thực hiện phân cụm với K-Means:

22
- Chuyển dữ liệu vào thuật toán và tùy chọn K-Means (Số cụm: 2  6), không
thường hóa dữ liệu.
Hình 4.24: Tùy chỉnh k-Means.

- Chọn số cụm phù hợp rồi phân tích kết quả phân cụm.
Kết quả phân cụm:
Hình 4.25: Kết quả phân số
cụm từ thuật toán K-Means.

- Cả 5 kết quả phân cụm đều dưới chuẩn Silhouette Score (Nhỏ hơn 0.25).
- Kết quả phân cụm tốt nhất chính là 0.197 (2 cụm). Vì thế, kiểm tra thử kết quả
phân 2 cụm từ K-Means.

Hình 4.26, 4.27: Kết quả phân


cụm từ thuật toán K-Means (2
cụm).

- Kết quả phân cụm cho 2 cụm là C1 (4690, S=0.222) và C2 (2129, S=0.139).
Kết quả phân cụm này không đạt do có Silhouette score dưới mức tối thiểu là
0.25.
Kết luận: Kết quả phân cụm không cho kết quả chính xác ở mức chấp nhận
được, thử kiểm tra các thông số cơ bản:
23
Hình 4.28: Pivot table cho kết
quả phân cụm khi do với nhãn
ban đầu.

- Quan sát bộ dữ liệu, ta không thể xác định rõ được cụm nào là cụm xác định
công ty phá sản do cụm C1, C2 đều không tập trung gom nhóm dữ liệu theo
hướng phá sản/ không phá sản.
- Kết luận: Kết quả phân cụm bằng K-Means cho độ chính xác rất thấp và không
đáng tin cậy, không phù hợp nhãn ban đầu.
III. Kết luận cuối cùng:
- So với nhãn phân lớp đã có sẵn thì kết quả phân cụm dữ liệu bằng thuật toán
phân cụm phân cấp theo phương pháp Ward thì có độ chính xác thấp, độ phủ và
F1-score rất thấp.
- So với nhãn phân lớp sẵn có thì kết quả phân cụm dữ liệu bằng thuật toán phân
cụm K-Means cho độ chính xác thập, độ phủ và F1-Score rất thấp.
 Không thể dự đoán công ty phá sản hoặc gộp nhóm một cách hiệu quả các
công ty phá sản bằng các thuật toán phân cụm trên (với bộ dữ liệu này, cũng
như là các bộ dữ liệu khác có cùng/gần các đặc tính như bộ dữ liệu này).
- Nguyên nhân: Bộ dữ liệu trên thường được dùng để thực hiện bài toán phân
lớp, thiết kế cho bài toán phân lớp, cũng như có dữ liệu quá mất cân đối và quá
nhiều đặc tính để phân cụm hiệu quả được.

Phần 5: THỰC HIỆN PHÂN LỚP DỮ LIỆU


I. Lựa chọn phương pháp phân lớp dữ liệu:
1. Hồi quy Logistic (Logistic Regression): Là một mô hình xác suất dự đoán giá
trị đầu ra rời rạc từ một tập các giá trị đầu vào (biểu diễn dưới dạng vector).

24
Hình 5.1: Minh họa cho thuật
toán hồi quy Logistic (Nguồn:
Wikipedia).

2. Mô hình học được hiệu chỉnh (Mô hình học máy nền: Hối quy Logistic): là mô
hình hiệu chỉnh trên một mô hình trước đó để tăng độ chính xác hay F1-Score.

Hình 5.3: Minh họa cho thuật


toán mô hình được hiệu chỉnh
(Nguồn: Orange).

3. Cây quyết định (Tree): là một thuật toán có giám xác dựa trên việc tạo ra một
cây quyết định từ dữ liệu đã có để giải quyết vấn đề phân lớp/ quyết định hưu
hạn rời rạc.

Hình 5.3: Minh họa cho thuật


toán cây quyết định (phải) và
khu rừng ngẫu nhiên (trái)
(Nguồn: Toward Data Science).

4. SVM (Support Vector Machines): là một thuật toán có giám sát, SVM nhận dữ
liệu vào, xem chúng như những các vector trong không gian và phân loại
chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không
gian nhiều chiều làm mặt phân cách các lớp dữ liệu.
Hình 5.4: Minh họa cho thuật
toán SVM (Nguồn: Wikipedia).

25
5. Mô hình mạng lưới nơ-ro (Neural Network): là một phương thức học máy
được giám xác dựa trên sự hình thành của một cấu trúc nhân tạo tương tự như
cấu trúc não bộ con người để giải quyết vấn đề từ dữ liệu đầu vào.
Hình 5.5: Minh họa cho thuật
toán mạng nơ ron (Nguồn:
IBM).

II. Thực hiện và phân tích kết quả phân lớp:

Hình 5.6: Mô hình phân lớp dữ


liệu.

Quy trình thực hiện phân lớp dữ liệu:


- Đưa dữ liệu vào bộ xử lí bằng công cụ Files.
- Chuyển dữ liệu vào các mô hình học máy với tùy chỉnh phù hợp.
- Kết nối bộ dữ liệu và các mô hình vào công cụ Test and Score với tùy chỉnh phù
hợp.
- Đưa kết quả đánh giá vào công cụ ROC Analysis và Confusion Matrix để xem
kết quả phân lớp.
1. Hồi quy Logistic và hiệu chỉnh hồi quy Logistic:
Tùy chỉnh cho hồi quy Logistic và mô hình hiệu chỉnh:
- Do bộ dữ liệu cũng như vần đề đặt ra (dự báo công ty phá sản) có sự mất cân đối
nghiêm trọng nên cần phải cân bằng phân lớp trong hồi quy Logistic (Hy sinh độ
chính xác phân lớp đa số để có tỉ lệ chính xác cao hơn của tỷ lệ thiểu số).

26
Hình 5.7: Tùy chỉnh cho hối quy
Logistic.
- Cân bằng phân lớp.
- Chọn mô hình chuẩn hóa
Lasso (L1).

- (Hiệu chỉnh) Do bộ dữ liệu quá mất cân bằng nên tập trung vào tăng F1-Score
của bộ dữ liệu (độ chính xác bị ảnh hưởng bởi sự mất cân đối dữ liệu).
Hình 5.8: Tùy chỉnh cho phép
hiệu chỉnh mô hình học máy.

Kết quả phân lớp dữ liệu bởi hồi quy Logistic:

Hình 5.9, 5.10, 5.11: Kết quả


phân lớp dữ liệu: Chỉ số cơ bản.

27
Hình 5.12: Kết quả phân lớp dữ
liệu: Biểu đồ ROC

Hình 5.13: Kết quả phân lớp dữ


liệu: Ma trận nhầm lẫn.

Phân tích kết quả:


- Hối quy Logistic cho độ chính xác rất cao (0.994) và độ phủ cao (0.865) khi
xác định công ty không phá sản. Nhưng khi xác định công ty phá sản thì cho độ
chính xác rất thấp (0.174) nhưng độ phủ cao (0.855).
- Hồi quy Logistic có AUC là 0.928, đường ROC nhìn chung là khá cao cho bộ
dữ liệu có tính thử thách rất cao.
- Từ kết quả trên, ta thấy là bộ dữ liệu này dự đoán chính xác các công ty phá
sản nhưng cho rất nhiều sai số đi kèm.
 Dùng bộ dữ liệu khi RẤT cần xác định công ty phá sản và không có ảnh
hưởng quá lớn khi xác định công ty bình thường phá sản.

Kết quả hiệu chỉnh mô hình hồi quy Logistic ở trên:

Hình 5.14, 5.15, 5.16: Kết quả


phân lớp dữ liệu: Chỉ số cơ bản.

28
Hình 5.17: Kết quả phân lớp dữ
liệu: Biểu đồ ROC (xanh lá:
Hiệu chỉnh hồi quy logistics,
xám: hồi quy logistic)

Hình 5.18: Kết quả phân lớp dữ


liệu: Ma trận nhầm lẫn.

- So sánh diện tích AUC của hồi quy Logistic và mô hình được hiệu chỉnh của
hồi quy Logistic, ta thấy chúng có diện tích AUC xấp xỉ (0.926 ≈ 0.928) và hai
đường ROC nằm sát cạnh nhau, nên chưa thể kết luận mô hình nào tốt hơn
được. Vì thế ta chuyển đến kiểm tra độ chính xác và độ phủ.
- Sau khi hiệu chỉnh mô hình hồi quy Logistic thì mô hình cho kết quả phân lớp
tốt hơn khi xác định công ty không phá sản với độ chính xác cao hơn (0.981)
và độ phủ cao hơn so với hối quy Logistic (0.973). Nhưng mô hình này lại
không bao gồm hết đa số dự đoán công ty phá sản, cho độ phủ chỉ ở mức 0.45,
nhưng tạo ra ít phần tử False Positive hơn với độ chính xác cao hơn rất nhiều ở
0.355.
- Vì thế, tùy trường hợp mà ta chọn một trong hai mô hình trên:
1. Nếu xác định đa số công ty sai quan trọng thì chọn hồi quy Logistic.
Đây là mục tiêu huấn luyện chính nhất của bộ dữ liệu và là mục tiêu của
cả bài luận: tìm một thuật toán dự đoán được công ty có phá sản hay
không. Vì thể, thuật toán nghiên về hướng này sẽ được ưu tiên hơn.
2. Nếu trong trường hợp phân lớp thông thường thì chon mô hình được
hiệu chỉnh cho nhiều kết quả phân lớp đúng hơn. Đây là thuật toán dung
để nhìn thấy bức tranh chung hơn, có thể dung để kiểm chéo kết quả từ
thuật toán chính.
=> Vì tính phân loại này, những thuật toán sau thì thuật toán nào nghiên về dạng mô hình
nào thì sẽ dùng thuật toán mẫu tương ứng để so sánh để tạo sư hợp lí khi so sánh. Trong
bài toán này, chúng ta tập trung vào nghiên cứu cũng như dự đoán công ty nào phá sản
nên ta tập trung vào phương pháp hồi quy Logistic

29
2. Cây quyết định:
Kết quả phân tích bằng cây quyết định:
Hình 5.19, 5.20, 5.21: Kết quả
phân lớp dữ liệu: Chỉ số cơ bản.

Hình 5.22: Kết quả phân lớp dữ


liệu: Biểu đồ ROC

Hình 5.23: Kết quả phân lớp dữ


liệu: Ma trận nhầm lẫn.

Phân tích kết quả phân lớp của cây quyết định:
- So sánh diện tích AUC của mô hình cây quyết định, ta thấy diện tích AUC của
cây quyết định thấp hơn nhiều so với diện tích AUC của hai thuật toán hồi quy
Logistics và hiệu chỉnh của chúng (0.674 << 0.927 – 0.928). Vì thế, ta thấy
được rằng là mô hình cây quyết định sẽ cho kết quả phân lớp không đáng tin
cậy như hai mô hình kể trên.
- Kết quả từ ma trận nhầm lẫn thể hiện rằng thuật toán này phù hợp cho dự đoán
chung hơn là dự đoán công ty phá sản. Vì thế, thuật toán này nên được so sánh
với thuật toán hồi quy Logistic được hiệu chỉnh.

30
- Kết quả phân lớp của cây quyết định có độ chính xác hơi thấp hơn so với mô
hình được hiệu chỉnh (0.981 > 0.979) và cùng độ phủ khi dự báo công ty
không phá sản. Nhưng khi dự báo công ty phá sản thì mô hình cho độ chính
xác (0.320<0.355) và độ phủ thấp (0.377<0.45) hơn rất nhiều.
- Từ đây, ta kết luận được rằng mô hình cây quyết định tệ hơn mô hình hồi quy
Logistic được hiệu chỉnh trong dự báo dữ liệu một cách tổng quát.
3. SVM:
Kết quả chạy thuật toán SVM:

Hình 5.24, 5.25, 5.26: Kết quả


phân lớp dữ liệu: Chỉ số cơ bản.

Hình 5.27: Kết quả phân lớp dữ


liệu: Biểu đồ ROC (SVM: đường
thấp hơn)

Hình 5.28: Kết quả phân lớp dữ


liệu: Ma trận nhầm lẫn.

Phân tích kết quả thuật toán SVM:

31
- So sánh diện tích AUC của mô hình dự báo SVM với hai mô hình hồi quy
Logistics, SVM cho diện tích AUC thấp hơn so với AUC của hồi quy Logistics
(0.674<<0.928), bên cạnh đó đường ROC cũng thấp hơn, gần đường chia trung
tâm hơn nên ta có thể kết luận sơ bộ rằng SVM cho kết quả dự báo tệ hơn so
với 2 mô hình hồi quy Logistics. Xem xét them một số chỉ số phụ, ta thấy:
- Từ kết quả ma trận nhầm lẫn, ta thấy rằng ma trận đang tối đa hóa sô lượng dự
báo phá sản chính xác, thì thế ta sẽ so sánh SVM với hồi quy Logistic.
- Quan sát chỉ số cơ bản cho kết quá phân tích phá sản của SVM, SVM có độ
chính xác (0.075<0.174) và độ phủ (0.577<0.885) thấp hơn rất nhiều so với hồi
quy Logistic, vì thế, ta có thể kết luận là SVM phân lớp không đáng tin cậy
bằng hồi quy Logistic khi dự báo phá sản.
4. Mạng thần kinh nơ ron nhân tạo:
Tùy chỉnh cho mạng nơ ron
nhân tạo:
- Khởi điểm: tanh
- Bộ xử lý: L-BFGS-B
- Lựa chọn từ so sánh kết
quả thử nghiệm mô hình.

32
Kết quả phân lớp dữ liệu bằng mạng nơ ron thần kinh nhân tạo:

Hình 5.33: Kết quả phân lớp dữ


liệu: Ma trận nhầm lẫn.

Phân tích kết quả phân lớp dữ liệu:


- So sánh diện tích AUC, ta thấy được diện tích AUC của mô hình mạng nơ ron
Hình 5.29, 5.30, 5.31: Kết quả
phân lớp dữ liệu: Chỉ số cơ bản.

Hình 5.32: Kết quả phân lớp dữ


liệu: Biểu đồ ROC (Vàng:
Neural Network)

hơi thấp hơn so với AUC của 2 mô hình hồi quy Logistics (0.880<0.927-
0.928), và đường ROC của mô hình này khá gần nhưng thấp hơn so với 2 mô
hình hồi quy Logistics nên ta có thể kết luận là mô hình mạng nơ ron thân kinh
cho kết quả phân lớp kém hơn 2 mô hình hồi quy Logistics. Để đảm bảo kết
luận đó, ta sẽ xem xét thêm các chỉ số khác:
- Kết quả phân lớp của mạng nơ ron nhân tạo nghiêng về phân lớp chung, vì thể
so sánh nó với mô hình hồi quy Logistic đã được hiệu chỉnh.
- Xét các thông số cơ bản, mô hình mạng nơ ron ảo khi dự báo công ty không
phá sản cho độ chính xác thấp hơn (0.975 < 0.981) nhưng có độ phủ cao hơn
(0.984 > 0.973) so với hồi quy Logistic đã hiệu chỉnh. Khi dự đoán công ty phá

33
sản, mạng nơ ron cho độ chính xác thấp hơn (0.348 < 0.355) và độ phủ thấp
hơn (0.255 < 0.450). Vì thế, mô hình mạng nơ ron nhân tạo với những tùy
chỉnh trên cho kết quả phân lớp không tốt bằng so với mô hình hồi quy
Logistic được hiệu chỉnh.
III. Lời nói sau cùng và kết luận:
- Từ các phân tích trên, thuật toán phân lớp phù hợp với mục tiêu chính đặt ra là
thuật toán hồi quy Logistic.
- Tuy vậy, cho các mục tiêu khác thì thuật toán hồi quy Logistic được hiệu chỉnh
có thể tốt hơn cho phân lớp để thấy bức tranh tổng thể.

Phần 6: THỰC HIỆN DỰ BÁO DỰA TRÊN MÔ HÌNH HỌC MÁY TỐT NHẤT

Hình 6.1: Mô hình dự báo từ dữ


liệu.

Quy trình dự báo:

- Thực hiện trích 20% dữ liệu.


Hình 6.2: Xác định phần từ để
dự báo.

- Đưa dữ liệu vào công cụ Prediction kết nối với mô hình hồi quy Logistic để tối
đa hóa xác định công ty phá sản và mô hình hồi quy Logistic được hiệu chỉnh
để nhìn thấy bức tranh tổng quát hơn.
- Quan sát kết quả phân lớp và lưu kết quả phân lớp.

34
Kết quả phân lớp của hồi quy Logistic:

Hình 6.3: Mẫu kết quả phân


lớp.

Hình 6.4: Ma trận nhầm lẫn


cho kết quả phân lớp từ hồi quy
Logistic.

- Từ kết quả dự báo, ta thấy được là trong 1313 công ty không phá sản thì dự báo
đúng 1117, dự báo phá sản nhưng thực chất không 196 và dự báo không nhưng
lại phá sản là 7 phần tử, cho ta độ chính xác là 85.07% và độ phủ là 99.38%.
- Ta cũng thấy trong 51 phần tử đã phá sản thì dự báo đúng 44, dự báo phá sản
nhưng thực chất không là 196 và dự báo không phá sản nhưng lại phá sản là 7,
cho chúng ta độ chính xác là 18.33% và độ phủ là 86.27%.
Kết quả phân lớp từ hồi quy Logistic được hiệu chỉnh:

35
- Dự báo cho 1313 công ty không phá sản cho 1282
dự báo đúng, 22 dự báo không phá sản nhưng thật Hình 6.5: Mẫu kết quả phân
sự có và 31 dự báo phá sản nhưng thực sự không, lớp.
cho độ chính xác là và 98.31% độ phủ là 97.64%.
- Dự báo cho 51 công ty phá sản cho 29 dự báo đúng, 22 dự báo không phá sản
nhưng thực sự phá sản và 31 dự báo có nhưng không phá sản, từ đó cho độ
chính xác là 48.33% và độ phủ là 56.86%.

Phần 7: KẾT LUẬN


Mục tiêu chính của đề tài nghiên cứu là Dự đoán phá sản ở Đài Loan trong giai đoạn
1999 đến 2009. Nhìn chung, qua hai khía cạnh lý thuyết và thực hành, mục tiêu đã cơ bản
đạt được. Đối với mô hình nghiên cứu, bài nghiên cứu đã đề xuất xây dựng mô hình dự
đoán dựa trên thuật toán Cây quyết định (Decision Tree), SVM (Support Vector
Machine), Logistic Regression (Hồi quy Logistic). Trong đó, thuật toán phân lớp phù hợp
với mục tiêu chính đặt ra là thuật toán hồi quy Logistic. Qua đó cho ta thấy rằng mô hình
học máy đã và đang mang lại nhiều lợi ích cho các nhà quản trị trong việc dự đoán phá
sản của các doanh nghiệp cũng như giúp các nhà đầu tư có cái nhìn tổng quan hơn trước
khi đưa ra quyết định của mình.
Tóm lại, nắm được các nhân tố tác động đến rủi ro phá sản của doanh nghiệp là một trong
những vấn đề then chốt để các nhà quản trị tài chính đưa ra những chính sách đúng đắn
giúp doanh nghiệp tránh được ranh giới giữa phát triển bền vững và rủi ro phá sản trong
tương lai. Từ đó dự báo được nguy cơ phá sản của các doanh nghiệp. Dựa vào đó các nhà
quản trị tài chính sẽ đưa ra được những chính sách chi tiết hơn phù hợp với mỗi đặc thù
của doanh nghiệp mình giúp doanh nghiệp có một nguồn lực tài chính vững vàng, sử
dụng dòng tiền hiệu quả, tối ưu và đi đúng với chỉ tiêu tài chính của doanh nghiệp.

36
DANH MỤC TÀI LIỆU THAM KHẢO
[1] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”,
Second Edition, Springer Science + Business Media, LLC 2005, 2010.
[2] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and Vipin Kumar, “Next
Generation of Data Mining”, Taylor & Francis Group, LLC, 2009.
[3] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second
Edition, Morgan Kaufmann Publishers, 2006.
[4] Daniel T. Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006.
[5] R. Xu, D. Wunsch II. Survey of Clustering Algorithms. IEEE Transactions on Neural
Networks, 16(3), May 2005, pp. 645-678
[6]https://khoataichinhnganhang.ufm.edu.vn/Resources/Docs/SubDomain/
khoataichinhnganhang/an%202022/h%C3%A0nh%20ch%C3%ADnh%20khoa/3.NCKH
%20SV/62%20files%20de%20tai%20NCKH%20SV%202022%20tu
%2032/46.%C4%90%E1%BB%80%20T%C3%80I%20NCKH-%20GVHD%20TH.S
%20PH%E1%BA%A0M%20%C4%90%E1%BB%A8C%20HUY.docx
[7] https://archive.ics.uci.edu/ml/datasets/Taiwanese+Bankruptcy+Prediction

37
38

You might also like