Đồ án nhóm cuối kỳ - Nhóm 3

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 45

ĐẠI HỌC UEH

TRƯỜNG KINH DOANH


KHOA KẾ TOÁN – KIỂM TOÁN

BÁO CÁO CUỐI KỲ


PHÂN TÍCH KHẢ NĂNG THANH TOÁN KHOẢN NỢ CỦA
KHÁCH HÀNG Ở ĐÀI LOAN

Môn học: Khoa học dữ liệu – 22C1INF50905970


Giảng viên: Ths. Nguyễn Mạnh Tuấn
Nhóm thực thiện: Nhóm 3
Thành viên nhóm: Nguyễn Thị Cẩm Nhung – 31211023058
Nguyễn Thị Yến Nhi – 31211025420
Trần Gia Linh – 31211022114
Lương Thị Thủy Tiên – 31211023975
Trương Tấn Lộc - 31211022116
TP Hồ Chí Minh, ngày 26 tháng 09 năm 2022
DANH MỤC BIỂU ĐỒ
Biểu đồ 1: Tổng và trung bình hạn mức tín dụng đã cấp theo giới tính
Biều đồ 2: Tổng và trung bình số tiền tín dụng đã cấp theo độ tuổi
Biểu đồ 3: Tổng và trung bình số tiền tín dụng đã cấp theo tình trạng hôn nhân
Biểu đồ 5: Minh hoạ Scatter Plot PAY_0 từ 21 đến 25 tuổi
Biểu đồ 6: Minh hoạ Scatter Plot PAY_0 từ 26 đến 30 tuổi
Biểu đồ 7: Minh hoạ Scatter Plot PAY_0 từ 31 đến 34 tuổi
Biểu đồ 8: Minh hoạ Scatter Plot PAY_0 từ 35 đến 39 tuổi
Biểu đồ 10: Minh hoạ Scatter Plot PAY_0 từ 40 đến 49 tuổi
Biểu đồ 11: Minh hoạ Scatter Plot PAY_0 từ 50 đến 59 tuổi
Biểu đồ 12: Minh hoạ Scatter Plot PAY_0 từ 60 đến 69 tuổi
Biểu đồ 13: Minh hoạ Scatter Plot PAY_0 từ 70 đến 75 tuổi
Biểu đồ 14: Minh hoạ Scatter Plot BILL_ATM1 từ 21 đến 25 tuổi
Biểu đồ 15: Minh hoạ Scatter Plot BILL_ATM1 từ 26 đến 30 tuổi
Biểu đồ 16: Minh hoạ Scatter Plot BILL_ATM1 từ 31 đến 34 tuổi
Biểu đồ 17: Minh hoạ Scatter Plot BILL_ATM1 từ 35 đến 39 tuổi
Biểu đồ 18: Minh hoạ Scatter Plot BILL_ATM1 từ 40 đến 49 tuổi
Biểu đồ 19: Minh hoạ Scatter Plot BILL_ATM1 từ 50 đến 59 tuổi
Biểu đồ 20: Minh hoạ Scatter Plot BILL_ATM1 từ 60 đến 69 tuổi
Biểu đồ 21: Minh hoạ Scatter Plot BILL_ATM1 từ 70 đến 75 tuổi
Biều đồ 22: Minh hoạ Scatter Plot PAY_ATM1 từ 21 đến 25 tuổi
Biều đồ 23: Minh hoạ Scatter Plot PAY_ATM1 từ 26 đến 30 tuổi
Biều đồ 24: Minh hoạ Scatter Plot PAY_ATM1 từ 31 đến 34 tuổi
Biều đồ 25: Minh hoạ Scatter Plot PAY_ATM1 từ 35 đến 39 tuổi
Biều đồ 26: Minh hoạ Scatter Plot PAY_ATM1 từ 40 đến 49 tuổi

1
Biều đồ 27: Minh hoạ Scatter Plot PAY_ATM1 từ 50 đến 59 tuổi
Biều đồ 28: Minh hoạ Scatter Plot PAY_ATM1 từ 60 đến 69 tuổi
Biều đồ 29: Minh hoạ Scatter Plot PAY_ATM1 từ 70 đến 75 tuổi
DANH MỤC HÌNH ẢNH
Hình 1: Mô hình đánh giá
Hình 2: Kết quả dự đoán tổng số tiền hóa đơn sao kê tháng tới
Hình 3: Kết quả dự đoán tổng số tiền khách hàng thanh toán tín dụng tháng tới
Hình 4 : Mô hình bài toán 2
Hình 5 : Kết quả Test and Score
Hình 6: Kết quả Confusion Matrix phương pháp Logistic Regression
Hình 7: Kết quả Confusion Matrix phương pháp Neural Network
Hình 8: Kết quả Confusion Matrix phương pháp SVM
Hình 9: Kết quả dự báo bài toán 2
Hình 10: Mô hình bài toán 3
Hình 11: Kết quả k-Means từ 21 đến 25 tuổi
Hình 12: Kết quả k-Means từ 26 đến 30 tuổi
Hình 13: Kết quả k-Means từ 31 đến 34 tuổi
Hình 14: Kết quả k-Means từ 35 đến 39 tuổi
Hình 15: Kết quả k-Means từ 40 đến 49 tuổi
Hình 16: Kết quả k-Means từ 50 đến 59 tuổi
Hình 17: Kết quả k-Means từ 60 đến 69 tuổi
Hình 18: Kết quả k-Means từ 70 đến 75 tuổi
DANH MỤC BẢNG
Bảng 1: Tình trạng nợ của khách hàng (số lượng khách hàng theo tình trạng trả nợ)
từ tháng 4/2005 đến tháng 9/2005
Bảng 2: Số tiền tín dụng khách hàng đại trà đã sử dụng và thanh toán trong tháng

2
Bảng 3: Số tiền tín dụng khách hàng tiềm năng đã sử dụng và thanh toán trong
tháng
MỤC LỤC

DANH MỤC BIỂU ĐỒ.......................................................................................................1


DANH MỤC HÌNH ẢNH...................................................................................................2
DANH MỤC BẢNG...........................................................................................................2
CHƯƠNG I: TỔNG QUAN................................................................................................5
1. Lí do chọn đề tài........................................................................................................5
2. Mục tiêu nghiên cứu..................................................................................................5
3. Mô tả dữ liệu..............................................................................................................5
3.1. Nguồn gốc dữ liệu...............................................................................................5
3.2. Cấu trúc của dữ liệu............................................................................................6
3.3. Mô tả bài toán.....................................................................................................8
3.4. Mô tả phương pháp.............................................................................................8
CHƯƠNG II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ..............................................10
1. Bài toán 1: Phân tích tình hình trả nợ tín dụng của khách hàng từ tháng 4/2005 đến
tháng 9/2005...................................................................................................................10
1.1 Mô tả bài toán:..................................................................................................10
1.2. Chạy mô hình và kết quả..................................................................................11
2. Bài toán 2: Dự đoán khả năng vỡ nợ của khách hàng vào tháng tới (10/2015) (bài
toán phân lớp).................................................................................................................16
2.1. Mô tả bài toán...................................................................................................16
2.2. Mô tả dữ liệu.....................................................................................................17
2.3. Xử lý dữ liệu.....................................................................................................17
2.4. Chạy mô hình và kết quả..................................................................................17
3. Bài toán 3: Phân cụm tình trạng trả nợ, số tiền của hoá đơn sao kê và số tiền thanh
toán vào tháng 9 năm 2005 theo độ tuổi........................................................................21
3.1. Quy trình thực hiện:..........................................................................................21
3.2. Đánh giá và kết quả..........................................................................................21
CHƯƠNG III: ĐÁNH GIÁ CHUNG................................................................................41

3
1. Bài toán 1.................................................................................................................41
2. Bài toán 2.................................................................................................................41
3. Bài toán 3.................................................................................................................41
4. Kết luận....................................................................................................................41
5. Những hạn chế.........................................................................................................41
CHƯƠNG IV: LỜI KẾT...................................................................................................42
TÀI LIỆU THAM KHẢO.................................................................................................43

4
CHƯƠNG I: TỔNG QUAN
1. Lí do chọn đề tài
Hiện nay các hoạt động phát hành thẻ, cho vay vốn hay các hoạt động trung gian liên
quan đến tài chính giúp duy trì các hoạt động cá nhân, doanh nghiệp vô cùng phổ biến.
Các hoạt động này giúp giảm tình trạng đói nghèo và giúp giải quyết nhanh các vấn đề
tài chính của cá nhân và doanh nghiệp.
Trong hệ thống các hoạt động của ngân hàng thì hoạt động tín dụng cho khách hàng
vay là hoạt động có khả năng sinh lời cao nhất. Tuy nhiên cùng với khả năng sinh lời cao
như vậy là các rủi ro vô cùng lớn, ngân hàng phải luôn sẵn sàng đối mặt với các trường
hợp xấu nhất đó là vỡ nợ của khách hàng, khách hàng không còn khả năng thanh toán
nợ...
Một số ngân muốn phát triển, mở rộng thị phần nhanh chóng mà đã cho phát hành
thẻ tín dụng một cách quá mức bỏ qua các điều kiện tiên quyết. Bên cạnh đó cùng với sự
không có ý thức của khách hàng họ đã sử dụng thẻ để chi tiêu bất hợp lí dẫn đến tình
trạng không còn khả năng thanh toán nợ. Điều đó dẫn đến nhiều thiệt hại và hậu quả
nghiêm trọng cho chính ngân hàng. Chính vì vậy việc đánh giá rủi ro tín dụng là khâu
quan trọng và tất yếu trước khi tiến hành hoạt động cho vay. Các ngân hàng cần tích cực
trong việc nâng cao chất lượng tín dụng cho khách hàng. Bên cạnh đó phải xây dựng hệ
thống các tiêu chí đánh giá rủi ro tín dụng một cách tối ưu nhất.
Với sự phát triển của trí tuệ nhân tạo và máy móc đã có nhiều nghiên cứu sử dụng
các phương pháp ước lượng để lựa chọn mô hình phù hợp như Logistic, Propit, SVM,
cây quyết định,...để phát triển mô hình dự đoán rủi ro. Với sự tò mò và muốn hiểu hơn về
mô hình này cũng như cách thức hoạt động của nó chúng tôi đã quyết định đi sâu vào
nghiên cứu chúng. Đề tài mà chúng tôi chọn để thực hiện cho dự án cuối kì môn khoa
học dữ liệu của mình đó là “Phân tích khả năng thanh toán nợ của khách hàng ở Đài
Loan”. Chủ đề có liên quan gần với chuyên ngành kiểm toán. Vì
2. Mục tiêu nghiên cứu
 Thứ 1: Phân tích tình hình thanh toán nợ của khách hàng ở Đài Loan trong năm
khảo sát.
 Thứ 2: Phân tích xác suất thanh toán nợ của khách hàng ở Đài Loan.
 Thứ 3: Phương án nâng cao kế hoạch thanh toán nợ của khách hàng ở Đài Loan.
 Thứ 4: Đánh giá tiềm năng thanh toán nợ của khách hàng ở Đài Loan trong tương
lai.

3. Mô tả dữ liệu
3.1. Nguồn gốc dữ liệu

5
Dữ liệu thanh toán khoản nợ của khác hàng ở Đài Loan được cung cấp bởi I-Cheng
Yeh đến từ tổ chức Department of Information Management, Chung Hua University,
Taiwan. (2) Department of Civil Engineering, Tamkang University, Taiwan. Link truy
cập vào dữ liệu: https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients#
Dữ liệu được kiểm tra và xử lý các số liệu không phù hợp: Loại bỏ các dữ liệu không
rõ nguồn gốc (unknown): education loại bỏ những dữ liệu chứa 0, hôn nhân loại bỏ 5,6.
Dữ liệu sau khi xử lý được lưu lại và dùng cho bài nghiên cứu Default of credit card
clients đã xử lý.xlsx
3.2. Cấu trúc của dữ liệu
-Biến định danh là eduaction, marriage, sex và default payment next month.
-Biến định lượng là các biến còn lại.

Thuộc tính Ý nghĩa Mô tả

ID Mã định danh của khách hàng 1 chuỗi ký tự số

LIMIT_BAL Số tiền tín dụng đã cho số tiền (NT dollar)

1 = nam
SEX Giới tính
2 = nữ

1 = trường cao đẳng


2 = đại học
EDUCATION Trình độ
3 = cấp ba
4 = khác

1 = đã kết hôn
MARRIAGE Tình trạng hôn nhân 2 = độc thân
3 = khác

AGE Độ tuổi số tự nhiên

Tình trạng trả nợ vào tháng 9 -1 = thanh toán hợp lệ


PAY_0
năm 2005 -2 = không sử dụng
0= Thanh toán bằng tín
PAY_2 Tình trạng trả nợ vào tháng 8 dụng xoay vòng
năm 2005 1 = thanh toán trễ 1

6
Tình trạng trả nợ vào tháng 7
PAY_3
năm 2005

Tình trạng trả nợ vào tháng 6


PAY_4
năm 2005

Tình trạng trả nợ vào tháng 5


PAY_5
năm 2005

tháng

2 = thanh toán trễ 2 tháng


Tình trạng trả nợ vào tháng 4 3 = thanh toán trễ 3 tháng
PAY_6 4 = thanh toán trễ 4 tháng
năm 2005
5 = thanh toán trễ 5 tháng
6 = thanh toán trễ 6 tháng
7 = thanh toán trễ 7 tháng
8 = thanh toán trễ 8 tháng
9 = thanh toán trễ trên 9
tháng
Số tiền của hóa đơn sao kê tháng Số tiền (NT dollar)
BILL_AMT1
9/2005

Số tiền của hóa đơn sao kê tháng


BILL_AMT2
8/2005

Số tiền của hóa đơn sao kê tháng


BILL_AMT3
7/2005

Số tiền của hóa đơn sao kê tháng


BILL_AMT4
6/2005

Số tiền của hóa đơn sao kê tháng


BILL_AMT5
5/2005

BILL_AMT6 Số tiền của hóa đơn sao kê tháng

7
4/2005

Số tiền thanh toán đợt tháng


PAY_AMT1
9/2005

Số tiền thanh toán đợt tháng


PAY_AMT2
8/2005

Số tiền thanh toán đợt tháng


PAY_AMT3
7/2005
Số tiền (NT dollar)
Số tiền thanh toán đợt tháng
PAY_AMT4
6/2005

Số tiền thanh toán đợt tháng


PAY_AMT5
5/2005

Số tiền thanh toán toán đợt tháng


PAY_AMT6
4/2005

default payment next Thanh toán mặc định vào tháng 1 = yes
month tới 0 = no

3.3. Mô tả bài toán


- Sử dụng Excel và phần mềm Orange để xử lý dữ liệu và giải quyết các bài toán
sau:
+ Bài toán 1: Phân tích tình hình trả nợ tín dụng của khách hàng từ tháng 4/2005 đến
tháng 9/2005 (sử dụng excel và đưa ra bảng biểu)
+ Bài toán 2:
+ Bài toán 3:
3.4. Mô tả phương pháp
 Phương pháp phân lớp dữ liệu
*Phân lớp (Classification, Supervised Learning): sắp xếp items vào N lớp (đã biết trước)
→ gán nhãn dữ liệu (dự đoán)

8
- Phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp
(loại) đã cho trước nhờ một mô hình phân lớp. Mô hình này đã được xây dựng dựa trên
một tập dữ liệu đã được gán nhãn trước đó. Quá trình gán nhãn cho một đối tượng dữ liệu
chính là quá trình phân lớp
- Phương pháp SVM (Support Vector Machine) là một thuật toán có giám sát, SVM
nhận dữ liệu vào, xem chúng như các vector trong không gian và phân lo ại chúng vào
các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm
mặt phân cách các lớp dữ liệu. Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng
(hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có
thể. SVM có nhiều biến thể để phù hợp với nhiều bài toán phân loại khác
nhau.
- Phương pháp hồi quy logistic là một mô hình hồi quy nhằm dự đoán giá trị đầu ra
rời rạc (discrete target variable) y ứng với một véc-tơ đầu vào x.Việc này tương đương
với chuyện phân loại các đầu vào x vào các nhóm y tương ứng.
- Phương pháp K-nearest neighbors là thuật toán học máy có giám sát, đơn giản và
dễ triển khai. Thường được dùng trong các bài toán phân loại và hồi quy. Thuật toán
KNN cho rằng những dữ liệu tương tự nhau sẽ tồn tại gần nhau trong một không gian, từ
đó công việc của chúng ta là sẽ tìm k điểm gần với dữ liệu cần kiểm tra nhất
 Bước 1: Xử lý dữ liệu
 Thay dữ liệu thiếu bằng orange nhờ pp thay giá trị tb cho các số bị thiếu
 Bước 2: Xây dựng mô hình phân lớp
 Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xử lý.
 Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật…
 Kết quả của bước này là mô hình phân lớp đã được huấn luyện (trình phân lớp)
 Bước 3.1: Đánh giá mô hình
 Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lý. Tuy
nhiên lúc đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn.
 Tính đúng đắn của mô hình sẽ được xác định bằng cách so sánh thuộc tính gán
nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình.
 Bước 3.2: Phân lớp dữ liệu mới
 Dữ liệu đầu vào: là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)
 Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào
những gì được huấn luyện ở bước 1
 Phương pháp phân cụm dữ liệu
Là quá trình gom cụm/nhóm các đối tượng/dữ liệu có đặc điểm tương đồng vào các
cụm/nhóm tương ứng. Trong đó:
+ Các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau.
+ Các đối tượng thuộc cụm/nhóm khác nhau sẽ có các tính chất khác nhau.
 Đặc điểm:
- Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu.
9
- Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning) vì
không biết trước được số nhóm (khác với bài toán phân lớp)
- Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:
+ Độ tương đồng bên trong cụm cao
+ Độ tương tự giữa các cụm thấp (khác biệt cao)
- Các ứng dụng điển hình:
+ Công cụ phân cụm dữ liệu độc lập.
+ Là giai đoạn tiền xử lý cho các thuật toán khác
 Thuật toán K-means
- Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch
- Tư tưởng chính:
+Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d
chiều (với d là số lượng thuộc tính của đối tượng)
Bước 1:Xử lý dữ liệu
 Thay dữ liệu thiếu bằng orange nhờ pp thay giá trị tb cho các
số bị thiếu
 Loại bỏ các dữ liệu không rõ nguồn gốc (unknown):
education loại bỏ những dữ liệu chứa 0, hôn nhân loại bỏ 5,6
Bước 2: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm.
Bước 3: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất. Nếu các điểm
dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân
chia trước nó thì ta dừng thuật toán.
Bước 4: Cập nhật lại trung tâm cho từng cụm: Lấy trung bình cộng của tất các các
điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2.
Bước 5: Quay lại bước 2.
CHƯƠNG II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ
1. Bài toán 1: Phân tích tình hình trả nợ tín dụng của khách hàng từ tháng
4/2005 đến tháng 9/2005
1.1 Mô tả bài toán:
Từ dữ liệu đã được tiền xử lí, dùng công cụ Pivot-Table và các công cụ Data
analysis trong Excel để phân tích tình hình trả nợ tín dụng của khách hàng từ tháng 4 năm
2005 đến tháng 9 năm 2005. Tùy theo độ tuổi, giới tính, trình độ học vấn, tình trạng hôn
nhân mà các khách hàng sẽ có những hành vi tín dụng khác nhau theo từng tháng tín
dụng. Từ đó, doanh nghiệp, tổ chức cho vay sẽ có những dữ liệu để tìm hiểu về các nhân
tố ảnh hưởng đến việc trả nợ tín dụng của khách hàng, qua đó việc dự báo khả năng trả
nợ của khách hàng có thể sẽ chính xác hơn, việc cấp tín dụng sẽ giảm bớt rủi ro cho

10
doanh nghiệp, tổ chức cho vay, giảm thiểu nợ xấu cũng như là đề ra các chính sách hỗ trợ
khách hàng trong việc trả nợ tín dụng giúp thu hút nhiều khách hàng mới và giữ chân
nhiều khách hàng lâu năm.
1.2. Chạy mô hình và kết quả
a. Với biến Limit_Bal - số tiền hạn mức tín dụng đã cấp cho khách hàng:

Hình 1: Mô hình đánh giá


Với tất cả các nhóm khách hàng, số tiền hạn mức tín dụng trung bình mà tổ chức
cấp là 167550,5449 NT Dollar

Biểu đồ 1: Tổng và trung bình hạn mức tín dụng đã cấp theo giới tính
Theo giới tính, tổng tín dụng đã cấp cho nhóm khách hàng nữ giới nhiều hơn đáng
kể so với nhóm khách hàng nam giới, gấp 1,5 lần. Trong khi đó, trung bình tín dụng đã
cấp cho khách hàng là nữ giới tuy nhiều hơn nam giới nhưng chênh lệch này là không
đáng kể. Từ đó có thể thấy được, nhóm khách hàng vay tín dụng ở doanh nghiệp này chủ
yếu là nữ giới. Và số tiền hạn mức tín dụng trung bình đã cấp cho nữ giới nhiều hơn số
tiền hạn mức trung bình doanh nghiệp này cho khách hàng vay.

11
Biều đồ 2: Tổng và trung bình số tiền tín dụng đã cấp theo độ tuổi
Từ 2 biểu đồ trên có thể thấy nhóm khách hàng doanh nghiệp cung cấp tín dụng
rất đa dạng về độ tuổi, nhỏ nhất 21 tuổi là sinh viên còn đang học hoặc vừa ra trường, lớn
tuổi nhất là 79 tuổi là người có thể đã về hưu. Trong đó trung bình hạn mức tín dụng
được cấp cho các khách hàng ở độ tuổi khác nhau chênh lệch không nhiều. Trong khi đó,
tổng số tiền hạn mức tín dụng đã cấp ở từng độ tuổi lại có sự phân hóa đáng kể. Đặc biệt,
ở độ tuổi 27-32 tổng số tiền hạn mức tín dụng đã cấp cho khác hàng đạt cao nhất (gần
300,000,000 NT Dollar). Ở độ tuổi 79 tuổi, doanh nghiệp có duy nhất 1 khách hàng và
hạn mức tín dụng của khách hàng rất cao đạt 440,000NT dollar.

12
Từ đây có thể thấy, nhóm khách hàng tiềm năng trong hoạt động cho vay tín dụng
của doanh nghiệp thuộc độ tuổi 27-32 tuổi.

Biểu đồ 3: Tổng và trung bình số tiền tín dụng đã cấp theo tình trạng hôn nhân
Tổng số tiền hạn mức tín dụng đã cấp không có chênh lệch nhiều giữa nhóm
khách hàng độc thân và đã kết hôn, nhưng với nhóm khách hàng có tình trạng hôn nhân
khác thì lại chênh lệch đáng kể. Trung bình số tiền hạn mức tín dụng đã cấp có sự phân
hóa rõ rệt giữa các nhóm, hạn mức trung bình cao nhất đạt ở nhóm khách hàng đã kết hôn
(182,126 NT dollar/khách hàng), thấp nhất ở nhóm có tình trạng hôn nhân khác (97,452
NT dollar/khách hàng)

13
Từ đó có thể thấy, doanh nghiệp chúng ta đang khai thác dữ liệu chủ yếu cấp tín
dụng cho nhóm khách hàng đã kết hôn và độc thân, trong đó nhóm khách hàng đã kết hôn
được cấp hạn mức tín dụng cao nhất.

Biểu đồ 4: Tổng và trung bình số tiền hạn mức tín dụng theo học vấn
Theo các biểu đồ, doanh nghiệp chúng ta đang khai thác dữ liệu chủ yếu cấp tín
dụng cho khách hàng có trình độ học vấn cao học và đại học.Trong đó cả về tổng hạn
mức tín dụng cấp và trung bình tín dụng cấp, nhóm khách hàng có trình độ cao học đều
cao hơn nhóm khách hàng trình độ đại học và phổ thông. Có thể do khách hàng có trình
độ học vấn càng cao thì thu nhập càng ổn định và cao hơn, do đó khó có thể xảy ra nợ
xấu và vỡ nợ nên doanh nghiệp chủ yếu cấp tín dụng cho các nhóm khách hàng tiềm năng
này.
Đặc biệt, với nhóm khách hàng trình độ học vấn khác, trung bình tín dụng cấp cho

mỗi khách hàng đạt mức cao nhất, nên doanh nghiệp cần chú ý khai thác tiềm năng lợi
nhuận từ nhóm khách hàng này.

14
b. Với biến PAY_X (X=0,1,…6) - Tình trạng trả nợ của khách hàng từ tháng
4/2005 đến tháng 9/2005:

Bảng 1: Tình trạng nợ của khách hàng (số lượng khách hàng theo tình trạng trả nợ) từ
tháng 4/2005 đến tháng 9/2005
Khách hàng yêu cầu cấp tín dụng nhưng không sử dụng vào tháng 4/2005 chiếm
16,2%, con số này giảm dần đến tháng 9/2005.
Khoảng 48%-55% khách hàng thanh toán bằng tín dụng xoay vòng hàng
tháng(Tín dụng quay vòng là một dạng hạn mức tín dụng mà khách hàng phải trả một
khoản phí cam kết cho một tổ chức tài chính để vay tiền và sau đó được phép sử dụng
tiền khi khách hàng cần thiết, nghĩa là không cần chi mua hàng hóa mới được cấp tín
dụng mà được cấp tín dụng trực tiếp bằng tiền để sử dụng cho các mục đich cá nhân) Từ
tháng 4 năm 2005 đến tháng 9 năm 2005, số khách hàng thanh toán bằng tín dụng.
Khách hàng thanh toán trễ trong vòng 3 tháng chiếm tỉ lệ trung bình khoảng 22%,
khách hàng thanh toán trễ trong vòng 4-6 tháng chiếm tỉ lệ trung bình 0,37%, khách hàng
thanh toán trễ từ 7 đến trên 8 tháng chiếm tỉ lệ trung bình 0,095%. Như vậy, tỉ lệ nợ xấu
của doanh nghiệp cấp tín dụng chiếm tỉ lệ không lớn, điều này cho thấy hiện tại, doanh
nghiệp đã khai thác được các nhóm khách hàng tiềm năng, quản trị rủi ro tín dụng đang
thực hiện tốt nhưng cần chú ý các khoản dự phòng trong tài chính và kế toán công ty để
tránh rủi ro vỡ nợ.
c. Với biến BILL_ATMX - số tiền tín dụng đã sử dụng trong tháng và
PAY_ATMX – số tiền tín dụng đã tháng toán trong tháng, từ tháng 4/2005
đến tháng 9/2005(X=1,2,…,6):
 Với đối tượng khách hàng đại trà:

15
Bảng 2: Số tiền tín dụng khách hàng đại trà đã sử dụng và thanh toán trong tháng
Theo dữ liệu, tỉ lệ thanh toán của nhóm khách hàng đại trà (tất cả khách hàng) đạt
11,08% - 13,33%. Tỉ lệ này thể hiện mức độ thu hồi vốn tín dụng cho vay của tổ chức
cho vay tín dụng. Từ tỉ lệ này có thể thấy được tùy theo số tiền từng tháng khách hàng trả
trên số tiền đã sử dụng từng tháng mà chúng ta có thể dự đoán khả năng thu hồi vốn và
lãi cúng như nợ xấu, nợ khó đòi và rủi ro vỡ nợ của khách hàng cũng như doanh nghiệp.
 Với đối tượng khách hàng tiềm năng – hạn mức tín dụng cao (độ tuổi 27-32 và có
học vấn cao học và đại học, đã kết hôn):
Bảng 3: Số tiền tín dụng khách hàng tiềm năng đã sử dụng và thanh toán trong
tháng

Theo dữ liệu khai thác từ số tiền tín dụng đã sử dụng và số tiền tín dụng đã thanh toán

theo từng tháng của khách hàng, có thể thấy, tỉ lệ thanh toán ở nhóm khách hàng tiềm
năng của tổ chức tín dụng này khoảng 9,8% - 12,7%. Tỉ lệ này bao gồm tỉ lệ tổng số tiền
thanh toán tối thiểu mà khách hàng phải thanh toán dựa trên khoản tiền tín dụng đã sử
dụng cộng với tỉ lệ tổng số tiền thanh toán thêm hoặc ít hơn so với mức tối thiểu đó. Nếu
khách hàng thanh toán ít hơn mức tối thiểu đã thỏa thuận khi cấp tín dụng thì lãi suất
phần chưa thanh toán sẽ rất cao. Vì vậy để hạn chế nguy cơ chịu lãi suất cao hay vỡ nợ,
khách hàng nên thanh toán đúng hạn và gần với số tiền tín dụng mình đã sử dụng nhất. Tỉ
lệ thanh toán ở nhóm khách hàng tiềm năng này tương đối cao và ổn định. Tuy nhiên,

mức tỉ lệ thanh toán thấp nhất nhỏ hơn tỉ lệ thấp nhất này ở đại trà, nên tổ chức tín dụng
này cần xem xét những yếu tố tác động đến khả năng vỡ nợ của nhóm khách hàng tiềm
ănng này. Phần lãi suất đánh trên phần nợ tín dụng còn lại cũng là một nguồn doanh thu
lớn cho tổ chức tín dụng. Tuy nhiên cần lưu ý so sánh tỉ lệ thanh toán của từng đối tượng
khách hàng tièm năng với tỉ lệ này để dự đoán khả năng vỡ nợ được chính xác hơn. Việc
dựa trên tỉ lệ này cũng góp phần củng cố các chính sách kinh tế tài chính của tor chức tín

16
dụng, đặc biệt là việc xem xét điều chỉnh tỉ lệ thanh toán tối thiểu ưu đãi để thu hút nhiều
khách hàng hơn.
d. Dự đoán tổng số tiền hóa đơn sao kê và tổng số tiền thanh toán của khách
hàng tháng tới (tháng 10/2005)
 Dự đoán tổng số tiền hóa đơn sao kê tháng tới: Moving Average w=3

Hình 2: Kết quả dự đoán tổng số tiền hóa đơn sao kê tháng tới
 Dự đoán tổng số tiền khách hàng thanh toán tín dụng tháng tới: Moving Average
w=3

Hình 3: Kết quả dự đoán tổng số tiền khách hàng thanh toán tín dụng tháng tới
2. Bài toán 2: Dự đoán khả năng vỡ nợ của khách hàng vào tháng tới (10/2015) (bài
toán phân lớp)
2.1. Mô tả bài toán
- Bài toán dự đoán khả năng vỡ nợ của khách hàng vào tháng tới sẽ giúp cho doanh
nghiệp sẽ xác định khách hàng nào còn khả năng không bị vỡ nợ và khách hàng nào
có thể sẽ bị vỡ nợ.
=> Doanh nghiệp tìm ra biện pháp thích hợp để thu hồi nợ, hạn chế sự
lãng phí trong quá trình đầu tư tín dụng cũng như loại bỏ được những chi
phí phát sinh khi cấp tín dụng cho khách hàng( chi phí trả lương nhân viên,
chi phí quản lý DN, thuế,…).
2.2. Mô tả dữ liệu
- Dữ liệu trong bài toán 2 được lấy từ
https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients .
- Dữ liệu bao gồm
+ Dữ liệu thô gồm 29601 hàng ( đối tượng ) và 25 cột ( đặc trưng ).
+ Mỗi hàng tượng trưng cho một người khách hàng, mỗi cột biểu thị
một đặc tính của khách hàng.
2.3. Xử lý dữ liệu
- Tiền xử lý dữ liệu: Dữ liệu được sử dụng lấy từ Default of credit card
clients đã xử lý.xlsx.

17
- Phân tách dữ liệu: Sử dụng Data Sampler để chia dữ liệu từ file Default of
credit card clients.xlsx thành hai file riêng biệt theo kiểu chia 70-30. Đặt tên
cho file dữ liệu lớn hơn là Default of credit card clients - Data.xlsx, file dữ
liệu nhỏ hơn là Default of credit card clients - Forecast.xlsx.
2.4. Chạy mô hình và kết quả
- Quy trình thực hiện
+ Bước 1: Chọn dữ liệu từ file Default of credit card clients - Data và
chọn cột “ default payment next month “ làm “ target “.
+ Bước 2: Sử dụng các phương pháp phân lớp như SVM, Logistic
Regression để tiến hành dự báo khả năng vỡ nợ và đánh giá các
phương pháp.
+ Bước 3: Chọn ra phương pháp được đánh giá tốt nhất, sau đó tiến
hành dự đoán cho dữ liệu từ file Default of credit card clients -
Forecast .
- Chú thích: File lấy dữ liệu từ file Default of credit card clients - Data , File
(1) lấy dữ liệu từ file Default of credit card clients - Forecast.
a. Xây dựng mô hình

18
Hình 4: Mô hình bài toán 2

b. Kết quả đánh giá

19
Hình 5: Kết quả Test and Score

c. Ma trận nhầm lẫn

Hình 6: Kết quả Confusion Matrix phương pháp Logistic Regression

Hình 7: Kết quả Confusion Matrix phương pháp Neural Network

20
Hình 8: Kết quả Confusion Matrix phương pháp SVM

d. Đánh giá kết quả


- Đánh giá kết quả dựa trên ma trận nhầm lẫn:
+ Sai lầm loại 2 là: thực tế là khách hàng vỡ nợ nhưng dự đoán là
khách hàng không vỡ nợ vì sẽ làm cho doanh nghiệp bị tổn thất về
tài chính.
+ Neural Network = 3074 nhỏ hơn hai phương pháp Logistic
Regression và SVM.
=> Nên chọn phương pháp Neural Network để dự đoán.

21
3. Bài toán 3: Phân cụm tình trạng trả nợ, số tiền của hoá đơn sao kê và số tiền
thanh toán vào tháng 9 năm 2005 theo độ tuổi.
3.1. Quy trình thực hiện:
- B1: Lần lượt chọn các dữ liệu File 21-25.xlsx, 26-30.xlsx, 31-34.xlsx,35-39.xlsx,
40-49.xlsx,50-59.xlsx , 60-69.xlsx,70-75.xlsx. Các File được lọc theo độ tuổi 21-
25, 26-30, 31-39, 40-49, 50-59, 60-69, 70-75 từ File dữ liệu gốc.
- B2: Dùng phương pháp k-Means để phân cụm dữ liệu
- B3: Minh hoạ các cụm đối tượng trên bằng Scatter Plot.

Hình 10: Mô hình bài toán 3


3.2. Đánh giá và kết quả
3.2.1. Chạy k-Means:
Từ 21 đến 25 tuổi

22
- Kết quả phân loại k-Means: Chạy k-Means từ 2 đến 6 cụm, chọn phân cụm 2
tương ứng với điểm Silhoette cao nhất là 0,596.

Hình 11: Kết quả k-Means từ 21 đến 25 tuổi


Từ 26 đến 30 tuổi
- Kết quả phân loại k-Means: Chạy k-Means từ 2 đến 6 cụm, chọn phân cụm 2
tương ứng với điểm Silhoette cao nhất là 0,52.

Hình 12: Kết quả k-Means từ 26 đến 30 tuổi


Từ 31-34 tuổi
- Kết quả phân loại k-Means: Chạy k-Means từ 2 đến 6 cụm, chọn phân cụm 2
tương ứng với điểm Silhoette cao nhất là 0,519.

23
Hình 13: Kết quả k-Means từ 31 đến 34 tuổi
Từ 35 đến 39 tuổi
- Kết quả phân loại k-Means: Chạy k-Means từ 2 đến 6 cụm, chọn phân cụm 2
tương ứng với điểm Silhoette cao nhất là 0,530.

Hình 14: Kết quả k-Means từ 35 đến 39 tuổi


Từ 40-49 tuổi
- Kết quả phân loại k-Means: Chạy k-Means từ 2 đến 6 cụm, chọn phân cụm 2
tương ứng với điểm Silhoette cao nhất là 0,561.

24
Hình 15: Kết quả k-Means từ 40 đến 49 tuổi
Từ 50 đến 59 tuổi
- Kết quả phân loại k-Means: Chạy k-Means từ 2 đến 6 cụm, chọn phân cụm 2
tương ứng với điểm Silhoette cao nhất là 0,612.

Hình 16: Kết quả k-Means từ 50 đến 59 tuổi


Từ 60 đến 69 tuổi
- Kết quả phân loại k-Means: Chạy k-Means từ 2 đến 6 cụm, chọn phân cụm 2
tương ứng với điểm Silhoette cao nhất là 0,745.

25
Hình 17: Kết quả k-Means từ 60 đến 69 tuổi
Từ 70 đến 75 tuổi
- Kết quả phân loại k-Means: Chạy k-Means từ 2 đến 5 cụm, chọn phân cụm 2
tương ứng với điểm Silhoette cao nhất là 0,527.

Hình 18: Kết quả k-Means từ 70 đến 75 tuổi


3.2.2. Tình trạng trả nợ vào tháng 9/2005 (PAY_0)
Tuổi thành niên (21-39 tuổi)
Từ 21 đến 25 tuổi:
Minh hoạ kết quả phân cụm:

26
Biểu đồ 5: Minh hoạ Scatter Plot PAY_0 từ 21 đến 25 tuổi
Từ 26 đến 30 tuổi
Minh hoạ kết quả phân cụm

Biểu đồ 6: Minh hoạ Scatter Plot PAY_0 từ 26 đến 30 tuổi

27
Từ 31 đến 34 tuổi
Minh hoạ kết quả phân cụm

Biểu đồ 7: Minh hoạ Scatter Plot PAY_0 từ 31 đến 34 tuổi


Từ 35 đến 39 tuổi
Minh hoạ kết quả phân cụm

28
Biểu đồ 8: Minh hoạ Scatter Plot PAY_0 từ 35 đến 39 tuổi
Tuổi trung niên (từ 40 đến 59 tuổi)
Từ 40 đến 49 tuổi
Minh hoạ kết quả phân cụm

Biểu đồ 10: Minh hoạ Scatter Plot PAY_0 từ 40 đến 49 tuổi


Từ 50 đến 59 tuổi
Minh hoạ kết quả phân cụm

29
Biểu đồ 11: Minh hoạ Scatter Plot PAY_0 từ 50 đến 59 tuổi
Hạ thọ (từ 60 đến 69 tuổi)
Minh hoạ kết quả phân cụm

Biểu đồ 12: Minh hoạ Scatter Plot PAY_0 từ 60 đến 69 tuổi

30
Trung thọ (từ 70 đến 75 tuổi)
Minh hoạ kết quả phân cụm

Biểu đồ 13: Minh hoạ Scatter Plot PAY_0 từ 70 đến 75 tuổi


Kết luận
- Về mật độ phân bố: Số người cần trả nợ giảm dần theo độ tuổi, tập trung chủ yếu ở
độ tuổi thành niên, nhiều nhất là nhóm tuổi từ 31 đến 39 tuổi. Từ độ tuổi trung
niên trở đi có thể thấy rõ sự sụt giảm số người cần trả nợ, đỉnh điểm là nhóm tuổi
từ 70 đến 75 tuổi có rất ít người. Trong một số nhóm độ tuổi cũng có sự phân biệt
về số lượng nguời cần trả nợ: độ tuổi 21 trong nhóm từ 21 đến 25 tuổi có mật độ
khá thưa, có lẽ đây là độ tuổi còn khá trẻ cho nhu cầu vay nợ.
- Tình trạng trả nợ giữa các nhóm độ tuổi có nét tương đồng, tập trung nhiều nhất ở
mức -4 đến 4 và thưa dần ngoài hai mức này, và không có trường hợp trễ quá một
năm cho thấy được xu hướng thanh toán nợ sớm hoặc quá hạn trả nợ không quá
lâu, giải quyết nhanh trong vòng một năm đổ lại.
3.2.3. Số tiền hoá đơn sao kê vào tháng 9 năm 2005 (BILL_ATM1)
Tuổi thành niên (từ 21 đến 39 tuổi)
Từ 21 đến 25 tuổi:
Minh hoạ kết quả phân cụm

31
Biểu đồ 14: Minh hoạ Scatter Plot BILL_ATM1 từ 21 đến 25 tuổi

Từ 26 đế 30 tuổi
Minh hoạ kết quả phân cụm

Biểu đồ 15: Minh hoạ Scatter Plot BILL_ATM1 từ 26 đến 30 tuổi


32
Từ 31-34 tuổi
Minh hoạ kết quả phân cụm

Biểu đồ 16: Minh hoạ Scatter Plot BILL_ATM1 từ 31 đến 34 tuổi


Từ 35 đến 39 tuổi
Minh hoạ kết quả phân cụm

33
Biểu đồ 17: Minh hoạ Scatter Plot BILL_ATM1 từ 35 đến 39 tuổi
Tuổi trung niên (từ 40 đến 59 tuổi)
Từ 40-49 tuổi
Minh hoạ kết quả phân cụm

34
Biểu đồ 18: Minh hoạ Scatter Plot BILL_ATM1 từ 40 đến 49 tuổi
Từ 50 đến 59 tuổi
Minh hoạ kết quả phân cụm

Biểu đồ 19: Minh hoạ Scatter Plot BILL_ATM1 từ 50 đến 59 tuổi


Hạ thọ (từ 60 đến 69 tuổi)

35
Biểu đồ 20: Minh hoạ Scatter Plot BILL_ATM1 từ 60 đến 69 tuổi
Trung thọ (từ 70 đến 75 tuôi)
Minh hoạ kết quả phân cụm

Biểu đồ 21: Minh hoạ Scatter Plot BILL_ATM1 từ 70 đến 75 tuổi

36
Kết luận
- Số tiền hoá đơn sao kê ở các nhóm độ tuổi có xu hướng tập trung nhiều ở mức từ -
200.000 NT dollar đến 200.000 NT dollar. Mức số dư ở tài khoản sao kê của
khách hàng ở Đài Loan theo từng độ tuổi có sự ổ định cho thấy được khả năng
quản lý chi tiêu của các khàng hàng tương đối tốt.
3.2.4. Số tiền thanh toán đợt tháng 9 năm 2005 (PAY_ATM1)
Tuổi thành niên (từ 21-39 tuổi)
Từ 21 đến 25 tuổi
Minh hoạ kết quả phân cụm:

Biều đồ 22: Minh hoạ Scatter Plot PAY_ATM1 từ 21 đến 25 tuổi


Từ 26 đến 30 tuổi
Minh hoạ kết quả phân cụm

37
Biều đồ 23: Minh hoạ Scatter Plot PAY_ATM1 từ 26 đến 30 tuổi
Từ 31-34 tuổi
Minh hoạ kết quả phân cụm

Biều đồ 24: Minh hoạ Scatter Plot PAY_ATM1 từ 31 đến 34 tuổi

38
Từ 35 đến 39 tuổi
Minh hoạ kết quả phân cụm

Biều đồ 25: Minh hoạ Scatter Plot PAY_ATM1 từ 35 đến 39 tuổi


Tuổi trung niên (từ 40 đến 59 tuổi)
Từ 40-49 tuổi
Minh hoạ kết quả phân cụm

39
Biều đồ 26: Minh hoạ Scatter Plot PAY_ATM1 từ 40 đến 49 tuổi
Từ 50 đến 59 tuổi
Minh hoạ kết quả phân cụm

Biều đồ 27: Minh hoạ Scatter Plot PAY_ATM1 từ 50 đến 59 tuổi


Hạ thọ (từ 60 đến 69 tuổi)

40
Minh hoạ kết quả phân cụm

Biều đồ 28: Minh hoạ Scatter Plot PAY_ATM1 từ 60 đến 69 tuổi


Trung thọ (từ 70 đến 75 tuôi)
Minh hoạ kết quả phân cụm

Biều đồ 29: Minh hoạ Scatter Plot PAY_ATM1 từ 70 đến 75 tuổi


Kết luận

41
- Nhìn chung, số tiền thanh toán trong tháng 9 ở các nhóm độ tuổi chủ yếu từ -
100.000 NT dollar đến 100.000 NT dollar. Một vài nhóm có sự phân bố đặc biệt:
Nhóm từ 35 đến 39 tuổi có số tiền thanh toán trong tháng 9 từ -200.000 đến
200.000. Nhóm độ tuổi trung thọ thì chỉ từ mức nhỏ hơn -40.000 đổ lại không
vượt qua mức -100.000 và 100.000). Trong các nhóm độ tuổi có sự phân bố khá
đồng đều.
CHƯƠNG III: ĐÁNH GIÁ CHUNG
1. Bài toán 1
Bằng cách sử dụng công cụ Pivot Table và công cụ Data Analysis trong Excel cho ra kết
quả cụ thể, số khách hàng thanh toán bằng tín dụng xoay vòng chiếm 48-55%, với số
khách hàng thanh toán đại trà là 11,08%-13,33%.
2. Bài toán 2
Theo bảng đánh giá kết quả, phương pháp Neural Network cho ra kết quả Accuracy, F1-
Score, Precision và Recall cao hơn cả hai phương pháp SVM và Logistic Regression,
không những thế Neural Network có độ chính xác Precision cao nhất trong ba phương
pháp là 0,77. Ma trận nhầm lẫn của Neural Network có sai lầm loại 2 bằng 3074 là nhỏ
nhất trong ba phương pháp.
3. Bài toán 3
Theo bảng đánh giá kết quả, phương pháp k-Means cho thấy được sự phân bố không
đồng đều giữa các độ tuổi về số tiền thanh toán. Số tiền thanh toán chủ yếu của các độ
tuổi nằm trong -100.000 NT dollar đến 100.000 NT dollar.
4. Kết luận
Thời đại công nghẹ hóa hiện đại hóa, mọi việc trở nên dễ dàng tiện nghi hơn. Cách
thanh toán nợ cũng không ngoại lệ. Ngày càng nhiều người sử dụng các dịch vụ thanh
toán, nghiên cứu này đã phân tích tình hình thanh toán tín dụng ở Đài Loan.
Nghiên cứu còn xác định được khả năng thanh toán nợ ở Đài Loan qua nhiều cách
thức cũng như xác định được theo từng đặc điểm cá nhân sẽ chi trả số tiền và thời gian
thanh toán, dự đoán về tương lai lẫn khả năng vỡ nợ của khách hàng.
Các doanh nghiệp, nhà nước có thể dựa vào sự phân tích này để hiểu rõ tình hình chi
trả nợ tín dụng của từng đối tượng khách hàng, giảm tối thiểu các mầm móng rủi ro gây
ảnh hưởng đáng kể. Đồng thời, có những cái nhìn cụ thể hóa hơn với các nhóm khách
hàng để rồi đưa ra những biện pháp tiếp cận khách hàng hợp lí và hiệu quả nhất, hạn chế
vỡ nợ tổn thất doanh thu.
5. Những hạn chế

42
- Kết quả nghiên cứu vẫn chưa thực sự cô đọng với những kiến thức chưa được chuyên
sâu của sinh viên ở độ tuổi 19,20.
- Các số liệu được lấy từ Đài Loan, không được tiếp cận trực tiếp.
CHƯƠNG IV: LỜI KẾT
Sau quá trình nghiên chúng tôi cũng phần nào hiểu được mô hình dự đoán rủi ro
cũng như cách hoạt động và lợi ích của nó. Đồng thời cũng đưa ra những nhận định,đánh
giá về chúng. Và cuối cùng chúng tôi xin nhấn mạnh một lần nữa để hạn chế những rủi ro
tín dụng, các ngân hàng cần nâng cao khả năng nhận diện khách hàng một cách tối ưu
nhất nhằm lựa chọn phù hợp các khách hàng đủ điều kiện và khả năng để cho vay. Ngân
hàng cần nhạy bén trong việc phát hiện và xử lí các khoản vay có nguy cơ mất một cách
kịp thời. Ngân hàng cần cẩn trọng trong từ khâu của chuỗi hệ thống hoạt động của mình
để tránh những trường hợp không may xảy ra.
Cuối cùng xin trân trọng cảm ơn thầy Nguyễn Mạnh Tuấn – giảng viên môn Khoa
học dữ liệu trường Đại học UEH đã tạo cơ hội cho chúng em thực hiện dự án nghiên cứu
này. Do kiến thức và sự hiểu biết còn hạn chế nên trong quá trình nghiên cứu có gì sai sót
mong thầy góp ý để chúng em rút kinh nghiệm cho những dự án nghiên cứu sau.

43
TÀI LIỆU THAM KHẢO
[1] Tài liệu, slide bài giảng môn Khoa học dữ liệu – UEH
[2] Yeh, I. C., & Lien, C. H. (2009). The comparisons of data mining techniques for the
predictive accuracy of probability of default of credit card clients. Expert Systems with
Applications, 36(2), 2473-2480.
[3] https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients#

44

You might also like