DCT119C3 - 3119411089 - VoVanTu - Tú Văn

TRƯỜNG ĐẠI HỌC SÀI GÒN
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO BÀI TẬP LỚN

MÔN KHAI PHÁ DỮ LIỆU
ĐỀ TÀI:
KHAI PHÁ DỮ LIỆU

CREDIT SCORE CLASSIFICATION
Giảng viên hướng dẫn : TH.S Nguyễn Vũ Thành Sang

Sinh viên thực hiện : Võ Văn Tú
MSSV : 3119411089
Lớp : DCT119C3
Thành phố Hồ Chí Minh, tháng 05 năm 2023

Mục Lục
NHẬN XÉT .......................................................................................................... 3
Lời Cảm Ơn ......................................................................................................... 4
1.Giới thiệu: ......................................................................................................... 5
1.1 Giới thiệu đề tài ........................................................................................... 5
1.2 Mục đích khai phá dữ liệu ........................................................................... 5
1.3 Phạm vi khai phá dữ liệu ............................................................................. 6
2. Mô tả bộ dữ liệu: ............................................................................................. 6
2.1 Nguồn gốc dữ liệu ....................................................................................... 6
2.2 Thông tin của dữ liệu .................................................................................. 7
3. Phân tích dữ liệu khám phá ........................................................................... 9
3.1 Tiền xử lý dữ liệu ........................................................................................ 9
3.2 Khám phá dữ liệu ...................................................................................... 10
3.2.1 Phân tích đa biến ................................................................................ 10
3.2.2 Phân tích đơn biến .............................................................................. 10
3.2.3 Phân tích đa biến ................................................................................ 12
4. Khai phá dữ liệu ............................................................................................ 13
4.1 Câu hỏi về dữ liệu ..................................................................................... 13
4.2 Thuật toán Logistic regresstion (Hồi quy logistic) ................................... 15
4.3 Thuật toán Decision tree (Cây quyết định) ............................................... 15
4.4 Random Forest (Rừng ngẫu nhiên) ........................................................... 16
4.5 Decision Tree (Cây quyết định) ................................................................ 16
5.Kết quả của từng thuật toán ......................................................................... 17
5.1 Logistic regression .................................................................................... 17
5.2 Decision tree ............................................................................................ 19
5.3 K-Nearest Neighbors (KNN): ................................................................... 20
5.4 Random Forest (Rừng ngẫu nhiên) ........................................................... 21
5.5 So sánh kết quả .......................................................................................... 21
6. Kết quả và thảo luận ..................................................................................... 22
7. Kết luận .......................................................................................................... 22
Tài liệu tham khảo
NHẬN XÉT
(Của giảng viên hướng dẫn)
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
3
Lời Cảm Ơn
Lời đầu tiên em xin cảm ơn thầy Sang đã giúp đỡ và hướng dẫn nhiệt tình cho em
trong suốt thời gian em làm báo cáo của môn “Khai Phá Dữ Liệu”
Đặc biệt là những buổi thảo luận, những lời khuyên, giải đáp thắc mắc của thầy
đã giúp em vượt qua những khó khăn, khúc mắc gặp phải để có thể hoàn thành bài báo
cáo này đúng tiến độ
Tiếp theo em xin cảm ơn quý thầy cô trong trường ĐH Sài Gòn đã giảng dạy và
truyền cảm hứng đến tất cả những sinh viên như em, để chúng em có thêm nhiều kiến
thức, mở mang thêm cách tư duy, sáng tạo trong cuộc sống.
Với những kiến thức còn thiếu sót về lý luận, kinh nghiệm trong thực tế chưa cao,
những kỹ năng còn hạn hẹp nên trong quá trình làm cuốn báo cáo em không thể tránh
được những sai lầm, em mong thầy cô có thể thông cảm và góp ý giúp em để em có
thêm kinh nghiệm và hoàn thành tốt nhất có thể
Em xin chân thành cảm ơn!
4
1.Giới thiệu:
1.1 Giới thiệu đề tài
Đề tài "Credit Score Classification" trên Kaggle là một nghiên cứu quan
trọng trong lĩnh vực đánh giá điểm tín dụng. Nghiên cứu này tập trung vào việc
phân loại điểm tín dụng dựa trên một tập dữ liệu được cung cấp.
Trong bài viết này, tác giả đã triển khai và đánh giá năm mô hình phân
loại khác nhau nhằm dự đoán điểm tín dụng của khách hàng. Sử dụng các
phương pháp học máy và kỹ thuật phân loại, tác giả đã xây dựng các mô hình và
đánh giá hiệu suất của chúng bằng cách sử dụng F1 score.
Kết quả cho thấy rằng tất cả năm mô hình đều đạt được F1 score đạt 84%,
cho thấy khả năng chính xác và độ tin cậy cao trong việc dự đoán điểm tín dụng
của khách hàng. Các mô hình này đã được đào tạo và kiểm tra trên một tập dữ
liệu đáng tin cậy, và kết quả đạt được là kết quả đáng chú ý.
Bài viết cung cấp một cái nhìn tổng quan về quá trình xây dựng và đánh
giá mô hình, bao gồm các bước tiền xử lý dữ liệu, lựa chọn các thuật toán phân
loại, và quá trình đánh giá hiệu suất của mô hình thông qua F1 score. Bên cạnh
đó, tác giả cũng giới thiệu các ưu điểm và hạn chế của từng mô hình, cung cấp
thông tin quan trọng để lựa chọn phương pháp phù hợp trong việc phân loại
điểm tín dụng.
Đề tài này có ý nghĩa quan trọng trong lĩnh vực tài chính và ngân hàng,
nơi đánh giá điểm tín dụng đóng vai trò quan trọng trong việc đưa ra quyết định
về cho vay và rủi ro tín dụng. Các kết quả và phương pháp trong nghiên cứu này
có thể cung cấp thông tin hữu ích và góp phần nâng cao quy trình đánh giá điểm
tín dụng và đưa ra quyết định tin cậy hơn trong lĩnh vực này.
1.2 Mục đích khai phá dữ liệu
Mục đích khai phá dữ liệu của đề tài "Credit Score Classification" là tìm
hiểu và phân loại các điểm tín dụng dựa trên tập dữ liệu được cung cấp. Bằng
cách sử dụng các kỹ thuật và mô hình học máy, đề tài này nhằm mục tiêu xây
dựng các mô hình phân loại để dự đoán và phân loại khách hàng vào các nhóm
tín dụng khác nhau.
Các mô hình phân loại được triển khai và đánh giá trong đề tài này nhằm
cung cấp những phương pháp tiếp cận hiệu quả trong việc xác định mức độ rủi
ro và khả năng trả nợ của khách hàng dựa trên thông tin tài chính và các yếu tố
khác. Điều này có thể hỗ trợ các công ty tín dụng, ngân hàng và tổ chức tài
chính trong quá trình ra quyết định về cho vay và đánh giá rủi ro tín dụng.
Ngoài ra, đề tài cũng tập trung vào việc đánh giá hiệu suất của các mô
hình phân loại thông qua F1 score, một phép đo phổ biến trong bài toán phân
loại. Bằng cách sử dụng các phép đo này, đề tài cung cấp thông tin về hiệu suất
và độ chính xác của các mô hình phân loại được triển khai.
5
Mục đích cuối cùng của đề tài này là tạo ra một nền tảng thực tế và ứng
dụng cho việc đánh giá điểm tín dụng và phân loại khách hàng trong lĩnh vực tài
chính và ngân hàng. Kết quả và phương pháp trong đề tài này có thể cung cấp
thông tin giá trị và hỗ trợ trong việc cải thiện quy trình đánh giá điểm tín dụng
và quyết định tin cậy hơn về cho vay và rủi ro tín dụng.
1.3 Phạm vi khai phá dữ liệu
Thu thập dữ liệu: Nghiên cứu này sử dụng tập dữ liệu có sẵn từ nguồn
gốc được cung cấp trên Kaggle. Quá trình thu thập dữ liệu bao gồm việc tải
xuống và trích xuất thông tin từ tập dữ liệu này.
Tiền xử lý dữ liệu: Dữ liệu thường cần được tiền xử lý để chuẩn hóa, xử
lý các giá trị thiếu, và chuyển đổi dữ liệu về định dạng phù hợp cho việc phân
loại. Quá trình tiền xử lý có thể bao gồm xử lý dữ liệu bị thiếu, chuẩn hóa dữ
liệu số, mã hóa dữ liệu danh mục, và loại bỏ nhiễu trong dữ liệu.
Phân đoạn khách hàng: Quá trình này nhằm phân đoạn khách hàng thành
các nhóm tương đồng dựa trên các đặc trưng và hành vi của họ. Các phương
pháp phân đoạn khách hàng có thể sử dụng trong đề tài này để phân loại khách
hàng thành các nhóm tín dụng khác nhau.
Xây dựng mô hình phân loại: Nghiên cứu này triển khai và đánh giá năm
mô hình phân loại khác nhau để dự đoán và phân loại khách hàng vào các nhóm
tín dụng khác nhau. Các phương pháp học máy và thuật toán phân loại được sử
dụng để xây dựng và đào tạo các mô hình này.
Đánh giá hiệu suất: Quá trình này nhằm đánh giá hiệu suất của các mô
hình phân loại thông qua các phép đo như F1 score. Các phép đo này được sử
dụng để đánh giá độ chính xác và hiệu suất của các mô hình phân loại được
triển khai.
2. Mô tả bộ dữ liệu:
2.1 Nguồn gốc dữ liệu
Dữ liệu "Credit Score Classification" được thu thập từ nguồn Kaggle, một
nền tảng hàng đầu cho cộng đồng khoa học dữ liệu và học máy. Tập dữ liệu này
được cung cấp bởi tác giả Paris Rohan và có sẵn trên Kaggle. Tác giả đang làm
việc như một nhà khoa học dữ liệu trong một công ty tài chính toàn cầu. Trong
những năm qua, công ty đã thu thập các chi tiết ngân hàng cơ bản và thu thập
rất nhiều thông tin liên quan đến tín dụng.
-Bộ dữ liệu sẽ có các giá trị đầu vào như sau
6
hình 2.1 Các giá trị đầu vào của dữ liệu
2.2 Thông tin của dữ liệu
Có 28 thuộc tính trong các tệp để huấn luyện cho thuật toán, bao gồm:
ID: là dãy ký tự duy nhất được gán cho từng khách hàng trong bộ dữ liệu.
Customer_ID: là dãy ký tự duy nhất được gán cho khách hàng.
Month : là tháng sinh của khách hàng.
Name: là Tên của khách hàng.
Age: Độ tuổi của khách hàng.
SSN: là viết tắt của Social Security Number là Số An sinh Xã hội của từng
khách hàng tương ứng.
Occupation: Nghề nghiệp của khách hàng.
Annual_Income: là thu nhập hằng năm của khách hàng đó.
Monthly_Inhand_Salary: Thu nhập hằng tháng của khách hàng.
Num_Bank_Accounts: Là số lượng tài khoản ngân hàng của khách hàng.
Num_Credit_Card: Là số lượng thẻ tín dụng của khách hàng.
Num_of_Loan: Là một thuật ngữ trong lĩnh vực tài chính và vay mượn. Nó biểu
thị số lượng các khoản vay hoặc các hợp đồng vay mà một cá nhân
Type_of_Loan: Là loại hình vay mượn hoặc hợp đồng vay khách hàng đang sử
dụng.
Delay_from_due_date: Là thời gian trễ hạn khoản vay của khách hàng đó.
Num_of_Delayed_Payment: Là số lượng các khoản vay trễ hạn thanh toán của
khách hàng đó
Changed_Credit_Limit: Là sự thay đổi giới hạn tín dụng trong một tài khoản tín
dụng hoặc thẻ tín dụng.
Num_Credit_Inquiries: Là số lượng yêu cầu thông tin tín dụng được thực hiện
trên một tài khoản tín dụng.
Credit_Mix: Là sự đa dạng của loại hình tín dụng mà một người sử dụng tài
khoản tín dụng sở hữu. Nó bao gồm các loại hình tín dụng như thẻ tín dụng, vay
ngân hàng, vay mua nhà, vay mua ô tô và các loại tín dụng khác. Một sự pha
trộn tín dụng đa dạng có thể được coi là tích cực vì nó cho thấy khả năng quản
lý và sử dụng các loại hình tín dụng khác nhau.
7
Outstanding_Debt: Đây là số tiền còn nợ mà một người hoặc một tổ chức cần
phải thanh toán dựa trên các khoản vay hoặc các khoản nợ hiện tại.
Credit_Utilization_Ratio: Đây là tỷ lệ giữa tổng số tiền được sử dụng trong tài
khoản tín dụng so với tổng giới hạn tín dụng có sẵn. Nó thường được tính bằng
cách chia số dư tín dụng sử dụng cho tổng giới hạn tín dụng và được biểu thị
dưới dạng phần trăm. Tỷ lệ sử dụng tín dụng cao có thể ảnh hưởng tiêu cực đến
điểm tín dụng của một người.
Credit_History_Age: Đây là thời gian kể từ khi tài khoản tín dụng được mở
hoặc từ khi ghi nhận lịch sử tín dụng đầu tiên của một người. Một lịch sử tín
dụng dài có thể có tác động tích cực đến điểm tín dụng, vì nó cho thấy sự ổn
định và kinh nghiệm trong việc quản lý tín dụng.
Payment_of_Min_Amount: Đây là số tiền tối thiểu mà một người hoặc một tổ
chức phải trả hàng tháng đối với một khoản vay hoặc một khoản nợ cụ thể. Việc
thanh toán ít hơn số tiền tối thiểu có thể có hậu quả tiêu cực, bao gồm phí phạt
và tác động đến điểm tín dụng.
Total_EMI_per_month: Đây là tổng số tiền mà một người hoặc một tổ chức
phải trả hàng tháng cho tất cả các khoản vay hoặc các khoản trả góp mà họ có.
Amount_invested_monthly: Đây là số tiền mà một người hoặc một tổ chức đầu
tư hàng tháng vào các khoản đầu tư, bất động sản hoặc các cơ hội tài chính
khác.
Payment_Behaviour: Đây là cách mà một người hoặc một tổ chức thực hiện các
khoản thanh toán trên các khoản vay hoặc các khoản nợ. Nó bao gồm việc đúng
hạn thanh toán, trễ hạn thanh toán, thiếu tiền và các hành vi thanh toán khác.
Monthly_Balance: Đây là số dư tài khoản hoặc số tiền còn lại trong tài khoản
hàng tháng sau khi đã trừ các khoản chi tiêu và các khoản thanh toán.
Dựa trên các giá trị đầu vào để vẽ biểu đồ đếm đơn giản, kết quả vẽ ra là
một biểu đồ cột với trục x là “Credit_Score” và y là số lượng mẫu tương ứng
với từng nhãn
8
Hình 2.2 biểu đồ thể hiện giá trị
3. Phân tích dữ liệu khám phá
3.1 Tiền xử lý dữ liệu
Trước khi áp dụng các thuật toán khai phá dữ liệu, quá trình tiền xử lý dữ
liệu là một bước quan trọng nhằm đảm bảo dữ liệu được sạch, chuẩn hóa và
đồng nhất. Các bước tiền xử lý dữ liệu thường bao gồm các bước như sau:
Lọc dữ liệu: Loại bỏ các khách hàng, các khách hàng không có thông tin
hoặc thông tin ảo không hợp lệ
Xử lí giá trị bị khuyết: Kiểm tra và xử lý các giá trị bị khuyết trong dữ
liệu credit score. Tuy nhiên, trong bộ dữ liệu credit score không có các giá trị bị
khuyết, vì vậy bước này không cần thiết.
Rút trích đặc trưng: Dựa vào các thuộc tính Annual_Income,
Monthly_Inhand_Salary, Num_Bank_Accounts, Num_Credit_Card,
Num_of_Loan, Outstanding Debt, Num of Delayed Payment để đánh giá khả
năng thanh toán và độ tin cậy của khách hàng, từ đó xác định điểm tín dụng của
họ.
Chuẩn hóa dữ liệu: Chuẩn hóa dữ liệu credit score để đảm bảo dữ liệu
đồng nhất và có thể áp dụng các thuật toán khai phá dữ liệu. Các phương pháp
chuẩn hóa dữ liệu bao gồm việc chuyển đổi dữ liệu về dạng số, chuyển đổi về
đơn vị đo chuẩn, vv.
9
3.2 Khám phá dữ liệu
3.2.1 Phân tích đa biến
Hình 3.1 Ma trận tương quan

3.2.2 Phân tích đơn biến
Bước phân tích đơn biến là quá trình khám phá các thuộc tính một cách
độc lập và tìm hiểu thông tin cơ bản về chúng. Bằng cách sử dụng các kỹ thuật
như biểu đồ tần suất, biểu đồ đường và biểu đồ box-plot, ta có thể tìm ra thông
tin cơ bản về phân bố, giá trị trung bình, giá trị tối thiểu và tối đa của các thuộc
tính
10
Hình 3.2 biểu đồ kernel destiny plot của dữ liệu num_bank_accounts
11
Hình 3.3 biểu đồ kernel destiny plot của dữ liệu num_of_loan
3.2.3 Phân tích đa biến

Phân tích đa biến trong việc phân loại điểm tín dụng là một phương pháp
phân tích dữ liệu để hiểu mối quan hệ giữa nhiều biến độc lập và biến phụ thuộc
trong bài toán phân loại điểm tín dụng.
Phân tích đa biến giúp ta có cái nhìn tổng quan về sự tương quan, tương
tác và ảnh hưởng của các biến độc lập đến biến phụ thuộc. Điều này có thể giúp
xác định những biến quan trọng và có tác động đáng kể đến kết quả phân loại
điểm tín dụng.
Các phương pháp phân tích đa biến trong bài toán phân loại điểm tín
dụng bao gồm:
Ma trận tương quan: Đánh giá mối quan hệ tuyến tính giữa các biến bằng cách
tính toán ma trận tương quan.
Hình 3.4 biểu đồ histogramcủa dữ liệu
12
Biểu đồ hộp (boxplot): Hiển thị phân phối và giá trị cực đại, cực tiểu, giá trị
trung vị của các biến theo từng nhãn phân loại.
Hình 3.5 biểu đồ boxplot của dữ liệu
4. Khai phá dữ liệu

4.1 Câu hỏi về dữ liệu
Yếu tố có thể giúp xác định khách hàng có điểm tín dụng cao?
1. Thu nhập hàng năm của khách hàng: Liên quan đến mức thu nhập của
khách hàng, có thể xác định khả năng khách hàng thanh toán các
khoản vay và nợ.
2. Lịch sử tín dụng: Xem xét lịch sử tín dụng của khách hàng, bao gồm
việc trả nợ đúng hạn và số lần vi phạm.
3. Số lượng tài khoản ngân hàng: Số lượng tài khoản ngân hàng của
khách hàng có thể phản ánh sự ổn định tài chính và quy mô hoạt động
tài chính của khách hàng.
4. Số lượng thẻ tín dụng: Số lượng thẻ tín dụng mà khách hàng sở hữu
có thể cho thấy mức độ tín dụng và khả năng quản lý tài chính.
5. Tỷ lệ sử dụng tín dụng: Tỷ lệ giữa số dư tín dụng được sử dụng và
tổng giới hạn tín dụng có thể phản ánh khả năng khách hàng sử dụng
tín dụng một cách hợp lý và có trách nhiệm.
6. Tuổi của khách hàng: Tuổi tác của khách hàng có thể ảnh hưởng đến
điểm tín dụng, vì người có tuổi trẻ hơn có thể có ít lịch sử tín dụng
hơn.
13
7. Nghề nghiệp: Nghề nghiệp của khách hàng có thể cho thấy khả năng
tài chính và ổn định công việc.
8. Số lần điều tra tín dụng: Số lần khách hàng được điều tra tín dụng có
thể ảnh hưởng đến điểm tín dụng, vì nhiều lần điều tra có thể cho thấy
khách hàng có nhu cầu tài chính lớn.
9. Tổng số khoản vay hiện tại: Số lượng và tổng giá trị các khoản vay
hiện tại của khách hàng có thể ảnh hưởng đến khả năng khách hàng
trả nợ và quản lý tài chính.
10. Hành vi thanh toán: Quan sát hành vi thanh toán của khách hàng, bao
gồm việc trả nợ đúng hạn, trễ hạn hoặc không trả nợ, để đánh giá khả
năng và độ tin cậy của khách hàng trong việc thanh toán.
Thuật toán máy học nào phổ biến hơn cho việc phân loại điểm tín dụng
khách hàng?
Có nhiều thuật toán máy học phổ biến được sử dụng để phân loại điểm tín
dụng khách hàng. Dưới đây là một số thuật toán máy học phổ biến được áp
dụng trong việc phân loại điểm tín dụng:
Logistic Regression (Hồi quy logistic): Đây là một thuật toán phân loại
cơ bản, dùng để dự đoán xác suất thuộc vào một nhóm dựa trên các biến đầu
vào.
Decision Tree (Cây quyết định): Một thuật toán phân loại dựa trên việc
xây dựng một cây quyết định tương tự như quy trình ra quyết định trong thực tế.
Random Forest: Một thuật toán phân loại dựa trên việc xây dựng nhiều
cây quyết định (decision trees) và kết hợp kết quả từ các cây để đưa ra dự đoán
cuối cùng.
Support Vector Machine (SVM): Thuật toán này tìm một siêu phẳng
(hyperplane) để phân tách các điểm dữ liệu thuộc các lớp khác nhau trong
không gian đặc trưng.
Nhưng thuật toán phổ biến nhất là Random Forest (Rừng ngẫu nhiên).
Thuật toán này thường được ưu tiên sử dụng bởi các nhà phân tích dữ liệu và
các chuyên gia trong ngành tài chính vì những lợi ích sau:
Độ chính xác cao: Random Forest có khả năng xử lý dữ liệu phức tạp và
đưa ra dự đoán chính xác. Bằng cách kết hợp dự đoán từ nhiều cây quyết định,
thuật toán có khả năng giảm hiện tượng overfitting và đưa ra kết quả tốt trên tập
dữ liệu kiểm tra.
Khả năng xử lý dữ liệu lớn: Random Forest có thể xử lý tập dữ liệu lớn
mà không cần quá nhiều xử lý trước. Thuật toán cũng có khả năng xử lý các
biến đầu vào có kiểu dữ liệu khác nhau.
Độ ổn định: Random Forest có khả năng ổn định cao đối với các thay đổi
trong dữ liệu đầu vào. Điều này đảm bảo rằng thuật toán sẽ cho ra kết quả nhất
quán và đáng tin cậy khi được áp dụng lên các tập dữ liệu mới.
Đánh giá mức độ quan trọng của biến: Random Forest cung cấp thông tin
về mức độ quan trọng của các biến đầu vào trong quá trình phân loại. Điều này
giúp hiểu rõ hơn về vai trò của các yếu tố trong việc xác định điểm tín dụng.
14
4.2 Thuật toán Logistic regresstion (Hồi quy logistic)
Logistic Regression là một thuật toán phân loại trong machine learning,
được sử dụng để dự đoán kết quả của một biến phụ thuộc rời rạc dựa trên các
biến độc lập. Nó là một mô hình tuyến tính với hàm sigmoid để tính toán xác
suất dự đoán.
Ưu điểm:
Thuật toán đơn giản, dễ hiểu và thực thi.
Tốc độ huấn luyện nhanh và có khả năng xử lý các tập dữ liệu lớn.
Tính linh hoạt trong việc điều chỉnh độ phức tạp của mô hình thông qua
sự thêm hoặc bớt biến độc lập.
Có khả năng giải thích được quá trình dự đoán của mô hình.
Nhược điểm:
Logistic Regression dựa trên giả định về tính đồng nhất của phương sai
và phân phối chuẩn của biến độc lập. Nếu giả định này không đúng, kết quả dự
đoán của mô hình sẽ không chính xác.
Logistic Regression yêu cầu dữ liệu đầu vào phải được chuẩn hóa và các
giá trị ngoại lai phải được xử lý trước khi huấn luyện mô hình.
Logistic Regression không phù hợp cho các bài toán phân loại với đa lớp hoặc
đa nhãn.
4.3 Thuật toán Decision tree (Cây quyết định)
Định nghĩa: K-Nearest Neighbors (KNN) là một thuật toán phân loại
trong Machine Learning, dựa trên nguyên lý rằng các điểm dữ liệu có thuộc tính
tương tự sẽ có nhãn tương tự. KNN dựa trên việc tính toán khoảng cách giữa
các điểm dữ liệu và sử dụng kết quả này để xác định lớp phân loại của điểm dữ
liệu mới dựa trên kết quả của k điểm dữ liệu gần nhất.
Ưu điểm của K-Nearest Neighbors (KNN):
Dễ hiểu và triển khai: KNN là một thuật toán đơn giản và dễ hiểu. Nó
không yêu cầu giả định phân phối dữ liệu và không có quá nhiều tham số cần
được đặt.
Khả năng phân loại đa lớp: KNN có khả năng xử lý các bài toán phân loại
đa lớp bằng cách áp dụng nguyên tắc phiếu đa số hoặc bỏ phiếu từ k điểm láng
giềng gần nhất.
Tính linh hoạt: KNN có thể áp dụng cho cả bài toán phân loại và bài toán
dự đoán, và nó không yêu cầu quá nhiều giả định về dữ liệu.
Nhược điểm của K-Nearest Neighbors (KNN):
Độ phức tạp tính toán: KNN yêu cầu tính toán khoảng cách giữa điểm dữ
liệu mới và tất cả các điểm trong tập huấn luyện. Điều này có thể làm tăng đáng
kể thời gian tính toán đối với tập dữ liệu lớn.
Yêu cầu lựa chọn tham số k: KNN yêu cầu lựa chọn giá trị k, tức là số
lượng điểm láng giềng gần nhất được sử dụng để xác định lớp phân loại. Lựa
chọn sai giá trị k có thể ảnh hưởng đến hiệu suất của mô hình.
15
Nhạy cảm với dữ liệu nhiễu: KNN có thể nhạy cảm với các điểm dữ liệu
nhiễu hoặc các giá trị ngoại lai, vì nó dựa trên khoảng cách giữa các điểm dữ
liệu. Điều này có thể ảnh hưởng đến độ chính xác của mô hình.
4.4 Random Forest (Rừng ngẫu nhiên)
Random Forest là một thuật toán học máy được xây dựng dựa trên ý
tưởng của cây quyết định. Nó tạo ra một tập hợp các cây quyết định ngẫu nhiên
và kết hợp kết quả từ các cây để đưa ra dự đoán cuối cùng.
Ưu điểm của Random Forest:
Độ chính xác cao: Random Forest có khả năng xử lý dữ liệu phức tạp và
đưa ra dự đoán chính xác. Bằng cách kết hợp dự đoán từ nhiều cây quyết định,
nó có khả năng giảm hiện tượng overfitting và đưa ra kết quả tốt trên tập dữ liệu
kiểm tra.
Xử lý dữ liệu lớn: Random Forest có thể xử lý tập dữ liệu lớn mà không
cần quá nhiều xử lý trước. Nó cũng có khả năng xử lý các biến đầu vào có kiểu
dữ liệu khác nhau.
Ổn định: Random Forest có khả năng ổn định cao đối với các thay đổi
trong dữ liệu đầu vào. Điều này đảm bảo rằng thuật toán sẽ cho ra kết quả nhất
quán và đáng tin cậy khi được áp dụng lên các tập dữ liệu mới.
Đánh giá mức độ quan trọng của biến: Random Forest cung cấp thông tin
về mức độ quan trọng của các biến đầu vào trong quá trình phân loại. Điều này
giúp hiểu rõ hơn về vai trò của các yếu tố trong việc xác định điểm tín dụng.
Nhược điểm của Random Forest:
Khả năng hiểu dễ bị hạn chế: Do Random Forest sử dụng nhiều cây quyết
định, việc hiểu và giải thích quyết định của mô hình có thể trở nên khó khăn.
Tính phức tạp tính toán: Random Forest yêu cầu tính toán phức tạp và tốn
nhiều tài nguyên tính toán hơn so với một số thuật toán phân loại khác.
Cần đặt tham số: Random Forest có một số tham số cần được đặt, như số
lượng cây, độ sâu cây, số lượng biến đặc trưng được chọn ngẫu nhiên, vv. Việc
lựa chọn các tham số này có thể ảnh hưởng đến hiệu suất của mô hình.
4.5 Decision Tree (Cây quyết định)
Định nghĩa: Decision Tree là một thuật toán học máy sử dụng cấu trúc
cây để đưa ra dự đoán dựa trên việc phân loại các mẫu dữ liệu thông qua các
quyết định tại các nút trong cây.
Ưu điểm của Decision Tree:
Dễ hiểu và giải thích: Decision Tree tạo ra một mô hình dễ hiểu và giải
thích, giúp người dùng có cái nhìn rõ ràng về quá trình ra quyết định của thuật
toán.
Xử lý dữ liệu phi nhị phân và không gian đặc trưng lớn: Decision Tree có
khả năng xử lý dữ liệu phi nhị phân và dữ liệu có không gian đặc trưng lớn mà
không cần quá nhiều xử lý trước.
Tính linh hoạt: Decision Tree có khả năng xử lý dữ liệu có dạng dữ liệu
hỗn hợp (số và danh mục) và có thể được sử dụng cho cả bài toán phân loại và
dự đoán.
16
Nhược điểm của Decision Tree:
Dễ bị overfitting: Decision Tree có xu hướng tạo ra mô hình phức tạp và
dễ bị overfitting trên dữ liệu huấn luyện. Điều này có thể dẫn đến hiệu suất kém
trên dữ liệu kiểm tra.
Không ổn định: Decision Tree có thể rất nhạy cảm với những thay đổi
nhỏ trong dữ liệu đầu vào, dẫn đến sự không ổn định trong quá trình dự đoán.5.
Đánh giá và chọn thuật toán
Áp dụng các thuật toán vô dữ liệu để phân tích và đưa ra các kết quả để
so sánh đưa ra thuật toán tốt nhất như:
5.Kết quả của từng thuật toán
5.1 Logistic regression
17
Hình 5.1: Kết quả train với thuật toán Logistic regression
18
5.2 Decision tree
Hình 5.2 Kết quả train với thuật toán Thuật toán Decision tree
19
5.3 K-Nearest Neighbors (KNN):
Hình 5.3 Kết quả train với thuật toán K-Nearest Neighbors (KNN):
20
5.4 Random Forest (Rừng ngẫu nhiên)
Hình 5.4 Kết quả train với thuật toán Random Forest (Rừng ngẫu nhiên)
5.5 So sánh kết quả
21
model name f1 score accuracy roc_auc
0 LR 0.668734 0.663665 0.819019
1 KNN 0.749034 0.749941 0.893650
2 DT 0.691376 0.690737 0.840994
3 RF 0.843103 0.842985 0.958624
Bảng 5.1: So sánh kết quả train của các thuật toán
Dựa trên bảng kết quả đánh giá hiệu suất của các mô hình, ta có các kết quả như
sau:
Dựa trên các kết quả này, mô hình RF (Random Forest) có F1 score cao
nhất (0.843103), accuracy cao nhất (0.842985), và ROC AUC cao nhất
(0.958624). Vì vậy, từ bảng này, có thể kết luận rằng mô hình Random Forest
(RF) là loại tốt nhất trong số các mô hình được đánh giá.
6. Kết quả và thảo luận

Đánh giá kết quả
Điểm f1 của thuật toán RF (Random Forest) là 0.843103
Độ chính xác là 0.958624
7. Kết luận
Trong bài báo cáo này, các mô hình phân loại Credit Score đã được sử
dụng để dự đoán và phân loại khách hàng dựa trên điểm tín dụng. Bốn mô hình
phân loại được áp dụng là Logistic Regression, K-Nearest Neighbors (KNN),
Random Forest và Decision tree.
Qua quá trình thực hiện, các mô hình đã được huấn luyện và đánh giá
bằng các chỉ số đánh giá như độ chính xác, độ nhạy và F1-score. Kết quả cho
thấy cả bốn mô hình đều có hiệu suất khá tốt trong việc phân loại điểm tín dụng.
Mô hình Logistic Regression (LR) đạt được f1-score khoảng 0.67 và độ
chính xác xấp xỉ 0.66. Điểm ROC AUC đạt khoảng 0.82.Mô hình K-Nearest
Neighbors (KNN) có hiệu suất tương đương với Logistic Regression, với f1-
score khoảng 0.75 và độ chính xác xấp xỉ 0.75. Điểm ROC AUC đạt khoảng
0.89.Mô hình Decision Tree (DT) đạt được f1-score khoảng 0.69 và độ chính
22
xác xấp xỉ 0.69. Điểm ROC AUC đạt khoảng 0.84.Mô hình Random Forest
(RF) có hiệu suất cao nhất, với f1-score đạt khoảng 0.84 và độ chính xác xấp xỉ
0.84. Điểm ROC AUC đạt khoảng 0.96.
Tuy nhiên, cần lưu ý rằng việc phân loại điểm tín dụng là một vấn đề
phức tạp và các kết quả này chỉ là một phần trong quá trình đánh giá. Các kết
quả có thể thay đổi tùy thuộc vào tập dữ liệu, các biến đầu vào và các tham số
của mô hình.
Trong tương lai, có thể cải thiện hiệu suất của các mô hình bằng cách
tăng cường dữ liệu, tinh chỉnh tham số và sử dụng các phương pháp tối ưu hóa
khác. Đồng thời, việc nghiên cứu và tích hợp các biến đầu vào mới có thể giúp
cải thiện độ chính xác của các mô hình phân loại.
Tóm lại, bài báo cáo này đã trình bày và so sánh hiệu suất của các mô
hình phân loại Credit Score trong việc dự đoán điểm tín dụng của khách hàng.
Các kết quả cho thấy mô hình Random Forest có hiệu suất tốt nhất trong số các
mô hình được áp dụng. Tuy nhiên, cần tiếp tục nghiên cứu và cải thiện để đảm
bảo tính chính xác và ổn định của các mô hình trong các tình huống thực tế.
23
Tài liệu tham khảo
1. Chung Pham Van: Logistic Regression - Bài toán cơ bản trong Machine
Learning. Truy cập tại: https://viblo.asia/p/logistic-regression-bai-toan-
co-ban-trong-machine-learning-924lJ4rzKPM. [Ngày truy cập:
18/04/2023]
2. ÖMER KAAN VURAL: Credit Score Classification - 5 Models, 84% F1.
Truy cập tại: https://www.kaggle.com/code/kaanvural/credit-score-
classification-5-models-84-f1. [Ngày truy cập: 12/04/2023]
3. Nguyen Thi Hop: Decision Tree. Truy cập tại:
https://viblo.asia/p/decision-tree-Do754bbBZM6. [Ngày truy cập:
19/04/2023]
4. Chivorn Kouch: Machine Learning with Random Forest Algorithm. Truy
cập tại: https://viblo.asia/p/machine-learning-with-random-forest-
algorithm-Az45bAdglxY. [Ngày truy cập: 25/04/2023]
5. Nguyen Thi Hop: KNN (K-Nearest Neighbors). Truy cập tại:
https://viblo.asia/p/knn-k-nearest-neighbors-1-djeZ14ejKWz. [Ngày truy
cập: 28/04/2023]
24

DCT119C3 - 3119411089 - VoVanTu - Tú Văn

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

DCT119C3 - 3119411089 - VoVanTu - Tú Văn

Uploaded by

Copyright:

Available Formats

TRƯỜNG ĐẠI HỌC SÀI GÒN

KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO BÀI TẬP LỚN

KHAI PHÁ DỮ LIỆU

Giảng viên hướng dẫn : TH.S Nguyễn Vũ Thành Sang

Thành phố Hồ Chí Minh, tháng 05 năm 2023

Hình 3.1 Ma trận tương quan

3.2.3 Phân tích đa biến

Hình 3.4 biểu đồ histogramcủa dữ liệu

Hình 3.5 biểu đồ boxplot của dữ liệu

4. Khai phá dữ liệu

5.Kết quả của từng thuật toán

5.1 Logistic regression

0 LR 0.668734 0.663665 0.819019

1 KNN 0.749034 0.749941 0.893650

2 DT 0.691376 0.690737 0.840994

3 RF 0.843103 0.842985 0.958624

6. Kết quả và thảo luận

You might also like