Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 54

ĐẠI HỌC UEH

TRƯỜNG KINH DOANH


KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

TIỂU LUẬN
MÔN: KHOA HỌC DỮ LIỆU
ĐỀ TÀI: PHÂN TÍCH NHÓM ĐỐI TƯỢNG CHẤP NHẬN KHOẢN
VAY CÁ NHÂN CỦA THERA BANK DỰA TRÊN CÁC CÔNG CỤ
KHOA HỌC DỮ LIỆU CỦA PHẦN MỀM ORANGE

Giảng viên: Trương Việt Phương


Mã LHP: 24D1INF50905918
Nhóm sinh viên thực hiện:
 Đoàn Gia Hân
 Lê Thị Quỳnh Hoa
 Trần Hải Dương

Hồ Chí Minh, ngày 07 tháng 06 năm 2024 1


BẢNG PHÂN CÔNG VIỆC NHÓM
STT Họ và Tên MSSV Nhiệm vụ
 Tìm bộ dữ liệu
 Xử lý dữ liệu trên Orange
 Thực hiện các kết quả Excel
 Mô tả dữ liệu
1 Đoàn Gia Hân 31221025808  Trình bày và nhận xét các kết quả
nghiên cứu mô hình
 Tổng hợp nội dung bài tiểu luận
 Tổng hợp nội dung thuyết trình
 Thiết kế Slides
 Cơ sở lý thuyết
2 Lê Thị Quỳnh Hoa 31221021550  Trình bày kết luận
 Soạn nội dung thuyết trình
 Cơ sở lý thuyết
3 Trần Hải Dương 31221021851  Trình bày kết luận
 Thiết kế Slides

2
LỜI CẢM ƠN
Để hoàn thành tiểu luận này, em xin gửi lời chân thành đến:
Giảng viên bộ môn Khoa học Dữ liệu – Thầy Trương Việt Phương đã
giảng dạy tận tình, nhiệt tình và chi tiết để chúng em có kiến thức và vận
dụng chúng vào bài tiểu luận này.
Ban giám hiệu Đại học UEH vì đã tạo điều kiện về cơ sở vật chất với hệ
thống thư viên hiện đại, tài liệu thuận lợi cho việc tìm kiếm, nguyên cứu
thông tin.
Do chưa có nhiều kinh nghiệm làm đề tài cũng như những hạn chế về
kiến thức, trong bài tiểu luận chắc chắn sẽ không tránh khỏi những thiếu sót.
Rất mong nhận được sự nhận xét, ý kiến đóng góp, phê bình từ phía thầy để
bài tiểu luận được hoàn thiện hơn.
Lời cuối cùng, em xin kính chúc thầy nhiều sức khỏe, thành công và
hạnh phúc.

3
MỤC LỤC
Chương 1: Tổng quan về Khoa học dữ liệu và đề tài nghiên cứu................................9
1.1. Giới thiệu về Khoa học dữ liệu................................................................................9
1.2. Lý do chọn đề tài....................................................................................................10
1.3. Mục tiêu nghiên cứu...............................................................................................10
1.4. Phương pháp nghiên cứu........................................................................................10
Chương 2: Tổng quan về quá trình sử dụng và các phương pháp sử dụng.............11
2.1. Tổng quan về phần mềm Orange...........................................................................11
2.2. Tổng quan về các phương pháp sử dụng................................................................11
2.2.1. Tiền xử lý dữ liệu (Data Preprocessing).........................................................11
2.2.2. Phân lớp dữ liệu..............................................................................................13
2.2.3. Phân cụm dữ liệu.............................................................................................16
Chương 3: Mô hình nghiên cứu đề xuất......................................................................21
Chương 4: Kết quả thực hiện mô hình.........................................................................21
4.1. Tiền xử lý dữ liệu...................................................................................................21
4.1.1. Role của các thuộc tính...................................................................................21
4.1.2. Thống kê mô tả................................................................................................22
4.1.3. Loại bỏ các thuộc tính không ảnh hưởng đến biến phụ thuộc.........................24
4.1.4. Trích dữ liệu cho bộ dữ liệu Dự báo...............................................................26
4.2. Phân cụm dữ liệu....................................................................................................28
4.2.1. Phương pháp Hierarchical Clustering:...........................................................29
4.2.2. Phương pháp k-Means:...................................................................................32
4.3. So sánh với nhãn ban đầu.......................................................................................35
4.3.1. Phương pháp Hierarchical Clustering:...........................................................37
4.3.2. Phương pháp k-Means:...................................................................................40
4.4. Phân lớp dữ liệu.....................................................................................................43

4
4.4.1. Xây dựng mô hình phân lớp.............................................................................43
4.4.2. Các phương pháp đánh giá mô hình...............................................................45
4.5. Kết luận..................................................................................................................50
4.6. Dự báo....................................................................................................................50
Chương 5: Kết luận và Đề xuất.....................................................................................53
TÀI LIỆU THAM KHẢO.............................................................................................53

5
DANH MỤC HÌNH ẢNH
Hình 2.2.2.3. Ma trận nhầm lẫn (Confusion matrix)

Hình 2.2.3. Phân cụm dữ liệu

Hình 2.2.3.2.c. Phương pháp K- means

Hình 4.1.1.a. Dữ liệu đầu vào

Hình 4.1.1.b. Bảng dữ liệu đầu vào

Hình 4.1.2. Kết quả thống kê mô tả của các biến

Hình 4.1.3.a. Kết quả khi sử dụng công cụ Rank

Hình 4.1.3.b. Kết quả khi sử dụng công cụ Select Columns

Hình 4.1.3.c. Data Sampler của Bộ Tiền xử lý dữ liệu

Hình 4.1.3.d. Quy trình thực hiện Tiền xử lý dữ liệu

Hình 4.1.4.a. Dữ liệu đầu vào

Hình 4.1.4.b. Data Sampler của Forecast Data

Hình 4.1.4.c. Quy trình trích dữ liệu Forecast

Hình 4.2.a. Dữ liệu đầu vào

Hình 4.2.b. Quy trình thực hiện Tiền xử lý dữ liệu

Hình 4.2.1.a. Kết quả phân cấp

Hình 4.2.1.b. Bảng Silhouette Plot cho 2 phân cụm phân cấp

Hình 4.2.1.c. Bảng kết quả khi sử dụng phương pháp Hierarchical clustering

Hình 4.2.2.a. Bảng phân tích k-Means cho bộ dữ liệu

Hình 4.2.2.b. Bảng Silhouette Plot cho 2 phân cụm phân hoạch

Hình 4.2.2.c. Bảng kết quả khi sử dụng phương pháp k-Means

6
Hình 4.3.a. Dữ liệu đầu vào

Hình 4.3.b. Bảng dữ liệu sau khi gộp với bảng kết quả phân cụm bằng Hierarchical
Clustering

Hình 4.3.c. Bảng dữ liệu sau khi gộp với bảng kết quả phân cụm bằng k-Means

Hình 4.3.d. Quá trình thực hiện gộp dữ liệu

Hình 4.3.1.a. Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có

Hình 4.3.1.b. Thay giá trị cho kết quả đã phân cụm

Hình 4.3.1.c. So sánh giữa dữ liệu phân cụm và nhãn hiện có

Hình 4.3.1.d. Kết quả sau khi so sánh

Hình 4.3.1.e. Bảng hiển thị kết quả so sánh với nhãn hiện có

Hình 4.3.2.a. Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có

Hình 4.3.2.b. Thay giá trị cho kết quả đã phân cụm

Hình 4.3.2.c. So sánh giữa dữ liệu phân cụm và nhãn hiện có

Hình 4.3.2.d. Kết quả sau khi so sánh

Hình 4.3.2.e. Bảng hiển thị kết quả so sánh với nhãn hiện có

Hình 4.4.1.a. Dữ liệu đầu vào để thực hiện phân lớp dữ liệu

Hình 4.4.1.b. Quy trình thực hiện phân lớp dữ liệu

Hình 4.4.2.1.a. Kết quả chi mẫu dữ liệu thành 5 phần

Hình 4.4.2.1.b. Kết quả chi mẫu dữ liệu thành 10 phần

Hình 4.4.2.1.c. Kết quả chia mẫu dữ liệu với tỷ lệ 10 - 66%

Hình 4.4.2.1.d. Kết quả chia mẫu dữ liệu với tỷ lệ 20 - 70%

Hình 4.4.2.2.a. Kết quả Ma trận nhầm lẫn của phương pháp Decision Tree

Hình 4.4.2.2.b. Kết quả Ma trận nhầm lẫn của phương pháp SVM

7
Hình 4.4.2.2.c. Kết quả Ma trận nhầm lẫn của phương pháp Logistic Regression

Hình 4.4.2.3. Kết quả ROC Analysis

Hình 4.6.a. Quá trình thực hiện Dự báo

Hình 4.6.b. Dữ liệu đầu vào của Forecast data

Hình 4.6.c. Kết quả Dự báo......................................

8
PHÂN TÍCH NHÓM ĐỐI TƯỢNG CHẤP NHẬN KHOẢN
VAY CÁ NHÂN CỦA THERA BANK DỰA TRÊN CÁC CÔNG
CỤ KHOA HỌC DỮ LIỆU CỦA PHẦN MỀM ORANGE
Chương 1: Tổng quan về Khoa học dữ liệu và đề tài nghiên cứu
1.1. Giới thiệu về Khoa học dữ liệu
Khoa học dữ liệu là lĩnh vực áp dụng các kỹ thuật phân tích tiên tiến và các nguyên tắc
khoa học để trích xuất thông tin có giá trị từ dữ liệu cho việc ra quyết định kinh doanh, lập kế
hoạch chiến lược và các mục đích sử dụng khác. Nó ngày càng quan trọng đối với các doanh
nghiệp: Những hiểu biết sâu sắc mà khoa học dữ liệu tạo ra giúp các tổ chức tăng hiệu quả hoạt
động, xác định các cơ hội kinh doanh mới và cải thiện các chương trình tiếp thị và bán hàng,
cùng với các lợi ích khác. Cuối cùng, chúng có thể dẫn đến lợi thế cạnh tranh so với các đối thủ
kinh doanh.
Khoa học dữ liệu kết hợp nhiều lĩnh vực khác nhau - ví dụ, kỹ thuật dữ liệu, chuẩn bị dữ
liệu, khai thác dữ liệu , phân tích dự đoán, học máy và trực quan hóa dữ liệu, cũng như thống
kê, toán học và lập trình phần mềm.
Khoa học dữ liệu đóng một vai trò quan trọng trong hầu như tất cả các khía cạnh của
hoạt động và chiến lược kinh doanh. Ví dụ, nó cung cấp thông tin về khách hàng giúp các công
ty tạo ra các chiến dịch tiếp thị mạnh mẽ hơn và quảng cáo nhắm mục tiêu để tăng doanh số
bán sản phẩm. Nó hỗ trợ trong việc quản lý rủi ro tài chính, phát hiện các giao dịch gian lận và
ngăn ngừa sự cố thiết bị trong các nhà máy sản xuất và các cơ sở công nghiệp khác. Nó giúp
chặn các cuộc tấn công mạng và các mối đe dọa bảo mật khác trong hệ thống CNTT.
Khoa học dữ liệu cũng rất quan trọng trong các lĩnh vực ngoài hoạt động kinh doanh
thông thường. Trong chăm sóc sức khỏe, các ứng dụng của nó bao gồm chẩn đoán tình trạng y
tế, phân tích hình ảnh, lập kế hoạch điều trị và nghiên cứu y tế. Các tổ chức học thuật sử dụng
khoa học dữ liệu để theo dõi kết quả hoạt động của sinh viên và cải thiện hoạt động tiếp thị của
họ tới các sinh viên tương lai. Các đội thể thao phân tích hiệu suất của người chơi và lập kế
hoạch chiến lược trò chơi thông qua khoa học dữ liệu. Các cơ quan chính phủ và các tổ chức
chính sách công cũng là những người sử dụng lớn.
9
1.2. Lý do chọn đề tài
Ngân hàng đóng vai trò quan trọng trong nền kinh tế, là trung gian tài chính, huy động
vốn từ người tiết kiệm và cho vay lại cho các cá nhân và doanh nghiệp, từ đó thúc đẩy sản xuất
và tiêu dùng. Hiện tại, ngành ngân hàng Việt Nam đang phát triển mạnh mẽ với tốc độ tăng
trưởng tín dụng ổn định và sự gia tăng ứng dụng công nghệ số, nhưng cũng đối mặt với thách
thức từ nợ xấu và cạnh tranh khốc liệt từ các ngân hàng nước ngoài và công ty fintech. Các rủi
ro của ngành ngân hàng bao gồm nợ xấu, rủi ro tín dụng, rủi ro thanh khoản và biến động kinh
tế vĩ mô. Trong bối cảnh này, việc phân tích dữ liệu từ khoa học dữ liệu đóng vai trò then chốt,
giúp ngân hàng hiểu rõ hơn về hành vi khách hàng, tối ưu hóa chiến lược tiếp thị, quản lý rủi ro
tài chính hiệu quả hơn và phát triển các sản phẩm dịch vụ mới. Phân tích dữ liệu còn hỗ trợ
việc dự báo xu hướng thị trường, cải thiện hiệu quả vận hành và cung cấp thông tin quý giá cho
các cơ quan quản lý, từ đó đảm bảo sự ổn định và phát triển bền vững của hệ thống tài chính,
góp phần quan trọng vào sự phát triển chung của nền kinh tế quốc gia. Chính vì vậy, đề tài này
là một lựa chọn lý tưởng cho tiểu luận khoa học dữ liệu bởi tính thực tế và thiết thực của nó
trong ngành ngân hàng. Nhóm đã sử dụng nguồn dữ liệu từ Kaggle (https://www.kaggle.com/)
1.3. Mục tiêu nghiên cứu
Thông qua việc phân tích đặc điểm dân số như độ tuổi, thu nhập và trình độ học vấn,...
ngân hàng có thể tùy chỉnh chiến lược tiếp thị và sản phẩm dịch vụ sao cho phù hợp với từng
đối tượng khách hàng. Đồng thời, việc dự báo khả năng sử dụng các dịch vụ như vay mua nhà,
vay cá nhân hay sử dụng thẻ tín dụng giúp tăng cường hiệu quả kinh doanh và tối ưu hóa trải
nghiệm của khách hàng. Bằng cách phân tích dữ liệu, mục đích chính của bài nghiên cứu là
sinh viên có thể tiếp cận với các khái niệm thực tiễn trong ngành ngân hàng như quản lý rủi ro,
tối ưu hóa chiến lược tiếp thị, việc này giúp họ áp dụng kiến thức từ lớp học vào thực tế và phát
triển kỹ năng phân tích và suy luận.
1.4. Phương pháp nghiên cứu
Nhóm sử dụng phần mềm Orange để tiến hành thực hiện xử lý dữ liệu, phân cụm, so
sánh với nhãn ban đầu, phân lớp dữ liệu, rồi sau đó tiến hành dự báo cho nhóm dữ liệu ngẫu
nhiên chưa phân lớp.

10
Để thực hiện phân cụm bộ dữ liệu nhóm sử dụng hai phương pháp chính là: Hierarchical
clustering và K-means.
 Đối với phương pháp Hierarchical clustering, nhóm tiến hành tính khoảng cách giữa các
phân tử bằng Distance rồi quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và
quan sát trên Silhouette Plot.
 Đối phương pháp K-means, nhóm quan sát chỉ số Silhouette trung bình khi phân dữ liệu
từ 2 đến 5 cụm sau đó chọn số cụm có chỉ số Silhouette tốt, phù hợp với số lượng biến
có sẵn trên bộ dữ liệu và quan sát trên Silhouette Plot.
Sau khi thực hiện phân cụm dữ liệu theo hai phương pháp trên, nhóm tiến hành chọn
phương pháp tốt nhất để phân cụm cho bộ dữ liệu của nhóm.
 Đối với việc phân lớp dữ liệu, nhóm chọn biến "Personal.Loan" (khoản vay cá nhân) là
biến mục tiêu.
 Tiếp theo, nhóm tiến hành phân lớp trên 3 phương pháp là Cây quyết định (Decision
Tree), SVM (Support Vector Machine) và Hồi quy Logistic (Logistic Regression).
 Sử dụng Test and Score, quan sát chỉ số AUC của từng phương pháp và cuối cùng là
quan sát trên Confused Matrix (Ma trận nhầm lẫn).
Chương 2: Tổng quan về quá trình sử dụng và các phương pháp sử dụng
2.1. Tổng quan về phần mềm Orange
Orange là một phần mềm mã nguồn mở dành cho phân tích và trực quan hóa dữ liệu,
được thiết kế để hỗ trợ các nhà khoa học dữ liệu, nhà nghiên cứu, và cả những người mới bắt
đầu trong lĩnh vực này. Phần mềm này cung cấp một môi trường trực quan, dễ sử dụng với giao
diện kéo-thả, cho phép người dùng xây dựng các quy trình phân tích dữ liệu một cách nhanh
chóng và hiệu quả mà không cần phải viết mã.
2.2. Tổng quan về các phương pháp sử dụng
2.2.1. Tiền xử lý dữ liệu (Data Preprocessing)
Tiền xử lý dữ liệu là bước quan trọng trong khai phá dữ liệu, giúp chuẩn bị dữ liệu phù
hợp nhất cho các thuật toán học máy. Tiền xử lý dữ liệu thô/ gốc thành dữ liệu có tính chất phù
hợp để có thể sử dụng thuật toán học máy. Từ đó, chất lượng của kết quả khai phá cũng được
cải thiện, hữu ích hơn; tăng hiệu suất mô hình máy học.

11
Các kỹ thuật của tiền xử lý dữ liệu gồm: Làm sạch dữ liệu (Data cleaning), Tích hợp dữ
liệu (Data integration), Chuyển đổi dữ liệu (Data transformation) và Rút gọn dữ liệu
(Dataireduction).
2.2.1.1. Làm sạch dữ liệu (Data cleaning)
Làm sạch dữ liệu là loại bỏ các nhiễu (remove noise) và hiệu chỉnh những phần dữ liệu
không nhất quán với mục đích cải thiện chất lượng dữ liệu, chuẩn bị tốt cho mô hình học máy,
giúp tăng hiệu suất mô hình máy học. Làm sạch dữ liệu bao gồm:
 Tóm tắt hóa dữ liệu: Là xác định các thuộc tính (properties) tiêu biểu của dữ liệu về xu
hướng chính (central tendency) và sự phân tán(dispersion) của dữ liệu.
 Xử lý dữ liệu bị thiếu (missing value): Là những dữ liệu không có sẵn, không đủ khi
cần sử dụng.
 Xử lý dữ liệu bị nhiễu (noisy data): bao gồm giảm thiểu nhiễu (noisy data) và nhận
diện phần tử biên (outliers).
 Xử lý dữ liệu không nhất quán: Dữ liệu được ghi nhận khác nhau cho cùng một đối
tượng hay thực thể (VN, Việt Nam, Vietnamese); hay không phản ánh đúng ngữ nghĩa
cho các đối tượng/ thực thể (ràng buộc khóa ngoại).
2.2.1.2. Tích hợp dữ liệu (Data integration)
Tích hợp dữ liệu là trộn dữ liệu (merge data) từ nhiều nguồn khác nhau vào một kho dữ
liệu. Các vấn đề cần xử lý bao gồm:
 Vấn đề nhận dạng thực thể: Các thực thể (object/ entity/ attribute) đến từ nhiều nguồn
dữ liệu hoặc hai hay nhiều thực thể khác nhau diễn tả cùng một thực thể thực.
 Vấn đề dư thừa: Là việc giá trị của một thuộc tính có thể được dẫn ra tính từ một nhiều
thuộc tính khác nhau, vấn đề trùng lắp dữ liệu
 Vấn đề mâu thuẫn giá trị dữ liệu: Là việc cho cùng một thực thể thật, các giá trị thuộc
tính đến từ các nguồn dữ liệu khác nhau có thể khác nhau về biểu diễn, đo lường và mã
hóa.
2.2.1.3. Chuyển đổi dữ liệu (Data transformation)
Chuyển đổi dữ liệu hay còn gọi là chuẩn hóa dữ liệu, gồm: làm trơn, kết hợp, tổng quát
hóa, chuẩn hóa dữ liệu và xây dựng thuộc tính

12
 Làm trơn dữ liệu: Có thể sử dụng các phương pháp binning (bin means, bin medians,
bin boundaries); hồi quy; các kỹ thuật gom cụm (phân tích phần tử biên); các phương rời
rạc hóa dữ liệu
 Kết hợp dữ liệu: Sử dụng các tác vụ kết hợp/ tóm tắt dữ liệu, chuyển dữ liệu ở mức chi
tiết này sang dữ liệu ở mức kém chi tiết hơn. Từ đó có thể hỗ trợ việc phân tích dư dữ
liệu ở nhiều độ min thời gian khác nhau.
 Tổng quát hóa: Là chuyển đổi dữ liệu cấp thấp/ nguyên tố/ thô sang các khái niệm ở
mức cao hơn thông qua các phân cấp ý niệm
 Chuẩn hóa dữ liệu: Có các phương pháp như: min-max normalization, z-score
normalization, normalization by scaling -> Các giá trị thuộc tính được chuyển đổi vào
một miền trị nhất định được đinhj nghĩa trước
 Xây dựng thuộc tính: Các thuộc tính mới được xây dựng và thêm vào từ tập các thuộc
tính có sẵn. Hỗ trợ kiểm tra tính chính xác và giúp hiểu cấu trúc của dữ liệu nhiều chiều.
Ngoài ra còn hỗ trợ phát hiện thông tin thiếu sót về các mối quan hệ giữa các thuộc tính
dữ liệu
2.2.1.4. Rút gọn dữ liệu (Dataireduction)
Rút gọn dữ liệu là thu giảm kích thước dữ liệu (giảm số phân tử) bằng cách kết hợp dữ
liệu, loại bỏ các đặc điểm dư thừa, gom cụm dữ liệu. Bao gồm: Kết hợp khối dữ liệu, Chọn tập
con các thuộc tính, Thu giảm chiều, Thu giảm lượng, Tạo phân cấp ý niệm và Rời rạc hóa
2.2.2. Phân lớp dữ liệu
Quá trình “phân lớp dữ liệu” chính là quá trình gán nhãn cho đối tượng dữ liệu. Đây là
quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô
hình phân lớp. Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó
với mục đích dự đoán được tên lớp của những phần tử mới dựa vào những đặc điểm của nó.
Như vậy, nhiệm vụ của bài toán phân lớp dữ liệu là cần xây dựng mô hình (bộ) phân lớp
để khi có một dữ liệu mới vào thì mô hình phân lớp sẽ cho biết dữ liệu đó thuộc lớp nào. Có
nhiều bài toán phân lớp dữ liệu, như phân lớp nhị phân, phân lớp đa lớp, phân lớp đa trị, ...
2.2.2.1. Quá trình phân lớp dữ liệu
Bước 1: Xây dựng mô hình ( giai đoạn “học” / “huấn luyện” )

13
 Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xử lý có cấu trúc được mô tả
bằng các thuộc tính và được tạo ra bằng các tập có bộ giá trị của các thuộc tính đó
 Dữ liệu đầu ra: là mô hình phân lớp đã được huấn luyện thông qua các thuật toán phân
lớp: cây quyết định, …
Bước 2: Sử dụng mô hình
 Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình): Nếu độ chính xác của mô hình
được ước lượng dựa trên tập dữ liệu đào tạo thì kết quả thu được là rất khả quan vì mô
hình luôn có xu hướng “quá vừa” dữ liệu.
 Phân lớp dữ liệu mới: Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu
này dựa vào những gì được huấn luyện.
2.2.2.2. Một số phương pháp phân lớp dữ liệu
Hồi quy Logistic (Logistic Regression): Mục đích của hồi qui Logistic là tìm kiếm một
đường biên phân chia tốt nhất các nhóm giữa liệu để giải quyết bài toán phân loại nhị phân giữa
hai nhóm 0 và 1. Phương pháp thống kê được sử dụng để mô hình hóa và dự đoán xác suất xảy
ra của một biến phụ thuộc nhị phân dựa trên các biến độc lập cho trước.
Cây quyết định (Decision tree): Trong lĩnh vực khai thác dữ liệu, cây quyết định là
phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước. Cây quyết định là
một trong những mô hình phân cấp có cấu trúc có khả năng diễn giải cao và có thể thực hiện cả
nhiệm vụ phân loại và hồi quy dựa vào dãy các quy luật thu được từ dữ liệu về các đối tượng
cho trước gồm các thuộc tính cùng với lớp của nó
SVM (Super vector support): SVM nhận và xem dữ liệu dưới dạng những vector trong
không gian và phân loại vào các lớp khác nhau bằng cách xây dựng một siêu phẳng
(hyperplane) trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu. Để kết quả phân
lớp tối ưu thì siêu phẳng phải có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp
xa nhất có thể.. Nhờ vậy, SVM có thể giảm thiểu việc phân lớp sai (misclassification) đối với
điểm dữ liệu mới đưa vào
2.2.2.3. Các phương pháp đánh giá mô hình phân lớp
Để quyết định một mô hình có phù hợp và đáng tin cậy để sử dụng hay không cần thông
qua hành động kiểm tra tính hiệu quả, tính đúng đắn của mô hình bằng những phương pháp cụ

14
thể. Mô hình lý tưởng hướng tới là một mô hình không quá đơn giản hay quá phức tạp và
không quá nhạy cảm với nhiễu (tránh trường hợp underfitting và overfitting).
Ma trận nhầm lẫn (Confusion matrix): ma trận có kích thước k x k với k là số lượng lớp
của dữ liệu, giúp chỉ ra có bao nhiêu điểm dữ liệu thực sự thuộc vào một lớp cụ thể, và được dự
đoán là thuộc vào lớp nào. Nó đại diện điểm trên ma trận 2 chiều bao gồm: Thực tế và Dự
đoán.

Hình 2.2.2.3. Ma trận nhầm lẫn (Confusion matrix)


 True Positive (TP): Các giá trị thực sự Positive và được dự đoán là Positive.
 True Negative (TN): Các giá trị thực sự Negative và được dự đoán là Negative.
 False Positive (FP): Các giá trị thực sự là Negative nhưng được dự đoán sai là Positive.
Còn được gọi là Sai lầm loại I.
 False Negative (FN): Các giá trị thực sự là Positive nhưng được dự đoán sai là Negative.
Còn được gọi Sai lầm loại II.
2.2.2.4. Một số chỉ số (metrics) liên quan
 Tính chính xác (Accuracy): Là tỷ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ
liệu là số liệu tiêu chuẩn để đánh giá mô hình Machine Learning Classification
techniques: là độ lỗi của mô hình
 Độ chính xác (Precision): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao
nhiêu mẫu có đúng. kiểm tra xem có bao nhiêu kết quả thực sự là kết quả tích cực trong
tổng số các kết quả được dự đoán tích cực.

15
 Recall (độ phủ) còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive
Rate) là biện pháp để kiểm tra các kết quả dự đoán tích cực chính xác trong tổng số các
kết quả tích cực.
 F1-score: giá trị trung bình điều hòa (harmonic mean) của hai độ đo Precision và Recall.
F1 có giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị Precision và Recall. F1 sẽ có giá
trị lớn nếu cả 2 giá trị Precision và Recall đều lớn
2.2.2.5. ROC và AUC:
ROC (Receiver Operating Characteristic): Là một đường cong được tạo ra bằng cách
biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) ở
các ngưỡng khác nhau. Mô hình hiệu quả là mô hình có FPR thấp và TPR cao, hay ROC càng
tiệm cận với điểm (0;1) trong đồ thị.
AUC (Area Under the Curve): Là phần diện tích nằm dưới đường cong ROC. Có giá
trị dương nhỏ hơn hoặc bằng 1. Giá trị này càng lớn thì chất lượng mô hình càng tốt.
2.2.2.6. Phương pháp phân chia dữ liệu Hold-out
Phương pháp Hold-out phân chia tập dữ liệu ban đàu thành 2 tập độc lập theo 1 tỷ lệ
nhất định. Ví dụ: tập huấn luyện chiếm 70%, tập thử nghiệm chiếm 30%. Phương pháp này phù
hợp với các tập dữ liệu nhỏ. Tuy nhiên, các mẫu có thể không đại diện cho toàn bộ dữ liệu
(thiếu lớp trong tập thử nghiệm).
Có thể cải tiến bằng phương pháp lấy mẫu sao cho mỗi lớp được phân đều trong cả 2 tập
dữ liệu huấn luyện và đánh giá. Hoặc lấy mẫu ngẫu nhiên: thực hiện hold-out k lần và độ chính
xác = trung bình cộng k giá trị chính xác
2.2.3. Phân cụm dữ liệu
Phân cụm dữ liệu là quá trình gom cụm/ nhóm các đối tượng/ dữ liệu có đặc điểm tương
đương đồng vào các cụm/ nhóm tương ứng. Trong đó:
 Các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau
 Các đối tượng trong cùng một cụm/ nhóm khác nhau sẽ có những tính chất khác nhau
(*) Lưu ý: Dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn. Đay là dữ liệu
tự nhiên thường thấy trong thực tế

16
Hình 2.2.3. Phân cụm dữ liệu
2.2.3.1. Đặc điểm
Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu. Phân cụm
thuộc nhóm phương pháp học không giám sát (unsupervised learning) vì không biết trước được
số nhóm. Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:
 Độ tương đồng bên trong cụm cao
 Độ tương tự giữa các cụm thấp (khác biệt cao)
Các ứng dụng điển hình:
 Công cụ phân cụm dữ liệu độc lập.
 Là giai đoạn tiền xử lý cho các thuật toán khác
2.2.3.2. Độ đo phân cụm
Được sử dụng làm tiêu chí nhằm tính toán sự tương đồng/sai biệt giữa các đối tượng dữ
liệu nhằm phục vụ cho quá trình gom cụm. Một số độ đo phân cụm: Euclid, Cosin, Minkowski

Loại Đặc điểm Phương pháp điển hình

Dựa trên phân cấp Phân cấp các đối tượng dựa trên một Diana, Agnes, BIRCH,
(Hierarchical số các tieu chí CAMELEON
approach)

Dựa trên phân hoạch Xây dựng các phân hoạch khác nhau K-means, K-medoids, fuzzy

17
(Partitionning và đánh giá chúng . Sau đó tìm cách C-means
approach) tối thiểu hóa tổng bình phương độ lỗi

Dựa trên mật độ Dựa trên các kết nối giữa các đối DBSCAN, OPTICS, Denclue
tượng và hàm mật độ

Dựa trên lưới Dựa trên cấu trúc độ nhiều cấp STING, WaveCluster,
CLIQUE

Dựa trên mô hình Gỉa định mỗi cụm có một mô hình và EM, SOM, COBWEB
tìm cách fit mô hình đó vào mỗi cụm

2.2.3.2.a. Phân cụm phân cấp (Hierarchical approach hay HAC):


Phân cụm phân cấp sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây,
cây phân cấp này được xây dựng theo kỹ thuật đệ quy.
Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:
 Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix)
 Độ đo khoảng cách giữa các cụm (Single-link, Complete-link, Average-link, Centroid
distance)
Phương pháp này không cần xác định trước số cụm nhưng cần xác định điều kiện dừng.
Các phương pháp điển hình: Diana, Agnes…
 Agglomerative (hay AGNES): AGNES sử dụng chiến lược Bottom up (từ dưới lên).
Với phương pháp này, ban đầu mỗi quan sát là một cụm đơn lẻ của riêng nó. Sau mỗi
bước, gom hai cụm ở gần nhau nhất thành một cụm. Quá trình này tiếp diễn đến khi tất
cả các cụm nhỏ tập hợp lại một cụm lớn duy nhất. Kết quả của quá trình là 1
dendrogram (cây phân cấp)
 Divisive (hay DIANA): Sử dụng chiến lược Top down (từ trên xuống). Với phương
pháp này, ban đầu tất cả các quan sát cùng nằm trong một cụm lớn. Sau đó, các quan sát
khác nhau nhất sẽ được phân tách ra theo phương pháp đệ quy (Recursive) thành một
cụm riêng biệt. Quá trình này tiếp diễn đến khi mỗi quan sát tách ra thành một cụm đại
diện cho riêng nó.

Một số phương pháp tính khoảng cách:


18
 Liên kết đơn (Linkage Single): Phương pháp này đo lường sự khác biệt giữa hai cụm
bằng cách lấy ra cặp điểm gần nhất giữa hai cụm.
 Liên kết hoàn chỉnh (Complete-link): ngược với phương pháp liên kết đơn, sự khác
biệt giữa hai cụm được đo lường bằng cách lấy ra hai cặp điểm xa nhau nhất giữa hai
cụm.
 Liên kết trung bình (Average- Link): Phương pháp này sẽ lấy trung bình toàn bộ
khoảng cách giữa các cặp điểm được lấy từ hai cụm. Chúng ta sẽ có tổng cộng N1N2
cặp điểm. Như vậy khoảng cách sẽ được tính bằng:
2.2.3.2.b. Phân cụm phân hoạch (Partitioning Clustering)
Phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn
một cụm.
Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (độ đo phân cụm)
sao cho:
 Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương tự nhau.
 Mỗi cụm có ít nhất 1 phần tử.
Thuật toán điển hình: K-means, K-mediods, Fuzzy C-means
2.2.3.2.c. Thuật K- means
Ý tưởng chính: ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d
chiều (với d là số lượng thuộc tính của đối tượng)
 Bước 1 : Khởi tạo các cụm: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm
 Bước 2: Tính toán khoảng cách: phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó
nhất. Nếu các điểm dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết
quả của lần phân chia trước đó thì ta dừng thuật toán
 Bước 3: Cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất cả
điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2
 Bước 4: Quay lại bước 2

19
Hình 2.2.3.2.c. Phương pháp K- means
Các phương pháp đánh giá phân cụm dữ liệu:
Đánh giá ngoài: Là đánh giá kết quả phân cụm dựa vào cấu trúc/ xu hướng phân cụm
được chỉ định trước cho tập dữ liệu.
 So sánh độ sai khác giữa các cụm
 So sánh với kết quả mẫu (đáp án)
Đánh giá nội bộ: Là đánh giá kết quả mà không có thông tin từ bên ngoài, chủ yếu dựa
trên các vector chính của dữ liệu thông qua ma trận xấp xỉ. Các độ đo được sử dụng trong
phương pháp này: Hubert’s statistic, Silhouette index, Dunn’s index, F-ratio, DBI
Silhouette index [-1;1]
s1=(b1-a1)/max(a1,b1)
Giả sử có 2 cụm A và B được tìm thấy dựa trên K-means clustering
 a1 là khoảng cách từ điểm 1 trong cụm A đến trung tâm của cụm A
 b1 là khoảng cách từ điểm 1 trong cụm B đến trung tâm của cụm B
Nguyên tắc đánh giá (theo kinh nghiệm của các tác giả trong tài liệu “Data mining and
Predictive analytics” của nhà xuất bản Wiley):
Chỉ số Silhouette index nằm trong khoảng từ -1 đến 1, giá trị này càng lớn (càng tiến
gần đến 1) thì kết quả phân cụm càng đáng tin cậy, được phân làm các giá trị sau:
 Silhouette index 0,5 : sát thực tế.
 0,25 Silhouette index 0,5 : cần đánh giá lại
 Silhouette index 0,25 :không tin tưởng và cluster, tìm phương pháp đánh giá khác.
20
Hai thước đo đánh giá phổ biến nhất : Hệ số Sihouette và chỉ số DUNN’S Index
Chương 3: Mô hình nghiên cứu đề xuất
Tệp chứa 12 cột và 5000 hàng. Dữ liệu bao gồm thông tin nhân khẩu học của khách hàng
(tuổi, thu nhập, v.v.), mối quan hệ của khách hàng với ngân hàng (thế chấp, tài khoản chứng
khoán, v.v.) và phản hồi của khách hàng đối với chiến dịch cho vay cá nhân gần đây nhất (Cho
vay cá nhân). Nguồn thu thập dữ liệu (https://www.kaggle.com/datasets/krantiswalke/bank-
personal-loan-modelling). Mô tả các cột như sau:
 ID: ID của khách hàng, được định dạng là biến định tính.
 Age: Tuổi khách hàng, được định dạng là biến định tính.
 Experience: Số năm đã là khách hàng của ngân hàng, được định dạng là biến định tính.
 Income: Thu nhập theo năm của khách hàng (1000$), được định dạng là biến định
lượng.
 Family: Số lượng thành viên trong gia đình, được định dạng là biến định tính.
 CCAvg: Điểm tín dụng trung bình (1-10), được định dạng là biến định lượng.
 Education: Trình độ của khách hàng (cấp 1,2,3), được định dạng là biến định tính.
 1: Đại học;
 2: Tốt nghiệp;
 3: Nâng cao/Chuyên nghiệp
 Mortgage: Có thế chấp hay không (0 = Không, 1 = Có), được định dạng là biến định
tính.
 Personal Loan: 0 = Từ chối , 1 = Cấp thuận, được định dạng là biến định tính.
 Securities Account : Có tài khoản chứng khoán hay không (0 = Không, 1 = Có), được
định dạng là biến định tính.
 Online : Có tài khoản giao dịch trực tuyến hay không (0 = Không, 1 = Có), được định
dạng là biến định tính.
 Credit Card : Có thẻ tín dụng hay không (0 = Không, 1 = Có), được định dạng là biến
định tính.

21
Chương 4: Kết quả thực hiện mô hình
4.1. Tiền xử lý dữ liệu
4.1.1. Role của các thuộc tính
Đầu tiên, ta nạp dữ liệu Bank_Personal_Loan vào File. Các bước thực hiện như sau: Ta
vào File, chọn bộ dữ liệu từ bộ nhớ. Để có thể quan sát được dữ liệu, ta liên kết File vào Data
Tables. Vì đề tài của nhóm là dự đoán khách hàng có chấp nhận khoản vay cá nhân của ngân
hàng nên nhóm đã chọn thuộc tính “Personal.Loan” làm biến target.

22
Hình 4.1.1.a. Dữ liệu đầu vào

Hình 4.1.1.b. Bảng dữ liệu đầu vào


4.1.2. Thống kê mô tả
Dữ liệu gốc bao gồm 12 thuộc tính quan sát, với Personal.Loan là biến phụ thuộc với
mục đích tìm hiểu việc chấp nhận khoản vay cá nhân được cung cấp cho khách hàng trong
chiến dịch trước đó. Nhóm sử dụng công cụ Feature Statistics để mô tả thống kê các biến này
với những giá trị như Mean, Median, Dispersion, Min, Max,... của 5000 khách hàng.

23
Hình 4.1.2. Kết quả thống kê mô tả của các biến
Từ bảng kết quả trên, ta thấy dữ liệu gốc không xuất hiện Missing data (hay dữ liệu bị
thiếu) nên không cần phải có khâu xử lí dữ liệu thiếu.
4.1.3. Loại bỏ các thuộc tính không ảnh hưởng đến biến phụ thuộc
Khi sử dụng công cụ Rank ta thấy các biến ID, Age, Experience, Online và CreditCard
có hai chỉ số Gain ratio và Gini đều có giá trị bằng 0,000; điều này chứng minh rằng các biến
không có ảnh hưởng lớn đến biến phụ thuộc “Personal.Loan”. Nên nhóm quyết định loại biến
này khỏi mô hình bằng công cụ Select Columns trong quá trình tiền xử lý.

24
Hình 4.1.3.a. Kết quả khi sử dụng công cụ Rank

25
Hình 4.1.3.b. Kết quả khi sử dụng công cụ Select Columns
Sau khi loại bỏ các biến không ảnh hưởng, nhóm đã sử dụng công cụ Data Sampler để
lấy 4999 mẫu để sử dụng cho việc phân cụm và phân lớp vì phần mềm Orange chỉ xử lý được
tối đa 5000 dòng dữ liệu.

26
Hình 4.1.3.c. Data Sampler của Bộ Tiền xử lý dữ liệu

Hình 4.1.3.d. Quy trình thực hiện Tiền xử lý dữ liệu

4.1.4. Trích dữ liệu cho bộ dữ liệu Dự báo


Để chuẩn bị cho quá trình phân lớp, ta dùng Data Sampler để tạo ra file Forecast Data
(dữ liệu Dự báo) gồm 50 quan sát ngẫu nhiên của file Tiền xử lý dữ liệu.

27
Hình 4.1.4.a. Dữ liệu đầu vào

Hình 4.1.4.b. Data Sampler của Forecast Data


28
Hình 4.1.4.c. Quy trình trích dữ liệu Forecast
4.2. Phân cụm dữ liệu
Sau khi Tiền xử lý dữ liệu chúng ta tiến hành phân cụm dữ liệu bằng dữ liệu sau khi tiền
xử lý. Vì dữ liệu nhằm mục đích là dự báo xem khách hàng có chấp nhận các khoản vay cá
nhân hay không nên đây là bộ dữ liệu đã có nhãn (phân lớp). Vậy nên khi thực hiện phân cụm
ta xem như bộ dữ liệu này chưa có lớp bằng cách skip thuộc tính “Personal.Loan”.

Hình 4.2.a. Dữ liệu đầu vào


Chúng ta sử dụng 2 phương pháp phân cụm là: Phân cụm phân cấp (Hierarchical
clustering) và K-means.

29
Hình 4.2.b. Quy trình thực hiện Tiền xử lý dữ liệu
4.2.1. Phương pháp Hierarchical Clustering:

30
Hình 4.2.1.a. Kết quả phân cấp
Sau nhiều lần thực phân cụm với các phương pháp tính liên kết khác nhau thì nhóm đã
quyết định lựa chọn phân cụm phương pháp Hierarchical clustering với cách tính khoảng cách
Complete-link (khoảng cách lớn nhất). Kết quả sau nhiều thao tác thử cho thấy ta nên phân
toàn bộ các mẫu trong bộ dữ liệu ra làm hai phân cụm.

31
Hình 4.2.1.b. Bảng Silhouette Plot cho 2 phân cụm phân cấp
Dựa trên nguyên tắc đánh giá chỉ số Silhouette, qua bảng kết quả phân bộ dữ liệu thành
2 cụm với phương pháp Hierarchical clustering, ta thấy: Cụm 1 (màu xanh) có các giá trị
Silhouette là 0.823 (hầu như các giá trị đều lớn hơn 0.6). Còn đối với Cụm 2 (màu đỏ) thì có
giá trị Silhouette là 0.560. Những giá trị này đa số thỏa mãn nguyên tắc đánh giá đề ra nên kết
quả phân cụm như trên là đáng tin cậy. Dưới đây là bảng kết quả phân cụm bằng phương pháp
Hierarchical clustering:

32
Hình 4.2.1.c. Bảng kết quả khi sử dụng phương pháp Hierarchical clustering
4.2.2. Phương pháp k-Means:

Hình 4.2.2.a. Bảng phân tích k-Means cho bộ dữ liệu


33
Đối với phương pháp k-Means, để phân tích, đánh giá xem bộ dữ liệu này nên được
phân ra bao nhiêu cụm là hợp lí nhất. Thì ta phải dựa vào giá trị Silhouette của từng cách phân
cụm, sau đó đánh giá và chọn ra phương pháp tối ưu. Cụ thể như sau, khi quan sát “Bảng phân
tích k-Means cho bộ dữ liệu” trên, ta thấy khi phân bộ dữ liệu ra làm 2, 3, 4, 5 cụm với lần lượt
có giá trị Silhouette trung bình là 0.287, 0.236, 0.235, và 0.227. Giá trị Silhouette trung bình
càng cao, càng tiến đến 1 thì phương pháp phân cụm đó sẽ càng chính xác, đáng tin cậy hơn. Vì
vậy, nhóm đã quyết định chọn phương án phân bộ dữ liệu thành hai cụm.

34
Hình 4.2.2.b. Bảng Silhouette Plot cho 2 phân cụm phân hoạch
Ta vẫn dựa theo nguyên tắc đã nêu ra ở mục 4.2.1 để đánh giá từng cụm ở phương pháp
này. Theo kết quả của bảng trên ta thấy với Cụm 1 (màu xanh) có giá trị Silhouette là 0.420. Có
thể nói cách phân cụm chưa thật sự đáng tín cậy, sát với thực tế và cẩn thêm các chuyên gia có
kinh nghiệm, chuyên môn để đánh giá lại. Còn Cụm 2 (màu đỏ) có giá trị Silhouette là 0.576,
vậy ta thấy kết quả này là sát thực tế. Dưới đây là bảng kết quả phân cụm bằng phương pháp k-
Means:

35
Hình 4.2.2.c. Bảng kết quả khi sử dụng phương pháp k-Means
4.3. So sánh với nhãn ban đầu
Sau khi có được bảng dữ liệu của từng phương pháp phân cụm, nhóm sử dụng công cụ
Merge Data để gộp bộ Tiền xử lý dữ liệu với kết quả phân cụm của từng phương pháp để tiến
hành so sánh nhãn.

Hình 4.3.a. Dữ liệu đầu vào


36
Hình 4.3.b. Bảng dữ liệu sau khi gộp với bảng kết quả phân cụm bằng Hierarchical
Clustering

Hình 4.3.c. Bảng dữ liệu sau khi gộp với bảng kết quả phân cụm bằng k-Means

37
Hình 4.3.d. Quá trình thực hiện gộp dữ liệu
4.3.1. Phương pháp Hierarchical Clustering:
Sau khi tiến hành phân cụm dữ liệu, bắt đầu trích xuất dữ liệu ra dạng bảng dưới dạng
excel để tiến hành so sánh với nhãn hiện có.

Hình 4.3.1.a. Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có
Tiến hành dán nhãn bằng cách thay giá trị C1 trong Cluster thành 1, C2 thành 0

38
Hình 4.3.1.b. Thay giá trị cho kết quả đã phân cụm
Tiếp theo, ta tiến hành so sánh từng biến trong dữ liệu phân cụm theo phương pháp
Hierarchical clustering với nhãn hiện có bằng Excel với câu lệnh “=J2=H2”, thu được kết quả
như sau:

Hình 4.3.1.c. So sánh giữa dữ liệu phân cụm và nhãn hiện có

39
Cuối cùng, ta thực hiện đếm số lượng mẫu đã phân cụm chính xác bằng câu lệnh
=COUNTIF(K2:K5000,K2), sau đó lấy số mẫu đã phân cụm chính xác chia cho tổng số 4999
mẫu đã có nhãn. Kết quả thu được mẫu phân cụm chính xác, chiếm 89.84%

Hình 4.3.1.d. Kết quả sau khi so sánh

Hình 4.3.1.e. Bảng hiển thị kết quả so sánh với nhãn hiện có
40
4.3.2. Phương pháp k-Means:
Sau khi tiến hành phân cụm dữ liệu, bắt đầu trích xuất dữ liệu ra dạng bảng dưới dạng
excel để tiến hành so sánh với nhãn hiện có.

Hình 4.3.2.a. Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có
Tiến hành dán nhãn bằng cách thay giá trị C1 trong Cluster thành 1, C2 thành 0

Hình 4.3.2.b. Thay giá trị cho kết quả đã phân cụm
41
Tiếp theo, ta tiến hành so sánh từng biến trong dữ liệu phân cụm theo phương pháp k-
Means với nhãn hiện có bằng Excel với câu lệnh “=K2=I2”, thu được kết quả như sau:

Hình 4.3.2.c. So sánh giữa dữ liệu phân cụm và nhãn hiện có


Cuối cùng, ta thực hiện đếm số lượng mẫu đã phân cụm chính xác bằng câu lệnh
=COUNTIF(L2:L5000,L2), sau đó lấy số mẫu đã phân cũm chính xác chia cho tổng số 4999
mẫu đã có nhãn. Kết quả thu được mãu phân cụm chính xác, chiếm 80.64%

42
Hình 4.3.2.d. Kết quả sau khi so sánh

Hình 4.3.2.e. Bảng hiển thị kết quả so sánh với nhãn hiện có
Như vậy sau khi thực hiện so sánh phân cụm theo 2 phương pháp với nhãn hiện có thì
phân cụm theo phương pháp Hierarchical clustering đáng tin cậy và chính xác hơn phương
pháp K-means theo phương án đánh giá ngoại (89.94% > 80.64%)

43
4.4. Phân lớp dữ liệu
4.4.1. Xây dựng mô hình phân lớp
Nhóm sử dụng dữ liệu ban đầu (có nhãn và đã thực hiện tiền xử lý) và chọn biến target
là “Personal.Loan” để tiến hành phân lớp. Nhóm thực hiện phân lớp theo ba phương pháp:
 Cây quyết định (Decision Tree)
 Hồi quy Logistic (Logistic Regression)
 SVM (Support Vector Machine)

Hình 4.4.1.a. Dữ liệu đầu vào để thực hiện phân lớp dữ liệu

44
Hình 4.4.1.b. Quy trình thực hiện phân lớp dữ liệu
4.4.2. Các phương pháp đánh giá mô hình
4.4.2.1. Test and Score
Sử dụng Test and Score để so sánh và đánh giá các phương pháp (Logistic Regression,
Tree và SVM), để lựa chọn phương pháp tốt nhất, chính xác nhất phục vụ cho việc dự báo.
Tại bảng Test and Score có nhiều cách chia tỉ lệ lấy mẫu khác nhau như Cross validation
hay Random Sampling. Dưới đây là một số kết quả tại Bảng Test and Score với 1 số cách chia
tỉ lệ lấy mẫu khác nhau:
 Cross validation với Number of folds là 5 và 10 (chia mẫu dữ liệu thành 5 và 10 phần):

45
Hình 4.4.2.1.a. Kết quả chi mẫu dữ liệu thành 5 phần

Hình 4.4.2.1.b. Kết quả chi mẫu dữ liệu thành 10 phần

46
 Random sampling với tỷ lệ 10 - 66% và 20 – 70%:

Hình 4.4.2.1.c. Kết quả chia mẫu dữ liệu với tỷ lệ 10 - 66%

Hình 4.4.2.1.d. Kết quả chia mẫu dữ liệu với tỷ lệ 20 - 70%


Đánh giá: Tại mục “Evaluation results for target” cho ta biết được các chỉ số đánh giá về
các mô hình: Decision Tree, SVM, Logistic Regression. Để đánh giá các mô hình ta sẽ dựa vào
47
các chỉ số AUC. Nhìn chung qua các trường hợp, ta có thể thấy được các chỉ số đánh giá cho
mô hình SVM là cao nhất tiếp theo là mô hình Logistic Regression và thấp nhất là mô hình
Decision Tree. Như vậy, mô hình Decision Tree có thể không phải là một mô hình tốt khi được
so sánh với hai mô hình còn lại. Còn hai mô hình còn lại thì đều được đánh giá khá cao, tuy
nhiên khi so sánh từng trường hợp, ta thấy mô hình SVM cao hơn Logistic Regression ở tất cả
trường hợp chia mẫu. Vì vậy, theo công cụ Test and Score thì SVM là phương pháp phân lớp
hiệu quả nhất.
4.4.2.2. Confusion Matrix (Ma trận nhầm lẫn)
Trong Confusion Matrix, số liệu cần chú ý nhất là Sai lầm loại 1 và Sai lầm loại 2 (mô
hình tốt nhất và chính xác nhất là mô hình có tỷ lệ hai sai lầm này thấp nhất). Nhóm đã sử dụng
Ma trận nhầm lẫn để đánh giá về ba phương pháp phân lớp đã thực hiện ở trên và thu được kết
quả như sau:

Hình 4.4.2.2.a. Kết quả Ma trận nhầm lẫn của phương pháp Decision Tree

48
Hình 4.4.2.2.b. Kết quả Ma trận nhầm lẫn của phương pháp SVM

Hình 4.4.2.2.c. Kết quả Ma trận nhầm lẫn của phương pháp Logistic Regression

Đánh giá: Dựa vào lý thuyết trên và các kết quả thu được khi thao tác với Ma trận nhầm
lẫn, ta có thể nhận xét được rằng mô hình của phương pháp Decision Tree mang lại kết quả tốt
nhất khi chỉ số Accuracy = 0.9826. Phương pháp Hồi quy Logistic và phương pháp SVM lần
lượt có giá trị là 0,9448 và 0,9432. Như vậy, theo Ma trận nhầm lẫn thì phương pháp Cây quyết
định là phương pháp phù hợp nhất.

49
4.4.2.3. ROC Analysis

Hình 4.4.2.3. Kết quả ROC Analysis


Đánh giá: Một mô hình hiệu quả khi có FP Rate thấp và TP Rate cao, hay nói cách khác
phương pháp nào có đường cong ROC càng tiệm cận với điểm (0;1), phương pháp đó càng tốt
và chính xác.Do đó, SVM phương pháp là tốt nhất vì có đường cong ROC tiệm cận nhất với
điểm (0;1).
4.5. Kết luận
Sau khi đã thực hiện nhiều phương pháp đánh giá, phương pháp Decision Tree là
phương pháp tốt nhất và nhóm đã quyết định sử dụng phương pháp này để thực hiện dự báo.
Với những lý do sau đây:
 Mặc dù phương pháp SVM có AUC (Area Under the Curve) hay diện tích nằm dưới
đường cong ROC là lớn nhất, tức là có mô hình tốt nhất nhưng phương pháp này có các
chỉ số metrics là Accuracy, Precison, Recall và F1-score là thấp nhất. Điều này có thể
chứng minh được phương pháp SVM không là phương pháp tốt nhất.
 Còn về phương pháp Decision Tree, mặc dù có AUC thấp nhất trong 3 phương pháp;
tuy nhiên, các chỉ số metrics là Accuracy, Precison, Recall và F1-score là cao nhất.

50
4.6. Dự báo
Sau khi đã đánh giá các mô hình phân lớp và lựa chọn ra mô hình tốt nhất là Decision
Tree, ta sử dụng Predicyions để dự báo cho bộ Forecast data gồm 50 quan sát đã được trích từ
bộ Tiền xử lý dữ liệu.

Hình 4.6.a. Quá trình thực hiện Dự báo


Đưa bộ dữ liệu Forecast đã qua tiền xử lý ở bước đầu vào Orange, skip biến phụ thuộc
Personal.Loan.

51
Hình 4.6.b. Dữ liệu đầu vào của Forecast data

52
Hình 4.6.c. Kết quả Dự báo
Sau khi hoàn thành dự báo ta thực hiện lưu kết quả dự báo về máy với tên File
là Bank_Personal_Loan (Kết quả Dự báo).xlxs
Chương 5: Kết luận và Đề xuất
Nội dung nghiên cứu trong đề tài, nhóm đã đưa ra các phân tích phân cụm dữ liệu và so
sánh tỷ lệ phần trăm chính xác so với các nhãn ban đầu trên phần mềm Orange rồi tiến hành
khai thác xử lý chúng để đưa ra các dữ liệu cần thiết. Các dữ liệu này lại được tối ưu hoá và
đem vào sử dụng một cách hiệu quả trên các cơ sở dữ liệu được lưu trữ bởi phần mềm Excel.
Đề tài đã đi sâu vào tính ứng dụng đưa ra cách thức xử lý các dữ liệu một cách phù hợp và linh
hoạt.
Thực hiện phân tích dữ liệu này có thể mang lại nhiều lợi ích khác nhau chẳng hạn như
chúng ta sẽ đoán được liệu khách hàng có đăng ký một khoản vay cá nhân hay không dựa trên
hồ sơ của khách hàng có các thuộc tính: tuổi, kinh nghiệm, học vấn,… Mục đích cuối cùng đó
là thu hút khách hàng có thể quay lại. Nó mang lại tính ổn định và tạo ra khách hàng trung
thành mang lại giá trị cho ngân hàng trong dài hạn và tạo ra doanh thu và lợi nhuận lớn.

TÀI LIỆU THAM KHẢO


(2022). Phân tích dữ liệu của công ty kiểm toán với công cụ Orange.
53
WALKE, K. (2020). Bank_Personal_Loan_Modelling. Được truy lục từ
https://www.kaggle.com/: https://www.kaggle.com/datasets/krantiswalke/bank-
personal-loan-modelling
What is Data Science?. Được truy lục từ https://www.oracle.com/cloud/:
https://www.oracle.com/what-is-data-science/

54

You might also like