Professional Documents
Culture Documents
TIỂU LUẬN KHOA HỌC DỮ LIỆU
TIỂU LUẬN KHOA HỌC DỮ LIỆU
TIỂU LUẬN
MÔN: KHOA HỌC DỮ LIỆU
ĐỀ TÀI: PHÂN TÍCH NHÓM ĐỐI TƯỢNG CHẤP NHẬN KHOẢN
VAY CÁ NHÂN CỦA THERA BANK DỰA TRÊN CÁC CÔNG CỤ
KHOA HỌC DỮ LIỆU CỦA PHẦN MỀM ORANGE
2
LỜI CẢM ƠN
Để hoàn thành tiểu luận này, em xin gửi lời chân thành đến:
Giảng viên bộ môn Khoa học Dữ liệu – Thầy Trương Việt Phương đã
giảng dạy tận tình, nhiệt tình và chi tiết để chúng em có kiến thức và vận
dụng chúng vào bài tiểu luận này.
Ban giám hiệu Đại học UEH vì đã tạo điều kiện về cơ sở vật chất với hệ
thống thư viên hiện đại, tài liệu thuận lợi cho việc tìm kiếm, nguyên cứu
thông tin.
Do chưa có nhiều kinh nghiệm làm đề tài cũng như những hạn chế về
kiến thức, trong bài tiểu luận chắc chắn sẽ không tránh khỏi những thiếu sót.
Rất mong nhận được sự nhận xét, ý kiến đóng góp, phê bình từ phía thầy để
bài tiểu luận được hoàn thiện hơn.
Lời cuối cùng, em xin kính chúc thầy nhiều sức khỏe, thành công và
hạnh phúc.
3
MỤC LỤC
Chương 1: Tổng quan về Khoa học dữ liệu và đề tài nghiên cứu................................9
1.1. Giới thiệu về Khoa học dữ liệu................................................................................9
1.2. Lý do chọn đề tài....................................................................................................10
1.3. Mục tiêu nghiên cứu...............................................................................................10
1.4. Phương pháp nghiên cứu........................................................................................10
Chương 2: Tổng quan về quá trình sử dụng và các phương pháp sử dụng.............11
2.1. Tổng quan về phần mềm Orange...........................................................................11
2.2. Tổng quan về các phương pháp sử dụng................................................................11
2.2.1. Tiền xử lý dữ liệu (Data Preprocessing).........................................................11
2.2.2. Phân lớp dữ liệu..............................................................................................13
2.2.3. Phân cụm dữ liệu.............................................................................................16
Chương 3: Mô hình nghiên cứu đề xuất......................................................................21
Chương 4: Kết quả thực hiện mô hình.........................................................................21
4.1. Tiền xử lý dữ liệu...................................................................................................21
4.1.1. Role của các thuộc tính...................................................................................21
4.1.2. Thống kê mô tả................................................................................................22
4.1.3. Loại bỏ các thuộc tính không ảnh hưởng đến biến phụ thuộc.........................24
4.1.4. Trích dữ liệu cho bộ dữ liệu Dự báo...............................................................26
4.2. Phân cụm dữ liệu....................................................................................................28
4.2.1. Phương pháp Hierarchical Clustering:...........................................................29
4.2.2. Phương pháp k-Means:...................................................................................32
4.3. So sánh với nhãn ban đầu.......................................................................................35
4.3.1. Phương pháp Hierarchical Clustering:...........................................................37
4.3.2. Phương pháp k-Means:...................................................................................40
4.4. Phân lớp dữ liệu.....................................................................................................43
4
4.4.1. Xây dựng mô hình phân lớp.............................................................................43
4.4.2. Các phương pháp đánh giá mô hình...............................................................45
4.5. Kết luận..................................................................................................................50
4.6. Dự báo....................................................................................................................50
Chương 5: Kết luận và Đề xuất.....................................................................................53
TÀI LIỆU THAM KHẢO.............................................................................................53
5
DANH MỤC HÌNH ẢNH
Hình 2.2.2.3. Ma trận nhầm lẫn (Confusion matrix)
Hình 4.2.1.b. Bảng Silhouette Plot cho 2 phân cụm phân cấp
Hình 4.2.1.c. Bảng kết quả khi sử dụng phương pháp Hierarchical clustering
Hình 4.2.2.b. Bảng Silhouette Plot cho 2 phân cụm phân hoạch
Hình 4.2.2.c. Bảng kết quả khi sử dụng phương pháp k-Means
6
Hình 4.3.a. Dữ liệu đầu vào
Hình 4.3.b. Bảng dữ liệu sau khi gộp với bảng kết quả phân cụm bằng Hierarchical
Clustering
Hình 4.3.c. Bảng dữ liệu sau khi gộp với bảng kết quả phân cụm bằng k-Means
Hình 4.3.1.a. Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có
Hình 4.3.1.b. Thay giá trị cho kết quả đã phân cụm
Hình 4.3.1.e. Bảng hiển thị kết quả so sánh với nhãn hiện có
Hình 4.3.2.a. Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có
Hình 4.3.2.b. Thay giá trị cho kết quả đã phân cụm
Hình 4.3.2.e. Bảng hiển thị kết quả so sánh với nhãn hiện có
Hình 4.4.1.a. Dữ liệu đầu vào để thực hiện phân lớp dữ liệu
Hình 4.4.2.2.a. Kết quả Ma trận nhầm lẫn của phương pháp Decision Tree
Hình 4.4.2.2.b. Kết quả Ma trận nhầm lẫn của phương pháp SVM
7
Hình 4.4.2.2.c. Kết quả Ma trận nhầm lẫn của phương pháp Logistic Regression
8
PHÂN TÍCH NHÓM ĐỐI TƯỢNG CHẤP NHẬN KHOẢN
VAY CÁ NHÂN CỦA THERA BANK DỰA TRÊN CÁC CÔNG
CỤ KHOA HỌC DỮ LIỆU CỦA PHẦN MỀM ORANGE
Chương 1: Tổng quan về Khoa học dữ liệu và đề tài nghiên cứu
1.1. Giới thiệu về Khoa học dữ liệu
Khoa học dữ liệu là lĩnh vực áp dụng các kỹ thuật phân tích tiên tiến và các nguyên tắc
khoa học để trích xuất thông tin có giá trị từ dữ liệu cho việc ra quyết định kinh doanh, lập kế
hoạch chiến lược và các mục đích sử dụng khác. Nó ngày càng quan trọng đối với các doanh
nghiệp: Những hiểu biết sâu sắc mà khoa học dữ liệu tạo ra giúp các tổ chức tăng hiệu quả hoạt
động, xác định các cơ hội kinh doanh mới và cải thiện các chương trình tiếp thị và bán hàng,
cùng với các lợi ích khác. Cuối cùng, chúng có thể dẫn đến lợi thế cạnh tranh so với các đối thủ
kinh doanh.
Khoa học dữ liệu kết hợp nhiều lĩnh vực khác nhau - ví dụ, kỹ thuật dữ liệu, chuẩn bị dữ
liệu, khai thác dữ liệu , phân tích dự đoán, học máy và trực quan hóa dữ liệu, cũng như thống
kê, toán học và lập trình phần mềm.
Khoa học dữ liệu đóng một vai trò quan trọng trong hầu như tất cả các khía cạnh của
hoạt động và chiến lược kinh doanh. Ví dụ, nó cung cấp thông tin về khách hàng giúp các công
ty tạo ra các chiến dịch tiếp thị mạnh mẽ hơn và quảng cáo nhắm mục tiêu để tăng doanh số
bán sản phẩm. Nó hỗ trợ trong việc quản lý rủi ro tài chính, phát hiện các giao dịch gian lận và
ngăn ngừa sự cố thiết bị trong các nhà máy sản xuất và các cơ sở công nghiệp khác. Nó giúp
chặn các cuộc tấn công mạng và các mối đe dọa bảo mật khác trong hệ thống CNTT.
Khoa học dữ liệu cũng rất quan trọng trong các lĩnh vực ngoài hoạt động kinh doanh
thông thường. Trong chăm sóc sức khỏe, các ứng dụng của nó bao gồm chẩn đoán tình trạng y
tế, phân tích hình ảnh, lập kế hoạch điều trị và nghiên cứu y tế. Các tổ chức học thuật sử dụng
khoa học dữ liệu để theo dõi kết quả hoạt động của sinh viên và cải thiện hoạt động tiếp thị của
họ tới các sinh viên tương lai. Các đội thể thao phân tích hiệu suất của người chơi và lập kế
hoạch chiến lược trò chơi thông qua khoa học dữ liệu. Các cơ quan chính phủ và các tổ chức
chính sách công cũng là những người sử dụng lớn.
9
1.2. Lý do chọn đề tài
Ngân hàng đóng vai trò quan trọng trong nền kinh tế, là trung gian tài chính, huy động
vốn từ người tiết kiệm và cho vay lại cho các cá nhân và doanh nghiệp, từ đó thúc đẩy sản xuất
và tiêu dùng. Hiện tại, ngành ngân hàng Việt Nam đang phát triển mạnh mẽ với tốc độ tăng
trưởng tín dụng ổn định và sự gia tăng ứng dụng công nghệ số, nhưng cũng đối mặt với thách
thức từ nợ xấu và cạnh tranh khốc liệt từ các ngân hàng nước ngoài và công ty fintech. Các rủi
ro của ngành ngân hàng bao gồm nợ xấu, rủi ro tín dụng, rủi ro thanh khoản và biến động kinh
tế vĩ mô. Trong bối cảnh này, việc phân tích dữ liệu từ khoa học dữ liệu đóng vai trò then chốt,
giúp ngân hàng hiểu rõ hơn về hành vi khách hàng, tối ưu hóa chiến lược tiếp thị, quản lý rủi ro
tài chính hiệu quả hơn và phát triển các sản phẩm dịch vụ mới. Phân tích dữ liệu còn hỗ trợ
việc dự báo xu hướng thị trường, cải thiện hiệu quả vận hành và cung cấp thông tin quý giá cho
các cơ quan quản lý, từ đó đảm bảo sự ổn định và phát triển bền vững của hệ thống tài chính,
góp phần quan trọng vào sự phát triển chung của nền kinh tế quốc gia. Chính vì vậy, đề tài này
là một lựa chọn lý tưởng cho tiểu luận khoa học dữ liệu bởi tính thực tế và thiết thực của nó
trong ngành ngân hàng. Nhóm đã sử dụng nguồn dữ liệu từ Kaggle (https://www.kaggle.com/)
1.3. Mục tiêu nghiên cứu
Thông qua việc phân tích đặc điểm dân số như độ tuổi, thu nhập và trình độ học vấn,...
ngân hàng có thể tùy chỉnh chiến lược tiếp thị và sản phẩm dịch vụ sao cho phù hợp với từng
đối tượng khách hàng. Đồng thời, việc dự báo khả năng sử dụng các dịch vụ như vay mua nhà,
vay cá nhân hay sử dụng thẻ tín dụng giúp tăng cường hiệu quả kinh doanh và tối ưu hóa trải
nghiệm của khách hàng. Bằng cách phân tích dữ liệu, mục đích chính của bài nghiên cứu là
sinh viên có thể tiếp cận với các khái niệm thực tiễn trong ngành ngân hàng như quản lý rủi ro,
tối ưu hóa chiến lược tiếp thị, việc này giúp họ áp dụng kiến thức từ lớp học vào thực tế và phát
triển kỹ năng phân tích và suy luận.
1.4. Phương pháp nghiên cứu
Nhóm sử dụng phần mềm Orange để tiến hành thực hiện xử lý dữ liệu, phân cụm, so
sánh với nhãn ban đầu, phân lớp dữ liệu, rồi sau đó tiến hành dự báo cho nhóm dữ liệu ngẫu
nhiên chưa phân lớp.
10
Để thực hiện phân cụm bộ dữ liệu nhóm sử dụng hai phương pháp chính là: Hierarchical
clustering và K-means.
Đối với phương pháp Hierarchical clustering, nhóm tiến hành tính khoảng cách giữa các
phân tử bằng Distance rồi quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và
quan sát trên Silhouette Plot.
Đối phương pháp K-means, nhóm quan sát chỉ số Silhouette trung bình khi phân dữ liệu
từ 2 đến 5 cụm sau đó chọn số cụm có chỉ số Silhouette tốt, phù hợp với số lượng biến
có sẵn trên bộ dữ liệu và quan sát trên Silhouette Plot.
Sau khi thực hiện phân cụm dữ liệu theo hai phương pháp trên, nhóm tiến hành chọn
phương pháp tốt nhất để phân cụm cho bộ dữ liệu của nhóm.
Đối với việc phân lớp dữ liệu, nhóm chọn biến "Personal.Loan" (khoản vay cá nhân) là
biến mục tiêu.
Tiếp theo, nhóm tiến hành phân lớp trên 3 phương pháp là Cây quyết định (Decision
Tree), SVM (Support Vector Machine) và Hồi quy Logistic (Logistic Regression).
Sử dụng Test and Score, quan sát chỉ số AUC của từng phương pháp và cuối cùng là
quan sát trên Confused Matrix (Ma trận nhầm lẫn).
Chương 2: Tổng quan về quá trình sử dụng và các phương pháp sử dụng
2.1. Tổng quan về phần mềm Orange
Orange là một phần mềm mã nguồn mở dành cho phân tích và trực quan hóa dữ liệu,
được thiết kế để hỗ trợ các nhà khoa học dữ liệu, nhà nghiên cứu, và cả những người mới bắt
đầu trong lĩnh vực này. Phần mềm này cung cấp một môi trường trực quan, dễ sử dụng với giao
diện kéo-thả, cho phép người dùng xây dựng các quy trình phân tích dữ liệu một cách nhanh
chóng và hiệu quả mà không cần phải viết mã.
2.2. Tổng quan về các phương pháp sử dụng
2.2.1. Tiền xử lý dữ liệu (Data Preprocessing)
Tiền xử lý dữ liệu là bước quan trọng trong khai phá dữ liệu, giúp chuẩn bị dữ liệu phù
hợp nhất cho các thuật toán học máy. Tiền xử lý dữ liệu thô/ gốc thành dữ liệu có tính chất phù
hợp để có thể sử dụng thuật toán học máy. Từ đó, chất lượng của kết quả khai phá cũng được
cải thiện, hữu ích hơn; tăng hiệu suất mô hình máy học.
11
Các kỹ thuật của tiền xử lý dữ liệu gồm: Làm sạch dữ liệu (Data cleaning), Tích hợp dữ
liệu (Data integration), Chuyển đổi dữ liệu (Data transformation) và Rút gọn dữ liệu
(Dataireduction).
2.2.1.1. Làm sạch dữ liệu (Data cleaning)
Làm sạch dữ liệu là loại bỏ các nhiễu (remove noise) và hiệu chỉnh những phần dữ liệu
không nhất quán với mục đích cải thiện chất lượng dữ liệu, chuẩn bị tốt cho mô hình học máy,
giúp tăng hiệu suất mô hình máy học. Làm sạch dữ liệu bao gồm:
Tóm tắt hóa dữ liệu: Là xác định các thuộc tính (properties) tiêu biểu của dữ liệu về xu
hướng chính (central tendency) và sự phân tán(dispersion) của dữ liệu.
Xử lý dữ liệu bị thiếu (missing value): Là những dữ liệu không có sẵn, không đủ khi
cần sử dụng.
Xử lý dữ liệu bị nhiễu (noisy data): bao gồm giảm thiểu nhiễu (noisy data) và nhận
diện phần tử biên (outliers).
Xử lý dữ liệu không nhất quán: Dữ liệu được ghi nhận khác nhau cho cùng một đối
tượng hay thực thể (VN, Việt Nam, Vietnamese); hay không phản ánh đúng ngữ nghĩa
cho các đối tượng/ thực thể (ràng buộc khóa ngoại).
2.2.1.2. Tích hợp dữ liệu (Data integration)
Tích hợp dữ liệu là trộn dữ liệu (merge data) từ nhiều nguồn khác nhau vào một kho dữ
liệu. Các vấn đề cần xử lý bao gồm:
Vấn đề nhận dạng thực thể: Các thực thể (object/ entity/ attribute) đến từ nhiều nguồn
dữ liệu hoặc hai hay nhiều thực thể khác nhau diễn tả cùng một thực thể thực.
Vấn đề dư thừa: Là việc giá trị của một thuộc tính có thể được dẫn ra tính từ một nhiều
thuộc tính khác nhau, vấn đề trùng lắp dữ liệu
Vấn đề mâu thuẫn giá trị dữ liệu: Là việc cho cùng một thực thể thật, các giá trị thuộc
tính đến từ các nguồn dữ liệu khác nhau có thể khác nhau về biểu diễn, đo lường và mã
hóa.
2.2.1.3. Chuyển đổi dữ liệu (Data transformation)
Chuyển đổi dữ liệu hay còn gọi là chuẩn hóa dữ liệu, gồm: làm trơn, kết hợp, tổng quát
hóa, chuẩn hóa dữ liệu và xây dựng thuộc tính
12
Làm trơn dữ liệu: Có thể sử dụng các phương pháp binning (bin means, bin medians,
bin boundaries); hồi quy; các kỹ thuật gom cụm (phân tích phần tử biên); các phương rời
rạc hóa dữ liệu
Kết hợp dữ liệu: Sử dụng các tác vụ kết hợp/ tóm tắt dữ liệu, chuyển dữ liệu ở mức chi
tiết này sang dữ liệu ở mức kém chi tiết hơn. Từ đó có thể hỗ trợ việc phân tích dư dữ
liệu ở nhiều độ min thời gian khác nhau.
Tổng quát hóa: Là chuyển đổi dữ liệu cấp thấp/ nguyên tố/ thô sang các khái niệm ở
mức cao hơn thông qua các phân cấp ý niệm
Chuẩn hóa dữ liệu: Có các phương pháp như: min-max normalization, z-score
normalization, normalization by scaling -> Các giá trị thuộc tính được chuyển đổi vào
một miền trị nhất định được đinhj nghĩa trước
Xây dựng thuộc tính: Các thuộc tính mới được xây dựng và thêm vào từ tập các thuộc
tính có sẵn. Hỗ trợ kiểm tra tính chính xác và giúp hiểu cấu trúc của dữ liệu nhiều chiều.
Ngoài ra còn hỗ trợ phát hiện thông tin thiếu sót về các mối quan hệ giữa các thuộc tính
dữ liệu
2.2.1.4. Rút gọn dữ liệu (Dataireduction)
Rút gọn dữ liệu là thu giảm kích thước dữ liệu (giảm số phân tử) bằng cách kết hợp dữ
liệu, loại bỏ các đặc điểm dư thừa, gom cụm dữ liệu. Bao gồm: Kết hợp khối dữ liệu, Chọn tập
con các thuộc tính, Thu giảm chiều, Thu giảm lượng, Tạo phân cấp ý niệm và Rời rạc hóa
2.2.2. Phân lớp dữ liệu
Quá trình “phân lớp dữ liệu” chính là quá trình gán nhãn cho đối tượng dữ liệu. Đây là
quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô
hình phân lớp. Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó
với mục đích dự đoán được tên lớp của những phần tử mới dựa vào những đặc điểm của nó.
Như vậy, nhiệm vụ của bài toán phân lớp dữ liệu là cần xây dựng mô hình (bộ) phân lớp
để khi có một dữ liệu mới vào thì mô hình phân lớp sẽ cho biết dữ liệu đó thuộc lớp nào. Có
nhiều bài toán phân lớp dữ liệu, như phân lớp nhị phân, phân lớp đa lớp, phân lớp đa trị, ...
2.2.2.1. Quá trình phân lớp dữ liệu
Bước 1: Xây dựng mô hình ( giai đoạn “học” / “huấn luyện” )
13
Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xử lý có cấu trúc được mô tả
bằng các thuộc tính và được tạo ra bằng các tập có bộ giá trị của các thuộc tính đó
Dữ liệu đầu ra: là mô hình phân lớp đã được huấn luyện thông qua các thuật toán phân
lớp: cây quyết định, …
Bước 2: Sử dụng mô hình
Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình): Nếu độ chính xác của mô hình
được ước lượng dựa trên tập dữ liệu đào tạo thì kết quả thu được là rất khả quan vì mô
hình luôn có xu hướng “quá vừa” dữ liệu.
Phân lớp dữ liệu mới: Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu
này dựa vào những gì được huấn luyện.
2.2.2.2. Một số phương pháp phân lớp dữ liệu
Hồi quy Logistic (Logistic Regression): Mục đích của hồi qui Logistic là tìm kiếm một
đường biên phân chia tốt nhất các nhóm giữa liệu để giải quyết bài toán phân loại nhị phân giữa
hai nhóm 0 và 1. Phương pháp thống kê được sử dụng để mô hình hóa và dự đoán xác suất xảy
ra của một biến phụ thuộc nhị phân dựa trên các biến độc lập cho trước.
Cây quyết định (Decision tree): Trong lĩnh vực khai thác dữ liệu, cây quyết định là
phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước. Cây quyết định là
một trong những mô hình phân cấp có cấu trúc có khả năng diễn giải cao và có thể thực hiện cả
nhiệm vụ phân loại và hồi quy dựa vào dãy các quy luật thu được từ dữ liệu về các đối tượng
cho trước gồm các thuộc tính cùng với lớp của nó
SVM (Super vector support): SVM nhận và xem dữ liệu dưới dạng những vector trong
không gian và phân loại vào các lớp khác nhau bằng cách xây dựng một siêu phẳng
(hyperplane) trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu. Để kết quả phân
lớp tối ưu thì siêu phẳng phải có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp
xa nhất có thể.. Nhờ vậy, SVM có thể giảm thiểu việc phân lớp sai (misclassification) đối với
điểm dữ liệu mới đưa vào
2.2.2.3. Các phương pháp đánh giá mô hình phân lớp
Để quyết định một mô hình có phù hợp và đáng tin cậy để sử dụng hay không cần thông
qua hành động kiểm tra tính hiệu quả, tính đúng đắn của mô hình bằng những phương pháp cụ
14
thể. Mô hình lý tưởng hướng tới là một mô hình không quá đơn giản hay quá phức tạp và
không quá nhạy cảm với nhiễu (tránh trường hợp underfitting và overfitting).
Ma trận nhầm lẫn (Confusion matrix): ma trận có kích thước k x k với k là số lượng lớp
của dữ liệu, giúp chỉ ra có bao nhiêu điểm dữ liệu thực sự thuộc vào một lớp cụ thể, và được dự
đoán là thuộc vào lớp nào. Nó đại diện điểm trên ma trận 2 chiều bao gồm: Thực tế và Dự
đoán.
15
Recall (độ phủ) còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive
Rate) là biện pháp để kiểm tra các kết quả dự đoán tích cực chính xác trong tổng số các
kết quả tích cực.
F1-score: giá trị trung bình điều hòa (harmonic mean) của hai độ đo Precision và Recall.
F1 có giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị Precision và Recall. F1 sẽ có giá
trị lớn nếu cả 2 giá trị Precision và Recall đều lớn
2.2.2.5. ROC và AUC:
ROC (Receiver Operating Characteristic): Là một đường cong được tạo ra bằng cách
biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) ở
các ngưỡng khác nhau. Mô hình hiệu quả là mô hình có FPR thấp và TPR cao, hay ROC càng
tiệm cận với điểm (0;1) trong đồ thị.
AUC (Area Under the Curve): Là phần diện tích nằm dưới đường cong ROC. Có giá
trị dương nhỏ hơn hoặc bằng 1. Giá trị này càng lớn thì chất lượng mô hình càng tốt.
2.2.2.6. Phương pháp phân chia dữ liệu Hold-out
Phương pháp Hold-out phân chia tập dữ liệu ban đàu thành 2 tập độc lập theo 1 tỷ lệ
nhất định. Ví dụ: tập huấn luyện chiếm 70%, tập thử nghiệm chiếm 30%. Phương pháp này phù
hợp với các tập dữ liệu nhỏ. Tuy nhiên, các mẫu có thể không đại diện cho toàn bộ dữ liệu
(thiếu lớp trong tập thử nghiệm).
Có thể cải tiến bằng phương pháp lấy mẫu sao cho mỗi lớp được phân đều trong cả 2 tập
dữ liệu huấn luyện và đánh giá. Hoặc lấy mẫu ngẫu nhiên: thực hiện hold-out k lần và độ chính
xác = trung bình cộng k giá trị chính xác
2.2.3. Phân cụm dữ liệu
Phân cụm dữ liệu là quá trình gom cụm/ nhóm các đối tượng/ dữ liệu có đặc điểm tương
đương đồng vào các cụm/ nhóm tương ứng. Trong đó:
Các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau
Các đối tượng trong cùng một cụm/ nhóm khác nhau sẽ có những tính chất khác nhau
(*) Lưu ý: Dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn. Đay là dữ liệu
tự nhiên thường thấy trong thực tế
16
Hình 2.2.3. Phân cụm dữ liệu
2.2.3.1. Đặc điểm
Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu. Phân cụm
thuộc nhóm phương pháp học không giám sát (unsupervised learning) vì không biết trước được
số nhóm. Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:
Độ tương đồng bên trong cụm cao
Độ tương tự giữa các cụm thấp (khác biệt cao)
Các ứng dụng điển hình:
Công cụ phân cụm dữ liệu độc lập.
Là giai đoạn tiền xử lý cho các thuật toán khác
2.2.3.2. Độ đo phân cụm
Được sử dụng làm tiêu chí nhằm tính toán sự tương đồng/sai biệt giữa các đối tượng dữ
liệu nhằm phục vụ cho quá trình gom cụm. Một số độ đo phân cụm: Euclid, Cosin, Minkowski
Dựa trên phân cấp Phân cấp các đối tượng dựa trên một Diana, Agnes, BIRCH,
(Hierarchical số các tieu chí CAMELEON
approach)
Dựa trên phân hoạch Xây dựng các phân hoạch khác nhau K-means, K-medoids, fuzzy
17
(Partitionning và đánh giá chúng . Sau đó tìm cách C-means
approach) tối thiểu hóa tổng bình phương độ lỗi
Dựa trên mật độ Dựa trên các kết nối giữa các đối DBSCAN, OPTICS, Denclue
tượng và hàm mật độ
Dựa trên lưới Dựa trên cấu trúc độ nhiều cấp STING, WaveCluster,
CLIQUE
Dựa trên mô hình Gỉa định mỗi cụm có một mô hình và EM, SOM, COBWEB
tìm cách fit mô hình đó vào mỗi cụm
19
Hình 2.2.3.2.c. Phương pháp K- means
Các phương pháp đánh giá phân cụm dữ liệu:
Đánh giá ngoài: Là đánh giá kết quả phân cụm dựa vào cấu trúc/ xu hướng phân cụm
được chỉ định trước cho tập dữ liệu.
So sánh độ sai khác giữa các cụm
So sánh với kết quả mẫu (đáp án)
Đánh giá nội bộ: Là đánh giá kết quả mà không có thông tin từ bên ngoài, chủ yếu dựa
trên các vector chính của dữ liệu thông qua ma trận xấp xỉ. Các độ đo được sử dụng trong
phương pháp này: Hubert’s statistic, Silhouette index, Dunn’s index, F-ratio, DBI
Silhouette index [-1;1]
s1=(b1-a1)/max(a1,b1)
Giả sử có 2 cụm A và B được tìm thấy dựa trên K-means clustering
a1 là khoảng cách từ điểm 1 trong cụm A đến trung tâm của cụm A
b1 là khoảng cách từ điểm 1 trong cụm B đến trung tâm của cụm B
Nguyên tắc đánh giá (theo kinh nghiệm của các tác giả trong tài liệu “Data mining and
Predictive analytics” của nhà xuất bản Wiley):
Chỉ số Silhouette index nằm trong khoảng từ -1 đến 1, giá trị này càng lớn (càng tiến
gần đến 1) thì kết quả phân cụm càng đáng tin cậy, được phân làm các giá trị sau:
Silhouette index 0,5 : sát thực tế.
0,25 Silhouette index 0,5 : cần đánh giá lại
Silhouette index 0,25 :không tin tưởng và cluster, tìm phương pháp đánh giá khác.
20
Hai thước đo đánh giá phổ biến nhất : Hệ số Sihouette và chỉ số DUNN’S Index
Chương 3: Mô hình nghiên cứu đề xuất
Tệp chứa 12 cột và 5000 hàng. Dữ liệu bao gồm thông tin nhân khẩu học của khách hàng
(tuổi, thu nhập, v.v.), mối quan hệ của khách hàng với ngân hàng (thế chấp, tài khoản chứng
khoán, v.v.) và phản hồi của khách hàng đối với chiến dịch cho vay cá nhân gần đây nhất (Cho
vay cá nhân). Nguồn thu thập dữ liệu (https://www.kaggle.com/datasets/krantiswalke/bank-
personal-loan-modelling). Mô tả các cột như sau:
ID: ID của khách hàng, được định dạng là biến định tính.
Age: Tuổi khách hàng, được định dạng là biến định tính.
Experience: Số năm đã là khách hàng của ngân hàng, được định dạng là biến định tính.
Income: Thu nhập theo năm của khách hàng (1000$), được định dạng là biến định
lượng.
Family: Số lượng thành viên trong gia đình, được định dạng là biến định tính.
CCAvg: Điểm tín dụng trung bình (1-10), được định dạng là biến định lượng.
Education: Trình độ của khách hàng (cấp 1,2,3), được định dạng là biến định tính.
1: Đại học;
2: Tốt nghiệp;
3: Nâng cao/Chuyên nghiệp
Mortgage: Có thế chấp hay không (0 = Không, 1 = Có), được định dạng là biến định
tính.
Personal Loan: 0 = Từ chối , 1 = Cấp thuận, được định dạng là biến định tính.
Securities Account : Có tài khoản chứng khoán hay không (0 = Không, 1 = Có), được
định dạng là biến định tính.
Online : Có tài khoản giao dịch trực tuyến hay không (0 = Không, 1 = Có), được định
dạng là biến định tính.
Credit Card : Có thẻ tín dụng hay không (0 = Không, 1 = Có), được định dạng là biến
định tính.
21
Chương 4: Kết quả thực hiện mô hình
4.1. Tiền xử lý dữ liệu
4.1.1. Role của các thuộc tính
Đầu tiên, ta nạp dữ liệu Bank_Personal_Loan vào File. Các bước thực hiện như sau: Ta
vào File, chọn bộ dữ liệu từ bộ nhớ. Để có thể quan sát được dữ liệu, ta liên kết File vào Data
Tables. Vì đề tài của nhóm là dự đoán khách hàng có chấp nhận khoản vay cá nhân của ngân
hàng nên nhóm đã chọn thuộc tính “Personal.Loan” làm biến target.
22
Hình 4.1.1.a. Dữ liệu đầu vào
23
Hình 4.1.2. Kết quả thống kê mô tả của các biến
Từ bảng kết quả trên, ta thấy dữ liệu gốc không xuất hiện Missing data (hay dữ liệu bị
thiếu) nên không cần phải có khâu xử lí dữ liệu thiếu.
4.1.3. Loại bỏ các thuộc tính không ảnh hưởng đến biến phụ thuộc
Khi sử dụng công cụ Rank ta thấy các biến ID, Age, Experience, Online và CreditCard
có hai chỉ số Gain ratio và Gini đều có giá trị bằng 0,000; điều này chứng minh rằng các biến
không có ảnh hưởng lớn đến biến phụ thuộc “Personal.Loan”. Nên nhóm quyết định loại biến
này khỏi mô hình bằng công cụ Select Columns trong quá trình tiền xử lý.
24
Hình 4.1.3.a. Kết quả khi sử dụng công cụ Rank
25
Hình 4.1.3.b. Kết quả khi sử dụng công cụ Select Columns
Sau khi loại bỏ các biến không ảnh hưởng, nhóm đã sử dụng công cụ Data Sampler để
lấy 4999 mẫu để sử dụng cho việc phân cụm và phân lớp vì phần mềm Orange chỉ xử lý được
tối đa 5000 dòng dữ liệu.
26
Hình 4.1.3.c. Data Sampler của Bộ Tiền xử lý dữ liệu
27
Hình 4.1.4.a. Dữ liệu đầu vào
29
Hình 4.2.b. Quy trình thực hiện Tiền xử lý dữ liệu
4.2.1. Phương pháp Hierarchical Clustering:
30
Hình 4.2.1.a. Kết quả phân cấp
Sau nhiều lần thực phân cụm với các phương pháp tính liên kết khác nhau thì nhóm đã
quyết định lựa chọn phân cụm phương pháp Hierarchical clustering với cách tính khoảng cách
Complete-link (khoảng cách lớn nhất). Kết quả sau nhiều thao tác thử cho thấy ta nên phân
toàn bộ các mẫu trong bộ dữ liệu ra làm hai phân cụm.
31
Hình 4.2.1.b. Bảng Silhouette Plot cho 2 phân cụm phân cấp
Dựa trên nguyên tắc đánh giá chỉ số Silhouette, qua bảng kết quả phân bộ dữ liệu thành
2 cụm với phương pháp Hierarchical clustering, ta thấy: Cụm 1 (màu xanh) có các giá trị
Silhouette là 0.823 (hầu như các giá trị đều lớn hơn 0.6). Còn đối với Cụm 2 (màu đỏ) thì có
giá trị Silhouette là 0.560. Những giá trị này đa số thỏa mãn nguyên tắc đánh giá đề ra nên kết
quả phân cụm như trên là đáng tin cậy. Dưới đây là bảng kết quả phân cụm bằng phương pháp
Hierarchical clustering:
32
Hình 4.2.1.c. Bảng kết quả khi sử dụng phương pháp Hierarchical clustering
4.2.2. Phương pháp k-Means:
34
Hình 4.2.2.b. Bảng Silhouette Plot cho 2 phân cụm phân hoạch
Ta vẫn dựa theo nguyên tắc đã nêu ra ở mục 4.2.1 để đánh giá từng cụm ở phương pháp
này. Theo kết quả của bảng trên ta thấy với Cụm 1 (màu xanh) có giá trị Silhouette là 0.420. Có
thể nói cách phân cụm chưa thật sự đáng tín cậy, sát với thực tế và cẩn thêm các chuyên gia có
kinh nghiệm, chuyên môn để đánh giá lại. Còn Cụm 2 (màu đỏ) có giá trị Silhouette là 0.576,
vậy ta thấy kết quả này là sát thực tế. Dưới đây là bảng kết quả phân cụm bằng phương pháp k-
Means:
35
Hình 4.2.2.c. Bảng kết quả khi sử dụng phương pháp k-Means
4.3. So sánh với nhãn ban đầu
Sau khi có được bảng dữ liệu của từng phương pháp phân cụm, nhóm sử dụng công cụ
Merge Data để gộp bộ Tiền xử lý dữ liệu với kết quả phân cụm của từng phương pháp để tiến
hành so sánh nhãn.
Hình 4.3.c. Bảng dữ liệu sau khi gộp với bảng kết quả phân cụm bằng k-Means
37
Hình 4.3.d. Quá trình thực hiện gộp dữ liệu
4.3.1. Phương pháp Hierarchical Clustering:
Sau khi tiến hành phân cụm dữ liệu, bắt đầu trích xuất dữ liệu ra dạng bảng dưới dạng
excel để tiến hành so sánh với nhãn hiện có.
Hình 4.3.1.a. Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có
Tiến hành dán nhãn bằng cách thay giá trị C1 trong Cluster thành 1, C2 thành 0
38
Hình 4.3.1.b. Thay giá trị cho kết quả đã phân cụm
Tiếp theo, ta tiến hành so sánh từng biến trong dữ liệu phân cụm theo phương pháp
Hierarchical clustering với nhãn hiện có bằng Excel với câu lệnh “=J2=H2”, thu được kết quả
như sau:
39
Cuối cùng, ta thực hiện đếm số lượng mẫu đã phân cụm chính xác bằng câu lệnh
=COUNTIF(K2:K5000,K2), sau đó lấy số mẫu đã phân cụm chính xác chia cho tổng số 4999
mẫu đã có nhãn. Kết quả thu được mẫu phân cụm chính xác, chiếm 89.84%
Hình 4.3.1.e. Bảng hiển thị kết quả so sánh với nhãn hiện có
40
4.3.2. Phương pháp k-Means:
Sau khi tiến hành phân cụm dữ liệu, bắt đầu trích xuất dữ liệu ra dạng bảng dưới dạng
excel để tiến hành so sánh với nhãn hiện có.
Hình 4.3.2.a. Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có
Tiến hành dán nhãn bằng cách thay giá trị C1 trong Cluster thành 1, C2 thành 0
Hình 4.3.2.b. Thay giá trị cho kết quả đã phân cụm
41
Tiếp theo, ta tiến hành so sánh từng biến trong dữ liệu phân cụm theo phương pháp k-
Means với nhãn hiện có bằng Excel với câu lệnh “=K2=I2”, thu được kết quả như sau:
42
Hình 4.3.2.d. Kết quả sau khi so sánh
Hình 4.3.2.e. Bảng hiển thị kết quả so sánh với nhãn hiện có
Như vậy sau khi thực hiện so sánh phân cụm theo 2 phương pháp với nhãn hiện có thì
phân cụm theo phương pháp Hierarchical clustering đáng tin cậy và chính xác hơn phương
pháp K-means theo phương án đánh giá ngoại (89.94% > 80.64%)
43
4.4. Phân lớp dữ liệu
4.4.1. Xây dựng mô hình phân lớp
Nhóm sử dụng dữ liệu ban đầu (có nhãn và đã thực hiện tiền xử lý) và chọn biến target
là “Personal.Loan” để tiến hành phân lớp. Nhóm thực hiện phân lớp theo ba phương pháp:
Cây quyết định (Decision Tree)
Hồi quy Logistic (Logistic Regression)
SVM (Support Vector Machine)
Hình 4.4.1.a. Dữ liệu đầu vào để thực hiện phân lớp dữ liệu
44
Hình 4.4.1.b. Quy trình thực hiện phân lớp dữ liệu
4.4.2. Các phương pháp đánh giá mô hình
4.4.2.1. Test and Score
Sử dụng Test and Score để so sánh và đánh giá các phương pháp (Logistic Regression,
Tree và SVM), để lựa chọn phương pháp tốt nhất, chính xác nhất phục vụ cho việc dự báo.
Tại bảng Test and Score có nhiều cách chia tỉ lệ lấy mẫu khác nhau như Cross validation
hay Random Sampling. Dưới đây là một số kết quả tại Bảng Test and Score với 1 số cách chia
tỉ lệ lấy mẫu khác nhau:
Cross validation với Number of folds là 5 và 10 (chia mẫu dữ liệu thành 5 và 10 phần):
45
Hình 4.4.2.1.a. Kết quả chi mẫu dữ liệu thành 5 phần
46
Random sampling với tỷ lệ 10 - 66% và 20 – 70%:
Hình 4.4.2.2.a. Kết quả Ma trận nhầm lẫn của phương pháp Decision Tree
48
Hình 4.4.2.2.b. Kết quả Ma trận nhầm lẫn của phương pháp SVM
Hình 4.4.2.2.c. Kết quả Ma trận nhầm lẫn của phương pháp Logistic Regression
Đánh giá: Dựa vào lý thuyết trên và các kết quả thu được khi thao tác với Ma trận nhầm
lẫn, ta có thể nhận xét được rằng mô hình của phương pháp Decision Tree mang lại kết quả tốt
nhất khi chỉ số Accuracy = 0.9826. Phương pháp Hồi quy Logistic và phương pháp SVM lần
lượt có giá trị là 0,9448 và 0,9432. Như vậy, theo Ma trận nhầm lẫn thì phương pháp Cây quyết
định là phương pháp phù hợp nhất.
49
4.4.2.3. ROC Analysis
50
4.6. Dự báo
Sau khi đã đánh giá các mô hình phân lớp và lựa chọn ra mô hình tốt nhất là Decision
Tree, ta sử dụng Predicyions để dự báo cho bộ Forecast data gồm 50 quan sát đã được trích từ
bộ Tiền xử lý dữ liệu.
51
Hình 4.6.b. Dữ liệu đầu vào của Forecast data
52
Hình 4.6.c. Kết quả Dự báo
Sau khi hoàn thành dự báo ta thực hiện lưu kết quả dự báo về máy với tên File
là Bank_Personal_Loan (Kết quả Dự báo).xlxs
Chương 5: Kết luận và Đề xuất
Nội dung nghiên cứu trong đề tài, nhóm đã đưa ra các phân tích phân cụm dữ liệu và so
sánh tỷ lệ phần trăm chính xác so với các nhãn ban đầu trên phần mềm Orange rồi tiến hành
khai thác xử lý chúng để đưa ra các dữ liệu cần thiết. Các dữ liệu này lại được tối ưu hoá và
đem vào sử dụng một cách hiệu quả trên các cơ sở dữ liệu được lưu trữ bởi phần mềm Excel.
Đề tài đã đi sâu vào tính ứng dụng đưa ra cách thức xử lý các dữ liệu một cách phù hợp và linh
hoạt.
Thực hiện phân tích dữ liệu này có thể mang lại nhiều lợi ích khác nhau chẳng hạn như
chúng ta sẽ đoán được liệu khách hàng có đăng ký một khoản vay cá nhân hay không dựa trên
hồ sơ của khách hàng có các thuộc tính: tuổi, kinh nghiệm, học vấn,… Mục đích cuối cùng đó
là thu hút khách hàng có thể quay lại. Nó mang lại tính ổn định và tạo ra khách hàng trung
thành mang lại giá trị cho ngân hàng trong dài hạn và tạo ra doanh thu và lợi nhuận lớn.
54