Chương 4 Kết luận khdl

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 3

Chương 4: KẾT LUẬN VÀ HẠN CHẾ – GIẢI PHÁP

4.1. Kết luận


Thông qua việc thu nhập dữ liệu và nghiên cứu, bài nghiên cứu đã làm rõ
được các mục tiêu đã đề cập như ở trong chương 1. Bài nghiên cứu đã sử dụng
công nghệ để áp dụng lên cho lĩnh vực tài chính hiện nay rất được nhiều người
quan tâm và bài nghiên cứu đã được ứng dụng điều này rất hợp lý. Bài nghiên
cứu “Nghiên cứu các dữ liệu từ khách hàng làm mục tiêu đánh giá và dự báo
các khách hàng đã hoặc chưa đăng ký tiền gửi có kỳ hạn” đã ứng dụng phần
mềm Orange trong việc phân tích dữ liệu, qua đó có thể biết được các khoản
tiền đã ký gửi ở Ngân hàng, những khoản tiền nào gần đến ngày đáo hạn và
hơn hết là biết được thông tin khách hàng để dễ dàng tiếp cận tạo ra một nguồn
cho các Ngân hàng để cho vay với một lãi suất cố định. Nhìn chung, đề tài đã
cơ bản hoàn thành các mục tiêu nghiên cứu đề ra thông qua 2 phương diện:
- Về lý thuyết, bài nghiên cứu đã trình bày được các cơ sở lý thuyết tổng quan
về kỹ thuật khai phá dữ liệu thì mô hình Logistic Regression là phù hợp nhất.
- Về thực nghiệm, áp dụng nền tảng lý thuyết nghiên cứu được những khoản
tiền nào gần đến ngày đáo hạn và hơn hết là biết được thông tin khách hàng để
dễ dàng tiếp cận tạo ra một nguồn cho các Ngân hàng để
cho vay với một lãi suất cố định, thông qua biến phụ thuộc là sử dụng “4521 dữ
liệu khách hàng được lấy từ (tháng 5 năm 2008 đến tháng 11 năm 2010)” và
biến độc lập gồm 16 biến: Age, Job,Marital, Education, Default, Balance,
Housing, Loan, Contact, Day, Month, Duration, Campaign, Pday, Previous,
Poutcome. Bài nghiên cứu đã đề xuất xây dựng 4 thuật toán cho quá trình huấn
luyện mô hình bao gồm: Decision Tree, SVM, Neural Network và Logistic
Regression, sau khi có kết quả cho ra các chỉ số để đánh giá so sánh với nhau
thì mô hình Logistic Regression là phù hợp nhất.
Với việc triển khai áp dụng kết quả này trong việc biết được các khoản tiền nào
gần đến ngày đáo hạn và biết được thông tin khách hàng tìềm năng gửi tiền cho
Ngân hàng để tạo ra một nguồn để cho vay với một lãi suất cố định. Cụ thể, các
“khách hàng đã đăng ký tiền gửi có kỳ hạn chưa” được gán biến “Y” cho ra hai
kết quả “YES – Có” và “NO – chưa”. Trong 4000 trường hợp NO thì lượng
mẫu được phân lớp đúng lên đến 3912 và có 88 mẫu bị phân lớp nhầm. Qua đó,
Ngân hàng sẽ biết được chính xác sẽ có 3912 khách hàng chưa có kỳ hạn.
4.2. Hạn chế và giải pháp
Mặc dù đã nỗ lực hết mình để hoàn thành bài nghiên cứu, tuy nhiên, trong
quá trình làm bài, tôi không thể tránh khỏi một số hạn chế do các yếu tố chủ
quan, cũng như khách quan:
Thứ nhất, do hạn chế về mặt thời gian (hoàn thành trong khoảng 1 tháng) và
không gian thực hiện, phương pháp thu nhập dữ liệu từ trang
https://www.kaggle.com để đảm bảo dữ liệu có dạng chuẩn gốc và thuận tiện.
Tính đại diện cùng với khả năng suy rộng cho tổng thể của mẫu chưa được
tuyệt đối vì chỉ số F1 khi sử dụng thuật toán Logistic Regression chỉ khoảng
88,7%.
Thứ hai, các biến được thu thập trong bài là dữ liệu thu thập từ tháng 5 năm
2008 đến tháng 11 năm 2010 nên độ chính xác có thể thay đổi khi áp dụng cho
những năm sau.
Trên cơ sở những hạn chế khiến bài nghiên cứu chưa thật sự hoàn thiện, tôi xin
đề xuất một số hướng phát triển đề tài trong tương lai như sau:
Thứ nhất, hạn chế lớn nhất của bài nghiên cứu này là số lượng và sự đồng
nhất trong việc chọn mẫu chưa cao nên tính đại diện còn hạn chế. Nhóm mong
trong các đề tài tiếp theo sẽ khắc phục được hạn chế này bằng cách đầu tư thu
thập dữ liệu của nhiều khách hàng hơn nữa để thu được số lượng mẫu thích hợp
nhất. Đồng thời triển khai dự đoán, kiểm chứng thực tế và đánh giá kết quả một
cách thường xuyên để tăng độ chính xác.
Thứ hai, hi vọng các đề tài nghiên cứu trong thời gian tới sẽ phát hiện ra nhiều
mô hình phù hợp hơn nhằm đi đến kết luận chính xác về các yếu tố thật sự có
ảnh hưởng đến Ngân hàng. Bài nghiên cứu nghiên về lĩnh vực tài chính trong
khi đó những lĩnh vực về công nghệ thông tin sẽ được truyền tải không chặt
chẽ qua phần cơ sở lý thuyết và việc sử dụng các công cụ như Orange còn một
số lỗi kỹ thuật nhất định.

You might also like