Thông qua việc thu nhập dữ liệu và nghiên cứu, bài nghiên cứu đã làm rõ được các mục tiêu đã đề cập như ở trong chương 1. Bài nghiên cứu đã sử dụng công nghệ để áp dụng lên cho lĩnh vực tài chính hiện nay rất được nhiều người quan tâm và bài nghiên cứu đã được ứng dụng điều này rất hợp lý. Bài nghiên cứu “Nghiên cứu các dữ liệu từ khách hàng làm mục tiêu đánh giá và dự báo các khách hàng đã hoặc chưa đăng ký tiền gửi có kỳ hạn” đã ứng dụng phần mềm Orange trong việc phân tích dữ liệu, qua đó có thể biết được các khoản tiền đã ký gửi ở Ngân hàng, những khoản tiền nào gần đến ngày đáo hạn và hơn hết là biết được thông tin khách hàng để dễ dàng tiếp cận tạo ra một nguồn cho các Ngân hàng để cho vay với một lãi suất cố định. Nhìn chung, đề tài đã cơ bản hoàn thành các mục tiêu nghiên cứu đề ra thông qua 2 phương diện: - Về lý thuyết, bài nghiên cứu đã trình bày được các cơ sở lý thuyết tổng quan về kỹ thuật khai phá dữ liệu thì mô hình Logistic Regression là phù hợp nhất. - Về thực nghiệm, áp dụng nền tảng lý thuyết nghiên cứu được những khoản tiền nào gần đến ngày đáo hạn và hơn hết là biết được thông tin khách hàng để dễ dàng tiếp cận tạo ra một nguồn cho các Ngân hàng để cho vay với một lãi suất cố định, thông qua biến phụ thuộc là sử dụng “4521 dữ liệu khách hàng được lấy từ (tháng 5 năm 2008 đến tháng 11 năm 2010)” và biến độc lập gồm 16 biến: Age, Job,Marital, Education, Default, Balance, Housing, Loan, Contact, Day, Month, Duration, Campaign, Pday, Previous, Poutcome. Bài nghiên cứu đã đề xuất xây dựng 4 thuật toán cho quá trình huấn luyện mô hình bao gồm: Decision Tree, SVM, Neural Network và Logistic Regression, sau khi có kết quả cho ra các chỉ số để đánh giá so sánh với nhau thì mô hình Logistic Regression là phù hợp nhất. Với việc triển khai áp dụng kết quả này trong việc biết được các khoản tiền nào gần đến ngày đáo hạn và biết được thông tin khách hàng tìềm năng gửi tiền cho Ngân hàng để tạo ra một nguồn để cho vay với một lãi suất cố định. Cụ thể, các “khách hàng đã đăng ký tiền gửi có kỳ hạn chưa” được gán biến “Y” cho ra hai kết quả “YES – Có” và “NO – chưa”. Trong 4000 trường hợp NO thì lượng mẫu được phân lớp đúng lên đến 3912 và có 88 mẫu bị phân lớp nhầm. Qua đó, Ngân hàng sẽ biết được chính xác sẽ có 3912 khách hàng chưa có kỳ hạn. 4.2. Hạn chế và giải pháp Mặc dù đã nỗ lực hết mình để hoàn thành bài nghiên cứu, tuy nhiên, trong quá trình làm bài, tôi không thể tránh khỏi một số hạn chế do các yếu tố chủ quan, cũng như khách quan: Thứ nhất, do hạn chế về mặt thời gian (hoàn thành trong khoảng 1 tháng) và không gian thực hiện, phương pháp thu nhập dữ liệu từ trang https://www.kaggle.com để đảm bảo dữ liệu có dạng chuẩn gốc và thuận tiện. Tính đại diện cùng với khả năng suy rộng cho tổng thể của mẫu chưa được tuyệt đối vì chỉ số F1 khi sử dụng thuật toán Logistic Regression chỉ khoảng 88,7%. Thứ hai, các biến được thu thập trong bài là dữ liệu thu thập từ tháng 5 năm 2008 đến tháng 11 năm 2010 nên độ chính xác có thể thay đổi khi áp dụng cho những năm sau. Trên cơ sở những hạn chế khiến bài nghiên cứu chưa thật sự hoàn thiện, tôi xin đề xuất một số hướng phát triển đề tài trong tương lai như sau: Thứ nhất, hạn chế lớn nhất của bài nghiên cứu này là số lượng và sự đồng nhất trong việc chọn mẫu chưa cao nên tính đại diện còn hạn chế. Nhóm mong trong các đề tài tiếp theo sẽ khắc phục được hạn chế này bằng cách đầu tư thu thập dữ liệu của nhiều khách hàng hơn nữa để thu được số lượng mẫu thích hợp nhất. Đồng thời triển khai dự đoán, kiểm chứng thực tế và đánh giá kết quả một cách thường xuyên để tăng độ chính xác. Thứ hai, hi vọng các đề tài nghiên cứu trong thời gian tới sẽ phát hiện ra nhiều mô hình phù hợp hơn nhằm đi đến kết luận chính xác về các yếu tố thật sự có ảnh hưởng đến Ngân hàng. Bài nghiên cứu nghiên về lĩnh vực tài chính trong khi đó những lĩnh vực về công nghệ thông tin sẽ được truyền tải không chặt chẽ qua phần cơ sở lý thuyết và việc sử dụng các công cụ như Orange còn một số lỗi kỹ thuật nhất định.