Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 3

Bộ dữ liệu

Tên cột Miêu tả đặc tính

Age Độ tuổi khách hàng

Công việc
Job (phân loại: “admin”, “unknown”, “unemployed”, “management”,
“housemaid”, “entrepreneur”, “student”, “blue-collar”, “self-
employed”, “retired”, “technician”, “services”)

Tình trạng hôn nhân


Marital (phân loại: “married”, “divorced”, “single”; divorced bao gồm đã ly
hôn hoặc góa bụa )

Giáo dục
Education
(phân loại: “unknown”, “secondary”, “primary”, “tertiary”)

Có nằm trong tình trạng vỡ nợ hay không?


Default
(yes/no)

Số dư trung bình hàng năm


Balance
Bằng euro (số)

Có khoản vay mua nhà nào không?


Housing
(yes/no)

Có khoản vay cá nhân không?


Loan
(yes/no)

Loại liên lạc


Contact
(“unknown”, “telephone”, “cellular”)

Ngày liên hệ cuối cùng trong tháng


Day
(Số)

Tháng liên hệ cuối cùng trong năm


Month
(“jan”, “feb”,…, “nov”, “dec”)

Thời lượng liên hệ cuối cùng


Duration
Tính bằng giây (số)
Số liên hệ được thực hiện trong chiến dịch này và cho khách hàng này
Campaign
(Số, bao gồm liên hệ cuối cùng)

Số ngày trôi qua sau khi khách hàng được liên hệ lần cuối từ 1 chiến
Pday dịch trước đó
(Số, “-1” có nghĩa là khách hàng chưa được liên hệ trước đó)

Số lượng địa chỉ liên hệ được thực hiện trước chiến dịch này và cho
Previous khách hàng này
(Số)

Kết quả của chiến dịch tiếp thị trước đó


Poutcome
(“unknown”, “other”, “failure”, “success”)

Khách hàng đã đăng ký tiền gửi có kỳ hạn chưa?


Y
(yes/no)

Nhằm ứng dụng khai phá dữ liệu trong việc thực hiện các mục tiêu tiếp thị của các
ngân hàng (Marketing Target), bộ dữ liệu của bài nghiên cứu được lấy từ trang
https://www.kaggle.com/ gồm 17 yếu tố như Age, Job, Marital, Education, Default, Balance,
Housing, Loan, Contact, Day, Month, Duration, Campaign, Pday, Previous, Poutcome, Y.
Đầu tiên chúng ta sẽ đưa bộ dữ liệu gồm 4521 khách hàng (được lấy từ tháng 5 năm
2008 đến tháng 11 năm 2010) vào phần mền Orange và khai báo các thuộc tính cho các biến.
Trong đó các biến độc lập gồm Age, Job, Marital, Education, Default, Balance, Housing,
Loan, Contact, Day, Month, Duration, Campaign, Pday, Previous, Poutcome được khai báo
thuộc tính là feature; biến phụ thuộc Y được gán nhãn thành 2 loại: “yes”, “no” được khai
báo thuộc tính là target.
Chèn hình thuộc tính dô đây
Dữ liệu còn vài thông tin bị thiếu nên thông qua công cụ Preprocess để xử lý dữ liệu
thiếu dùng phương pháp thay bằng giá trị trung bình/ giá trị xuất hiện thường xuyên nhất.
Chèn hình Preprocess
Và cũng thông qua công cụ Data Sampler để chia thành dữ liệu gồm 4521 khách hàng
thành hai dữ liệu là dữ liệu Train và dữ liệu Test với tỷ lệ 70% Train và 30% Test:
Chèn hình bảng công cụ Data Sampler
o Dữ liệu Train: gồm 3165 khách hàng ngẫu nhiên dùng để training được thể
hiện qua 16 biến độc lập được nêu ở trên và dựa vào đó, biến phụ thuộc được
chia làm 2 loại là Yes (khách hàng đã đăng ký tiền gửi có kỳ hạn) và No
(khách hàng chưa đăng ký tiền gửi có kỳ hạn).
Chèn hình
o Dữ liệu Test: gồm 1356 khách hàng còn lại từ bộ dữ liệu 4521 khách hàng và
cũng được thể hiện qua 16 biến độc lập và biến phụ thuộc như dữ liệu Train
nhưng biến phụ thuộc sẽ bị thay đổi thông qua phần mềm Orange, sau khi đã
training bộ dữ liệu train, thì sẽ lựa chọn phương pháp phân loại phù hợp nhất
để tiến hành phân loại cho bộ dữ liệu Test.
Chèn hình

You might also like