Professional Documents
Culture Documents
G01 - Baitap2
G01 - Baitap2
BÀI LÀM
Sử dụng file dữ liệu BANK MARKETING có sẵn trong Orange để thực hiện bài
làm.
Chọn dữ liệu Bank Marketing từ Datasets trong phần mềm Orange. Sau khi sử
dụng Data Table xuất ra bảng dữ liệu, ta có nhận xét:
Quan sát bộ dữ liệu, nhận thấy dữ liệu thiếu nằm hoàn toàn trong cột “pdays”.
Sử dụng Impute để làm sạch dữ liệu bằng cách lựa chọn giá trị ngẫu nhiên để điền bổ
sung vào cột “pdays”.
Bộ dữ liệu sau khi xử lý các dữ liệu thiếu sẽ được kết quả như sau:
2.2. Outliers
Nhóm sử dụng Outliers để nhận diện phần tử biên, loại bỏ các giá trị ngoại lai từ đó
giảm thiểu nhiễu.
Bộ dữ liệu sau khi nhận diện được phần tử biên, loại bỏ các giá trị ngoại lai, giảm
thiểu nhiễu thu được kết quả như hình sau:
Nhận xét: Bộ dữ liệu từ 4119 trường hợp giảm xuống còn 3745 trường hợp, đã loại trừ
374 trường hợp làm nhiễu dữ liệu.
3.Nhóm các thuộc tính cần xem xét để dễ xử lý – Group by
Trong tiện ích Group by, nhóm đặt các biến xác định nhóm gồm Housing (Tình
trạng sở hữu nhà của khách hàng) và Loan (Tình trạng khoản vay) ở bên trái bảng tiện
ích. Bên phải của tiện ích, nhóm muốn tính trung bình và giá trị cao nhất cho 2 biến
cons.price.idx (Chỉ số giá tiêu dùng) và cons.conf.idx (Chỉ số sự tin tưởng).
Trong Data Table, chúng ta có thể thấy chỉ có những người về tình trạng
housing và loan chưa biết thì với giá trị cao nhất của chỉ số giá tiêu dùng là 94,465
thấp nhất so với những người còn lại. Bên cạnh đó, chỉ số sự tin tưởng có giá trị cao
nhất là không khác biệt. Tuy nhiên, người có cả nhà và khoản vay thì có trung bình chỉ
số giá tiêu dùng và chỉ số sự tin tưởng là thấp nhất lần lượt là 93,4796 và -40,6512. Và
người có chỉ số tiêu dùng cũng như chỉ số sự tin tưởng cao nhất thì thuộc về người
không có nhà nhưng lại có khoản vay.
4. Chọn thuộc tính
Sau khi sử dụng Rank, ta thấy rằng 2 thuộc tính “poutcome” và “previous” là
những thuộc tính hữu ích nhất trong việc dự đoán xem khả năng một khách hàng đồng
ý gửi tiền có kỳ hạn là cao hay thấp. Sau đó tiến hành thể hiện sự phân bố của cả 2
thuộc tính thông qua Scatter Plot.
Hình dưới đây cho thấy tương quan của “previous” và biến “y”.
Hình dưới đây cho thấy tương quan của “poutcome” và biến “y”.
Hình dưới đây cho thấy mối quan hệ kết hợp giữa “poutcome” và “previous” đến biến
“y”.
Nhận xét: Đối với những khách hàng có kết quả của chiến dịch trước đó (poutcome) là
thành công và với số lần liên lạc bất kỳ (previous) đã thực hiện trước chiến dịch này
(dù đã liên lạc 1, 2 hay 3 lần,...) thì tỉ lệ khách hàng đồng ý gửi tiền có kỳ hạn sẽ
chiếm phần lớn.
5. Lấy mẫu
Lấy ngẫu nhiên 1000 dòng từ dữ liệu đã xử lý và lưu bảng dữ liệu mới dưới dạng file
Excel.