Đ Án KHDL Nhóm 4

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH
ĐỒ ÁN KẾT THÚC HỌC PHẦN

Môn học: Khoa học dữ liệu
ĐỀ TÀI: XÂY DỰNG MÔ HÌNH PHÂN TÍCH DỮ LIỆU ĐỂ XÁC ĐỊNH
KHÁCH HÀNG TIỀM NĂNG CHO SIÊU THỊ
Giảng viên hướng dẫn : Nguyễn Mạnh Tuấn

Mã lớp học phần : 23C1INF50905969
Phòng học : B2-103-ST7
Nhóm sinh viên thực hiện MSSV

Nguyễn Châu Anh 31221027053
Nguyễn Phương Nhung 31221026813
Nguyễn Thị Kim Cương 31221023123
Hoàng Ngọc Anh 31221021529
Trần Hoàng Minh 31221021126
TP Hồ Chí Minh, ngày 8 tháng 12 năm 2023

1
#
BẢNG ĐÁNH GIÁ MỨC ĐỘ THAM GIA CỦA CÁC THÀNH VIÊN
STT Họ và Tên Nhiệm vụ Đánh giá

1 Nguyễn Châu Anh - Thảo luận đề tài 100%
- Tìm bộ dữ liệu
- Làm bài toán 1
2 Nguyễn Phương Nhung - Làm danh mục bảng, hình ảnh, biểu đồ, mục 100%
lục
- Làm bài toán phân cụm và đưa ra nhận xét,
kiến nghị
3 Nguyễn Thị Kim Cương - Mô tả nguồn dữ liệu và cấu trúc dữ liệu 100%
- Tiền xử lí dữ liệu
- Xác định biến độc lập và biến phụ thuộc
- Tổng quan chương 3
4 Hoàng Ngọc Anh - Thảo luận đề tài 100%
- Xây dựng phương pháp phân lớp dữ liệu,
thực hiện bài toán phân lớp.
5 Trần Hoàng Minh - Tổng quan lý thuyết chương 1 100%
- Thảo luận đề tài
2
Danh mục bảng
Bảng: Mô tả về những thuộc tính (Attribute) của dữ liệu
Danh mục hình ảnh

Hình 1: Xây dựng mô hình phân lớp
Hình 2: Đánh giá mô hình phân lớp
Hình 3: Quá trình phân lớp dữ liệu
Hình 4: Quá trình phân cụm dữ liệu
Hình 5: Phân cụm dữ liệu bằng phương pháp K-means
Hình 6: Các bước phân cụm bằng phương pháp K-means
Hình 7: Quy trình lọc trường không cần thiết
Hình 8: Thông tin dữ liệu trong bảng Rank
Hình 9: Quy trình tách dữ liệu ngẫu nhiên với Data Sampler
Hình 10: Xác định trường là biến phụ thuộc với Select column
Hình 11: Mô hình chuẩn bị dữ liệu
Hình 12: Quá trình thực hiện phân tách dữ liệu
Hình 13: Xây dựng mô hình phân lớp dữ liệu
Hình 14: Kết quả đánh giá mô hình bằng phương pháp K-fold
Hình 15: Kết quả ma trận nhầm lẫn của phương pháp Tree
Hình 16: Kết quả ma trận nhầm lẫn của phương pháp Logistic Regression
Hình 17: Kết quả ma trận nhầm lẫn của phương pháp SVM
Hình 18: Kết quả ma trận nhầm lẫn của phương pháp Neural Network
Hình 19: Mô hình dự báo khách hàng tiềm năng
Hình 20: Kết quả dự báo
Hình 21: Mô hình phân cụm theo k-Means
Hình 22: Kết quả k-Means
Hình 23: Kết quả chỉ số Silhouette của các mẫu quan sát khi phân thành 2 cụm
Hình 24: Kết quả 2 mẫu quan sát có chỉ số Silhouette cao nhất của từng cụm
3
Danh mục biểu đồ
Biểu đồ 1: Biểu đồ thể hiện phân loại khách hàng
Biểu đồ 2: Biểu đồ thể hiện giới tính khách hàng
Biểu đồ 3: Biểu đồ thể hiện số lượng hàng mua
Biểu đồ 4: Biểu đồ thể hiện phương thức thanh toán
Biểu đồ 5: Biểu đồ thể hiện vị trí các chi nhánh siêu thị
Biểu đồ 6: Biểu đồ thể hiện xếp hạng đánh giá trải nghiệm mua sắm của khách hàng
(thang điểm 10)
Biểu đồ 7: Biểu đồ thể hiện phân loại sản phẩm
Biểu đồ 8: Phân cụm vị trí siêu thị theo loại khách hàng
Biểu đồ 9: Phân cụm hình thức thanh toán theo loại khách hàng
Biểu đồ 10: Phân cụm phân loại mặt hàng theo loại khách hàng
Biểu đồ 11: Phân cụm giới tính khách hàng theo loại khách hàng
Nguồn dữ liệu, các xử lý, file Excel, Orange,...:
https://drive.google.com/drive/folders/1_Frf5xKQl9Nvo76U4d6ZpUlRxuw0GfNC?
fbclid=IwAR11GZ8s-yO5XGkmevKpWxkGSqbytJy3g4s-2IkjJ9Z_72JFiMwfh2K6mJ0
4
MỤC LỤC
LỜI MỞ ĐẦU..............................................................................................................................6
Chương 1. Tổng quan.................................................................................................................7
1.1 Giới thiệu khoa học dữ liệu.....................................................................................................7
1.2 Giới thiệu về đồ án..................................................................................................................8
Chương 2: Quy trình thực hiện và kết quả.............................................................................15
2.1 Mô tả nguồn dữ liệu và cấu trúc của dữ liệu................................................................15
2.2 Tiền xử lý dữ liệu..........................................................................................................16
2.2.1. Xử lý và lọc các dữ liệu bị thiếu, các trường không cần thiết..........................16
2.2.2. Phân tách dữ liệu..............................................................................................17
2.3 Xác định biến độc lập và biến phụ thuộc.....................................................................18
2.4 Bài toán 1: Mô tả dữ liệu bằng lược đồ và các công cụ thống kê để phát hiện tính đặc
thù của bộ dữ liệu...............................................................................................................19
2.4.1 Mô tả bài toán...................................................................................................19
2.4.2 Tiến hành phân tích dữ liệu...............................................................................19
2.4.3 Kết luận bài toán 1............................................................................................26
2.5 Bài toán 2: Bài toán phân lớp.......................................................................................27
2.5.1 Mô tả bài toán..................................................................................................27
2.5.2 Chạy mô hình và đánh giá kết quả....................................................................27
2.6 Bài toán 3: Bài toán phân cụm......................................................................................38
2.6.1 Mô tả bài toán...................................................................................................38
2.6.2 Quy trình thực hiện...........................................................................................38
2.6.3 Chạy mô hình và đánh giá kết quả....................................................................38
2.6.4 Các kiến nghị từ kết quả và những phát hiện....................................................43
Chương 3. Kết luận...................................................................................................................44
3.1 Kết luận.........................................................................................................................44
3.2 Những hạn chế trong nghiên cứu đồ án........................................................................44
3.3 Một số kiến nghị cho doanh nghiệp trong việc dự đoán khách hàng tiềm năng..........44
5
LỜI MỞ ĐẦU
Khoa học dữ liệu là một lĩnh vực mới mẻ và đầy tiềm năng trong thời đại công nghệ 4.0.
Khoa học dữ liệu không chỉ giúp chúng ta hiểu được những xu hướng, mẫu và quy luật ẩn sau
những dữ liệu khổng lồ, mà còn giúp chúng ta tạo ra những giải pháp sáng tạo và hiệu quả cho
các bài toán thực tế trong nhiều lĩnh vực khác nhau, như y tế, giáo dục, kinh tế, kinh doanh, an
ninh,…
Trong số các lĩnh vực có thể áp dụng Khoa học dữ liệu, ngành kinh doanh bán lẻ là một
trong những ngành có nhu cầu và tiềm năng cao. Ngành kinh doanh bán lẻ phải đối mặt với
nhiều thách thức, như cạnh tranh gay gắt, thị trường biến động, khách hàng đa dạng, ... Để tồn
tại và phát triển, các doanh nghiệp trong ngành kinh doanh bán lẻ cần phải nắm bắt được nhu
cầu và hành vi của khách hàng, cũng như tối ưu hóa các chiến lược kinh doanh, như giá cả, sản
phẩm, quảng cáo, khuyến mãi,…
Trong khuôn khổ của đề án kết thúc môn Khoa học dữ liệu, chúng em quan tâm đến việc áp
dụng Khoa học dữ liệu để giải quyết một bài toán cụ thể trong ngành kinh doanh bán lẻ, đó là
bài toán dự đoán khách hàng tiềm năng cho siêu thị. Đây là một bài toán quan trọng và thực tế,
vì nó có thể giúp siêu thị tăng doanh thu, giảm chi phí, nâng cao chất lượng dịch vụ và khách
hàng. Bằng cách dự đoán được những khách hàng có khả năng mua hàng cao, siêu thị có thể
tập trung vào việc chăm sóc và tăng cường mối quan hệ với họ, cũng như đưa ra các chương
trình khuyến mãi và ưu đãi phù hợp. Điều này sẽ giúp siêu thị tăng sự hài lòng và trung thành
của khách hàng, cũng như thu hút được nhiều khách hàng mới.
6
Chương 1. Tổng quan
1.1 Giới thiệu khoa học dữ liệu
1.1.1 Khoa học dữ liệu là gì?
- Khoa học dữ liệu (Data Science) là một lĩnh vực liên ngành về các quá trình và các hệ thống
rút trích tri thức hoặc hiểu biết từ dữ liệu ở các dạng khác nhau, kể ở dạng cấu trúc hay phi cấu
trúc.
1.1.2 Nhiệm vụ của khoa học dữ liệu
- Thu thập : Thu thập dữ liệu, nhập dữ liệu, tiếp nhận tín hiệu, trích xuất dữ liệu.
- Giải thích, trình bày những kết quả đó cho các bên liên quan đến chuyển hóa các kết quả
thành hành động.

1.1.3 Thành phần của khoa học dữ liệu
- Bao gồm 2 phần chính :
+ Data là thành phần đầu tiên của cụm data science, nếu thiếu nó thì tất cả các quá trình tiếp
theo đều không thể thực hiện được. Việc đầu tiên phải làm sau khi có dữ liệu là làm sạch dữ
liệu và biến đổi dữ liệu, nó chiếm đến 80% tổng thời gian thực hiện phân tích.
+ Science đã có dữ liệu rồi, cần phải phân tích, trích rút có quy luật có ích và sử dụng chúng
một cách có hiệu quả. Ở đây, một số lĩnh vực sẽ giúp ích chúng ta như thống kê máy học, học
sâu, tối ưu.
1.1.4 Những lĩnh vực của khoa học dữ liệu
- Khai thác dữ liệu (Data mining): là quá trình tìm kiếm, phân loại và phân tích dữ liệu lớn để
tìm ra các mô hình và quy luật ẩn.
- Thống kê (Statistic): Sử dụng các phương pháp thống kê để thu nhập, phân tích, diễn giải và
trình bày dữ liệu.
- Học máy (Machine learning): Là một nhánh của trí tuệ nhân tạo, tập trung vào việc phát triển
các thuật toán cho phép máy tính học hỏi từ dữ liệu.
- Phân tích (Analyze): Sử dụng các phương pháp toán học và thống kê để hiểu và diễn giải dữ
liệu.
- Lập trình (Programming): Sử dụng các ngôn ngữ lập trình như Python, R, SQL để xử lý và
phân tích dữ liệu.
- Học sâu (Deep learning): là một phần trong một nhánh rộng hơn các phương pháp học máy
7
dựa trên mạng thần kinh nhân tạo kết hợp với việc học biểu diễn đặc trưng.
1.1.5 Ứng dụng của khoa học dữ liệu
- Lĩnh vực Y tế: Khoa học dữ liệu giúp xây dựng hệ thống trợ lý chăm sóc sức khỏe ảo, nghiên
cứu về gen và di truyền, điều chế thuốc.
- Lĩnh vực Tài chính - Ngân hàng: Khoa học dữ liệu giúp phân tích rủi ro, dự đoán xu hướng
thị trường và tối ưu hóa hoạt động ngân hàng.
- Lĩnh vực Giao thông vận tải: Khoa học dữ liệu giúp tối ưu hóa lộ trình và dự đoán lưu lượng
giao thông.
- Lĩnh vực Thương mại điện tử và dịch vụ số: Khoa học dữ liệu giúp nâng cao trải nghiệm
người dùng và tối ưu hóa hoạt động kinh doanh.
- Lĩnh vực sản xuất: Khoa học dữ liệu giúp tối ưu hóa quy trình sản xuất và dự đoán nhu cầu.
- Lĩnh vực quảng cáo: Khoa học dữ liệu giúp tối ưu hóa quảng cáo và tiếp thị.
1.1.6 Quy trình của khoa học dữ liệu
- Thu thập, nắm bắt dữ liệu (Capture data).
- Quản trị dữ liệu (Manage data).
- Phân tích và khám phá (Exploratory).
- Phân tích sau cùng (Final analysis).
- Báo cáo (Reporting).
1.1.7 Xu hướng nghề nghiệp trong ngành khoa học dữ liệu
- Kỹ sư phát triển ứng dụng AI: Làm việc với các công nghệ trí tuệ nhân tạo để phát triển các
ứng dụng thông minh.
- Kỹ sư dữ liệu: Xây dựng và quản lý cơ sở dữ liệu, đảm bảo dữ liệu được lưu trữ một cách an
toàn và hiệu quả.
- Chuyên viên phân tích kinh doanh: Sử dụng dữ liệu để đưa ra các quyết định kinh doanh.
- Chuyên viên phân tích và phát triển dữ liệu: Làm việc với dữ liệu để tạo ra các giái pháp mới
và cải tiến các quy trình hiện tại.
- Chuyên gia nghiên cứu cấp cao về trí tuệ nhân tạo: Nghiên cứu và phát triển các công nghệ trí
tuệ nhân tạo mới.
1.2 Giới thiệu về đồ án
1.2.1 Lý do chọn đề tài
8
Trong thời đại công nghệ 4.0, Khoa học dữ liệu là một lĩnh vực hấp dẫn và có nhiều ứng dụng
trong các ngành nghề khác nhau. Nhóm đã chọn đề tài “ Xây dựng mô hình dự đoán khách
hàng tiềm năng cho siêu thị” cho đề án kết thúc môn Khoa học dữ liệu vì chúng em muốn khai
thác và phát triển tiềm năng của mình trong lĩnh vực này. Chúng em cũng mong muốn đóng
góp cho sự phát triển của ngành kinh doanh bán lẻ, đặc biệt là siêu thị, bằng cách áp dụng các
kỹ thuật phân tích dữ liệu và học máy để giải quyết các bài toán thực tế.
Nhóm em nghĩ rằng việc xây dựng một mô hình dự đoán khách hàng tiềm năng cho siêu thị là
một đề tài có ý nghĩa và thách thức. Một mặt, đề tài này có thể mang lại nhiều lợi ích cho
doanh nghiệp, như tăng doanh thu, giảm chi phí, nâng cao chất lượng dịch vụ và khách hàng.
Bằng cách dự đoán được những khách hàng có khả năng mua hàng cao, siêu thị có thể tập
trung vào việc chăm sóc và tăng cường mối quan hệ với họ, cũng như đưa ra các chương trình
khuyến mãi và ưu đãi phù hợp. Điều này sẽ giúp siêu thị tăng sự hài lòng và trung thành của
khách hàng, cũng như thu hút được nhiều khách hàng mới. Mặt khác, đề tài này cũng đòi hỏi cả
nhóm phải nắm vững các kiến thức và kỹ năng cơ bản về Khoa học dữ liệu, như thu thập, xử lý,
khám phá, mô hình hóa và trình bày dữ liệu. Nhóm cũng phải tìm hiểu và áp dụng các phương
pháp học máy phù hợp để xây dựng mô hình dự đoán, cũng như đánh giá và cải thiện hiệu quả
của mô hình.
Nhóm mong muốn qua đề án này, chúng em có thể học hỏi và cải thiện được năng lực nghiên
cứu và làm việc của mình trong lĩnh vực Khoa học dữ liệu. Nhóm cũng hy vọng rằng đề án của
Nhóm có thể đem lại những giá trị thiết thực cho ngành kinh doanh bán lẻ nói chung và siêu thị
nói riêng.
1.2.2 Mục tiêu nghiên cứu
- Tập dữ liệu du lịch cung cấp thông tin chi tiết về các khách hàng có lựa chọn khác nhau và
một số khách hàng tiềm năng có thẻ thành viên.
- Lựa chọn mô hình phân lớp phù hợp cho bộ dữ liệu.
- Phân tích các thông tin có trong bộ dữ liệu:
https://www.kaggle.com/datasets/aungpyaeap/supermarket-sales
- Ứng dụng công cụ Orange vào việc xử lý thông tin.
- Đưa ra biểu đồ, công cụ thống kê phù hợp cho từng thông tin.
- Đánh giá, phân tích bộ dữ liệu.
9
- Đưa ra kết luận.
- Các chính sách phù hợp cho siêu thị.
1.2.3 Đối tượng nghiên cứu
Tất cả lượt khách hàng đã mua sắm, đến từ những quốc gia khác nhau bao gồm cả đàn ông, phụ
nữ, hay trẻ em với những độ tuổi khác nhau sẽ cho ra các so sánh khác nhau. Bộ dữ liệu được
thu thập trên web kaggle đường link:
https://www.kaggle.com/datasets/aungpyaeap/supermarket-sales
1.2.4 Phương pháp thực hiện
1.2.4.1 Phương pháp phân lớp dữ liệu
a) Định nghĩa phân lớp dữ liệu
Phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho
trước nhờ một mô hình phân lớp. Mô hình này được xây dựng dựa trên một tập dữ liệu đã được
gán nhãn trước đó (thuộc về lớp nào). Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu
chính là quá trình phân lớp dữ liệu.
b) Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm 2 bước chính:
- Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn "học" hoặc "huấn luyện")
 Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xử lý.
 Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật,…
 Kết quả của bước này là mô hình phân lớp đã được huấn luyện (trình phân lớp).
10
Hình 1: Xây dựng mô hình phân lớp
- Bước 2: Sử dụng mô hình, chia thành 2 bước nhỏ:

 Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
Hình 2: Đánh giá mô hình phân lớp
 Bước 2.2: Phân lớp dữ liệu mới
11
Hình 3: Quá trình phân lớp dữ liệu
1.2.4.2 Phương pháp phân cụm dữ liệu

a) Định nghĩa về phân cụm dữ liệu
Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương tự nhau và mỗi cụm
có ít nhất 1 phần tử.
Đây là quá trình gom cụm hoặc nhóm các đối tượng hay dữ liệu có điểm tương đồng:
- Các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau.
- Các đối tượng thuộc cụm hoặc nhóm khác nhau sẽ có các tính chất khác nhau.
Hình 4: Quá trình phân cụm dữ liệu
Thuật toán điển hình: K-means, K-medoids, Fuzzy C-means.
12
b) Thuật toán K-means
Hình 5: Phân cụm dữ liệu bằng phương pháp K-means

Thuật toán K-means thuộc nhóm thuật toán phân cụm dựa trên phân hoạch.
Tư tưởng chính: Ta xem một đối tượng trong tập dữ liệu là một điểm trong không gian d chiều
(với d là số lượng thuộc tính của đối tượng):
● Bước số 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm.
● Bước số 2: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất. Nếu các điểm dữ liệu ở
từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân chia trước nó thì ta
dừng thuật toán.
● Bước số 3: Cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất cả các
điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2.
● Bước số 4: Quay lại bước 2
Hình 6: Các bước phân cụm bằng phương pháp K-means
13
1.2.4.3 Đánh giá phương pháp, mô hình
a) Test and Score
Đầu vào:
 Dữ liệu: dữ liệu đầu vào
 Dữ liệu thử nghiệm: dữ liệu riêng biệt để thử nghiệm
 Người học: thuật toán học tập
Đầu ra: Kết quả đánh giá: kết quả của các thuật toán phân loại thử nghiệm
b) Confusion Matrix
Các Confusion Matrix cho biết số / tỷ lệ các trường hợp giữa các lớp dự đoán và thực tế. Việc
lựa chọn các phần tử trong ma trận cung cấp các trường hợp tương ứng vào tín hiệu đầu ra.
Bằng cách này, người ta có thể quan sát những trường hợp cụ thể bị phân loại sai và làm thế
nào.
Đầu vào: Kết quả đánh giá: kết quả của các thuật toán phân loại thử nghiệm
Đầu ra:
 Dữ liệu được chọn: tập hợp dữ liệu được chọn từ ma trận nhầm lẫn
 Dữ liệu: với thông tin bổ sung về việc liệu một thể hiện dữ liệu đã được chọn chưa
14
Chương 2: Quy trình thực hiện và kết quả
2.1 Mô tả nguồn dữ liệu và cấu trúc của dữ liệu
Bộ dữ liệu có tên là “Supermarket sales” được lấy từ Kaggle. Đây là dữ liệu về doanh số bán
hàng của một công ty siêu thị được ghi nhận trong vòng 3 tháng tại 3 chi nhánh khác nhau. Với
mục tiêu nghiên cứu được đề ra ở trên, bộ dữ liệu này sẽ hữu dụng trong việc phân lớp và phân
cụm các khách hàng tiềm năng.
Dữ liệu gồm: 17 cột thuộc tính và 1001 hàng (đối tượng) được thu thập tại thời điểm khách
hàng mua hàng tại siêu thị.
Thuộc tính Mô tả Kiểu dữ liệu

Invoice ID Mã hóa đơn Chuỗi ký tự
Branch Tên chi nhánh Chuỗi ký tự
City Vị trí siêu thị Chuỗi ký tự
Customer type Loại khách hàng Gồm Member và Normal
Gender Giới tính khách hàng Gồm Male và Female
Product line Phân loại mặt hàng Chuỗi ký tự
Unit price Đơn giá (tính bằng đô la) Số thập phân
Quantity Số lượng sản phẩm Số thập phân
Tax Thuế 5% trên hóa đơn Số thập phân
Total Tống hóa đơn đã bao gồm Số thập phân

thuế
Date Ngày mua hàng Tháng, Ngày, Năm
Time Thời gian mua hàng Thời gian
Payment Hình thức thanh toán Gồm 3 hình thức Cash, Credit Card và
Ewallet
Cogs Giá vốn hàng hóa Số thập phân
Gross margin Tỷ lệ lợi nhuận gộp Số thập phân

15
percentage
Gross income Tổng thu nhập Số thập phân
Rating Phân tầng khách hàng Thang điểm từ 1 đến 10
Bảng 1: Mô tả về những thuộc tính (Attribute) của dữ liệu

2.2 Tiền xử lý dữ liệu
2.2.1. Xử lý và lọc các dữ liệu bị thiếu, các trường không cần thiết.
- Bộ dữ liệu không chứa dữ liệu bị thiếu, để xác định các trường nào là có thông tin cho các xử
lý về sau, với mục tiêu phân lớp và phân cụm loại khách hàng, nhóm sẽ dùng Rank để xem các
giá trị info.gain của các trường nhằm loại bỏ đi các trường không có giá trị.
- Dùng Select Column để chọn Customer Type là target, sau đó gắn vào Rank để hiện thị các
giá trị.
Hình 7: Quy trình lọc trường không cần thiết
16
Hình 8: Thông tin dữ liệu trong bảng Rank
- Ảnh trên cho thấy, trường Gross margin percentage (Tỷ lệ lợi nhuận gộp), không có giá trị
trong tập dữ liệu, nhóm sẽ loại trường này bằng Select Column để tiếp tục các bước xử lý tiếp
theo.
2.2.2. Phân tách dữ liệu
- Tiếp đến, để tách dữ liệu làm 2 phần, một phần để xây dựng mô hình và một phần data để dự
báo, nhóm đã sử dụng chức năng Data Sample trong Orange để thực hiện tách ngẫu nhiên dữ
liệu làm 2 file riêng: 70% dữ liệu gốc được tách và lưu thành file “Sale Data” và 30% dữ liệu
gốc được tách thành file “Forecast data”.
17
Hình 9: Quy trình tách dữ liệu ngẫu nhiên với Data Sampler
2.3 Xác định biến độc lập và biến phụ thuộc

- Như phần mục tiêu đã đề ra, để phân lớp và phân cụm dự đoán tập khách hàng tiềm năng,
nhóm sẽ sử dụng trường Customer Type là biến phụ thuộc. Các biến còn lại sẽ là biến độc lập
giúp xác định và dự báo tập khách hàng tiềm năng.
18
Hình 10: Xác định trường là biến phụ thuộc với Select column
2.4 Bài toán 1: Mô tả dữ liệu bằng lược đồ và các công cụ thống kê để phát hiện tính đặc thù
của bộ dữ liệu
2.4.1 Mô tả bài toán
Sử dụng các phương pháp thống kê mô tả và các lược đồ excel thông dụng để phát hiện những
đặc thù của dữ liệu.
Mỗi cột dữ liệu tương ứng cho 1 thuộc tính của đối tượng.
Các thuộc tính được xem xét và đánh giá sự phân bổ bằng lược đồ để xác định mức ảnh hưởng
của thuộc tính đến kết quả của việc xây dựng mô hình dự đoán khách hàng tiềm năng cho
doanh nghiệp siêu thị trên.
2.4.2 Tiến hành phân tích dữ liệu
Dữ liệu 1
19
Biểu đồ 1. Biểu đồ thể hiện phân loại khách hàng
Nhận xét:
Từ biểu đồ trên ta thấy không có sự chênh lệch quá lớn giữa khách hàng thành viên và khách
hàng thường cụ thể khách hàng thành viên chiếm 50.1% trong khi khách hàng thường chiếm
49,9% và chỉ chênh lệch 0.2%.
Có thể nói rằng, dù khách hàng không thành viên hay thành viên cũng không ảnh hưởng đến
số lượng khách hàng đến mua sắm, điều này chỉ ra những chiến lược bán hàng của siêu thị vẫn
chưa có sự hấp dẫn đối với khách hàng thành viên. Do đó muốn tăng thêm sự hài lòng của
khách hàng, gia tăng số lượng khách hàng đăng ký thành viên thì siêu thị cần đưa ra nhiều hơn
những voucher ưu đãi, khuyến mãi hấp dẫn hay các chương trình tri ân khách hàng là thành
viên. Siêu thị cần đưa ra nhiều hơn những lợi ích thiết thực hơn nhằm khuyến khích khách hàng
thường trở thành khách hàng thành viên của siêu thị.
Dữ liệu 2
20
Biểu đồ 2: Biểu đồ thể hiện giới tính khách hàng
Nhận xét:
Có sự khác biệt rõ ràng giữa số lượng khách hàng đăng ký thành viên giữa giới tính nam và
nữ.
Số khách hàng nữ là thành viên là 52,1% nhiều hơn khách hàng nữ bình thường chiếm
47,9% trong tổng số khách hàng là thành viên nữ.
Còn đối với khách hàng thành viên nam (48,1%) ít hơn khách hàng nam không thành viên
(51,9%).
=>Nhìn tổng thể có thể thấy số khách hàng thành viên là nữ vẫn nhiều hơn so với số khách
hàng thành viên là nam. Điều này cũng dễ hiểu bởi phần lớn phụ nữ sẽ là người đảm nhận
những công việc nội trợ, chăm sóc gia đình nên sẽ quan tâm nhiều hơn đến các ưu đãi, khuyến
mãi để chi tiêu hợp lý và thông minh hơn và có thể là khách hàng tiềm năng hơn.
Dữ liệu 3
21
Biểu đồ 3: Biểu đồ thể hiện số lượng hàng mua
Nhận xét:
Có thế thấy, không có sự khác biệt lớn về số lượng khách hàng thành viên hay không thành
viên trong việc mua nhiều hàng nhất (10 sản phẩm) hay mua ít hàng nhất (1 sản phẩm) bởi vì
vào từng thời điểm và nhu cầu mua sắm của mỗi người là khác nhau.
Dữ liệu 4
Biểu đồ 4: Biểu đồ thể hiện phương thức thanh toán
22
Nhận xét:
Có thể thấy phương thức thanh toán bằng thẻ tín dụng có ảnh hưởng và cũng là tiềm năng
nhất.
Đối với phương thức thanh toán bằng tiền mặt: Không có sự chênh lệch đáng kể và gần như
ngang bằng nhau.
Đối với phương thức thanh toán bằng thẻ tín dụng: Có sự chênh lệch rõ ràng, khách hàng
thành viên có thói quen dùng thẻ tín dụng để thanh toán chiếm 55,3% trong tổng số khách hàng
thanh toán bằng thẻ tín dụng và khách hàng thường thì chỉ chiếm 44,7% .
Đối với phương thức thanh toán bằng ví điện tử: Cũng có sự chênh lệch giữa khách hàng
thành viên và không thành viên. Tuy nhiên, trái với 2 phương thức thanh toán trên thì ở phương
thức này số khách hàng thường chiếm 53,3% trên tổng số khách hàng thanh toán qua ví điện tử
có tỷ lệ lớn hơn khách hàng thành viên (46,7%)
=>Công nghệ phát triển, thanh toán không còn chỉ dùng mỗi tiền mặt mà đã phát triển thêm
nhiều phương thức khác hiện đại hơn. Người tiêu dùng có thể dễ dàng lựa chọn phương thức
thanh toán tiện lợi, hữu dụng cũng như mang lại nhiều lợi ích hơn cho mình.
Dữ liệu 5
Biểu đồ 5: Biểu đồ thể hiện vị trí các chi nhánh siêu thị
Nhận xét:
Từ biểu đồ trên ta có thể thấy, vị trí đặt chi nhánh cũng ảnh hưởng đến khách hàng tiềm
năng của siêu thị đặc biệt ở thủ đô Naypyitaw.
23
Ở thành phố Mandalay, khách hàng thành viên (49,7%) ít hơn khách hàng thường (50,3%).
Tỷ lệ không có sự chênh lệch quá lớn.
Ở thành phố Yangon, khách hành thường (50,9%) cũng chiếm tỉ lệ cao hơn khách hàng
thường (49,1%) là 1,8%
Trong khi đó, ở thủ đô Naypyidaw lại có số lượng khách hàng là thành viên chiếm 51,5%
trên tổng số khách hàng ở đó và nhiều hơn 3% so với khách hàng thường (48,5%).
=> Từ các thông số trên cho thấy ảnh hưởng rõ rệt của vị trí các chi nhánh siêu thị đối với phân
loại khách hàng. Ở thủ đô thì lượng khách đăng ký thành viên nhiều hơn hẳn so với lượng
khách thường có thể do nhu cầu mua sắm, sinh hoạt ở thủ đô cao hơn so với các vùng lân cận
vì vậy việc đăng ký thành viên sẽ góp phần mang lại nhiều lợi ích và thuận tiện hơn cho khách
hàng.
Dữ liệu 6
Biểu đồ 6: Biểu đồ thể hiện xếp hạng đánh giá trải nghiệm mua sắm của khách hàng
(thang điểm 10)
Nhận xét:
Từ biểu đồ trên ta nhận thấy rằng có sự chênh lệch giữa xếp hạng của khách hàng thường và
khách hàng thành viên ở từng mức điểm đánh giá.
24
Ở mức độ 6 đến 6,5 điểm, sự tăng cao đột biến của các khách hàng không phải là thành viên
cho thấy 1 điều, đối với chất lượng dịch vụ của siêu thị còn gặp phải nhiều vấn đề, hạn chế,
chưa được các khách hàng chưa là thành viên đánh giá cao. Nếu siêu thị muốn tăng số lượng
khách hàng chuyển đổi từ khách hàng thường sang khách hàng thành viên của siêu thị thì phải
cải thiện chất lượng dịch vụ, tạo ấn tượng mạnh cho khách hàng ngay từ thời điểm ban đầu họ
tiếp cận đến siêu thị.
Tuy nhiên sự chênh lệch này rất nhỏ và có sự thay đổi liên tục không cố định. Qua các thông
số trên biểu đồ thì ta thấy việc xếp hạng đánh giá mua sắm của khách hàng còn phụ thuộc vào
nhiều yếu tố khác nhau như: số lượng hàng mua, loại sản phẩm mua, đơn giá,...
Từ các thông số trên thì ta nhận thấy rằng khách hàng thành viên tập trung nhiều nhất ở
thang điểm từ 9.5 trở lên trong bảng xếp hạng đánh giá trải nghiệm mua sắm tổng thể. Qua đó
có thể thấy rằng hầu hết các khách hàng thành viên đều cảm thấy hài lòng với những trải
nghiệm tuyệt vời khi mua sắm tại siêu thị.
Dữ liệu 7
Biểu đồ 7: Biểu đồ thể hiện phân loại sản phẩm

Nhận xét:
Phân loại sản phẩm cũng giúp ta nhìn thấy được rõ hơn về tiềm năng khách hàng.
25
Nhìn chung thì không có sự chênh lệch quá lớn về tỷ lệ khách hàng thành viên và khách
hàng thường. Cụ thể là ở mặt hàng thực phẩm, đời sống, thể thao du lịch,...thì có số lượng
khách hàng thành viên lớn hơn khách hàng thường. Có lẽ đây là một số lĩnh vực tiềm năng để
phát triển hơn.
Tuy nhiên, ở những mặt hàng về điện tử,thời trang, sức khỏe, làm đẹp,..thì lượng khách hàng
thường lại chiếm tỷ lệ nhiều hơn khách hàng thành viên. Doanh nghiệp nên cân nhắc thêm một
số chiến lược ưu đãi, cải thiện sản phẩm để gia tăng số lượng khách hàng thành viên hơn.
=> Qua đó,doanh nghiệp có thể tập trung vào việc tối ưu hóa chiến lược tiếp thị và sản phẩm
trong các lĩnh vực có mức độ tiềm năng cao, đồng thời xem xét cải thiện trong những lĩnh vực
có mức độ tiềm năng thấp. Điều này có thể giúp tăng doanh số bán và tăng cường mối quan hệ
với khách hàng.
2.4.3 Kết luận bài toán 1
Thông qua các hàm thống kê, lược đồ ta thấy rằng khách hàng thành viên đa số là nữ giới, có
số lượng hàng mua dao động từ 1 đến 10 sản phẩm tùy thuộc vào nhu cầu mua sắm. Ngoài ra
phần lớn là thanh toán bằng thẻ tín dụng thường mua sắm ở siêu thị có chi nhánh ngay tại thủ
đô hay phần lớn có điểm xếp hạng đánh giá trải nghiệm mua sắm tại siêu thị thuộc mức điểm từ
9.5 trở lên và thường sẽ mua nhiều hơn ở những loại hàng như thực phẩm, đời sống, thể thao
du lịch,….
Còn đa số khách hàng không phải là thành viên đa số là nam giới, số lượng mua hàng mua
dao động từ 1 đến 10. Phần lớn sẽ thanh toán bằng tiền mặt hoặc ví điện tử chứ không sử dụng
thẻ tín dụng. Tập trung vào những loại hàng như là phụ kiện điện tử, phụ kiện trang sức. Phần
lớn sự có điểm xếp hạng đánh giá trải nghiệm mua sắm tại siêu thị là khoảng 6 đến 6,5 điểm.
Tức là nam giới có những yêu cầu khắc khe hơn về trải nghiệm mua sắm dịch vụ tại các quầy
hàng điện tử và trang sức.
Từ những đặc thù, đặc trưng cơ bản này thì có thể giúp cho đơn vị nắm bắt thông tin và hiểu
hơn về khách hàng của mình, đặc biệt là khách hàng thành viên (khách hàng tiềm năng). Tỷ lệ
khách hàng thành viên không chỉ phụ thuộc vào một yếu tố riêng lẻ mà còn phụ thuộc vào
nhiều yếu tố khác được đề cập trong dữ liệu, ngoài ra còn có cả những yếu tố ngoại cảnh tác
động khác mà dữ liệu chưa thể tổng hợp được. Dữ liệu trong bài chỉ mang tính chất đặc trưng
không áp đặt một cách máy móc.
26
Qua bài toán 1 thì doanh nghiệp siêu thị có thể tham khảo các nhận xét của nhóm thông qua
các biểu đồ để có thể hiểu được một cách tổng quan nhất về các đặc trưng cơ bản của khách
hàng thành viên. Từ đó, các doanh nghiệp sẽ có thể nhận ra được những ưu, khuyết điểm trong
các chính sách đãi ngộ cho khách hàng thành viên và tích cực hơn trong việc cải thiện cũng như
phát triển nhiều đãi ngộ hấp dẫn hơn, thu hút nhiều khách hàng đăng ký thành viên hơn.
2.5 Bài toán 2: Bài toán phân lớp
2.5.1 Mô tả bài toán
- Sử dụng Excel và phần mềm Orange để xử lý và giải quyết bài toán: Phân lớp loại khách hàng
để dự đoán khách hàng tiềm năng.
- Xác định và gán nhãn cho các mẫu dữ liệu vào các lớp khác nhau dựa trên bộ dữ liệu đã qua
tiền xử lý.
- Sử dụng các phương pháp phân lớp: Cây quyết định (Decision Tree), Hồi quy Logistic
(Logistic Regression), SVM (Support Vector Machine) và Neural Network, sau đó tiến hành so
sánh thông qua Ma trận nhầm lẫn (Confusion Matrix) và Test and Score để tìm ra phương pháp
dự báo tốt nhất để thực hiện dự báo.
2.5.2 Chạy mô hình và đánh giá kết quả
2.5.2.1 Chạy mô hình
- Lấy mẫu dữ liệu:
Đầu tiên, nạp bộ dữ liệu đã qua tiền xử lý là file “Data.xlsx” vào phần mềm Orange. Sau đó,
tiến hành phân chia dữ liệu bằng công cụ Data Sampler, phân chia dữ liệu ban đầu thành 2 tệp
độc lập theo tỷ lệ 70% và 30%. Trong đó:
 Data Train.xlsx: chiếm 70% dữ liệu trong file “Data.xlsx” được tách ra thành dữ liệu để
huấn luyện mô hình phân lớp.
 Data Forecast.xlsx: chiếm 30% dữ liệu trong file “Data.xlsx” được tách ra để làm dữ
liệu thử/dự báo cho mô hình phân lớp.
27
Hình 11: Mô hình chuẩn bị dữ liệu
Hình 12: Quá trình thực hiện phân tách dữ liệu
- Xây dựng mô hình phân lớp dữ liệu:
28
Hình 13: Xây dựng mô hình phân lớp dữ liệu
2.5.2.2 Kết quả Test and Score
Hình 14: Kết quả đánh giá mô hình bằng phương pháp K-fold
29
Nhận xét:
Từ kết quả đánh giá của Test and Score, trong phần Evaluation results, chúng ta tập trung
vào kết quả định lượng của 4 mô hình: “Tree”, “Logistic Regression”, “SVM”, “Neural
Network” và xem mô hình nào mang lại hiểu quả cao nhất. Ta sử dụng phương pháp Cross
validation (đánh giá mô hình phân lớp): K-fold với k = 5 để đánh giá mô hình nhờ những tính
năng vượt trội hơn. Sau khi xem xét, ta thấy mô hình “Neural Network” là mô hình phù hợp
nhất để dự đoán khách hàng là thành viên hay không, vì nó cho ra kết quả cao nhất về các chỉ
số đánh giá:
Tính chính xác (CA): 50.1%
 Giá trị trung bình điều hoà (F1): 49.6%
 Độ chính xác (Precision): 50.1%
 Độ truy hồi (Recall): 50.1%
 Diện tích đường cong (AUC):
Neural Network > Tree & SVM & Logistic Regression = 0.501 > 0.493 & 0.473 & 0.500
=> Mô hình Neural Network có hiệu quả cao nhất và có thể giảm thiểu sai lầm loại I và loại II.
Mô hình này cũng có thể giúp siêu thị tăng doanh thu và khách hàng trung thành.
2.5.2.3 Đánh giá mô hình dựa trên kết quả ma trận nhầm lẫn (Confusion Matrix)
Sai lầm loại 1: Thực tế khách hàng là thành viên nhưng kết quả dự báo là không phải là
thành viên (Actual Member - Predicted Normal). Điều này có thể dẫn đến việc khách hàng sẽ
không được hưởng đúng chế độ cũng như là lợi ích của thành viên, dẫn đến sự mất uy tín của
siêu thị cũng như là giảm đi sự tin tưởng của khách hàng đối với siêu thị.
Sai lầm loại 2: Thực tế khách hàng không phải là thành viên nhưng kết quả dự báo là thành
viên (Actual Normal - Predicted Member). Trường hợp này ảnh hưởng đến siêu thị ở một số
khía cạnh như là tăng chi phí marketing hoặc là các khách hàng là thành viên mà do bị nhầm
lẫn là khách hàng thường nên họ không được đãi ngộ như các thành viên khác khiến họ ít mua
sắm tại siêu thị dẫn đến doanh số của siêu thị cũng sẽ bị giảm đi.
30
Hình 15: Kết quả ma trận nhầm lẫn của phương pháp Tree
Nhận xét mô hình:
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng là thành viên so với thực tế
khách hàng là thành viên: 49,3% (true positive) => Đúng
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng không phải thành viên so với
thực tế khách hàng là thành viên: 50,7% (false positive) => Sai lầm loại I
khách hàng không phải thành viên: 51,1% (false negative) => Sai lầm loại II
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng không phải là thành viên so với
thực tế khách hàng không phải là thành viên: 48,9% (true negative) => Đúng
31
Hình 16: Kết quả ma trận nhầm lẫn của phương pháp Logistic Regression
32
Hình 17: Kết quả ma trận nhầm lẫn của phương pháp SVM
33
Hình 18: Kết quả ma trận nhầm lẫn của phương pháp Neural Network
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng là thành viên so với thực tế khách
hàng là thành viên: 50,2% (true positive) => Đúng
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng không phải thành viên so với thực
tế khách hàng là thành viên: 49,8% (false positive) => Sai lầm loại I
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng là thành viên so với thực tế khách
hàng không phải thành viên: 50,0% (false negative) => Sai lầm loại II
Nhận xét chung:
Phương pháp Neural Network có tỉ lệ sai lầm loại II nhỏ nhất => Đây là mô hình tốt nhất để dự
báo khách hàng tiềm năng.
34
Hình 19: Mô hình dự báo khách hàng tiềm năng
Kết quả dự báo:
Hình 20.1: Kết quả dự báo
35
36
Hình 20.4: Kết quả dự báo
Kết quả kiến nghị:

Sau khi nghiên cứu, ta thấy được rằng tỷ lệ nhầm lẫn của các mô hình khá là cao, đặc biệt là
sai lầm loại 2 – tỷ lệ nhầm lẫn giữa khách hàng thường và khách hàng thành viên, điều này có
thể gây thiệt hại cho doanh số của siêu thị bởi có thể làm mất đi khách hàng tiềm năng. Để
giảm thiểu những vấn đề này, siêu thị cần cải thiện độ chính xác của mô hình dự báo thành
viên. Điều này có thể được thực hiện bằng cách:
 Sử dụng các thuật toán dự báo tiên tiến hơn: Các thuật toán dự báo tiên tiến hơn có thể
giúp mô hình dự đoán chính xác hơn, đặc biệt là đối với các trường hợp khó phân biệt, chẳng
hạn như khách hàng không phải là thành viên nhưng có nhiều điểm tương đồng với khách hàng
là thành viên.
 Thu thập dữ liệu khách hàng chính xác hơn: Dữ liệu khách hàng chính xác hơn sẽ giúp
mô hình dự báo có được cái nhìn tổng quan đầy đủ và chính xác hơn về các khách hàng.
 Kiểm tra hệ thống dự báo thường xuyên: Việc kiểm tra hệ thống dự báo thường xuyên sẽ
giúp phát hiện ra các vấn đề và đưa ra các biện pháp khắc phục kịp thời.
Ngoài ra, siêu thị cũng có thể cân nhắc việc điều chỉnh các chương trình marketing và ưu đãi
dành cho thành viên. Ví dụ, siêu thị có thể áp dụng các chương trình ưu đãi dành riêng cho các
khách hàng là thành viên lâu năm, để giảm thiểu việc phải chi trả cho các khách hàng không
phải là thành viên.
37
2.6 Bài toán 3: Bài toán phân cụm
2.6.1 Mô tả bài toán
- Bài toán sử dụng phần mềm Orange để xử lý và giải quyết bài toán: từ tập dữ liệu bán hàng ở
3 chi nhánh trong 3 tháng đầu năm của một siêu thị, ta đưa dữ liệu này vào thuật toán phân cụm
trong Orange để tiến hành phân loại các nhóm khách hàng thích hợp để tối đa hoá doanh thu
của siêu thị. Các khách hàng có những đặc điểm tương đồng về mặt thông tin hoặc dựa trên
lịch sử mua hàng, hành vi mua hàng có thể phân thành các nhóm khách hàng khác nhau.
- Sử dụng thuật toán K-means để thực hiện phân loại các nhóm khách hàng và đưa ra đánh giá.
2.6.2 Quy trình thực hiện
- Bước 1: Chọn bộ dữ liệu đã được xử lý và lọc không chọn Target.
- Bước 2: Dùng k-Means để tiến hành phân cụm các nhóm khách hàng.
- Bước 3: Sau khi kiểm chứng độ chính xác và kết quả mang lại tốt. Sử dụng k-Means để phân
cụm các dữ liệu.
- Bước 4: Minh họa các đối tượng khách hàng bằng Scatter Plot.
Hình 21: Mô hình phân cụm theo k-Means

2.6.3 Chạy mô hình và đánh giá kết quả
Sau khi chạy dữ liệu thì cho ra được bảng kết quả như sau, K-means đưa ra giá trị Silhouette
Scores cao nhất là khi phân thành hai cụm (0,636)
38
Hình 22: Kết quả k-Means
Hình 23.1: Kết quả chỉ số Silhouette của các mẫu quan sát khi phân thành 2
cụm
39
cụm
cụm
40
Hình 24: Kết quả 2 mẫu quan sát có chỉ số Silhouette cao nhất của từng cụm
Từ những kết quả trên, nhóm nhận thấy độ đáng tin cậy của K-means tương đối cao (0.636).
Các quan sát có chỉ số Silhouette cao nhất của cụm 1 và 2 lần lượt là 0.766204, 0.768924. Vì
vậy, nhóm quyết định sử dụng k-Means là phương pháp để phân cụm dữ liệu để tiết kiệm được
thời gian, tiện lợi, độ chính xác cao thay vì sử dụng thêm Hierarchical Clustering.
Kết quả phân cụm:
Biểu đồ 8: Phân cụm vị trí siêu thị theo loại khách hàng
41
Biểu đồ 9: Phân cụm hình thức thanh toán theo loại khách hàng
Biểu đồ 10: Phân cụm phân loại mặt hàng theo loại khách hàng
42
Biểu đồ 11: Phân cụm giới tính khách hàng theo loại khách hàng
2.6.4 Các kiến nghị từ kết quả và những phát hiện

Từ kết quả phân cụm trên, nhóm thấy rằng 2 cụm phân bố đồng đều, chồng chéo lên nhau,
không có sự khác biệt, chênh lệch nhiều giữa 2 cụm. Điều này cho thấy chiến lược của siêu thị
ở cả 3 chi nhánh trong 3 tháng đầu năm có ảnh hưởng, tác động, thu hút tương đối cùng một
lượng khách hàng, kể cả khách hàng thành viên hay khách hàng thường.
Qua đây, nhóm em đưa ra kiến nghị siêu thị nên đẩy mạnh các chiến lược tiếp thị, marketing,
quảng cáo, đưa sản phẩm đến với người tiêu dùng một cách nhanh chóng, hấp dẫn, tạo ra nhiều
chương trình ưu đãi cho khách hàng thành viên để có thể thu hút khách hàng thường đăng ký
trở thành khách hàng thành viên, nâng cao dịch vụ chăm sóc khách hàng để góp phần giúp gia
tăng mối quan hệ gắn bó giữa khách hàng và siêu thị, và nâng cao chất lượng cũng như đa dạng
hoá các mặt hàng sản phẩm được bày bán tại các chi nhánh để đáp ứng được nhu cầu của đại đa
số khách hàng hiện nay.
43
Chương 3. Kết luận
3.1 Kết luận
Trong bối cảnh hiện đại như ngày nay, việc tìm kiếm các siêu thị là vô cùng dễ dàng và tiện
lợi đối với người tiêu dùng, chính vì thế mà đây cũng là một bài toán khó cho các doanh nghiệp
để làm sao xây dựng được những chiến lược cạnh tranh, chính sách ưu đãi, phương án tiếp
thị,...phù hợp, hiệu quả để xây dựng lòng tin, sự ưa chuộng, gắn bó của khách hàng đối với
doanh nghiệp mình. Với những phân tích dựa vào số liệu sẵn có, nhóm chúng em nhận thấy
rằng khách hàng tiềm năng của siêu thị chính là những khách hàng nữ đăng kí thành viên, vì
đây là đối tượng chủ yếu quan tâm nhiều nhất đến những quyền lợi, chương trình ưu đãi,
khuyến mãi,...cụ thể là ở mặt hàng thực phẩm, đời sống, thể thao du lịch,.. với phương thức
thanh toán chủ yếu bằng thẻ tín dụng vì sự nhanh chóng, tiện lợi, phù hợp với công nghệ tiến
bộ hiện đại,..để từ đó thấu hiểu được mối quan tâm về nhu cầu thiết yếu trong cuộc sống của
người tiêu dùng, hiểu được những nỗi lo, vướng mắc của khách hàng để các doanh nghiệp biết
mình nên tập trung chú trọng vào cung cấp những sản phẩm, dịch vụ tốt nhất đáp ứng nhu cầu
của khách hàng.
3.2 Những hạn chế trong nghiên cứu đồ án
 Về mặt kiến thức chuyên ngành: Với những kiến thức tích lũy được ở học phần môn
Khoa học dữ liệu nói riêng và của chuyên ngành chúng em nói chung, thì chúng em nhận thấy
rằng trong quá trình làm còn gặp phải không ít những khó khăn, vướng mắc, bài làm chắc chắn
sẽ còn những sai sót, hạn chế, nhóm mong nhận được lời nhận xét, góp ý từ thầy để nhóm cải
thiện tốt hơn.
 Về độ chính xác: Nhóm dựa vào những dữ liệu cũ trước đây, nên xét về thực tế thì độ
chính xác sẽ có sự chênh lệch với tình hình hiện tại.
 Về đối tượng, phạm vi nghiên cứu: Còn hạn chế do nhóm không đủ điều kiện để tiến
hành thực hiện khảo sát để lấy số liệu thực tế.
3.3 Một số kiến nghị cho doanh nghiệp trong việc dự đoán khách hàng tiềm năng
Qua việc xử lý các bài toán trên, nhóm em xin phép đề xuất một vài giải pháp cho doanh
nghiệp như:
 Xây dựng chiến lược tiếp thị đến mọi đối tượng khách hàng. Cố gắng duy trì và phát
triển niềm tin ở khách hàng đối với doanh nghiệp mình, hướng đến việc thu hút những khách
44
hàng bình thường trở thành khách hàng thành viên bằng cách tạo dựng niềm tin, sự hài lòng
ngay từ cả chính sách tiếp thị, quảng cáo, ưu đãi cho đến chất lượng sản phẩm, chất lượng dịch
vụ…Từ đó góp phần nâng cao sức cạnh tranh, nâng cao sức ảnh hưởng của mình trên thị
trường.
 Quan tâm đến quyền lợi của khách hàng, có những chương trình khuyến mãi, giảm giá
để có thể vừa tăng doanh số bán hàng, vừa thu hút sự quan tâm, tạo thiện cảm của người tiêu
dùng với doanh nghiệp mình.
 Theo sát những sự đánh giá, góp ý từ khách hàng để từ đó doanh nghiệp có thể đề ra
những biện pháp phù hợp và kịp thời.
 Xây dựng đội ngũ nhân viên có tác phong chuyên nghiệp, hệ thống quản lý chặt chẽ,
tăng cường giám sát thái độ dịch vụ của nhân viên bán hàng đối với khách hàng, góp phần tăng
trải nghiệm tích cực của khách hàng chưa phải là thành viên đối với siêu thị, biến họ trở thành
khách hàng thành viên của siêu thị.
 Thực hiện phân loại, sắp xếp những kệ trưng bày sản phẩm theo từng danh mục, nhóm
hàng riêng để giúp khách hàng lựa chọn sản phẩm dễ dàng và nhanh chóng, chú trọng đến cách
đóng gói bao bì sản phẩm, túi đựng sản phẩm để cho khách hàng cảm nhận được sự tôn trọng
của doanh nghiệp mình dành cho khách hàng.
 Xây dựng hình ảnh đẹp của siêu thị để đánh vào tâm lí khách hàng, tạo độ tin cậy của
mình trong nhận thức của khách hàng
 Tổ chức những sự kiện, chương trình đãi ngộ đặc biệt dành cho khách hàng thành viên,
nhằm xây dựng mối quan hệ càng thân thiết, gắn bó của khách hàng cũ, đồng thời nhận được
thiện cảm của khách hàng mới để từ đó chuyển họ từ khách hàng thường sang khách hàng
thành viên.
 Theo dõi sát xao về vấn đề doanh số, đánh giá của khách hàng để từ đó có những biện
pháp kịp thời, nhanh chóng, giúp các chủ doanh nghiệp đưa ra chiến lược hiệu quả, cải thiện
hơn trong tương lai.
45

Đ Án KHDL Nhóm 4

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Đ Án KHDL Nhóm 4

Uploaded by

Copyright:

Available Formats

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH

ĐỒ ÁN KẾT THÚC HỌC PHẦN

Giảng viên hướng dẫn : Nguyễn Mạnh Tuấn

Nhóm sinh viên thực hiện MSSV

TP Hồ Chí Minh, ngày 8 tháng 12 năm 2023

STT Họ và Tên Nhiệm vụ Đánh giá

Danh mục hình ảnh

thành hành động.

- Bước 2: Sử dụng mô hình, chia thành 2 bước nhỏ:

Hình 2: Đánh giá mô hình phân lớp

 Bước 2.2: Phân lớp dữ liệu mới

1.2.4.2 Phương pháp phân cụm dữ liệu

Hình 4: Quá trình phân cụm dữ liệu

Thuật toán điển hình: K-means, K-medoids, Fuzzy C-means.

Hình 5: Phân cụm dữ liệu bằng phương pháp K-means

Hình 6: Các bước phân cụm bằng phương pháp K-means

Thuộc tính Mô tả Kiểu dữ liệu

Branch Tên chi nhánh Chuỗi ký tự

City Vị trí siêu thị Chuỗi ký tự

Customer type Loại khách hàng Gồm Member và Normal

Gender Giới tính khách hàng Gồm Male và Female

Product line Phân loại mặt hàng Chuỗi ký tự

Unit price Đơn giá (tính bằng đô la) Số thập phân

Quantity Số lượng sản phẩm Số thập phân

Tax Thuế 5% trên hóa đơn Số thập phân

Total Tống hóa đơn đã bao gồm Số thập phân

Date Ngày mua hàng Tháng, Ngày, Năm

Time Thời gian mua hàng Thời gian

Cogs Giá vốn hàng hóa Số thập phân

Gross margin Tỷ lệ lợi nhuận gộp Số thập phân

Gross income Tổng thu nhập Số thập phân

Rating Phân tầng khách hàng Thang điểm từ 1 đến 10

Bảng 1: Mô tả về những thuộc tính (Attribute) của dữ liệu

Hình 7: Quy trình lọc trường không cần thiết

2.3 Xác định biến độc lập và biến phụ thuộc

Biểu đồ 4: Biểu đồ thể hiện phương thức thanh toán

Biểu đồ 7: Biểu đồ thể hiện phân loại sản phẩm

- Xây dựng mô hình phân lớp dữ liệu:

2.5.2.2 Kết quả Test and Score

Kết quả dự báo:

Hình 20.1: Kết quả dự báo

Hình 20.3: Kết quả dự báo

Kết quả kiến nghị:

Hình 21: Mô hình phân cụm theo k-Means

2.6.4 Các kiến nghị từ kết quả và những phát hiện

You might also like