Professional Documents
Culture Documents
Đ Án KHDL Nhóm 4
Đ Án KHDL Nhóm 4
BẢNG ĐÁNH GIÁ MỨC ĐỘ THAM GIA CỦA CÁC THÀNH VIÊN
2
Danh mục bảng
Bảng: Mô tả về những thuộc tính (Attribute) của dữ liệu
Hình 24: Kết quả 2 mẫu quan sát có chỉ số Silhouette cao nhất của từng cụm
3
Danh mục biểu đồ
Biểu đồ 1: Biểu đồ thể hiện phân loại khách hàng
Biểu đồ 2: Biểu đồ thể hiện giới tính khách hàng
Biểu đồ 3: Biểu đồ thể hiện số lượng hàng mua
Biểu đồ 4: Biểu đồ thể hiện phương thức thanh toán
Biểu đồ 5: Biểu đồ thể hiện vị trí các chi nhánh siêu thị
Biểu đồ 6: Biểu đồ thể hiện xếp hạng đánh giá trải nghiệm mua sắm của khách hàng
(thang điểm 10)
Biểu đồ 7: Biểu đồ thể hiện phân loại sản phẩm
Biểu đồ 8: Phân cụm vị trí siêu thị theo loại khách hàng
Biểu đồ 9: Phân cụm hình thức thanh toán theo loại khách hàng
Biểu đồ 10: Phân cụm phân loại mặt hàng theo loại khách hàng
Biểu đồ 11: Phân cụm giới tính khách hàng theo loại khách hàng
Nguồn dữ liệu, các xử lý, file Excel, Orange,...:
https://drive.google.com/drive/folders/1_Frf5xKQl9Nvo76U4d6ZpUlRxuw0GfNC?
fbclid=IwAR11GZ8s-yO5XGkmevKpWxkGSqbytJy3g4s-2IkjJ9Z_72JFiMwfh2K6mJ0
4
MỤC LỤC
LỜI MỞ ĐẦU..............................................................................................................................6
Chương 1. Tổng quan.................................................................................................................7
1.1 Giới thiệu khoa học dữ liệu.....................................................................................................7
1.2 Giới thiệu về đồ án..................................................................................................................8
Chương 2: Quy trình thực hiện và kết quả.............................................................................15
2.1 Mô tả nguồn dữ liệu và cấu trúc của dữ liệu................................................................15
2.2 Tiền xử lý dữ liệu..........................................................................................................16
2.2.1. Xử lý và lọc các dữ liệu bị thiếu, các trường không cần thiết..........................16
2.2.2. Phân tách dữ liệu..............................................................................................17
2.3 Xác định biến độc lập và biến phụ thuộc.....................................................................18
2.4 Bài toán 1: Mô tả dữ liệu bằng lược đồ và các công cụ thống kê để phát hiện tính đặc
thù của bộ dữ liệu...............................................................................................................19
2.4.1 Mô tả bài toán...................................................................................................19
2.4.2 Tiến hành phân tích dữ liệu...............................................................................19
2.4.3 Kết luận bài toán 1............................................................................................26
2.5 Bài toán 2: Bài toán phân lớp.......................................................................................27
2.5.1 Mô tả bài toán..................................................................................................27
2.5.2 Chạy mô hình và đánh giá kết quả....................................................................27
2.6 Bài toán 3: Bài toán phân cụm......................................................................................38
2.6.1 Mô tả bài toán...................................................................................................38
2.6.2 Quy trình thực hiện...........................................................................................38
2.6.3 Chạy mô hình và đánh giá kết quả....................................................................38
2.6.4 Các kiến nghị từ kết quả và những phát hiện....................................................43
Chương 3. Kết luận...................................................................................................................44
3.1 Kết luận.........................................................................................................................44
3.2 Những hạn chế trong nghiên cứu đồ án........................................................................44
3.3 Một số kiến nghị cho doanh nghiệp trong việc dự đoán khách hàng tiềm năng..........44
5
LỜI MỞ ĐẦU
Khoa học dữ liệu là một lĩnh vực mới mẻ và đầy tiềm năng trong thời đại công nghệ 4.0.
Khoa học dữ liệu không chỉ giúp chúng ta hiểu được những xu hướng, mẫu và quy luật ẩn sau
những dữ liệu khổng lồ, mà còn giúp chúng ta tạo ra những giải pháp sáng tạo và hiệu quả cho
các bài toán thực tế trong nhiều lĩnh vực khác nhau, như y tế, giáo dục, kinh tế, kinh doanh, an
ninh,…
Trong số các lĩnh vực có thể áp dụng Khoa học dữ liệu, ngành kinh doanh bán lẻ là một
trong những ngành có nhu cầu và tiềm năng cao. Ngành kinh doanh bán lẻ phải đối mặt với
nhiều thách thức, như cạnh tranh gay gắt, thị trường biến động, khách hàng đa dạng, ... Để tồn
tại và phát triển, các doanh nghiệp trong ngành kinh doanh bán lẻ cần phải nắm bắt được nhu
cầu và hành vi của khách hàng, cũng như tối ưu hóa các chiến lược kinh doanh, như giá cả, sản
phẩm, quảng cáo, khuyến mãi,…
Trong khuôn khổ của đề án kết thúc môn Khoa học dữ liệu, chúng em quan tâm đến việc áp
dụng Khoa học dữ liệu để giải quyết một bài toán cụ thể trong ngành kinh doanh bán lẻ, đó là
bài toán dự đoán khách hàng tiềm năng cho siêu thị. Đây là một bài toán quan trọng và thực tế,
vì nó có thể giúp siêu thị tăng doanh thu, giảm chi phí, nâng cao chất lượng dịch vụ và khách
hàng. Bằng cách dự đoán được những khách hàng có khả năng mua hàng cao, siêu thị có thể
tập trung vào việc chăm sóc và tăng cường mối quan hệ với họ, cũng như đưa ra các chương
trình khuyến mãi và ưu đãi phù hợp. Điều này sẽ giúp siêu thị tăng sự hài lòng và trung thành
của khách hàng, cũng như thu hút được nhiều khách hàng mới.
6
Chương 1. Tổng quan
1.1 Giới thiệu khoa học dữ liệu
1.1.1 Khoa học dữ liệu là gì?
- Khoa học dữ liệu (Data Science) là một lĩnh vực liên ngành về các quá trình và các hệ thống
rút trích tri thức hoặc hiểu biết từ dữ liệu ở các dạng khác nhau, kể ở dạng cấu trúc hay phi cấu
trúc.
1.1.2 Nhiệm vụ của khoa học dữ liệu
- Thu thập : Thu thập dữ liệu, nhập dữ liệu, tiếp nhận tín hiệu, trích xuất dữ liệu.
- Giải thích, trình bày những kết quả đó cho các bên liên quan đến chuyển hóa các kết quả
8
Trong thời đại công nghệ 4.0, Khoa học dữ liệu là một lĩnh vực hấp dẫn và có nhiều ứng dụng
trong các ngành nghề khác nhau. Nhóm đã chọn đề tài “ Xây dựng mô hình dự đoán khách
hàng tiềm năng cho siêu thị” cho đề án kết thúc môn Khoa học dữ liệu vì chúng em muốn khai
thác và phát triển tiềm năng của mình trong lĩnh vực này. Chúng em cũng mong muốn đóng
góp cho sự phát triển của ngành kinh doanh bán lẻ, đặc biệt là siêu thị, bằng cách áp dụng các
kỹ thuật phân tích dữ liệu và học máy để giải quyết các bài toán thực tế.
Nhóm em nghĩ rằng việc xây dựng một mô hình dự đoán khách hàng tiềm năng cho siêu thị là
một đề tài có ý nghĩa và thách thức. Một mặt, đề tài này có thể mang lại nhiều lợi ích cho
doanh nghiệp, như tăng doanh thu, giảm chi phí, nâng cao chất lượng dịch vụ và khách hàng.
Bằng cách dự đoán được những khách hàng có khả năng mua hàng cao, siêu thị có thể tập
trung vào việc chăm sóc và tăng cường mối quan hệ với họ, cũng như đưa ra các chương trình
khuyến mãi và ưu đãi phù hợp. Điều này sẽ giúp siêu thị tăng sự hài lòng và trung thành của
khách hàng, cũng như thu hút được nhiều khách hàng mới. Mặt khác, đề tài này cũng đòi hỏi cả
nhóm phải nắm vững các kiến thức và kỹ năng cơ bản về Khoa học dữ liệu, như thu thập, xử lý,
khám phá, mô hình hóa và trình bày dữ liệu. Nhóm cũng phải tìm hiểu và áp dụng các phương
pháp học máy phù hợp để xây dựng mô hình dự đoán, cũng như đánh giá và cải thiện hiệu quả
của mô hình.
Nhóm mong muốn qua đề án này, chúng em có thể học hỏi và cải thiện được năng lực nghiên
cứu và làm việc của mình trong lĩnh vực Khoa học dữ liệu. Nhóm cũng hy vọng rằng đề án của
Nhóm có thể đem lại những giá trị thiết thực cho ngành kinh doanh bán lẻ nói chung và siêu thị
nói riêng.
1.2.2 Mục tiêu nghiên cứu
- Tập dữ liệu du lịch cung cấp thông tin chi tiết về các khách hàng có lựa chọn khác nhau và
một số khách hàng tiềm năng có thẻ thành viên.
- Lựa chọn mô hình phân lớp phù hợp cho bộ dữ liệu.
- Phân tích các thông tin có trong bộ dữ liệu:
https://www.kaggle.com/datasets/aungpyaeap/supermarket-sales
- Ứng dụng công cụ Orange vào việc xử lý thông tin.
- Đưa ra biểu đồ, công cụ thống kê phù hợp cho từng thông tin.
- Đánh giá, phân tích bộ dữ liệu.
9
- Đưa ra kết luận.
- Các chính sách phù hợp cho siêu thị.
1.2.3 Đối tượng nghiên cứu
Tất cả lượt khách hàng đã mua sắm, đến từ những quốc gia khác nhau bao gồm cả đàn ông, phụ
nữ, hay trẻ em với những độ tuổi khác nhau sẽ cho ra các so sánh khác nhau. Bộ dữ liệu được
thu thập trên web kaggle đường link:
https://www.kaggle.com/datasets/aungpyaeap/supermarket-sales
1.2.4 Phương pháp thực hiện
1.2.4.1 Phương pháp phân lớp dữ liệu
a) Định nghĩa phân lớp dữ liệu
Phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho
trước nhờ một mô hình phân lớp. Mô hình này được xây dựng dựa trên một tập dữ liệu đã được
gán nhãn trước đó (thuộc về lớp nào). Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu
chính là quá trình phân lớp dữ liệu.
b) Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm 2 bước chính:
- Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn "học" hoặc "huấn luyện")
Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xử lý.
Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật,…
Kết quả của bước này là mô hình phân lớp đã được huấn luyện (trình phân lớp).
10
Hình 1: Xây dựng mô hình phân lớp
11
Hình 3: Quá trình phân lớp dữ liệu
12
b) Thuật toán K-means
13
1.2.4.3 Đánh giá phương pháp, mô hình
a) Test and Score
Đầu vào:
Dữ liệu: dữ liệu đầu vào
Dữ liệu thử nghiệm: dữ liệu riêng biệt để thử nghiệm
Người học: thuật toán học tập
Đầu ra: Kết quả đánh giá: kết quả của các thuật toán phân loại thử nghiệm
b) Confusion Matrix
Các Confusion Matrix cho biết số / tỷ lệ các trường hợp giữa các lớp dự đoán và thực tế. Việc
lựa chọn các phần tử trong ma trận cung cấp các trường hợp tương ứng vào tín hiệu đầu ra.
Bằng cách này, người ta có thể quan sát những trường hợp cụ thể bị phân loại sai và làm thế
nào.
Đầu vào: Kết quả đánh giá: kết quả của các thuật toán phân loại thử nghiệm
Đầu ra:
Dữ liệu được chọn: tập hợp dữ liệu được chọn từ ma trận nhầm lẫn
Dữ liệu: với thông tin bổ sung về việc liệu một thể hiện dữ liệu đã được chọn chưa
14
Chương 2: Quy trình thực hiện và kết quả
2.1 Mô tả nguồn dữ liệu và cấu trúc của dữ liệu
Bộ dữ liệu có tên là “Supermarket sales” được lấy từ Kaggle. Đây là dữ liệu về doanh số bán
hàng của một công ty siêu thị được ghi nhận trong vòng 3 tháng tại 3 chi nhánh khác nhau. Với
mục tiêu nghiên cứu được đề ra ở trên, bộ dữ liệu này sẽ hữu dụng trong việc phân lớp và phân
cụm các khách hàng tiềm năng.
Dữ liệu gồm: 17 cột thuộc tính và 1001 hàng (đối tượng) được thu thập tại thời điểm khách
hàng mua hàng tại siêu thị.
Payment Hình thức thanh toán Gồm 3 hình thức Cash, Credit Card và
Ewallet
16
Hình 8: Thông tin dữ liệu trong bảng Rank
- Ảnh trên cho thấy, trường Gross margin percentage (Tỷ lệ lợi nhuận gộp), không có giá trị
trong tập dữ liệu, nhóm sẽ loại trường này bằng Select Column để tiếp tục các bước xử lý tiếp
theo.
2.2.2. Phân tách dữ liệu
- Tiếp đến, để tách dữ liệu làm 2 phần, một phần để xây dựng mô hình và một phần data để dự
báo, nhóm đã sử dụng chức năng Data Sample trong Orange để thực hiện tách ngẫu nhiên dữ
liệu làm 2 file riêng: 70% dữ liệu gốc được tách và lưu thành file “Sale Data” và 30% dữ liệu
gốc được tách thành file “Forecast data”.
17
Hình 9: Quy trình tách dữ liệu ngẫu nhiên với Data Sampler
18
Hình 10: Xác định trường là biến phụ thuộc với Select column
2.4 Bài toán 1: Mô tả dữ liệu bằng lược đồ và các công cụ thống kê để phát hiện tính đặc thù
của bộ dữ liệu
2.4.1 Mô tả bài toán
Sử dụng các phương pháp thống kê mô tả và các lược đồ excel thông dụng để phát hiện những
đặc thù của dữ liệu.
Mỗi cột dữ liệu tương ứng cho 1 thuộc tính của đối tượng.
Các thuộc tính được xem xét và đánh giá sự phân bổ bằng lược đồ để xác định mức ảnh hưởng
của thuộc tính đến kết quả của việc xây dựng mô hình dự đoán khách hàng tiềm năng cho
doanh nghiệp siêu thị trên.
2.4.2 Tiến hành phân tích dữ liệu
Dữ liệu 1
19
Biểu đồ 1. Biểu đồ thể hiện phân loại khách hàng
Nhận xét:
Từ biểu đồ trên ta thấy không có sự chênh lệch quá lớn giữa khách hàng thành viên và khách
hàng thường cụ thể khách hàng thành viên chiếm 50.1% trong khi khách hàng thường chiếm
49,9% và chỉ chênh lệch 0.2%.
Có thể nói rằng, dù khách hàng không thành viên hay thành viên cũng không ảnh hưởng đến
số lượng khách hàng đến mua sắm, điều này chỉ ra những chiến lược bán hàng của siêu thị vẫn
chưa có sự hấp dẫn đối với khách hàng thành viên. Do đó muốn tăng thêm sự hài lòng của
khách hàng, gia tăng số lượng khách hàng đăng ký thành viên thì siêu thị cần đưa ra nhiều hơn
những voucher ưu đãi, khuyến mãi hấp dẫn hay các chương trình tri ân khách hàng là thành
viên. Siêu thị cần đưa ra nhiều hơn những lợi ích thiết thực hơn nhằm khuyến khích khách hàng
thường trở thành khách hàng thành viên của siêu thị.
Dữ liệu 2
20
Biểu đồ 2: Biểu đồ thể hiện giới tính khách hàng
Nhận xét:
Có sự khác biệt rõ ràng giữa số lượng khách hàng đăng ký thành viên giữa giới tính nam và
nữ.
Số khách hàng nữ là thành viên là 52,1% nhiều hơn khách hàng nữ bình thường chiếm
47,9% trong tổng số khách hàng là thành viên nữ.
Còn đối với khách hàng thành viên nam (48,1%) ít hơn khách hàng nam không thành viên
(51,9%).
=>Nhìn tổng thể có thể thấy số khách hàng thành viên là nữ vẫn nhiều hơn so với số khách
hàng thành viên là nam. Điều này cũng dễ hiểu bởi phần lớn phụ nữ sẽ là người đảm nhận
những công việc nội trợ, chăm sóc gia đình nên sẽ quan tâm nhiều hơn đến các ưu đãi, khuyến
mãi để chi tiêu hợp lý và thông minh hơn và có thể là khách hàng tiềm năng hơn.
Dữ liệu 3
21
Biểu đồ 3: Biểu đồ thể hiện số lượng hàng mua
Nhận xét:
Có thế thấy, không có sự khác biệt lớn về số lượng khách hàng thành viên hay không thành
viên trong việc mua nhiều hàng nhất (10 sản phẩm) hay mua ít hàng nhất (1 sản phẩm) bởi vì
vào từng thời điểm và nhu cầu mua sắm của mỗi người là khác nhau.
Dữ liệu 4
22
Nhận xét:
Có thể thấy phương thức thanh toán bằng thẻ tín dụng có ảnh hưởng và cũng là tiềm năng
nhất.
Đối với phương thức thanh toán bằng tiền mặt: Không có sự chênh lệch đáng kể và gần như
ngang bằng nhau.
Đối với phương thức thanh toán bằng thẻ tín dụng: Có sự chênh lệch rõ ràng, khách hàng
thành viên có thói quen dùng thẻ tín dụng để thanh toán chiếm 55,3% trong tổng số khách hàng
thanh toán bằng thẻ tín dụng và khách hàng thường thì chỉ chiếm 44,7% .
Đối với phương thức thanh toán bằng ví điện tử: Cũng có sự chênh lệch giữa khách hàng
thành viên và không thành viên. Tuy nhiên, trái với 2 phương thức thanh toán trên thì ở phương
thức này số khách hàng thường chiếm 53,3% trên tổng số khách hàng thanh toán qua ví điện tử
có tỷ lệ lớn hơn khách hàng thành viên (46,7%)
=>Công nghệ phát triển, thanh toán không còn chỉ dùng mỗi tiền mặt mà đã phát triển thêm
nhiều phương thức khác hiện đại hơn. Người tiêu dùng có thể dễ dàng lựa chọn phương thức
thanh toán tiện lợi, hữu dụng cũng như mang lại nhiều lợi ích hơn cho mình.
Dữ liệu 5
Biểu đồ 5: Biểu đồ thể hiện vị trí các chi nhánh siêu thị
Nhận xét:
Từ biểu đồ trên ta có thể thấy, vị trí đặt chi nhánh cũng ảnh hưởng đến khách hàng tiềm
năng của siêu thị đặc biệt ở thủ đô Naypyitaw.
23
Ở thành phố Mandalay, khách hàng thành viên (49,7%) ít hơn khách hàng thường (50,3%).
Tỷ lệ không có sự chênh lệch quá lớn.
Ở thành phố Yangon, khách hành thường (50,9%) cũng chiếm tỉ lệ cao hơn khách hàng
thường (49,1%) là 1,8%
Trong khi đó, ở thủ đô Naypyidaw lại có số lượng khách hàng là thành viên chiếm 51,5%
trên tổng số khách hàng ở đó và nhiều hơn 3% so với khách hàng thường (48,5%).
=> Từ các thông số trên cho thấy ảnh hưởng rõ rệt của vị trí các chi nhánh siêu thị đối với phân
loại khách hàng. Ở thủ đô thì lượng khách đăng ký thành viên nhiều hơn hẳn so với lượng
khách thường có thể do nhu cầu mua sắm, sinh hoạt ở thủ đô cao hơn so với các vùng lân cận
vì vậy việc đăng ký thành viên sẽ góp phần mang lại nhiều lợi ích và thuận tiện hơn cho khách
hàng.
Dữ liệu 6
Biểu đồ 6: Biểu đồ thể hiện xếp hạng đánh giá trải nghiệm mua sắm của khách hàng
(thang điểm 10)
Nhận xét:
Từ biểu đồ trên ta nhận thấy rằng có sự chênh lệch giữa xếp hạng của khách hàng thường và
khách hàng thành viên ở từng mức điểm đánh giá.
24
Ở mức độ 6 đến 6,5 điểm, sự tăng cao đột biến của các khách hàng không phải là thành viên
cho thấy 1 điều, đối với chất lượng dịch vụ của siêu thị còn gặp phải nhiều vấn đề, hạn chế,
chưa được các khách hàng chưa là thành viên đánh giá cao. Nếu siêu thị muốn tăng số lượng
khách hàng chuyển đổi từ khách hàng thường sang khách hàng thành viên của siêu thị thì phải
cải thiện chất lượng dịch vụ, tạo ấn tượng mạnh cho khách hàng ngay từ thời điểm ban đầu họ
tiếp cận đến siêu thị.
Tuy nhiên sự chênh lệch này rất nhỏ và có sự thay đổi liên tục không cố định. Qua các thông
số trên biểu đồ thì ta thấy việc xếp hạng đánh giá mua sắm của khách hàng còn phụ thuộc vào
nhiều yếu tố khác nhau như: số lượng hàng mua, loại sản phẩm mua, đơn giá,...
Từ các thông số trên thì ta nhận thấy rằng khách hàng thành viên tập trung nhiều nhất ở
thang điểm từ 9.5 trở lên trong bảng xếp hạng đánh giá trải nghiệm mua sắm tổng thể. Qua đó
có thể thấy rằng hầu hết các khách hàng thành viên đều cảm thấy hài lòng với những trải
nghiệm tuyệt vời khi mua sắm tại siêu thị.
Dữ liệu 7
25
Nhìn chung thì không có sự chênh lệch quá lớn về tỷ lệ khách hàng thành viên và khách
hàng thường. Cụ thể là ở mặt hàng thực phẩm, đời sống, thể thao du lịch,...thì có số lượng
khách hàng thành viên lớn hơn khách hàng thường. Có lẽ đây là một số lĩnh vực tiềm năng để
phát triển hơn.
Tuy nhiên, ở những mặt hàng về điện tử,thời trang, sức khỏe, làm đẹp,..thì lượng khách hàng
thường lại chiếm tỷ lệ nhiều hơn khách hàng thành viên. Doanh nghiệp nên cân nhắc thêm một
số chiến lược ưu đãi, cải thiện sản phẩm để gia tăng số lượng khách hàng thành viên hơn.
=> Qua đó,doanh nghiệp có thể tập trung vào việc tối ưu hóa chiến lược tiếp thị và sản phẩm
trong các lĩnh vực có mức độ tiềm năng cao, đồng thời xem xét cải thiện trong những lĩnh vực
có mức độ tiềm năng thấp. Điều này có thể giúp tăng doanh số bán và tăng cường mối quan hệ
với khách hàng.
2.4.3 Kết luận bài toán 1
Thông qua các hàm thống kê, lược đồ ta thấy rằng khách hàng thành viên đa số là nữ giới, có
số lượng hàng mua dao động từ 1 đến 10 sản phẩm tùy thuộc vào nhu cầu mua sắm. Ngoài ra
phần lớn là thanh toán bằng thẻ tín dụng thường mua sắm ở siêu thị có chi nhánh ngay tại thủ
đô hay phần lớn có điểm xếp hạng đánh giá trải nghiệm mua sắm tại siêu thị thuộc mức điểm từ
9.5 trở lên và thường sẽ mua nhiều hơn ở những loại hàng như thực phẩm, đời sống, thể thao
du lịch,….
Còn đa số khách hàng không phải là thành viên đa số là nam giới, số lượng mua hàng mua
dao động từ 1 đến 10. Phần lớn sẽ thanh toán bằng tiền mặt hoặc ví điện tử chứ không sử dụng
thẻ tín dụng. Tập trung vào những loại hàng như là phụ kiện điện tử, phụ kiện trang sức. Phần
lớn sự có điểm xếp hạng đánh giá trải nghiệm mua sắm tại siêu thị là khoảng 6 đến 6,5 điểm.
Tức là nam giới có những yêu cầu khắc khe hơn về trải nghiệm mua sắm dịch vụ tại các quầy
hàng điện tử và trang sức.
Từ những đặc thù, đặc trưng cơ bản này thì có thể giúp cho đơn vị nắm bắt thông tin và hiểu
hơn về khách hàng của mình, đặc biệt là khách hàng thành viên (khách hàng tiềm năng). Tỷ lệ
khách hàng thành viên không chỉ phụ thuộc vào một yếu tố riêng lẻ mà còn phụ thuộc vào
nhiều yếu tố khác được đề cập trong dữ liệu, ngoài ra còn có cả những yếu tố ngoại cảnh tác
động khác mà dữ liệu chưa thể tổng hợp được. Dữ liệu trong bài chỉ mang tính chất đặc trưng
không áp đặt một cách máy móc.
26
Qua bài toán 1 thì doanh nghiệp siêu thị có thể tham khảo các nhận xét của nhóm thông qua
các biểu đồ để có thể hiểu được một cách tổng quan nhất về các đặc trưng cơ bản của khách
hàng thành viên. Từ đó, các doanh nghiệp sẽ có thể nhận ra được những ưu, khuyết điểm trong
các chính sách đãi ngộ cho khách hàng thành viên và tích cực hơn trong việc cải thiện cũng như
phát triển nhiều đãi ngộ hấp dẫn hơn, thu hút nhiều khách hàng đăng ký thành viên hơn.
2.5 Bài toán 2: Bài toán phân lớp
2.5.1 Mô tả bài toán
- Sử dụng Excel và phần mềm Orange để xử lý và giải quyết bài toán: Phân lớp loại khách hàng
để dự đoán khách hàng tiềm năng.
- Xác định và gán nhãn cho các mẫu dữ liệu vào các lớp khác nhau dựa trên bộ dữ liệu đã qua
tiền xử lý.
- Sử dụng các phương pháp phân lớp: Cây quyết định (Decision Tree), Hồi quy Logistic
(Logistic Regression), SVM (Support Vector Machine) và Neural Network, sau đó tiến hành so
sánh thông qua Ma trận nhầm lẫn (Confusion Matrix) và Test and Score để tìm ra phương pháp
dự báo tốt nhất để thực hiện dự báo.
2.5.2 Chạy mô hình và đánh giá kết quả
2.5.2.1 Chạy mô hình
- Lấy mẫu dữ liệu:
Đầu tiên, nạp bộ dữ liệu đã qua tiền xử lý là file “Data.xlsx” vào phần mềm Orange. Sau đó,
tiến hành phân chia dữ liệu bằng công cụ Data Sampler, phân chia dữ liệu ban đầu thành 2 tệp
độc lập theo tỷ lệ 70% và 30%. Trong đó:
Data Train.xlsx: chiếm 70% dữ liệu trong file “Data.xlsx” được tách ra thành dữ liệu để
huấn luyện mô hình phân lớp.
Data Forecast.xlsx: chiếm 30% dữ liệu trong file “Data.xlsx” được tách ra để làm dữ
liệu thử/dự báo cho mô hình phân lớp.
27
Hình 11: Mô hình chuẩn bị dữ liệu
Hình 12: Quá trình thực hiện phân tách dữ liệu
28
Hình 13: Xây dựng mô hình phân lớp dữ liệu
Hình 14: Kết quả đánh giá mô hình bằng phương pháp K-fold
29
Nhận xét:
Từ kết quả đánh giá của Test and Score, trong phần Evaluation results, chúng ta tập trung
vào kết quả định lượng của 4 mô hình: “Tree”, “Logistic Regression”, “SVM”, “Neural
Network” và xem mô hình nào mang lại hiểu quả cao nhất. Ta sử dụng phương pháp Cross
validation (đánh giá mô hình phân lớp): K-fold với k = 5 để đánh giá mô hình nhờ những tính
năng vượt trội hơn. Sau khi xem xét, ta thấy mô hình “Neural Network” là mô hình phù hợp
nhất để dự đoán khách hàng là thành viên hay không, vì nó cho ra kết quả cao nhất về các chỉ
số đánh giá:
Tính chính xác (CA): 50.1%
Giá trị trung bình điều hoà (F1): 49.6%
Độ chính xác (Precision): 50.1%
Độ truy hồi (Recall): 50.1%
Diện tích đường cong (AUC):
Neural Network > Tree & SVM & Logistic Regression = 0.501 > 0.493 & 0.473 & 0.500
=> Mô hình Neural Network có hiệu quả cao nhất và có thể giảm thiểu sai lầm loại I và loại II.
Mô hình này cũng có thể giúp siêu thị tăng doanh thu và khách hàng trung thành.
2.5.2.3 Đánh giá mô hình dựa trên kết quả ma trận nhầm lẫn (Confusion Matrix)
Sai lầm loại 1: Thực tế khách hàng là thành viên nhưng kết quả dự báo là không phải là
thành viên (Actual Member - Predicted Normal). Điều này có thể dẫn đến việc khách hàng sẽ
không được hưởng đúng chế độ cũng như là lợi ích của thành viên, dẫn đến sự mất uy tín của
siêu thị cũng như là giảm đi sự tin tưởng của khách hàng đối với siêu thị.
Sai lầm loại 2: Thực tế khách hàng không phải là thành viên nhưng kết quả dự báo là thành
viên (Actual Normal - Predicted Member). Trường hợp này ảnh hưởng đến siêu thị ở một số
khía cạnh như là tăng chi phí marketing hoặc là các khách hàng là thành viên mà do bị nhầm
lẫn là khách hàng thường nên họ không được đãi ngộ như các thành viên khác khiến họ ít mua
sắm tại siêu thị dẫn đến doanh số của siêu thị cũng sẽ bị giảm đi.
30
Hình 15: Kết quả ma trận nhầm lẫn của phương pháp Tree
Nhận xét mô hình:
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng là thành viên so với thực tế
khách hàng là thành viên: 49,3% (true positive) => Đúng
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng không phải thành viên so với
thực tế khách hàng là thành viên: 50,7% (false positive) => Sai lầm loại I
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng là thành viên so với thực tế
khách hàng không phải thành viên: 51,1% (false negative) => Sai lầm loại II
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng không phải là thành viên so với
thực tế khách hàng không phải là thành viên: 48,9% (true negative) => Đúng
31
Hình 16: Kết quả ma trận nhầm lẫn của phương pháp Logistic Regression
Nhận xét mô hình:
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng là thành viên so với thực tế
khách hàng là thành viên: 48,3% (true positive) => Đúng
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng không phải thành viên so với
thực tế khách hàng là thành viên: 51,7% (false positive) => Sai lầm loại I
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng là thành viên so với thực tế
khách hàng không phải thành viên: 52,4% (false negative) => Sai lầm loại II
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng không phải là thành viên so với
thực tế khách hàng không phải là thành viên: 47,6% (true negative) => Đúng
32
Hình 17: Kết quả ma trận nhầm lẫn của phương pháp SVM
Nhận xét mô hình:
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng là thành viên so với thực tế
khách hàng là thành viên: 40,0% (true positive) => Đúng
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng không phải thành viên so với
thực tế khách hàng là thành viên: 60,0% (false positive) => Sai lầm loại I
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng là thành viên so với thực tế
khách hàng không phải thành viên: 50,2% (false negative) => Sai lầm loại II
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng không phải là thành viên so với
thực tế khách hàng không phải là thành viên: 49,8% (true negative) => Đúng
33
Hình 18: Kết quả ma trận nhầm lẫn của phương pháp Neural Network
Nhận xét mô hình:
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng là thành viên so với thực tế khách
hàng là thành viên: 50,2% (true positive) => Đúng
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng không phải thành viên so với thực
tế khách hàng là thành viên: 49,8% (false positive) => Sai lầm loại I
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng là thành viên so với thực tế khách
hàng không phải thành viên: 50,0% (false negative) => Sai lầm loại II
Tỷ lệ nhầm lẫn của kết quả nghiên cứu dự đoán khách hàng không phải là thành viên so với
thực tế khách hàng không phải là thành viên: 50,0% (true negative) => Đúng
Nhận xét chung:
Phương pháp Neural Network có tỉ lệ sai lầm loại II nhỏ nhất => Đây là mô hình tốt nhất để dự
báo khách hàng tiềm năng.
34
Hình 19: Mô hình dự báo khách hàng tiềm năng
35
Hình 20.2: Kết quả dự báo
36
Hình 20.4: Kết quả dự báo
38
Hình 22: Kết quả k-Means
Hình 23.1: Kết quả chỉ số Silhouette của các mẫu quan sát khi phân thành 2
cụm
39
Hình 23.2: Kết quả chỉ số Silhouette của các mẫu quan sát khi phân thành 2
cụm
Hình 23.3: Kết quả chỉ số Silhouette của các mẫu quan sát khi phân thành 2
cụm
40
Hình 24: Kết quả 2 mẫu quan sát có chỉ số Silhouette cao nhất của từng cụm
Từ những kết quả trên, nhóm nhận thấy độ đáng tin cậy của K-means tương đối cao (0.636).
Các quan sát có chỉ số Silhouette cao nhất của cụm 1 và 2 lần lượt là 0.766204, 0.768924. Vì
vậy, nhóm quyết định sử dụng k-Means là phương pháp để phân cụm dữ liệu để tiết kiệm được
thời gian, tiện lợi, độ chính xác cao thay vì sử dụng thêm Hierarchical Clustering.
Kết quả phân cụm:
Biểu đồ 8: Phân cụm vị trí siêu thị theo loại khách hàng
41
Biểu đồ 9: Phân cụm hình thức thanh toán theo loại khách hàng
Biểu đồ 10: Phân cụm phân loại mặt hàng theo loại khách hàng
42
Biểu đồ 11: Phân cụm giới tính khách hàng theo loại khách hàng
43
Chương 3. Kết luận
3.1 Kết luận
Trong bối cảnh hiện đại như ngày nay, việc tìm kiếm các siêu thị là vô cùng dễ dàng và tiện
lợi đối với người tiêu dùng, chính vì thế mà đây cũng là một bài toán khó cho các doanh nghiệp
để làm sao xây dựng được những chiến lược cạnh tranh, chính sách ưu đãi, phương án tiếp
thị,...phù hợp, hiệu quả để xây dựng lòng tin, sự ưa chuộng, gắn bó của khách hàng đối với
doanh nghiệp mình. Với những phân tích dựa vào số liệu sẵn có, nhóm chúng em nhận thấy
rằng khách hàng tiềm năng của siêu thị chính là những khách hàng nữ đăng kí thành viên, vì
đây là đối tượng chủ yếu quan tâm nhiều nhất đến những quyền lợi, chương trình ưu đãi,
khuyến mãi,...cụ thể là ở mặt hàng thực phẩm, đời sống, thể thao du lịch,.. với phương thức
thanh toán chủ yếu bằng thẻ tín dụng vì sự nhanh chóng, tiện lợi, phù hợp với công nghệ tiến
bộ hiện đại,..để từ đó thấu hiểu được mối quan tâm về nhu cầu thiết yếu trong cuộc sống của
người tiêu dùng, hiểu được những nỗi lo, vướng mắc của khách hàng để các doanh nghiệp biết
mình nên tập trung chú trọng vào cung cấp những sản phẩm, dịch vụ tốt nhất đáp ứng nhu cầu
của khách hàng.
3.2 Những hạn chế trong nghiên cứu đồ án
Về mặt kiến thức chuyên ngành: Với những kiến thức tích lũy được ở học phần môn
Khoa học dữ liệu nói riêng và của chuyên ngành chúng em nói chung, thì chúng em nhận thấy
rằng trong quá trình làm còn gặp phải không ít những khó khăn, vướng mắc, bài làm chắc chắn
sẽ còn những sai sót, hạn chế, nhóm mong nhận được lời nhận xét, góp ý từ thầy để nhóm cải
thiện tốt hơn.
Về độ chính xác: Nhóm dựa vào những dữ liệu cũ trước đây, nên xét về thực tế thì độ
chính xác sẽ có sự chênh lệch với tình hình hiện tại.
Về đối tượng, phạm vi nghiên cứu: Còn hạn chế do nhóm không đủ điều kiện để tiến
hành thực hiện khảo sát để lấy số liệu thực tế.
3.3 Một số kiến nghị cho doanh nghiệp trong việc dự đoán khách hàng tiềm năng
Qua việc xử lý các bài toán trên, nhóm em xin phép đề xuất một vài giải pháp cho doanh
nghiệp như:
Xây dựng chiến lược tiếp thị đến mọi đối tượng khách hàng. Cố gắng duy trì và phát
triển niềm tin ở khách hàng đối với doanh nghiệp mình, hướng đến việc thu hút những khách
44
hàng bình thường trở thành khách hàng thành viên bằng cách tạo dựng niềm tin, sự hài lòng
ngay từ cả chính sách tiếp thị, quảng cáo, ưu đãi cho đến chất lượng sản phẩm, chất lượng dịch
vụ…Từ đó góp phần nâng cao sức cạnh tranh, nâng cao sức ảnh hưởng của mình trên thị
trường.
Quan tâm đến quyền lợi của khách hàng, có những chương trình khuyến mãi, giảm giá
để có thể vừa tăng doanh số bán hàng, vừa thu hút sự quan tâm, tạo thiện cảm của người tiêu
dùng với doanh nghiệp mình.
Theo sát những sự đánh giá, góp ý từ khách hàng để từ đó doanh nghiệp có thể đề ra
những biện pháp phù hợp và kịp thời.
Xây dựng đội ngũ nhân viên có tác phong chuyên nghiệp, hệ thống quản lý chặt chẽ,
tăng cường giám sát thái độ dịch vụ của nhân viên bán hàng đối với khách hàng, góp phần tăng
trải nghiệm tích cực của khách hàng chưa phải là thành viên đối với siêu thị, biến họ trở thành
khách hàng thành viên của siêu thị.
Thực hiện phân loại, sắp xếp những kệ trưng bày sản phẩm theo từng danh mục, nhóm
hàng riêng để giúp khách hàng lựa chọn sản phẩm dễ dàng và nhanh chóng, chú trọng đến cách
đóng gói bao bì sản phẩm, túi đựng sản phẩm để cho khách hàng cảm nhận được sự tôn trọng
của doanh nghiệp mình dành cho khách hàng.
Xây dựng hình ảnh đẹp của siêu thị để đánh vào tâm lí khách hàng, tạo độ tin cậy của
mình trong nhận thức của khách hàng
Tổ chức những sự kiện, chương trình đãi ngộ đặc biệt dành cho khách hàng thành viên,
nhằm xây dựng mối quan hệ càng thân thiết, gắn bó của khách hàng cũ, đồng thời nhận được
thiện cảm của khách hàng mới để từ đó chuyển họ từ khách hàng thường sang khách hàng
thành viên.
Theo dõi sát xao về vấn đề doanh số, đánh giá của khách hàng để từ đó có những biện
pháp kịp thời, nhanh chóng, giúp các chủ doanh nghiệp đưa ra chiến lược hiệu quả, cải thiện
hơn trong tương lai.
45