Chương 11 PHÂN TÍCH RỔ HÀNG MUA (Market-basket analysis) : Khai thác dữ liệu trong kinh doanh Chương 10

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 12

Khai thác dữ liệu trong kinh doanh Chương 10

CHƯƠNG 11

PHÂN TÍCH RỔ HÀNG MUA (Market-basket analysis)

Trong chương này:


 Định nghĩa phân tích rổ hàng mua
 Trình bày thuật ngữ rổ hàng mua
 Giải thích các khái niệm bằng ví dụ
 Xem xét các phần mềm phân tích rổ hàng mua
 Trình bày các thủ tục phân tích rổ hàng mua trong phần phụ lục

Vào các ngày thứ hai ở mùa thu khi đến cửa hàng thực phẩm, bạn có bao giờ nhận ra việc
mua bia và khoai tây chiên dễ như thế nào để đãi những người bạn đến nhà xem trận đá bóng.
Bạn có từng nhận ra để mua sữa cho con của mình, bạn phải đi qua suốt cửa hàng. Bạn có để
ý những người mặc đồng phục của những sản phẩm như các loại nước giải khát phổ biến,
đang sắp xếp một cách cẩn thận những sản phẩm của họ trong cửa hàng thực phẩm mà không
biết mối liên hệ giữa họ với các sản phẩm đó. Đây chỉ là một số trong nhiều vấn đề về vị trí
đặt sản phẩm, điều này cực kỳ quan trọng dẫn đến thành công cho cửa hàng thực phẩm. Rõ
ràng, một nhân tố quan trọng là sản phẩm của bạn có thể bán được nhiều hơn nếu khách hàng
có thể dễ dàng nhìn thấy sản phẩm. Một nguyên tắc quan trọng khác là nếu khách hàng mua
một loại sản phẩm nào đó thì có thể sẽ quan tâm mua một số sản phẩm cụ thể khác.

Phân tích rổ hàng mua nhằm nhận diện những sản phẩm nào có xu hướng được mua cùng với
nhau. Thông tin này cho phép các cửa hàng đưa ra những quyết định khôn ngoan trong việc
xếp đặt sản phẩm ở đâu. Dễ tìm thấy những nơi tập trung bán bia & khoai tây chiên vào tối
thứ hai, bởi vì xu hướng là người dân Mỹ xem đá banh vào tối thứ hai. Nhưng các sản phẩm
như nước cam, thuốc cảm và khăn giấy thì khó tìm thấy hơn.

Phân tích rổ hàng mua là phương pháp nghiên cứu thành phần rổ hàng mua sắm trong một lần
mua. Kỹ thuật này đã được ứng dụng rộng rãi trong vận hành cửa hàng thực phẩm (cũng như
cho các họat động bán lẻ khác, kể cả hoạt động nhà hàng). Hình thức thô sơ nhất của dữ liệu
rổ hàng mua là danh sách giao dịch của người mua hàng, chỉ ra những món hàng được mua
cùng nhau (kèm theo là giá mua hàng của mỗi loại). Loại dữ liệu này thì khó phân tích vì một
số mặt sau 1:
 Lượng dữ liệu được ghi lại rất là lớn (thường hàng triệu giao dịch mỗi ngày).
 Sự thưa thớt (mỗi rổ hàng mua chỉ chứa đựng một tỷ lệ nhỏ của từng món hàng)
 Tính không đồng nhất (những người có sở thích khác nhau thì có khuynh hướng
mua những nhóm hàng cụ thể khác nhau).

Mục đích của phân tích rổ hàng mua là nhận ra sản phẩm nào có xu hướng được mua cùng
nhau. Phân tích dữ liệu ở cấp độ giao dịch có thể nhận ra kiểu mua hàng, như là rau và dĩa
được mua cùng với thịt bò trong suốt mùa tổ chức tiệc nướng. Thông tin này dùng để xác định
nơi nào để trưng bày những sản phẩm ở cửa hàng, cũng như hỗ trợ việc quản lý hàng dự trữ.
Trưng bày sản phẩm, bố trí nhân viên bán hàng có thể được lập kế hoạch khôn khéo phù hợp
với từng thời gian cụ thể như là ngày, tuần hoặc trong các dịp lễ. Một ứng dụng thương mại
khác như là phiếu giảm giá điện tử ứng với nhiều loại giá trị khác nhau với những thời gian
phát hành khác nhau sử dụng thông tin từ phân tích rổ hàng mua 2.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 178
Khai thác dữ liệu trong kinh doanh Chương 10

ĐỊNH NGHĨA

Phân tích rổ hàng mua xem xu hướng khách hàng mua những món hàng nào cùng với nhau.
Điều này bao gồm việc mua những sản phẩm cùng một lúc như là sữa, bánh, bơ và mứt. Cũng
có thể là xem xét mối liên hệ tuần tự, như là việc mua đồ trang trí nội thất theo sau việc mua
nhà, hay việc mua xe hơi vào một năm nào đó và mua vỏ xe hai năm sau đó. Hiểu biết xu
hướng khách hàng cũng như thông tin về thời gian mua hàng là rất có giá trị đối với các tổ
chức bán lẻ. Ví dụ, việc mua đồ ăn để coi football (bóng đá Mỹ) vào tối thứ hai được mong
đợi sẽ là cơ hội tăng doanh số bán hàng vào chiều thứ hai, vì vậy các cửa hàng sẽ khôn ngoan
hơn khi chuẩn bị nhiều bia và khoai tây chiên trên kệ hàng để đảm bảo cung cấp nhu cầu mua
hàng trong chiều thứ hai. Các thông tin khác có thể sẽ không hữu ích, chẳng hạn như mối
quan hệ giả thuyết giữa việc mở mới cửa hàng bán đồ dùng trong nhà và doanh số bán miếng
lót bàn cầu cho bé ngồi 3. Thông tin chi tiết loại này không có nội dung để hành động. Các
cửa hàng bán đồ dùng có thể muốn chắc rằng họ có sẵn miếng lót bàn cầu khi mở cửa hàng,
thông tin rổ hàng mua này không cung cấp giá trị trừ phi nó chứa đựng những thông tin có thể
giải thích được. Nói cách khác, kết luận rút ra phải có ý nghĩa.

Phân tích rổ hàng (cùng với phân cụm), là hoạt động khai thác dữ liệu không định hướng
trước, tìm kiếm các kiểu mẫu mà trước đây chưa được biết trước đó. Điều này cho thấy phân
tích rổ hàng là một dạng khám phá tri thức. Phân tích rổ hàng mua bắt đầu với việc phân loại
hành vi mua của người tiêu dùng. Bước tiếp theo là nhận diện các thông tin để ra quyết định
giúp gia tăng lợi nhuận tùy theo tiểu sử mua hàng. Một khi biết lợi nhuận theo tiểu sử mua
hàng, thì nhà bán lẻ có thể dùng dữ liệu thực tế này để ra quyết định. Bố trí cửa hàng bán lẻ
theo nhóm hàng hóa được gọi là sắp xếp hàng có liên hệ (affinity positioning). Minh họa cho
việc này là sắp xếp vị trí cà phê và máy pha cà phê trong khu trưng bày sản phẩm. Có nhiều
cách khác nhau để đo lường về mối liên hệ giữa các sản phẩm, cách đơn giản nhất đó là sự
tương quan. Thông tin này thường áp dụng theo hai cách 4. Nếu vị trí đặt sản phẩm có ý nghĩa
quan trọng, thì mô hình chọn lựa tại cửa hàng cho rằng sự thay đổi trong các nhóm đối tượng
khách hàng do các hoạt động tiếp thị dẫn đến sự tương quan này. (Giải thích thêm: Nhu cầu
của người tiêu dùng khác nhau do đó họ hành động khác nhau khi bị tác động bởi sản
phẩm/chương trình Marketing khác nhau – mà ở đây là việc xếp đặt sản phẩm). Nếu vị trí đặt
sản phẩm không quan trọng, thì các mô hình tiện ích tổng quát xem việc phụ thuộc chéo giữa
các nhóm sản phẩm là một kết quả lựa chọn của khách hàng.

Mỗi quan điểm trên đều có giá trị trong việc việc nhận biết các sản phẩm nào có khuynh
hướng được bán chung với nhau. Bán chéo (Cross-selling) đề cập đến xu hướng của người
mua một sản phẩm cụ thể thì cũng mua một sản phẩm khác. Các cửa hàng bán lẻ có thể gia
tăng tối đa việc bán chéo bằng cách đặt những sản phẩm mà có xu hướng mua kèm này vào
những chỗ sao cho cả hai đều được nhìn thấy. Một ví dụ điển hình dễ thấy cho việc bán chéo
là nước cam, thuốc cảm và khăn giấy, tất cả thứ này đều thu hút người mua khi bị bệnh cảm.
Bảng 11.1: Rổ hàng mua thực phẩm
Khách hàng #1 Bia, bánh qui mặn, khoai tây chiên, thuốc aspirin
Khách hàng #2 Tã giấy, dưỡng thể trẻ em, nước ép nho, thực phẩm trẻ em, sữa.
Khách hàng #3 Soda, khoai tây chiên, sữa
Khách hàng #4 Soup, Bia, sữa, kem
Khách hàng # 5 Soda, cà phê, sữa, bánh mì
Khách hàng # 6 Bia, khoai tây chiên

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 179
Khai thác dữ liệu trong kinh doanh Chương 10

Bảng 11.2: Bảng đồng biến cố


Bia Khoai tây chiên Sữa Tã giấy Soda
Bia 3 2 1 0 0
Khoai tây chiên 2 3 1 0 1
Sữa 1 1 4 1 2
Tã giấy 0 0 1 1 0
Soda 0 1 2 0 2

Phân tích rổ hàng mua hướng tới việc nhận diện những sản phẩm nào được mua cùng nhau.
Thông tin này có thể hữu dụng trong việc sắp xếp hàng hóa trong cửa hàng hay sắp xếp thông
tin trên catalog hiệu quả hơn, cũng như cho việc chọn sản phẩm nào để khuyến mãi. Thông tin
này thường được sử dụng để lập kế hoạch quảng cáo và khuyến mãi, phân chia không gian
trưng bày hàng, vị trí đặt sản phẩm, và cho quản lý các mối quan hệ khách hàng cá nhân.

Steve Schmidt, Chủ tịch công ty ACNielsen Mỹ, đã mô tả một vài lợi ích của phân tích rổ
hàng mua 5. Phân tích rổ hàng mua là cực kỳ quan trọng trong việc chọn chiến lược trưng bày
hàng và khuyến mãi hiệu quả. Phân tích này có thể phát hiện ra những kiểu mẫu chi tiêu tiêu
dùng tiềm ẩn, và nhận ra những cơ hội tiềm năng để đẩy mạnh bán những sản phẩm được mua
chung với nhau. Schmidt đã báo cáo rằng các món khai vị kiểu Ý, bánh pizza, bánh nướng,
các món khai vị kiểu Á và nước cam là những sản phẩm mà khá nhạy cảm nhất đối với
khuyến mãi bằng giá. Phân tích đã tiết lộ tương quan mạnh giữa nước cam và bánh quế. Phân
tích khai thác dữ liệu bao gồm toàn bộ quá trình không chỉ phát hiện ra mối tương quan như
vậy, mà còn tìm ra lý do của mối quan hệ đó, và quan trọng hơn tạo ra cách để gia tăng tổng
lợi nhuận.

Phân tích rổ hàng mua đơn giản được áp dụng bắt đầu với bảng đồng biến cố (co-occurrence
table), trong đó liệt kê số trường hợp mua cùng lúc trong một quy mô mẫu quan sát. Ví dụ,
sáu khách hàng có những sản phẩm trong rổ hàng thực phẩm được thể hiện ở Bảng 11.1.
Bảng đồng biến cố cho 5 sản phẩm được lựa chọn được trình bày trong Bảng 11.2.

Trong ví dụ này, tương quan mạnh nhất là bia và khoai tây chiên, đây là mối quan hệ được
mong đợi bởi hai sản phẩm thường gắn mạnh với nhau. Bảng ma trận tương quan của dữ liệu
này được trình bày trong Bảng 11.3.

Trong khi đó tương quan giữa tã lót và sữa là thấp, Tất cả (chỉ có một) trường hợp mua tã
giấy, là có mua sữa, là sản phẩm được cho rằng sẽ mua chung với tã giấy trong mẫu quan sát
nhỏ này (và do vậy, cũng chỉ có 1 trường hợp mua các sản phẩm dành cho em bé khác).
Dường như mua chéo giữa sữa hay soda với bia không có ý nghĩa. Thông tin này có ý nghĩa
tiêu cực đối với các nhà quảng cáo (hoặc những người uống bia chỉ không nghĩ về giá trị của
sữa khi so sánh với bia)
Mặt khác, những thông tin này có ý nghĩa trong việc đẩy mạnh bán khoai tây chiên cho người
uống bia. Một số kết hợp như sữa và soda dường như không có ý nghĩa trong việc ra quyết
định kinh doanh, mặc dù mối quan hệ thống kê (tương quan) giữa chúng khá mạnh.
Bảng 11.3: Ma trận tương quan tính từ bảng đồng biến cố
Khoai tây
Bia chiên Sữa Tã lót Soda
Bia 1.00000
Khoai tây chiên 0.77357 1
Sữa -0.26471 -0.269069 1
Tã lót -0.49010 -0.720577 0.490098 1
Soda -0.38348 0 0.766965 0 1

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 180
Khai thác dữ liệu trong kinh doanh Chương 10

Bảng 11.4: Hệ số Jascard Coeficents từ bảng đồng biến cố


Khoai tây
Bia chiên Sữa Tã lót Soda
Bia
Khoai tây chiên 0.333
Sữa 0.143 0.143
Tã lót 0 0 0.200
Soda 0 0.200 0.333 0

Có nhiều cách cơ bản để nhận ra những sản phẩm nào trong rổ hàng mua đi cùng với nhau 6.
Tương quan chỉ là một cách dùng để minh họa. Tuy nhiên tương quan không là cách tốt khi
làm với dữ liệu nhị phân (dữ liệu thô rổ hàng ở đây là nhị phân). Hệ số tương quan tích mô
măng chuẩn hóa theo trung bình và độ lệch chuẩn. Khoảng cách đo lường này nhận diện một
mức độ tương tự nào đó. Một phương pháp thứ ba đó là hệ số Jaccard, rất đơn giản nhưng
hiệu quả, thường hiệu quả hơn là hệ số tương quan hay thước đo khoảng cách. Hệ số Jaccard
là tỷ lệ số trường hợp mà hai sản phẩm được mua cùng nhau so với tổng số trường hợp mà
mỗi sản phẩm được mua.

Để minh họa chúng ta sử dụng ví dụ được cho trước đó, Bảng 11.2 cho biết rằng bia và khoai
tây chiên được mua cùng với nhau 2 lần. Tổng số lượng bia được mua là 3 lần, tổng số mua
khoai tây chiên cũng là 3 lần, vì vậy hệ số của Jaccard cho bia và khoai tây chiên là
(2/(3+3))= 0,333. Hệ số Jaccard cho những sản phẩm khác liên hệ đến bia như là sữa, tã lót và
soda lần lượt là 0,143; 0; 0. Bảng 11.4 cho hệ số Jaccard tương ứng với hệ số tương quan thể
hiện trong Bảng 11.3.

Hệ số tương quan đưa đến kết luận về mối liên hệ chéo, trong khi hệ số Jaccard tập trung trực
tiếp vào các cặp sản phẩm. Cả hai thức đo này đều tính được một cách dễ dàng (hệ số tương
quan được tính toán từ nhiều phần mềm có sẵn, hệ số Jaccard được tính toán từ những công
thức đơn giản). Vấn đề cơ bản ở đây là tính chính xác tương đối trong việc nhận ra các mối
liên hệ. Hệ số Jaccard đơn giản hơn, có thể chính xác hơn và cho kết quả đáng tin cậy hơn
nhưng đòi hỏi lượng dữ liệu khá lớn (Trong ví dụ đơn giản của chúng ta, có quá nhiều số 0, vì
vậy sẽ không có ý nghĩa cho qui mô lớn. Tuy nhiên trong thực tế, các cơ sở bán lẻ đều có
lượng doanh thu lớn, như vậy ắt hẳn sẽ có có sẵn nhiều dữ liệu này.

Thực hiện phân tích rổ hàng mua đòi hỏi sự nổ lực và đầu tư lớn. Các tổ chức bán lẻ có thể
mất hơn 18 tháng để thực hiện loại phân tích này. Tuy nhiên, nó cung cấp một công cụ hoàn
hảo để gia tăng khả năng cạnh tranh.

MINH HỌA

Tạp chí Chain Store Age Executive thực hiện một nghiên cứu sâu về phân tích rổ hàng mua 7.
Bước đầu tiên là nhóm các sản phẩm cùng loại. Bước kế tiếp là xác định % của mỗi loại trong
từng rổ hàng. Rổ hàng mua được đăng ký vào hồ sơ dựa trên số tiền mua lớn nhất. Và rồi
những hồ sơ này là cơ sở để nắm bắt lý do tại sao người ta vào cửa hàng. Phân tích rổ hàng
mua cho thấy khách hàng mua sắm dựa trên nhu cầu cá nhân chứ không mua sắm dựa trên
những nhóm sản phẩm. Khoảng 30 hồ sơ mua hàng của cửa hàng giá rẻ này được trình bày
trong Bảng 11.5

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 181
Khai thác dữ liệu trong kinh doanh Chương 10

Bảng 11.5: Hồ sơ mua hàng để phân tích rổ hàng mua


Quan tâm làm đẹp Đồ dùng gia đình Nhiếp ảnh
Thời trang phụ nữ Quan tâm đến sức khỏe Quan tâm hình thức đàn ông
TV/máy nghe nhạc Quần áo trẻ em Quan tâm thể thao
Tình cảm Theo mùa/Truyền thống Sở thích riêng
Những người hút thuốc Đồ chơi trẻ em Nội trợ
Sinh viên/văn phòng Uống thông thường Yêu vật cưng
Dụng cụ gia đình Hay bệnh Gia đình mới
Người làm vườn Thời trang giày dép Thời trang nam
Thuốc OTC Ô tô
Đọc thông thường Ăn uống tiện lợi
Nguồn: Chain Store Age Executive, 1995

Tinh thần hướng về khách hàng giúp hiểu được mối liên kết giữa việc mua các sản phẩm. Ví
dụ, bông gòn tẩy trang (cotton balls), thuốc nhuộm tóc, và nước hoa là bốn loại sản phẩm
khác nhau nhưng tất cả các sản phẩm này là một phần của hồ sơ mua hàng của người quan
tâm đến làm đẹp. Có thể những khách hàng cụ thể mua một rổ hàng theo một hồ sơ trong một
lần đi mua, và lại mua theo một hồ sơ khác trong một lần mua khác. Điểm tập trung là rổ hàng
mua, không phải là cá nhân khách hàng.

Các nhà bán lẻ thường xác định lợi nhuận của từng hồ sơ mua hàng. Lợi nhuận của 27 hồ sơ
mua hàng được tính bằng dollar cho mỗi rổ hàng mua được thể hiện trong Bảng 11.6.

Thông tin này có thể hỗ trợ trong việc đưa ra các quyết định khuyến mãi. Thông thường nhà
bán lẻ tìm ra các quảng cáo trong quá khứ cho những hồ sơ mua hàng mang lại lợi nhuận
thấp. Làm tương tự như vậy đối với khuyến mãi, mặc dù sản phẩm khuyến mãi thường xuất
hiện ở một số hồ sơ khác nhau. Hiệu quả của các khuyến mãi có thể ước tính bằng việc đo
lường lợi nhuận từ rổ hàng.

Ngoài ra, phân bổ không gian và xác định vị trí để hàng là những quyết định quan trọng trong
ngành bán lẻ được hổ trợ bằng cách phân tích rổ hàng mua. Trong Bảng 11.6, quần áo trẻ em
chiếm 3% trong tổng lợi nhuận, trong khi hồ sơ mua thức uống thông thường chiếm 0,3% 8.
Tuy nhiên cả hai nhóm sản phẩm này dường như chiếm không gian (diện tích đặt sản phẩm)
bằng nhau. Nếu vậy thì, thật là hợp lý để nhà bán lẻ phân bổ không gian lớn hơn cho những
sản phẩm có nhiều lợi nhuận hơn. Rổ hàng quan tâm làm đẹp bao có bao gồm tấm thiệp chúc
mừng chiếm 25% và kẹo theo mùa chiếm 16%. Điều này chỉ ra rằng tổng doanh số bán hàng
có thể được gia tăng bằng việc di chuyển những tấm thiệp chúc mừng & kẹo theo mùa đến
những khu vực lân cận nhau và đến những khu vực sản phẩm làm đẹp chính yếu.

Phân tích rổ hàng mua cũng có thể khám phá ra những món hàng thường xuyên được mua
cùng với nhau. Như bạn mong đợi, thuốc cảm thường được tìm trong rổ hàng mua tương tự
như Khăn giấy. Phân tích rổ hàng mua cũng được phát hiện ra rằng trên 30% hồ sơ này có
mua nước trái cây đóng chai. Bằng cách bố trí vị trí đặt nước trái cây đóng chai gần thuốc
cảm, thì bán chéo có thể sẽ gia tăng.

Các sự kiện truyền thông có thể được thiết kế dựa trên sự liên hệ giữa các sản phẩm. Chuỗi
cửa hàng thực phẩm xác định 16 hồ sơ mua hàng thể hiện các dịp mua sắm khác nhau, chẳng
hạn như tiệc nướng mùa hè và các buổi sinh hoạt ngoài trời xem đá bóng vào tối thứ hai. Thể
hiện trên Bảng 11.7.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 182
Khai thác dữ liệu trong kinh doanh Chương 10

Bảng 11.6: Lợi nhuận của tiểu sử/hồ sơ mua hàng (USD)
Thời trang trẻ em 15.24 Thuốc OTC 6.64 Theo mùa/truyền thống 4.79
Thời trang nam 13.41 Giày dép thời trang 6.48 Ô tô 4.63
Thời trang nữ 11.84 TV/máy nghe nhạc 4.36 Làm vườn 4.36
Tiện nghi gia đình 9.37 Quan tâm hình thức đàn ông 5.79 Gia đình mới 3.98
Quan tâm sức khỏe 8.11 Tình cảm 5.79 ăn uống tiện lợi 3.82
Sở thích riêng 7.99 Đọc thông thường 5.78 Yêu vật cưng 3.00
Nhiếp ảnh 7.81 Quan tâm làm đẹp 5.36 Uống thông thường 2.96
Đồ dùng gia đình 7.70 Đồ chơi trẻ em 5.30 Hút thuốc 2.88
Quan tâm thể thao 7.45 Nội trợ 5.21 Sinh viên/văn phòng 2.55
Nguồn: Chain Store Age Executive, 1995

Bảng 11.7 : Tiểu sử/hồ sơ mua hàng ở chuỗi cửa hàng thực phẩm
Mua hàng trữ hàng tuần Thức ăn cho 1 người Làm sạch nhà cửa Đi chơi cuối tuần
Tiệc tối/giải trí Ăn tốt cho sức khỏe Thức ăn tiện lợi Bóng đá tối thứ hai
Tiệc nướng ngoài sân Cám lạnh và cúm Chăm sóc cá nhân
Nướng bánh từ số không Nhu cầu cho trẻ em Thức ăn cho vật nuôi Chăm sóc gia đình
Nguồn: Chain Store Age Executive, 1995

Nếu một rổ hàng về sức khỏe - ăn uống trị giá 17$ lợi nhuận và rổ hàng về nhu cầu cho vật
cưng trị giá 4$ về lợi nhuận, thông tin này là cơ sở sử dụng cho quảng cáo và khuyến mãi.
Điều này cho dẫn đến ngân sách quảng cáo trực tiếp dành cho sản phẩm ăn uống - sức khỏe
cho người nhiều hơn là thực phẩm cho vật cưng. Cần chú ý là có sự khác nhau trong hồ sơ
mua hàng giữa các cửa hàng khác nhau. Vì vậy, phân tích rổ hàng mua cần tập trung vào qui
mô cửa hàng. Ví dụ rổ hàng mua Làm vườn có lợi nhuận tại một cửa hàng là 4,36$, nhưng
trong một cửa hàng khác lợi nhuận là 8,9$.

Phân tích rổ hàng mua liên quan đến 3 loại mối liên hệ 9:
1. Mối liên hệ bổ sung như là bia và bánh qui mặn.
2. Mối liên hệ với chu trình mua hàng tương tự như là sữa và trái cây.
3. Mối liên hệ thể hiện sở thích của hộ gia đình hay đặc trưng nhân khẩu của hộ gia đình

Không tính đầy đủ cho 3 loại mối liên hệ trên có thể dẫn tới phân tích rổ hàng mua không
đúng.

NHỮNG GIỚI HẠN CỦA PHÂN TÍCH RỔ HÀNG MUA

Anne Milley của công ty Giải pháp Kinh doanh SAS cảnh báo về những giới hạn của phân
tích rổ hàng mua 10. Nhận ra mối liên hệ giữa doanh số các sản phẩm không có ý nghĩa trừ khi
nó được sử dụng. Việc đo lường các ảnh hưởng là quan trọng đối với khai thác dữ liệu đúng
đắn. Một trong những ví dụ thú vị nhất của phân tích rổ hàng mua là xu hướng giả định cho
người đàn ông mua bia và tã lót cùng với nhau. Nếu điều này là đúng, tri thức này sẽ chỉ có
giá trị nếu hành động cần thiết được thực hiện để gia tăng doanh số. Ví dụ, một ý kiến là nhà
bán lẻ nên đặt bia và tã lót gần nhau hơn, sẽ khuyến khích doanh số bán cả hai sản phẩm. Một
ý kiến khác là nên đặt hai sản phẩm xa đến mức có thể, buộc khách hàng phải nhìn thấy tối đa
lượng hàng có bày bán trong cửa hàng. Trong mỗi trường hợp trên, cần đo lường tác động để
tìm ra được tri thức hữu ích. Milley khẳng định rằng phân tích rổ hàng mua, một giải thuật
thăm dò, chỉ có thể đưa ra những giả thuyết. Một khi giả thuyết được đưa ra, chúng cần được
kiểm tra kỹ.

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 183
Khai thác dữ liệu trong kinh doanh Chương 10

Phân tích rổ hàng mua thường là một dạng nghiên cứu ban đầu được định để nhận biết các
kiểu mẫu. Một khi kiểu mẫu được phát hiện, nó được thăm dò kỹ hơn thông qua các phương
pháp khác, như là mạng thần kinh, hồi qui, hay cây quyết định 11. Cách tiếp cận phân tích
tương tự có thể được sử dụng cho các ngành khác ngoài ngành bán lẻ. Các công ty về truyền
thông và ngân hàng thường gom sản phẩm lại thành gói và phân tích rổ hàng mua được ứng
dụng trong những lãnh vực như vậy. Ngành bảo hiểm chủ yếu sử dụng phân tích liên kết để
phát hiện nhóm gian lận. Trong lãnh vực y tế, liên kết các triệu chứng có thể được phân tích
để có được một sự hiểu biết sâu về tình trạng bệnh nhân.

Điểm mạnh chung của phân tích rổ hàng mua là cho ra kết quả rõ ràng thông qua tính toán
đơn giản. Phân tích rổ hàng mua có thể không định hướng, ở chỗ các mối quan hệ giả thuyết
không cần phải xác định trước khi phân tích. Các hình thức dữ liệu khác nhau vẫn sử dụng
được. Điểm yếu của phương pháp này là:
1. Khối lượng sản phẩm càng lớn mức độ phức tạp của việc phân tích gia tăng theo hàm
số mũ.
2. Khó nhận diện số nhóm sản phẩm phù hợp

30 nhóm đã minh họa trước đây là con số dễ thực hiện, dễ ra quyết định hành động. Quá ít
nhóm sản phẩm thì không có lợi, trong khi quá nhiều nhóm sản phẩm sẽ cản trở việc làm cho
kết quả phân tích có ý nghĩa. Phân tích rổ hàng mua là kỹ thuật tốt để giải quyết vấn đề không
định hướng, không cấu trúc với những món hàng được định nghĩa rõ ràng. Nó rất phù hợp cho
dữ liệu thu được từ máy tính tiền.

PHẦN MỀM PHÂN TÍCH RỔ HÀNG MUA

Phân tích rổ hàng mua mang tính định tính hơn hầu hết các hình thức khác của khai thác dữ
liệu. Các báo cáo gần đây về phân tích rổ hàng mua bao gồm sử dụng mạng thần kinh kết hợp
với việc mô hình hóa bằng đồ họa 12 cũng như áp dụng kết hợp các giải thuật lọc cho việc tiên
đoán các chọn lựa hay sở thích 13. Công cụ phân tích cơ bản là phân tích tương quan, có thể
thực hiện dễ dàng trên phần mềm bảng tính. Thật vậy là nhiều công ty đã dùng phần mềm nội
bộ đơn giản để thực hiện việc phân tích trong khai thác dữ liệu của họ. Một vấn đề chính của
phân tích rổ hàng là dữ liệu phải đủ lớn. Vấn đề này được giải quyết bằng cách xếp các hàng
hóa theo nhóm, loại hàng (miễn là các tri thức quan trọng để ra quyết định không bị thất thoát.
Thông thường, các công cụ thao tác dữ liệu như là Visual Basic và SQL (Standard Query
Language) được sử dụng.

Hầu hết những công cụ khai thác dữ liệu không thiết kế chỉ dành cho phân tích rổ hàng mua.
Ngoại trừ Clementine (của SPSS) và Poly Analysis (của Mageputer). (Phụ lục của chương
này cho thấy một ví dụ của phân tích rổ hàng mua sử dụng PolyAnalyst). Gần đây, có một
loạt các sản phẩm phần mềm được dành riêng cho phân tích rổ hàng mua. Một trong những
phần mềm này là Customer Analyst của của công ty DataSage, được thiết kế để liên kết dữ
liệu tại điểm bán hàng từ hệ thống của công ty cho phép phân tích kiểu mua hàng của người
tiêu dùng, kiểu giá và các dữ liệu khác 14. Một phần mềm khác đó là Xaffinity, cung cấp khả
năng phấn tích và phân tích liên hệ khác thường và liên hệ kiểu mẫu chuỗi 15.

Không những có sẵn phần mềm hỗ trợ phân tích rổ hàng mua, mà còn có sẵn các tập hợp dữ
liệu dùng cho phân tích đã được trích dẫn. Manchanda và cộng sự đã sử dụng dữ liệu rổ hàng
mua được của A.C Nielsen bao gồm nhiều loại sản phẩm hiện diện trong các cửa hàng thực
phẩm 16. Heilman và cộng sự đã sử dụng một tập dữ liệu của Đại học Stanford (Dữ liệu rổ
hàng mua của công ty Information Resource) được tạo ra trong năm 1994 chứa đựng trị giá

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 184
Khai thác dữ liệu trong kinh doanh Chương 10

mua trong 2 năm của hơn 1.000 khách hàng trong 10 cửa hiệu thực phẩm với 24 chủng loại
hàng hóa 17.

PHỤ LỤC
Qui trình phân tích rổ hàng mua
Trong phụ lục này, chúng ta sẽ mô tả qui trình phân tích rổ hàng mua được sử dụng bởi Poly
Analyst, một trong những sản phẩm phần mềm khai thác dữ liệu đã được thảo luận trong phần
trước. Với phần mềm này, phân tích rổ hàng mua có thể được thực hiện trên dữ liệu nhị phân
hay trên dữ liệu phản ánh số lượng bán của sản phẩm. (ví dụ bốn đơn vị của cùng một sản sản
phẩm trong rổ hàng). Cả hai dạng phân tích này nhằm nhận biết sản phẩm nào được bán cùng
với nhau, đó là căn cứ cho việc xác định vị trí đặt hàng và áp dụng việc bán chéo được mô tả
trước đó. Một khi dữ liệu được xử lý, người phân tích cần thiết lập mức hỗ trợ tối thiểu. Nếu
dùng dữ liệu nhị phân, hỗ trợ tối thiểu được biểu thị bằng tỷ lệ %, mặc định là 10%, điều này
có nghĩa là nếu quả vả và táo được mua cùng nhau xuất hiện trong 8% các rổ hàng được phân
tích, mối quan hệ này sẽ được bỏ qua. Ngược lại, nếu trong dữ liệu súp gà và bánh quy được
bán cùng nhau xuất hiện trong 15% của các rổ hàng mua trong tập dữ liệu, thì mối quan hệ
này sẽ được nhóm thành một cụm sản phẩm. Mức tối thiểu càng thấp, sẽ có nhiều cụm hơn
(và nguy cơ rủi ro càng cao hơn khi có một đống kết quả khó mà phân tích). Tất nhiên, mức
tối thiểu đặt ra quá cao thì không thể tạo ra cụm nào. Hệ thống được thiết kế để tương tác, cho
phép người phân tích sử dụng thanh trượt để thay đổi các tham số như mức hỗ trợ tối thiểu, để
đưa ra con số cụm mong muốn. Nếu dữ liệu số được sử dụng thì số đơn vị bán ra làm căn cứ
để định ra mức hỗ trở tối thiểu. Hình 11A1 (lấy từ phần Help trong PolyAnalyst) cho thấy
một tập dữ liệu nhị phân trong PolyAnalyst.

Qua tất cả các rổ hàng mua, bao gồm súp gà, tỷ lệ chứa mỗi sản phẩm khác trong nhóm được
dễ dàng xác định (mặc dù có nhiều sự kết hợp đếm được). Phần mềm này cho biết sự cải thiện
tối thiểu, chỉ ra mức độ tin cậy của luật liên kết rút ra thì tốt hơn là ngẫu nhiên. Mức độ tin
cậy tối thiểu được báo cáo là khả năng mà nếu một khách hàng mua một cụm sản phẩm cụ thể
nào đó thì khách hàng đó có thể sẽ mua một món hàng khác đang được xem xét. Luật liên kết
được dựa trên các cải thiện tối thiểu hoặc là mức tin cậy tối thiểu. Phần mềm báo cáo bất kỳ
cụm sản phẩm nào được phát hiện ra, như trong Bảng 11A2.
Hình 11A.1: Tập dữ liệu nhị phân của rổ hàng trong PolyAnalyst (hình chụp từ màn hình máy
tính)

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 185
Khai thác dữ liệu trong kinh doanh Chương 10

Hình 11A.2: Báo cáo nhóm sản phẩm từ PolyAnalyst (hình chụp từ màn hình máy tính)

Kết quả phân tích rổ hàng mua (dữ liệu nhị phân) hoặc phân tích rổ giao dịch (dữ liệu liên tục)
là một danh sách các sản phẩm trong các cụm và luật liên kết liên quan đến mỗi cụm. Luật
liên kết này được phát biểu dưới dạng:
Nếu có súp gà thì kéo theo có bánh quy với tỷ lệ giao dịch hỗ trợ mối quan hệ này, và xác suất
mua bánh quy nếu trong rổ hàng mua có sản phẩm súp gà. Kết quả ví dụ việc này được thể
hiện trong Bảng 11A.3. Mối liên hệ này là một chiều (nó không ngụ ý chút nào về khả năng
súp gà xuất hiện trong các rổ hàng có mua bánh quy). Báo cáo cũng chỉ ra số lần mối quan hệ
này xảy ra khi so với đến khả năng xảy ra ngẫu nhiên.
Hình 11A.3: Ví dụ về luật rổ hàng trong PolyAnalyst (hình chụp từ màn hình máy tính)

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 186
Khai thác dữ liệu trong kinh doanh Chương 10

Trong Hình 11A.3, các sản phẩm được thể hiện bằng mã số. Luật từ nhì đến cuối cho biết:
Nếu có sản phẩm “02L” trong rổ hàng thì sẽ có sản phẩm O1X.

Cái này gọi là luật liên kết. Mối liên hệ này đã được tìm thấy là 0,1260 trong toàn bộ rổ hàng
mua của bộ dữ liệu. Trong số rổ hàng mua có sản phẩm 02L, thì 71,5% các rổ hàng mua này
có O1X . Cột cuối cùng của Bảng 11A.3 cung cấp bội số của xác suất tình cờ có thể phát hiện
mối liên hệ. Ở đây sản phẩm 02L và 01X kết hợp được tìm thấy với nhau bằng 3,231 lần khả
năng ngẫu nhiên. Ba qui luật đầu tiên thể hiện các cụm sản phẩm phức tạp hơn (có tồn tại
nhiều sản phẩm trong một cụm).

TÓM TẮT

Phân tích rổ hàng mua là phân tích cơ bản của khai thác dữ liệu, là dạng phân tích thống kê
đơn giản để sử dụng khối lượng dữ liệu lớn. Thông tin này cung cấp dữ liệu hiệu quả về mối
liên hệ giữa các sản phẩm và được sử dụng để gia tăng doanh số bán sản phẩm thông qua xác
định vị trí trưng bày hàng và bán chéo. Khái niệm này đã được chứng minh hiệu quả cho
nhiều loại thị trường không chỉ cho chuỗi cửa hàng thực phẩm.

Nhiều tổ chức bán lẻ đã bổ sung nhiều thông tin hơn vào dữ liệu rổ hàng mua. Các cửa hàng
thực phẩm thường giảm giá sản phẩm để đổi lại dùng một mẫu giấy nhỏ để từng khách hàng
điền vào nhằm mục đích không chỉ theo dõi thông tin mua hàng mà còn nhận ra đặc trưng cá
nhân của từng người mua hàng. Thông tin này (thu được thông qua việc điền vào phiếu giảm
giá) bao gồm loại thu nhập, tình trạng hôn nhân và nhiều loại thông tin cá nhân khác để phục
vụ cho các mục đích tiếp thị có hướng đích.

Chú thích thuật ngữ


Actionables (Khả năng hành động): Thông tin có thể dùng để ra quyết định kinh doanh hiệu
quả hơn.
Affinity positioning (Sắp xếp hàng có liên hệ): Sắp xếp mặt bằng của của hàng bán lẻ để
chung các sản phẩm bổ sung cho nhau gần nhau.
Co-occurrence table (Bảng đồng biến cố): Một danh sách các sản phẩm được mua cùng với
nhau.
Correlation coefficient (Hệ số tương quan): Hiệp phương sai chia cho độ lệch chuẩn của
từng biến.
Covariance (Hiệp phương sai): Mức độ hai biến cùng biến thiên
Cross-selling (Bán chéo): Tiếp thị đến khách hàng những sản phẩm có liên quan đến những
sản phẩm khác khách hàng đã mua.
Market basket analysis (Phân tích rổ hàng mua): Phân tích xu hướng mua các loại hàng của
cùng một khách hàng ở cùng một dịp mua hàng.
Purchase profile (Tiểu sử/hồ sơ mua hàng): kiểu mẫu mua hàng

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 187
Khai thác dữ liệu trong kinh doanh Chương 10

Bài tập
1. Tại sao phân tích rổ hàng mua ít cấu trúc hơn các dạng khai thác dữ liệu khác?
2. Nhà bán lẻ thực phẩm thường làm gì để có được dữ liệu có cấu trúc hơn?
3. Hãy nhận diện tương quan giữa quảng cáo và số lượng bán ba sản phẩm ô tô của một
công ty.
Tháng Quảng cáo Xe sedan Xe SUV Xe thể thao
1 500.000 50 812 30
2 600.000 61 798 32
3 700.000 68 821 33
4 600.000 57 815 35
5 500.000 48 817 36
6 600.000 58 815 37
7 600.000 59 806 39
8 600.000 60 805 41

4. Tương quan giữa thời gian (biến Tháng) và số lượng bán ba loại xe trong câu 3 là bao
nhiêu?
5. Phân tích tương quan có thể hỗ trợ phân tích rổ hàng mua như thế nào? Sự khác biệt
giữ bảng đồng biến cố và bảng tương quan là gì?
6. Hãy mô tả thuật ngữ “khả năng hành động”.
7. Sắp xếp hàng có liên hệ và bán chéo khác nhau thế nào?
8. Liên hệ giữa tiểu sử/hồ sơ mua hàng và rổ hàng mua là gì?
9. Làm thế nào mà biết lợi nhuận trung bình của cửa hàng đối với từng tiểu sử/hồ sơ mua
hàng có thể giúp cửa hàng tăng lợi nhuận?
10. Loại tiểu sử mua hàng nào bạn sẽ gán cho bảng đồng biến cố của số lượng rổ hàng bán
của cửa hàng bán đồ dùng gia đình?
Hoa Bóng Găng Than Phân Cái Gậy
mềm tay bùn bón thuổng
Hoa 32 3 0 12 18 6 1
Bóng mềm 3 25 6 0 3 2 12
Găng tay 0 6 8 0 1 0 5
Than bùn 12 0 0 15 8 10 0
Phân bón 18 3 1 8 21 15 2
Cái thuổng 6 2 0 10 15 16 1
Gậy 1 12 5 0 2 1 14

11. Loại tiểu sử mua hàng nào bạn sẽ gán cho bảng đồng biến cố của các rổ hàng thức ăn
nhanh? Hãy tính bảng hệ số tương quan và các hệ số Jaccard. Từng bảng này có thể
được diễn giải như thế nào để trợ giúp cho việc nhận diện các tiểu sử mua hàng?
Thực phẩm Sữa yến mạch Cam Ya ua Cà rốt Khoai tây chiên Ham bơ gơ
Sữa yến mạch 10 3 5 4 2 1
Cam 3 8 4 3 1 2
Ya ua 5 4 6 2 0 0
Cà rốt 4 3 2 7 1 1
Khoai tây chiên 2 1 0 1 12 5
Ham bơ gơ 1 2 0 1 5 6

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 188
Khai thác dữ liệu trong kinh doanh Chương 10

12. Loại tiểu sử mua hàng nào bạn sẽ gán cho bảng đồng biến cố của thuê phim qua một
năm? Hãy tính bảng hệ số tương quan và các hệ số Jaccard. Từng bảng này có thể
được diễn giải như thế nào để trợ giúp cho việc nhận diện các tiểu sử mua hàng?
LOẠI PHIM Cao bồi Lãng mạn Hành động Nước ngoài Kinh điển
Cao bồi 20 3 18 0 1
Lãng mạn 3 30 2 5 1
Hành động 18 2 80 6 2
Nước ngoài 0 5 6 10 3
Kinh điển 1 1 2 3 5

Kết chú

1
C. Apte, B. Liu, E.P.D. Pednault, and P. Smyth, “Business Applications of Data Mining”,
Communications of the ACM, volume 45, number 8, 2002, pp. 49-53.
2
G.J. Russel and A. Petersen, “Analysis of Cross Category Dependence in Market Basket Selection”,
Journal of Retailing, volume 78, number 3, 2000, pp. 367-392.
3
M.J.A. Berry and G. Linoff, Data Mining Techniques (New York: John Wiley & Sons, 1997)
4
Rusell and A. Petersen (2000), op. cit.
5
Anonymous, “New Data on ‘frozen’ Consumers Can Improve Promos: ACNielsen”, Frozen Food
Age, volume 45, number 11, June 1997, pp. 6, 42.
6
D. Iacobucci, P. Arabie, and A. Bodapati, “Recommendation Agents on the Internet”, Journal of
Interactive Marketing, volume 14, number 3, Summer 2000, pp. 2-11.
7
Anonymous, “ Every Transaction Tells a Story”, Chain Store Age Executive, volume 71, number 3,
March 1995, pp. 50-62.
8
Ibid.
9
P. Machanda, A. Ansari, and S. Gupta, “The Shopping Basket: A Model for Multicategory Purchase
Incidence Decisions”, Marketing Science, volume 18, number 2, 1999, pp. 95-114.
10
Anonymous, “Data Mining Is More Than Beer and Diapers”, Chain Store Age Executive, volume
74, number 6, June 1998, pp. 64-68.
11
G. Linoff, “Which Way to the Mine”, As/400 System Management, volume 26, number 1, January
1998, pp. 42-44.
12
R. Decker and K. Monien, “Market Basket Analysis with Neural Networks and Self-Organising
Maps”, Journal of Targeting, Measurement & Analysis for Marketing, volume 11, issue 4, June 2003,
pp.373-386.
13
A. Mild and T. Reutterer, “An Improved Collaborative Filtering Approach for Predicting Cross-
Category Purchases Based on Binary Market Basket Data”, Journal of Retailing & Consumer
Services, volume 10, Issue 3, May 2003, pp.123-133.
14
E. F. Moltzen, Computer Reseller News, volume 834, Mar 22, 1999, p.111
15
Anonymous, “ANGOSS Mines Exclusive Ore Technology for Basket Analysis”, Computergram
Weekly, Issue 4408, May 2, 2002, p.6.
16
P. Manchanda, A. Ansari, and S. Gupta, op. cit.
17
C. M. Heilman, K. Nakamoto, and A. G. Rao, “Pleasant Surprises: Consumer Response to
Unexpected In-Store Coupons”, Journal of Marketing Research, volume 39, number 2, 2002, pp. 242-
252

Biên dịch: Hoàng Trọng - Chu Nguyễn Mộng Ngọc ĐH Kinh Tế TPHCM 189

You might also like