Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 48

Chương 9 Nhóm dữ

liệu
với phân tích cụm

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-2
dưới tên Prentice-Hall.
Chương 9 Nhóm dữ
liệu
với phân tích cụm
MỤC TIÊU HỌC TẬP
Sau khi hoàn thành chương này, bạn sẽ có thể làm những
việc sau:
• Xác định phân tích cụm, vai trò và hạn chế của nó.
• Xác định các loại câu hỏi nghiên cứu được giải quyết
bằng phân tích cụm.
• Hiểu cách đo độ tương tự giữa các đối tượng.
• Hiểu tại sao các thước đo khoảng cách khác nhau đôi khi
được sử dụng.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-3
dưới tên Prentice-Hall.
Chương 9 Nhóm dữ
liệu
với phân tích cụm
MỤC TIÊU HỌC TẬP tiếp theo . . .
Sau khi hoàn thành chương này, bạn sẽ có thể làm những
việc sau:
• Hiểu sự khác biệt giữa các kỹ thuật phân cụm theo thứ
bậc và không theo thứ bậc.
• Biết cách giải thích các kết quả từ phân tích cụm.
• Thực hiện theo các hướng dẫn để xác thực cụm.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-4
dưới tên Prentice-Hall.
Phân tích cụm được xác định

Phân tích cluster . . . nhóm các đối


tượng (người trả lời, sản phẩm, công ty,
biến, v.v.) sao cho mỗi đối tượng giống
với các đối tượng khác trong cụm và
khác với các đối tượng trong tất cả các
cụm khác.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-5
dưới tên Prentice-Hall.
Phân tích cụm là gì?

Phân tích cluster . . . là một nhóm các kỹ thuật đa


biến với mục đích chính là nhóm các đối tượng
dựa trên các đặc điểm mà chúng sở hữu.

• Nó đã được gọi là phân tích Q, xây dựng kiểu


chữ, phân tích phân loại và phân loại số.

• Bản chất của tất cả các phương pháp phân


cụm là phân loại dữ liệu theo đề xuất của
chính các nhóm dữ liệu “tự nhiên”.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-6
dưới tên Prentice-Hall.
Sơ đồ ba cụm hiển thị
Biến thể giữa cụm và trong cụm

Biến thể giữa các cụm = Tối đa hóa


Biến thể trong cụm = Giảm thiểu

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-7
dưới tên Prentice-Hall.
Biểu đồ phân tán cho các quan sát cụm
Tần suất đi ăn ngoài Cao

Thấp
Cao thấp

Tần suất đến nhà hàng thức ăn nhanh

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-8
dưới tên Prentice-Hall.
Biểu đồ phân tán cho các quan sát cụm

Tần suất đi ăn ngoài Cao

Thấp
Cao thấp

Tần suất đến nhà hàng thức ăn nhanh

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-9
dưới tên Prentice-Hall.
Biểu đồ phân tán cho các quan sát cụm

Tần suất đi ăn ngoài Cao

Thấp
Cao thấp
Tần suất đến nhà hàng thức ăn nhanh

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-10
dưới tên Prentice-Hall.
Biểu đồ phân tán cho các quan sát cụm

Cao
Tần suất đi ăn ngoài

Thấp
Cao thấp

Tần suất đến nhà hàng thức ăn nhanh

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-11
dưới tên Prentice-Hall.
Những lời chỉ trích về phân tích cụm

Những điều sau đây phải được giải quyết bằng


hỗ trợ khái niệm hơn là thực nghiệm:

• Phân tích cụm mang tính mô tả, lý thuyết và


không suy luận.
• . . . sẽ luôn tạo các cụm, bất kể sự tồn tại
thực tế của bất kỳ cấu trúc nào trong dữ liệu.
• Giải pháp cụm không thể khái quát hóa vì nó
hoàn toàn phụ thuộc vào các biến được sử
dụng làm cơ sở cho phép đo độ tương tự.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-12
dưới tên Prentice-Hall.
Chúng ta có thể làm gì với
phân tích cụm?

1. Xác định xem có tồn tại các cụm khác


nhau về mặt thống kê hay không.

2. Nêu ý nghĩa của các cụm.

3. Giải thích làm thế nào các cụm có thể


được sử dụng.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-13
dưới tên Prentice-Hall.
Câu hỏi nghiên cứu trong phân
tích cụm
Mục tiêu chính của phân tích cụm là xác định cấu trúc của
dữ liệu bằng cách đặt các quan sát giống nhau nhất vào
các nhóm. Để làm như vậy, chúng ta phải trả lời ba câu
hỏi:
• Làm thế nào để chúng ta đo lường sự tương đồng?
• Làm thế nào để chúng ta hình thành các cụm?
• Chúng ta thành lập bao nhiêu nhóm?

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-14
dưới tên Prentice-Hall.
Giai đoạn 1: Mục tiêu của
phân tích cụm
Mục tiêu chính = để phân chia một tập hợp các đối tượng
thành hai hoặc nhiều nhóm dựa trên sự giống nhau của
các đối tượng đối với một tập hợp các đặc điểm được
chỉ định (biến thể của cụm).

Hai vấn đề then chốt :


• Các câu hỏi nghiên cứu được giải quyết, và
• Các biến được sử dụng để mô tả các đối tượng trong
quá trình phân cụm.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-15
dưới tên Prentice-Hall.
Các câu hỏi nghiên cứu khác?
Ba câu hỏi cơ bản. . .
• Làm thế nào để hình thành phân loại - một phân
loại đối tượng dựa trên kinh nghiệm.
• Cách đơn giản hóa dữ liệu – bằng cách nhóm các
quan sát để phân tích sâu hơn.
• Những mối quan hệ nào có thể được xác định –
quá trình cho thấy mối quan hệ giữa các quan
sát.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-16
dưới tên Prentice-Hall.
Chọn biến cụm
Hai vấn đề. . .
1. Cân nhắc khái niệm – chỉ bao gồm các biến mà . . .
• Đặc trưng cho các đối tượng được phân cụm
• Liên quan cụ thể đến các mục tiêu của phân
tích cụm
2. Cân nhắc thực tế.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-17
dưới tên Prentice-Hall.
Quy tắc ngón tay cái 9–1
MỤC TIÊU CỦA PHÂN TÍCH CỤM
 Phân tích cụm được sử dụng cho:
 Mô tả phân loại - xác định các nhóm tự nhiên trong dữ liệu.
 Đơn giản hóa dữ liệu – khả năng phân tích các nhóm quan
sát tương tự thay vì tất cả các quan sát riêng lẻ.
 Nhận dạng mối quan hệ – cấu trúc đơn giản hóa từ phân tích
cụm mô tả các mối quan hệ không được tiết lộ theo cách
khác.
 Các cân nhắc về lý thuyết, khái niệm và thực tiễn phải được quan
sát khi lựa chọn các biến phân cụm để phân tích cụm:
 Chỉ các biến liên quan cụ thể đến các mục tiêu của phân tích
cụm mới được đưa vào, vì không thể loại trừ các biến “không
liên quan” khỏi phân tích khi nó bắt đầu
 Các biến được chọn đặc trưng cho các cá nhân (đối tượng)
được phân cụm

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-18
dưới tên Prentice-Hall.
Giai đoạn 2: Thiết kế
nghiên cứu trong phân
tích cụm
Bốn câu hỏi. . .
• Cỡ mẫu có đủ không?
• Có thể phát hiện các ngoại lệ và nếu có, chúng có nên bị xóa
không?
• Độ tương tự của đối tượng nên được đo lường như thế
nào?
• Có nên chuẩn hóa dữ liệu?

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-19
dưới tên Prentice-Hall.
Đo lường sự tương đồng

Độ tương tự giữa các đối tượng là một thước đo


thực nghiệm về sự tương ứng, hoặc sự giống
nhau, giữa các đối tượng được phân cụm. Nó có
thể được đo lường theo nhiều cách khác nhau,
nhưng ba phương pháp chiếm ưu thế trong các
ứng dụng của phân tích cụm:

• Các biện pháp tương quan


• Đo khoảng cách
• Sự kết hợp

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-20
dưới tên Prentice-Hall.
Các loại thước đo khoảng cách

• khoảng cách Euclide


• Khoảng cách Euclide bình phương
(hoặc tuyệt đối)
• Khoảng cách thành phố (Manhattan)
• khoảng cách Chebychev
• Khoảng cách Mahalanobis (D 2 )

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-21
dưới tên Prentice-Hall.
Quy tắc ngón tay cái 9 – 2

Thiết kế nghiên cứu trong phân tích cụm


• Kích thước mẫu được yêu cầu không dựa trên các cân nhắc
thống kê để kiểm tra suy luận, mà dựa trên:
 Cần có đủ quy mô để đảm bảo tính đại diện của dân số và cấu
trúc cơ bản của nó, đặc biệt là các nhóm nhỏ trong dân số.
 Quy mô nhóm tối thiểu dựa trên mức độ phù hợp của từng
nhóm với câu hỏi nghiên cứu và độ tin cậy cần thiết trong việc
mô tả đặc điểm của nhóm đó.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-22
dưới tên Prentice-Hall.
Quy tắc ngón tay cái 9 – 2 tiếp tục. . .

Thiết kế nghiên cứu trong phân tích cụm


• Các biện pháp tương tự được tính trên toàn bộ tập hợp các biến phân cụm
cho phép nhóm các quan sát và so sánh chúng với nhau.
 Các biện pháp khoảng cách thường được sử dụng nhất như một biện pháp tương
tự, với các giá trị cao hơn biểu thị sự khác biệt lớn hơn (khoảng cách giữa các
trường hợp) chứ không phải sự tương đồng.
 Có nhiều thước đo khoảng cách khác nhau, bao gồm:
 Khoảng cách Euclidean (đường thẳng) là thước đo khoảng cách phổ biến
nhất.
 Khoảng cách Euclidean bình phương là tổng của các khoảng cách bình
phương và là thước đo được khuyến nghị cho các phương pháp phân cụm
theo trọng tâm và Ward.
 Khoảng cách Mahalanobis chiếm các mối tương quan giữa các biến và trọng
số của từng biến như nhau. Khi các biến có tương quan cao, khoảng cách
Mahalanobis là phù hợp nhất.
 Ít được sử dụng hơn là các biện pháp tương quan, trong đó các giá trị lớn cho
thấy sự tương đồng.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-23
dưới tên Prentice-Hall.
Quy tắc ngón cái 9 – 2 Tiếp tục . . .

Thiết kế nghiên cứu trong phân tích cụm


• Do độ nhạy của một số thủ tục đối với phép đo tương tự được sử dụng, nhà
nghiên cứu nên sử dụng một số phép đo khoảng cách và so sánh kết quả từ
mỗi kết quả với các kết quả khác hoặc các mẫu lý thuyết/đã biết.
• Các ngoại lệ có thể làm sai lệch nghiêm trọng tính đại diện của kết quả nếu
chúng xuất hiện dưới dạng cấu trúc (cụm) không phù hợp với mục tiêu
nghiên cứu
 Chúng nên được loại bỏ nếu ngoại lệ đại diện cho:
 Các quan sát sai lệch không đại diện cho dân số
 Quan sát các phân khúc nhỏ hoặc không đáng kể trong dân số không
quan tâm đến mục tiêu nghiên cứu
 Chúng nên được giữ lại nếu đại diện cho việc lấy mẫu dưới mức/đại diện kém
cho các nhóm có liên quan trong tổng thể. Trong trường hợp này, mẫu nên
được tăng cường để đảm bảo đại diện cho các nhóm này.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-24
dưới tên Prentice-Hall.
Quy tắc ngón cái 9 – 2 Tiếp tục . . .

Thiết kế nghiên cứu trong phân tích cụm


• Các ngoại lệ có thể được xác định dựa trên thước đo độ tương tự bằng cách:
 Tìm các quan sát với khoảng cách lớn từ tất cả các quan sát khác
 Sơ đồ hồ sơ đồ họa làm nổi bật các trường hợp ngoại lệ
 Sự xuất hiện của chúng trong các giải pháp cụm dưới dạng cụm một thành viên
hoặc cụm rất nhỏ
• Các biến phân cụm nên được tiêu chuẩn hóa bất cứ khi nào có thể để tránh
các vấn đề phát sinh từ việc sử dụng các giá trị tỷ lệ khác nhau giữa các biến
phân cụm.
 Chuyển đổi tiêu chuẩn hóa phổ biến nhất là điểm Z.
 Nếu các nhóm được xác định theo phong cách phản hồi của một cá nhân, thì tiêu
chuẩn hóa trong trường hợp hoặc tập trung vào hàng là phù hợp.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-25
dưới tên Prentice-Hall.
Giai đoạn 3: Giả định phân tích
cụm

• Tính đại diện của mẫu.


• Tác động của đa cộng tuyến.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-26
dưới tên Prentice-Hall.
Quy tắc ngón tay cái 9 – 3

CÁC GIẢ ĐỊNH TRONG PHÂN TÍCH CỤM


• Các biến đầu vào nên được kiểm tra về tính đa cộng tuyến đáng kể
và nếu có. . .
 Giảm các biến thành số bằng nhau trong mỗi tập
hợp các biện pháp tương quan.
 Sử dụng thước đo khoảng cách bù cho mối tương
quan, chẳng hạn như Khoảng cách Mahalanobis.
 Thực hiện một cách tiếp cận chủ động và chỉ bao
gồm các biến cụm không có mối tương quan cao.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-27
dưới tên Prentice-Hall.
Giai đoạn 4: Tạo ra các cụm và đánh giá mức
độ phù hợp tổng thể

Nhà nghiên cứu phải. . .


• Chọn thủ tục phân vùng được sử dụng để hình
thành các cụm
 Thứ bậc
 Không có thứ bậc

• Quyết định số lượng cụm sẽ được hình thành.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-28
dưới tên Prentice-Hall.
Hai loại phân cấp
Quy trình phân cụm

1. Phương pháp tích tụ (tích tụ)

2. Phương pháp chia nhỏ (sự cố)

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-29
dưới tên Prentice-Hall.
Phương pháp tiếp cận phân cấp tổng hợp hoạt
động như thế nào?
• Bắt đầu với tất cả các quan sát như cụm riêng
của họ.
• Sử dụng phép đo độ tương tự đã chọn, kết hợp
hai quan sát giống nhau nhất thành một cụm mới,
hiện chứa hai quan sát.
• Lặp lại quy trình phân cụm bằng cách sử dụng
thước đo độ tương tự để kết hợp hai quan sát
hoặc tổ hợp quan sát giống nhau nhất thành một
cụm mới khác.
• Tiếp tục quá trình cho đến khi tất cả các quan sát
nằm trong một cụm duy nhất.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-30
dưới tên Prentice-Hall.
Thuật toán kết tụ

• Liên kết đơn (láng giềng gần nhất)


• Liên kết hoàn chỉnh (hàng xóm xa
nhất)
• Liên kết trung bình.
• Phương pháp trọng tâm.
• Phương pháp của Ward.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-31
dưới tên Prentice-Hall.
Phương pháp tiếp cận phi thứ bậc hoạt động như
thế nào?

• Chỉ định hạt cụm.


• Chỉ định mỗi quan sát cho một trong
các hạt giống dựa trên sự giống nhau.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-32
dưới tên Prentice-Hall.
Chọn điểm hạt giống
• nhà nghiên cứu chỉ
định

• mẫu được tạo

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-33
dưới tên Prentice-Hall.
Phần mềm cụm không phân cấp

• SAS FASTCLUS = hạt giống cụm


đầu tiên là quan sát đầu tiên trong
tập dữ liệu không có giá trị nào bị
thiếu.

• CỤM NHANH SPSS = điểm gốc


được người dùng cung cấp hoặc
chọn ngẫu nhiên từ tất cả các
quan sát.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-34
dưới tên Prentice-Hall.
Thủ tục phân cụm không phân cấp

• Ngưỡng tuần tự = chọn một điểm khởi đầu,


phát triển cụm; sau đó chọn điểm khởi đầu
tiếp theo và phát triển cụm, v.v.

• Ngưỡng song song = chọn đồng thời một số


điểm gốc, sau đó phát triển các cụm.

• Tối ưu hóa = cho phép gán lại các đối tượng.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-35
dưới tên Prentice-Hall.
Xuất phát các cụm phân cấp
• Các phương pháp phân cụm theo thứ bậc khác nhau ở phương pháp biểu
diễn sự giống nhau giữa các cụm, mỗi phương pháp đều có ưu điểm và
nhược điểm:
• Liên kết đơn có lẽ là thuật toán linh hoạt nhất, nhưng các cấu trúc cụm được mô
tả kém trong dữ liệu tạo ra các “chuỗi” giống như con rắn không thể chấp nhận
được cho các cụm.
• Liên kết hoàn chỉnh giúp loại bỏ vấn đề xâu chuỗi, nhưng chỉ xem xét các quan
sát ngoài cùng trong một cụm, do đó bị ảnh hưởng bởi các ngoại lệ.
• Liên kết trung bình dựa trên mức độ tương đồng trung bình của tất cả các cá thể
trong một cụm và có xu hướng tạo ra các cụm có biến thể nhỏ trong cụm và ít bị
ảnh hưởng bởi các giá trị ngoại lai.
• Liên kết trung tâm đo khoảng cách giữa các trung tâm cụm và giống như liên kết
trung bình, ít bị ảnh hưởng bởi các ngoại lệ.
• Ward's dựa trên tổng số bình phương trong các cụm và phù hợp nhất khi nhà
nghiên cứu mong đợi các cụm có kích thước bằng nhau. Nhưng nó dễ dàng bị
bóp méo bởi các ngoại lệ.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-36
dưới tên Prentice-Hall.
Xuất phát các cụm không phân cấp
• Các phương pháp phân cụm không phân cấp yêu cầu số lượng cụm
được chỉ định trước khi chỉ định các quan sát:
• Phương pháp ngưỡng tuần tự gán các quan sát cho cụm
gần nhất, nhưng một quan sát không thể được gán lại
cho một cụm khác sau lần gán ban đầu của nó.
• Các thủ tục tối ưu hóa cho phép gán lại các quan sát dựa
trên khoảng cách tuần tự của các quan sát với các cụm
được hình thành trong quá trình phân cụm.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-37
dưới tên Prentice-Hall.
Quy tắc ngón tay cái 9 – 4

CÁC CỤM ĐẠT XUẤT


• Việc lựa chọn các phương pháp phân cấp hoặc không phân cấp dựa
trên:
• Các giải pháp phân cụm theo cấp bậc được ưu tiên khi:
• Một phạm vi rộng, thậm chí tất cả, các giải pháp phân cụm thay thế sẽ
được kiểm tra
• Kích thước mẫu vừa phải (dưới 300-400, không quá 1.000) hoặc mẫu của
tập dữ liệu lớn hơn được chấp nhận
• Các phương pháp phân cụm không phân cấp được ưu tiên khi:
• Số lượng các cụm được biết và các điểm gốc ban đầu có thể được chỉ
định theo một số cơ sở thực tế, khách quan hoặc lý thuyết.
• Có mối lo ngại về các ngoại lệ vì các phương pháp không phân cấp
thường ít bị ảnh hưởng bởi các ngoại lệ hơn .

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-38
dưới tên Prentice-Hall.
Quy tắc ngón tay cái 9 – 4 tiếp tục. . .

CÁC CỤM ĐẠT XUẤT


• Cách tiếp cận kết hợp sử dụng cách tiếp cận có thứ bậc theo sau
là cách tiếp cận không có thứ bậc thường được khuyến khích.
• Một cách tiếp cận không phân cấp được sử dụng
để chọn số lượng cụm và hồ sơ trung tâm cụm
đóng vai trò là hạt giống cụm ban đầu trong quy
trình không phân cấp.
• Sau đó, một phương pháp không phân cấp sẽ
nhóm tất cả các quan sát bằng cách sử dụng các
điểm gốc để cung cấp tư cách thành viên cụm
chính xác hơn.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-39
dưới tên Prentice-Hall.
Giai đoạn 5: Giải thích các cụm

• Giai đoạn này liên quan đến việc kiểm tra


từng cụm theo biến thể của cụm để đặt tên
hoặc gán nhãn mô tả chính xác bản chất
của cụm

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-40
dưới tên Prentice-Hall.
Giai đoạn 6: Xác thực và lập hồ sơ của
các cụm
Thẩm định . . .
• xác thực chéo
• Giá trị tiêu chuẩn
lập hồ sơ . . . . mô tả các đặc điểm của từng cụm để
giải thích chúng có thể khác nhau như thế nào trên
các kích thước có liên quan. Điều này thường liên
quan đến việc sử dụng phân tích phân biệt hoặc
ANOVA.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-41
dưới tên Prentice-Hall.
Quy tắc ngón tay cái 9–5
XUẤT HIỆN GIẢI PHÁP CỤM CUỐI CÙNG
• Không có thủ tục khách quan duy nhất để xác định số cụm
'chính xác'. Thay vào đó, nhà nghiên cứu phải đánh giá các giải
pháp cụm thay thế dựa trên những cân nhắc sau để chọn giải
pháp “tốt nhất”:
 Các cụm thành viên đơn hoặc cực nhỏ thường không
được chấp nhận và nên loại bỏ.
 Đối với các phương pháp phân cấp, các quy tắc dừng đặc
biệt, dựa trên tốc độ thay đổi trong phép đo độ tương tự
tổng khi số lượng cụm tăng hoặc giảm, là một dấu hiệu
cho thấy số lượng cụm.
 Tất cả các cụm phải khác nhau đáng kể trong tập hợp các
biến phân cụm.
 Các giải pháp cụm cuối cùng phải có giá trị lý thuyết được
đánh giá thông qua xác nhận bên ngoài.
Bản quyền © 2010 Pearson Education, Inc., xuất bản
9-42
dưới tên Prentice-Hall.
Quy tắc ngón tay cái 9–6
DIỄN GIẢI, LẬP HỒ SƠ VÀ
XÁC NHẬN CỤM
• Trọng tâm cụm, một cấu hình trung bình của cụm
trên mỗi biến phân cụm, đặc biệt hữu ích trong giai
đoạn diễn giải.
 Giải thích liên quan đến việc kiểm tra các đặc điểm phân
biệt của hồ sơ của từng cụm và xác định sự khác biệt đáng
kể giữa các cụm
 Các giải pháp cụm không thể hiện sự thay đổi đáng kể cho
thấy các giải pháp cụm khác nên được kiểm tra.
 Trọng tâm của cụm cũng nên được đánh giá về sự tương
ứng với những kỳ vọng trước đó của nhà nghiên cứu dựa
trên lý thuyết hoặc kinh nghiệm thực tế.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-43
dưới tên Prentice-Hall.
Quy tắc ngón tay cái 9–6 tiếp tục. . .

DIỄN GIẢI, LẬP HỒ SƠ VÀ


XÁC NHẬN CỤM
• Xác thực là điều cần thiết trong phân tích cụm vì các
cụm được mô tả về cấu trúc và yêu cầu hỗ trợ bổ
sung cho mức độ phù hợp của chúng:
 Xác thực chéo xác thực theo kinh nghiệm một giải pháp
cụm bằng cách tạo hai mẫu phụ (tách ngẫu nhiên mẫu) rồi
so sánh hai giải pháp cụm về tính nhất quán đối với số
lượng cụm và cấu hình cụm.
 Việc xác thực cũng đạt được bằng cách kiểm tra sự khác
biệt về các biến không được bao gồm trong phân tích cụm
nhưng có lý do lý thuyết và liên quan để mong đợi sự thay
đổi giữa các cụm.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-44
dưới tên Prentice-Hall.
Các bước trong Phân tích cụm.
..
1. Chọn các biến.
2. Xác định xem các cụm có tồn tại không. Để
làm như vậy, hãy xác minh rằng các cụm khác
nhau về mặt thống kê và có ý nghĩa về mặt lý
thuyết (có thể gán một tên logic).
3. Quyết định sử dụng bao nhiêu cụm.
4. Mô tả các đặc điểm của các cụm dẫn xuất
bằng cách sử dụng nhân khẩu học, tâm lý học,
v.v.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-45
dưới tên Prentice-Hall.
Bước 1: Phân tích cụm – Lựa chọn biến

• Các biến thường được đo lường theo số


liệu, nhưng kỹ thuật này có thể được áp
dụng cho các biến không theo số liệu.
• Các biến phải có liên quan logic với một
khái niệm hoặc cấu trúc cơ bản duy
nhất.

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-46
dưới tên Prentice-Hall.
Mô tả các biến cơ sở dữ liệu chính HBAT
Biến Mô tả Loại biến
Biến phân loại kho dữ liệu
Loại khách hàng X1 phi số liệu
X2 Loại ngành không theo hệ mét
X3 Quy mô công ty phi số liệu
Vùng X4 không theo hệ mét
Hệ thống phân phối X5 phi số liệu
Các biến nhận thức về hiệu suất
Chỉ số chất lượng sản phẩm X6
X7 Hoạt động thương mại điện tử/Số liệu trang web
Chỉ số Hỗ trợ Kỹ thuật X8
Chỉ số Giải quyết Khiếu nại X9
Chỉ số quảng cáo X10
Chỉ số Dòng sản phẩm X11
Chỉ số hình ảnh Salesforce X12
Chỉ số Giá cả cạnh tranh X13
Chỉ số Yêu cầu & Bảo hành X14
Chỉ số Sản phẩm mới X15
Số liệu Đặt hàng & Thanh toán X16
X17 Số liệu về tính linh hoạt của giá
Chỉ số Tốc độ giao hàng X18
Kết quả/Đo lường mối quan hệ
X19 Chỉ số hài lòng
Chỉ số Khả năng đề xuất X20
X21 Chỉ số về khả năng mua hàng trong tương lai
X22 Chỉ số Mức mua/Mức sử dụng hiện tại
X23 Xem xét Liên minh/Đối tác Chiến lược trong Tương lai phi đo lường
Bản quyền © 2010 Pearson Education, Inc., xuất bản
1-47
dưới tên Prentice-Hall.
Điểm kiểm tra học tập phân tích
cụm

1. Tại sao chúng ta có thể sử dụng phân


tích cụm?
2. Ba bước chính trong phân tích cụm là
gì?
3. Làm thế nào để bạn quyết định có bao
nhiêu cụm
để giải nen?
4. Tại sao chúng tôi xác thực các cụm?

Bản quyền © 2010 Pearson Education, Inc., xuất bản


9-48
dưới tên Prentice-Hall.

You might also like