Professional Documents
Culture Documents
521100C-nhóm11-Công Vũ Anh-Nguyễn Hải Đăng-Nguyễn Quốc Khánh-Gom cụm dữ liệu bằng thuật toán K-means. Ứng dụng để phân phúc khách hàng mua bảo hiểm (1)
521100C-nhóm11-Công Vũ Anh-Nguyễn Hải Đăng-Nguyễn Quốc Khánh-Gom cụm dữ liệu bằng thuật toán K-means. Ứng dụng để phân phúc khách hàng mua bảo hiểm (1)
LỚP: 521100C
GIẢNG VIÊN:
MỞ ĐẦU
1. Lý do chọn đề tài
Khai phá dữ liệu là một lĩnh vực nghiên cứu quan trọng, đặc biệt là trong
việc trích xuất thông tin từ các tập dữ liệu lớn. Với sự phát triển của công nghệ
thông tin, ngành bảo hiểm đang ngày càng phụ thuộc vào các chiến lược và giải
pháp dựa trên dữ liệu để đáp ứng nhu cầu của khách hàng.
Các công ty bảo hiểm cần hiểu rõ thông tin chi tiết về các phân khúc
khách hàng để có thể tối ưu hóa chiến lược kinh doanh và cung cấp dịch vụ tốt
nhất cho họ. Hiện nay, phân tích dữ liệu lớn và khai phá dữ liệu đang trở thành
một phần không thể thiếu trong việc thu thập thông tin và hiểu rõ hơn về nhu
cầu của thị trường bảo hiểm.
Trong lĩnh vực này, thuật toán K-means có vai trò quan trọng trong việc
phân cụm dữ liệu. K-means không chỉ giúp tổ chức dữ liệu một cách có ý nghĩa
mà còn tạo ra các nhóm khách hàng có đặc điểm tương tự. Áp dụng K-means
vào dữ liệu bảo hiểm có thể giúp xác định các nhóm khách hàng có xu hướng
mua bảo hiểm giống nhau, từ đó tối ưu hóa chiến lược marketing và cung cấp
dịch vụ phù hợp.
Cùng với đó, việc khai phá dữ liệu bằng K-means cũng giúp phát hiện ra
các mẫu và xu hướng tiềm ẩn trong dữ liệu, từ đó giúp công ty bảo hiểm hiểu rõ
hơn về thị trường và khách hàng của mình.
Tóm lại, việc áp dụng thuật toán K-means trong khai phá dữ liệu của
công ty bảo hiểm là một phương tiện mạnh mẽ để tối ưu hóa chiến lược kinh
doanh và cung cấp dịch vụ tốt nhất cho khách hàng mua bảo hiểm.
2. Đối tượng và phạm vi nghiên cứu
a. Đối tượng nghiên cứu và Phạm vi nghiên cứu:
Đối tượng nghiên cứu: Khách hàng mua bảo hiểm.
Phạm vi nghiên cứu: Dữ liệu về khách hàng, bao gồm thông tin như độ
tuổi, giới tính, thu nhập, lịch sử mua bảo hiểm, loại bảo hiểm và các
thông tin khác liên quan.
b. Mục tiêu và nhiệm vụ nghiên cứu:
Mục tiêu: Áp dụng thuật toán K-means để phân khúc khách hàng mua
bảo hiểm thành các nhóm có đặc điểm tương tự, từ đó tối ưu hóa chiến
lược kinh doanh và cung cấp dịch vụ phù hợp.
Nhiệm vụ:
o Thu thập dữ liệu: Xây dựng cơ sở dữ liệu chứa thông tin về khách hàng
mua bảo hiểm.
o Tiền xử lý dữ liệu: Chuẩn bị dữ liệu để áp dụng thuật toán K-means bằng
cách xử lý, loại bỏ dữ liệu không cần thiết và điền các giá trị thiếu.
o Áp dụng thuật toán K-means: Phân cụm khách hàng thành các nhóm dựa
trên các đặc điểm tương tự.
o Phân tích kết quả: Đánh giá và hiểu rõ các nhóm khách hàng được tạo ra
bởi thuật toán K-means.
o Xây dựng chiến lược kinh doanh: Dựa trên kết quả phân cụm, đề xuất các
chiến lược phù hợp để tối ưu hóa kinh doanh và dịch vụ cho từng nhóm
khách hàng.
c. Phương pháp nghiên cứu:
Thu thập dữ liệu: Sử dụng các nguồn dữ liệu từ công ty bảo hiểm, bao
gồm thông tin khách hàng và lịch sử mua bảo hiểm.
Tiền xử lý dữ liệu: Loại bỏ dữ liệu trùng lặp, xử lý giá trị thiếu và chuẩn
hóa dữ liệu nếu cần thiết.
Áp dụng thuật toán K-means: Sử dụng thuật toán K-means để phân cụm
khách hàng dựa trên các đặc điểm như độ tuổi, thu nhập, lịch sử mua bảo
hiểm, vv.
Phân tích kết quả: Đánh giá và hiểu rõ các nhóm khách hàng được tạo ra
bởi thuật toán K-means, xem xét sự khác biệt giữa các nhóm và những
điểm chung của chúng.
Xây dựng chiến lược kinh doanh: Dựa trên kết quả phân cụm, đề xuất các
chiến lược kinh doanh cụ thể để tối ưu hóa hiệu suất bán hàng và phục vụ
khách hàng tốt hơn.
Phần I . Cơ sở lý thuyết về khai phá dữ liệu và kho dữ liệu
1.1. Giới thiệu về khai phá dữ liệu
Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm cuối
của thập kỷ 1980. Nó là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên
trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu.... Một ví dụ
hay được sử dụng là là việc khai thác vàng từ đá và cát, Data Mining được ví
như công việc "Đãi cát tìm vàng" trong một tập hợp lớn các dữ liệu cho trước.
Thuật ngữ Data Mining ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một
số lượng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện được dùng cũng có nghĩa
tương tự với từ Data Mining như Knowledge Mining (khai phá tri thức),
Knowledge Extraction(chắt lọc tri thức), Data/Pattern Analysis(phân tích dữ
liệu/mẫu), Data Archaeology (khảo cổ dữ liệu), Data Dredging(nạo vét dữ
liệu),...
1.2. Quá trình khám phá trí thức và khai phá dữ liệu
Gom dữ liệu: thu thập dữ liệu là bước đầu tiên trong việc khai phá dữ
liệu.
Dữ liệu có thể lấy từ nhiều nguồn, từ các website trên mạng v.v…
Trích lọc dữ liệu: Trích chọn dữ liệu từ kho dữ liệu và phân chia theo các
tiêu chuẩn để dễ cho việc khai thác nguồn dữ liệu này.
Làm sạch, tiền xử lý dữ liệu: Loại bỏ dữ liệu nhiễu, dữ liệu dư thừa hay
các dữ liệu không đủ tính chặt chẽ, logic…
Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp
cho quá trình xử lý.
Khai phá dữ liệu: Là một bước quan trọng nhất, trong đó sử dụng các
thuật toán thông minh để trích ra các mẫu dữ liệu.
Đánh giá các luật và biểu diễn tri thức: là quá trình đánh giá các kết quả
tìm được, sau đó sử dụng các kỹ thuật để biểu diễn cho người dùng.
1.3. Các chức năng chính của khai phá dữ liệu
Data Mining được chia thành một số hướng chính như sau:
Mô tả khái niệm (concept description): thiên về mô tả, tổng hợp và tóm
tắt khái niệm.
Ví dụ: tóm tắt văn bản.
Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng
khá đơn giản.
Ví dụ: “60% nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ
sẽ mua thêm thịt bò khô”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực
kính doanh, y học, tài chính & thị trường chứng khoán, .v.v.
Phân lớp và dự đoán (classification & prediction): xếp một đối tượng
vào một trong những lớp đã biết trước.
Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết. Hướng tiếp cận này
thường sử dụng một số kỹ thuật của machine learning như cây quyết định
(decision tree), mạng nơ ron nhân tạo (neural network), .v.v. Người ta còn
gọi phân lớp là học có giám sát.
Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũng
như tên của cụm chưa được biết trước. Người ta còn gọi phân cụm là học
không giám sát.
Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá
luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp cận
này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng
khoán vì nó có tính dự báo cao.
1.4. Các ứng dụng khai phá dữ liệu
Data mining có một số ứng dụng điển hình vào các lĩnh vực như:
Thông tin thương mại: Phân tích dữ liệu bán hàng, tiếp thị. Phân tích vốn
đầu tư, chấp thuận cho vay v.v…
Thông tin sản xuất: Điều khiển và lập lịch, quản lý v.v…
Thông tin khoa học: phân tích phát hiện các dấu hiệu thời tiết bất thường,
động đất v.v…
Phần II. Phân cụm dữ liệu và các thuật toán phân cụm dữ liệu
2.1. Phân cụm dữ liệu
2.1.1. Định nghĩa
Phân cụm dữ liệu (Data Clustering) hay phân cụm, cũng có thể gọi là phân
tích cụm, phân tích phân đoạn, phân tích phân loại, là quá trình nhóm một tập
các đối tượng thực thể hay trừu tượng thành lớp các đối tượng tương tự. Một
cụm là một tập hợp các đối tượng dữ liệu mà các phần tử của nó tương tự nhau
cùng trong một cụm và phi tương tự với các đối tượng trong các cụm khác. Một
cụm các đối tượng dữ liệu có thể xem như là một nhóm trong nhiều ứng dụng.
Phân cụm dữ liệu là một môn khoa học trẻ đang phát triển mạnh mẽ. Có một
số lượng lớn các bài báo nghiên cứu trong nhiều hội nghị, hầu hết trong các lĩnh
vực của khai phá dữ liệu: thống kê, học máy, cơ sở dữ liệu không gian, sinh vật
học, kinh doanh, v.v...với tầm quan trọng và các kỹ thuật khác nhau. Do số
lượng lớn các dữ liệu đã thu thập trong cơ sở dữ liệu nên phép phân tích cụm
gần đây trở thành một chủ đề tích cực cao trong nghiên cứu khai phá dữ liệu.
2.2.2. Mục tiêu của phân cụm dữ liệu
Mục tiêu của phân cụm là xác định được bản chất nhóm trong tập dữ liệu
chưa có nhãn. Nhưng để có thể quyết định được cái gì tạo thành một cụm tốt.
Nó có thể được chỉ ra rằng không có tiêu chuẩn tuyệt đối “tốt” mà có thể không
phụ thuộc vào kết quả phân cụm. Vì vậy, nó đòi hỏi người sử dụng phải cung
cấp tiêu chuẩn này, theo cách mà kết quả phân cụm sẽ đáp ứng yêu cầu. Theo
các nghiên cứu cho thấy thì hiện nay chưa có một phương pháp phân cụm tổng
quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cụm dữ liễu.
Hơn nữa, các phương pháp phân cụm cần có cách thức biểu diễn cấu trúc của
các cụm dữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ có tương ứng một
thuật toán phân cụm phù hợp.
Vì vậy phân cụm dữ liệu vẫn đang là một vấn đề khó và mở, vì phải giải
quyết nhiều vấn đề cơ bản một cách trọn vẹn và phù hợp với nhiều dạng dữ liệu
khác nhau, đặc biệt là đối với dữ liệu hỗn hợp đang ngày càng tăng trong các hệ
quản trị dữ liệu và đây cũng là một trong những thách thức lớn trong lĩnh vực
khai phá dữ liệu.
2.2. Các ứng dụng của phân cụm dữ liệu
Phân cụm dữ liệu được ứng dụng trong nhiều lĩnh vực như:
Thương mại: Tìm kiếm nhóm các khách hàng quan trọng có đặc trưng
tương đồng và những đặc tả họ từ các bản ghi mua bán trong cơ sở dữ
liệu. Trong nghiên cứu thị trường, phân cụm dữ liệu được sử dụng để
phân đoạn thị trường và xác định mục tiêu thị trường (Chrisoppher, 1969;
Saunders, 1980, Frank and Green, 1968). Trong phân đoạn thị trường,
phân cụm dữ liệu thường được dùng để phân chia thị trường thành nhưng
cụm mang ý nghĩa, chẳng hạn như chia ra đối tượng nam giới từ 21-30
tuổi và nam giới ngoài 51 tuổi, đối tượng nam giới ngoài 51 tuổi thường
không có khuynh hướng mua các sản phẩm mới.
Sinh học: Phân loại các gen với các chức năng tương đồng và thu được
các cấu trúc trong mẫu. Phân cụm là một trong những phân tích được sử
dụng thường xuyên nhất trong biểu diễn dữ liệu gene (Yeung et al., 2003;
Eisenat al., 1998). Dữ liệu biểu diễn gene là một tâp hợp các phép đo
được lấy từ DNA microarray (còn gọi là DNA chip hay gene chip) là một
tấm thủy tinh hoặc nhựa trên đó có gắn các đoạn DNA thành các hàng
siêu nhỏ. Các nhà nghiên cứu sử dụng các con chip như vậy để sàng lọc
các mẫu sinh học nhằm kiểm tra sự có mặt hàng loạt trình tự cùng một
lúc. Các đoạn DNA gắn trên chip được gọi là probe (mẫu dò). Trên mỗi
điểm của chip có hàng ngàn phân tử probe với trình tự giống nhau.
Thư viện: Phân loại các cụm sách có nội dung và ý nghĩa tương đồng
nhau để cung cấp cho độc giả.
Bảo hiểm: Nhận dạng nhóm tham gia bảo hiểm có chi phí bồi thường cao,
nhận dạng gian lận thương mại.
Quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địa lí,...
nhằm cung cấp thông tin cho quy hoạch đô thị.
Nghiên cứu trái đất: Phân cụm để theo dõi các tâm động đất nhằm cung
cấp thông tin cho nhận dạng các vùng nguy hiểm.
WWW: Có thể khám phá các nhóm tài liệu quan trọng, có nhiều ý nghĩa
trong môi trường Web. Các lớp tài liệu này trợ giúp cho việc KPTT từ dữ
liệu.
2.3. Những kỹ thuật tiếp cận phân cụm dữ liệu
Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong
thực tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm
khám phá được và tốc độ thực hiện của thuật toán. Hiện nay, các kỹ thuật phân
cụm có thể phân loại theo các cách tiếp cận chính sau :
Phương pháp phân cụm phân hoạch:
Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành k nhóm
cho đến khi xác định số các cụm được thiết lập. Số các cụm được thiết lập là các
đặc trưng được lựa chọn trước. Phương pháp này là tốt cho việc tìm các cụm
hình cầu trong không gian Euclidean. Ngoài ra, phương pháp này cũng phụ
thuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào
có quan hệ là gần nhau với mỗi điểm khác và các điểm dữ liệu nào không có
quan hệ hoặc có quan hệ là xa nhau so với mỗi điểm khác.
Phương pháp phân cụm phân cấp:
Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữ liệu
đang xem xét. Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có
dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy. Có hai
cách tiếp cận phổ biến của kỹ thuật này đó là:
o Tiếp cận Bottom-Up
o Tiếp cận Top-Down
Phương pháp phân cụm dựa trên mật độ:
Kỹ thuật này nhóm các đối tượng dữ liệu dựa trên hàm mật độ xác định, mật
độ là số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó.
Trong cách tiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được phát
triển thêm các đối tượng dữ liệu mới miễn là số các đối tuợng lân cận này phải
lớn hơn một ngưỡng đã được xác định trước. Phương pháp phân cụm dựa trên
mật độ của các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra các
cụm dữ liệu với hình thù bất kỳ. Kỹ thuật này có thể khắc phục được các phần
tử ngoại lai hoặc giá trị nhiễu rất tốt, tuy nhiên việc xác định các tham số mật độ
của thuật toán là rất khó khăn, trong khi các tham số này lại có tác động rất lớn
đến kết quả phân cụm.
Phương pháp phân cụm dựa trên lưới:
Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên
cấu trúc dữ liệu lưới để phân cụm, phương pháp này chủ yếu tập trung áp dụng
cho lớp dữ liệu không gian. Mục tiêu của phương pháp này là lượng hóa dữ liệu
thành các ô tạo thành cấu trúc dữ liệu lưới. Sau đó, các thao tác phân cụm chỉ
cần làm việc với các đối tượng trong từng ô trên lưới chứ không phải các đối
tượng dữ liệu. Cách tiếp cận dựa trên lưới này không di chuyển các đối tượng
trong các ô mà xây dựng nhiều mức phân cấp của nhóm các đối tượng trong
một ô. Phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng
chúng không trộn các ô, đồng thời giải quyết khắc phục yêu cầu đối với dữ liệu
nhiều chiều mà phương pháp phân phân cụm dựa trên mật độ không giải quyết
được. ưu điểm của phương pháp phân cụm dựa trên lưới là thời gian xử lí nhanh
và độc lập với số đối tượng dữ liệu trong tập dữ liệu ban đầu, thay vào đó là
chúng phụ thuộc vào số ô trong mỗi chiều của không gian lưới.
Phương pháp phân cụm dựa trên mô hình:
Phương này cố gắng khám phá các phép xấp xỉ tốt của các tham số mô hình
sao cho khớp với dữ liệu một cách tốt nhất. Chúng có thể sử dụng chiến lược
phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình
mà chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mô hình này để
nhận dạng ra các phân hoạch. Phương pháp phân cụm dựa trên mô hình cố gắng
khớp giữa các dữ liệu với mô hình toán học, nó dựa trên giả định rằng dữ liệu
được tạo ra bằng hỗn hợp phân phối xác suất cơ bản. Các thuật toán phân cụm
dựa trên mô hình có hai cách tiếp cận chính: mô hình thống kê và mạng nơron.
j=1
Thuật toán K-Means thực hiện qua các bước chính sau:
B1. Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster). Mỗi cụm được đại
diện bằng các tâm của cụm.
B2. Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng
khoảng cách Euclidean)
B3. Nhóm các đối tượng vào nhóm gần nhất
B4. Xác định lại tâm mới cho các nhóm
B5. Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào của các
đối tượng
3.2. Thuật giải
Thuật toán K-means:
Đầu vào: Tập dữ liệu D, số cụm k
Đầu ra:
Tập thể hiện các cụm C, vec-tơ liên thuộc cụm m.
Các bước thực hiện:
Bước 1: Chọn ngẫu nhiên k điểm dữ liệu từ D
Bước 2: Xem k điểm này là tập khởi tạo các thể hiện cụm C repeat
Bước 3: Gán lại các điểm trong D cho trung bình cụm gần nhất
Bước 4: Cập nhật m sao cho mi là mã cụm của điểm thứ i trong D
Bước 5: Cập nhật C sao cho cj là trung bình các điểm trong cụm j until hội
tụ hàm mục tiêu:
n
Cost =∑ ( argmi n j‖x j−c j‖2)
2
j=1
A 1 1
B 2 1
C 4 3
D 5 4
Minh họa bằng sơ đồ:
Bước 1:
Chọn 2 trọng tâm ban đầu c1(1,1) ≡ A và c2(2,1) ≡ B, thuộc 2 cụm 1 và 2:
Phần IV . Ứng dụng thuật toán K-means để phân khúc khách hàng mua
bảo hiểm