Professional Documents
Culture Documents
Chuyên đề CNTT
Chuyên đề CNTT
Hà Nội – T3/2023
MỤC LỤ
C
LỜI NÓI ĐẦU.....................................................................................................4
4.4. Hướng dẫn chi tiết sử dụng các chức năng của chương trình phần mềm.36
KẾT LUẬN........................................................................................................43
Các kỹ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính:
Kỹ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chất hoặc
các đặc tính chung của dữ liệu trong CSDL hiện có.
Kỹ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa
vào các suy diễn trên dữ liệu hiện thời.
Trong báo cáo chuyên đề này trình bày một số vấn đề về Phân cụm dữ liệu,
một trong những kỹ thuật cơ bản để Khai phá dữ liệu. Đây là hướng nghiên cứu có
triển vọng chỉ ra những sơ lược trong việc hiểu và khai thác CSDL khổng lồ, khám
phá thông tin hữu ích ẩn trong dữ liệu; hiểu được ý nghĩa thực tế của dữ liệu.
Báo cáo được trình bày trong 3 chương và phần phụ lục :
Chương 2 : Trình bày tổng quan lý thuyết về khai phá dữ liệu, phân cụm dữ
liệu, giới thiệu, phân tích, đánh giá các thuật toán dùng để phân cụm dữ liệu.
Kết luận : Tóm tắt các vấn đề được tìm hiểu trong luận văn và các vấn đề
liên quan trong luận văn, đưa ra phương hướng nghiên cứu tiếp theo.
CHƯƠNG I
Khai phá dữ liệu giúp cho người sử dụng có thể khám phá ra các thông tin
quan trọng, nhận thức về các quy luật tồn tại và phát triển trong dữ liệu. Nhờ đó,
người sử dụng có thể đưa ra các quyết định thông minh, tối ưu hóa các quy trình và
cải thiện hiệu quả kinh doanh.
Các kỹ thuật khai phá dữ liệu bao gồm: phân tích đa chiều, phân tích nhân
tố, phân tích nhóm, phân tích hồi quy, phân tích mạng neuron, cây quyết định,
phân tích dữ liệu dạng văn bản, và các kỹ thuật khác như k-means clustering, phân
tích thành phần chính (PCA) và phân tích thành phần độc lập (ICA).
2.1.2. Quá trình hoạt động của Data Mining
Quá trình hoạt động của khai phá dữ liệu (data mining) bao gồm các bước sau:
1. Bước 1: Làm sạch dữ liệu – Trong bước này, dữ liệu được làm sạch sao cho
không có tạp âm hay bất thường trong dữ liệu.
2. Bước 2: Tích hợp dữ liệu – Trong quá trình tích hợp dữ liệu, nhiều nguồn
dữ liệu sẽ kết hợp lại thành một.
3. Bước 3: Lựa chọn dữ liệu – Trong bước này, dữ liệu được trích xuất từ cơ sở
dữ liệu.
4. Bước 4: Chuyển đổi dữ liệu – Trong bước này, dữ liệu sẽ được chuyển đổi
để thực hiện phân tích tóm tắt cũng như các hoạt động tổng hợp.
5. Bước 5: Khai phá dữ liệu – Trong bước này, chúng tôi trích xuất dữ liệu hữu
ích từ nhóm dữ liệu hiện có.
6. Bước 6: Đánh giá mẫu – Chúng tôi phân tích một số mẫu có trong dữ liệu.
7. Bước 7: Trình bày thông tin – Trong bước cuối cùng, thông tin sẽ được thể
hiện dưới dạng cây, bảng, biểu đồ và ma trận.
Tổng quan lại, data mining là một công cụ quan trọng để phân tích dữ liệu
và đưa ra quyết định tối ưu trong nhiều lĩnh vực khác nhau. Nó giúp các tổ chức
tìm ra các mô hình, xu hướng và thông tin quan trọng trong dữ liệu để đưa ra quyết
định hiệu quả và cải thiện hiệu suất hoạt động.
2.2. Kỹ thuật phân cụm
2.2.1. Khái niệm
Phân cụm là quá trình nhóm một tập các đối tượng thực thể hay trừu tượng
thành lớp các đối tượng tương tự. Một cụm là một tập hợp các đối tượng dữ liệu
mà các phần tử của nó tương tự nhau trong cùng một cụm và phi tương tự (khác
biệt) đối với các đối tượng nằm trong cụm khác. Một cụm các đối tượng dữ liệu có
thể xem như là một nhóm trong nhiều ứng dụng
Phân cụm nhìn từ góc độ tự nhiên là một việc vô cùng quen thuộc và bình
thường mà cuộc sống hằng ngày chúng ta vẫn làm và thực hiện như: phân loại học
sinh thành các nhóm tương ứng với học lực: học sinh khá, học sinh giỏi; phân loại
đất đai; phân loại tài sản; phân loại các mặt hàng trong các cửa hàng; phân loại
sách trong thư viện; phân loại các môn học theo các tổ hợp/ các khối tương ứng khi
thi đại học;...... Việc phân loại này cũng dựa trên định nghĩa đó là gom các đối
tượng có cùng tính chất hoặc có sự tương đồng về tính chất thành một nhóm.
Nguyên tắc cơ bản đằng sau cụm là việc gán một tập hợp các quan sát nhất
định thành các nhóm con hoặc cụm sao cho các quan sát hiện diện trong cùng một
cụm có mức độ giống nhau. Đó là việc thực hiện khả năng nhận thức của con
người để phân biệt các đối tượng dựa trên bản chất của chúng.
Ví dụ, khi đi mua hàng tạp hóa, chúng ta dễ dàng phân biệt giữa táo và cam
trong một bộ nhất định có chứa cả hai. Ta phân biệt hai đối tượng này dựa trên
màu sắc, kết cấu của chúng và các thông tin cảm giác khác được xử lý bởi bộ não
của bạn. Clustering là một mô phỏng của quá trình này để máy móc có thể phân
biệt giữa các đối tượng khác nhau
Đây là một phương pháp học không giám sát vì không có nhãn bên ngoài
gắn vào đối tượng. Máy phải tự học các tính năng và mẫu mà không cần bất kỳ ánh
xạ đầu vào-đầu ra nào. Thuật toán có thể trích xuất các suy luận từ bản chất của
các đối tượng dữ liệu và sau đó tạo các lớp riêng biệt để nhóm chúng một cách
thích hợp.
Trong Machine learning Clustering, thuật toán chia tập hợp thành các nhóm
khác nhau sao cho mỗi điểm dữ liệu tương tự với các điểm dữ liệu trong cùng một
nhóm và khác với các điểm dữ liệu trong các nhóm khác. Trên cơ sở sự giống nhau
và không giống nhau, sau đó phân nhóm phụ thích hợp cho đối tượng.
1. Trích chọn hay lựa chọn đặc tính (Feature selection or extraction): bao gồm
việc trích chọn ra các đối tượng dữ liệu thích hợp, hữu ích từ dữ liệu cơ sở.
Việc trích chọn tốt các đặc tính có thể làm giảm rất lớn các dữ liệu nhiễu và
đơn giản hoá quá trình thiết kế và xử lý tiếp theo.
2. Lựa chọn hoặc thiết kế thuật toán phân cụm (Clustering algorithm design or
selection): liên quan tới việc kiểm tra xem nên phân cụm theo xu hướng nào
và chọn thuật toán hoặc thiết kế một thuật toán phân cụm với các tham số
phù hợp.
3. Đánh giá (Cluster Validation): việc kiểm định thường dựa trên các kiểm tra
thông thường và các kĩ thuật trực quan. Tuy nhiên, số lượng dữ liệu lớn và
số chiều của chúng tăng sẽ khiến quá trình đánh giá gặp khó khăn.
4. Biểu diễn các kết quả (Results Interpretation): Mục đích cuối cùng của phân
cụm là cung cấp cho người sử dụng những hiểu biết tri thức đầy đủ, ý nghĩa
từ dữ liệu cơ sở, bởi vậy, cần giải quyết hiệu quả vấn đề kết hợp các kết quả
phân cụm với các nghiên cứu khác để đưa ra kết luận tin cậy về tri thức thu
được và đề xuất những phân tích xa hơn.
Trước tiên được gọi là cụm đặc trưng, là một bộ ba(n, LS, SS), trong đó n là
số các điểm trong phân hoạch cụm con, LS là tổng số các giá trị thuộc tích và SS là
tổng bình phương của các điểm đó. Đặc trưng tiếp theo là cây CF, mà đơn giản là
cây cân bằng mà lưu bộ ba này. Có thể chứng mình rằng, các đại lượng thống kê
chuẩn, như là độ đo khoảng cách, có thể xác định từ cây CF. Hình 4.10 dưới đây
biểu thị một ví dụ về cây CF. Có thể thấy rừng, tất cả các nút trong cây lưu tổng
các đặc trưng cụm CF, các nút con, trong khi đó các nút là lưu trữ các đặc trưng
của các cụm dữ liệu
Cây CF trong thuật toán BIRCH
Hình ảnh một số cụm dữ liệu được khám phá bởi thuật toán DBSCAN
Các thiết lập để xác định ranh giới các cụm ban đầu
Trong phương pháp K-means, chọn một giá trị k và sau đó chọn ngẫu nhiên
k trung tâm của các đối tượng dữ liệu. Tính toán khoảng cách giữa đối tượng dữ
liệu trung bình mỗi cùm để tìm kiếm phần tử nào là tương tự và thêm vào cụm đó.
Từ khoảng cách này có thể tính toán trung bình mới của cụm và lặp lại quá trình
cho đến khi mỗi các đối tượng dữ liệu là một bộ phận của các cụm k
3.2. Mục đích
Mục đích chính của thuật toán K-means là phân cụm (clustering) tập dữ liệu
cho trước thành các cụm (clusters) sao cho các điểm trong cùng một cụm có tính
chất và đặc trưng tương đồng nhau và các điểm ở các cụm khác nhau có tính chất
và đặc trưng khác biệt.
Nói cách khác, mục đích của thuật toán K-means là tìm ra K cụm trong dữ
liệu, sao cho mỗi điểm dữ liệu sẽ được gán vào cụm có trung tâm gần nhất, và tất
cả các điểm trong cùng một cụm sẽ có tính chất và đặc trưng tương tự nhau. K-
means được sử dụng trong nhiều lĩnh vực khác nhau, chẳng hạn như trong khai phá
dữ liệu, phân tích hình ảnh, phân loại văn bản, và nhận diện chữ viết tay.
Mục đích của việc phân cụm dữ liệu là giúp ta hiểu rõ hơn về cấu trúc và
tính chất của dữ liệu, giúp ta đưa ra quyết định và lập kế hoạch tốt hơn, đồng thời
giảm thiểu chi phí và thời gian cho việc xử lý dữ liệu. K-means là một trong những
phương pháp phân cụm đơn giản và phổ biến nhất được sử dụng hiện nay, vì nó có
thể áp dụng cho nhiều loại dữ liệu và cho phép thực hiện phân cụm một cách
nhanh chóng và dễ dàng.
3.3. Phân tích toán học
Giả sử có N điểm dữ liệu là X = [ x 1 , x2 , … , xN] ∈ Rd x N và K < N là số
cluster chúng ta muốn phân chia. Chúng ta cần tìm các center m 1, m2, … , mK ∈ Rd
x1
và label của mỗi điểm dữ liệu.
Với mỗi điểm dữ liệu xi đặt yi = [ yi1 , yi2 , … , yiK ] là label vector của nó,
trong đó nếu xi được phân vào cluster k thì y iK = 1 và yij = 0 , ∀ j ≠ k . Điều này có
nghĩa là có đúng một phần tử của vector y i là bằng 1 (tương ứng với cluster của x i),
các phần tử còn lại bằng 0. Ví dụ: nếu một điểm dữ liệu có label vector là [ 1 , 0 , 0
, … , 0 ] thì nó thuộc vào cluster 1, là [ 0 , 1 , 0 , … , 0 ] thì nó thuộc vào cluster 2,
… . Cách mã hóa label của dữ liệu như thế này được gọi là biểu diễn one-hot.
3.3.1. Hàm mất mát và bài toán tối ưu
Ràng buộc của yi có thể viết dưới dạng toán học như sau:
Hơn nữa, vì xi được phân vào cluster k nên y ik = 1 , yij = 0 , ∀ j ≠ k . Khi đó,
biểu thức bên trên sẽ được viết lại là:
Nếu ta coi center mk là center (hoặc representative) của mỗi cluster và ước
lượng tất cả các điểm được phân vào cluster này bởi m k , thì một điểm dữ liệu x i
được phân vào cluster k sẽ bị sai số là ( x i − mk ). Chúng ta mong muốn sai số này
có trị tuyệt đối nhỏ nhất nên ta sẽ tìm cách để đại lượng sau đây đạt giá trị nhỏ
nhất:
Hơn nữa, vì xi được phân vào cluster k nên y ik = 1 , yij = 0 , ∀ j ≠ k . Khi đó,
biểu thức bên trên sẽ được viết lại là:
∥xi−mj∥2 chính là bình phương khoảng cách tính từ điểm xi tới center mj , ta
có thể kết luận rằng mỗi điểm xi thuộc vào cluster có center gần nó nhất! Từ đó
ta có thể dễ dàng suy ra label vector của từng điểm dữ liệu.
* Cố định Y , tìm M
Giả sử đã tìm được cluster cho từng điểm, hãy tìm center mới cho mỗi
cluster để hàm mất mát đạt giá trị nhỏ nhất.
Một khi chúng ta đã xác định được label vector cho từng điểm dữ liệu, bài
toán tìm center cho mỗi cluster được rút gọn thành:
Tới đây, ta có thể tìm nghiệm bằng phương pháp giải đạo hàm bằng 0, vì
hàm cần tối ưu là một hàm liên tục và có đạo hàm xác định tại mọi điểm. Và quan
trọng hơn, hàm này là hàm convex (lồi) theo mj nên chúng ta sẽ tìm được giá trị
nhỏ nhất và điểm tối ưu tương ứng. Sau này nếu có dịp, tôi sẽ nói thêm về tối ưu
lồi (convex optimization) - một mảng cực kỳ quan trọng trong toán tối ưu.
Đặt l (mj) là hàm bên trong dấu argmin , ta có đạo hàm:
Đồ thị phân cụm chia theo 2 Đồ thị phân cụm chia theo 3
cụm với 2 thuộc tính Fresh và Milk cụm với 2 thuộc tính Fresh và Milk
Đồ thị phân cụm chia theo 4 Đồ thị hàm biến dạng theo
cụm với 2 thuộc tính Fresh và Milk phương pháp Elbow với 2 thuộc
tính Fresh và Milk
Bao gồm thư viện tkinter (thư viện cho phép tạo giao diện đồ họa trên
Python).
2. Xử lý dữ liệu
Bao gồm:
- Thư viện pandas: cho phép đọc, xử lý và lưu trữ dữ liệu, cung cấp các đối
tượng dữ liệu và công cụ để thao tác với chúng.
- Thư viện matplotlib: cho phép tạo và hiển thị đồ thị trực quan.
- Thư viện sklearn (hay còn gọi là scikit-learn): cho phép xử lý dữ liệu,
huấn luyện và áp dụng các thuật toán học máy trong Python.
- Thư viện random: cho phép tạo số ngẫu nhiên
4.3. Hướng dẫn cài đặt phần mềm
Việc cài đặt phần mềm được chia ra làm 2 phần là phần cài đặt phần mềm
nền và phần cài đặt chương trình phần mềm cài đặt thuật toán phân cụm phân
hoạch K-means. Cụ thể hướng dẫn cài đặt 2 phần:
1. Cài đặt phần mềm nền
Từ giao diện mở đầu của chương trình, click vào nút “OPEN FILE CSV” để
chọn bộ dữ liệu với định dạng .csv (hoặc .xlsx)
Ở đây, chương trình sử dụng bộ dữ liệu Wholesale customers dataset. Bộ dữ
liệu này bao gồm thông tin về các khách hàng của một nhà phân phối sỉ. Nó có 440
mẫu và mỗi mẫu có 8 thuộc tính. Bộ dữ liệu này được sử dụng để phân tích hành vi
của khách hàng và sử dụng để phân cụm
Sau khi chọn xong, chương trình sẽ hiển thị các dữ liệu có trong file lên giao
diện qua một TreeView, xuất hiện 2 nút tùy chọn thuộc tính để phân cụm
“X_AXIS_VALUE” (lựa chọn thuộc tính nằm trên trục hoành) và
“Y_AXIS_VALUE” (lựa chọn thuộc tính nằm trên trục tung):
Ở đây, ví dụ hai thuộc tính Fresh và Milk được lựa chọn, click vào nút
“SHOW VALUES CHOSEN” để trích xuất các dữ liệu thuộc hai cột trên, đồng
thời hiển thị qua TreeView thứ 2: (Dữ liệu hiển thị với đúng định dạng, đằng sau
chương trình, dữ liệu được chọn sẽ được xử lý, dán nhãn và gom vào một mảng để
phân ra các cụm)
3. Vẽ biểu đồ hàm biến dạng theo phương pháp Elbow
Sau khi lựa chọn xong thuộc tính, có thể click vào nút “SHOW ELBOW” để
hiển thị biểu đồ hàm biến dạng theo phương pháp Elbow để tham khảo và lựa chọn
số cụm phù hợp.
Ở đây, với hai thuộc tính Fresh và Milk được lựa chọn, chương trình hiển thị
biểu đồ hàm biến dạng. Nhìn vào biểu đồ, ta có thể lựa chọn ra điểm khuỷ tay
(elbow point) tại 2.
4. Nhập số cụm và giá trị khởi tạo
Chương trình cho phép người dùng nhập số cụm và giá trị khởi tạo theo ý
muốn. Nhập số cụm vào phần N_CLUSTER và giá trị khởi tạo vào phần
RANDOM_STATE.
5. Chạy thuật toán K-means và hiển thị đồ thị trực quan hóa kết quả
phân cụm
Sau khi nhập dữ liệu, click chuột vào nút “RUN K-MEANS” để chạy
chương trình và click chuột vào nút “SHOW PLOT” để hiển thị đồ thị trực quan
hóa kết quả phân cụm.
Cuối cùng, ta được đồ thị phân cụm từ bộ dữ liệu Wholesale customers
dataset với hai thuộc tính Fresh và Milk, số cụm được phân chia là hai và giá trị
khởi tạo là 200.
4.5. Đánh giá
4.5.1. Đánh giá kết quả đề tài
Chương trình đã thực hiện thành công phân cụm phân hoạch dữ liệu với bộ
dữ liệu Wholesale customers dataset và phân loại khách hàng thành các nhóm dựa
trên hành vi mua hàng của họ theo tùy chọn thuộc tính của người dùng. Kết quả
này có thể được ứng dụng trong các lĩnh vực như tiếp thị và kinh doanh để tối ưu
hóa chiến lược kinh doanh và nâng cao hiệu quả kinh doanh. Chương trình cũng
cho phép thực hiện phân cụm phân hoạch dữ liệu với các bộ dữ liệu khác người
dùng nhập vào.
4.5.2. Ưu, nhược điểm
1. Ưu điểm
- Quá trình phân cụm dữ liệu được thực hiện nhanh chóng và hiệu quả.
- Giao diện đơn giản, dễ sử dụng, giúp người dùng có thể thực hiện phân
cụm dữ liệu một cách dễ dàng và nhanh chóng.
- Cho phép người dùng tùy chỉnh số lượng nhóm cần phân chia, giúp cho
việc phân tích dữ liệu trở nên đa dạng và linh hoạt.
- Hỗ trợ việc trực quan hóa dữ liệu bằng việc cung cấp biểu đồ phân cụm
dữ liệu, giúp người dùng có thể dễ dàng quan sát và phân tích kết quả
phân cụm
2. Nhược điểm
- Giao diện chưa sinh động, bắt mắt, có thể gây nhàm chán. Việc sắp xếp
bố cục còn thiếu khoa học và chưa hợp lý.
- Thuật toán yêu cầu đầu vào là các giá trị chuẩn hóa, nếu bộ dữ liệu không
được chuẩn hóa trước khi chạy thuật toán, kết quả phân cụm có thể
không chính xác.
- Chương trình chưa cho phép phân cụm phân hoạch với quá nhiều thuộc
tính cùng lúc trong bộ dữ liệu
- Các tham số đầu vào được nhập thủ công nên có thể có sai sót. Số lượng
nhóm được chỉ định sẽ ảnh hưởng đến kết quả phân cụm. Nếu người
dùng chọn sai số lượng nhóm, kết quả phân cụm có thể không phù hợp.
- Chưa hiển thị được chi tiết từng bước hoạt động cụ thể hơn của thuật toán
để giúp người dùng hiểu rõ thuật toán hơn
4.5.3. Định hướng phát triển
- Cải tiến giao diện người dùng bằng cách cung cấp cho người dùng các
tùy chọn tùy chỉnh các thông số của thuật toán, giúp người dùng tùy
chỉnh thêm kích thước nhóm, số lần lặp lại, chọn phương pháp khởi tạo
điểm trung tâm và các hình thức khác. Bên cạnh đó, cũng cần cải thiện
khả năng tương tác của chương trình bằng cách cho phép người dùng
xem trước kết quả phân cụm trên các biểu đồ trực quan, giúp người dùng
dễ dàng hiểu và thấy được kết quả phân cụm của dữ liệu.
- Nâng cấp chương trình có thể xử lý dữ liệu nhiễu bằng cách sử dụng các
phương pháp xử lý dữ liệu trước khi chạy thuật toán phân cụm, có thể
tích hợp các phương pháp xử lý dữ liệu phổ biến như chuẩn hóa, chọn
đặc trưng, loại bỏ nhiễu để tối ưu hóa kết quả phân cụm.
- Nâng cấp giao diện chương trình đẹp hơn, dễ nhìn hơn nhằm tạo sự thích
thú cho người dùng.
- Cải thiện khả năng mở rộng của chương trình giúp cho chương trình có
thể hoạt động hiệu quả với các bộ dữ liệu lớn hơn, có tính phức tạp cao
hơn. Các phương pháp cải thiện khả năng mở rộng bao gồm phân tách dữ
liệu thành các bộ nhỏ hơn, sử dụng tính toán song song và tối ưu hóa
thuật toán.
- Tích hợp các tính năng nhập và xuất dữ liệu giúp người dùng có thể nhập
dữ liệu từ các nguồn khác nhau và xuất kết quả phân cụm thành các định
dạng khác nhau.
KẾT LUẬN
Với sự phát triển nhanh của CNTT đi cùng với sự ra đời của hàng triệu
CSDL dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tự
động chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích. Các kỹ thuật
khai phá dữ liệu đã trở thành một lĩnh vực quan trọng của nền CNTT thế giới hiện
nay nói chung và Việt Nam nói riêng
Các kỹ thuật phân lớp dữ liệu bao gồm những phương pháp như Clustering,
Classification, Regression, Association rule learning, Decision Tree, Neural
networks, Text mining, Time series analysis,. Mỗi phương pháp có ưu điểm và hạn
chế riêng, phù hợp với từng loại dữ liệu và mục đích sử dụng. Trong các kỹ thuật
trên, kỹ thuật phân lớp (Clustering) – quá trình nhóm một tập các đối tượng thực
thể hay trừu tượng thành lớp các đối tượng tương tự - nhìn từ góc độ tự nhiên là
một việc vô cùng quen thuộc mà hằng ngày chúng ta vẫn thực hiện.
Phân lớp dữ liệu là một bước quan trọng trong việc giải quyết nhiều bài toán
trong thực tế như phân loại email, phát hiện gian lận, nhận diện hình ảnh, hay dự
đoán xu hướng thị trường. Các kỹ thuật và công cụ phân lớp dữ liệu hiện nay đang
được sử dụng rộng rãi trong nhiều lĩnh vực và có tiềm năng phát triển trong tương
lai. Trong tương lai, các kỹ thuật và công cụ phân lớp dữ liệu có tiềm năng phát
triển mạnh mẽ hơn, nhờ vào sự phát triển của trí tuệ nhân tạo và công nghệ thông
tin. Nhu cầu phân tích dữ liệu và đưa ra quyết định dựa trên dữ liệu sẽ càng ngày
càng tăng, đặc biệt trong các lĩnh vực như y tế, tài chính, marketing, quản lý dữ
liệu, v.v. Tuy nhiên, việc phân lớp dữ liệu còn gặp phải nhiều thách thức, đặc biệt
là khi có sự khác biệt lớn giữa các nhóm dữ liệu. Trong trường hợp này, có thể cần
sử dụng các kỹ thuật phân lớp dữ liệu đặc biệt hoặc kết hợp các phương pháp để
đạt được độ chính xác cao nhất.
Trong báo cáo, nhóm đã thực hiện xây dựng chương trình cài đặt thuật toán
phân cụm phân hoạch K-means và đã đạt được những kết quả bước đầu phân loại
khách hàng thành các nhóm dựa trên hành vi mua hàng của họ theo tùy chọn thuộc
tính của người dùng dựa trên bộ dữ liệu có sắn. Chương trình có ưu điểm và tồn tại
một số nhược điểm, tuy nhiên chương trình vẫn có khả năng phát triển sau này
theo những định hướng nhóm đã đặt ra. Sự phát triển của chương trình sẽ giúp cho
sự phát triển của đề tài không chỉ dừng lại ở việc nghiên cứu mà còn có thể áp
dụng vào giải quyết các vấn đề trong thực tiễn.
TÀI LIỆU THAM KHẢO