Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 26

TRƯỜNG ĐẠI HỌC THỦY LỢI

KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO BÀI TẬP LỚN MÔN

KHAI PHÁ DỮ LIỆU


Đề tài :

Sử dụng thuật toán Naive Bayes và Kmeans để định


xem một người trưởng thành có đặc tính như nào thì
làm có mức lương 50.000$/1 năm trên bộ dữ liệu điều
tra dân số năm 1994(Adult).

• Nhóm Thực Hiện: Lớp 58TH3


1.Vũ Thị Ngọc Hà Msv: 1651060944
2.Nguyễn Thị Hồng Nhung Msv:1651061103
3.Ninh Thị Hải Yến Msv:1651060857
 Giảng Viên: TS. Nguyễn Huy Đức

Hà Nội, Ngày 10 Tháng 6 Năm 2020

0
Mục lụ

1
c
Lời mở đầu................................................................................................................2
CHƯƠNG 1 : KHẢO SÁT ,PHÂN TÍCH YÊU CẦU ĐỀ TÀI................................3
1.1. Mục đích chọn đề tài.....................................................................................3
1.2. Phân tích yêu cầu đề tài................................................................................3
1.2.1. Tên bộ dữ liệu:........................................................................................3
1.2.2. Nội dung bộ dữ liệu thu thập..................................................................3
1.2.3. Phương pháp khai phá dữ liệu................................................................5
1.2.4. Khai phá bộ dữ liệu trên phần mềm Weka.............................................5
CHƯƠNG 2: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU........................................5
2.1. Khai phá dữ liệu là gì?..................................................................................6
2.2. Quá trình khai phá dữ liệu............................................................................6
2.3. Các phương pháp khai phá dữ liệu...............................................................7
2.3.1. Phân lớp (Classification)........................................................................7
a) Thế nào là phân lớp?.....................................................................................7
b) Thuật toán phân lớp Naïve Bayes.................................................................8
2.3.2. Phân cụm (Clustering)............................................................................8
a) Phân cụm là gì?.............................................................................................8
b) Thuật toán phân cụm Kmeans.......................................................................9
CHƯƠNG 3: KHAI PHÁ DỮ LIỆU VỚI BỘ DỮ LIỆU ADULT TRÊN WEKA10
3.1. Dữ liệu thô(Dữ liệu đầu vào).......................................................................10
3.2. Tiền xử lý dữ liệu.........................................................................................10
3.3. Khai phá dữ liệu...........................................................................................14
3.3.1.Sử dụng thuật toán phân lớp Naïve Bayes..............................................14
3.3.2. Sử dụng thuật toán phân cụm Kmeans....................................................19
KẾT LUẬN..........................................................................................................23
TÀI LIỆU THAM KHẢO....................................................................................24

2
LỜI MỞ ĐẦU

Trong thời buổi hiện đại ngày nay, công nghê thông tin cũng như những ứng
dụng của nó không ngừng phát triển, lượng thông tin và cơ sở dữ liệu được thu
thập và lưu trữ ngày một nhiều lên. Con người cũng vì thế mà cần có thông tin với
tốc độ nhanh nhất để đưa ra quyết định dựa trên lượng dữ liệu khổng lồ đã có. Các
phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp
ứng được thực tế, vì thế,một khuynh hướng kỹ thuật mới là : Kỹ thuât phát hiện tri
thức và khai phá dữ liệu nhanh chóng được phát triển.Khai phá dữ liệu đã và đang
được nghiên cứu,ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế
giới.Khai phá dữ liệu là một bước của quá trình khai thác tri thức.
Với những kiến thức đã được học qua môn Khai phá dữ liệu,nhóm chúng em
đã bước đầu làm quen ,có cách nhìn nhận khá tổng quan về việc Khám phá tri
thức :Về quy trình Từ DL thô/thực tế -> Tiền xử lý DL -> Khai phá DL -> Biểu
diễn DL -> Nhận xét đánh giá; Về các phương pháp Khai phá dữ liệu: Phân loại
(Classification), Hồi qui (Regression), Phân nhóm (Clustering). Vì vậy ,trong bài
tập lớn này, chúng em sẽ áp dụng kiến thức được học để làm việc trên một dữ liệu
thực tế , với đề tài là: “Sử dụng thuật toán Naive Bayes và Kmeans để định xem
một người trưởng thành có đặc tính như nào thì làm có mức lương 50.000$/1 năm
trên bộ dữ liệu điều tra dân số năm 1994(Adult)”.
Trong quá trình làm bài còn nhiều thiếu xót, mong được sự phản hồi góp
ý của thầy để nhóm chúng em được hoàn thiện hơn.

3
CHƯƠNG 1 : KHẢO SÁT ,PHÂN TÍCH YÊU CẦU ĐỀ TÀI

1.1. Mục đích chọn đề tài:


Thực tế hóa các kiến thức đã học ở môn Khai phá dữ liệu qua bộ dữ liệu
thực tế ;để từ bộ dữ liệu lớn qua quá trình xử lý bằng những kỹ thuật,
phương pháp đã được học ta sẽ nhận xét ,xác định được xem một người
trưởng thành có đặc tính như nào thì có mức lương 50.000$/1 năm .Từ đó ta
có thể giải quyết được vấn đề chính ở đây là nhà nước có thể đánh giá được
mức sống của người dân đang như thế nào để có hướng giải quyết nâng cao
hơn mức sông của người dân qua việc khai phá thông tin bộ dữ liệu.
Thông qua việc xử lý bộ dữ liệu trên giúp hiểu rõ hơn quy trình khai phá tri
thức,từ đó áp dụng vào nhiều những bài toán thực tế hiểu được tri thức động
cơ suy diễn của dữ liệu để có thể đáp ứng với nhu cầu ngày càng cao của xã
hội.
1.2. Phân tích yêu cầu đề tài

1.2.1. Tên bộ dữ liệu:(Adult) Bộ dữ liệu điều tra dân số(người trưởng


thành) năm 1994.

1.2.2. Nội dung bộ dữ liệu thu thập : Cơ sở dữ liệu Adult là tập hợp
các bản ghi được thực hiện bởi Barry Becker từ cuộc tổng điều tra dân số
năm 1994.Các dữ liệu được thu thập dựa trên điều kiện :
(Age>16) &&(Agi>100)&&(FNLWGT>1)&&(HRSWK>0)
Bài toán dựa trên số liệu thống kê của 32571 người trưởng thành và có 15
thuộc tính.
STT Thuộc tính Ý nghĩa Giá trị
1 Age Tuổi [17;90]
2 WorkClass Nhóm { Private, Self-emp-not-inc, Self-emp-
nghề inc, Federal-gov, Local-gov, State-
gov, Without-pay, Never-worked}
3 Fnlwgt(Final Trọng [19214;1184622]
weight) lượng cuối
cùng
4 Education Học vấn { Bachelors, Some-college, 11th, HS-

4
grad, Prof-school, Assoc-acdm,
Assoc-voc, 9th, 7th-8th, 12th,
Masters, 1st-4th, 10th, Doctorate, 5th-
6th, Preschool}
5 Education- Trình độ [1;16]
num học vấn
theo sô
6 Marital- Tình trạng { Married-civ-spouse, Divorced,
status hôn nhân Never-married, Separated, Widowed,
Married-spouse-absent, Married-AF-
spouse.}
7 Occupation Ngành { Tech-support, Craft-repair, Other-service,
nghề Sales, Exec-managerial, Prof-specialty,
Handlers-cleaners, Machine-op-inspct,
Adm-clerical, Farming-fishing, Transport-
moving, Priv-house-serv, Protective-serv,
Armed-Forces.}
8 relationship Mối quan { Wife, Own-child, Husband, Not-in-
hệ family, Other-relative, Unmarried.}
9 race Chủng tộc {White, Asian-Pac-Islander, Amer-
Indian-Eskimo, Other, Black}
10 Sex Giới tính Female, Male
11 capital-gain Tăng vốn [0;9999]
12 Capital-Loss Giảm vốn [0;4356]
13 hours-per- Giờ [0;99]
week làm/tuần
14 native- Quê quán {United-States, Cambodia, England, Puerto-
country Rico, Canada, Germany, Outlying-
US(Guam-USVI-etc), India, Japan, Greece,
South, China, Cuba, Iran, Honduras,
Philippines, Italy, Poland, Jamaica,
Vietnam, Mexico, Portugal, Ireland, France,
Dominican-Republic, Laos, Ecuador,
Taiwan, Haiti, Columbia, Hungary,
Guatemala, Nicaragua, Scotland, Thailand,
Yugoslavia, El-Salvador,
Trinadad&Tobago, Peru, Hong, Holand-
Netherlands.}
15 ABOVE50 Thuộc tính {<=50;>50k}
xác định
1.2.3. Phương pháp khai phá dữ liệu:
Phân lớp Naive Bayes

5
Phân cụm K-Means

1.2.4. Khai phá bộ dữ liệu trên phần mềm Weka.

Phần mềm Weka là gì?Là một công cụ phầm mềm viết bằng
java,phục vụ lĩnh vực học máy và khai phá dữ liệu.
Tính năng chính: Tiền xử lý dữ liệu, giải thuật học máy, khai phá dữ
liệu, và phương pháp thí nghiệm đánh giá.Môi trường cho phép so
sánh giải thuật học máy và khai phá dữ liệu.
Sử dụng môi trường: Explorer +Preprocess( Tải dữ liệu lên+Tiền xử
lý dữ liệu)
+ Classify(Huấn luyện kiểm tra mô
hình học máy: Phân lớp Native Bayes)
+Cluster(Nhóm dữ liệu để phân
cụm dùng Kmeans)

6
CHƯƠNG 2: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

2.1. Khai phá dữ liệu là gì?

(Data mining) Là quá trình tính toán để tìm ra các mẫu trong các bộ dữ
liệu lớn liên quan đến các phương pháp tại giao điểm của máy học, thống
kê và các hệ thống cơ sở dữ liệu. Mục tiêu tổng thể của quá trình khai
thác dữ liệu là trích xuất thông tin từ một bộ dữ liệu và chuyển nó thành
một cấu trúc dễ hiểu để sử dụng tiếp,
2.2. Quá trình khai phá dữ liệu.

Hình 1-Quá trình khai phá dữ liệu(Process of datamining)

Bao gồm 5 bước:


Bước 1: Thu thập và tìm hiểu dữ liệu thô(Dữ liệu đầu vào)
Bước 2: Tiền xử lý dữ liệu:
Là quá trình xử lý dữ liệu thô ,nhằm cải thiện chất lượng dữ liệu(tính
chính xác,tính hiện hành, tính toàn vẹn và nhất quán) từ đó sẽ cải thiện
chất lượng kết quả khai phá.
Bao gồm các quá trình:
Làm sạch dữ liệu(Data cleaning):Xử lý dữ liệu bị thiếu(missing data) và
dữ liệu bị nhiễu( noisy data)

7
Tích hợp dữ liệu(data integration):Là quá trình trộn dữ liệu từ các nguồn
khác nhau vào một kho dữ liệu .(Vấn đề nhận dạng thực thể, Vấn đề dư
thừa,Vấn đề mâu thuẫn giá trị dữ liệu)
Biến đổi dữ liệu(data transformation):Là quá trình biến đổi hay kết hợp
dữ liệu vào những dạng thích hợp(Làm trơn,kết hơp,tổng quát hóa và
chuẩn hóa dữ liệu)
Thu giảm dữ liệu(data reduction):Tập dữ liệu được biến đổi đảm bảo
toàn vẹn,nhưng nhỏ(ít) hơn nhiều về số lượng so với ban đầu.(Kết hợp
khối dữ liệu,Chọn một số thuộc tính, Thu giảm chiều,Thu giảm
lượng,Rời rạc hóa dữ liệu)
Bước 3:Khai thác dữ liệu(Data mining):Xác nhận nhiệm vụ khai phá dữ
liệu và lựa chọn kỹ thuật khai thác dữ liệu.
Bước 4:Đánh giá(Evaluation)Dựa trên một số tiêu chí tiến hành kiểm tra
và lọc nguồn tri thức thu được.
Bước 5:Triển khai (Deployment).
2.3. Các phương pháp khai phá dữ liệu
2.3.1. Phân lớp (Classification)
a) Thế nào là phân lớp?
(Data classification) là xếp đối tượng DL vào một trong các lớp đã
được xác định trước với nhiệm vụ thiết lập được ánh xạ giữa các giá
trị của các thuộc tính với các nhãn lớp.
Phân lớp gồm 2 bước:
B1: Xây dựng mô hình
 Mô tả tập các lớp xác định trước
 Tập học/huấn luyện: các mẫu dành cho xây dựng mô hình.
 Mỗi mẫu thuộc về 1 lớp đã định nghĩa trước.
 Tìm luật phân lớp, cây quyết định hoặc công thức toán mô tả
lớp.
B2: Vận hành mô hình
 Phân lớp các đối tượng chưa biết:
 Xác định độ chính xác của mô hình, sử dụng tập dữ liệu kiểm
tra độc lập.
 Độ chính xác chấp nhận được -> áp dụng mô hình để phân lớp
các mẫu chưa xác định được
8
b) Thuật toán phân lớp Naïve Bayes

Naive Bayes là phương pháp phân loại có giám sát dựa vào xác suất
được sử dụng rộng rãi trong lĩnhvực máy học.

Định lý Bayes:

P ( X| H ) P(H )
P(H|X) =
P( X )

Với H và X là 2 biến cố

Bộ phân lớp Naive bayes hay bộ phân lớp Bayes (simple byes
classifier) hoạt động như sau:

 Gọi D là tập dữ liệu huấn luyện, trong đó mỗi phần tử dữ liệu X được
biểu diễn bằng một vector chứa n giá trị thuộc tính A1, A2,...,An =
{x1,x2,...,xn}
 Giả sử có m lớp C1, C2,..,Cm. Cho một phần tử dữ liệu X, bộ phân lớp
sẽ gán nhãn cho X là lớp có xác suất hậu nghiệm lớn nhất. Cụ thể, bộ
phân lớp Bayes sẽ dự đoán X thuộc vào lớp Ci nếu và chỉ nếu:
P(Ci|X) > P(Cj|X) (1<= i, j <=m, i != j)
Giá trị này sẽ tính dựa trên định lý Bayes.
 Để tìm xác suất lớn nhất, ta nhận thấy các giá trị P(X) là giống nhau
với mọi lớp nên không cần tính. Do đó ta chỉ cần tìm giá trị lớn nhất
của P(X|Ci) * P(Ci). Chú ý rằng P(Ci) được ước lượng bằng |Di|/|D|,
trong đó Di là tập các phần tử dữ liệu thuộc lớp Ci. Nếu xác suất tiền
nghiệm P(Ci) cũng không xác định được thì ta coi chúng bằng nhau
P(C1) = P(C2) = ... = P(Cm), khi đó ta chỉ cần tìm giá trị P(X|Ci) lớn
nhất.
 Khi số lượng các thuộc tính mô tả dữ liệu là lớn thì chi phí tính toàn
P(X|Ci) là rất lớn, dó đó có thể giảm độ phức tạp của thuật toán Naive
Bayes giả thiết các thuộc tính độc lập nhau. Khi đó ta có thể tính:
P(X|Ci) = P(x1|Ci)...P(xn|Ci)

2.3.2. Phân cụm (Clustering)


a) Phân cụm là gì?

9
Là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu
sao cho:
Các phần tử trong một cụm “tương tự”(similar) nhau
Các phần tử trong các cụm khác nhau sẽ “phi tương tự”(Disimilar)nhau
Số các cụm được xác định trước theo kinh nghiệm hoặc tự động.
b) Thuật toán phân cụm Kmeans
K-means clustering, chúng ta không biết nhãn (label) của từng điểm
dữ liệu. Mục đích là làm thể nào để phân dữ liệu thành các cụm
(cluster) khác nhau sao cho dữ liệu trong cùng một cụm có tính chất
giống nhau ; cụ thể hơn là từ dữ liệu đầu vào và số lượng nhóm
chúng ta muốn tìm, hãy chỉ ra center của mỗi nhóm và phân các điểm
dữ liệu vào các nhóm tương ứng. 
Thuật toán:
Đầu vào: Dữ liệu X và số lượng Cluster cần tìm K
Đầu ra : Các center M và label vector cho từng điểm dữ liệu Y.
 Chọn K điểm bất kỳ làm các center ban đầu.
 Phân mỗi điểm dữ liệu vào cluster có center gần nó nhất.
 Nếu việc gán dữ liệu vào từng cluster ở bước 2 không thay đổi so với
vòng lặp trước nó thì ta dừng thuật toán.
 Cập nhật center cho từng cluster bằng cách lấy trung bình cộng của tất
các các điểm dữ liệu đã được gán vào cluster đó sau bước 2.
 Quay lại bước 2.

10
CHƯƠNG 3: KHAI PHÁ DỮ LIỆU VỚI BỘ DỮ LIỆU ADULT TRÊN WEKA

3.1. Dữ liệu thô(Dữ liệu đầu vào).

Adult(1994) Bộ dữ liệu điều tra dân số về thông tin của người trưởng
thành để định xem một người trưởng thành có đặc tính như nào thì làm
có mức lương 50.000$/1 năm.

Hình 2- Bộ dữ liệu thu thập thông tin người trưởng thành năm 1994.

3.2. Tiền xử lý dữ liệu

Xử lý dữ liệu thô Adult(1994)

Xử lý dữ liệu trên Excel:


Cột ABOVE50: Chuyển đổi giá trị số 1 và 0 sang giá trị chữ TRUE
và FALSE để dễ dàng xác định hơn.

11
Hình 3-Dữ liệu được đẩy lên trên Weka

Ở bộ dữ liệu trên ,ta nhận thấy có vấn đề dư thừa, thuộc tính educatio-
num và thuộc tính marital.status không cần thiết chúng có thể xác
định được qua thuộc tính education và relationship.

12
Hình 4- Thuộc tính Education-num và thuộc tính Marial.status đã bị
xóa khỏi cơ sở dữ liệu.

Các dữ liệu ở cơ sở dữ liệu ban đầu, có dữ liệu bị thiếu, vì thế ta sẽ


tiền xử lý để làm đầy dữ liệu trống bằng cách thay thế bằng giá trị
trung bình của thuộc tính.

13
Hình 5-Cơ sở dữu liệu sau khi đã được làm đầy.

Để chuẩn bị cho bước khai phá dữ liệu để dùng phân lớp Naive Bayes
ta phải chuẩn hóa dữ liệu về dạng norminal.

14
Hình 7-Cơ sở dữ liệu sau khi đã được chuẩn hóa sang norminal
3.3. Khai phá dữ liệu

Trên bộ dữ liệu Adult 1994 sử dụng 2 kỹ thuật khai phá dữ liệu: Sử dụng
thuật toán phân lớp Naïve Bayes và thuật toán phân cụm dữ liệu
Kmeans.

3.3.1.Sử dụng thuật toán phân lớp Naïve Bayes

Bước 1: Đẩy cơ sở dữ liệu lên Weka , tiền xử lý dữ liệu trong


Preprocess( xóa thuộc tính dư thừa, chuyển dữ liệu sang
norminal,rời rạc hóa dữ liệu, làm đầy dữ liệu).

15
Hình 8-Dữ liệu được đẩy lên Weka đã qua tiền xử lý.

Bước 2: Chọn Classify để bắt đầu tiến hành phân lớp dữ liệu.

Choose

a) Phương pháp 1: Dùng Percentage split


Dữ liệu được chia: 66% để training và 34% để testing

16
Hình 9- Tiến hành phân lớp dữ liệu sử dụng percentage split
Kết quả hiển thị:

b) Phương pháp 2 : Dùng Cross-validation Folds


Chia tập dữ liệu ra làm 10 folds.

17
Hình 10- Tiến hành phân lớp dữ liệu sử dụng cross-validation

Kết quả hiển thị:

18
So sánh 2 phương pháp

Chỉ tiêu đánh giá Dùng percentage split Dùng cross-validation Folds
Bản ghi làm Testing 11071(34%) Chia làm 10 folds
Bản ghi làm Training 21490(66%)
Phân loại đúng 9183(82.9464%) 26959(82.7954%)
Phân loại sai 1888(17.0536%) 5602(17.2046%)
Thống kê Kappa 0.5489 0.5472

Lỗi tuyêt đối 0.2035 0.2046


Lỗi bình phương gốc 0.3437 0.3457

Lỗi tương đối tuyệt 55.8647% 55.9427%


đối
Lỗi bình phương 81.0613% 80.8463%
tương đối gốc
7332 phân lớp đúng vào lớp a, 750 21468 phân lớp đúng vào lớp
của lớp a nhưng phân lớp sai vào a, 2350 của lớp a nhưng phân
lớp b. lớp sai vào lớp b
1138 phân lớp đúng vào lớp b, 5491 phân lớp đúng vào lớp
1851của lớp b nhưng phân lớp sai b,3252 của lớp b nhưng phân
vào lớp a. lớp sai vào lớp a.

Nhận xét : Qua hai phương pháp ta thấy phương pháp Percentage split
cho sai số thấp hơn và phân loại chính xác hơn.

3.3.2. Sử dụng thuật toán phân cụm Kmeans


Bước 1: Đẩy cơ sở dữ liệu lên Weka , tiền xử lý dữ liệu trong
Preprocess( xóa thuộc tính dư thừa, ,rời rạc hóa dữ liệu, làm đầy dữ
liệu).

19
Bước 2: Chọn Cluster để bắt đầu tiến hành phân cụm dữ liệu.

Choose

Chọn số cụm bằng :

a) Phương pháp 1: Dùng Percentage split

Dữ liệu được chia: 66% để training và 34% để testing

20
Hình 11- Tiến hành phân cụm dữ liệu sử dụng percentage split
Kết quả hiển thị:

Trong 11071 bản ghi của tập testing có 4374 ( 40% ) bản ghi thuộc cụm 0 và
6697 ( 60%) bản ghi thuộc cụm 1

b) Phương pháp 2: Phân cụm theo thuộc tính phân lớp

21
Hình 12- Tiến hành phân cụm dữ liệu theo thuộc tính phân lớp

Kết quả hiển thị:

22
Trong 32561 bản ghi của tập dữ liệu có 12590 ( 39% ) bản ghi thuộc cụm 0
(ABOVE50 = FALSE) và 19971 ( 61%) bản ghi thuộc cụm 1
(ABOVE50=TRUE)
11494 trường hợp phân đúng vào cụm 0 ,1096 trường hợp của cụm 0 phân
sai vào cụm 1
6745 trường hợp phân đúng vào cụm 1 , 13226 trường hợp của cụm 1 phân
sai vào cụm 0
Nhận xét : Trong 2 phương pháp, phương pháp percentage split (66% training
và 34% testing) cho kết quả tốt hơn và việc phân cụm chính xác hơn.

23
KẾT LUẬN

Qua việc tìm hiểu và hoàn thành Đề tài:“Phân lớp Naive Bayes và phân cụm
Kmeans để định xem một người trưởng thành có đặc tính như nào thì làm có
mức lương 50.000$/1 năm trên bộ dữ liệu điều tra dân số
năm1994(Adult)” ,nhóm chúng em đã đạt được những kết quả như sau:
1. Lý thuyết:
- Nắm được cơ bản từng bước quá trình khai phá dữ liệu(Thu thập
dữ liệu,Tiền xử lý dữ liệu,Khai phá dữ liệu) .
- Hiểu rõ hơn bản chất của các kỹ thuật khai phá cơ bản :Phân lớp
bằng thuật toán Naïve bayes và phân cụm dữ liệu qua thuật toán
Kmeans.
- Cách sử dụng phần mềm Weka để khai phá dữ liệu.
2. Ứng dụng:Tìm hiểu và Khai phá dữ liệu trên bộ dữ liệu thực tế
Adult.
- Xử lý dữ liệu thông tin trên excel và weka đưa về bộ dữ liệu chính
xác nhất.
- Sử dụng kỹ thuật khai phá cơ bản : Phân lớp Naïve bayes và Phân
cụm Kmeans để xác định rằng người trưởng thành có đặc tính như
thế nào thì có mức lương 5000$/năm.
- Qua việc xây dựng 2 mô hình so sánh kết quả để tìm ra phương
pháp phù hợp nhất.
3. Hướng phát triển:
- Nghiên cứu thêm một số kỹ thuật về khai phá dữ liệu khác để kết
quả dự đoán được cải thiện hơn.

24
TÀI LIỆU THAM KHẢO
[1] TS.Đặng Thị Thu Hiền, (2019), Bài giảng Khai Phá dữ liệu.

https://sites.google.com/site/tlucse404/products-services

[2] Wikipedia- Khai phá dữ liệu

https://vi.wikipedia.org/wiki/Khai_ph%C3%A1_d%E1%BB%AF_li
%E1%BB%87u

[3] Weka

https://www.cs.waikato.ac.nz/ml/weka/

[4] Bộ dữ liệu adult

https://archive.ics.uci.edu/ml/machine-learning-databases/adult/

25

You might also like