DM C4 Classification PDF

Khoa Khoa Học & Kỹ Thuật Máy Tính
Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
Chương 4
Phân Loại Dữ Liệu – Data Classification
TRAN MINH QUANG

1 quangtran@hcmut.edu.vn
http://www.cse.hcmut.edu.vn/staff/Staff/quangtran
http://researchmap.jp/quang
2015/10/5
NỘI DUNG
1. Tổng quan về phân loại dữ liệu
2. Hồi qui logistic
3. Cây quyết định
4. Mạng Bayesian
5. Mạng Neural
6. Các phương pháp phân loại dữ liệu khác
7. Đánh giá và chọn mô hình phân loại
2
8. Tóm tắt
Dr. Tran Minh Quang – quangtran@hcmut.edu.vn
TÀI LIỆU THAM KHẢO
[1] Jiawei Han, Micheline Kamber, and Jian Pei, “Data Mining: Concepts and
Techniques”, 3rd Edition, Morgan Kaufmann Publishers, 2012.
[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT
Press, 2001.
[3] David L. Olson, Dursun Delen, “Advanced Data Mining Techniques”,
Springer-Verlag, 2008.
[4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology,
Techniques, and Applications”, Springer-Verlag, 2006.
[5] ZhaoHui Tang, Jamie MacLennan, “Data Mining with SQL Server 2005”,
Wiley Publishing, 2005.
[6] Oracle, “Data Mining Concepts”, B28129-01, 2008.
[7] Oracle, “Data Mining Application Developer’s Guide”, B28131-01, 2008.
[8] Ian H.Witten, Eibe Frank, “Data mining : practical machine learning tools and
techniques”, 2nd Edition, Elsevier Inc, 2005.
[9] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire, “Successes and new
directions in data mining”, IGI Global, 2008. 3
[10] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”,
2nd Edition, Springer Science + Business Media, LLC 2005, 2010.
1. TỔNG QUAN VỀ PHÂN LOẠI DL
 Các tình huống
 Email: “spam” hay “bình thường”
 Các giao dịch trực tuyến: “gian lận” hay “thông
thường”
 Y tế: “bị bệnh” hay “không bị bệnh”; khối u “lành tính”
hay “ác tính”,…
 Y ∈{ 0, 1} : 0: “ negative” hay 1: “ positive” classes
 Y ∈{ 0, 1, 2, 3} : Dữ liệu thuộc nhiều lớp
 Mỗi lớp có gắn một nhãn (label): Ví dụ “ spam” hay
“ not spam”
4

•Cho trước tập huấn luyện (training set), dẫn ra mô tả về class A và B

•Cho trước mẫu/đối tượng mới, xác định class mà mẫu đó thuộc về?
•Liệu class đó có thực sự phù hợp/đúng cho mẫu/đối tượng đó?
5

 Phân loại dữ liệu (classification)
 Dạng phân tích dữ liệu nhằm rút trích các mô hình mô
tả các lớp dữ liệu hoặc dự đoán xu hướng dữ liệu
 Quá trình gồm hai bước:
• Bước học (huấn luyện): xây dựng bộ phân loại
(classifier) bằng việc phân tích (học) tập huấn luyện

• Bước phân loại (classification): phân loại dữ liệu/đối
tượng mới nếu độ chính xác của bộ phân loại được
đánh giá là có thể chấp nhận được (acceptable)
y = f (X) với y là nhãn (phần mô tả) của một lớp (class) và X là dữ liệu/đối tượng
- Bước học: X trong tập huấn luyện, một trị y được cho trước với X  xác định f
6
- Bước phân loại: đánh giá f với (X’, y’) và X’ <> mọi X trong tập huấn luyện; nếu
chấp nhận được thì dùng f để xác định y’’ cho X’’ (mới)
Bước phân loại (đánh giá và áp dụng)

Bước học/huấn luyện
7

 Phân loại dữ liệu: Dạng học có giám sát
(supervised learning)
desired
state X response Y
Environment Teacher
actual
Learning response
-
System Σ+
error signal
8

 Phân loại khối u lành hay ác tính dựa vào kích thước
Chẩn đoán hθ ( X ) = θ T X
1 (Ác tính) ?
Khối u lành hay ác tính
Threshold
0.5 hθ ( X ) = 0.5
(Lành tính)
0
0 1 2 3 4 5 6 7 8 9 10 11
Kích thước khối u (cm)
 Nếu hθ(X)≥0.5 thì dự đoán: “Y=1” ngược lại “Y=0”

 Thực tế, hθ(X) > 1 hoặc hθ(X) < 0
 Hồi qui logistic (Logistic regression) 0≤hθ(X)≤1 9
= > Phân loại (Classification)

 Các giải thuật phân loại dữ liệu
 Hồi qui logistic (logistic regression)
 Cây quyết định (decision tree)
 Mạng Bayesian
 Mạng neural nhân tạo (ANN)
 Phân loại với k phần tử cận gần nhất (k-nearest
neighbor)
 Phân loại với suy diễn dựa trên tình huống (case-based
reasoning)
 Phân loại dựa trên tiến hoá gen (genetic algorithms)
 Phân loại với lý thuyết tập thô (rough sets) 10
 Phân loại với lý thuyết tập mờ (fuzzy sets) …

2. PHÂN LOẠI DL VỚI HỒI QUI LOGISTIC
 hθ(X)= θTX (có thể lớn hơn 1 hoặc nhỏ hơn 0)
 Cần có hθ(X) sao cho 0≤hθ(X)≤1
1
 Mô hình lại: hθ(X)= g(θTX) với g ( z ) =
1 + e−z
1
hθ ( X ) = −θ T X
1
1+ e g(z)
 Sigmoid function g(z)

0.5
hay Logistic function

0
-5 -4 -3 -2 -1 0 1 2 3 4 5
z 11
Liên quan đến bộ tham số θ
1
 Giải thích giá trị của hθ ( X ) = −θ T X
1+ e
 Là xác suất dự đoán rằng “ y= 1” với input là x
 Ex.,  x0  1 
x= = 
 1 
x kt .khoi _ u 
hθ(x)= 0.7
⇒ 70% khối u với k.thước đã cho có thể là ác tính
⇒ hθ(x)= P(y= 1| x;θ) (xác suất y= 1, với x cho
trước và được thông số hóa bởi θ) 12

1
 Chú ý hθ(X)= g(θTX) với g ( z ) = −z
hay
1+ e
1
hθ ( X ) = −θ T X
1
1+ e g(z)
g(z)
0.5
• g(z) ≥ 0.5 khi z ≥ 0

0
• g(z) < 0.5 khi z < 0 -5 -4 -3 -2 -1 0 1 2 3 4 5
z
• dự đoán y= 1 khi hθ(X) ≥ 0.5 hay θTX ≥ 0

• dự đoán y= 0 khi hθ(X) < 0.5 hay θTX < 0
13

 Đường phân lớp (decision boundary)
• hθ(X)= g(θTX)= g(θ0 + θ1 x 1 + θ2 x 2 ) x2 y=1
3
Chọn
− 3
•
2
θ = 1  1
y=0
1  1 2 3 x1
• Dự đoán “ y= 1” nếu θTX ≥ 0

hay -3+ x 1 + x 2 ≥0 Decision boundary
= > x1+ x2 ≥ 3
14

 Đường phân lớp (decision boundary) x2
y=1
• hθ(X)= g(θTX)= g(θ0 + θ1 x 1 + θ2 x 2 + 1
y=0
θ3 x 2 1 + θ4 x 2 2 )
-1 1 x1
-1
• Dự đoán “ y= 1” nếu θTX ≥0
hay -1+ x 2 1 + x 2 2 ≥0
15

 Cost function của hồi qui logistic
• Training set; { (x (1),y (1)), (x (2),y (2)),…, (x (N),y (N))}
• N examples  x0 
x 
 1
x =  x2 ; x0 = 1; y ∈ {0,1}
 
 
 xn 
 
1
hθ ( X ) = −θ T X
1+ e
• Làm sao để chọn bộ thông số θ? 16

N
1
 Liên hệ với hồi qui tuyến tính J (θ ) =
2N
∑ θ
( h
i =1
( x (i )
) − y (i ) 2
)
 Trong hồi qui phi tuyến

J(θ)= cost(hθ(x),y)
cost(hθ(x (i)),y (i)) = ½ (hθ(x (i))-y (i))2
Để đơn giản hóa ta ghi

cost(hθ(x),y) = ½ (hθ(x)-y)2
17

− log(hθ ( x)) : y = 1
cos t (hθ ( x), y ) = 
− log(1 − hθ ( x)) : y = 0
If y = 1 • Cost = 0 nếu y=1, hθ(x)=1

• Khi hθ(x)->0 thì cost -> ∞
cos t (hθ ( x), y ) ⇒Khi hθ(x)=0 có nghĩa là ta dự

đoán rằng:
P(y=1|x, θ)=0, trong khi đó y=1,
do vậy chi phí của giải thuật trong 18
0 1 trường hợp này là rất lớn

− log(hθ ( x)) : y = 1
cos t (hθ ( x), y ) = 
− log(1 − hθ ( x)) : y = 0
If y = 0 • Cost = 0 nếu y=0, hθ(x)=0

• Khi hθ(x)->1 thì cost -> ∞
cos t (hθ ( x), y ) ⇒Khi hθ(x)=1 có nghĩa là ta dự

đoán rằng:
P(y=1|x, θ)=1, trong khi đó y=0,
do vậy chi phí của giải thuật trong 19
0 1 trường hợp này là rất lớn

 Đơn giản hàm chi phí và giải thuật gradient descent
− log(hθ ( x)) : y = 1
cos t (hθ ( x), y ) = 
− log(1 − hθ ( x)) : y = 0
 Do y= 0| 1, nên hàm chi phí có thể đơn giản hóa như sau
cost(hθ(x),y)= -ylog(hθ(x))-(1-y)log(1-hθ(x))
N
1
∑
N
1
∑ (i ) = − + − −
(i ) (i ) (i )
J (θ ) = cos t (hθ ( x ) − y )
(i ) y log hθ ( x ) (1 y ) log(1 hθ ( x ))
N i =1
N i =1
 Thực hiện tìm minθJ(θ) ta sẽ tìm được bộ thông số θ (giải

thuật gradient descent)
 Để dự doán giá trị của y dựa vào giá trị x (mới đưa vào):
20
1
hθ ( X ) = −θ T X
1+ e Dr. Tran Minh Quang – quangtran@hcmut.edu.vn
qui logistic để phân lớp tập dữ liệu có nhiều
 Hồi
nhãn (thuộc nhiều lớp):
• Thư mục email: “ business” , “ friend” , “ family” ,
“ hobby” (y= { 1,2,3,4} )
• Chẩn đoán: “ cảm cúm” , “ sốt siêu vi” , “ rubella”
(y= { 1,2,3} )
• Dự báo thời tiết: “ nắng” , “ nhiều mây” , “ mưa”
(y= { 1,2,3} )
21

 Dữ liệu đa lớp (multi-class)
x2 x2
x1 x1
22

 Dữ liệu đa lớp (multi-class): một và phần còn lại
x2 h(1)θ(x)
x2 x1
x2
h(2)θ(x)
x1
Class 1: x1
Class 2:
x2
Class 3:
h(3)θ(x)
x1 23
h(i)θ(x)= P(y= 1| x; θ) với (i= 1,2,..k), k là số lớp

 Huấn luyện bộ phân lớp hồi qui logistic h(i)θ(x)
cho mỗi lớp i
 Vớimột phần tử x mới đưa vào, ta dự đoán y
bằng cách chọn lớp i sao cho h(i)θ(x) là lớn nhất
h(i)θ(x)= P(y= 1| x; θ) với (i= 1,2,..k), k là số lớp
24

3. PHÂN LOẠI VỚI CÂY QUYẾT ĐỊNH
25
Cơ sở dữ liệu khách hàng AllElectronics dùng cho bước học

 Cây quyết định (decision tree) – mô hình phân loại
 Node nội: phép kiểm thử (test) trên một thuộc tính
 Node lá: nhãn/mô tả của một lớp (class label)
 Nhánh từ một node nội: kết quả của một phép thử trên thuộc tính
tương ứng
Cây quyết định học được từ CSDL
huấn luyện AllElectronics
26
 Giải thuật xây dựng cây quyết định
 ID3, C4.5, CART (Classification and Regression Trees –
binary decision trees)
27
28

 Đặc điểm của giải thuật
 Giải thuật tham lam (không có quay lui), chia để trị,
đệ qui, từ trên xuống
 Độ phức tạp: O(n*|D|*log|D|)
• Mỗi thuộc tính ứng với mỗi mức (level) của cây
• Ở mỗi mức của cây, |D| phần tử huấn luyện được
duyệt qua
• In-memory  ???
29

 Attribute_selection_method
 Heuristic để chọn tiêu chí rẽ nhánh tại một node, i.e.

phân hoạch tập huấn luyện D thành các phân hoạch con
với các nhãn phù hợp
• Xếp hạng mỗi thuộc tính
• Thuộc tính được chọn để rẽ nhánh là thuộc có trị số
điểm (score) lớn nhất
• Độ đo chọn thuộc tính phân tách (splitting attribute):
information gain, gain ratio, gini index
30

31
A là thuộc tính phân tách (splitting attribute).

 Độ đo Information Gain
 Dựa trên lý thuyết thông tin (information theory) của
Claude Shannon về giá trị (nội dung thông tin) của tin
 Thuộc tính tương ứng với information gain lớn nhất sẽ
được chọn làm splitting attribute cho node N
• N: node hiện tại cần phân hoạch các phần tử trong D
• Splitting attribute đảm bảo sự trùng lắp (impurity) /

ngẫu nhiên (randomness) ít nhất giữa các phân
hoạch tạo được
• Cách tiếp cận này giúp tối thiểu số phép thử (test) để
phân loại một phần tử

32

 Lượng thông tin cần để phân loại một phần tử trong D
(= Entropy của D): Info(D)
• pi: xác suất để một phần tử bất kỳ trong D thuộc về

lớp Ci với i = 1..m
• Ci,D: tập các phần tử của lớp Ci trong D

m
Info( D) = −∑ pi log 2 ( pi )
i =1
pi =| Ci , D | / | D | 33
 Lượng thông tin cần để phân loại một phần tử trong D
dựa trên thuộc tính A: InfoA(D)
• Thuộc tính A dùng phân tách D thành v phân hoạch
{D1, D2, …, Dj, …, Dv}

• Mỗi phân hoạch Dj gồm |Dj| phần tử trong D
• Lượng thông tin này sẽ cho biết mức độ trùng lắp giữa
các phân hoạch, nghĩa là một phân hoạch chứa các

phần tử từ một lớp hay nhiều lớp khác nhau
• Mong đợi: InfoA(D) càng nhỏ càng tốt
v | Dj |
Info A ( D) = ∑ * Info( D j ) 34
j =1 |D|
 Information gain chính là độ sai biệt giữa trị thông tin

Info(D) ban đầu (trước phân hoạch) và trị thông tin
mới InfoA(D) (sau phân hoạch với A)
Gain( A) = Info( D) − Info A ( D)
35
Gain(age)=0.246 bits
Gain(income)?
Gain(student)?
Gain(credit_rating)?
 Splitting attribute?
36
 Độ đo Gain Ratio: GainRatio(A)
 Dùng với C4.5
 Giải quyết vấn đề một thuộc tính được dùng tạo ra rất
nhiều phân hoạch (thậm chí mỗi phân hoạch chỉ gồm 1
phần tử)
 Chuẩn hoá information gain với trị thông tin phân
tách (split information): SplitInfoA(D)
 Splitting attribute A tương ứng với trị GainRatio(A)
là trị lớn nhất
v | Dj |  | Dj | 
SplitInfo A ( D) = −∑ * log 2  
j =1 | D |  |D| 
Gain( A) 37
GainRatio ( A) =
SplitInfo A ( D)
SplitInfoincome(D)
38
Gain(income) = 0.029
GainRatio(income) = 0.029/0.926 = 0.031
GainRatio(age)?
GainRatio(student)?
GainRatio(credit_rating)?

 Độ đo Gini Index
 Dùng với CART
 Sự phân tách nhị phân (binary split) cho mỗi t.tính A
• A ∈ SA?
• SA là một tập con gồm một hay v-1 trị thuộc tính A
 Gini index của một thuộc tính là trị nhỏ nhất tương ứng
với một tập con SA từ 2v – 2 tập con
 Splitting attribute tương ứng với gini index nhỏ nhất để
tối đa hóa sự suy giảm về độ trùng lắp giữa các phân
hoạch
39
Giniincome∈{low,high} = Giniincome∈{medium} = 0.315

Giniincome∈{medium,high} = Giniincome∈{low} = 0.300
 Giniincome ∈{medium,high}/{low}=0.300
Giniage ∈{youth,senior}/{middle_aged} = 0.375
Ginistudent=0.367 40
Ginicredit_rating=0.429
 Xâydựng cây quyết định từ cơ sở dữ liệu huấn
luyện AllElectronics
 Dùng độ đo Information Gain
 Dùng độ đo Gain Ratio
 Dùng độ đo Gini Index
 Các cây quyết định học được giống nhau???
 Tiến hành đánh giá và phân loại với các cây quyết
định học được
41

4. PHÂN LOẠI VỚI MẠNG BAYESIAN
 Dựa trên định lý của Bayes
 Phân loại Naïve Bayesian
• Giả định: độc lập có điều kiện

lớp (class conditional
independence)
 Phân loại Bayesian belief

networks
Reverend Thomas Bayes
 Phương pháp phân loại dựa
(1702-1761)
trên xác suất 42

 Định lý Bayes Cho một RID, RID thuộc về lớp
“yes” (buys_computer = yes)
 X: một tuple/đối tượng (evidence)
 H: giả thuyết (hypothesis)
 X thuộc về lớp C.
X
X được xác định bởi trị
của các thuộc tính.
43
 Định lý Bayes
 P(H|X): posterior probability
• Ví dụ: P(buys_computer=yes|age=young,
income=high) là xác suất mua máy tính của khách

hàng có tuổi “young” và thu nhập “high”
 P(X|H): posterior probability, Xác suất có điều kiện
của X đối với H
• Ví dụ: P(age=young,income=high|
buys_computer=yes) là xác suất khách hàng đã

mua máy tính có tuổi “young” và thu nhập “high”
 P(age=young, income=high|buys_computer=yes) = 0
44
 P(age=young, income=high|buys_computer=no) = 2/5 = 0.4

 P(H): prior probability, Xác suất của H
• Ví dụ: P(buys_computer=yes) là xác suất mua máy
tính của khách hàng nói chung
• P(buys_computer=yes) = 9/14 = 0.643
• P(buys_computer=no) = 5/14 = 0.357
 P(X): prior probability, Xác suất của X

• Ví dụ: P(age=young, income=high) là xác suất
khách hàng có tuổi “young” và thu nhập “high”
• P(age=young, income=high) = 2/14 = 0.143
45

 P(H), P(X|H), P(X) được tính từ tập dữ liệu cho trước
 P(H|X) được tính từ định lý Bayes
P( X | H ) P( H )
P( H | X ) =
P( X )
P(buys_computer=yes|age=young, income=high) = P(age=young,
income=high|buys_computer=yes)P(buys_computer=yes)/P(age=young, income=high) = 0
P(buys_computer=no|age=young, income=high) = P(age=young,

income=high|buys_computer=no)P(buys_computer=no)/P(age=young, income=high) =
0.4*0.357/0.143 = 0.9986 46
 Cho trước tập dữ liệu huấn luyện D với mô tả (nhãn)
của các lớp Ci, i=1..m, quá trình phân loại một
tuple/đối tượng X = (x1, x2, …, xn) với mạng
Bayesian như sau:
X được phân loại vào Ci nếu và chỉ nếu
P(Ci|X) > P(Cj|X) với j=1..m, j≠i
P( X | Ci ) P(Ci )
P (Ci | X ) =
P( X )
 Tối đa hóa P(Ci|X) (i.e. chọn Ci nếu P(Ci|X) là trị lớn nhất)
 Tối đa hóa P(X|Ci)P(Ci)
47
P(C1) = P(C2) = .. = P(Cm) hoặc P(Ci) = |Ci,D|/|D| …
n
P( X | Ci ) = ∏ P( xk | Ci ) = P( x1 | Ci ) * P( x2 | Ci ) * .. * P( xn | Ci )
k =1
 P(X|Ci) được tính với giả định class conditional

independence
 xk, k = 1..n: trị thuộc tính Ak của X
 P(xk|Ci) được tính như sau:
• Ak là thuộc tính rời rạc
• P(xk|Ci) = |{X’|x’k = xk ∧ X’ ∈ Ci}|/|Ci,D|
• Ak là thuộc tính liên tục.
• P(xk|Ci) tuân theo một phân bố xác suất nào đó (ví dụ: phân bố
48
Gauss)
 Nếu P(xk|Ci) = 0 thì P(X|Ci) = 0!!!
 Ban đầu
• P(xk|Ci) = |{X’|x’k = xk ∧ X’ ∈ Ci}|/|Ci,D|
 Laplace (Pierre Laplace, nhà toán học Pháp, 1749-
1827)
• P(xk|Ci) = (|{X’|x’k = xk ∧ X’ ∈ Ci}|+1)/(|Ci,D| + m)
Trong đó, m: số lượng giá trị phân biệt trong miền trị
của thuộc tính Ak
 z-estimate
• P(xk|Ci) = (|{X’|x’k = xk ∧ X’ ∈ Ci}| + z*P(xk))/(|Ci,D| + z) 49

C1 = {X’|X’.buys_computer = yes}
C2 = {X’’|X’’.buys_computer = no}
50
 X ∈ C1
4. PHÂN LOẠI VỚI MẠNG NEURAL
 Non-linear Classification
x2
x21, x1x2, x1x3,…x1x100,

x22, x1x3 …
x1
x1: kích thước ⇒5000 features (~O(n2) parameters)
x2: số p. ngủ
x3: số tầng x21, x22, x23,… x210,
x4: tuổi n=100
X1x2x3, x21x2,…
…. 51
X100:….
=>O(n3) parameters
What is this?
Con người: nhìn thấy hình dạng chiếc xe:
Camera đọc được các pixels:

Training:
Cars
Not a car
52
Testing: What is this?
Source: Andrew Ng
pixel 1
Learning
Algorithm
pixel 2
Hình 50 x 50 pixels → 2500 pixels
Raw image (n=2500) (7500 if RGB)
pixel 2
pixel 1 intensity
pixel 2 intensity
pixel 1 pixel 2500

Cars
intensity
“Non”-Cars
Kết hợp hàm bậc 2 (xi*xj ): ≈3M features 53
Source: Andrew Ng
 Các giải thuật mô phỏng theo sự hoạt động của bộ
não người
 Phổ biến từ những năm 80, đầu những năm 90
 Hiện tại được sử dụng ở nhiều lĩnh vực khác nhau
Neuron in
the brain
54
Source: Andrew Ng
Mô hình neuron: Logistic unit
Sigmoid (logistic) activation function.
55
Source: Andrew Ng
Neural Network
Layer 1 Layer 2 Layer 3

56
Source: Andrew Ng
Neural Network
“activation” of unit i in layer j
matrix of weights controlling
function mapping from layer j to
layer j+1
Ɵ(2)
Nếu mạng có sj nodes (units) ở lớp j và sj+1 nodes ở lớp j+1, thì số chiều
của Ɵ(j) sẽ là Sj+1x(Sj+1) 57
Source: Andrew Ng
ANN: Feed forward (Forward propagation)
 x0   z1( 2 ) 
x   ( 2) 
x= 1 z ( 2) =  z2 
 x2 
   z ( 2) 
 x3   3 
z(2)1 z(2)= Ɵ(1)a(1)

a(2)= g(z(2))
z(2)2
Thêm a(2)0=1 vào a(2)
z(2)3 z(3)= Ɵ(2)a(2)
hθ(x)= a(3)= g(z(3))
a(3)=g(z(3))
58
Source: Andrew Ng
 Biểu diễn ANN cho các phép toán logic cơ bản
y=x1 AND x2 y=x1 AND x2

-30 -10
+20 +20
+20 +20
y=NOT x1
Hãy kiểm chứng bằng bảng
10
logic cho các trường hợp trên!
-20 59
Source: Andrew Ng
 Vd dùng ANN để biểu diễn một sự kết hợp phức
tạp hơn của các phép toán logic: x1 NOR x2
 x1 NOR x2= NOT x1 XOR x2:
x1 x2 x1 XOR x2 x1 NOR x2
0 0 0 1
0 1 1 0
1 0 1 0
1 1 0 1
=>x1 NOR x2=(x1 AND x2)OR(NOT x1 AND NOT x2)

=> Kết hợp các biểu diễn ANN cơ bản để biểu diễn60
biểu thức này
Source: Andrew Ng
 Biểu
diễn x1 NOR x2=(x1 AND x2)OR(NOT x1
AND NOT x2)
a(2)1 =x1 AND x2
-30
-10
+20 a(2)1 20
+20 a(3)1
10
20
-20
a(2)2 y = a(3)1 = a(2)1 AND a(2)2
-20
a(2)2 = (NOT x1) AND (NOT x2) 61
Source: Andrew Ng
 Biểu
diễn x1 NOR x2=(x1 AND x2)OR(NOT x1
AND NOT x2)
-30 10 -10
20 -20 20
20 -20 20
0 0
0 1
1 0 62
1 1 Source: Andrew Ng
Dr. Tran Minh Quang – quangtran@hcmut.edu.vn Source: Andrew Ng

 Hàm chi phí (Cost function) trong ANN
Tổng số lớp (layer) trong mạng

Số nodes (không bao gồm bias
node) trong lớp l
Layer 1 Layer 2 Layer 3 Layer 4
Phân loại đa lớp (K classes)
Binary classification
E.g. , , ,
1 output unit pedestrian car motorcycle truck
63
K output units
Source: Andrew Ng
 Hàm chi phí (Cost function) trong ANN
Logistic regression:
Neural network:
64
Source: Andrew Ng
 Tối
thiểu hóa chi phí (Minimizing cost) trong
ANN: Phương pháp lan truyền ngược -
Backpropagation
Need code to compute:

-
65
-
Source: Andrew Ng
 Tínhđộ biến thiên của đạo hàm hàm chi phí khi
thay đổi thông số (gradient computation)
 Cho tập huấn luyện (x,y), feed forward trong ANN
Layer Layer Layer Layer

1 2 3 4
66
Source: Andrew Ng
 Gọi δ(l)j là “error” do node j ở lớp l gây ra
 Với mỗi node ở lớp output (l=L=4)
δ(4)j = a(4)j – yj (δ(4) = a(4) – y)
Tính “errors” của các node bên trong:
δ(3) = (Ɵ(3))T δ(4) . g’(z(3))
δ(2) = (Ɵ(2))T δ(3) . g’(z(2))
Layer Layer Layer Layer
1 2 3 4
Chú ý: không tính δ(1) và

∂
J (θ ) = a (jl )δ i(l +1) 67
∂θ ij(l )
Source: Andrew Ng
 Giải thuật lan truyền ngược (backpropagation)
 Cho tập huấn luyện {(x(1), y(1)),…, (x(N), y(N))}
 Gán ∆(l)ij = 0 (với mọi, i, j, l)
 For i=1 to N
- a(i) := xi thực hiện feed forward tính a(l) (l=1,2,3,..L)
- Dùng y(i) để tính δ(L) = a(L) – y
- Tính δ(L-1), δ(L-2),…,δ(2)
- Tính ∆(l)ij := ∆(l)ij + a(l) δ(i)(l+1)
 Gán  (l )
 Dij :=
1 (l )
∆ ij + λθ ij(l ) , j ≠ 0 ∂
N J (θ ) = Dij(l )

1 (l ) ∂θ ij(l ) 68
 D (l ) := ∆ ij , j = 0
 ij N
Source: Andrew Ng
 Ví dụ về backpropagation:
Feed Forward
69
Source: Andrew Ng
 Ví dụ về backpropagation:
70
Source: Andrew Ng
5. CÁC PP PHÂN LOẠI DL KHÁC
Unknown record
 PP k-nn (k-nearest neighbor)
 Cho trước tập dữ liệu huấn
luyện D với các lớp, phân loại
record/object X vào các lớp dựa
vào k phần tử tương tự với X
nhất (dùng luật số đông:
majority vote)
 Phụ thuộc
 Độ đo khoảng cách để xác
định sự tương tự.
 Trị k, số phần tử láng giềng
 k <= |D|1/2 71

 Chọn độ đo
 Độ đo Euclidean
d ( p, q ) = ∑ ( pi
i
−q ) i
2
 Chọn trị k
 Nếu k quá nhỏ thì kết quả dễ bị ảnh hưởng bởi nhiễu
 Nếu k quá lớn thì nhiều phần tử láng giềng chọn được
có thể đến từ các lớp khác.
k quá lớn! X
72

X X X
(a) 1-nearest neighbor (b) 2-nearest neighbor (c) 3-nearest neighbor
X ∈ MINUS X ∈ MINUS X ∈ PLUS

hay 73
X ∈ PLUS ?

6. ĐÁNH GIÁ VÀ CHỌN MÔ HÌNH PHÂN
LỚP
 Tiêu chí đánh giá
 Độ chính xác (accuracy)
 Thể hiện bộ phân lớp (classifier) có thể nhận biết các đối tương
khác nhau trong tập dữ liệu tốt như thế nào
 Tốc độ (Speed)
 Chi phí tính toán trong việc xây dưng và sử dụng bộ phân lớp
 Tính mạnh mẽ (Robustness)
 Khả năng bộ phân lớp có thể làm việc tốt với tập dữ liệu chứa
nhiều nhiễu hoặc khuyết nhiều giá trị
 Khả năng mở rộng (Scalability)
 Khả năng xây dựng được bộ phân lớp với số lượng rất lớn dữ liệu
 Khả năng lý giải được (Interpretability) 74
 Khả năng hiểu được nguyên lý hoạt động của bộ phân lớp
LỚP
Accuracy-based measures Formula Note
TP + TN percentage of test set tuples
Accuracy, recognition rate that are correctly classified
P+N
Error rate, misclassification FP + FN 1 – accuracy
rate P+N
Sensitivity, true positive rate, TP True Positive recognition
recall TP + FN rate
TN True Negative recognition

Specificity, true negative rate rate
N
exactness – what % of
TP tuples that the classifier
Precision
TP + FP labeled as positive are
actually positive
2 * precision * recall harmonic mean of precision
F-measure, F1-score, F-score and recall
precision + recall 75
(1 + β ) * precision * recall
2
weighted measure of
Fβ-measure precision and recall
β
2
Dr. Tran Minh Quang – * precision + recall
quangtran@hcmut.edu.vn
LỚP
Confusion Matrix:
Actual class\Predicted class C1 ¬ C1
C1 True Positives (TP) False Negatives (FN)
¬ C1 False Positives (FP) True Negatives (TN)
 Given m classes, an entry, CMi,j in a confusion matrix

indicates # of tuples in class i that were labeled by the
classifier as class j
 P = TP + FN
 N = FP + TN 76
 ALL = P + N
LỚP
 Đánh giá tính đúng đắn (accuracy) của bộ phân lớp
 Holdout method: Chia tập dữ liệu đã cho (D) làm 2 tập
riêng biệt một các ngẫu nhiên:
 Training set: (e.g., 2/3) để xây dựng mô hình
 Test set (e.g., 1/3): để kiểm tra mô hình
 Cross validation
 Chia D làm k (k=10) phần riêng biệt có kích thước tương
đương nhau
 Ở vòng lặp thứ i, sử dụng Di làm tập kiểm tra và các
phần còn lại là tập huấn luyện
77
 Các chỉ số đo đạt tính đúng đắn của bộ phân lớp là sự
tổng hợp (trung bình) của các lần thử
7. TÓM TẮT
 Classification với Decision trees: ID3, C4.5, CART
 Classification với mạng Bayesian
 Dựa trên lý thuyết xác suất thống kê
 Classification với mạng Neural
 K-nn classification
 Dựa trên khoảng cách
 Đánh giá và chọn mô hình phân lớp
 Tiêu chí, độ đo, và phương pháp ước lượng 78

Q&A
quangtran@hcmut.edu.vn
79
2015/10/5

DM C4 Classification PDF

Uploaded by

Copyright:

Available Formats

You might also like

DM C4 Classification PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

DM C4 Classification PDF

Uploaded by

Copyright:

Available Formats

Khoa Khoa Học & Kỹ Thuật Máy Tính

Trường Đại Học Bách Khoa Tp. Hồ Chí Minh

TRAN MINH QUANG

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

•Cho trước tập huấn luyện (training set), dẫn ra mô tả về class A và B

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

(classifier) bằng việc phân tích (học) tập huấn luyện

Bước phân loại (đánh giá và áp dụng)

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

 Nếu hθ(X)≥0.5 thì dự đoán: “Y=1” ngược lại “Y=0”

= > Phân loại (Classification)

 Phân loại với lý thuyết tập mờ (fuzzy sets) …

 Sigmoid function g(z)

hay Logistic function

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

• g(z) ≥ 0.5 khi z ≥ 0

• dự đoán y= 1 khi hθ(X) ≥ 0.5 hay θTX ≥ 0

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

• Dự đoán “ y= 1” nếu θTX ≥ 0

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

 Trong hồi qui phi tuyến

Để đơn giản hóa ta ghi

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

If y = 1 • Cost = 0 nếu y=1, hθ(x)=1

cos t (hθ ( x), y ) ⇒Khi hθ(x)=0 có nghĩa là ta dự

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

If y = 0 • Cost = 0 nếu y=0, hθ(x)=0

cos t (hθ ( x), y ) ⇒Khi hθ(x)=1 có nghĩa là ta dự

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

 Thực hiện tìm minθJ(θ) ta sẽ tìm được bộ thông số θ (giải

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

h(i)θ(x)= P(y= 1| x; θ) với (i= 1,2,..k), k là số lớp

h(i)θ(x)= P(y= 1| x; θ) với (i= 1,2,..k), k là số lớp

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

Cơ sở dữ liệu khách hàng AllElectronics dùng cho bước học

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

 Heuristic để chọn tiêu chí rẽ nhánh tại một node, i.e.

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

A là thuộc tính phân tách (splitting attribute).

• Splitting attribute đảm bảo sự trùng lắp (impurity) /

phân loại một phần tử

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

• pi: xác suất để một phần tử bất kỳ trong D thuộc về

• Ci,D: tập các phần tử của lớp Ci trong D

{D1, D2, …, Dj, …, Dv}

các phân hoạch, nghĩa là một phân hoạch chứa các

 Information gain chính là độ sai biệt giữa trị thông tin

Gain( A) = Info( D) − Info A ( D)

GainRatio(income) = 0.029/0.926 = 0.031

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

Giniincome∈{low,high} = Giniincome∈{medium} = 0.315

Dr. Tran Minh Quang – quangtran@hcmut.edu.vn

• Giả định: độc lập có điều kiện