Professional Documents
Culture Documents
ML 93 1 Chap7 Clustering&EM
ML 93 1 Chap7 Clustering&EM
ML 93 1 Chap7 Clustering&EM
Expectation–maximization algorithm
ﻳﺎدﮔﻴﺮي ﻣﺎﺷﻴﻦ
)(13-11-805-01
ﻓﺼﻞ ﻫﻔﺘﻢ
ﺩﺍﻧﺸﮕﺎﻩ ﺷﻬﻴﺪ ﺑﻬﺸﺘﯽ
ﺩﺍﻧﺸﮑﺪﻩﯼ ﻣﻬﻨﺪﺳﯽ ﺑﺮﻕ ﻭ ﮐﺎﻣﭙﻴﻮﺗﺮ
ﭘﺎﻳﻴﺰ ۱۳۹۳
ﺍﺣﻤﺪ ﻣﺤﻤﻮﺩﯼ ﺍﺯﻧﺎﻭﻩ
http://faculties.sbu.ac.ir/~a_mahmoudi/
ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ
• ﺗﺮﻛﻴﺐ ﭼﻨﺪ ﺗﻮزﻳﻊ
• K‐means
• اﻟﮕﻮرﻳﺘﻢ اﻣﻴﺪ رﻳﺎﺿﻲ– ﺑﻴﺸﻴﻨﻪ ﻛﺮدن
2
ﺷﺒﮑﻪ ﻋﺼﺒﯽ
Semiparametric Density Estimation
3
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
Mixture Densities
component densities mixture proportions
k
) p(x ) = ∑ p(x |Gi )P (Gi
i =1
components/groups/clusters
P (C ) =
ˆ ∑ r
m =
∑
t i
rxt
t i
t t Labels rti ?
∑r
i i t
N t i
∑ r (x − m )(x − m )
T
t t t
Clustering
= t i i i
Si
∑r t i
t
5
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
k-Means Clustering
6
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
k-Means Clustering
7
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ Encoding/Decoding
k-Means Clustering
8
در ﺻﻮرﺗﻲ ﻛﻪ ﺑﺨﺶﺑﻨﺪي دادهﻫﺎ ﺗﻐﻴﻴﺮ ﻧﻜﻨﺪ ،اﻟﮕﻮرﻳﺘﻢ ﺑﻪ ﭘﺎﻳﺎن رﺳﻴﺪه اﺳﺖ.
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
ﻣﺸﻜﻼت k‐means
• اﻳﻦ ﻓﺮآﻳﻨﺪ ،ﺟﺴﺘﺠﻮي ﻣﺤﻠﻲ اﺳﺖ و ﭘﺎﺳﺦ ﻧﻬﺎﻳﻲ
واﺑﺴﺘﻪ ﺑﻪ ﻣﻘﺪار اوﻟﻴﻪي ﺑﺮدارﻫﺎي ﻣﺮﺟﻊ اﺳﺖ.
• ﻧﺴﺒﺖ ﺑﻪ دادهﻫﺎ ﭘﺮت ﻣﻘﺎوم ﻧﻴﺴﺖ.
• ﻣﻘﺪار kﺑﺎﻳﺪ از ﻗﺒﻞ ﻣﺸﺨﺺ ﺷﻮد.
9
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
ﻣﻘﺪار اوﻟﻴﻪي ﺑﺮدارﻫﺎي ﻣﺮﺟﻊ
• اﻧﺘﺨﺎب ﺗﺼﺎدﻓﻲ ﻫﻤﻪي ﺑﺮدارﻫﺎي ﻣﺮﺟﻊ
• ﻣﺤﺎﺳﺒﻪي ﻣﻘﺪار ﻣﻴﺎﻧﮕﻴﻦ ﻫﻤﻪ ﻧﻤﻮﻧﻪﻫﺎ و اﻧﺘﺴﺎب
آن ﺑﻪ ﺑﺮدارﻫﺎي ﻣﺮﺟﻊ ﭘﺲ از اﻓﺰودن ﻣﻘﺪاري
ﺗﺼﺎدﻓﻲ
• ﻣﺤﺎﺳﺒﻪي اوﻟﻴﻦ ﻣﺆﻟﻔﻪي اﺳﺎﺳﻲ و ﺗﻘﺴﻴﻢ آن ﺑﻪ
kﻗﺴﻤﺖ ﻣﺴﺎوي و اﻧﺘﺴﺎب ﻣﻘﺪار ﻣﻴﺎﻧﮕﻴﻦ ﻫﺮ
ﻗﺴﻤﺖ ﺑﻪ ﻫﺮ ﺑﺮدار ﻣﺮﺟﻊ
10
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
k-Means Clustering
11
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
ﻣﺜﺎل
5
4
k1
k2
2
k3
0
0 1 2 3 4 5
12
ﺯﺑﺎﻥ ﻣﺎﺷﻴﻦ BIO5488 lecture, 2004
)اداﻣﻪ(... ﻣﺜﺎل
5
4
k1
3
k2
2
1
k3
0
0 1 2 3 4 5
13
ﺯﺑﺎﻥ ﻣﺎﺷﻴﻦ BIO5488 lecture, 2004
ﻣﺜﺎل )اداﻣﻪ(...
5
4
k1
3
2
k3
k2
1
0
0 1 2 3 4 5
14
ﺯﺑﺎﻥ ﻣﺎﺷﻴﻦ BIO5488 lecture, 2004
ﻣﺜﺎل )اداﻣﻪ(...
5
4
k1
3
2
k3
k2
1
0
0 1 2 3 4 5
15
ﺯﺑﺎﻥ ﻣﺎﺷﻴﻦ BIO5488 lecture, 2004
ﻣﺜﺎل )اداﻣﻪ(...
5
4
k1
3
2
k2
k3
1
0
0 1 2 3 4 5
16
ﺯﺑﺎﻥ ﻣﺎﺷﻴﻦ BIO5488 lecture, 2004
Bishop, PRML ﻛﺎرﺑﺮدﻫﺎي k‐means
19
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
)Expectation-Maximization (EM
t
i =1
20
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
)Expectation-Maximization (EM
( [ )
E - step : Q Φ | Φ l = E LC (Φ | X, Z ) | X, Φ l ]
(
M - step : Φ l +1 = arg max Q Φ | Φ l
Φ
)
• ﺛﺎﺑﺖ ﺷﺪه اﺳﺖ ﺑﺎ اﻳﻦ ﺷﻴﻮه در ﻫﺮ ﺗﻜﺮار درﺳﺖﻧﻤﺎﻳﻲ
اﻓﺰاﻳﺶ ﻣﻲﻳﺎﺑﺪ.
) L (Φ l +1 | X ) ≥ L (Φ l | X
22
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
EM in Gaussian Mixtures
= ) P(Ci
∑t i
r t
= mi
∑t i x
r t t
∑t i
r t
(
x t
− m l +1
()
x t
− m l +1
)
T
= Si
i i
∑j p x t
| G j , Φ l
P(Gi ) = π i
( ) (
pi x t = p x t | Gi )
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
( ) [
Q Φ | Φ l = E LC (Φ | X, Z ) | X, Φ l ] 25
EM in Gaussian Mixtures (cnt’d…)
(
M - step : Φ l +1 = arg max Q Φ | Φ l
Φ
)
[ ] ( )
E zit | x t , Φ l = P zit = 1 | x t , Φ l = hit
26
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
EM in Gaussian Mixtures (cnt’d…)
M - step : Φ l +1 = arg max Q Φ | Φ l
Φ
( )
در اﻳﻦ ﻣﺮﺣﻠﻪ ﺑﺮ اﺳﺎس ﭘﺎرﻣﺘﺮﻫﺎي:E • در ﮔﺎم
ام(؛ ﭘﺎراﻣﺘﺮﻫﺎ ﺑﻪ ﮔﻮﻧﻪاي اﻧﺘﺨﺎب-l ﻓﻌﻠﻲ)ﺗﻜﺮار
: ﻣﺎﻛﺰﻳﻤﻢ ﺷﻮدQ ﻣﻲﺷﻮﻧﺪ ﻛﻪ
P(Gi ) = π i , ∑ π i = 1
P(C ) =
∑ r t i
t
=
∑ rx
t i
t t
∑t h
mi
t
∑r
i t
N
P(Gi ) =
i t i
N ( )(
∑t rit xt − m li +1 xt − m li +1 )
T
Si =
∑r t i
t
Soft label
∑t i x
h t t
∑t i
h t
x(t
− m l +1
x t
−)(
m l +1
)
T
m li +1 = S li +1 =
i i
27
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ ∑h t i
t
∑h t i
t
ﻣﺜﺎل
P(G1|x)=h1=0.5
28
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
ﻣﺜﺎل
29
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ ﺑﺮ ﮔﺮﻓﺘﻪ از وﻳﻜﻲﭘﺪﻳﺎ
ﺟﻤﻊﺑﻨﺪي
initialize Φ 0• ﭘﺎراﻣﺘﺮﻫﺎي اوﻟﻴﻪ ﻣﻘﺪاردﻫﻲ ﻣﻲﺷﻮد:
• ﺗﺎ زﻣﺎﻧﻲ رﺳﻴﺪن ﺑﻪ ﻫﻤﮕﺮاﻳﻲ ﺗﻜﺮار ﻛﻦ:
را ﺗﻘﺮﻳﺐ ﺑﺰن ( )
– ﮔﺎم P Z | X , Φ l :E
– ﮔﺎم Φ l +1 = arg max Q (Φ | Φ l ) :M
Φ
30
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
)Expectation-Maximization (EM
32
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
اﻧﺘﺨﺎب ﻣﺪل )اداﻣﻪ(...
33
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
ﺧﻮﺷﻪﺑﻨﺪي ﺑﺮاي اﺳﺘﺨﺮاج داﻧﺶ
• ﻣﺎﻧﻨﺪ ﻛﺎﻫﺶ اﺑﻌﺎد ﺑﺮاي ﺧﻮﺷﻪﺑﻨﺪي ﻧﻴﺰ ﻣﻲﺗﻮان دو
ﻫﺪف ﻣﺘﻔﺎوت در ﻧﻈﺮ ﮔﺮﻓﺖ:
• »اﺳﺘﺨﺮاج داﻧﺶ« :ﺑﺮاي ﻓﻬﻢ ﺑﻬﺘﺮ ﺳﺎﺧﺘﺎر دادهﻫﺎ ﻣﻮرد
اﺳﺘﻔﺎده ﻗﺮار ﻣﻲﮔﻴﺮد.
– ﻛﺎﻫﺶ اﺑﻌﺎد ﻫﻤﺒﺴﺘﮕﻲ ﺑﻴﻦ ﺧﺼﻴﺼﻪﻫﺎ را ﻣﻲﻳﺎﺑﺪ.
– ﺧﻮﺷﻪﺑﻨﺪي ﺷﺒﺎﻫﺖ ﺑﻴﻦ ﻧﻤﻮﻧﻪﻫﺎي داده را ﻣﺸﺨﺺ ﻣﻲﻛﻨﺪ.
• ﭘﺲ از ﺧﻮﺷﻪﺑﻨﺪي اﺳﺘﺨﺮاج داﻧﺶ ﺗﻮﺳﻂ ﻣﺘﺨﺼﺺ
ﻗﺎﺑﻞ اﻧﺠﺎم اﺳﺖ ،ﻫﻤﭽﻨﻴﻦ ﭘﺎراﻣﺘﺮﻫﺎي ﺧﻮﺷﻪﺑﻨﺪي
ﻧﻈﻴﺮ ﻣﻴﺎﻧﮕﻴﻦ ﺧﻮﺷﻪﻫﺎ و ﺗﻌﺪاد آن ﻫﻢ ﻗﺎﺑﻞ اﺳﺘﻔﺎده
ﻣﻲﺑﺎﺷﺪ.
– از ﻛﺎﺑﺮدﻫﺎي ﻣﻲﺗﻮان ﺑﻪ CRMاﺷﺎره ﻛﺮد.
34
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
ﺧﻮﺷﻪﺑﻨﺪي ﺑﻪ ﻋﻨﻮان ﭘﻴﺶﭘﺮدازش
• ﻫﻤﺎنﮔﻮﻧﻪ ﻛﻪ در ﻛﺎﻫﺶ اﺑﻌﺎد ،ﻓﻀﺎي ﺟﺪﻳﺪ ﺑﺮاي ﻓﺮآﻳﻨﺪﻫﺎي ﺑﻌﺪي
)دﺳﺘﻪﺑﻨﺪي ،رﮔﺮﺳﻴﻮن( ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﻲﮔﻴﺮد ،ﺧﻮﺷﻪﺑﻨﺪي ﻧﻴﺰ
دادهﻫﺎ را ﺑﻪ ﻳﻚ ﻓﻀﺎي -kﺑﻌﺪي ﻧﮕﺎﺷﺖ ﻣﻲﻛﻨﺪ .اﺑﻌﺎد ﻓﻀﺎي ﺟﺪﻳﺪ
ﺷﺎﻣﻞ ﺑﺮﭼﺴﺐﻫﺎي ﺑﻪ دﺳﺖ آﻣﺪه اﺳﺖ ) hﻳﺎ ،(bﺑﺪﻳﻦﺗﺮﻳﺐ
ﻣﻤﻜﻦ ﺑﺎ اﻓﺰاﻳﺶ اﺑﻌﺎد ﻫﻢ ﻣﻮاﺟﻪ ﺷﻮﻳﻢ.
• در ﻛﺎﻫﺶ اﺑﻌﺎد ﻫﻤﻪي داده در ﻓﺮآﻳﻨﺪ ﻣﺸﺎرﻛﺖ دارﻧﺪ ،در ﺣﺎﻟﻲ ﻛﻪ در
ﺧﻮﺷﻪﺑﻨﺪي ﻣﺸﺎرﻛﺖ ﺑﻪ ﺻﻮرت ﻣﺤﻠﻲ ﺻﻮرت ﻣﻲﭘﺬﻳﺮد.
• در ﺻﻮرت اﺳﺘﻔﺎده از ﭼﻨﻴﻦ ﭘﻴﺶﭘﺮدازشﻫﺎﻳﻲ ﻣﻲﺗﻮان از ﻳﻚ
ﻣﺠﻤﻮﻋﻪ دادهﻫﺎي ﺑﺪونﺑﺮﭼﺴﺐ در ﻓﺮآﻳﻨﺪ آﻣﻮزش ﺑﻬﺮه ﺑﺮد.
j =1
Mixture of Mixtures K
) p(x ) = ∑ p(x |Ci )P (Ci
35
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ i =1
Hierarchical Clustering
ﺧﻮﺷﻪﺑﻨﺪي ﺳﻠﺴﻠﻪﻣﺮاﺗﺒﻲ
• در k‐meansﻫﺪف ﻣﻴﻨﻴﻤﻢ ﻛﺮدن ﺧﻄﺎي ﺑﺎزﺳﺎزي
اﺳﺖ.
• در ﺧﻮﺷﻪﺑﻨﺪي ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﻲ ،ﺗﻨﻬﺎ ﺷﺒﺎﻫﺖ ﺑﻴﻦ
ﻧﻤﻮﻧﻪﻫﺎ در ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﻣﻲﺷﻮد.
• اﻓﺰون ﺑﺮ ﻓﺎﺻﻠﻪي اﻗﻠﻴﺪﺳﻲ ﻣﻌﻴﺎرﻫﺎي دﻳﮕﺮي ﻧﻴﺰ در
ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﻣﻲﺷﻮﻧﺪ:
∑[ ])
Minkowski
= ) dm (x , x (x
1/ p
d s p
r s
j =1
r
j −x j
City-block distance
dcb (x , x ) = ∑ j =1 x rj − x sj
r s d
36
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
Agglomerative Clustering
37
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
Agglomerative Clustering
Dendrogram
Divisive Clustering
در اﻳﻦ ﺷﻴﻮه ﺑﻪ ﺻﻮرت ﻋﻜﺲ ﻋﻤﻞ ﻣﻲﺷﻮد؛ از ﻳﻚ ﺧﻮﺷﻪ ﻛﺎر آﻏﺎز
ﺷﺪه و ﺧﻮﺷﻪﻫﺎ در ﻫﺮ ﺗﻜﺮار ﺑﻪ ﺧﻮﺷﻪﻫﺎي ﻛﻮﭼﻚﺗﺮ ﺗﻘﺴﻴﻢ ﻣﻲﺷﻮﻧﺪ ﺗﺎ
زﻣﺎﻧﻲ ﻛﻪ ﻫﺮ ﺧﻮﺷﻪ ﺷﺎﻣﻞ ﻳﻚ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ. 38
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ
single-link clustering ﻣﻘﺎﻳﺴﻪي ﻣﻌﻴﺎرﻫﺎي ﻓﺎﺻﻠﻪ
39
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ CAS CS 565, Data Mining, Boston Uinversity
complete-link clustering
ﻣﻘﺎﻳﺴﻪي ﻣﻌﻴﺎرﻫﺎي ﻓﺎﺻﻠﻪ
41
ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ