ML 93 1 Chap7 Clustering&EM

‫‪Machine Learning‬‬
‫‪Expectation–maximization algorithm‬‬
‫ﻳﺎدﮔﻴﺮي ﻣﺎﺷﻴﻦ‬
‫)‪(13-11-805-01‬‬
‫ﻓﺼﻞ ﻫﻔﺘﻢ‬
‫ﺩﺍﻧﺸﮕﺎﻩ ﺷﻬﻴﺪ ﺑﻬﺸﺘﯽ‬
‫ﺩﺍﻧﺸﮑﺪﻩﯼ ﻣﻬﻨﺪﺳﯽ ﺑﺮﻕ ﻭ ﮐﺎﻣﭙﻴﻮﺗﺮ‬
‫ﭘﺎﻳﻴﺰ ‪۱۳۹۳‬‬
‫ﺍﺣﻤﺪ ﻣﺤﻤﻮﺩﯼ ﺍﺯﻧﺎﻭﻩ‬
‫‪http://faculties.sbu.ac.ir/~a_mahmoudi/‬‬
‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬
‫• ﺗﺮﻛﻴﺐ ﭼﻨﺪ ﺗﻮزﻳﻊ‬
‫• ‪K‐means‬‬
‫• اﻟﮕﻮرﻳﺘﻢ اﻣﻴﺪ رﻳﺎﺿﻲ–‪ ‬ﺑﻴﺸﻴﻨﻪ ﻛﺮدن‬
‫‪2‬‬
‫ﺷﺒﮑﻪ ﻋﺼﺒﯽ‬
‫‪Semiparametric Density Estimation‬‬
‫• »روشﻫﺎي ﭘﺎراﻣﺘﺮي«‪ :‬دادهﻫﺎ از ﻳﻚ ﺗﻮزﻳﻊ ﺗﺼﺎدﻓﻲ اﺳﺘﺨﺮاج‬

‫ﺷﺪهاﻧﺪ) ﻣﺎﻧﻨﺪ )‪.(p (x | Ci‬‬
‫– ﻣﺰﻳﺖ اﻳﻦ دﺳﺘﻪ از روشﻫﺎ اﻳﻦ اﺳﺖ ﻛﻪ ﻛﻪ ﺗﻨﻬﺎ ﻳﺎﻓﺘﻦ‬
‫ﭘﺎراﻣﺘﺮﻫﺎي ﻣﺪل ﻛﻔﺎﻳﺖ ﻣﻲﻛﻨﺪ‪.‬‬
‫– اﺳﺘﻔﺎده از روشﻫﺎي ﭘﺎراﻣﺘﺮي‪ ،‬ﻣﻲﺗﻮاﻧﺪ ﺑﺎﻋﺚ اﻳﺠﺎد ﺑﺎﻳﺎس‬
‫ﺷﻮد‪.‬‬
‫– در ﺑﺮﺧﻲ ﻛﺎرﺑﺮدﻫﺎ‪ ،‬دادهﻫﺎي ﻳﻚ دﺳﺘﻪ داراي ﻳﻚ ﺗﻮزﻳﻊ ﻳﻜﺴﺎن‬
‫ﻧﻴﺴﺘﻨﺪ‪ ،‬ﻣﺎﻧﻨﺪ دﺳﺘﻨﻮﺷﺘﻪﻫﺎي ﻣﺨﺘﻠﻒ ﻳﺎ ﺗﻠﻔﻆﻫﺎي ﻣﺨﺘﻠﻒ‬
‫• »روشﻫﺎي ﻧﻴﻤﻪﭘﺎراﻣﺘﺮي«‪ :‬در اﻳﻦ ﺣﺎﻟﺖ ﺑﺮاي ﻫﺮ دﺳﺘﻪ‪،‬‬
‫ﺧﻮﺷﻪﻫﺎ)ﮔﺮوهﻫﺎ(ي ﻣﺨﺘﻠﻔﻲ در ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﻣﻲﺷﻮد ﻛﻪ ﻫﺮ‬
‫ﻛﺪام از ﻳﻚ ﺗﻮزﻳﻊ ﭘﻴﺮوي ﻣﻲﻛﻨﻨﺪ‪.‬‬
‫• »روشﻫﺎي ﻧﺎﭘﺎراﻣﺘﺮي«‪ :‬ﻫﻴﭻﮔﻮﻧﻪ ﻣﺪﻟﻲ در ﻧﻈﺮ ﮔﺮﻓﺘﻪ‬
‫ﻧﻤﻲﺷﻮد‪ ،‬دادهﻫﺎ ﺧﻮد را ﺗﻮﺻﻴﻒ ﻣﻲﻛﻨﻨﺪ‪.‬‬
‫‪3‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫‪Mixture Densities‬‬
‫‪component densities‬‬ ‫‪mixture proportions‬‬
‫‪k‬‬
‫) ‪p(x ) = ∑ p(x |Gi )P (Gi‬‬
‫‪i =1‬‬
‫‪components/groups/clusters‬‬
‫در ﺻﻮرﺗﻲ ﻛﻪ ﺧﻮﺷﻪﻫﺎ داراي ﺗﻮزﻳﻊ ﮔﺎوﺳﻲ ﺑﺎﺷﻨﺪ‪:‬‬

‫) ‪p(x|Gi) ~ N ( μi , ∑i‬‬
‫ﺑﺎ در اﺧﺘﻴﺎر داﺷﺘﻦ ﻣﺠﻤﻮﻋﻪي آﻣﻮزﺷﻲ ‪ ،X={xt}t‬ﭘﺎراﻣﺘﺮﻫﺎي‬

‫ﻛﻪ در ﻃﻲ ﻓﺮآﻳﻨﺪ آﻣﻮزش ﺗﺨﻤﻴﻦ زده ﻣﻲﺷﻮﻧﺪ‪:‬‬
‫‪Φ = {P ( Gi ), μi , ∑i }ki=1‬‬
«‫ﻣﻔﻬﻮم »دﺳﺘﻪ« در ﻣﻘﺎﻳﺴﻪ ﺑﺎ »ﺧﻮﺷﻪ‬
Classes vs. Clusters
Classfiction
• Supervised: X = {xt,rt }t • Unsupervised: X = { xt }t
• Classes Ci i=1,...,K • Clusters Gi i=1,...,k
k
p(x ) = ∑ p(x |Gi )P (Gi )
K
p(x ) = ∑ p(x |Ci )P (Ci )
i =1 i =1
where p(x|Ci) ~ N(μi ,∑i ) where p(x|Gi) ~ N ( μi , ∑i )

• Φ = {P (Ci ), μi , ∑i }Ki=1 • Φ = {P ( Gi ), μi , ∑i }ki=1
P (C ) =
ˆ ∑ r
m =
∑
t i
rxt
t i
t t Labels rti ?
∑r
i i t
N t i
∑ r (x − m )(x − m )
T
t t t
Clustering
= t i i i
Si
∑r t i
t
5
‫‪k-Means Clustering‬‬
‫• ﻫﺪف ﻳﺎﻓﺘﻦ ﮔﺮوهﻫﺎي ﻣﺸﺎﺑﻪ از ﺑﻴﻦ دادهﻫﺎي ﺑﺮﭼﺴﺐﻧﺨﻮرده‬

‫اﺳﺖ‪.‬‬
‫– ﻳﺎﻓﺘﻦ ‪» k‬ﺑﺮدار ﻣﺮﺟﻊ« )‪ (reference vector‬اﺳﺖ ﻛﻪ ﺑﻪ ﺑﻬﺘﺮﻳﻦ‬
‫ﻧﺤﻮ دادهﻫﺎ را ﻧﻤﺎﻳﺶ دﻫﻨﺪ‪.‬‬
‫‪prototypes /codebook vectors /codewords‬‬
‫‪Reference vectors, mj, j =1,...,k‬‬
‫• ﺑﻌﺪ از ﻣﺸﺨﺺ ﺷﺪن ﺑﺮدارﻫﺎي ﻣﺮﺟﻊ‪ ،‬ﻧﻤﻮﻧﻪﻫﺎي در ﺧﻮﺷﻪي‬
‫ﻧﺰدﻳﻚﺗﺮﻳﻦ ﺑﺮدار ﻣﺮﺟﻊ ﻗﺮار ﻣﻲﮔﻴﺮﻧﺪ‪:‬‬
‫‪x − m i = min x − m j‬‬
‫‪t‬‬ ‫‪t‬‬
‫‪j‬‬
‫• ﺑﺪﻳﻦﺗﺮﻳﻦ ﻣﻲﺗﻮان ﺑﻪ ﺟﺎي دادهﻫﺎي از ﺑﺮدار ﻣﺮﺟﻊ ﻣﺘﻨﺎﻇﺮ آن‬

‫اﺳﺘﻔﺎده ﻛﺮد‪.‬‬
‫‪6‬‬
k-Means Clustering
‫• در اﻳﻦ ﺻﻮرت »ﺧﻄﺎي ﺑﺎزﺳﺎزي« ﺑﻪ ﺻﻮرت زﻳﺮ‬

:‫ﻣﺤﺎﺳﺒﻪ ﻣﻲﺷﻮد‬
( )
E {m i }i =1 X = ∑t ∑i bit x t − m i
k
Reconstruction error
⎧
⎪ 1 if x t
− m = min x t
−mj
bi = ⎨
t i
j
⎪⎩0 otherwise
7
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬ Encoding/Decoding
‫‪k-Means Clustering‬‬
‫• ﺑﻬﺘﺮﻳﻦ ﺑﺮدارﻫﺎي ﻣﺮﺟﻊ‪ ،‬ﻣﻮﺟﺐ ﻣﻲﺷﻮﻧﺪ ﺗﺎ ﺧﻄﺎي‬

‫ﺑﺎزﺳﺎزي ﻣﻴﻨﻴﻤﻢ ﺷﻮد‪.‬‬
‫‪E ({m i }i =1 X ) = ∑t ∑i bit x t − m i‬‬
‫‪k‬‬
‫• اﻳﻦ راﺑﻄﻪ اﻓﺰون ﺑﺮ ‪ mi‬ﺑﻪ ﺑﺮﭼﺴﺐﻫﺎ ‪ bit‬ﻫﻢ‬

‫ﺑﺴﺘﮕﻲ دارد‪ ،‬از اﻳﻦ رو ﻧﻤﻲﺗﻮان ﺑﺮاي آن راه ﺣﻞ‬
‫ﺗﺤﻠﻴﻠﻲ ﻳﺎﻓﺖ‪.‬‬
‫‪8‬‬
‫در ﺻﻮرﺗﻲ ﻛﻪ ﺑﺨﺶﺑﻨﺪي دادهﻫﺎ ﺗﻐﻴﻴﺮ ﻧﻜﻨﺪ‪ ،‬اﻟﮕﻮرﻳﺘﻢ ﺑﻪ ﭘﺎﻳﺎن رﺳﻴﺪه اﺳﺖ‪.‬‬
‫ﻣﺸﻜﻼت ‪k‐means‬‬
‫• اﻳﻦ ﻓﺮآﻳﻨﺪ‪ ،‬ﺟﺴﺘﺠﻮي ﻣﺤﻠﻲ اﺳﺖ و ﭘﺎﺳﺦ ﻧﻬﺎﻳﻲ‬
‫واﺑﺴﺘﻪ ﺑﻪ ﻣﻘﺪار اوﻟﻴﻪي ﺑﺮدارﻫﺎي ﻣﺮﺟﻊ اﺳﺖ‪.‬‬
‫• ﻧﺴﺒﺖ ﺑﻪ دادهﻫﺎ ﭘﺮت ﻣﻘﺎوم ﻧﻴﺴﺖ‪.‬‬
‫• ﻣﻘﺪار ‪ k‬ﺑﺎﻳﺪ از ﻗﺒﻞ ﻣﺸﺨﺺ ﺷﻮد‪.‬‬
‫‪9‬‬
‫ﻣﻘﺪار اوﻟﻴﻪي ﺑﺮدارﻫﺎي ﻣﺮﺟﻊ‬
‫• اﻧﺘﺨﺎب ﺗﺼﺎدﻓﻲ ﻫﻤﻪي ﺑﺮدارﻫﺎي ﻣﺮﺟﻊ‬
‫• ﻣﺤﺎﺳﺒﻪي ﻣﻘﺪار ﻣﻴﺎﻧﮕﻴﻦ ﻫﻤﻪ ﻧﻤﻮﻧﻪﻫﺎ و اﻧﺘﺴﺎب‬
‫آن ﺑﻪ ﺑﺮدارﻫﺎي ﻣﺮﺟﻊ ﭘﺲ از اﻓﺰودن ﻣﻘﺪاري‬
‫ﺗﺼﺎدﻓﻲ‬
‫• ﻣﺤﺎﺳﺒﻪي اوﻟﻴﻦ ﻣﺆﻟﻔﻪي اﺳﺎﺳﻲ و ﺗﻘﺴﻴﻢ آن ﺑﻪ‬
‫‪ k‬ﻗﺴﻤﺖ ﻣﺴﺎوي و اﻧﺘﺴﺎب ﻣﻘﺪار ﻣﻴﺎﻧﮕﻴﻦ ﻫﺮ‬
‫ﻗﺴﻤﺖ ﺑﻪ ﻫﺮ ﺑﺮدار ﻣﺮﺟﻊ‬
‫‪10‬‬
k-Means Clustering
11
‫ﻣﺜﺎل‬
5
4
k1
k2
2
k3
0
0 1 2 3 4 5
12
‫ﺯﺑﺎﻥ ﻣﺎﺷﻴﻦ‬ BIO5488 lecture, 2004
‫)اداﻣﻪ‪(...‬‬ ‫ﻣﺜﺎل‬
‫‪5‬‬
‫‪4‬‬
‫‪k1‬‬
‫‪3‬‬
‫‪k2‬‬
‫‪2‬‬
‫‪1‬‬
‫‪k3‬‬
‫‪0‬‬
‫‪0‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪3‬‬ ‫‪4‬‬ ‫‪5‬‬
‫‪13‬‬
‫ﺯﺑﺎﻥ ﻣﺎﺷﻴﻦ‬ ‫‪BIO5488 lecture, 2004‬‬
‫ﻣﺜﺎل )اداﻣﻪ‪(...‬‬
‫‪5‬‬
‫‪4‬‬
‫‪k1‬‬
‫‪3‬‬
‫‪2‬‬
‫‪k3‬‬
‫‪k2‬‬
‫‪1‬‬
‫‪0‬‬
‫‪0‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪3‬‬ ‫‪4‬‬ ‫‪5‬‬
‫‪14‬‬
‫‪5‬‬
‫‪4‬‬
‫‪k1‬‬
‫‪3‬‬
‫‪2‬‬
‫‪k3‬‬
‫‪k2‬‬
‫‪1‬‬
‫‪0‬‬
‫‪0‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪3‬‬ ‫‪4‬‬ ‫‪5‬‬
‫‪15‬‬
‫‪5‬‬
‫‪4‬‬
‫‪k1‬‬
‫‪3‬‬
‫‪2‬‬
‫‪k2‬‬
‫‪k3‬‬
‫‪1‬‬
‫‪0‬‬
‫‪0‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪3‬‬ ‫‪4‬‬ ‫‪5‬‬
‫‪16‬‬
‫‪Bishop, PRML‬‬ ‫ﻛﺎرﺑﺮدﻫﺎي ‪k‐means‬‬
‫•از ﻛﺎرﺑﺮدﻫﺎي دﻳﮕﺮ‪ ،‬دﺳﺘﻪﺑﻨﺪي ﻣﺸﺘﺮﻳﺎن‪ ،‬ﻛﺸﻒ دادهﻫﺎي‬

‫ﭘﺮت‪ ،‬ﻛﺸﻒ ﻧﻤﻮﻧﻪﻫﺎي ﻏﻴﺮﻋﺎدي را ﻣﻲﺗﻮان ﻧﺎم ﺑﺮد‪.‬‬
‫‪18‬‬
‫‪Leader cluster algorithm‬‬
‫• در اﻳﻦ ﺷﻴﻮه در ﺻﻮرﺗﻲ ﻛﻪ ﻳﻚ ﻧﻤﻮﻧﻪ از ﺑﺮدارﻫﺎي‬

‫ﻣﺮﺟﻊ از ﻳﻚ ﺣﺪآﺳﺘﺎﻧﻪ دورﺗﺮ ﺑﺎﺷﺪ‪ ،‬ﻳﻚ ﺑﺮدار ﻣﺮﺟﻊ‬
‫ﺑﺮاﺑﺮ ﺑﺎ ﻧﻤﻮﻧﻪي ﻣﺬﻛﻮر اﻳﺠﺎد ﻣﻲﺷﻮد‪.‬‬
‫• در ﺻﻮرﺗﻲ ﻛﻪ ﻧﺎﺣﻴﻪي ﻣﺮﺑﻮط ﺑﻪ ﻳﻚ ﺑﺮدار ﻣﺮﺟﻊ‬
‫ﺷﺎﻣﻞ ﺗﻌﺪاد زﻳﺎدي ﻧﻤﻮﻧﻪ ﺑﺎﺷﻨﺪ‪ ،‬در آن ﻧﺎﺣﻴﻪ‬
‫ﻧﻤﻮﻧﻪي ﺟﺪﻳﺪي اﻳﺠﺎد ﻣﻲﺷﻮد‪.‬‬
‫• ﺑﻪ ﻃﺮﻳﻖ ﻣﺸﺎﺑﻪ‪ ،‬در ﺻﻮرﺗﻲ ﻛﻪ ﻧﺎﺣﻴﻪ ﻣﺮﺑﻮط ﺑﻪ ﻳﻚ‬
‫ﺑﺮدار ﻣﺮﺟﻊ‪ ،‬ﺷﺎﻣﻞ ﺗﻌﺪاد ﻛﻤﻲ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ‪ ،‬آن‬
‫ﻧﺎﺣﻴﻪ ﺣﺬف ﻣﻲﺷﻮد‪.‬‬
‫‪19‬‬
‫)‪Expectation-Maximization (EM‬‬
‫• در ﺻﻮرﺗﻲ ﻛﻪ ﺑﺨﻮاﻫﻴﻢ ﺑﺎ اﺳﺘﻔﺎده از ‪ MLE‬ﭘﺎراﻣﺘﺮﻫﺎي‬

‫ﻳﻚ ﻣﺪل ﺗﺮﻛﻴﺒﻲ را ﺗﺨﻤﻴﻦ ﺑﺰﻧﻴﻢ‪ ،‬راه ﺣﻞ ﺗﺤﻠﻴﻠﻲ وﺟﻮد‬
‫ﻧﺪارد‪:‬‬
‫) ‪L (Φ | X ) = log∏ p(x |Φ‬‬
‫‪t‬‬
‫‪t‬‬
‫) ‪= ∑t log ∑ p(xt |Gi )P (Gi‬‬

‫‪k‬‬
‫‪i =1‬‬
‫از اﻳﻦ رو روشﻫﺎي ﺗﻜﺮار ﺷﻮﻧﺪه‪ ،‬ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار‬

‫ﻣﻲﮔﻴﺮد‪.‬‬
‫• اﻳﻦ روش ﺑﺮاي زﻣﺎﻧﻲ ﻣﻨﺎﺳﺐ اﺳﺖ ﻛﻪ ﺑﺮﺧﻲ ﭘﺎراﻣﺘﺮﻫﺎ‬
‫»ﭘﻨﻬﺎن« ﻫﺴﺘﻨﺪ‪.‬‬
‫‪20‬‬
‫• ﻓﺮض ﻣﻲﺷﻮد ﻣﺘﻐﻴﺮﻫﺎي ﭘﻨﻬﺎن)‪ (z‬وﺟﻮد دارﻧﺪ ﻛﻪ‬

‫در ﺻﻮرﺗﻲ ﻛﻪ ﻣﺸﺨﺺ ﺑﺎﺷﻨﺪ‪ ،‬ﻣﺴﺎﻟﻪي ﺑﻬﻴﻨﻪﺳﺎزي‬
‫ﺑﻪ ﺳﺎدﮔﻲ ﺣﻞ ﻣﻲﺷﻮد‪.‬‬
‫• ﻫﺪف اﻳﻦ اﻟﮕﻮرﻳﺘﻢ ﻳﺎﻓﺘﻦ ﭘﺎراﻣﺘﺮﻫﺎﻳﻲ )‪ (Φ‬اﺳﺖ‬
‫ﻛﻪ اﺣﺘﻤﺎل رﺧﺪاد ﻣﺘﻐﻴﺮﻫﺎي ﻗﺎﺑﻞ ﻣﺸﺎﻫﺪه‬
‫‪Incomplete likelihood‬‬ ‫))‪ (L(Φ |X‬را ﺑﻴﺸﻴﻨﻪ ﻛﻨﺪ‪.‬‬
‫• در ﻣﻮاردي ﻛﻪ ﻳﺎﻓﺘﻦ ﭘﺎراﻣﺘﺮﻫﺎ‪ ،‬اﻣﻜﺎنﭘﺬﻳﺮ ﻧﻴﺴﺖ‪،‬‬
‫ﻣﺘﻐﻴﺮﻫﺎي ﭘﻨﻬﺎن ﻧﻴﺰ ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﻲﮔﻴﺮﻧﺪ‪:‬‬
‫)‪Lc(Φ |X,Z‬‬
‫‪Complete likelihood‬‬
‫‪21‬‬
‫دو ﮔﺎم اﻳﻦ اﻟﮕﻮرﻳﺘﻢ‬
‫‪E-step‬‬
‫• ﺗﺨﻤﻴﻦ ‪ z‬از روي دادهﻫﺎي آﻣﻮزﺷﻲ و ﭘﺎراﻣﺘﺮﻫﺎي ﻓﻌﻠﻲ‬
‫– در واﻗﻊ )‪ P(Z|X, Φl‬را ﻣﺤﺎﺳﺒﻪ ﻣﻲﻛﻨﻴﻢ‪.‬‬
‫‪ •M-step‬ﺑﺎ در اﺧﺘﻴﺎر داﺷﺘﻦ ﻣﺘﻐﻴﺮﻫﺎي ﭘﻨﻬﺎن و دادهﻫﺎي‬
‫آﻣﻮزﺷﻲ ﻣﻘﺪار ﭘﺎراﻣﺘﺮﻫﺎ ﺑﻪ ﮔﻮﻧﻪاي اﻧﺘﺨﺎب ﻣﻲﺷﻮﻧﺪ‬
‫ﻛﻪ ﺗﺎﺑﻊ درﺳﺖﻧﻤﺎﻳﻲ ﺑﻴﺸﻴﻨﻪ ﺷﻮد‪.‬‬
‫(‬ ‫[ )‬
‫‪E - step : Q Φ | Φ l = E LC (Φ | X, Z ) | X, Φ l‬‬ ‫]‬
‫(‬
‫‪M - step : Φ l +1 = arg max Q Φ | Φ l‬‬
‫‪Φ‬‬
‫)‬
‫• ﺛﺎﺑﺖ ﺷﺪه اﺳﺖ ﺑﺎ اﻳﻦ ﺷﻴﻮه در ﻫﺮ ﺗﻜﺮار درﺳﺖﻧﻤﺎﻳﻲ‬
‫اﻓﺰاﻳﺶ ﻣﻲﻳﺎﺑﺪ‪.‬‬
‫) ‪L (Φ l +1 | X ) ≥ L (Φ l | X‬‬
‫‪22‬‬
‫‪EM in Gaussian Mixtures‬‬
‫• در ﻣﺜﺎل ﺗﺮﻛﻴﺐ ﺗﻮزﻳﻊﻫﺎ‪» ،‬ﻣﺘﻐﻴﺮﻫﺎي ﭘﻨﻬﺎن«‬

‫ﻣﺸﺨﺺ ﻣﻲﻛﻨﻨﺪ ﻛﺪام ﻧﻤﻮﻧﻪ ﺑﻪ ﻛﺪام ﺧﻮﺷﻪ ﺗﻌﻠﻖ‬
‫دارد‪.‬‬
‫– در ﺻﻮرﺗﻲ ﻛﻪ ﺗﻌﻠﻖ ﻫﺮ ﻧﻤﻮﻧﻪي ﺑﻪ ﺧﻮﺷﻪي ﻣﺘﻨﺎﻇﺮش‬
‫)ﺑﺮﭼﺴﺐ( ﻣﺸﺨﺺ ﺑﺎﺷﺪ)ﻣﺎﻧﻨﺪ ﺣﺎﻟﺖ ﺑﺎﻧﺎﻇﺮ(‪ ،‬ﻣﻲﺗﻮان‬
‫ﺑﻪ راﺣﺘﻲ ﭘﺎراﻣﺘﺮﻫﺎي ﻫﺮ ﺗﻮزﻳﻊ را ﺑﻪ دﺳﺖ آورد‪.‬‬
‫• در ﮔﺎم ‪ ،E‬ﺑﺮ اﺳﺎس داﻧﺶ ﻓﻌﻠﻲ‪ ،‬اﻳﻦ ﺑﺮﭼﺴﺐﻫﺎ‬
‫ﺗﻘﺮﻳﺐ زده ﻣﻲﺷﻮﻧﺪ‪.‬‬
‫• در ﮔﺎم ‪ ،M‬ﺑﺮ اﺳﺎس ﺗﺨﻤﻴﻦ زده ﺷﺪه‪ ،‬اﻃﻼﻋﺎﺗﻲ ﻛﻪ‬
‫در ﻣﻮرد ﻛﻼس دارﻳﻢ‪ ،‬را ﺑﻪ روز ﻣﻲﻛﻨﻴﻢ‪.‬‬
‫اﻳﻦ دو ﮔﺎم ﭼﻪ ﺷﺒﺎﻫﺘﻲ ﺑﺎ دو ﻣﺮﺣﻠﻪي ‪ k-means‬دارﻧﺪ؟‬
‫‪23‬‬
‫)…‪EM in Gaussian Mixtures (cnt’d‬‬
‫• ﺑﺮدار ‪ zt‬ﻣﺘﻐﻴﺮ ﭘﻨﻬﺎن در اﻳﻦ ﻣﺴﺄﻟﻪ اﺳﺖ‪.‬‬

‫{‬
‫‪z t = z1t ,‬‬ ‫‪, zkt‬‬ ‫}‬
‫• ‪ zti = 1‬اﮔﺮ ‪ xt‬ﺑﻪ ﺧﻮﺷﻪي ‪‐i‬ام ﺗﻌﻠﻖ داﺷﺘﻪ ﺑﺎﺷﺪ‪.‬‬
‫– اﻳﻦ ﻣﺘﻐﻴﺮ داراي ﺗﻮزﻳﻊ ﭼﻨﺪﺟﻤﻠﻪاي اﺳﺖ‪.‬‬
‫– در واﻗﻊ ﺷﺒﻴﻪ ﺑﻪ ‪ r ti‬در ﺣﺎﻟﺖ ﺑﺎﻧﺎﻇﺮ اﺳﺖ‪.‬‬
‫اﮔﺮ ‪z‬ﻫﺎ ﻣﺸﺨﺺ ﺑﺎﺷﻨﺪ‪ ،‬ﻣﺎﻧﻨﺪ ﺣﺎﻟﺖ »ﺑﺎﻧﺎﻇﺮ« اﺳﺖ‪:‬‬
‫= ) ‪P(Ci‬‬
‫‪∑t i‬‬
‫‪r‬‬ ‫‪t‬‬
‫= ‪mi‬‬
‫‪∑t i x‬‬
‫‪r‬‬ ‫‪t t‬‬
‫‪N‬‬ ‫‪∑t i‬‬

‫‪r‬‬ ‫‪t‬‬
‫‪∑t i‬‬
‫‪r‬‬ ‫‪t‬‬
‫(‬
‫‪x‬‬ ‫‪t‬‬
‫‪−‬‬ ‫‪m‬‬ ‫‪l +1‬‬
‫()‬
‫‪x‬‬ ‫‪t‬‬
‫‪−‬‬ ‫‪m‬‬ ‫‪l +1‬‬
‫)‬
‫‪T‬‬
‫= ‪Si‬‬
‫‪i‬‬ ‫‪i‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬ ‫‪∑r‬‬ ‫‪t i‬‬

‫‪t‬‬ ‫‪24‬‬
EM in Gaussian Mixtures (cnt’d…)
‫ ﻣﻘﺎدﻳﺮ ﻣﺘﻐﻴﺮ ﭘﻨﻬﺎن را ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ‬،‫• در ﮔﺎم ﻧﺨﺴﺖ‬

:‫داﻧﺶ ﻓﻌﻠﻲ ﺗﻘﺮﻳﺐ ﻣﻲزﻧﻴﻢ‬
( ) ( )
hit ≡ P Gi | x , Φ = P zi = 1 | x , Φ =
t l t t l p (x t
| G , Φ l
)P(Gi )
( )P (G j )
i
∑j p x t
| G j , Φ l
P(Gi ) = π i
( ) (
pi x t = p x t | Gi )
( ) [
Q Φ | Φ l = E LC (Φ | X, Z ) | X, Φ l ] 25
(
M - step : Φ l +1 = arg max Q Φ | Φ l
Φ
)
[ ] ( )
E zit | x t , Φ l = P zit = 1 | x t , Φ l = hit
26
M - step : Φ l +1 = arg max Q Φ | Φ l
Φ
( )
‫ در اﻳﻦ ﻣﺮﺣﻠﻪ ﺑﺮ اﺳﺎس ﭘﺎرﻣﺘﺮﻫﺎي‬:E ‫• در ﮔﺎم‬
‫ام(؛ ﭘﺎراﻣﺘﺮﻫﺎ ﺑﻪ ﮔﻮﻧﻪاي اﻧﺘﺨﺎب‬-l ‫ﻓﻌﻠﻲ)ﺗﻜﺮار‬
:‫ ﻣﺎﻛﺰﻳﻤﻢ ﺷﻮد‬Q ‫ﻣﻲﺷﻮﻧﺪ ﻛﻪ‬
P(Gi ) = π i , ∑ π i = 1
P(C ) =
∑ r t i
t
=
∑ rx
t i
t t
∑t h
mi
t
∑r
i t
N
P(Gi ) =
i t i
N ( )(
∑t rit xt − m li +1 xt − m li +1 )
T
Si =
∑r t i
t
Soft label
∑t i x
h t t
∑t i
h t
x(t
− m l +1
x t
−)(
m l +1
)
T
m li +1 = S li +1 =
i i
27
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬ ∑h t i
t
∑h t i
t
‫ﻣﺜﺎل‬
‫‪P(G1|x)=h1=0.5‬‬
‫‪28‬‬
‫ﻣﺜﺎل‬
‫‪29‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬ ‫ﺑﺮ ﮔﺮﻓﺘﻪ از وﻳﻜﻲﭘﺪﻳﺎ‬
‫ﺟﻤﻊﺑﻨﺪي‬
‫‪initialize Φ 0‬‬‫• ﭘﺎراﻣﺘﺮﻫﺎي اوﻟﻴﻪ ﻣﻘﺪاردﻫﻲ ﻣﻲﺷﻮد‪:‬‬
‫• ﺗﺎ زﻣﺎﻧﻲ رﺳﻴﺪن ﺑﻪ ﻫﻤﮕﺮاﻳﻲ ﺗﻜﺮار ﻛﻦ‪:‬‬
‫را ﺗﻘﺮﻳﺐ ﺑﺰن‬ ‫(‬ ‫)‬
‫– ﮔﺎم ‪P Z | X , Φ l :E‬‬
‫– ﮔﺎم ‪Φ l +1 = arg max Q (Φ | Φ l ) :M‬‬
‫‪Φ‬‬
‫• ﺑﺮاي ﻣﻘﺪاردﻫﻲ اوﻟﻴﻪ‪ ،‬از ‪ K‐means‬اﺳﺘﻔﺎده ﻣﻲﺷﻮد‪،‬‬

‫ﺑﻌﺪ از ﭼﻨﺪ ﺗﻜﺮار‪ ،‬ﺗﺨﻤﻴﻦ ﻣﻴﺎﻧﮕﻴﻦ ﻣﺤﺎﺳﺒﻪ ﺷﺪه و‬
‫ﭘﺲ از ﻣﺸﺨﺺ ﺷﺪن اﻋﻀﺎي ﻫﺮ ﺧﻮﺷﻪ‪ ،‬ﻣﺎﺗﺮﻳﺲ‬
‫ﻛﻮارﻳﺎﻧﺲ ﺗﺨﻤﻴﻦ زده ﺷﺪه و )‪ P(Gi‬ﺗﺨﻤﻴﻦ زده ﺷﺪه و‬
‫اﻟﮕﻮرﻳﺘﻢ ‪ EM‬آﻏﺎز ﻣﻲﺷﻮد‪.‬‬
‫‪30‬‬
‫• در ﺻﻮرﺗﻲ ﻛﻪ دادهﻫﺎ ﺑﺎ ﺗﻮزﻳﻊ ﮔﺎوﺳﻲ در ﻧﻈﺮ ﮔﺮﻓﺘﻪ‬

‫) ‪hi ≡ P (Gi | x , Φ‬‬
‫‪t‬‬ ‫‪t‬‬ ‫‪l‬‬
‫ﺷﻮﻧﺪ‪:‬‬
‫• ﻣﺎﻧﻨﺪ روشﻫﺎي ﭘﺎراﻣﺘﺮي در اﻳﻦ ﺟﺎ ﻧﻴﺰ در ﺣﺎﻟﺘﻲ ﻛﻪ‬

‫دادهﻫﺎي آﻣﻮزﺷﻲ ﻛﻢﺗﻌﺪاد اﺳﺖ ﻳﺎ اﺑﻌﺎد ورودي‬
‫زﻳﺎد اﺳﺖ‪ ،‬ﻣﻲﺗﻮان از ﻣﺪلﻫﺎي ﺳﺎدهﺗﺮي اﺳﺘﻔﺎده‬
‫ﻛﺮد ﺗﺎ ﻣﺸﻜﻞ ‪ overfitting‬رخ ﻧﺪﻫﺪ‪.‬‬
‫‪31‬‬
‫اﻧﺘﺨﺎب ﻣﺪل‬
‫• در ﺻﻮرﺗﻲ ﻛﻪ ﺑﺮاي ﻫﻤﻪي ﺧﻮﺷﻪﻫﺎ ﻛﻮارﻳﺎﻧﺲ‬

‫ﻳﻜﺴﺎﻧﻲ در ﻧﻈﺮ ﺑﮕﻴﺮﻳﻢ‪ ،‬راﺑﻄﻪي ﻓﻮق ﺳﺎدهﺗﺮ‬
‫ﺧﻮاﻫﺪ ﺷﺪ‪:‬‬
‫• در ﺻﻮرﺗﻲ ﻛﻪ ﺗﻮزﻳﻊﻫﺎي ﻫﺮ ﺧﻮﺷﻪ‪ ،‬ﻧﺎﻫﻤﺒﺴﺘﻪ ﺑﻮده‬
‫و وارﻳﺎﻧﺲ ﻳﻜﺴﺎﻧﻲ داﺷﺘﻪ ﺑﺎﺷﻨﺪ‪:‬‬
‫• ﺑﺴﻴﺎر ﺷﺒﻴﻪ ﺑﻪ ‪ k‐means‬اﺳﺖ ‪ ،‬ﺑﺎ اﻳﻦ ﺗﻔﺎوت ﻛﻪ‬
‫ﻛﻪ ﺑﺮﭼﺴﺐﻫﺎ در اﻳﻦ ﺟﺎ ﺑﻴﻦ ﺻﻔﺮ و ﻳﻚ ﻫﺴﺘﻨﺪ‪.‬‬
‫‪32‬‬
‫اﻧﺘﺨﺎب ﻣﺪل )اداﻣﻪ‪(...‬‬
‫• در ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﻣﺎﺗﺮﻳﺲ ﻛﻮارﻳﺎﻧﺲ ﻳﻜﺴﺎن‪ ،‬ﻣﻮﺟﺐ‬

‫ﻧﺎدﻳﺪه ﮔﺮﻓﺘﻦ ﺷﻜﻞ واﻗﻌﻲ ﺧﻮﺷﻪﻫﺎ ﻣﻲﺷﻮد‪.‬‬
‫– در ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﻣﺎﺗﺮﻳﺲ ﻛﻮارﻳﺎﻧﺲ ﻗﻄﺮي ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ‬
‫ﻧﺎدﻳﺪه ﮔﺮﻓﺘﻦ ﻫﻤﺒﺴﺘﮕﻲﻫﺎ‪ ،‬ﺑﻪ ﻃﺮﻳﻖ اوﻟﻲ ﺳﺎﺧﺘﺎر‬
‫واﻗﻌﻲ را ﻧﺎدﻳﺪه ﻣﻲﮔﻴﺮد‪.‬‬
‫• ﭘﻴﺶ از ﺧﻮﺷﻪﺑﻨﺪي ﻣﻲﺗﻮان از روشﻫﺎي ﻛﺎﻫﺶ‬
‫اﺑﻌﺎد)‪ (PCA/FA‬ﺑﻬﺮه ﺑﺮد‪.‬‬
‫) ‪p(xt |Gi ) = N (m i , Vi V + ψ i‬‬
‫‪i‬‬
‫‪T‬‬
‫‪33‬‬
‫ﺧﻮﺷﻪﺑﻨﺪي ﺑﺮاي اﺳﺘﺨﺮاج داﻧﺶ‬
‫• ﻣﺎﻧﻨﺪ ﻛﺎﻫﺶ اﺑﻌﺎد ﺑﺮاي ﺧﻮﺷﻪﺑﻨﺪي ﻧﻴﺰ ﻣﻲﺗﻮان دو‬
‫ﻫﺪف ﻣﺘﻔﺎوت در ﻧﻈﺮ ﮔﺮﻓﺖ‪:‬‬
‫• »اﺳﺘﺨﺮاج داﻧﺶ«‪ :‬ﺑﺮاي ﻓﻬﻢ ﺑﻬﺘﺮ ﺳﺎﺧﺘﺎر دادهﻫﺎ ﻣﻮرد‬
‫اﺳﺘﻔﺎده ﻗﺮار ﻣﻲﮔﻴﺮد‪.‬‬
‫– ﻛﺎﻫﺶ اﺑﻌﺎد ﻫﻤﺒﺴﺘﮕﻲ ﺑﻴﻦ ﺧﺼﻴﺼﻪﻫﺎ را ﻣﻲﻳﺎﺑﺪ‪.‬‬
‫– ﺧﻮﺷﻪﺑﻨﺪي ﺷﺒﺎﻫﺖ ﺑﻴﻦ ﻧﻤﻮﻧﻪﻫﺎي داده را ﻣﺸﺨﺺ ﻣﻲﻛﻨﺪ‪.‬‬
‫• ﭘﺲ از ﺧﻮﺷﻪﺑﻨﺪي اﺳﺘﺨﺮاج داﻧﺶ ﺗﻮﺳﻂ ﻣﺘﺨﺼﺺ‬
‫ﻗﺎﺑﻞ اﻧﺠﺎم اﺳﺖ‪ ،‬ﻫﻤﭽﻨﻴﻦ ﭘﺎراﻣﺘﺮﻫﺎي ﺧﻮﺷﻪﺑﻨﺪي‬
‫ﻧﻈﻴﺮ ﻣﻴﺎﻧﮕﻴﻦ ﺧﻮﺷﻪﻫﺎ و ﺗﻌﺪاد آن ﻫﻢ ﻗﺎﺑﻞ اﺳﺘﻔﺎده‬
‫ﻣﻲﺑﺎﺷﺪ‪.‬‬
‫– از ﻛﺎﺑﺮدﻫﺎي ﻣﻲﺗﻮان ﺑﻪ ‪ CRM‬اﺷﺎره ﻛﺮد‪.‬‬
‫‪34‬‬
‫ﺧﻮﺷﻪﺑﻨﺪي ﺑﻪ ﻋﻨﻮان ﭘﻴﺶﭘﺮدازش‬
‫• ﻫﻤﺎنﮔﻮﻧﻪ ﻛﻪ در ﻛﺎﻫﺶ اﺑﻌﺎد‪ ،‬ﻓﻀﺎي ﺟﺪﻳﺪ ﺑﺮاي ﻓﺮآﻳﻨﺪﻫﺎي ﺑﻌﺪي‬
‫)دﺳﺘﻪﺑﻨﺪي‪ ،‬رﮔﺮﺳﻴﻮن( ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﻲﮔﻴﺮد‪ ،‬ﺧﻮﺷﻪﺑﻨﺪي ﻧﻴﺰ‬
‫دادهﻫﺎ را ﺑﻪ ﻳﻚ ﻓﻀﺎي ‪-k‬ﺑﻌﺪي ﻧﮕﺎﺷﺖ ﻣﻲﻛﻨﺪ‪ .‬اﺑﻌﺎد ﻓﻀﺎي ﺟﺪﻳﺪ‬
‫ﺷﺎﻣﻞ ﺑﺮﭼﺴﺐﻫﺎي ﺑﻪ دﺳﺖ آﻣﺪه اﺳﺖ )‪ h‬ﻳﺎ ‪ ،(b‬ﺑﺪﻳﻦﺗﺮﻳﺐ‬
‫ﻣﻤﻜﻦ ﺑﺎ اﻓﺰاﻳﺶ اﺑﻌﺎد ﻫﻢ ﻣﻮاﺟﻪ ﺷﻮﻳﻢ‪.‬‬
‫• در ﻛﺎﻫﺶ اﺑﻌﺎد ﻫﻤﻪي داده در ﻓﺮآﻳﻨﺪ ﻣﺸﺎرﻛﺖ دارﻧﺪ‪ ،‬در ﺣﺎﻟﻲ ﻛﻪ در‬
‫ﺧﻮﺷﻪﺑﻨﺪي ﻣﺸﺎرﻛﺖ ﺑﻪ ﺻﻮرت ﻣﺤﻠﻲ ﺻﻮرت ﻣﻲﭘﺬﻳﺮد‪.‬‬
‫• در ﺻﻮرت اﺳﺘﻔﺎده از ﭼﻨﻴﻦ ﭘﻴﺶﭘﺮدازشﻫﺎﻳﻲ ﻣﻲﺗﻮان از ﻳﻚ‬
‫ﻣﺠﻤﻮﻋﻪ دادهﻫﺎي ﺑﺪونﺑﺮﭼﺴﺐ در ﻓﺮآﻳﻨﺪ آﻣﻮزش ﺑﻬﺮه ﺑﺮد‪.‬‬
‫) ‪p(x |Ci ) = ∑ p(x |Gij )P (Gij‬‬

‫‪ki‬‬
‫‪j =1‬‬
‫‪Mixture of Mixtures‬‬ ‫‪K‬‬
‫) ‪p(x ) = ∑ p(x |Ci )P (Ci‬‬
‫‪35‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬ ‫‪i =1‬‬
‫‪Hierarchical Clustering‬‬
‫ﺧﻮﺷﻪﺑﻨﺪي ﺳﻠﺴﻠﻪﻣﺮاﺗﺒﻲ‬
‫• در ‪ k‐means‬ﻫﺪف ﻣﻴﻨﻴﻤﻢ ﻛﺮدن ﺧﻄﺎي ﺑﺎزﺳﺎزي‬
‫اﺳﺖ‪.‬‬
‫• در ﺧﻮﺷﻪﺑﻨﺪي ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﻲ‪ ،‬ﺗﻨﻬﺎ ﺷﺒﺎﻫﺖ ﺑﻴﻦ‬
‫ﻧﻤﻮﻧﻪﻫﺎ در ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﻣﻲﺷﻮد‪.‬‬
‫• اﻓﺰون ﺑﺮ ﻓﺎﺻﻠﻪي اﻗﻠﻴﺪﺳﻲ ﻣﻌﻴﺎرﻫﺎي دﻳﮕﺮي ﻧﻴﺰ در‬
‫ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﻣﻲﺷﻮﻧﺪ‪:‬‬
‫∑[‬ ‫])‬
‫‪Minkowski‬‬
‫= ) ‪dm (x , x‬‬ ‫‪(x‬‬
‫‪1/ p‬‬
‫‪d‬‬ ‫‪s p‬‬
‫‪r‬‬ ‫‪s‬‬
‫‪j =1‬‬
‫‪r‬‬
‫‪j‬‬ ‫‪−x‬‬ ‫‪j‬‬
‫‪City-block distance‬‬
‫‪dcb (x , x ) = ∑ j =1 x rj − x sj‬‬
‫‪r‬‬ ‫‪s‬‬ ‫‪d‬‬
‫‪36‬‬
‫‪Agglomerative Clustering‬‬
‫• ﺑﺎ ‪ N‬ﺧﻮﺷﻪ ﻛﺎر آﻏﺎز ﻣﻲﺷﻮد؛ ﻫﺮ ﺧﻮﺷﻪ ﺷﺎﻣﻞ ﻳﻚ ﻧﻤﻮﻧﻪ‬

‫ﻣﻲﺑﺎﺷﺪ‪.‬‬
‫• ﺧﻮﺷﻪﻫﺎي ﻧﺰدﻳﻚ ﺑﻪ ﻫﻢ در ﻫﺮ ﺗﻜﺮار ﺑﺎ ﻫﻢ ادﻏﺎم ﻣﻲﺷﻮﻧﺪ‪.‬‬
‫– ﺑﺮاي اﻧﺘﺨﺎب ﮔﺮوهﻫﺎي ﻧﺰدﻳﻚ‪ ،‬دو ﻣﻌﻴﺎر ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار‬
‫ﻣﻲﮔﻴﺮد‪:‬‬
‫= ) ‪d (Gi , G j‬‬ ‫‪mins‬‬
‫‪x ∈Gi , x ∈G j‬‬
‫‪r‬‬
‫(‬
‫‪d xr , xs‬‬ ‫)‬ ‫‪Single-link‬‬
‫) ‪d (Gi , G j ) = r maxs d (x r , x s‬‬ ‫‪Complete-link‬‬

‫‪x ∈Gi ,x ∈G j‬‬
‫) ‪d (Gi , G j ) = r aves d (x r , x s‬‬ ‫‪Average-link, centroid‬‬

‫‪x ∈Gi , x ∈G j‬‬
‫• اﻳﻦ روﻧﺪ ﺗﺎ زﻣﺎﻧﻲ ﻛﻪ ﺗﻨﻬﺎ ﻳﻚ ﺧﻮﺷﻪ وﺟﻮد داﺷﺘﻪ ﺑﺎﺷﺪ‪،‬‬

‫اداﻣﻪ ﻣﻲﻳﺎﺑﺪ‪.‬‬
‫‪37‬‬
‫‪Agglomerative Clustering‬‬
‫‪Dendrogram‬‬
‫‪Divisive Clustering‬‬
‫در اﻳﻦ ﺷﻴﻮه ﺑﻪ ﺻﻮرت ﻋﻜﺲ ﻋﻤﻞ ﻣﻲﺷﻮد؛ از ﻳﻚ ﺧﻮﺷﻪ ﻛﺎر آﻏﺎز‬
‫ﺷﺪه و ﺧﻮﺷﻪﻫﺎ در ﻫﺮ ﺗﻜﺮار ﺑﻪ ﺧﻮﺷﻪﻫﺎي ﻛﻮﭼﻚﺗﺮ ﺗﻘﺴﻴﻢ ﻣﻲﺷﻮﻧﺪ ﺗﺎ‬
‫زﻣﺎﻧﻲ ﻛﻪ ﻫﺮ ﺧﻮﺷﻪ ﺷﺎﻣﻞ ﻳﻚ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ‪.‬‬ ‫‪38‬‬
‫‪single-link clustering‬‬ ‫ﻣﻘﺎﻳﺴﻪي ﻣﻌﻴﺎرﻫﺎي ﻓﺎﺻﻠﻪ‬
‫اﻳﻦ ﻣﻌﻴﺎر ﺑﻪ ﻧﻮﻳﺰ و دادهﻫﺎي ﭘﺮت ﺣﺴﺎس اﺳﺖ و ﺧﻮﺷﻪﻫﺎي‬

‫»ﻛﺸﻴﺪه« اﻳﺠﺎد ﻣﻲﻛﻨﺪ‪.‬‬
‫‪39‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬ ‫‪CAS CS 565, Data Mining, Boston Uinversity‬‬
‫‪complete-link clustering‬‬
‫ﻣﻘﺎﻳﺴﻪي ﻣﻌﻴﺎرﻫﺎي ﻓﺎﺻﻠﻪ‬
‫ﺧﻮﺷﻪﻫﺎي ﺑﺰرگ را ﻣﻲﺷﻜﻨﺪ‪ ،‬ﺧﻮﺷﻪﻫﺎ ﺑﺎ ﻗﻄﺮ ﻳﻜﺴﺎن ﺗﻮﻟﻴﺪ ﻣﻲﻛﻨﺪ‪.‬‬

‫ﺧﻮﺷﻪﻫﺎي ﻛﻮﭼﻚ را ﺑﺎ ﺧﻮﺷﻪﻫﺎي ﺑﺰرك ادﻏﺎم ﻣﻲﻛﻨﺪ‪.‬‬
‫‪40‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬ ‫‪CAS CS 565, Data Mining, Boston Uinversity‬‬
‫اﻧﺘﺨﺎب ﺗﻌﺪاد ﺧﻮﺷﻪﻫﺎ‬
‫در ﺑﺮﺧﻲ ﻛﺎرﺑﺮدﻫﺎ‪ ،‬ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻧﻴﺎز ‪ k‬ﻣﺸﺨﺺ ﻣﻲﺷﻮد‪ ،‬ﻣﺎﻧﻨﺪ‬ ‫•‬
‫‪color quantization‬‬
‫اﺳﺘﻔﺎده از ‪ PCA‬و رﺳﻢ دادهﻫﺎ در دو ﺑﻌﺪ ﻣﻲﺗﻮاﻧﺪ ﺳﺎﺧﺘﺎر‬ ‫•‬
‫دادهﻫﺎ را ﺗﺎ ﺣﺪي ﻣﺸﺨﺺ ﻛﺮده و اﻧﺘﺨﺎب ﻣﻨﺎﺳﺐ ‪ k‬ﻛﻤﻚ‬
‫ﻛﻨﺪ‪.‬‬
‫اﺳﺘﻔﺎده از روشﻫﺎي اﻓﺰاﻳﺸﻲ )‪(leader‐cluster‬‬ ‫•‬
‫در ﺑﺮﺧﻲ ﻛﺎرﺑﺮدﻫﺎ ﺑﻌﺪ از اﻧﺠﺎم ﺧﻮﺷﻪﺑﻨﺪي‪ ،‬ﺑﻪ ﺻﻮرت دﺳﺘﻲ‬ ‫•‬
‫ﻣﻲﺗﻮان ﻣﻨﺎﺳﺐ ﺑﻮدن ﺧﻮﺷﻪﻫﺎ را ﺑﺮرﺳﻲ ﻛﺮد؛ ﺑﻪ ﻋﻨﻮان‬
‫ﻣﺜﺎل در ﺑﺮﺧﻲ ﻛﺎرﺑﺮدﻫﺎي دادهﻛﺎوي‬
‫ﺑﺴﺘﻪ ﺑﻪ ﻧﻮع اﻟﮕﻮرﻳﺘﻢ ﺧﻮﺷﻪﺑﻨﺪي ﻣﻮرد اﺳﺘﻔﺎده ﻣﻲﺗﻮان‬ ‫•‬
‫ﻧﻤﻮدار ﺧﻄﺎي ﺑﺎزﺳﺎزي ﺑﺮ ﺣﺴﺐ ‪ k‬را رﺳﻢ ﻛﺮده و ر اﻳﻦ‬
‫اﺳﺎس ﻣﻘﺪار ﻣﻨﺎﺳﺐ ﺗﻌﺪاد ﺧﻮﺷﻪﻫﺎ را ﻳﺎﻓﺖ‪.‬‬
‫‪41‬‬

ML 93 1 Chap7 Clustering&amp;EM

Uploaded by

Copyright:

Available Formats

You might also like

ML 93 1 Chap7 Clustering&amp;EM

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ML 93 1 Chap7 Clustering&amp;EM

Uploaded by

Copyright:

Available Formats

‫‪Machine Learning‬‬

‫• »روشﻫﺎي ﭘﺎراﻣﺘﺮي«‪ :‬دادهﻫﺎ از ﻳﻚ ﺗﻮزﻳﻊ ﺗﺼﺎدﻓﻲ اﺳﺘﺨﺮاج‬

‫در ﺻﻮرﺗﻲ ﻛﻪ ﺧﻮﺷﻪﻫﺎ داراي ﺗﻮزﻳﻊ ﮔﺎوﺳﻲ ﺑﺎﺷﻨﺪ‪:‬‬

‫ﺑﺎ در اﺧﺘﻴﺎر داﺷﺘﻦ ﻣﺠﻤﻮﻋﻪي آﻣﻮزﺷﻲ ‪ ،X={xt}t‬ﭘﺎراﻣﺘﺮﻫﺎي‬

where p(x|Ci) ~ N(μi ,∑i ) where p(x|Gi) ~ N ( μi , ∑i )

‫• ﻫﺪف ﻳﺎﻓﺘﻦ ﮔﺮوهﻫﺎي ﻣﺸﺎﺑﻪ از ﺑﻴﻦ دادهﻫﺎي ﺑﺮﭼﺴﺐﻧﺨﻮرده‬

‫• ﺑﺪﻳﻦﺗﺮﻳﻦ ﻣﻲﺗﻮان ﺑﻪ ﺟﺎي دادهﻫﺎي از ﺑﺮدار ﻣﺮﺟﻊ ﻣﺘﻨﺎﻇﺮ آن‬

‫• در اﻳﻦ ﺻﻮرت »ﺧﻄﺎي ﺑﺎزﺳﺎزي« ﺑﻪ ﺻﻮرت زﻳﺮ‬

‫• ﺑﻬﺘﺮﻳﻦ ﺑﺮدارﻫﺎي ﻣﺮﺟﻊ‪ ،‬ﻣﻮﺟﺐ ﻣﻲﺷﻮﻧﺪ ﺗﺎ ﺧﻄﺎي‬

‫• اﻳﻦ راﺑﻄﻪ اﻓﺰون ﺑﺮ ‪ mi‬ﺑﻪ ﺑﺮﭼﺴﺐﻫﺎ ‪ bit‬ﻫﻢ‬

‫•از ﻛﺎرﺑﺮدﻫﺎي دﻳﮕﺮ‪ ،‬دﺳﺘﻪﺑﻨﺪي ﻣﺸﺘﺮﻳﺎن‪ ،‬ﻛﺸﻒ دادهﻫﺎي‬

‫• در اﻳﻦ ﺷﻴﻮه در ﺻﻮرﺗﻲ ﻛﻪ ﻳﻚ ﻧﻤﻮﻧﻪ از ﺑﺮدارﻫﺎي‬

‫• در ﺻﻮرﺗﻲ ﻛﻪ ﺑﺨﻮاﻫﻴﻢ ﺑﺎ اﺳﺘﻔﺎده از ‪ MLE‬ﭘﺎراﻣﺘﺮﻫﺎي‬

‫) ‪= ∑t log ∑ p(xt |Gi )P (Gi‬‬

‫از اﻳﻦ رو روشﻫﺎي ﺗﻜﺮار ﺷﻮﻧﺪه‪ ،‬ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار‬

‫• ﻓﺮض ﻣﻲﺷﻮد ﻣﺘﻐﻴﺮﻫﺎي ﭘﻨﻬﺎن)‪ (z‬وﺟﻮد دارﻧﺪ ﻛﻪ‬

‫• در ﻣﺜﺎل ﺗﺮﻛﻴﺐ ﺗﻮزﻳﻊﻫﺎ‪» ،‬ﻣﺘﻐﻴﺮﻫﺎي ﭘﻨﻬﺎن«‬

‫• ﺑﺮدار ‪ zt‬ﻣﺘﻐﻴﺮ ﭘﻨﻬﺎن در اﻳﻦ ﻣﺴﺄﻟﻪ اﺳﺖ‪.‬‬

‫اﮔﺮ ‪z‬ﻫﺎ ﻣﺸﺨﺺ ﺑﺎﺷﻨﺪ‪ ،‬ﻣﺎﻧﻨﺪ ﺣﺎﻟﺖ »ﺑﺎﻧﺎﻇﺮ« اﺳﺖ‪:‬‬

‫‪N‬‬ ‫‪∑t i‬‬

‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬ ‫‪∑r‬‬ ‫‪t i‬‬

‫ ﻣﻘﺎدﻳﺮ ﻣﺘﻐﻴﺮ ﭘﻨﻬﺎن را ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ‬،‫• در ﮔﺎم ﻧﺨﺴﺖ‬

‫• ﺑﺮاي ﻣﻘﺪاردﻫﻲ اوﻟﻴﻪ‪ ،‬از ‪ K‐means‬اﺳﺘﻔﺎده ﻣﻲﺷﻮد‪،‬‬

‫• در ﺻﻮرﺗﻲ ﻛﻪ دادهﻫﺎ ﺑﺎ ﺗﻮزﻳﻊ ﮔﺎوﺳﻲ در ﻧﻈﺮ ﮔﺮﻓﺘﻪ‬

‫• ﻣﺎﻧﻨﺪ روشﻫﺎي ﭘﺎراﻣﺘﺮي در اﻳﻦ ﺟﺎ ﻧﻴﺰ در ﺣﺎﻟﺘﻲ ﻛﻪ‬

‫• در ﺻﻮرﺗﻲ ﻛﻪ ﺑﺮاي ﻫﻤﻪي ﺧﻮﺷﻪﻫﺎ ﻛﻮارﻳﺎﻧﺲ‬

‫• در ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﻣﺎﺗﺮﻳﺲ ﻛﻮارﻳﺎﻧﺲ ﻳﻜﺴﺎن‪ ،‬ﻣﻮﺟﺐ‬

‫) ‪p(x |Ci ) = ∑ p(x |Gij )P (Gij‬‬

‫• ﺑﺎ ‪ N‬ﺧﻮﺷﻪ ﻛﺎر آﻏﺎز ﻣﻲﺷﻮد؛ ﻫﺮ ﺧﻮﺷﻪ ﺷﺎﻣﻞ ﻳﻚ ﻧﻤﻮﻧﻪ‬

‫) ‪d (Gi , G j ) = r maxs d (x r , x s‬‬ ‫‪Complete-link‬‬

‫) ‪d (Gi , G j ) = r aves d (x r , x s‬‬ ‫‪Average-link, centroid‬‬

‫• اﻳﻦ روﻧﺪ ﺗﺎ زﻣﺎﻧﻲ ﻛﻪ ﺗﻨﻬﺎ ﻳﻚ ﺧﻮﺷﻪ وﺟﻮد داﺷﺘﻪ ﺑﺎﺷﺪ‪،‬‬

‫اﻳﻦ ﻣﻌﻴﺎر ﺑﻪ ﻧﻮﻳﺰ و دادهﻫﺎي ﭘﺮت ﺣﺴﺎس اﺳﺖ و ﺧﻮﺷﻪﻫﺎي‬

‫ﺧﻮﺷﻪﻫﺎي ﺑﺰرگ را ﻣﻲﺷﻜﻨﺪ‪ ،‬ﺧﻮﺷﻪﻫﺎ ﺑﺎ ﻗﻄﺮ ﻳﻜﺴﺎن ﺗﻮﻟﻴﺪ ﻣﻲﻛﻨﺪ‪.‬‬

You might also like

ML 93 1 Chap7 Clustering&EM

ML 93 1 Chap7 Clustering&EM

ML 93 1 Chap7 Clustering&EM