ML 93 1 Chap7 Clustering&EM

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 40

‫‪Machine Learning‬‬

‫‪Expectation–maximization algorithm‬‬
‫ﻳﺎدﮔﻴﺮي ﻣﺎﺷﻴﻦ‬
‫)‪(13-11-805-01‬‬
‫ﻓﺼﻞ ﻫﻔﺘﻢ‬
‫ﺩﺍﻧﺸﮕﺎﻩ ﺷﻬﻴﺪ ﺑﻬﺸﺘﯽ‬
‫ﺩﺍﻧﺸﮑﺪﻩﯼ ﻣﻬﻨﺪﺳﯽ ﺑﺮﻕ ﻭ ﮐﺎﻣﭙﻴﻮﺗﺮ‬
‫ﭘﺎﻳﻴﺰ ‪۱۳۹۳‬‬
‫ﺍﺣﻤﺪ ﻣﺤﻤﻮﺩﯼ ﺍﺯﻧﺎﻭﻩ‬

‫‪http://faculties.sbu.ac.ir/~a_mahmoudi/‬‬
‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬
‫• ﺗﺮﻛﻴﺐ ﭼﻨﺪ ﺗﻮزﻳﻊ‬
‫• ‪K‐means‬‬
‫• اﻟﮕﻮرﻳﺘﻢ اﻣﻴﺪ رﻳﺎﺿﻲ–‪ ‬ﺑﻴﺸﻴﻨﻪ ﻛﺮدن‬

‫‪2‬‬
‫ﺷﺒﮑﻪ ﻋﺼﺒﯽ‬
‫‪Semiparametric Density Estimation‬‬

‫• »روشﻫﺎي ﭘﺎراﻣﺘﺮي«‪ :‬دادهﻫﺎ از ﻳﻚ ﺗﻮزﻳﻊ ﺗﺼﺎدﻓﻲ اﺳﺘﺨﺮاج‬


‫ﺷﺪهاﻧﺪ) ﻣﺎﻧﻨﺪ )‪.(p (x | Ci‬‬
‫– ﻣﺰﻳﺖ اﻳﻦ دﺳﺘﻪ از روشﻫﺎ اﻳﻦ اﺳﺖ ﻛﻪ ﻛﻪ ﺗﻨﻬﺎ ﻳﺎﻓﺘﻦ‬
‫ﭘﺎراﻣﺘﺮﻫﺎي ﻣﺪل ﻛﻔﺎﻳﺖ ﻣﻲﻛﻨﺪ‪.‬‬
‫– اﺳﺘﻔﺎده از روشﻫﺎي ﭘﺎراﻣﺘﺮي‪ ،‬ﻣﻲﺗﻮاﻧﺪ ﺑﺎﻋﺚ اﻳﺠﺎد ﺑﺎﻳﺎس‬
‫ﺷﻮد‪.‬‬
‫– در ﺑﺮﺧﻲ ﻛﺎرﺑﺮدﻫﺎ‪ ،‬دادهﻫﺎي ﻳﻚ دﺳﺘﻪ داراي ﻳﻚ ﺗﻮزﻳﻊ ﻳﻜﺴﺎن‬
‫ﻧﻴﺴﺘﻨﺪ‪ ،‬ﻣﺎﻧﻨﺪ دﺳﺘﻨﻮﺷﺘﻪﻫﺎي ﻣﺨﺘﻠﻒ ﻳﺎ ﺗﻠﻔﻆﻫﺎي ﻣﺨﺘﻠﻒ‬
‫• »روشﻫﺎي ﻧﻴﻤﻪﭘﺎراﻣﺘﺮي«‪ :‬در اﻳﻦ ﺣﺎﻟﺖ ﺑﺮاي ﻫﺮ دﺳﺘﻪ‪،‬‬
‫ﺧﻮﺷﻪﻫﺎ)ﮔﺮوهﻫﺎ(ي ﻣﺨﺘﻠﻔﻲ در ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﻣﻲﺷﻮد ﻛﻪ ﻫﺮ‬
‫ﻛﺪام از ﻳﻚ ﺗﻮزﻳﻊ ﭘﻴﺮوي ﻣﻲﻛﻨﻨﺪ‪.‬‬
‫• »روشﻫﺎي ﻧﺎﭘﺎراﻣﺘﺮي«‪ :‬ﻫﻴﭻﮔﻮﻧﻪ ﻣﺪﻟﻲ در ﻧﻈﺮ ﮔﺮﻓﺘﻪ‬
‫ﻧﻤﻲﺷﻮد‪ ،‬دادهﻫﺎ ﺧﻮد را ﺗﻮﺻﻴﻒ ﻣﻲﻛﻨﻨﺪ‪.‬‬

‫‪3‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫‪Mixture Densities‬‬
‫‪component densities‬‬ ‫‪mixture proportions‬‬
‫‪k‬‬
‫) ‪p(x ) = ∑ p(x |Gi )P (Gi‬‬
‫‪i =1‬‬

‫‪components/groups/clusters‬‬

‫در ﺻﻮرﺗﻲ ﻛﻪ ﺧﻮﺷﻪﻫﺎ داراي ﺗﻮزﻳﻊ ﮔﺎوﺳﻲ ﺑﺎﺷﻨﺪ‪:‬‬


‫) ‪p(x|Gi) ~ N ( μi , ∑i‬‬

‫ﺑﺎ در اﺧﺘﻴﺎر داﺷﺘﻦ ﻣﺠﻤﻮﻋﻪي آﻣﻮزﺷﻲ ‪ ،X={xt}t‬ﭘﺎراﻣﺘﺮﻫﺎي‬


‫ﻛﻪ در ﻃﻲ ﻓﺮآﻳﻨﺪ آﻣﻮزش ﺗﺨﻤﻴﻦ زده ﻣﻲﺷﻮﻧﺪ‪:‬‬
‫‪Φ = {P ( Gi ), μi , ∑i }ki=1‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
«‫ﻣﻔﻬﻮم »دﺳﺘﻪ« در ﻣﻘﺎﻳﺴﻪ ﺑﺎ »ﺧﻮﺷﻪ‬
Classes vs. Clusters
Classfiction
• Supervised: X = {xt,rt }t  • Unsupervised: X = { xt }t 
• Classes Ci i=1,...,K • Clusters Gi i=1,...,k
k
p(x ) = ∑ p(x |Gi )P (Gi )
K
p(x ) = ∑ p(x |Ci )P (Ci )
i =1 i =1

where p(x|Ci) ~ N(μi ,∑i )  where p(x|Gi) ~ N ( μi , ∑i ) 


• Φ = {P (Ci ), μi , ∑i }Ki=1 • Φ = {P ( Gi ), μi , ∑i }ki=1

P (C ) =
ˆ ∑ r
   m =

t i
rxt
t i
t t Labels rti ?
∑r
i i t
N t i

∑ r (x − m )(x − m )
T
t t t
Clustering
= t i i i
Si
∑r t i
t

5
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫‪k-Means Clustering‬‬

‫• ﻫﺪف ﻳﺎﻓﺘﻦ ﮔﺮوهﻫﺎي ﻣﺸﺎﺑﻪ از ﺑﻴﻦ دادهﻫﺎي ﺑﺮﭼﺴﺐﻧﺨﻮرده‬


‫اﺳﺖ‪.‬‬
‫– ﻳﺎﻓﺘﻦ ‪» k‬ﺑﺮدار ﻣﺮﺟﻊ« )‪ (reference vector‬اﺳﺖ ﻛﻪ ﺑﻪ ﺑﻬﺘﺮﻳﻦ‬
‫ﻧﺤﻮ دادهﻫﺎ را ﻧﻤﺎﻳﺶ دﻫﻨﺪ‪.‬‬
‫‪prototypes /codebook vectors /codewords‬‬
‫‪Reference vectors, mj, j =1,...,k‬‬
‫• ﺑﻌﺪ از ﻣﺸﺨﺺ ﺷﺪن ﺑﺮدارﻫﺎي ﻣﺮﺟﻊ‪ ،‬ﻧﻤﻮﻧﻪﻫﺎي در ﺧﻮﺷﻪي‬
‫ﻧﺰدﻳﻚﺗﺮﻳﻦ ﺑﺮدار ﻣﺮﺟﻊ ﻗﺮار ﻣﻲﮔﻴﺮﻧﺪ‪:‬‬
‫‪x − m i = min x − m j‬‬
‫‪t‬‬ ‫‪t‬‬
‫‪j‬‬

‫• ﺑﺪﻳﻦﺗﺮﻳﻦ ﻣﻲﺗﻮان ﺑﻪ ﺟﺎي دادهﻫﺎي از ﺑﺮدار ﻣﺮﺟﻊ ﻣﺘﻨﺎﻇﺮ آن‬


‫اﺳﺘﻔﺎده ﻛﺮد‪.‬‬

‫‪6‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
k-Means Clustering

‫• در اﻳﻦ ﺻﻮرت »ﺧﻄﺎي ﺑﺎزﺳﺎزي« ﺑﻪ ﺻﻮرت زﻳﺮ‬


:‫ﻣﺤﺎﺳﺒﻪ ﻣﻲﺷﻮد‬
( )
E {m i }i =1 X = ∑t ∑i bit x t − m i
k
Reconstruction error

⎪ 1 if x t
− m = min x t
−mj
bi = ⎨
t i
j
⎪⎩0 otherwise

7
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬ Encoding/Decoding
‫‪k-Means Clustering‬‬

‫• ﺑﻬﺘﺮﻳﻦ ﺑﺮدارﻫﺎي ﻣﺮﺟﻊ‪ ،‬ﻣﻮﺟﺐ ﻣﻲﺷﻮﻧﺪ ﺗﺎ ﺧﻄﺎي‬


‫ﺑﺎزﺳﺎزي ﻣﻴﻨﻴﻤﻢ ﺷﻮد‪.‬‬
‫‪E ({m i }i =1 X ) = ∑t ∑i bit x t − m i‬‬
‫‪k‬‬

‫• اﻳﻦ راﺑﻄﻪ اﻓﺰون ﺑﺮ ‪ mi‬ﺑﻪ ﺑﺮﭼﺴﺐﻫﺎ ‪ bit‬ﻫﻢ‬


‫ﺑﺴﺘﮕﻲ دارد‪ ،‬از اﻳﻦ رو ﻧﻤﻲﺗﻮان ﺑﺮاي آن راه ﺣﻞ‬
‫ﺗﺤﻠﻴﻠﻲ ﻳﺎﻓﺖ‪.‬‬

‫‪8‬‬
‫در ﺻﻮرﺗﻲ ﻛﻪ ﺑﺨﺶﺑﻨﺪي دادهﻫﺎ ﺗﻐﻴﻴﺮ ﻧﻜﻨﺪ‪ ،‬اﻟﮕﻮرﻳﺘﻢ ﺑﻪ ﭘﺎﻳﺎن رﺳﻴﺪه اﺳﺖ‪.‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫ﻣﺸﻜﻼت ‪k‐means‬‬
‫• اﻳﻦ ﻓﺮآﻳﻨﺪ‪ ،‬ﺟﺴﺘﺠﻮي ﻣﺤﻠﻲ اﺳﺖ و ﭘﺎﺳﺦ ﻧﻬﺎﻳﻲ‬
‫واﺑﺴﺘﻪ ﺑﻪ ﻣﻘﺪار اوﻟﻴﻪي ﺑﺮدارﻫﺎي ﻣﺮﺟﻊ اﺳﺖ‪.‬‬
‫• ﻧﺴﺒﺖ ﺑﻪ دادهﻫﺎ ﭘﺮت ﻣﻘﺎوم ﻧﻴﺴﺖ‪.‬‬
‫• ﻣﻘﺪار ‪ k‬ﺑﺎﻳﺪ از ﻗﺒﻞ ﻣﺸﺨﺺ ﺷﻮد‪.‬‬

‫‪9‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫ﻣﻘﺪار اوﻟﻴﻪي ﺑﺮدارﻫﺎي ﻣﺮﺟﻊ‬
‫• اﻧﺘﺨﺎب ﺗﺼﺎدﻓﻲ ﻫﻤﻪي ﺑﺮدارﻫﺎي ﻣﺮﺟﻊ‬
‫• ﻣﺤﺎﺳﺒﻪي ﻣﻘﺪار ﻣﻴﺎﻧﮕﻴﻦ ﻫﻤﻪ ﻧﻤﻮﻧﻪﻫﺎ و اﻧﺘﺴﺎب‬
‫آن ﺑﻪ ﺑﺮدارﻫﺎي ﻣﺮﺟﻊ ﭘﺲ از اﻓﺰودن ﻣﻘﺪاري‬
‫ﺗﺼﺎدﻓﻲ‬
‫• ﻣﺤﺎﺳﺒﻪي اوﻟﻴﻦ ﻣﺆﻟﻔﻪي اﺳﺎﺳﻲ و ﺗﻘﺴﻴﻢ آن ﺑﻪ‬
‫‪ k‬ﻗﺴﻤﺖ ﻣﺴﺎوي و اﻧﺘﺴﺎب ﻣﻘﺪار ﻣﻴﺎﻧﮕﻴﻦ ﻫﺮ‬
‫ﻗﺴﻤﺖ ﺑﻪ ﻫﺮ ﺑﺮدار ﻣﺮﺟﻊ‬

‫‪10‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
k-Means Clustering

11
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫ﻣﺜﺎل‬
5

4
k1

k2
2

k3
0
0 1 2 3 4 5

12
‫ﺯﺑﺎﻥ ﻣﺎﺷﻴﻦ‬ BIO5488 lecture, 2004
‫)اداﻣﻪ‪(...‬‬ ‫ﻣﺜﺎل‬
‫‪5‬‬

‫‪4‬‬
‫‪k1‬‬

‫‪3‬‬

‫‪k2‬‬
‫‪2‬‬

‫‪1‬‬

‫‪k3‬‬
‫‪0‬‬
‫‪0‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪3‬‬ ‫‪4‬‬ ‫‪5‬‬

‫‪13‬‬
‫ﺯﺑﺎﻥ ﻣﺎﺷﻴﻦ‬ ‫‪BIO5488 lecture, 2004‬‬
‫ﻣﺜﺎل )اداﻣﻪ‪(...‬‬
‫‪5‬‬

‫‪4‬‬
‫‪k1‬‬

‫‪3‬‬

‫‪2‬‬
‫‪k3‬‬
‫‪k2‬‬
‫‪1‬‬

‫‪0‬‬
‫‪0‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪3‬‬ ‫‪4‬‬ ‫‪5‬‬

‫‪14‬‬
‫ﺯﺑﺎﻥ ﻣﺎﺷﻴﻦ‬ ‫‪BIO5488 lecture, 2004‬‬
‫ﻣﺜﺎل )اداﻣﻪ‪(...‬‬
‫‪5‬‬

‫‪4‬‬
‫‪k1‬‬

‫‪3‬‬

‫‪2‬‬
‫‪k3‬‬
‫‪k2‬‬
‫‪1‬‬

‫‪0‬‬
‫‪0‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪3‬‬ ‫‪4‬‬ ‫‪5‬‬

‫‪15‬‬
‫ﺯﺑﺎﻥ ﻣﺎﺷﻴﻦ‬ ‫‪BIO5488 lecture, 2004‬‬
‫ﻣﺜﺎل )اداﻣﻪ‪(...‬‬
‫‪5‬‬

‫‪4‬‬
‫‪k1‬‬

‫‪3‬‬

‫‪2‬‬

‫‪k2‬‬
‫‪k3‬‬
‫‪1‬‬

‫‪0‬‬
‫‪0‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪3‬‬ ‫‪4‬‬ ‫‪5‬‬

‫‪16‬‬
‫ﺯﺑﺎﻥ ﻣﺎﺷﻴﻦ‬ ‫‪BIO5488 lecture, 2004‬‬
‫‪Bishop, PRML‬‬ ‫ﻛﺎرﺑﺮدﻫﺎي ‪k‐means‬‬

‫•از ﻛﺎرﺑﺮدﻫﺎي دﻳﮕﺮ‪ ،‬دﺳﺘﻪﺑﻨﺪي ﻣﺸﺘﺮﻳﺎن‪ ،‬ﻛﺸﻒ دادهﻫﺎي‬


‫ﭘﺮت‪ ،‬ﻛﺸﻒ ﻧﻤﻮﻧﻪﻫﺎي ﻏﻴﺮﻋﺎدي را ﻣﻲﺗﻮان ﻧﺎم ﺑﺮد‪.‬‬
‫‪18‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫‪Leader cluster algorithm‬‬

‫• در اﻳﻦ ﺷﻴﻮه در ﺻﻮرﺗﻲ ﻛﻪ ﻳﻚ ﻧﻤﻮﻧﻪ از ﺑﺮدارﻫﺎي‬


‫ﻣﺮﺟﻊ از ﻳﻚ ﺣﺪآﺳﺘﺎﻧﻪ دورﺗﺮ ﺑﺎﺷﺪ‪ ،‬ﻳﻚ ﺑﺮدار ﻣﺮﺟﻊ‬
‫ﺑﺮاﺑﺮ ﺑﺎ ﻧﻤﻮﻧﻪي ﻣﺬﻛﻮر اﻳﺠﺎد ﻣﻲﺷﻮد‪.‬‬
‫• در ﺻﻮرﺗﻲ ﻛﻪ ﻧﺎﺣﻴﻪي ﻣﺮﺑﻮط ﺑﻪ ﻳﻚ ﺑﺮدار ﻣﺮﺟﻊ‬
‫ﺷﺎﻣﻞ ﺗﻌﺪاد زﻳﺎدي ﻧﻤﻮﻧﻪ ﺑﺎﺷﻨﺪ‪ ،‬در آن ﻧﺎﺣﻴﻪ‬
‫ﻧﻤﻮﻧﻪي ﺟﺪﻳﺪي اﻳﺠﺎد ﻣﻲﺷﻮد‪.‬‬
‫• ﺑﻪ ﻃﺮﻳﻖ ﻣﺸﺎﺑﻪ‪ ،‬در ﺻﻮرﺗﻲ ﻛﻪ ﻧﺎﺣﻴﻪ ﻣﺮﺑﻮط ﺑﻪ ﻳﻚ‬
‫ﺑﺮدار ﻣﺮﺟﻊ‪ ،‬ﺷﺎﻣﻞ ﺗﻌﺪاد ﻛﻤﻲ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ‪ ،‬آن‬
‫ﻧﺎﺣﻴﻪ ﺣﺬف ﻣﻲﺷﻮد‪.‬‬

‫‪19‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫)‪Expectation-Maximization (EM‬‬

‫• در ﺻﻮرﺗﻲ ﻛﻪ ﺑﺨﻮاﻫﻴﻢ ﺑﺎ اﺳﺘﻔﺎده از ‪ MLE‬ﭘﺎراﻣﺘﺮﻫﺎي‬


‫ﻳﻚ ﻣﺪل ﺗﺮﻛﻴﺒﻲ را ﺗﺨﻤﻴﻦ ﺑﺰﻧﻴﻢ‪ ،‬راه ﺣﻞ ﺗﺤﻠﻴﻠﻲ وﺟﻮد‬
‫ﻧﺪارد‪:‬‬
‫) ‪L (Φ | X ) = log∏ p(x |Φ‬‬
‫‪t‬‬

‫‪t‬‬

‫) ‪= ∑t log ∑ p(xt |Gi )P (Gi‬‬


‫‪k‬‬

‫‪i =1‬‬

‫از اﻳﻦ رو روشﻫﺎي ﺗﻜﺮار ﺷﻮﻧﺪه‪ ،‬ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار‬


‫ﻣﻲﮔﻴﺮد‪.‬‬
‫• اﻳﻦ روش ﺑﺮاي زﻣﺎﻧﻲ ﻣﻨﺎﺳﺐ اﺳﺖ ﻛﻪ ﺑﺮﺧﻲ ﭘﺎراﻣﺘﺮﻫﺎ‬
‫»ﭘﻨﻬﺎن« ﻫﺴﺘﻨﺪ‪.‬‬

‫‪20‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫)‪Expectation-Maximization (EM‬‬

‫• ﻓﺮض ﻣﻲﺷﻮد ﻣﺘﻐﻴﺮﻫﺎي ﭘﻨﻬﺎن)‪ (z‬وﺟﻮد دارﻧﺪ ﻛﻪ‬


‫در ﺻﻮرﺗﻲ ﻛﻪ ﻣﺸﺨﺺ ﺑﺎﺷﻨﺪ‪ ،‬ﻣﺴﺎﻟﻪي ﺑﻬﻴﻨﻪﺳﺎزي‬
‫ﺑﻪ ﺳﺎدﮔﻲ ﺣﻞ ﻣﻲﺷﻮد‪.‬‬
‫• ﻫﺪف اﻳﻦ اﻟﮕﻮرﻳﺘﻢ ﻳﺎﻓﺘﻦ ﭘﺎراﻣﺘﺮﻫﺎﻳﻲ )‪ (Φ‬اﺳﺖ‬
‫ﻛﻪ اﺣﺘﻤﺎل رﺧﺪاد ﻣﺘﻐﻴﺮﻫﺎي ﻗﺎﺑﻞ ﻣﺸﺎﻫﺪه‬
‫‪Incomplete likelihood‬‬ ‫))‪ (L(Φ |X‬را ﺑﻴﺸﻴﻨﻪ ﻛﻨﺪ‪.‬‬
‫• در ﻣﻮاردي ﻛﻪ ﻳﺎﻓﺘﻦ ﭘﺎراﻣﺘﺮﻫﺎ‪ ،‬اﻣﻜﺎنﭘﺬﻳﺮ ﻧﻴﺴﺖ‪،‬‬
‫ﻣﺘﻐﻴﺮﻫﺎي ﭘﻨﻬﺎن ﻧﻴﺰ ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﻲﮔﻴﺮﻧﺪ‪:‬‬
‫)‪Lc(Φ |X,Z‬‬
‫‪Complete likelihood‬‬
‫‪21‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫دو ﮔﺎم اﻳﻦ اﻟﮕﻮرﻳﺘﻢ‬
‫‪E-step‬‬
‫• ﺗﺨﻤﻴﻦ ‪ z‬از روي دادهﻫﺎي آﻣﻮزﺷﻲ و ﭘﺎراﻣﺘﺮﻫﺎي ﻓﻌﻠﻲ‬
‫– در واﻗﻊ )‪ P(Z|X, Φl‬را ﻣﺤﺎﺳﺒﻪ ﻣﻲﻛﻨﻴﻢ‪.‬‬
‫‪ •M-step‬ﺑﺎ در اﺧﺘﻴﺎر داﺷﺘﻦ ﻣﺘﻐﻴﺮﻫﺎي ﭘﻨﻬﺎن و دادهﻫﺎي‬
‫آﻣﻮزﺷﻲ ﻣﻘﺪار ﭘﺎراﻣﺘﺮﻫﺎ ﺑﻪ ﮔﻮﻧﻪاي اﻧﺘﺨﺎب ﻣﻲﺷﻮﻧﺪ‬
‫ﻛﻪ ﺗﺎﺑﻊ درﺳﺖﻧﻤﺎﻳﻲ ﺑﻴﺸﻴﻨﻪ ﺷﻮد‪.‬‬

‫(‬ ‫[ )‬
‫‪E - step : Q Φ | Φ l = E LC (Φ | X, Z ) | X, Φ l‬‬ ‫]‬
‫(‬
‫‪M - step : Φ l +1 = arg max Q Φ | Φ l‬‬
‫‪Φ‬‬
‫)‬
‫• ﺛﺎﺑﺖ ﺷﺪه اﺳﺖ ﺑﺎ اﻳﻦ ﺷﻴﻮه در ﻫﺮ ﺗﻜﺮار درﺳﺖﻧﻤﺎﻳﻲ‬
‫اﻓﺰاﻳﺶ ﻣﻲﻳﺎﺑﺪ‪.‬‬
‫) ‪L (Φ l +1 | X ) ≥ L (Φ l | X‬‬
‫‪22‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫‪EM in Gaussian Mixtures‬‬

‫• در ﻣﺜﺎل ﺗﺮﻛﻴﺐ ﺗﻮزﻳﻊﻫﺎ‪» ،‬ﻣﺘﻐﻴﺮﻫﺎي ﭘﻨﻬﺎن«‬


‫ﻣﺸﺨﺺ ﻣﻲﻛﻨﻨﺪ ﻛﺪام ﻧﻤﻮﻧﻪ ﺑﻪ ﻛﺪام ﺧﻮﺷﻪ ﺗﻌﻠﻖ‬
‫دارد‪.‬‬
‫– در ﺻﻮرﺗﻲ ﻛﻪ ﺗﻌﻠﻖ ﻫﺮ ﻧﻤﻮﻧﻪي ﺑﻪ ﺧﻮﺷﻪي ﻣﺘﻨﺎﻇﺮش‬
‫)ﺑﺮﭼﺴﺐ( ﻣﺸﺨﺺ ﺑﺎﺷﺪ)ﻣﺎﻧﻨﺪ ﺣﺎﻟﺖ ﺑﺎﻧﺎﻇﺮ(‪ ،‬ﻣﻲﺗﻮان‬
‫ﺑﻪ راﺣﺘﻲ ﭘﺎراﻣﺘﺮﻫﺎي ﻫﺮ ﺗﻮزﻳﻊ را ﺑﻪ دﺳﺖ آورد‪.‬‬
‫• در ﮔﺎم ‪ ،E‬ﺑﺮ اﺳﺎس داﻧﺶ ﻓﻌﻠﻲ‪ ،‬اﻳﻦ ﺑﺮﭼﺴﺐﻫﺎ‬
‫ﺗﻘﺮﻳﺐ زده ﻣﻲﺷﻮﻧﺪ‪.‬‬
‫• در ﮔﺎم ‪ ،M‬ﺑﺮ اﺳﺎس ﺗﺨﻤﻴﻦ زده ﺷﺪه‪ ،‬اﻃﻼﻋﺎﺗﻲ ﻛﻪ‬
‫در ﻣﻮرد ﻛﻼس دارﻳﻢ‪ ،‬را ﺑﻪ روز ﻣﻲﻛﻨﻴﻢ‪.‬‬
‫اﻳﻦ دو ﮔﺎم ﭼﻪ ﺷﺒﺎﻫﺘﻲ ﺑﺎ دو ﻣﺮﺣﻠﻪي ‪ k-means‬دارﻧﺪ؟‬
‫‪23‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫)…‪EM in Gaussian Mixtures (cnt’d‬‬

‫• ﺑﺮدار ‪ zt‬ﻣﺘﻐﻴﺮ ﭘﻨﻬﺎن در اﻳﻦ ﻣﺴﺄﻟﻪ اﺳﺖ‪.‬‬


‫{‬
‫‪z t = z1t ,‬‬ ‫‪, zkt‬‬ ‫}‬
‫• ‪ zti = 1‬اﮔﺮ ‪ xt‬ﺑﻪ ﺧﻮﺷﻪي ‪‐i‬ام ﺗﻌﻠﻖ داﺷﺘﻪ ﺑﺎﺷﺪ‪.‬‬
‫– اﻳﻦ ﻣﺘﻐﻴﺮ داراي ﺗﻮزﻳﻊ ﭼﻨﺪﺟﻤﻠﻪاي اﺳﺖ‪.‬‬
‫– در واﻗﻊ ﺷﺒﻴﻪ ﺑﻪ ‪ r ti‬در ﺣﺎﻟﺖ ﺑﺎﻧﺎﻇﺮ اﺳﺖ‪.‬‬

‫اﮔﺮ ‪z‬ﻫﺎ ﻣﺸﺨﺺ ﺑﺎﺷﻨﺪ‪ ،‬ﻣﺎﻧﻨﺪ ﺣﺎﻟﺖ »ﺑﺎﻧﺎﻇﺮ« اﺳﺖ‪:‬‬

‫= ) ‪P(Ci‬‬
‫‪∑t i‬‬
‫‪r‬‬ ‫‪t‬‬

‫= ‪mi‬‬
‫‪∑t i x‬‬
‫‪r‬‬ ‫‪t t‬‬

‫‪N‬‬ ‫‪∑t i‬‬


‫‪r‬‬ ‫‪t‬‬

‫‪∑t i‬‬
‫‪r‬‬ ‫‪t‬‬
‫(‬
‫‪x‬‬ ‫‪t‬‬
‫‪−‬‬ ‫‪m‬‬ ‫‪l +1‬‬
‫()‬
‫‪x‬‬ ‫‪t‬‬
‫‪−‬‬ ‫‪m‬‬ ‫‪l +1‬‬
‫)‬
‫‪T‬‬

‫= ‪Si‬‬
‫‪i‬‬ ‫‪i‬‬

‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬ ‫‪∑r‬‬ ‫‪t i‬‬


‫‪t‬‬ ‫‪24‬‬
EM in Gaussian Mixtures (cnt’d…)

‫ ﻣﻘﺎدﻳﺮ ﻣﺘﻐﻴﺮ ﭘﻨﻬﺎن را ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ‬،‫• در ﮔﺎم ﻧﺨﺴﺖ‬


:‫داﻧﺶ ﻓﻌﻠﻲ ﺗﻘﺮﻳﺐ ﻣﻲزﻧﻴﻢ‬
( ) ( )
hit ≡ P Gi | x , Φ = P zi = 1 | x , Φ =
t l t t l p (x t
| G , Φ l
)P(Gi )
( )P (G j )
i

∑j p x t
| G j , Φ l

P(Gi ) = π i
( ) (
pi x t = p x t | Gi )

‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
( ) [
Q Φ | Φ l = E LC (Φ | X, Z ) | X, Φ l ] 25
EM in Gaussian Mixtures (cnt’d…)
(
M - step : Φ l +1 = arg max Q Φ | Φ l
Φ
)

[ ] ( )
E zit | x t , Φ l = P zit = 1 | x t , Φ l = hit

26
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
EM in Gaussian Mixtures (cnt’d…)
M - step : Φ l +1 = arg max Q Φ | Φ l
Φ
( )
‫ در اﻳﻦ ﻣﺮﺣﻠﻪ ﺑﺮ اﺳﺎس ﭘﺎرﻣﺘﺮﻫﺎي‬:E ‫• در ﮔﺎم‬
‫ام(؛ ﭘﺎراﻣﺘﺮﻫﺎ ﺑﻪ ﮔﻮﻧﻪاي اﻧﺘﺨﺎب‬-l ‫ﻓﻌﻠﻲ)ﺗﻜﺮار‬
:‫ ﻣﺎﻛﺰﻳﻤﻢ ﺷﻮد‬Q ‫ﻣﻲﺷﻮﻧﺪ ﻛﻪ‬
P(Gi ) = π i , ∑ π i = 1

P(C ) =
∑ r t i
t

=
∑ rx
t i
t t

∑t h
mi
t
∑r
i t
N
P(Gi ) =
i t i

N ( )(
∑t rit xt − m li +1 xt − m li +1 )
T

Si =
∑r t i
t

Soft label

∑t i x
h t t
∑t i
h t
x(t
− m l +1
x t
−)(
m l +1
)
T

m li +1 = S li +1 =
i i
27
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬ ∑h t i
t
∑h t i
t
‫ﻣﺜﺎل‬

‫‪P(G1|x)=h1=0.5‬‬

‫‪28‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫ﻣﺜﺎل‬

‫‪29‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬ ‫ﺑﺮ ﮔﺮﻓﺘﻪ از وﻳﻜﻲﭘﺪﻳﺎ‬
‫ﺟﻤﻊﺑﻨﺪي‬
‫‪initialize Φ 0‬‬‫• ﭘﺎراﻣﺘﺮﻫﺎي اوﻟﻴﻪ ﻣﻘﺪاردﻫﻲ ﻣﻲﺷﻮد‪:‬‬
‫• ﺗﺎ زﻣﺎﻧﻲ رﺳﻴﺪن ﺑﻪ ﻫﻤﮕﺮاﻳﻲ ﺗﻜﺮار ﻛﻦ‪:‬‬
‫را ﺗﻘﺮﻳﺐ ﺑﺰن‬ ‫(‬ ‫)‬
‫– ﮔﺎم ‪P Z | X , Φ l :E‬‬
‫– ﮔﺎم ‪Φ l +1 = arg max Q (Φ | Φ l ) :M‬‬
‫‪Φ‬‬

‫• ﺑﺮاي ﻣﻘﺪاردﻫﻲ اوﻟﻴﻪ‪ ،‬از ‪ K‐means‬اﺳﺘﻔﺎده ﻣﻲﺷﻮد‪،‬‬


‫ﺑﻌﺪ از ﭼﻨﺪ ﺗﻜﺮار‪ ،‬ﺗﺨﻤﻴﻦ ﻣﻴﺎﻧﮕﻴﻦ ﻣﺤﺎﺳﺒﻪ ﺷﺪه و‬
‫ﭘﺲ از ﻣﺸﺨﺺ ﺷﺪن اﻋﻀﺎي ﻫﺮ ﺧﻮﺷﻪ‪ ،‬ﻣﺎﺗﺮﻳﺲ‬
‫ﻛﻮارﻳﺎﻧﺲ ﺗﺨﻤﻴﻦ زده ﺷﺪه و )‪ P(Gi‬ﺗﺨﻤﻴﻦ زده ﺷﺪه و‬
‫اﻟﮕﻮرﻳﺘﻢ ‪ EM‬آﻏﺎز ﻣﻲﺷﻮد‪.‬‬

‫‪30‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫)‪Expectation-Maximization (EM‬‬

‫• در ﺻﻮرﺗﻲ ﻛﻪ دادهﻫﺎ ﺑﺎ ﺗﻮزﻳﻊ ﮔﺎوﺳﻲ در ﻧﻈﺮ ﮔﺮﻓﺘﻪ‬


‫) ‪hi ≡ P (Gi | x , Φ‬‬
‫‪t‬‬ ‫‪t‬‬ ‫‪l‬‬
‫ﺷﻮﻧﺪ‪:‬‬

‫• ﻣﺎﻧﻨﺪ روشﻫﺎي ﭘﺎراﻣﺘﺮي در اﻳﻦ ﺟﺎ ﻧﻴﺰ در ﺣﺎﻟﺘﻲ ﻛﻪ‬


‫دادهﻫﺎي آﻣﻮزﺷﻲ ﻛﻢﺗﻌﺪاد اﺳﺖ ﻳﺎ اﺑﻌﺎد ورودي‬
‫زﻳﺎد اﺳﺖ‪ ،‬ﻣﻲﺗﻮان از ﻣﺪلﻫﺎي ﺳﺎدهﺗﺮي اﺳﺘﻔﺎده‬
‫ﻛﺮد ﺗﺎ ﻣﺸﻜﻞ ‪ overfitting‬رخ ﻧﺪﻫﺪ‪.‬‬
‫‪31‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫اﻧﺘﺨﺎب ﻣﺪل‬

‫• در ﺻﻮرﺗﻲ ﻛﻪ ﺑﺮاي ﻫﻤﻪي ﺧﻮﺷﻪﻫﺎ ﻛﻮارﻳﺎﻧﺲ‬


‫ﻳﻜﺴﺎﻧﻲ در ﻧﻈﺮ ﺑﮕﻴﺮﻳﻢ‪ ،‬راﺑﻄﻪي ﻓﻮق ﺳﺎدهﺗﺮ‬
‫ﺧﻮاﻫﺪ ﺷﺪ‪:‬‬
‫• در ﺻﻮرﺗﻲ ﻛﻪ ﺗﻮزﻳﻊﻫﺎي ﻫﺮ ﺧﻮﺷﻪ‪ ،‬ﻧﺎﻫﻤﺒﺴﺘﻪ ﺑﻮده‬
‫و وارﻳﺎﻧﺲ ﻳﻜﺴﺎﻧﻲ داﺷﺘﻪ ﺑﺎﺷﻨﺪ‪:‬‬
‫• ﺑﺴﻴﺎر ﺷﺒﻴﻪ ﺑﻪ ‪ k‐means‬اﺳﺖ ‪ ،‬ﺑﺎ اﻳﻦ ﺗﻔﺎوت ﻛﻪ‬
‫ﻛﻪ ﺑﺮﭼﺴﺐﻫﺎ در اﻳﻦ ﺟﺎ ﺑﻴﻦ ﺻﻔﺮ و ﻳﻚ ﻫﺴﺘﻨﺪ‪.‬‬

‫‪32‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫اﻧﺘﺨﺎب ﻣﺪل )اداﻣﻪ‪(...‬‬

‫• در ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﻣﺎﺗﺮﻳﺲ ﻛﻮارﻳﺎﻧﺲ ﻳﻜﺴﺎن‪ ،‬ﻣﻮﺟﺐ‬


‫ﻧﺎدﻳﺪه ﮔﺮﻓﺘﻦ ﺷﻜﻞ واﻗﻌﻲ ﺧﻮﺷﻪﻫﺎ ﻣﻲﺷﻮد‪.‬‬
‫– در ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﻣﺎﺗﺮﻳﺲ ﻛﻮارﻳﺎﻧﺲ ﻗﻄﺮي ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ‬
‫ﻧﺎدﻳﺪه ﮔﺮﻓﺘﻦ ﻫﻤﺒﺴﺘﮕﻲﻫﺎ‪ ،‬ﺑﻪ ﻃﺮﻳﻖ اوﻟﻲ ﺳﺎﺧﺘﺎر‬
‫واﻗﻌﻲ را ﻧﺎدﻳﺪه ﻣﻲﮔﻴﺮد‪.‬‬
‫• ﭘﻴﺶ از ﺧﻮﺷﻪﺑﻨﺪي ﻣﻲﺗﻮان از روشﻫﺎي ﻛﺎﻫﺶ‬
‫اﺑﻌﺎد)‪ (PCA/FA‬ﺑﻬﺮه ﺑﺮد‪.‬‬
‫) ‪p(xt |Gi ) = N (m i , Vi V + ψ i‬‬
‫‪i‬‬
‫‪T‬‬

‫‪33‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫ﺧﻮﺷﻪﺑﻨﺪي ﺑﺮاي اﺳﺘﺨﺮاج داﻧﺶ‬
‫• ﻣﺎﻧﻨﺪ ﻛﺎﻫﺶ اﺑﻌﺎد ﺑﺮاي ﺧﻮﺷﻪﺑﻨﺪي ﻧﻴﺰ ﻣﻲﺗﻮان دو‬
‫ﻫﺪف ﻣﺘﻔﺎوت در ﻧﻈﺮ ﮔﺮﻓﺖ‪:‬‬
‫• »اﺳﺘﺨﺮاج داﻧﺶ«‪ :‬ﺑﺮاي ﻓﻬﻢ ﺑﻬﺘﺮ ﺳﺎﺧﺘﺎر دادهﻫﺎ ﻣﻮرد‬
‫اﺳﺘﻔﺎده ﻗﺮار ﻣﻲﮔﻴﺮد‪.‬‬
‫– ﻛﺎﻫﺶ اﺑﻌﺎد ﻫﻤﺒﺴﺘﮕﻲ ﺑﻴﻦ ﺧﺼﻴﺼﻪﻫﺎ را ﻣﻲﻳﺎﺑﺪ‪.‬‬
‫– ﺧﻮﺷﻪﺑﻨﺪي ﺷﺒﺎﻫﺖ ﺑﻴﻦ ﻧﻤﻮﻧﻪﻫﺎي داده را ﻣﺸﺨﺺ ﻣﻲﻛﻨﺪ‪.‬‬
‫• ﭘﺲ از ﺧﻮﺷﻪﺑﻨﺪي اﺳﺘﺨﺮاج داﻧﺶ ﺗﻮﺳﻂ ﻣﺘﺨﺼﺺ‬
‫ﻗﺎﺑﻞ اﻧﺠﺎم اﺳﺖ‪ ،‬ﻫﻤﭽﻨﻴﻦ ﭘﺎراﻣﺘﺮﻫﺎي ﺧﻮﺷﻪﺑﻨﺪي‬
‫ﻧﻈﻴﺮ ﻣﻴﺎﻧﮕﻴﻦ ﺧﻮﺷﻪﻫﺎ و ﺗﻌﺪاد آن ﻫﻢ ﻗﺎﺑﻞ اﺳﺘﻔﺎده‬
‫ﻣﻲﺑﺎﺷﺪ‪.‬‬
‫– از ﻛﺎﺑﺮدﻫﺎي ﻣﻲﺗﻮان ﺑﻪ ‪ CRM‬اﺷﺎره ﻛﺮد‪.‬‬

‫‪34‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫ﺧﻮﺷﻪﺑﻨﺪي ﺑﻪ ﻋﻨﻮان ﭘﻴﺶﭘﺮدازش‬
‫• ﻫﻤﺎنﮔﻮﻧﻪ ﻛﻪ در ﻛﺎﻫﺶ اﺑﻌﺎد‪ ،‬ﻓﻀﺎي ﺟﺪﻳﺪ ﺑﺮاي ﻓﺮآﻳﻨﺪﻫﺎي ﺑﻌﺪي‬
‫)دﺳﺘﻪﺑﻨﺪي‪ ،‬رﮔﺮﺳﻴﻮن( ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﻲﮔﻴﺮد‪ ،‬ﺧﻮﺷﻪﺑﻨﺪي ﻧﻴﺰ‬
‫دادهﻫﺎ را ﺑﻪ ﻳﻚ ﻓﻀﺎي ‪-k‬ﺑﻌﺪي ﻧﮕﺎﺷﺖ ﻣﻲﻛﻨﺪ‪ .‬اﺑﻌﺎد ﻓﻀﺎي ﺟﺪﻳﺪ‬
‫ﺷﺎﻣﻞ ﺑﺮﭼﺴﺐﻫﺎي ﺑﻪ دﺳﺖ آﻣﺪه اﺳﺖ )‪ h‬ﻳﺎ ‪ ،(b‬ﺑﺪﻳﻦﺗﺮﻳﺐ‬
‫ﻣﻤﻜﻦ ﺑﺎ اﻓﺰاﻳﺶ اﺑﻌﺎد ﻫﻢ ﻣﻮاﺟﻪ ﺷﻮﻳﻢ‪.‬‬
‫• در ﻛﺎﻫﺶ اﺑﻌﺎد ﻫﻤﻪي داده در ﻓﺮآﻳﻨﺪ ﻣﺸﺎرﻛﺖ دارﻧﺪ‪ ،‬در ﺣﺎﻟﻲ ﻛﻪ در‬
‫ﺧﻮﺷﻪﺑﻨﺪي ﻣﺸﺎرﻛﺖ ﺑﻪ ﺻﻮرت ﻣﺤﻠﻲ ﺻﻮرت ﻣﻲﭘﺬﻳﺮد‪.‬‬
‫• در ﺻﻮرت اﺳﺘﻔﺎده از ﭼﻨﻴﻦ ﭘﻴﺶﭘﺮدازشﻫﺎﻳﻲ ﻣﻲﺗﻮان از ﻳﻚ‬
‫ﻣﺠﻤﻮﻋﻪ دادهﻫﺎي ﺑﺪونﺑﺮﭼﺴﺐ در ﻓﺮآﻳﻨﺪ آﻣﻮزش ﺑﻬﺮه ﺑﺮد‪.‬‬

‫) ‪p(x |Ci ) = ∑ p(x |Gij )P (Gij‬‬


‫‪ki‬‬

‫‪j =1‬‬
‫‪Mixture of Mixtures‬‬ ‫‪K‬‬
‫) ‪p(x ) = ∑ p(x |Ci )P (Ci‬‬
‫‪35‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬ ‫‪i =1‬‬
‫‪Hierarchical Clustering‬‬
‫ﺧﻮﺷﻪﺑﻨﺪي ﺳﻠﺴﻠﻪﻣﺮاﺗﺒﻲ‬
‫• در ‪ k‐means‬ﻫﺪف ﻣﻴﻨﻴﻤﻢ ﻛﺮدن ﺧﻄﺎي ﺑﺎزﺳﺎزي‬
‫اﺳﺖ‪.‬‬
‫• در ﺧﻮﺷﻪﺑﻨﺪي ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﻲ‪ ،‬ﺗﻨﻬﺎ ﺷﺒﺎﻫﺖ ﺑﻴﻦ‬
‫ﻧﻤﻮﻧﻪﻫﺎ در ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﻣﻲﺷﻮد‪.‬‬
‫• اﻓﺰون ﺑﺮ ﻓﺎﺻﻠﻪي اﻗﻠﻴﺪﺳﻲ ﻣﻌﻴﺎرﻫﺎي دﻳﮕﺮي ﻧﻴﺰ در‬
‫ﻧﻈﺮ ﮔﺮﻓﺘﻪ ﻣﻲﺷﻮﻧﺪ‪:‬‬
‫∑[‬ ‫])‬
‫‪Minkowski‬‬
‫= ) ‪dm (x , x‬‬ ‫‪(x‬‬
‫‪1/ p‬‬
‫‪d‬‬ ‫‪s p‬‬
‫‪r‬‬ ‫‪s‬‬
‫‪j =1‬‬
‫‪r‬‬
‫‪j‬‬ ‫‪−x‬‬ ‫‪j‬‬

‫‪City-block distance‬‬
‫‪dcb (x , x ) = ∑ j =1 x rj − x sj‬‬
‫‪r‬‬ ‫‪s‬‬ ‫‪d‬‬

‫‪36‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫‪Agglomerative Clustering‬‬

‫• ﺑﺎ ‪ N‬ﺧﻮﺷﻪ ﻛﺎر آﻏﺎز ﻣﻲﺷﻮد؛ ﻫﺮ ﺧﻮﺷﻪ ﺷﺎﻣﻞ ﻳﻚ ﻧﻤﻮﻧﻪ‬


‫ﻣﻲﺑﺎﺷﺪ‪.‬‬
‫• ﺧﻮﺷﻪﻫﺎي ﻧﺰدﻳﻚ ﺑﻪ ﻫﻢ در ﻫﺮ ﺗﻜﺮار ﺑﺎ ﻫﻢ ادﻏﺎم ﻣﻲﺷﻮﻧﺪ‪.‬‬
‫– ﺑﺮاي اﻧﺘﺨﺎب ﮔﺮوهﻫﺎي ﻧﺰدﻳﻚ‪ ،‬دو ﻣﻌﻴﺎر ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار‬
‫ﻣﻲﮔﻴﺮد‪:‬‬
‫= ) ‪d (Gi , G j‬‬ ‫‪mins‬‬
‫‪x ∈Gi , x ∈G j‬‬
‫‪r‬‬
‫(‬
‫‪d xr , xs‬‬ ‫)‬ ‫‪Single-link‬‬

‫) ‪d (Gi , G j ) = r maxs d (x r , x s‬‬ ‫‪Complete-link‬‬


‫‪x ∈Gi ,x ∈G j‬‬

‫) ‪d (Gi , G j ) = r aves d (x r , x s‬‬ ‫‪Average-link, centroid‬‬


‫‪x ∈Gi , x ∈G j‬‬

‫• اﻳﻦ روﻧﺪ ﺗﺎ زﻣﺎﻧﻲ ﻛﻪ ﺗﻨﻬﺎ ﻳﻚ ﺧﻮﺷﻪ وﺟﻮد داﺷﺘﻪ ﺑﺎﺷﺪ‪،‬‬


‫اداﻣﻪ ﻣﻲﻳﺎﺑﺪ‪.‬‬

‫‪37‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫‪Agglomerative Clustering‬‬

‫‪Dendrogram‬‬

‫‪Divisive Clustering‬‬
‫در اﻳﻦ ﺷﻴﻮه ﺑﻪ ﺻﻮرت ﻋﻜﺲ ﻋﻤﻞ ﻣﻲﺷﻮد؛ از ﻳﻚ ﺧﻮﺷﻪ ﻛﺎر آﻏﺎز‬
‫ﺷﺪه و ﺧﻮﺷﻪﻫﺎ در ﻫﺮ ﺗﻜﺮار ﺑﻪ ﺧﻮﺷﻪﻫﺎي ﻛﻮﭼﻚﺗﺮ ﺗﻘﺴﻴﻢ ﻣﻲﺷﻮﻧﺪ ﺗﺎ‬
‫زﻣﺎﻧﻲ ﻛﻪ ﻫﺮ ﺧﻮﺷﻪ ﺷﺎﻣﻞ ﻳﻚ ﻧﻤﻮﻧﻪ ﺑﺎﺷﺪ‪.‬‬ ‫‪38‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬
‫‪single-link clustering‬‬ ‫ﻣﻘﺎﻳﺴﻪي ﻣﻌﻴﺎرﻫﺎي ﻓﺎﺻﻠﻪ‬

‫اﻳﻦ ﻣﻌﻴﺎر ﺑﻪ ﻧﻮﻳﺰ و دادهﻫﺎي ﭘﺮت ﺣﺴﺎس اﺳﺖ و ﺧﻮﺷﻪﻫﺎي‬


‫»ﻛﺸﻴﺪه« اﻳﺠﺎد ﻣﻲﻛﻨﺪ‪.‬‬

‫‪39‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬ ‫‪CAS CS 565, Data Mining, Boston Uinversity‬‬
‫‪complete-link clustering‬‬
‫ﻣﻘﺎﻳﺴﻪي ﻣﻌﻴﺎرﻫﺎي ﻓﺎﺻﻠﻪ‬

‫ﺧﻮﺷﻪﻫﺎي ﺑﺰرگ را ﻣﻲﺷﻜﻨﺪ‪ ،‬ﺧﻮﺷﻪﻫﺎ ﺑﺎ ﻗﻄﺮ ﻳﻜﺴﺎن ﺗﻮﻟﻴﺪ ﻣﻲﻛﻨﺪ‪.‬‬


‫ﺧﻮﺷﻪﻫﺎي ﻛﻮﭼﻚ را ﺑﺎ ﺧﻮﺷﻪﻫﺎي ﺑﺰرك ادﻏﺎم ﻣﻲﻛﻨﺪ‪.‬‬
‫‪40‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬ ‫‪CAS CS 565, Data Mining, Boston Uinversity‬‬
‫اﻧﺘﺨﺎب ﺗﻌﺪاد ﺧﻮﺷﻪﻫﺎ‬
‫در ﺑﺮﺧﻲ ﻛﺎرﺑﺮدﻫﺎ‪ ،‬ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻧﻴﺎز ‪ k‬ﻣﺸﺨﺺ ﻣﻲﺷﻮد‪ ،‬ﻣﺎﻧﻨﺪ‬ ‫•‬
‫‪color quantization‬‬
‫اﺳﺘﻔﺎده از ‪ PCA‬و رﺳﻢ دادهﻫﺎ در دو ﺑﻌﺪ ﻣﻲﺗﻮاﻧﺪ ﺳﺎﺧﺘﺎر‬ ‫•‬
‫دادهﻫﺎ را ﺗﺎ ﺣﺪي ﻣﺸﺨﺺ ﻛﺮده و اﻧﺘﺨﺎب ﻣﻨﺎﺳﺐ ‪ k‬ﻛﻤﻚ‬
‫ﻛﻨﺪ‪.‬‬
‫اﺳﺘﻔﺎده از روشﻫﺎي اﻓﺰاﻳﺸﻲ )‪(leader‐cluster‬‬ ‫•‬
‫در ﺑﺮﺧﻲ ﻛﺎرﺑﺮدﻫﺎ ﺑﻌﺪ از اﻧﺠﺎم ﺧﻮﺷﻪﺑﻨﺪي‪ ،‬ﺑﻪ ﺻﻮرت دﺳﺘﻲ‬ ‫•‬
‫ﻣﻲﺗﻮان ﻣﻨﺎﺳﺐ ﺑﻮدن ﺧﻮﺷﻪﻫﺎ را ﺑﺮرﺳﻲ ﻛﺮد؛ ﺑﻪ ﻋﻨﻮان‬
‫ﻣﺜﺎل در ﺑﺮﺧﻲ ﻛﺎرﺑﺮدﻫﺎي دادهﻛﺎوي‬
‫ﺑﺴﺘﻪ ﺑﻪ ﻧﻮع اﻟﮕﻮرﻳﺘﻢ ﺧﻮﺷﻪﺑﻨﺪي ﻣﻮرد اﺳﺘﻔﺎده ﻣﻲﺗﻮان‬ ‫•‬
‫ﻧﻤﻮدار ﺧﻄﺎي ﺑﺎزﺳﺎزي ﺑﺮ ﺣﺴﺐ ‪ k‬را رﺳﻢ ﻛﺮده و ر اﻳﻦ‬
‫اﺳﺎس ﻣﻘﺪار ﻣﻨﺎﺳﺐ ﺗﻌﺪاد ﺧﻮﺷﻪﻫﺎ را ﻳﺎﻓﺖ‪.‬‬

‫‪41‬‬
‫ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ‬

You might also like