Professional Documents
Culture Documents
03 Similarity Dissimilarity
03 Similarity Dissimilarity
⎡ x ... x ⎤
⎢ 11 1p ⎥
⎢ ... ... ... ⎥
⎢ ⎥
⎢ xn1 ... xnp ⎥
⎣ ⎦
Data Matrix vs Dissimilarity Matrix
(cont)
• Dissimilarity matrix (object-by-object structure): Matriks
yang berisi kumpulan dari nilai dissimilarity sepasang obyek
sebanyak n obyek, disebut juga n-by-n table:
⎡ 0 ⎤
⎢ ⎥
⎢ d(2,1) 0 ⎥
⎢ d(3,1) d(3,2) 0 ⎥
⎢ ⎥
⎢ ! ! ! ⎥
⎢ d(n,1) d(n,2) ! ! 0 ⎥
⎣ ⎦
dimana d(i,j) adalah nilai dissimilarity atau jarak antar obyek i
dan j.
Data Matrix vs Dissimilarity Matrix
(cont)
• Nilai similarity dapat dinyatakan dengan fungsi
dissimilarity.
• Untuk data nominal:
sim(i, j) = 1− d (i, j)
dimana sim(i,j) adalah similarity antara obyek i dan j.
• Data Matrix à 2 entitas (two-mode matrix), baris
(obyek) dan kolom (atribut)
• Dissimilarity Matrix à 1 entitas (one-mode matrix).
• Clustering, nearest-neighbour à sering menggunakan
dissimilarity matrix
• Data matrix dapat dikonversi ke dissimilarity matrix
Proximity Measure Atribut Nominal
• Atribut nominal dapat memiliki dua atau lebih
nilai/state. Contoh: warna
• Nilai/state dalam atribut nominal memiliki derajat yang
sama.
• Dissimilarity antara obyek i dan j dapat dihitung
menggunakan rumus:
p−m
d(i, j) =
p
dimana m adalah jumlah nilai/state yang sama antara i
dan j, sedangkan p adalah jumlah atribut dalam dataset.
• Bobot dapat ditambahkan untuk menaikkan
pengaruh/efek dari m.
Dataset-1
• Dataset dengan tipe nilai atribut campuran:
Back
Contoh kasus
• Menggunakan data pada Dataset-1 (hanya atribut
identifier dan test-1 yg digunakan), maka dapat
dihitung dissimilarity matrix sbb:
⎡ 0 ⎤
⎢ ⎥ ⎡ 0 ⎤
⎢ d(2,1) 0 ⎥ ⎢ ⎥
⎢ d(3,1) d(3,2) 0 ⎥ ⎢ 1 0 ⎥
⎢ ⎥ ⎢ ⎥
⎢ ! ! ! ⎥ 1 1 0
⎢ ⎥
⎢ d(n,1) d(n,2) ! ! 0 ⎥ ⎣ 0 1 1 0 ⎦
⎣ ⎦
1− 0 1−1
d(2,1) = =1 d(4,1) = =0
1 1
back
Proximity Measure Atribut Biner
• Atribut biner à 0 (absent) dan 1 (present)
• Jika seluruh atribut data dalam dataset memiliki bobot
yang sama, maka dapat digunakan Tabel Contigency:
back
Contoh kasus (cont)
• Langkah 1: Ganti tiap nilai dengan nilai rankingnya,
fair à1, goodà2, excellentà3
• Langkah 2: Normalisasi data ke range [0,0 , 1,0]
3−1 1−1 2 −1
z1 f = = 1 z2 f = =0 z3 f = = 0,5
3−1 3−1 3−1
• Langkah 3: Hitung dissimilarity matrix
menggunakan rumus jarak Euclidean
⎡ 0 ⎤
⎢ ⎥
⎢ 1,0 0 ⎥
⎢ 0,5 0,5 0 ⎥
⎢ ⎥
⎢⎣ 0 1,0 0,5 0 ⎥⎦
Proximity Measure Atribut Campuran
• Data riil à atribut campuran
• Perhitungan nilai atribut campuran à cara terpisah per
masing-masing atribut (hasilnya harus kompatibel), dan cara
dihitung semua atribut sekaligus
• Misal dataset terdiri dari p jumlah atribut bertipe campuran,
maka dissimilarity antara obyek i dan j adalah:
p
∑ δij( f ) dij( f )
f =1
d(i, j) = p
∑ δij( f )
f =1
dimana δij(f)=0 jika (1) xif atau xjf missing, atau
(2) xif = xjf = 0 dan atribut f biner asimetris
selain itu δij(f)=1
Proximity Measure Atribut Campuran
(cont)
• Sedangkan untuk perhitungan dissimilarity
antara obyek i dan j (dij(f)) dihitung berdasarkan
tipe atributnya:
xif − x jf
▫ Jika f numerik: d (f)
ij
=
max h xhf − min h xhf
▫ Jika f nominal atau biner: dij( f ) = 0 jika xif = xjf selain itu
dij( f ) = 1
▫ Jika f ordinal: hitung rif dan zif
rif −1
zif =
M f −1
Contoh kasus
• Menggunakan data pada Dataset-1 (seluruh
atribut digunakan) maka dapat dihitung
dissimilarity matrix sbb:
▫ Untuk atribut test-1 dan test-2 telah dihitung
sebelumnya
▫ Untuk aribut test-3 (numerik) maka nilai dij(3):
(3)
22 − 45 (3)
64 − 45
d 21
= = 0,55 d 31
= = 0,45
64 − 22 64 − 22
dengan nilai maxhxh = 64 dan minhxh = 22
Contoh kasus (cont)
• Maka didapatkan dissimilarity matrix untuk atribut
test-3 sbb:
⎡ 0 ⎤
⎢ ⎥
⎢ 0,55 0 ⎥
⎢ 0,45 1,00 0 ⎥
⎢ ⎥
⎢⎣ 0,40 0,14 0,86 0 ⎥⎦
⎡ ⎤ ⎡ 0 ⎤ ⎡ 0 ⎤
0 ⎢ ⎥ ⎢ ⎥
⎢ ⎥
⎢ 1 0 ⎥ ⎢ 1,0 0 ⎥ ⎢ 0,55 0 ⎥
⎢ ⎥ ⎢ 0,5 0,5 0 ⎥ ⎢ 0,45 1,00 0 ⎥
1 1 0 ⎢ ⎥ ⎢ ⎥
⎢ ⎥ 0 1,0 0,5 0 ⎥⎦
⎣ 0 1 1 0 ⎦ ⎢⎣ ⎢⎣ 0,40 0,14 0,86 0 ⎥⎦
Test-1 Test-2 Test-3
Contoh kasus (cont)
• Nilai δij(f)=1 untuk masing-masing atribut: