Nenad@matf BG Ac Rs

Мере сличности
Ненад Митић
Математички факултет
nenad@matf.bg.ac.rs
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере
Увод
Како одредити сличност/различитост

обjеката, образаца, атрибута, догађаjа, ...
Подаци - различит тип, структура, расподела,
димензионалност, ...
Термин близина (енг. proximity) означава и
сличност и различитост
Увод - наставак
Функциjе сличности - већа вредност −→ већа

сличност
Различитост - нумеричка мера колико су два
обjекта, атрибута, ... различити
Сличност често [0,1], а различитост у [0,+∞)
Растоjање - синоним за различитост
Функциjа растоjања - мања вредност −→
већа сличност
Увод - наставак
Пример: функциjе сличности/различитости атрибута p и q
Тип атрибута Сличност

( Различитост
(
1 ako p = q 1 ako p 6= q
Номинални s= d=
6 q
0 ako p = 0 ako p = q
Редни s = 1 − |p−q|
n−1 d= |p−q|
n−1
Вредности се пресликаваjу у скуп [0, n − 1] где jе n броj вредности
Интервални или s = −d, s = 1+1 d , d = |p − q|

d−mind
размерни s = 1 − max −min
d d
Мера и метрика
Функциjа растоjања d jе метрика ако важи

1 Позитивна одређеност
d(p, q) ≥ 0 ∀ p, q
d(p, q) = 0 акко p = q
2 Симетриjа: d(p, q) = d(q, p) ∀ p, q
3 Неjеднакост троугла:
d(p, r ) ≤ d(p, q) + d(q, r ) ∀ p, q, r
Ултраметрика
Ако jе функциjа растоjања d метрика и ако важи

d(p, r ) ≤ max{d(p, q), d(q, r )} ∀ p, q, r
тада jе функциjа d ултраметрика
Примери мера
коjе jесу метрика/ултраметрика?
коjе нису метрика/ултраметрика?
Мере сличности за квантитативне

податке
Растоjање између две тачке у n димензионом простору
X = (x1 , x2 , ..., xn ) i Y = (y1 , y2 , ..., yn )
Хамингово растоjање
(
n
1, ako xi 6= yi
Hamming (X , Y ) = ∑ qi где jе qi =
i =1 0, иначе
Наjчешће коришћена мера jе растоjање Минковског

или Lp мера
!1/p
n
p
Dist(X , Y ) = ∑ | xi − yi |
i =1
Растоjање Минковског
Специjални случаjеви
p = 1 - Градски блок (такси, Менхетн, ...)
p = 2 - Еуклидско растоjање
p → ∞ супремум растоjање (Lmax , L∞ норма) =
max1≤i≤n |xi − yi |
Не мешати n (броj димензиjа података) и p
(величина параметра)
Растоjање Минковског - недостаци
Ниjе погодно за примену

код ретких вишедимензионалних података са
непознатом расподелом, шумовима, ...
ако постоjе локално ирелевантни атрибути
(пример: анализа крви пациjената оболелих
од различитих болести) због шума коjи се
кумулира при израчунавању
Махаланобисово растоjање
q
Maha(X , Y ) = (X − Y )Σ−1 (X − Y )T
где jе Σ−1 инверзна матрица матрице ковариjанси

података
Махаланобисово растоjање
Корисно jе када важи

атрибути су у корелациjи
атрибути имаjу различите опсеге вредности
(различите вариjансе)
расподела података jе приближно нормална
(Гаусова)
Утицаj расподеле на растоjање

Међусобно растоjање тачака A(−6.8, −2.9) i
B(6.8, 3.1)
Еуклидско растоjање тачака jе 14.7, а

Махаланобисово 6
Растоjање Минковског са тежинама
У случаjу да jе потребно доделити тежинске

факторе ai хетерогеним атрибутим i
!1/p
d
Dist(X , Y ) = ∑ ai × | xi − yi |p
i=1
Мере сличности података са бинарним

атрибутима
Сличност два слога X = (x1 , x2 , ..., xd ) i

Y = (y1 , y2 , ..., yd ) са бинарним атрибутима се
може дефинисати помоћу
M01 =броj атрибута коjи су jеднаки 0 у X и 1 у Y

Jедноставно и Жакардово упаривање

коефициjеана
Jедноставно упаривање коефициjената (енг. Simple

Matching Coefficient, SMC)
SMC =броj упарених/броj атрибута =
(M11 + M00 )/(M01 + M10 + M11 + M00 )
Жакардови коефициjенти - асиметрични атрибути
J=броj парова 11/броj атрибута где нису обе
вредности 0 = M11 /(M01 + M10 + M11 )
Проширени Жакардови коефициjенти

(коефициjенти Танимотоа)
Вариjанта Жaкардових коефициjената применљива

на aтрибуте са непрекидним и преброjивим
вредностима
У случаjу атрибута са бинарним вредностима
редукуjе се на Жакардове коефициjенте
X •Y
T (X , Y ) =
||X ||2 + ||Y ||2 − X • Y
Косинусна сличност
Нека су X = (x1 , x2 , ..., xn ) и Y = (y1 , y2 , ..., yn ) два вектора

докумената. Њихова сличност може да се израчуна као
X •Y
cos(X , Y ) =
||X || × ||Y ||
odnosno
d
∑ xi × yi
i=1
cos(X , Y ) =
p d p d
( ∑ xi2 ) × ( ∑ yi2 )
i=1 i=1
Косинусна сличност
Користи се код великог броjа парова ’00’ при чему може

да буде примењена и на не-бинарне векторе (касниjе-
пример са документима)
Primer:
d1 = 3 2 0 5 0 0 0 2 0 0
d2 = 1 0 0 0 0 0 0 1 0 2
d1 · d2 = 3*1+2*0+0*0+5*0+0*0+0*0+0*0+2*1+0*0+0*2 = 5
||d1 || = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42)0.5 = 6.481
||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2)0.5 = (6)0.5 = 2.245
cos(d1,d2) = 0.34365
Корелациjа
Корелациjа два обjекта коjи имаjу бинарне или непрекидне
атрибуте jе мера линеарног односа између њихових
атрибута
n
1
ковариjанса(x, y ) = covxy = (xk − x)(yk − y )
n − 1 k∑
=1
s
n
1 2
стандардна девиjациjа(x) = σx = ∑ (xk − x)
n − 1 k=1
1 n
средња вредност(x) = x = xk
n k∑
=1
Пирсонов коефициjент корелациjе(x, y ) = ρxy = covxy /(σx ∗ σy )

Корелациjа
Ако jе корелациjа =1 (-1) → перфектно позитиван

(негативан) линеарни однос xk = ayk + b
Мере сличности за категоричке податке
Сличност два податка X = (x1 , x2 , ..., xn ) i

Y = (y1 , y2 , ..., yn ) са категоричким атрибутима се
може дефинисати преко сличности поjединачних
атрибута
n
Sim(X , Y ) = ∑ S(xi , yi )
i=1
Мере сличности за категоричке податке
(
1 ако xi = yi
Наjjедноставниjи случаj: S(xi , yi ) =
0 иначе
Не узима се у обзир релативна фреквенциjа
атрибута
Користи се агрегирање статистичких особина
Мање фреквентне упарене вредности имаjу
већу тежину
Сличност атрибута
Нека jе pk (x) броj слогова у коjима k-ти атрибут узима
вредност x
Мере коjе укључуjу учесталост (фреквенциjу) су
Инверзна учесталост поjављивања
(
1/pk (xi )2 , ako xi = yi
S(xi , yi ) =
0, inače
’Поjављивање jе добро’. Већа сличност се постиже

када jе вредност мање учестала
(
1 − pk (xi )2 , ako xi = yi
S(xi , yi ) =
0, inače
Сличност докумената
Сличност два документа се боље оцењуjе ако се

користе речи коjе су заjедничке
За нормализациjу упаривања речи у случаjевима
када има речи коjе се ретко jављаjу и коjе се често
jављаjу (везници, ...) користи се инверзна функциjа
броjа докумената ni у коме се jавља реч i у укупном
броjу докумената n:
idi = log (n/ni )
За смањење могућност да поjава неке честе речи

утиче на сличност докумената могу да се користе и
функциjе
f (xi ) = sqrt(xi )
f (xi ) = log (xi )
Сличност докумената
нормализована фреквенциjа за i-ту реч може да се

дефинише као
h(xi ) = f (xi ) · idi
Косинусно и Жакардово растоjање докумената са
нормализованом фреквенциjом речи су
d
∑ h(xi ) × h(yi )
i =1
cos(X , Y ) = s s
d d
∑ h(xi )2 × ∑ h(yi )2
i =1 i =1
d
∑ h(xi ) × h(yi )
i =1
J(X , Y ) =
d d d
∑ h(xi )2 + ∑ h(yi )2 − ∑ h(xi ) × h(yi )
i =1 i =1 i =1
Подаци са квантитативним и
категоричким атрибутима
Сличност два слога X = (X n , X c ) i Y = (Y n , Y c ) са

’мешаним’ (квантитативним и категоричким) атрибутима
Sim(X , Y ) = λ × NumSim(X n , Y n ))+

(1 − λ ) × CatSim(X c , Y c ))
где λ одређуjе релативну важност категоричких и

нумеричких атрибута
Сличност дискретних података

Едит растоjање, растоjање за трансформациjе
X = (x1 , x2 , ..., xm ) у Y = (y1 , y2 , ..., yn ).
За првих i симбола из X и првих j симбола Y
цена трансформациjе jе

Edit(i − 1, j) + цена брисања

Edit(i, j) = min Edit(i, j − 1) + цена уметања

Edit(i − 1, j − 1) + I × цена замене
ij
где jе Iij индикатор jеднакости i-тог симбола X и

j-тог симбола Y
Пример: трансформациjа абабабабаб у бабабаба
Сличност дискретних података

Сличност на основу наjдуже заjедничке подниске
За првих i симбола из X = (x1 , x2 , ..., xm ) и првих j симбола
из Y = (y1 , y2 , ..., yn ), у ознаци X i и Y i наjдужа заjедничка
подниска (енг. Longest Common SubSequence, LCSS)

LCSS(i − 1, j − 1) + 1 ako xi = yi

LCSS(i, j) = max LCSS(i − 1, j) xi nije upareno

LCSS(i, j − 1) yj nije upareno
Већа вредност означава већу сличност; броj

подниски директно зависи од дужине ниски
Пример: одредити LCSS(агбфцгдђхе,афбгцхдише)
Мере на основу информациjа

Мере сличности засноване на теориjи
информациjа
Ентропиjа
X - догађаj са n могућих исхода x1 , ..., xn
Вероватноћа исхода jе p1 , ..., pn
Ентропиjа догађаjа X jе
n
H(X ) = − ∑ pi log2 pi
i=1
H(X ) ∈ [0, log2 n] представља меру колико

битова jе потребно у просеку за представљање
догађаjа X
Мере на основу густина
Мери се степен блискости обjеката у некоj

области
Концепт густине се користи у кластеровању и
откривању аномалиjа
Нечешће се користе
Еуклидска густина - броj тачака по jединици
површине/запремине
Густина вероватноће - процена дистрибуциjе
података на основу изгледа
Граф засноване густине - на основу повезаности

Пример: Еуклидска густина заснована на ћелиjама - подела
региона на неки броj ћелиjа и дефинисање густине преко
броjа тачака у ћелиjама
Пример: Еуклидска густина заснована на центру - броj

ћелиjа на одређеноj удаљености од централне тачке

Nenad@matf BG Ac Rs

Uploaded by

Copyright:

Available Formats

You might also like

Nenad@matf BG Ac Rs

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Nenad@matf BG Ac Rs

Uploaded by

Copyright:

Available Formats

Мере сличности

Како одредити сличност/различитост

Функциjе сличности - већа вредност −→ већа

Пример: функциjе сличности/различитости атрибута p и q

Тип атрибута Сличност

Интервални или s = −d, s = 1+1 d , d = |p − q|

Функциjа растоjања d jе метрика ако важи

Ако jе функциjа растоjања d метрика и ако важи

Мере сличности за квантитативне

Наjчешће коришћена мера jе растоjање Минковског

Растоjање Минковског - недостаци

Ниjе погодно за примену

где jе Σ−1 инверзна матрица матрице ковариjанси

Корисно jе када важи

Утицаj расподеле на растоjање

Еуклидско растоjање тачака jе 14.7, а

Растоjање Минковског са тежинама

У случаjу да jе потребно доделити тежинске

Мере сличности података са бинарним

Сличност два слога X = (x1 , x2 , ..., xd ) i

M01 =броj атрибута коjи су jеднаки 0 у X и 1 у Y

Jедноставно и Жакардово упаривање

Jедноставно упаривање коефициjената (енг. Simple

Проширени Жакардови коефициjенти

Вариjанта Жaкардових коефициjената применљива

Нека су X = (x1 , x2 , ..., xn ) и Y = (y1 , y2 , ..., yn ) два вектора

Користи се код великог броjа парова ’00’ при чему може

Пирсонов коефициjент корелациjе(x, y ) = ρxy = covxy /(σx ∗ σy )

Ако jе корелациjа =1 (-1) → перфектно позитиван

Мере сличности за категоричке податке

Сличност два податка X = (x1 , x2 , ..., xn ) i

Мере сличности за категоричке податке

’Поjављивање jе добро’. Већа сличност се постиже

Сличност два документа се боље оцењуjе ако се

За смањење могућност да поjава неке честе речи

нормализована фреквенциjа за i-ту реч може да се

Сличност два слога X = (X n , X c ) i Y = (Y n , Y c ) са

Sim(X , Y ) = λ × NumSim(X n , Y n ))+

где λ одређуjе релативну важност категоричких и

Сличност дискретних података

где jе Iij индикатор jеднакости i-тог симбола X и

Сличност дискретних података

Већа вредност означава већу сличност; броj

Мере на основу информациjа

H(X ) ∈ [0, log2 n] представља меру колико

Мере на основу густина

Мери се степен блискости обjеката у некоj

Мере на основу густина

Мере на основу густина

Пример: Еуклидска густина заснована на центру - броj

You might also like