Nenad@matf BG Ac Rs

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 32

Мере сличности

Ненад Митић
Математички факултет
nenad@matf.bg.ac.rs
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Увод

Како одредити сличност/различитост


обjеката, образаца, атрибута, догађаjа, ...
Подаци - различит тип, структура, расподела,
димензионалност, ...
Термин близина (енг. proximity) означава и
сличност и различитост
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Увод - наставак

Функциjе сличности - већа вредност −→ већа


сличност
Различитост - нумеричка мера колико су два
обjекта, атрибута, ... различити
Сличност често [0,1], а различитост у [0,+∞)
Растоjање - синоним за различитост
Функциjа растоjања - мања вредност −→
већа сличност
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Увод - наставак

Пример: функциjе сличности/различитости атрибута p и q

Тип атрибута Сличност


( Различитост
(
1 ako p = q 1 ako p 6= q
Номинални s= d=
6 q
0 ako p = 0 ako p = q
Редни s = 1 − |p−q|
n−1 d= |p−q|
n−1
Вредности се пресликаваjу у скуп [0, n − 1] где jе n броj вредности

Интервални или s = −d, s = 1+1 d , d = |p − q|


d−mind
размерни s = 1 − max −min
d d
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Мера и метрика

Функциjа растоjања d jе метрика ако важи


1 Позитивна одређеност
d(p, q) ≥ 0 ∀ p, q
d(p, q) = 0 акко p = q
2 Симетриjа: d(p, q) = d(q, p) ∀ p, q
3 Неjеднакост троугла:
d(p, r ) ≤ d(p, q) + d(q, r ) ∀ p, q, r
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Ултраметрика

Ако jе функциjа растоjања d метрика и ако важи


d(p, r ) ≤ max{d(p, q), d(q, r )} ∀ p, q, r
тада jе функциjа d ултраметрика

Примери мера
коjе jесу метрика/ултраметрика?
коjе нису метрика/ултраметрика?
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Мере сличности за квантитативне


податке
Растоjање између две тачке у n димензионом простору
X = (x1 , x2 , ..., xn ) i Y = (y1 , y2 , ..., yn )
Хамингово растоjање
(
n
1, ako xi 6= yi
Hamming (X , Y ) = ∑ qi где jе qi =
i =1 0, иначе

Наjчешће коришћена мера jе растоjање Минковског


или Lp мера
!1/p
n
p
Dist(X , Y ) = ∑ | xi − yi |
i =1
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Растоjање Минковског

Специjални случаjеви
p = 1 - Градски блок (такси, Менхетн, ...)
p = 2 - Еуклидско растоjање
p → ∞ супремум растоjање (Lmax , L∞ норма) =
max1≤i≤n |xi − yi |
Не мешати n (броj димензиjа података) и p
(величина параметра)
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Растоjање Минковског - недостаци

Ниjе погодно за примену


код ретких вишедимензионалних података са
непознатом расподелом, шумовима, ...
ако постоjе локално ирелевантни атрибути
(пример: анализа крви пациjената оболелих
од различитих болести) због шума коjи се
кумулира при израчунавању
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Махаланобисово растоjање

q
Maha(X , Y ) = (X − Y )Σ−1 (X − Y )T

где jе Σ−1 инверзна матрица матрице ковариjанси


података
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Махаланобисово растоjање

Корисно jе када важи


атрибути су у корелациjи
атрибути имаjу различите опсеге вредности
(различите вариjансе)
расподела података jе приближно нормална
(Гаусова)
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Утицаj расподеле на растоjање


Међусобно растоjање тачака A(−6.8, −2.9) i
B(6.8, 3.1)

Еуклидско растоjање тачака jе 14.7, а


Махаланобисово 6
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Растоjање Минковског са тежинама

У случаjу да jе потребно доделити тежинске


факторе ai хетерогеним атрибутим i
!1/p
d
Dist(X , Y ) = ∑ ai × | xi − yi |p
i=1
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Мере сличности података са бинарним


атрибутима

Сличност два слога X = (x1 , x2 , ..., xd ) i


Y = (y1 , y2 , ..., yd ) са бинарним атрибутима се
може дефинисати помоћу

M01 =броj атрибута коjи су jеднаки 0 у X и 1 у Y


M10 =броj атрибута коjи су jеднаки 1 у X и 0 у Y
M00 =броj атрибута коjи су jеднаки 0 у X и 0 у Y
M11 =броj атрибута коjи су jеднаки 1 у X и 1 у Y
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Jедноставно и Жакардово упаривање


коефициjеана

Jедноставно упаривање коефициjената (енг. Simple


Matching Coefficient, SMC)
SMC =броj упарених/броj атрибута =
(M11 + M00 )/(M01 + M10 + M11 + M00 )
Жакардови коефициjенти - асиметрични атрибути
J=броj парова 11/броj атрибута где нису обе
вредности 0 = M11 /(M01 + M10 + M11 )
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Проширени Жакардови коефициjенти


(коефициjенти Танимотоа)

Вариjанта Жaкардових коефициjената применљива


на aтрибуте са непрекидним и преброjивим
вредностима
У случаjу атрибута са бинарним вредностима
редукуjе се на Жакардове коефициjенте
X •Y
T (X , Y ) =
||X ||2 + ||Y ||2 − X • Y
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Косинусна сличност

Нека су X = (x1 , x2 , ..., xn ) и Y = (y1 , y2 , ..., yn ) два вектора


докумената. Њихова сличност може да се израчуна као

X •Y
cos(X , Y ) =
||X || × ||Y ||
odnosno
d
∑ xi × yi
i=1
cos(X , Y ) =
p d p d
( ∑ xi2 ) × ( ∑ yi2 )
i=1 i=1
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Косинусна сличност

Користи се код великог броjа парова ’00’ при чему може


да буде примењена и на не-бинарне векторе (касниjе-
пример са документима)
Primer:
d1 = 3 2 0 5 0 0 0 2 0 0
d2 = 1 0 0 0 0 0 0 1 0 2
d1 · d2 = 3*1+2*0+0*0+5*0+0*0+0*0+0*0+2*1+0*0+0*2 = 5
||d1 || = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42)0.5 = 6.481
||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2)0.5 = (6)0.5 = 2.245

cos(d1,d2) = 0.34365
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Корелациjа
Корелациjа два обjекта коjи имаjу бинарне или непрекидне
атрибуте jе мера линеарног односа између њихових
атрибута
n
1
ковариjанса(x, y ) = covxy = (xk − x)(yk − y )
n − 1 k∑
=1
s
n
1 2
стандардна девиjациjа(x) = σx = ∑ (xk − x)
n − 1 k=1
1 n
средња вредност(x) = x = xk
n k∑
=1

Пирсонов коефициjент корелациjе(x, y ) = ρxy = covxy /(σx ∗ σy )


Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Корелациjа

Ако jе корелациjа =1 (-1) → перфектно позитиван


(негативан) линеарни однос xk = ayk + b
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Мере сличности за категоричке податке

Сличност два податка X = (x1 , x2 , ..., xn ) i


Y = (y1 , y2 , ..., yn ) са категоричким атрибутима се
може дефинисати преко сличности поjединачних
атрибута

n
Sim(X , Y ) = ∑ S(xi , yi )
i=1
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Мере сличности за категоричке податке

(
1 ако xi = yi
Наjjедноставниjи случаj: S(xi , yi ) =
0 иначе
Не узима се у обзир релативна фреквенциjа
атрибута
Користи се агрегирање статистичких особина
Мање фреквентне упарене вредности имаjу
већу тежину
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Сличност атрибута
Нека jе pk (x) броj слогова у коjима k-ти атрибут узима
вредност x
Мере коjе укључуjу учесталост (фреквенциjу) су
Инверзна учесталост поjављивања
(
1/pk (xi )2 , ako xi = yi
S(xi , yi ) =
0, inače

’Поjављивање jе добро’. Већа сличност се постиже


када jе вредност мање учестала
(
1 − pk (xi )2 , ako xi = yi
S(xi , yi ) =
0, inače
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Сличност докумената

Сличност два документа се боље оцењуjе ако се


користе речи коjе су заjедничке
За нормализациjу упаривања речи у случаjевима
када има речи коjе се ретко jављаjу и коjе се често
jављаjу (везници, ...) користи се инверзна функциjа
броjа докумената ni у коме се jавља реч i у укупном
броjу докумената n:
idi = log (n/ni )

За смањење могућност да поjава неке честе речи


утиче на сличност докумената могу да се користе и
функциjе
f (xi ) = sqrt(xi )
f (xi ) = log (xi )
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Сличност докумената

нормализована фреквенциjа за i-ту реч може да се


дефинише као
h(xi ) = f (xi ) · idi
Косинусно и Жакардово растоjање докумената са
нормализованом фреквенциjом речи су
d
∑ h(xi ) × h(yi )
i =1
cos(X , Y ) = s s
d d
∑ h(xi )2 × ∑ h(yi )2
i =1 i =1

d
∑ h(xi ) × h(yi )
i =1
J(X , Y ) =
d d d
∑ h(xi )2 + ∑ h(yi )2 − ∑ h(xi ) × h(yi )
i =1 i =1 i =1
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Подаци са квантитативним и
категоричким атрибутима

Сличност два слога X = (X n , X c ) i Y = (Y n , Y c ) са


’мешаним’ (квантитативним и категоричким) атрибутима

Sim(X , Y ) = λ × NumSim(X n , Y n ))+


(1 − λ ) × CatSim(X c , Y c ))

где λ одређуjе релативну важност категоричких и


нумеричких атрибута
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Сличност дискретних података


Едит растоjање, растоjање за трансформациjе
X = (x1 , x2 , ..., xm ) у Y = (y1 , y2 , ..., yn ).
За првих i симбола из X и првих j симбола Y
цена трансформациjе jе


Edit(i − 1, j) + цена брисања

Edit(i, j) = min Edit(i, j − 1) + цена уметања

Edit(i − 1, j − 1) + I × цена замене
ij

где jе Iij индикатор jеднакости i-тог симбола X и


j-тог симбола Y
Пример: трансформациjа абабабабаб у бабабаба
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Сличност дискретних података


Сличност на основу наjдуже заjедничке подниске
За првих i симбола из X = (x1 , x2 , ..., xm ) и првих j симбола
из Y = (y1 , y2 , ..., yn ), у ознаци X i и Y i наjдужа заjедничка
подниска (енг. Longest Common SubSequence, LCSS)


LCSS(i − 1, j − 1) + 1 ako xi = yi

LCSS(i, j) = max LCSS(i − 1, j) xi nije upareno

LCSS(i, j − 1) yj nije upareno

Већа вредност означава већу сличност; броj


подниски директно зависи од дужине ниски
Пример: одредити LCSS(агбфцгдђхе,афбгцхдише)
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Мере на основу информациjа


Мере сличности засноване на теориjи
информациjа
Ентропиjа
X - догађаj са n могућих исхода x1 , ..., xn
Вероватноћа исхода jе p1 , ..., pn
Ентропиjа догађаjа X jе
n
H(X ) = − ∑ pi log2 pi
i=1

H(X ) ∈ [0, log2 n] представља меру колико


битова jе потребно у просеку за представљање
догађаjа X
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Мере на основу густина

Мери се степен блискости обjеката у некоj


области
Концепт густине се користи у кластеровању и
откривању аномалиjа
Нечешће се користе
Еуклидска густина - броj тачака по jединици
површине/запремине
Густина вероватноће - процена дистрибуциjе
података на основу изгледа
Граф засноване густине - на основу повезаности
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Мере на основу густина


Пример: Еуклидска густина заснована на ћелиjама - подела
региона на неки броj ћелиjа и дефинисање густине преко
броjа тачака у ћелиjама
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере

Мере на основу густина

Пример: Еуклидска густина заснована на центру - броj


ћелиjа на одређеноj удаљености од централне тачке

You might also like