Professional Documents
Culture Documents
Nenad@matf BG Ac Rs
Nenad@matf BG Ac Rs
Nenad@matf BG Ac Rs
Ненад Митић
Математички факултет
nenad@matf.bg.ac.rs
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере
Увод
Увод - наставак
Увод - наставак
Мера и метрика
Ултраметрика
Примери мера
коjе jесу метрика/ултраметрика?
коjе нису метрика/ултраметрика?
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере
Растоjање Минковског
Специjални случаjеви
p = 1 - Градски блок (такси, Менхетн, ...)
p = 2 - Еуклидско растоjање
p → ∞ супремум растоjање (Lmax , L∞ норма) =
max1≤i≤n |xi − yi |
Не мешати n (броj димензиjа података) и p
(величина параметра)
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере
Махаланобисово растоjање
q
Maha(X , Y ) = (X − Y )Σ−1 (X − Y )T
Махаланобисово растоjање
Косинусна сличност
X •Y
cos(X , Y ) =
||X || × ||Y ||
odnosno
d
∑ xi × yi
i=1
cos(X , Y ) =
p d p d
( ∑ xi2 ) × ( ∑ yi2 )
i=1 i=1
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере
Косинусна сличност
cos(d1,d2) = 0.34365
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере
Корелациjа
Корелациjа два обjекта коjи имаjу бинарне или непрекидне
атрибуте jе мера линеарног односа између њихових
атрибута
n
1
ковариjанса(x, y ) = covxy = (xk − x)(yk − y )
n − 1 k∑
=1
s
n
1 2
стандардна девиjациjа(x) = σx = ∑ (xk − x)
n − 1 k=1
1 n
средња вредност(x) = x = xk
n k∑
=1
Корелациjа
n
Sim(X , Y ) = ∑ S(xi , yi )
i=1
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере
(
1 ако xi = yi
Наjjедноставниjи случаj: S(xi , yi ) =
0 иначе
Не узима се у обзир релативна фреквенциjа
атрибута
Користи се агрегирање статистичких особина
Мање фреквентне упарене вредности имаjу
већу тежину
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере
Сличност атрибута
Нека jе pk (x) броj слогова у коjима k-ти атрибут узима
вредност x
Мере коjе укључуjу учесталост (фреквенциjу) су
Инверзна учесталост поjављивања
(
1/pk (xi )2 , ako xi = yi
S(xi , yi ) =
0, inače
Сличност докумената
Сличност докумената
d
∑ h(xi ) × h(yi )
i =1
J(X , Y ) =
d d d
∑ h(xi )2 + ∑ h(yi )2 − ∑ h(xi ) × h(yi )
i =1 i =1 i =1
Мере сличности Квантитативни подаци Бинарни подаци Категорички и дискретни подаци Остале мере
Подаци са квантитативним и
категоричким атрибутима
Edit(i − 1, j) + цена брисања
Edit(i, j) = min Edit(i, j − 1) + цена уметања
Edit(i − 1, j − 1) + I × цена замене
ij
LCSS(i − 1, j − 1) + 1 ako xi = yi
LCSS(i, j) = max LCSS(i − 1, j) xi nije upareno
LCSS(i, j − 1) yj nije upareno