Professional Documents
Culture Documents
Projekt Informatyczny IiE - w4
Projekt Informatyczny IiE - w4
Wykład 4
dr inż. Piotr Grochowalski
𝑦 = 𝑦1, 𝑦𝑚 , . . . , 𝑦𝑚
𝑑𝑀𝑎𝑛ℎ (𝑥, 𝑦) = ∣ 𝑦𝑖 − 𝑥𝑖 ∣
𝑖=1
𝑑𝑀𝑖𝑛𝑘 (𝑥, 𝑦) = ∣ 𝑦𝑖 − 𝑥𝑖 ∣𝑞
𝑖=1
Miary odległości
• Dla atrybutów symbolicznych możemy zdefiniować funkcję R
(„różne od”).
• Dla i-tego atrybutu funkcja ma postać:
0 𝑑𝑙𝑎 𝑥𝑖 = 𝑦𝑖
𝑅 𝑥𝑖 , 𝑦𝑖 = ቊ
1 𝑤 𝑝𝑟𝑧𝑒𝑐𝑖𝑤𝑛𝑦𝑚 𝑝𝑟𝑧𝑦𝑝𝑎𝑑𝑘𝑢
𝑋 =ሼ𝑥1, 𝑥2, . . . , 𝑥𝑘 ቅ
∗ 𝑥𝑖 − min(𝑋) 𝑥𝑖 − min(𝑋)
𝑥𝑖 = =
𝑧𝑎𝑘𝑟𝑒𝑠(𝑋) max(𝑋) − min(𝑋)
Algorytmy iteracyjnej optymalizacji
𝑥 1 = 𝑥11, 𝑥21, . . . , 𝑥𝑚
1
...
𝑥 𝑘 = 𝑥1𝑘 , 𝑥2𝑘 , . . . , 𝑥𝑚𝑘
centroid ma postać:
σ𝑘𝑖=1 𝑥1𝑖 σ𝑘𝑖=1 𝑥2𝑖 σ𝑘𝑖=1 𝑥𝑚
𝑖
, ,...,
𝑘 𝑘 𝑘
Algorytm k-średnich (k-Means)
• Warunkiem zakończenia algorytmu jest być sytuacja, gdy
dla wszystkich grup wszystkie przypadki przypisane do
tej grupy pozostają w tej grupie.
• Inaczej, algorytm kończy działanie gdy osiągnięte
zostanie kryterium zbieżności – minimalizacja
sumarycznego błędu kwadratowego ( p jest przykładem
z i-tej grupy, mi jest centroidem i-tej grupy):
𝑐
𝑆𝑆𝐸 = 𝑑 𝑝, 𝑚𝑖 2
𝑖=1 𝑝∈𝐶𝑖
Klasteryzacja hierarchiczna
• W klasteryzacji hierarchicznej danych tworzona jest
struktura drzewiasta (dendrogram) poprzez rekurencyjne
dzielenie lub łączenie istniejących grup.
Klasteryzacja hierarchiczna
• Metody aglomeracyjne:
• na początku zakłada się, że każdy przykład stanowi oddzielną grupę,
• w kolejnych krokach dwie grupy, które są najbliżej siebie, łączy się w
nową wspólną grupę,
• ostatecznie wszystkie przykłady należą do jednej grupy.
• Metody rozdzielające:
• na początku zakłada się, że wszystkie przykłady należą do jednej
grupy,
• w kolejnych krokach najbardziej niepodobne przykłady rozdzielane
są w osobne grupy,
• ostatecznie każdy przykład stanowi oddzielną grupę.
Klasteryzacja hierarchiczna
• Kryteria określania odległości pomiędzy grupami:
• metoda pojedynczego połączenia (metoda najbliższego
sąsiedztwa) – określana jest minimalna odległość
pomiędzy dwoma przykładami należącymi do różnych
grup,
• metoda całkowitego połączenia (metoda najdalszego
sąsiedztwa) – określana jest maksymalna odległość
pomiędzy dwoma przykładami należącymi do różnych
grup,
• metoda średniego połączenia – określana jest średnia
odległość pomiędzy wszystkimi przykładami z jednej
grupy i wszystkimi przykładami z drugiej grupy.
Tabela decyzyjna – przykład
Przewidywane przez
d1 d2 ... dn klasyfikator wartości
d1 atrybutu decyzyjnego
d2
... Liczba przypadków z
dn przypisaną aktualną
decyzją d1 oraz
przewidywaną decyzją d1
Liczba przypadków z
Aktualne wartości przypisaną aktualną decyzją d2
atrybutu decyzyjnego oraz przewidywaną decyzją d1
Ocena jakości klasyfikatora
Klasa przewidywana →
Pozytywna Negatywna
Klasa aktualna ↓
Pozytywna TP FN
Negatywna FP TN
TP (true positive) – liczba przypadków prawdziwie pozytywnych
FP (false positive) – liczba przypadków fałszywie pozytywnych
TN (true negative) – liczba przypadków prawdziwie negatywnych
FN (false negative) – liczba przypadków fałszywie negatywnych
Ocena jakości klasyfikatora
𝑇𝑃 + 𝑇𝑁
Dokładność (accuracy): 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =
𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁
Precyzja (precision): 𝑇𝑃
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑇𝑃 + 𝐹𝑃
Zwrot (recall)
𝑇𝑃
𝑟𝑒𝑐𝑎𝑙𝑙 =
𝑇𝑃 + 𝐹𝑁
F-miara (F-measure)
2 ⋅ 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ⋅ 𝑟𝑒𝑐𝑎𝑙𝑙
𝐹=
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙
Dla każdego i od 1 do k:
zbiór treningowy ← podzbiory z wyjątkiem i-tego
zbiór testowy ← podzbiór i-ty
uczenie klasyfikatora na zbiorze treningowym
testowanie klasyfikatora na zbiorze testowym
Ocena jakości klasyfikatora
Dla każdego i od 1 do n:
zbiór treningowy ← zbiór przypadków z wyjątkiem i-
tego
zbiór testowy ← i-ty przypadek
uczenie klasyfikatora na zbiorze treningowym
testowanie klasyfikatora na zbiorze testowym
Drzewa decyzyjne
k=5
k=3