Combining Classifiers

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 22

Classifiers Combing – Łączenie

Klasyfikatorow

MICHAŁ SIEMASZKIEWICZ

Bibliografia:
Using Correspondence Analysis
to Combine Classifiers
CHRISTOPHER J. MERZ

ODKRYWANIE WIEDZY Z DANYCH


Daniel T. Larose
Klasyfikacja

Co to jest problem klasyfikacji?

 Dany jest zbiór obiektów (training set)


 Każdy obiekt jest opisany zbiorem atrybutów zwanych
atrybutami warunkowymi
 Wyróżniony jest jeden atrybut, zwany atrybutem
decyzyjnym
 Cel: wyznaczyć klasę, do której należy nowy nieznany
 rekord.
 Jak? Znaleźć zależność (funkcyjną) między atrybutem
 decyzyjnym a warunkowymi atrybutami.
Dwuetapowy proces klasyfikacji

 Tworzenie modelu: opisywanie klas decyzyjnych


(wyznaczonych przez atrybut decyzyjny).
Każdy obiekt z tablicy decyzyjnej należy do jednej z
klas decyzyjnych.
Klasyfikator: algorytm określenia klasy decyzyjnej
obiektów za
pomocą ich wartości na atrybutach warunkowych.
Klasyfikatory mogą być opisane za pomocą formuł
logicznych, drzew
decyzyjnych lub formuł matematycznych.
Korzystanie z modelu

 Korzystanie z modelu :

przypisanie nowych nieznanych obiektów do


odpowiedniej klasy.
Przegląd metod

 Klasyfikacja poprzez indukcję drzew decyzyjnych


 Klasyfikatory Bayes’owskie
 Sieci Neuronowe
 Analiza statystyczna
 Metaheurystyki (np. algorytmy genetyczne)
 Zbiory przybliżone
 k-NN – k-najbliższe sąsiedztw
Drzewo decyzyjne

• Drzewo decyzyjne jest grafem o strukturze


drzewiastej,
gdzie
– każdy wierzchołek wewnętrzny reprezentuje test na
atrybucie (atrybutach),
– każdy łuk reprezentuje wynik testu,
– każdy liść reprezentuje pojedynczą klasę lub rozkład
wartości klas
Klasyfikator kNN

Najczęściej wykorzystany dla danych


z atrybutami numerycznymi

Wymagania:
-Zbiór treningowy
- Funkcja odległości między obiektami
- Wartość parametru k, liczba
rozpatrywanych sąsiadów

Podczas klasyfikacji:
- Wyznaczanie k najbliższych sąsiadów
- Wyznaczenie klasy decyzyjnej nowego
obiektu na podstawie klas decyzyjnych
najbliższych sąsiadów (np. przez
głosowanie).
Klasyfikator Bayesowski

 Prawdopobdobieństwo warunkowe
Ocenianie modeli

 error rate = l.błędów / l. obieków testowych


Sukces: gdy obiekt jest prawidłowo klasyfikowany
Błąd: gdy obiekt jest źle klasyfikowany
Error rate: odsetka błędów podczas klasyfikacji

 Błąd klasyfikacji na zbiorze: zbyt optymistyczny! –


Overfitting.
 Koszt błędu
Metody łączenia modeli

 W celu uzyskania wiekszej skutecznosci klasyfikacji


lączymy rozne modele.
 Metody:
 Stacking
 Boosting
 Bagging
Agregacja modeli (bagging): głosowanie
(voting) i uśrednianie (averaging).

 Agregacja modeli stosowana jest w predykcyjnym


data mining . Polega ona na agregacji przewidywań
wielu modeli tego samego typu uzyskanych dla
różnych zbiorów uczących lub wielu modeli różnego
typu uzyskanych dla tego samego zbioru danych
 Jeśli modelujemy zmienną ciągłą (problemy
regresyjne) to procedurę taką nazywamy
uśrednianiem (averaging), a w przypadku zmiennych
jakościowych (zagadnień klasyfikacyjnych)
stosujemy termin głosowanie (voting).
Agregacja modeli

 Dzięki zastosowaniu agregacji modeli możemy uzyskiwać


dokładniejsze i pewniejsze przewidywania dla
skomplikowanych zależności. Jest ono stosowane także, aby
rozwiązać problem "wrodzonej" niestabilności wyników
uzyskiwanych, gdy stosujemy skomplikowaną metodę dla
małego zbioru danych.

 Załóżmy, że naszym celem jest zbudowanie modelu


klasyfikacyjnego i dysponujemy niewielkim zbiorem uczącym
(w którym mamy dane o obserwowanej klasyfikacji). Możemy
wtedy wielokrotnie losować ze zwracaniem próby ze zbioru
uczącego i dla każdej z nich budować model W praktyce
uzyskane w ten sposób modele (drzewa klasyfikacyjne) będą
się bardzo różnić od siebie.
Agregacja

 W takim przypadku jednym ze sposobów


przewidywania do jakiej klasy trafi dany obiekt jest
proste głosowanie: wybieramy klasę, którą wskazało
najwięcej modeli. Można także zastosować ważone
głosowanie lub uśrednianie; taką zaawansowaną
techniką jest wzmacnianie (boosting) .
Boosting

 Technika ta polega ona na zbudowaniu sekwencji


modeli dla danych i wyznaczeniu wag dla modelu
zbiorczego Pierwszy model budowany jest przy
równych wagach wszystkich przypadków, a w
kolejnych krokach wagi przypadków modyfikowane
są tak, aby uzyskać dokładniejsze przewidywania dla
tych przypadków, dla których wcześniejsze modele
dawały błędne przewidywania.
Boosting

 Prosty algorytm wzmacniana wygląda następująco:


Stosujemy metodę dla próby uczącej, przy czym
wszystkie obserwacje mają taką samą wagę. Wyznaczamy
klasyfikacje przewidywane i każdej obserwacji
przypisujemy wagę, tym większą im większy był błąd
klasyfikacji dla tej obserwacji (lub dla klasy do której ona
należy). Innymi słowy większe wagi przypisujemy tym
obserwacjom, które są trudne do klasyfikacji (które
zostały błędnie zaklasyfikowane przez dotychczasowy
model). Następnie dopasowujemy model do danych z
wagami (lub stosujemy różne koszty błędnych
klasyfikacji). Całą procedurę powtarzamy, aż do
osiągnięcia odpowiednich wyników.
Boosting

 Wzmacnianie powoduje utworzenie sekwencji


modeli, z których każdy jest "ekspertem" w
przewidywaniu dla przypadków, z którymi nie radziły
sobie poprzedzające go modele.
Przy stosowaniu modelu (do przewidywania wartości
dla nowych przypadków) wyniki działania wszystkich
modeli są łączone w celu uzyskania najlepszej
prognozy.
SCANN

 Stacking

 Correspondence Analysis

 Nearest Neighbor
Kontaminacja modeli (stacking, stacked
generalization).

 Polega ona na połączeniu przewidywań różnorodnych modeli.


Kontaminacja modeli jest szczególnie użyteczna jeżeli w projekcie
stosujemy bardzo różne modele.

 Każdy model wyznacza przewidywane klasyfikacje dla próby


do sprawdzianu krzyżowego . Na podstawie tych danych obliczamy
ogólne statystyki dopasowania (stopy błędnych klasyfikacji). Z
doświadczenia wiadomo, że połączenie wielu metod daje lepsze
przewidywania niż każda z metod z osobna (zob. Witten i Frank,
2000).
 Przy kontaminacji modeli wyniki działania poszczególnych modeli
są danymi wejściowymi dla metauczenia. Przykładowo wyniki drzew
klasyfikacyjnych, modelu liniowego i sieci neuronowych mogą
stanowić dane wejściowe dla sieci neuronowej, która "nauczy się",
jak połączyć wyniki różnych modeli, tak aby uzyskać najlepszy
finalny model prognostyczny.
Analiza korespondencji.

 Analiza korespondencji. Analiza korespondencji to


technika opisowa i eksploracyjna służąca do analizy tabel
dwudzielczych lub wielodzielczych, zawierających pewne
miary charakteryzujące związek pomiędzy kolumnami i
wierszami.

 pozwala na znalezienie punktów - zmiennych względem


nowego układu odniesienia oraz punktów - obiektów
względem tego samego układu odniesienia, co umożliwia
opisanie zależności między zmiennymi i obiektami, na
których przeprowadzono obserwację,
SCANN

You might also like