Combining Classifiers

Classifiers Combing – Łączenie
Klasyfikatorow
MICHAŁ SIEMASZKIEWICZ
Bibliografia:
Using Correspondence Analysis
to Combine Classifiers
CHRISTOPHER J. MERZ
ODKRYWANIE WIEDZY Z DANYCH

Daniel T. Larose
Klasyfikacja
Co to jest problem klasyfikacji?
 Dany jest zbiór obiektów (training set)

 Każdy obiekt jest opisany zbiorem atrybutów zwanych
atrybutami warunkowymi
 Wyróżniony jest jeden atrybut, zwany atrybutem
decyzyjnym
 Cel: wyznaczyć klasę, do której należy nowy nieznany
 rekord.
 Jak? Znaleźć zależność (funkcyjną) między atrybutem
 decyzyjnym a warunkowymi atrybutami.
Dwuetapowy proces klasyfikacji
 Tworzenie modelu: opisywanie klas decyzyjnych

(wyznaczonych przez atrybut decyzyjny).
Każdy obiekt z tablicy decyzyjnej należy do jednej z
klas decyzyjnych.
Klasyfikator: algorytm określenia klasy decyzyjnej
obiektów za
pomocą ich wartości na atrybutach warunkowych.
Klasyfikatory mogą być opisane za pomocą formuł
logicznych, drzew
decyzyjnych lub formuł matematycznych.
Korzystanie z modelu
 Korzystanie z modelu :
przypisanie nowych nieznanych obiektów do

odpowiedniej klasy.
Przegląd metod
 Klasyfikacja poprzez indukcję drzew decyzyjnych

 Klasyfikatory Bayes’owskie
 Sieci Neuronowe
 Analiza statystyczna
 Metaheurystyki (np. algorytmy genetyczne)
 Zbiory przybliżone
 k-NN – k-najbliższe sąsiedztw
Drzewo decyzyjne
• Drzewo decyzyjne jest grafem o strukturze

drzewiastej,
gdzie
– każdy wierzchołek wewnętrzny reprezentuje test na
atrybucie (atrybutach),
– każdy łuk reprezentuje wynik testu,
– każdy liść reprezentuje pojedynczą klasę lub rozkład
wartości klas
Klasyfikator kNN
Najczęściej wykorzystany dla danych

z atrybutami numerycznymi
Wymagania:
-Zbiór treningowy
- Funkcja odległości między obiektami
- Wartość parametru k, liczba
rozpatrywanych sąsiadów
Podczas klasyfikacji:
- Wyznaczanie k najbliższych sąsiadów
- Wyznaczenie klasy decyzyjnej nowego
obiektu na podstawie klas decyzyjnych
najbliższych sąsiadów (np. przez
głosowanie).
Klasyfikator Bayesowski
 Prawdopobdobieństwo warunkowe
Ocenianie modeli
 error rate = l.błędów / l. obieków testowych

Sukces: gdy obiekt jest prawidłowo klasyfikowany
Błąd: gdy obiekt jest źle klasyfikowany
Error rate: odsetka błędów podczas klasyfikacji
 Błąd klasyfikacji na zbiorze: zbyt optymistyczny! –

Overfitting.
 Koszt błędu
Metody łączenia modeli
 W celu uzyskania wiekszej skutecznosci klasyfikacji

lączymy rozne modele.
 Metody:
 Stacking
 Boosting
 Bagging
Agregacja modeli (bagging): głosowanie
(voting) i uśrednianie (averaging).
 Agregacja modeli stosowana jest w predykcyjnym

data mining . Polega ona na agregacji przewidywań
wielu modeli tego samego typu uzyskanych dla
różnych zbiorów uczących lub wielu modeli różnego
typu uzyskanych dla tego samego zbioru danych
 Jeśli modelujemy zmienną ciągłą (problemy
regresyjne) to procedurę taką nazywamy
uśrednianiem (averaging), a w przypadku zmiennych
jakościowych (zagadnień klasyfikacyjnych)
stosujemy termin głosowanie (voting).
Agregacja modeli
 Dzięki zastosowaniu agregacji modeli możemy uzyskiwać

dokładniejsze i pewniejsze przewidywania dla
skomplikowanych zależności. Jest ono stosowane także, aby
rozwiązać problem "wrodzonej" niestabilności wyników
uzyskiwanych, gdy stosujemy skomplikowaną metodę dla
małego zbioru danych.
 Załóżmy, że naszym celem jest zbudowanie modelu

klasyfikacyjnego i dysponujemy niewielkim zbiorem uczącym
(w którym mamy dane o obserwowanej klasyfikacji). Możemy
wtedy wielokrotnie losować ze zwracaniem próby ze zbioru
uczącego i dla każdej z nich budować model W praktyce
uzyskane w ten sposób modele (drzewa klasyfikacyjne) będą
się bardzo różnić od siebie.
Agregacja
 W takim przypadku jednym ze sposobów

przewidywania do jakiej klasy trafi dany obiekt jest
proste głosowanie: wybieramy klasę, którą wskazało
najwięcej modeli. Można także zastosować ważone
głosowanie lub uśrednianie; taką zaawansowaną
techniką jest wzmacnianie (boosting) .
Boosting
 Technika ta polega ona na zbudowaniu sekwencji

modeli dla danych i wyznaczeniu wag dla modelu
zbiorczego Pierwszy model budowany jest przy
równych wagach wszystkich przypadków, a w
kolejnych krokach wagi przypadków modyfikowane
są tak, aby uzyskać dokładniejsze przewidywania dla
tych przypadków, dla których wcześniejsze modele
dawały błędne przewidywania.
Boosting
 Prosty algorytm wzmacniana wygląda następująco:

Stosujemy metodę dla próby uczącej, przy czym
wszystkie obserwacje mają taką samą wagę. Wyznaczamy
klasyfikacje przewidywane i każdej obserwacji
przypisujemy wagę, tym większą im większy był błąd
klasyfikacji dla tej obserwacji (lub dla klasy do której ona
należy). Innymi słowy większe wagi przypisujemy tym
obserwacjom, które są trudne do klasyfikacji (które
zostały błędnie zaklasyfikowane przez dotychczasowy
model). Następnie dopasowujemy model do danych z
wagami (lub stosujemy różne koszty błędnych
klasyfikacji). Całą procedurę powtarzamy, aż do
osiągnięcia odpowiednich wyników.
Boosting
 Wzmacnianie powoduje utworzenie sekwencji

modeli, z których każdy jest "ekspertem" w
przewidywaniu dla przypadków, z którymi nie radziły
sobie poprzedzające go modele.
Przy stosowaniu modelu (do przewidywania wartości
dla nowych przypadków) wyniki działania wszystkich
modeli są łączone w celu uzyskania najlepszej
prognozy.
SCANN
 Stacking
 Correspondence Analysis
 Nearest Neighbor
Kontaminacja modeli (stacking, stacked
generalization).
 Polega ona na połączeniu przewidywań różnorodnych modeli.

Kontaminacja modeli jest szczególnie użyteczna jeżeli w projekcie
stosujemy bardzo różne modele.
 Każdy model wyznacza przewidywane klasyfikacje dla próby

do sprawdzianu krzyżowego . Na podstawie tych danych obliczamy
ogólne statystyki dopasowania (stopy błędnych klasyfikacji). Z
doświadczenia wiadomo, że połączenie wielu metod daje lepsze
przewidywania niż każda z metod z osobna (zob. Witten i Frank,
2000).
 Przy kontaminacji modeli wyniki działania poszczególnych modeli
są danymi wejściowymi dla metauczenia. Przykładowo wyniki drzew
klasyfikacyjnych, modelu liniowego i sieci neuronowych mogą
stanowić dane wejściowe dla sieci neuronowej, która "nauczy się",
jak połączyć wyniki różnych modeli, tak aby uzyskać najlepszy
finalny model prognostyczny.
Analiza korespondencji.
 Analiza korespondencji. Analiza korespondencji to

technika opisowa i eksploracyjna służąca do analizy tabel
dwudzielczych lub wielodzielczych, zawierających pewne
miary charakteryzujące związek pomiędzy kolumnami i
wierszami.
 pozwala na znalezienie punktów - zmiennych względem

nowego układu odniesienia oraz punktów - obiektów
względem tego samego układu odniesienia, co umożliwia
opisanie zależności między zmiennymi i obiektami, na
których przeprowadzono obserwację,
SCANN

Combining Classifiers

Uploaded by

Copyright:

Available Formats

You might also like

Combining Classifiers

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Combining Classifiers

Uploaded by

Copyright:

Available Formats

Classifiers Combing – Łączenie

ODKRYWANIE WIEDZY Z DANYCH

Co to jest problem klasyfikacji?

 Dany jest zbiór obiektów (training set)

 Tworzenie modelu: opisywanie klas decyzyjnych

przypisanie nowych nieznanych obiektów do

 Klasyfikacja poprzez indukcję drzew decyzyjnych

• Drzewo decyzyjne jest grafem o strukturze

Najczęściej wykorzystany dla danych

 error rate = l.błędów / l. obieków testowych

 Błąd klasyfikacji na zbiorze: zbyt optymistyczny! –

 W celu uzyskania wiekszej skutecznosci klasyfikacji

 Agregacja modeli stosowana jest w predykcyjnym

 Dzięki zastosowaniu agregacji modeli możemy uzyskiwać

 Załóżmy, że naszym celem jest zbudowanie modelu

 W takim przypadku jednym ze sposobów

 Technika ta polega ona na zbudowaniu sekwencji

 Prosty algorytm wzmacniana wygląda następująco:

 Wzmacnianie powoduje utworzenie sekwencji

 Polega ona na połączeniu przewidywań różnorodnych modeli.

 Każdy model wyznacza przewidywane klasyfikacje dla próby

 Analiza korespondencji. Analiza korespondencji to

 pozwala na znalezienie punktów - zmiennych względem

You might also like