Professional Documents
Culture Documents
Naiwnybayes Notatki PL
Naiwnybayes Notatki PL
wykładów:
“Naiwny”
klasyfikator
Bayesowski
(c) Marcin
Sydow
Notatki do wykładów:
“Naiwny” klasyfikator Bayesowski
Notatki do
wykładów:
“Naiwny”
Tu zakładamy na ogół, że wszystkie atrybuty są kategoryczne.
klasyfikator
Bayesowski
Mamy zbiór treningowy T składający się z N n-wymiarowych
wektorów atrybutów.
(c) Marcin
Sydow
Traktujemy atrybuty Xi i atrybut decyzyjny Y jako zmienne
losowe
Mamy zaklasyfikować wektor x = (x1 , x2 , ..., xn )
Stosujemy wzór Bayesa:
Notatki do
wykładów:
“Naiwny”
klasyfikator
Bayesowski
Notatki do
wykładów: Kluczowe dla “naiwnego” klasyfikatora Bayesowskiego jest (“naiwne”)
“Naiwny” założenie, że atrybuty są parami niezależne, a więc:
klasyfikator
Bayesowski
(c) Marcin
Sydow P(X = (x1 , ..., xn )|Y = y ) = P(X1 = x1 |Y = y )∗...∗P(Xn = xn |Y = y )
Notatki do
wykładów:
“Naiwny”
klasyfikator
Bayesowski Może się zdarzyć, że w zbiorze uczącym nie występuje żaden
(c) Marcin
przypadek, w którym zachodzi Xj = xj oraz Y = y dla pewnego
Sydow atrybutu j.
W takim wypadku oszacowane prawdopobieństwo
P(Xi = xi |Y = y ) wynosiłoby zero i wyzerowało cały iloczyn,
niezależnie od wartości pozostałych prawdopodobieństw
P(Xi = xi |Y = y ).
Aby tego uniknąć stosuje się tzw. wygładzanie, czyli
zapewnienie, że zera zastępowane będą pewną (bardzo małą)
wartością kosztem odpowiedniego zmniejszenia pozostałych
(niezerowych) prawdopobieństw dla tego atrybutu.
Najprostsze wygładzanie
Notatki do
wykładów:
“Naiwny”
klasyfikator
Bayesowski
(c) Marcin
Sydow
W najprostszym rodzaju wygładzania, do licznika proporcji dla
danego atrybutu i dodajemy zawsze jeden a do mianownika tyle,
ile jest różnych możliwych wartości tego atrybutu. W ten
sposób zmodyfikowane prawdopodobieństwa sumują się do 1,
ale nigdy nie wystąpi 0 nawet jak nie ma takiego przypadku w
zbiorze treningowym.
Notatki do
wykładów:
“Naiwny”
klasyfikator
Bayesowski
(c) Marcin
Sydow
Dziękuję za uwagę