Download as pdf or txt
Download as pdf or txt
You are on page 1of 86

Teoria uczenia maszynowego

Wykład 4

Wojciech Kotłowski

Instytut Informatyki PP
http://www.cs.put.poznan.pl/wkotlowski/

16.04.2024

”Akademia Innowacyjnych Zastosowań Technologii Cyfrowych (AI Tech)”,


projekt finansowany ze środków Programu Operacyjnego Polska Cyfrowa POPC.03.02.00-00-0001/20

1 / 37
Plan wykładu

1. Uczenie się z danych


2. Minimalizacja ryzyka empirycznego
3. Błąd aproksymacji i estymacji
4. Nierówności probabilistyczne

2 / 37
Uczenie się z danych

3 / 37
Problem uczenia się z danych
Dotychczas analizowaliśmy „populacyjne” własności funkcji predykcyjnych:

• Ocena jakości (ryzyko = średni błąd na populacji)


• Optymalność funkcji predykcyjnej
• Nadwyżka ryzyka dla ustalonej funkcji predykcyjnej
• Konstrukcja klasyfikatorów poprzez progowanie funkcji predykcyjnych
dla błędów zastępczych i relacja ich nadwyżek ryzyka
Odtąd skupimy się na uczeniu się funkcji predykcyjnych z danych

4 / 37
Problem uczenia się z danych
Dotychczas analizowaliśmy „populacyjne” własności funkcji predykcyjnych:

• Ocena jakości (ryzyko = średni błąd na populacji)


• Optymalność funkcji predykcyjnej
• Nadwyżka ryzyka dla ustalonej funkcji predykcyjnej
• Konstrukcja klasyfikatorów poprzez progowanie funkcji predykcyjnych
dla błędów zastępczych i relacja ich nadwyżek ryzyka
Odtąd skupimy się na uczeniu się funkcji predykcyjnych z danych
Dane (zbiór treningowy) będą reprezentowane jako próba z populacji:

S = {(X1 , Y1 ), . . . , (Xn , Yn )}

gdzie poszczególne przykłady uczące (Xi , Yi ) są losowane niezależnie, z


tego samego rozkładu P (x, y) (populacji)

4 / 37
Zadanie uczenia się z danych

Mając do dyspozycji próbę z populacji:

S = {(X1 , Y1 ), . . . , (Xn , Yn )} ,

wyznacz funkcję predykcyjną h


b o jak najmniejszym błędzie (ryzyku) na
całej populacji.
h i
L(h)
b = E ℓ(Y, h(X))
b , h
b = h(S)
b

. . . za to mamy
Jak najmniejsze. . .
. . . ale nie znamy próbę z rozkładu
rozkładu danych. . .

5 / 37
Ale czy coś da się w ogólności nauczyć?

Posiadamy wartości na wyjściu dla n punktów X1 , . . . , Xn , w jaki sposób


mamy przewidzieć wyjście w punktach X, których nie mamy?
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? Wejście X to losowo (jednostajnie)
? ? ? ? ? ? ? ? ? ? ? ? wybrany punkt z siatki
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
Wyjście Y to kolor tego punktu
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
Znając kolor w niektórych punktach
? ? ? ? ? ? ? ? ? ? ? ? siatki, jak wyznaczyć kolor w
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
pozostałych punktach??
? ? ? ? ? ? ? ? ? ? ? ?

6 / 37
Ale czy coś da się w ogólności nauczyć?

Posiadamy wartości na wyjściu dla n punktów X1 , . . . , Xn , w jaki sposób


mamy przewidzieć wyjście w punktach X, których nie mamy?
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? Wejście X to losowo (jednostajnie)
? ? ? ? ? ? ? ? ? ? ? ? wybrany punkt z siatki
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
Wyjście Y to kolor tego punktu
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
Znając kolor w niektórych punktach
? ? ? ? ? ? ? ? ? ? ? ? siatki, jak wyznaczyć kolor w
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
pozostałych punktach??
? ? ? ? ? ? ? ? ? ? ? ?

(swoją drogą: jeśli widzicie jakiś wzorzec, to jest to złudzenie, bo te kolory


zostały przypisane przypadkowo ,)

6 / 37
Problem indukcji

Poruszony już w Badaniach dotyczących


rozumu ludzkiego Davida Hume’a (1748)
Paradoks wiedzy: nie ma żadnej pewności, że
to co się zdarzało dotychczas zdarzy się
ponownie
• Czy słońce wzejdzie jutro?
• Paradoks czarnego łabędzia

David Hume (1711-1776)

7 / 37
Problem indukcji

Poruszony już w Badaniach dotyczących


rozumu ludzkiego Davida Hume’a (1748)
Paradoks wiedzy: nie ma żadnej pewności, że
to co się zdarzało dotychczas zdarzy się
ponownie
• Czy słońce wzejdzie jutro?
• Paradoks czarnego łabędzia

David Hume (1711-1776)


pesymista!

7 / 37
Twierdzenie No free lunch

Wolpert, D. (1996): The Lack of A Priori


Distinctions between Learning Algorithms
Dla dwóch dowolnych algorytmów uczenia
maszynowego, ich trafność klasyfikacji na
zbiorze testowym będzie identyczna, jeśli
uśrednimy ją po wszystkich możliwych
problemach klasyfikacji
W tym sensie nie ma lepszych i gorszych
metod klasyfikacji David Wolpert

8 / 37
Twierdzenie No free lunch

Wolpert, D. (1996): The Lack of A Priori


Distinctions between Learning Algorithms
Dla dwóch dowolnych algorytmów uczenia
maszynowego, ich trafność klasyfikacji na
zbiorze testowym będzie identyczna, jeśli
uśrednimy ją po wszystkich możliwych
problemach klasyfikacji
W tym sensie nie ma lepszych i gorszych
metod klasyfikacji David Wolpert
pesymista!

8 / 37
Regularności w danych

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

Jesteśmy się w stanie uczyć z danych, ponieważ rzeczywiste problemy


zawierają wzorce (regularności) pozwalające na przewidywanie wyjścia za
pomocą wejście, które z danych można wychwycić

9 / 37
Problem z deterministycznym wyjściem

Rozważmy problem klasyfikacji binarnej, Y = {0, 1}, w którym X


pochodzi z pewnego rozkładu P (x), a Y wyznaczany jest dla zadanego X
na podstawie pewnej funkcji h⋆ , tzn. Y = h⋆ (X).

10 / 37
Problem z deterministycznym wyjściem

Rozważmy problem klasyfikacji binarnej, Y = {0, 1}, w którym X


pochodzi z pewnego rozkładu P (x), a Y wyznaczany jest dla zadanego X
na podstawie pewnej funkcji h⋆ , tzn. Y = h⋆ (X).
Ponieważ h⋆ ma zerowy błąd na populacji, jest optymalnym
klasyfikatorem bayesowskim

Zauważmy, że P (Y = y|X = x) jest rozkładem


zdegenerowanym (jednopuntkowym), ponieważ
dla zadanego x, y = h⋆ (x) jest deterministyczne
(czyli η(x) ∈ {0, 1})

10 / 37
Problem z deterministycznym wyjściem

Rozważmy problem klasyfikacji binarnej, Y = {0, 1}, w którym X


pochodzi z pewnego rozkładu P (x), a Y wyznaczany jest dla zadanego X
na podstawie pewnej funkcji h⋆ , tzn. Y = h⋆ (X).
Ponieważ h⋆ ma zerowy błąd na populacji, jest optymalnym
klasyfikatorem bayesowskim
Załóżmy, że mamy pewien skończony zbiór klasyfikatorów H z h⋆ ∈ H,
i naszym celem jest wybrać klasyfikator z H na postawie próby S

Oczywiście, zakładamy, że nie znamy


rozkładu danych, a więc nie wiemy
który z klasyfikatorów z H to h⋆

10 / 37
Problem z deterministycznym wyjściem

Przykład:
11
10
Rozważ X = (X1 , X2 ) losowane
9 jednostajnie na X1 , X2 ∈ {0, 1, . . . , 11}
8
7 Y = 1 (czerwony) jeśli X1 ­ 6, w
x2 6 przeciwnym przypadku Y = 0 (zielony)
5
4
3
Klasa H zawiera klasyfikatory progowe
2 postaci h(x) = 1{x1 ­ k} dla
1 k = 0, 1, . . . , 12
0
0 1 2 3 4 5 6 7 8 9 10 11
x1 Mamy h⋆ = 1{x1 ­ 6} ∈ H

11 / 37
Problem z deterministycznym wyjściem

Proste rozwiązanie: Skoro h⋆ nigdy się nie myli na całej populacji, nie
może się więc mylić na próbie S. Wybierzmy więc dowolny klasyfikator z
H, który na S nie popełnia żadnego błędu.

12 / 37
Problem z deterministycznym wyjściem

Proste rozwiązanie: Skoro h⋆ nigdy się nie myli na całej populacji, nie
może się więc mylić na próbie S. Wybierzmy więc dowolny klasyfikator z
H, który na S nie popełnia żadnego błędu.

b ∈ H, którego
Jaka jest szansa, że wybierzemy w ten sposób klasyfikator h
ryzyko L(h) = P (h(X) ̸= Y ) przekracza ϵ?
b b

12 / 37
Problem z deterministycznym wyjściem

11
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11

13 / 37
Problem z deterministycznym wyjściem

Na powyższej próbce zerowy błąd


h5 h6 h7 posiadają:
11
10 h5 (x) = 1{x1 ­ 5}
9
8 h6 (x) = 1{x1 ­ 6}
7
x2 6
h7 (x) = 1{x1 ­ 7}
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11
x1

13 / 37
Problem z deterministycznym wyjściem

Na powyższej próbce zerowy błąd


h5 h6 h7 posiadają:
11
10 h5 (x) = 1{x1 ­ 5}
9
8 h6 (x) = 1{x1 ­ 6}
7
x2 6
h7 (x) = 1{x1 ­ 7}
5
4 Ich ryzyko (średni błąd na populacji)
3
2 wynosi:
1
0 1 1
0 1 2 3 4 5 6 7 8 9 10 11 L(h5 ) = , L(h6 ) = 0, L(h7 ) =
x1 12 12

13 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd

14 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
• Oznaczmy ph = L(h) = P (h(X) ̸= Y ) dla h ∈ H i zdarzenie Bh –
klasyfikator h jest spójny na S. Wtedy P (Bh ) = . . .

14 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
• Oznaczmy ph = L(h) = P (h(X) ̸= Y ) dla h ∈ H i zdarzenie Bh –
klasyfikator h jest spójny na S. Wtedy P (Bh ) = (1 − ph )n

14 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
• Oznaczmy ph = L(h) = P (h(X) ̸= Y ) dla h ∈ H i zdarzenie Bh –
klasyfikator h jest spójny na S. Wtedy P (Bh ) = (1 − ph )n
• Zdarzenie A – wybrany klasyfikator hb spójny na S ma ryzyko L(h)
b
przekraczające ϵ

14 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
• Oznaczmy ph = L(h) = P (h(X) ̸= Y ) dla h ∈ H i zdarzenie Bh –
klasyfikator h jest spójny na S. Wtedy P (Bh ) = (1 − ph )n
• Zdarzenie A – wybrany klasyfikator hb spójny na S ma ryzyko L(h)
b
przekraczające ϵ
[  [ 
A⊆ Bh , stąd P (A) ¬ P Bh
h∈H : ph >ϵ h∈H : ph >ϵ

Prawdopodobieństwo, że wybierzemy klasyfikator spójny


na S o błędzie przekraczającym ϵ jest nie większe
od prawdopodobieństwa, że jakikolwiek klasyfikator
o błędzie przekraczającym ϵ jest spójny na S.

14 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
• Oznaczmy ph = L(h) = P (h(X) ̸= Y ) dla h ∈ H i zdarzenie Bh –
klasyfikator h jest spójny na S. Wtedy P (Bh ) = (1 − ph )n
• Zdarzenie A – wybrany klasyfikator hb spójny na S ma ryzyko L(h)
b
przekraczające ϵ
[  [ 
A⊆ Bh , stąd P (A) ¬ P Bh
h∈H : ph >ϵ h∈H : ph >ϵ

• Stosujemy nierówność Boole’a:


X
P (A) ¬ P (Bh )
h∈H : ph >ϵ

14 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
• Oznaczmy ph = L(h) = P (h(X) ̸= Y ) dla h ∈ H i zdarzenie Bh –
klasyfikator h jest spójny na S. Wtedy P (Bh ) = (1 − ph )n
• Zdarzenie A – wybrany klasyfikator hb spójny na S ma ryzyko L(h)
b
przekraczające ϵ
[  [ 
A⊆ Bh , stąd P (A) ¬ P Bh
h∈H : ph >ϵ h∈H : ph >ϵ

• Stosujemy nierówność Boole’a:


X
P (A) ¬ (1 − ph )n
h∈H : ph >ϵ

14 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
• Oznaczmy ph = L(h) = P (h(X) ̸= Y ) dla h ∈ H i zdarzenie Bh –
klasyfikator h jest spójny na S. Wtedy P (Bh ) = (1 − ph )n
• Zdarzenie A – wybrany klasyfikator hb spójny na S ma ryzyko L(h)
b
przekraczające ϵ
 
A Ponieważ ph B (1 − P
>h ϵ, więcstąd )n <
ph(A) P − ϵ)
¬(1
n
[ [
⊆ Bh
h∈H : ph >ϵ h∈H : ph >ϵ

• Stosujemy nierówność Boole’a:


X X
P (A) ¬ (1 − ph )n < (1 − ϵ)n ¬ |H|(1 − ϵ)n
h∈H : ph >ϵ h∈H : ph >ϵ

14 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
• Oznaczmy ph = L(h) = P (h(X) ̸= Y ) dla h ∈ H i zdarzenie Bh –
klasyfikator h jest spójny na S. Wtedy P (Bh ) = (1 − ph )n
• Zdarzenie A – wybrany klasyfikator hb spójny na S ma ryzyko L(h)
b
przekraczające ϵ
[  [ 
A⊆ Bh , stąd P (A) ¬ P Bh
h∈H : ph >ϵ h∈H : ph >ϵ

• Stosujemy nierówność Boole’a:


X X
P (A) ¬ (1 − ph )n < (1 − ϵ)n ¬ |H|(1 − ϵ)n
h∈H : ph >ϵ h∈H : ph >ϵ

Wniosek: Wybierając klasyfikator spójny na zbiorze S, jego błąd


przekroczy ϵ z prawdopodobieństwem nie większym niż |H|(1 − ϵ)n
Dla dowolnego ϵ > 0, prawdopodobieństwo maleje do zera wraz z
rosnącym n (rozmiarem zbioru treningowego)
14 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n
P (L(h)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)

15 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)

15 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)


Oznaczmy prawą stronę ograniczenia przez δ i rozwiążmy ze względu na ϵ:

15 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)


Oznaczmy prawą stronę ograniczenia przez δ i rozwiążmy ze względu na ϵ:
|H|e−nϵ = δ

15 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)


Oznaczmy prawą stronę ograniczenia przez δ i rozwiążmy ze względu na ϵ:

ln |H| − nϵ = ln δ

15 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)


Oznaczmy prawą stronę ograniczenia przez δ i rozwiążmy ze względu na ϵ:

nϵ = − ln δ + ln |H|

15 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)


Oznaczmy prawą stronę ograniczenia przez δ i rozwiążmy ze względu na ϵ:

ln |H| + ln(1/δ)
ϵ=
n

15 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)


Oznaczmy prawą stronę ograniczenia przez δ i rozwiążmy ze względu na ϵ:

ln |H| + ln(1/δ)
ϵ=
n

b > ln |H| + ln(1/δ)


 
Czyli: P L(h) <δ
n

15 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)


Oznaczmy prawą stronę ograniczenia przez δ i rozwiążmy ze względu na ϵ:

ln |H| + ln(1/δ)
ϵ=
n

b ¬ ln |H| + ln(1/δ)
 
Czyli: P L(h) ­1−δ
n

Z prawdopodobieństwem co najmniej 1 − δ, błąd wybranego klasyfikatora


b spójnego na S jest ograniczony przez:
h
b ¬ ln |H| + ln(1/δ)
L(h)
n
(uwaga: prawdopodobieństwo jest względem losowego doboru S)
15 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)


Oznaczmy prawą stronę ograniczenia przez δ i rozwiążmy ze względu na ϵ:

ln |H| + ln(1/δ)
ϵ = z n jak 1/n
Ograniczenie błędu maleje
n
i zależy logarytmicznie
 od rozmiaru zbioru
ln |H| + ln(1/δ)

klasyfikatorów H!
Czyli: P L(h) ¬
b ­1−δ
n

Z prawdopodobieństwem co najmniej 1 − δ, błąd wybranego klasyfikatora


b spójnego na S jest ograniczony przez:
h
b ¬ ln |H| + ln(1/δ)
L(h)
n
(uwaga: prawdopodobieństwo jest względem losowego doboru S)
15 / 37
Problem z deterministycznym wyjściem

Wnioski
• Udało się coś dowieść odnośnie procesu uczenia ,
• Im więcej danych, tym lepiej: błąd maleje z rozmiarem próby n
• Im mniejsze H tym lepiej, ale błąd rośnie wolno (logarytmicznie) z
rozmiarem H
• Klasyfikator h
b jest funkcją próby, a więc zmienną losową: możemy
dać gwarancję z dużym prawdopodobieństwem, ale nie z pewnością
(alternatywa: można być też podać średni błąd po losowym wyborze
próby – na ćwiczeniach!)

16 / 37
Minimalizacja ryzyka empirycznego

17 / 37
Minimalizacja ryzyka empirycznego (ERM)

ERM (Empirical Risk Minimization):


Dla zadanej funkcji straty ℓ i klasy funkcji predykcyjnych H wybierz funk-
b ∈ H, która minimalizuje ryzyko empiryczne,
cję h
n
1X
h
b = argmin L(h),
b L(h)
b = ℓ(Yi , h(Xi ))
h∈H n i=1

gdzie ryzyko empiryczne L(h) b to średni błąd na zbiorze treningowym


S = {(X1 , Y1 ), . . . , (Xn , Yn )}

18 / 37
Minimalizacja ryzyka empirycznego (ERM)

ERM (Empirical Risk Minimization):


Dla zadanej funkcji straty ℓ i klasy funkcji predykcyjnych H wybierz funk-
b ∈ H, która minimalizuje ryzyko empiryczne,
cję h
n
1X
h
b = argmin L(h),
b L(h)
b = ℓ(Yi , h(Xi ))
h∈H n i=1

gdzie ryzyko empiryczne L(h) b to średni błąd na zbiorze treningowym


S = {(X1 , Y1 ), . . . , (Xn , Yn )}

Uniwersalna zasada uczenia stosowana w większości metod uczących


Uzasadnienie:
Chcemy minimalizować błąd na populacji, ale mamy dostępną tylko jej
reprezentatywną próbę S ⇒ minimalizujmy więc błąd na próbie.

18 / 37
Obciążenie indukcyjne
Minimalizacja ryzyka empirycznego musi być wykonywana tylko w obrębie
ograniczonej klasy funkcji H, którą będziemy nazywali modelem
Minimalizacja względem wszystkich funkcji dałaby trywialne rozwiązanie
(zakładając, że Xi w obrębie S się nie powtarzają):
(
Yi jeśli x = Xi dla jakiegoś i = 1, . . . , n
h(x)
b =
cokolwiek w przeciwnym przypadku

Funkcja hb ma zerowy błąd na S, ponieważ dla każdego (Xi , Yi ),


ℓ(Yi , h(Xi )) = ℓ(Yi , Yi ) = 0
b

Ale funkcja h
b jest bezużyteczna, gdyż po prostu nauczyła się przykładów
uczących na pamięć i nie potrafi przewidzieć nic poza zbiorem uczącym

19 / 37
Obciążenie indukcyjne
Minimalizacja ryzyka empirycznego musi być wykonywana tylko w obrębie
ograniczonej klasy funkcji H, którą będziemy nazywali modelem
Minimalizacja względem wszystkich funkcji dałaby trywialne rozwiązanie
(zakładając, że Xi w obrębie S się nie powtarzają):
(
Yi jeśli x = Xi dla jakiegoś i = 1, . . . , n
h(x)
b =
cokolwiek w przeciwnym przypadku

Funkcja hb ma zerowy błąd na S, ponieważ dla każdego (Xi , Yi ),


ℓ(Yi , h(Xi )) = ℓ(Yi , Yi ) = 0
b

Ale funkcja h
b jest bezużyteczna, gdyż po prostu nauczyła się przykładów
uczących na pamięć i nie potrafi przewidzieć nic poza zbiorem uczącym

Dobór modelu H nazywa się obciążeniem indukcyjnym, gdyż ogranicza


możliwości uczenia się tylko do funkcji z H; obciążenie indukcyjne jest
jednak niezbędne dla procesu uczenia się.
19 / 37
Obciążenie indukcyjne – przykłady

Model liniowy

hw (x) = w⊤ x = w0 +
X
H = {hw : w ∈ R} , wi x i
i

x2

• Regresja liniowa (błąd kwadratowy)


• Regresja logistyczna (błąd logistyczny)
w
• Liniowe maszyny wektorów nośnych
(błąd zawiasowy)

x1

20 / 37
Obciążenie indukcyjne – przykłady

Drzewa decyzyjne: rekursywny podział przestrzeni na podobszary


x2

x1

21 / 37
Obciążenie indukcyjne – przykłady

Drzewa decyzyjne: rekursywny podział przestrzeni na podobszary

x1 ¬ a
x2

ni
ta

e
a x1

21 / 37
Obciążenie indukcyjne – przykłady

Drzewa decyzyjne: rekursywny podział przestrzeni na podobszary

x1 ¬ a
x2

ni
ta

e
x2 ¬ b

tak

nie
b

a x1

21 / 37
Obciążenie indukcyjne – przykłady

Drzewa decyzyjne: rekursywny podział przestrzeni na podobszary

x1 ¬ a
x2

ni
ta

e
x2 ¬ b x1 ¬ c

tak

tak
nie

nie
b

a c x1

21 / 37
Obciążenie indukcyjne – przykłady

Drzewa decyzyjne: rekursywny podział przestrzeni na podobszary

x1 ¬ a
x2

ni
ta

e
x2 ¬ b x1 ¬ c
d

tak

tak
nie

nie
b
x2 ¬ d

tak
nie
a c x1

21 / 37
Obciążenie indukcyjne – przykłady

Drzewa decyzyjne: rekursywny podział przestrzeni na podobszary

x1 ¬ a
x2

ni
ta

e
x2 ¬ b x1 ¬ c
d

tak

tak
nie

nie
b
x2 ¬ d

tak
nie
a c x1

Każdy podział przestrzeni przez drzewo o np. ustalonej maksymalnej


głębokości daje funkcję predykcyjną z H

21 / 37
Obciążenie indukcyjne – przykłady

Inne przykłady modeli:


• Funkcje wielomianowe (= regresja wielomianowa)
• Histogramy
• Funkcje z przestrzeni RKHS (reproducing kernel Hilbert space) –
poprzez zastosowanie metod jądrowych (kernel methods)
• Sieci neuronowe
• Diagramy Woronoja (powstają przez zastosowanie metody
najbliższych sąsiadów)
• Zbiory reguł decyzyjne
• Kombinacje liniowe bazowych klasyfikatorów (boosting)
• ...

22 / 37
Ryzyko empiryczne a ryzyko

Przypomnienie: prawo wielkich liczb


Dla niezależnego ciągu zmiennych losowych X1 , X2 , . . ., ciąg średnich
arytmetycznych X n = n1 ni=1 Xi −−−→ EX
P
n→∞

23 / 37
Ryzyko empiryczne a ryzyko

Przypomnienie: prawo wielkich liczb


Dla niezależnego ciągu zmiennych losowych X1 , X2 , . . ., ciąg średnich
arytmetycznych X n = n1 ni=1 Xi −−−→ EX
P
n→∞

Wniosek: dla ustalonej funkcji predykcyjnej h,


n
1X
L(h)
b = ℓ(Yi , h(Xi )) −−−→ E [ℓ(Y, h(X))] = L(h)
n i=1 n→∞

Czyli w miarę zwiększania próby, ryzyko empiryczne zbiega do


prawdziwego ryzyka dla ustalonej funkcji predykcyjnej

23 / 37
Ryzyko empiryczne a ryzyko

Przypomnienie: prawo wielkich liczb


Dla niezależnego ciągu zmiennych losowych X1 , X2 , . . ., ciąg średnich
arytmetycznych X n = n1 ni=1 Xi −−−→ EX
P
n→∞

Wniosek: dla ustalonej funkcji predykcyjnej h,


n
1X
L(h)
b = ℓ(Yi , h(Xi )) −−−→ E [ℓ(Y, h(X))] = L(h)
n i=1 n→∞

Czyli w miarę zwiększania próby, ryzyko empiryczne zbiega do


prawdziwego ryzyka dla ustalonej funkcji predykcyjnej
Niestety, ponieważ wybieramy funkcję predykcyjną h
b na podstawie próby,
niekoniecznie musi to zajść dla L(
b h)
b

23 / 37
Wzorce w danych

Czy potraficie odgadnąć, jak wygenerowane


zostało wyjście (kolor)?

24 / 37
Wzorce w danych

Czy potraficie odgadnąć, jak wygenerowane


zostało wyjście (kolor)?
Losowo (choć próbowałem losować
wielokrotnie) ,
Znajdywanie tutaj potencjalnych reguł jest
przykładem nadmiernego dopasowania
do danych (overfitting)

24 / 37
Nadmierne dopasowanie (overfitting)

• Zwane też przeuczeniem


• Brak jednoznacznej definicji, ale dotyczy sytuacji gdy funkcja
dopasowana do danych (np. przez ERM) daje mały błąd na zbiorze
uczącym, ale duży na całej populacji
• Zachodzi, gdy model H jest zbyt złożony w stosunku do liczby
dostępnych obserwacji
• Dopasowanie do szumu a nie do wzorców/trendu

25 / 37
Nadmierne dopasowanie – przykłady

Prawdziwa granica decyzyjna Granica decyzyjna klasyfikatora 1-NN

Źródło: Hastie, Tibshirani, Friedman: Elements of Statistical Learning

26 / 37
Nadmierne dopasowanie – przykłady
Wygenerujmy dane jako:
x ∼ jednostajnie[0, 1],
y = x + ϵ, ϵ ∼ N (0, 0.05).
Wyjście y jest funkcją liniową x z szumem ϵ
Optymalna funkcja predykcyjna to h⋆ (x) = x

27 / 37
Nadmierne dopasowanie – przykłady
Wygenerujmy dane jako:
x ∼ jednostajnie[0, 1],
y = x + ϵ, ϵ ∼ N (0, 0.05).
Wyjście y jest funkcją liniową x z szumem ϵ
Optymalna funkcja predykcyjna to h⋆ (x) = x

ERM przy użyciu funkcji ERM przy użyciu wielomianów


liniowych wysokiego rzędu
● ●
● ●

● ●

● ●

● ●
y

y
● ●
● ●

● ●

● ●
● ●

●● ●●

x x
27 / 37
Błąd aproksymacji i estymacji

28 / 37
Błąd estymacji i aproksymacji
• Rozważmy dowolną funkcję predykcyjną h wybraną z klasy funkcji
H (np. przez ERM lub dowolny inny algorytm uczenia)
• Niech h⋆H = argminh∈H L(h) będzie funkcją minimalizującą ryzyko
w obrębie modelu H

29 / 37
Błąd estymacji i aproksymacji
• Rozważmy dowolną funkcję predykcyjną h wybraną z klasy funkcji
H (np. przez ERM lub dowolny inny algorytm uczenia)
• Niech h⋆H = argminh∈H L(h) będzie funkcją minimalizującą ryzyko
w obrębie modelu H
∆L(h) = L(h) − L(h⋆ ) = L(h) − L(h⋆H ) + L(h⋆H ) − L(h⋆ )
| {z } | {z } | {z }
nadwyżka ryzyka h błąd estymacji błąd aproksymacji

29 / 37
Błąd estymacji i aproksymacji
• Rozważmy dowolną funkcję predykcyjną h wybraną z klasy funkcji
H (np. przez ERM lub dowolny inny algorytm uczenia)
• Niech h⋆H = argminh∈H L(h) będzie funkcją minimalizującą ryzyko
w obrębie modelu H
∆L(h) = L(h) − L(h⋆ ) = L(h) − L(h⋆H ) + L(h⋆H ) − L(h⋆ )
| {z } | {z } | {z }
nadwyżka ryzyka h błąd estymacji błąd aproksymacji

• Błąd aproksymacji: jak dobra jest najlepsza funkcja w H


względem najlepszej funkcji w ogóle?
▶ Określa trafność doboru modelu H do problemu, nie zależy od danych
▶ Jeśli h⋆ ∈ H, to błąd aproksymacji = 0

29 / 37
Błąd estymacji i aproksymacji
• Rozważmy dowolną funkcję predykcyjną h wybraną z klasy funkcji
H (np. przez ERM lub dowolny inny algorytm uczenia)
• Niech h⋆H = argminh∈H L(h) będzie funkcją minimalizującą ryzyko
w obrębie modelu H
∆L(h) = L(h) − L(h⋆ ) = L(h) − L(h⋆H ) + L(h⋆H ) − L(h⋆ )
| {z } | {z } | {z }
nadwyżka ryzyka h błąd estymacji błąd aproksymacji

• Błąd aproksymacji: jak dobra jest najlepsza funkcja w H


względem najlepszej funkcji w ogóle?
▶ Określa trafność doboru modelu H do problemu, nie zależy od danych
▶ Jeśli h⋆ ∈ H, to błąd aproksymacji = 0
• Błąd estymacji: jak dobrze wybieramy funkcję z modelu H na
podstawie zbioru uczącego S?
▶ Zależy od danych S i ogólnie maleje z ich rozmiarem
▶ Algorytmy uczące są konstruowane aby go minimalizować

29 / 37
Błąd estymacji i aproksymacji

h⋆
H h⋆H

zbiór wszystkich funkcji

30 / 37
Błąd aproksymacji – przykład

Rozważ X = (X1 , X2 ) losowane


11 jednostajnie na X1 , X2 ∈ {0, 1, . . . , 11}
10
9 Y = 1 (czerwony) jeśli X1 + X2 ­ 11, w
8
7 przeciwnym przypadku Y = 0 (zielony)
x2 6
5 Czyli h⋆ (x) = 1{x1 + x2 ­ 11}
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11
x1

31 / 37
Błąd aproksymacji – przykład

h∈H Rozważ X = (X1 , X2 ) losowane


11 jednostajnie na X1 , X2 ∈ {0, 1, . . . , 11}
10
9 Y = 1 (czerwony) jeśli X1 + X2 ­ 11, w
8
7 przeciwnym przypadku Y = 0 (zielony)
x2 6
5 Czyli h⋆ (x) = 1{x1 + x2 ­ 11}
4
3 Rozważ model H składający się z
2 klasyfikatorów progowych
1
0 h(x) = 1{x1 ­ k} dla k = 0, . . . , 12
0 1 2 3 4 5 6 7 8 9 10 11
x1 Wyznacz błąd aproksymacji dla H

31 / 37
Błąd estymacji i aproksymacji

całkowita nadwyżka ryzyka


błąd predykcji

błąd estymacji błąd aproksymacji

złożoność modelu

32 / 37
Nierówności probabilistyczne

33 / 37
Nierówność Markowa
Niech X będzie nieujemną zmienną losową. Dla dowolnego a > 0:

E[X]
P (X ­ a) ¬
a

34 / 37
Nierówność Markowa
Niech X będzie nieujemną zmienną losową. Dla dowolnego a > 0:

E[X]
P (X ­ a) ¬
a
Dowód:
X
E[X] = x P (X = x)
x

34 / 37
Nierówność Markowa
Niech X będzie nieujemną zmienną losową. Dla dowolnego a > 0:

E[X]
P (X ­ a) ¬
a
Dowód:
X
E[X] = x P (X = x)
x
X X
= x P (X = x) + x P (X = x)
x<a x­a
| {z }
­0

34 / 37
Nierówność Markowa
Niech X będzie nieujemną zmienną losową. Dla dowolnego a > 0:

E[X]
P (X ­ a) ¬
a
Dowód:
X
E[X] = x P (X = x)
x
X X
= x P (X = x) + x P (X = x)
x<a x­a
| {z }
­0
X
­ 0 + a P (X = x)
x­a

34 / 37
Nierówność Markowa
Niech X będzie nieujemną zmienną losową. Dla dowolnego a > 0:

E[X]
P (X ­ a) ¬
a
Dowód:
X
E[X] = x P (X = x)
x
X X
= x P (X = x) + x P (X = x)
x<a x­a
| {z }
­0
X
­ 0 + a P (X = x)
x­a
X
= a P (X = x) = aP (X ­ a)
x­a

34 / 37
Nierówność Markowa
Niech X będzie nieujemną zmienną losową. Dla dowolnego a > 0:

E[X]
P (X ­ a) ¬
a
Dowód:
X
E[X] = x P (X = x)
x
X X
= x P (X = x) + x P (X = x)
x<a x­a
| {z }
­0
X
­ 0 + a P (X = x)
x­a
X
= a P (X = x) = aP (X ­ a)
x­a

Dzieląc obustronnie przez a kończymy dowód.


34 / 37
Nierówność Czebyszewa

Dla zmiennej losowej o skończonej wartości oczekiwanej i wariancji:

 D2 [X]
P |X − E[X]| ­ ϵ ¬
ϵ2
Prawdopodobieństwo znacznego odchylenia się od wartości oczekiwanej
jest niewielkie.

35 / 37
Nierówność Czebyszewa

Dla zmiennej losowej o skończonej wartości oczekiwanej i wariancji:

 D2 [X]
P |X − E[X]| ­ ϵ ¬
ϵ2
Prawdopodobieństwo znacznego odchylenia się od wartości oczekiwanej
jest niewielkie.

Dowód przy użyciu nierówności Markowa


Nierówność Czebyszewa działa dla dowolnej zmiennej losowej, ale jest
przez to zwykle dość słaba

35 / 37
Nierówność Czebyszewa – przykład zastosowania

Niech X1 , . . . , Xn będą niezależnymi zmiennymi losowymi o tej samej


wartości oczekiwanej µ = E[Xi ] i wariancji σ 2 = D2 [Xi ]
1 Pn
Zdefiniuj X = n i=1 Xi
σ2
Ponieważ E[X] = µ i D2 [X] = n , mamy:

 σ2
P |X − µ| ­ ϵ ¬
ϵ2 n
Prawdopodobieństwo odchylenia średniej arytmetycznej od wartości
oczekiwanej maleje odwrotnie proporcjonalnie do n

36 / 37
Nierówność Hoeffdinga

Niech X1 , . . . , Xn będą niezależnymi zmiennymi losowymi o wartościach


z zakresu [a, b], o tej samej wartości oczekiwanej µ = E[Xi ]. Wtedy:
!
 2ϵ2 n
P |X − µ| ­ ϵ ¬ 2 exp −
(b − a)2

37 / 37
Nierówność Hoeffdinga

Niech X1 , . . . , Xn będą niezależnymi zmiennymi losowymi o wartościach


z zakresu [a, b], o tej samej wartości oczekiwanej µ = E[Xi ]. Wtedy:
!
 2ϵ2 n
P |X − µ| ­ ϵ ¬ 2 exp −
(b − a)2

Porównaj z nierównością Czebyszewa:


 σ2
P |X − µ| ­ ϵ ¬ 2
ϵ n

37 / 37
Nierówność Hoeffdinga

Niech X1 , . . . , Xn będą niezależnymi zmiennymi losowymi o wartościach


z zakresu [a, b], o tej samej wartości oczekiwanej µ = E[Xi ]. Wtedy:
!
 2ϵ2 n
P |X − µ| ­ ϵ ¬ 2 exp −
(b − a)2

Prawdopodobieństwo odchylenia średniej arytmetycznej od wartości


oczekiwanej maleje wykładniczo z n
Dowód poprzez zastosowanie nierówności Markowa (na ćwiczeniach)

37 / 37

You might also like