04_wyklad

Teoria uczenia maszynowego
Wykład 4
Wojciech Kotłowski
Instytut Informatyki PP
http://www.cs.put.poznan.pl/wkotlowski/
16.04.2024
”Akademia Innowacyjnych Zastosowań Technologii Cyfrowych (AI Tech)”,

projekt finansowany ze środków Programu Operacyjnego Polska Cyfrowa POPC.03.02.00-00-0001/20
1 / 37
Plan wykładu
1. Uczenie się z danych

2. Minimalizacja ryzyka empirycznego
3. Błąd aproksymacji i estymacji
4. Nierówności probabilistyczne
2 / 37
Uczenie się z danych
3 / 37
Problem uczenia się z danych
Dotychczas analizowaliśmy „populacyjne” własności funkcji predykcyjnych:
• Ocena jakości (ryzyko = średni błąd na populacji)

• Optymalność funkcji predykcyjnej
• Nadwyżka ryzyka dla ustalonej funkcji predykcyjnej
• Konstrukcja klasyfikatorów poprzez progowanie funkcji predykcyjnych
dla błędów zastępczych i relacja ich nadwyżek ryzyka
Odtąd skupimy się na uczeniu się funkcji predykcyjnych z danych
4 / 37
Problem uczenia się z danych
Dotychczas analizowaliśmy „populacyjne” własności funkcji predykcyjnych:
• Ocena jakości (ryzyko = średni błąd na populacji)

• Optymalność funkcji predykcyjnej
• Nadwyżka ryzyka dla ustalonej funkcji predykcyjnej
• Konstrukcja klasyfikatorów poprzez progowanie funkcji predykcyjnych
dla błędów zastępczych i relacja ich nadwyżek ryzyka
Odtąd skupimy się na uczeniu się funkcji predykcyjnych z danych
Dane (zbiór treningowy) będą reprezentowane jako próba z populacji:
S = {(X1 , Y1 ), . . . , (Xn , Yn )}
gdzie poszczególne przykłady uczące (Xi , Yi ) są losowane niezależnie, z

tego samego rozkładu P (x, y) (populacji)
4 / 37
Zadanie uczenia się z danych
Mając do dyspozycji próbę z populacji:
S = {(X1 , Y1 ), . . . , (Xn , Yn )} ,
wyznacz funkcję predykcyjną h

b o jak najmniejszym błędzie (ryzyku) na
całej populacji.
h i
L(h)
b = E ℓ(Y, h(X))
b , h
b = h(S)
b
. . . za to mamy
Jak najmniejsze. . .
. . . ale nie znamy próbę z rozkładu
rozkładu danych. . .
5 / 37
Ale czy coś da się w ogólności nauczyć?
Posiadamy wartości na wyjściu dla n punktów X1 , . . . , Xn , w jaki sposób

mamy przewidzieć wyjście w punktach X, których nie mamy?
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? Wejście X to losowo (jednostajnie)
? ? ? ? ? ? ? ? ? ? ? ? wybrany punkt z siatki
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
Wyjście Y to kolor tego punktu
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
Znając kolor w niektórych punktach
? ? ? ? ? ? ? ? ? ? ? ? siatki, jak wyznaczyć kolor w
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
pozostałych punktach??
? ? ? ? ? ? ? ? ? ? ? ?
6 / 37
Ale czy coś da się w ogólności nauczyć?
Posiadamy wartości na wyjściu dla n punktów X1 , . . . , Xn , w jaki sposób

mamy przewidzieć wyjście w punktach X, których nie mamy?
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? Wejście X to losowo (jednostajnie)
? ? ? ? ? ? ? ? ? ? ? ? wybrany punkt z siatki
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
Wyjście Y to kolor tego punktu
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
Znając kolor w niektórych punktach
? ? ? ? ? ? ? ? ? ? ? ? siatki, jak wyznaczyć kolor w
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
pozostałych punktach??
? ? ? ? ? ? ? ? ? ? ? ?
(swoją drogą: jeśli widzicie jakiś wzorzec, to jest to złudzenie, bo te kolory

zostały przypisane przypadkowo ,)
6 / 37
Problem indukcji
Poruszony już w Badaniach dotyczących

rozumu ludzkiego Davida Hume’a (1748)
Paradoks wiedzy: nie ma żadnej pewności, że
to co się zdarzało dotychczas zdarzy się
ponownie
• Czy słońce wzejdzie jutro?
• Paradoks czarnego łabędzia
David Hume (1711-1776)
7 / 37
Problem indukcji
Poruszony już w Badaniach dotyczących

rozumu ludzkiego Davida Hume’a (1748)
Paradoks wiedzy: nie ma żadnej pewności, że
to co się zdarzało dotychczas zdarzy się
ponownie
• Czy słońce wzejdzie jutro?
• Paradoks czarnego łabędzia
David Hume (1711-1776)

pesymista!
7 / 37
Twierdzenie No free lunch
Wolpert, D. (1996): The Lack of A Priori

Distinctions between Learning Algorithms
Dla dwóch dowolnych algorytmów uczenia
maszynowego, ich trafność klasyfikacji na
zbiorze testowym będzie identyczna, jeśli
uśrednimy ją po wszystkich możliwych
problemach klasyfikacji
W tym sensie nie ma lepszych i gorszych
metod klasyfikacji David Wolpert
8 / 37
Twierdzenie No free lunch
Wolpert, D. (1996): The Lack of A Priori

Distinctions between Learning Algorithms
Dla dwóch dowolnych algorytmów uczenia
maszynowego, ich trafność klasyfikacji na
zbiorze testowym będzie identyczna, jeśli
uśrednimy ją po wszystkich możliwych
problemach klasyfikacji
W tym sensie nie ma lepszych i gorszych
metod klasyfikacji David Wolpert
pesymista!
8 / 37
Regularności w danych
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
Jesteśmy się w stanie uczyć z danych, ponieważ rzeczywiste problemy

zawierają wzorce (regularności) pozwalające na przewidywanie wyjścia za
pomocą wejście, które z danych można wychwycić
9 / 37
Problem z deterministycznym wyjściem
Rozważmy problem klasyfikacji binarnej, Y = {0, 1}, w którym X

pochodzi z pewnego rozkładu P (x), a Y wyznaczany jest dla zadanego X
na podstawie pewnej funkcji h⋆ , tzn. Y = h⋆ (X).
10 / 37

Ponieważ h⋆ ma zerowy błąd na populacji, jest optymalnym
klasyfikatorem bayesowskim
Zauważmy, że P (Y = y|X = x) jest rozkładem

zdegenerowanym (jednopuntkowym), ponieważ
dla zadanego x, y = h⋆ (x) jest deterministyczne
(czyli η(x) ∈ {0, 1})
10 / 37

Ponieważ h⋆ ma zerowy błąd na populacji, jest optymalnym
klasyfikatorem bayesowskim
Załóżmy, że mamy pewien skończony zbiór klasyfikatorów H z h⋆ ∈ H,
i naszym celem jest wybrać klasyfikator z H na postawie próby S
Oczywiście, zakładamy, że nie znamy

rozkładu danych, a więc nie wiemy
który z klasyfikatorów z H to h⋆
10 / 37
Przykład:
11
10
Rozważ X = (X1 , X2 ) losowane
9 jednostajnie na X1 , X2 ∈ {0, 1, . . . , 11}
8
7 Y = 1 (czerwony) jeśli X1 6, w
x2 6 przeciwnym przypadku Y = 0 (zielony)
5
4
3
Klasa H zawiera klasyfikatory progowe
2 postaci h(x) = 1{x1 k} dla
1 k = 0, 1, . . . , 12
0
0 1 2 3 4 5 6 7 8 9 10 11
x1 Mamy h⋆ = 1{x1 6} ∈ H
11 / 37
Proste rozwiązanie: Skoro h⋆ nigdy się nie myli na całej populacji, nie
może się więc mylić na próbie S. Wybierzmy więc dowolny klasyfikator z
H, który na S nie popełnia żadnego błędu.
12 / 37
Proste rozwiązanie: Skoro h⋆ nigdy się nie myli na całej populacji, nie
może się więc mylić na próbie S. Wybierzmy więc dowolny klasyfikator z
H, który na S nie popełnia żadnego błędu.
b ∈ H, którego
Jaka jest szansa, że wybierzemy w ten sposób klasyfikator h
ryzyko L(h) = P (h(X) ̸= Y ) przekracza ϵ?
b b
12 / 37
11
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11
13 / 37
Na powyższej próbce zerowy błąd

h5 h6 h7 posiadają:
11
10 h5 (x) = 1{x1 5}
9
8 h6 (x) = 1{x1 6}
7
x2 6
h7 (x) = 1{x1 7}
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11
x1
13 / 37
Na powyższej próbce zerowy błąd

h5 h6 h7 posiadają:
11
10 h5 (x) = 1{x1 5}
9
8 h6 (x) = 1{x1 6}
7
x2 6
h7 (x) = 1{x1 7}
5
4 Ich ryzyko (średni błąd na populacji)
3
2 wynosi:
1
0 1 1
0 1 2 3 4 5 6 7 8 9 10 11 L(h5 ) = , L(h6 ) = 0, L(h7 ) =
x1 12 12
13 / 37
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
14 / 37
• Oznaczmy ph = L(h) = P (h(X) ̸= Y ) dla h ∈ H i zdarzenie Bh –
klasyfikator h jest spójny na S. Wtedy P (Bh ) = . . .
14 / 37
klasyfikator h jest spójny na S. Wtedy P (Bh ) = (1 − ph )n
14 / 37
• Zdarzenie A – wybrany klasyfikator hb spójny na S ma ryzyko L(h)
b
przekraczające ϵ
14 / 37
b
przekraczające ϵ
[ [
A⊆ Bh , stąd P (A) ¬ P Bh
h∈H : ph >ϵ h∈H : ph >ϵ
Prawdopodobieństwo, że wybierzemy klasyfikator spójny

na S o błędzie przekraczającym ϵ jest nie większe
od prawdopodobieństwa, że jakikolwiek klasyfikator
o błędzie przekraczającym ϵ jest spójny na S.
14 / 37
b
przekraczające ϵ
[ [
• Stosujemy nierówność Boole’a:

X
P (A) ¬ P (Bh )
h∈H : ph >ϵ
14 / 37
b
przekraczające ϵ
[ [

X
P (A) ¬ (1 − ph )n
h∈H : ph >ϵ
14 / 37
b
przekraczające ϵ

A Ponieważ ph B (1 − P
>h ϵ, więcstąd )n <
ph(A) P − ϵ)
¬(1
n
[ [
⊆ Bh

X X
P (A) ¬ (1 − ph )n < (1 − ϵ)n ¬ |H|(1 − ϵ)n
14 / 37
b
przekraczające ϵ
[ [

X X
P (A) ¬ (1 − ph )n < (1 − ϵ)n ¬ |H|(1 − ϵ)n
Wniosek: Wybierając klasyfikator spójny na zbiorze S, jego błąd

przekroczy ϵ z prawdopodobieństwem nie większym niż |H|(1 − ϵ)n
Dla dowolnego ϵ > 0, prawdopodobieństwo maleje do zera wraz z
rosnącym n (rozmiarem zbioru treningowego)
14 / 37
b > ϵ) < |H|(1 − ϵ)n
P (L(h)
Nierówność (1 + x)n ¬ exn (wynika z ex 1 + x)
15 / 37
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)
15 / 37
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)

Oznaczmy prawą stronę ograniczenia przez δ i rozwiążmy ze względu na ϵ:
15 / 37
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)

|H|e−nϵ = δ
15 / 37
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)

ln |H| − nϵ = ln δ
15 / 37
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)

nϵ = − ln δ + ln |H|
15 / 37
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)

ln |H| + ln(1/δ)
ϵ=
n
15 / 37
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)

ln |H| + ln(1/δ)
ϵ=
n
b > ln |H| + ln(1/δ)

Czyli: P L(h) <δ
n
15 / 37
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)

ln |H| + ln(1/δ)
ϵ=
n
b ¬ ln |H| + ln(1/δ)

Czyli: P L(h) 1−δ
n
Z prawdopodobieństwem co najmniej 1 − δ, błąd wybranego klasyfikatora

b spójnego na S jest ograniczony przez:
h
b ¬ ln |H| + ln(1/δ)
L(h)
n
(uwaga: prawdopodobieństwo jest względem losowego doboru S)
15 / 37
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)

ln |H| + ln(1/δ)
ϵ = z n jak 1/n
Ograniczenie błędu maleje
n
i zależy logarytmicznie
od rozmiaru zbioru
ln |H| + ln(1/δ)

klasyfikatorów H!
Czyli: P L(h) ¬
b 1−δ
n
Z prawdopodobieństwem co najmniej 1 − δ, błąd wybranego klasyfikatora

b spójnego na S jest ograniczony przez:
h
b ¬ ln |H| + ln(1/δ)
L(h)
n
(uwaga: prawdopodobieństwo jest względem losowego doboru S)
15 / 37
Wnioski
• Udało się coś dowieść odnośnie procesu uczenia ,
• Im więcej danych, tym lepiej: błąd maleje z rozmiarem próby n
• Im mniejsze H tym lepiej, ale błąd rośnie wolno (logarytmicznie) z
rozmiarem H
• Klasyfikator h
b jest funkcją próby, a więc zmienną losową: możemy
dać gwarancję z dużym prawdopodobieństwem, ale nie z pewnością
(alternatywa: można być też podać średni błąd po losowym wyborze
próby – na ćwiczeniach!)
16 / 37
Minimalizacja ryzyka empirycznego
17 / 37
Minimalizacja ryzyka empirycznego (ERM)
ERM (Empirical Risk Minimization):

Dla zadanej funkcji straty ℓ i klasy funkcji predykcyjnych H wybierz funk-
b ∈ H, która minimalizuje ryzyko empiryczne,
cję h
n
1X
h
b = argmin L(h),
b L(h)
b = ℓ(Yi , h(Xi ))
h∈H n i=1
gdzie ryzyko empiryczne L(h) b to średni błąd na zbiorze treningowym

S = {(X1 , Y1 ), . . . , (Xn , Yn )}
18 / 37
Minimalizacja ryzyka empirycznego (ERM)
ERM (Empirical Risk Minimization):

Dla zadanej funkcji straty ℓ i klasy funkcji predykcyjnych H wybierz funk-
b ∈ H, która minimalizuje ryzyko empiryczne,
cję h
n
1X
h
b = argmin L(h),
b L(h)
b = ℓ(Yi , h(Xi ))
h∈H n i=1
gdzie ryzyko empiryczne L(h) b to średni błąd na zbiorze treningowym

S = {(X1 , Y1 ), . . . , (Xn , Yn )}
Uniwersalna zasada uczenia stosowana w większości metod uczących

Uzasadnienie:
Chcemy minimalizować błąd na populacji, ale mamy dostępną tylko jej
reprezentatywną próbę S ⇒ minimalizujmy więc błąd na próbie.
18 / 37
Obciążenie indukcyjne
Minimalizacja ryzyka empirycznego musi być wykonywana tylko w obrębie
ograniczonej klasy funkcji H, którą będziemy nazywali modelem
Minimalizacja względem wszystkich funkcji dałaby trywialne rozwiązanie
(zakładając, że Xi w obrębie S się nie powtarzają):
(
Yi jeśli x = Xi dla jakiegoś i = 1, . . . , n
h(x)
b =
cokolwiek w przeciwnym przypadku
Funkcja hb ma zerowy błąd na S, ponieważ dla każdego (Xi , Yi ),

ℓ(Yi , h(Xi )) = ℓ(Yi , Yi ) = 0
b
Ale funkcja h
b jest bezużyteczna, gdyż po prostu nauczyła się przykładów
uczących na pamięć i nie potrafi przewidzieć nic poza zbiorem uczącym
19 / 37
Obciążenie indukcyjne
Minimalizacja ryzyka empirycznego musi być wykonywana tylko w obrębie
ograniczonej klasy funkcji H, którą będziemy nazywali modelem
Minimalizacja względem wszystkich funkcji dałaby trywialne rozwiązanie
(zakładając, że Xi w obrębie S się nie powtarzają):
(
Yi jeśli x = Xi dla jakiegoś i = 1, . . . , n
h(x)
b =
cokolwiek w przeciwnym przypadku
Funkcja hb ma zerowy błąd na S, ponieważ dla każdego (Xi , Yi ),

ℓ(Yi , h(Xi )) = ℓ(Yi , Yi ) = 0
b
Ale funkcja h
b jest bezużyteczna, gdyż po prostu nauczyła się przykładów
uczących na pamięć i nie potrafi przewidzieć nic poza zbiorem uczącym
Dobór modelu H nazywa się obciążeniem indukcyjnym, gdyż ogranicza

możliwości uczenia się tylko do funkcji z H; obciążenie indukcyjne jest
jednak niezbędne dla procesu uczenia się.
19 / 37
Obciążenie indukcyjne – przykłady
Model liniowy
hw (x) = w⊤ x = w0 +
X
H = {hw : w ∈ R} , wi x i
i
x2
• Regresja liniowa (błąd kwadratowy)

• Regresja logistyczna (błąd logistyczny)
w
• Liniowe maszyny wektorów nośnych
(błąd zawiasowy)
x1
20 / 37
Drzewa decyzyjne: rekursywny podział przestrzeni na podobszary

x2
x1
21 / 37
x1 ¬ a
x2
ni
ta
e
a x1
21 / 37
x1 ¬ a
x2
ni
ta
e
x2 ¬ b
tak
nie
b
a x1
21 / 37
x1 ¬ a
x2
ni
ta
e
x2 ¬ b x1 ¬ c
tak
tak
nie
nie
b
a c x1
21 / 37
x1 ¬ a
x2
ni
ta
e
x2 ¬ b x1 ¬ c
d
tak
tak
nie
nie
b
x2 ¬ d
tak
nie
a c x1
21 / 37
x1 ¬ a
x2
ni
ta
e
x2 ¬ b x1 ¬ c
d
tak
tak
nie
nie
b
x2 ¬ d
tak
nie
a c x1
Każdy podział przestrzeni przez drzewo o np. ustalonej maksymalnej

głębokości daje funkcję predykcyjną z H
21 / 37
Inne przykłady modeli:

• Funkcje wielomianowe (= regresja wielomianowa)
• Histogramy
• Funkcje z przestrzeni RKHS (reproducing kernel Hilbert space) –
poprzez zastosowanie metod jądrowych (kernel methods)
• Sieci neuronowe
• Diagramy Woronoja (powstają przez zastosowanie metody
najbliższych sąsiadów)
• Zbiory reguł decyzyjne
• Kombinacje liniowe bazowych klasyfikatorów (boosting)
• ...
22 / 37
Ryzyko empiryczne a ryzyko
Przypomnienie: prawo wielkich liczb

Dla niezależnego ciągu zmiennych losowych X1 , X2 , . . ., ciąg średnich
arytmetycznych X n = n1 ni=1 Xi −−−→ EX
P
n→∞
23 / 37

P
n→∞
Wniosek: dla ustalonej funkcji predykcyjnej h,

n
1X
L(h)
b = ℓ(Yi , h(Xi )) −−−→ E [ℓ(Y, h(X))] = L(h)
n i=1 n→∞
Czyli w miarę zwiększania próby, ryzyko empiryczne zbiega do

prawdziwego ryzyka dla ustalonej funkcji predykcyjnej
23 / 37

P
n→∞
Wniosek: dla ustalonej funkcji predykcyjnej h,

n
1X
L(h)
b = ℓ(Yi , h(Xi )) −−−→ E [ℓ(Y, h(X))] = L(h)
n i=1 n→∞
Czyli w miarę zwiększania próby, ryzyko empiryczne zbiega do

prawdziwego ryzyka dla ustalonej funkcji predykcyjnej
Niestety, ponieważ wybieramy funkcję predykcyjną h
b na podstawie próby,
niekoniecznie musi to zajść dla L(
b h)
b
23 / 37
Wzorce w danych
Czy potraficie odgadnąć, jak wygenerowane

zostało wyjście (kolor)?
24 / 37
Wzorce w danych
Czy potraficie odgadnąć, jak wygenerowane

zostało wyjście (kolor)?
Losowo (choć próbowałem losować
wielokrotnie) ,
Znajdywanie tutaj potencjalnych reguł jest
przykładem nadmiernego dopasowania
do danych (overfitting)
24 / 37
Nadmierne dopasowanie (overfitting)
• Zwane też przeuczeniem

• Brak jednoznacznej definicji, ale dotyczy sytuacji gdy funkcja
dopasowana do danych (np. przez ERM) daje mały błąd na zbiorze
uczącym, ale duży na całej populacji
• Zachodzi, gdy model H jest zbyt złożony w stosunku do liczby
dostępnych obserwacji
• Dopasowanie do szumu a nie do wzorców/trendu
25 / 37
Nadmierne dopasowanie – przykłady
Prawdziwa granica decyzyjna Granica decyzyjna klasyfikatora 1-NN
Źródło: Hastie, Tibshirani, Friedman: Elements of Statistical Learning
26 / 37
Wygenerujmy dane jako:
x ∼ jednostajnie[0, 1],
y = x + ϵ, ϵ ∼ N (0, 0.05).
Wyjście y jest funkcją liniową x z szumem ϵ
Optymalna funkcja predykcyjna to h⋆ (x) = x
27 / 37
Wygenerujmy dane jako:
x ∼ jednostajnie[0, 1],
y = x + ϵ, ϵ ∼ N (0, 0.05).
Wyjście y jest funkcją liniową x z szumem ϵ
Optymalna funkcja predykcyjna to h⋆ (x) = x
ERM przy użyciu funkcji ERM przy użyciu wielomianów

liniowych wysokiego rzędu
● ●
● ●
● ●
● ●
● ●
y
y
● ●
● ●
● ●
● ●
● ●
●● ●●
x x
27 / 37
Błąd aproksymacji i estymacji
28 / 37
Błąd estymacji i aproksymacji
• Rozważmy dowolną funkcję predykcyjną h wybraną z klasy funkcji
H (np. przez ERM lub dowolny inny algorytm uczenia)
• Niech h⋆H = argminh∈H L(h) będzie funkcją minimalizującą ryzyko
w obrębie modelu H
29 / 37
w obrębie modelu H
∆L(h) = L(h) − L(h⋆ ) = L(h) − L(h⋆H ) + L(h⋆H ) − L(h⋆ )
| {z } | {z } | {z }
nadwyżka ryzyka h błąd estymacji błąd aproksymacji
29 / 37
w obrębie modelu H
| {z } | {z } | {z }
• Błąd aproksymacji: jak dobra jest najlepsza funkcja w H

względem najlepszej funkcji w ogóle?
▶ Określa trafność doboru modelu H do problemu, nie zależy od danych
▶ Jeśli h⋆ ∈ H, to błąd aproksymacji = 0
29 / 37
w obrębie modelu H
| {z } | {z } | {z }
• Błąd aproksymacji: jak dobra jest najlepsza funkcja w H

względem najlepszej funkcji w ogóle?
▶ Określa trafność doboru modelu H do problemu, nie zależy od danych
▶ Jeśli h⋆ ∈ H, to błąd aproksymacji = 0
• Błąd estymacji: jak dobrze wybieramy funkcję z modelu H na
podstawie zbioru uczącego S?
▶ Zależy od danych S i ogólnie maleje z ich rozmiarem
▶ Algorytmy uczące są konstruowane aby go minimalizować
29 / 37
h⋆
H h⋆H
zbiór wszystkich funkcji
30 / 37
Błąd aproksymacji – przykład
Rozważ X = (X1 , X2 ) losowane

10
9 Y = 1 (czerwony) jeśli X1 + X2 11, w
8
7 przeciwnym przypadku Y = 0 (zielony)
x2 6
5 Czyli h⋆ (x) = 1{x1 + x2 11}
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11
x1
31 / 37
Błąd aproksymacji – przykład
h∈H Rozważ X = (X1 , X2 ) losowane

10
9 Y = 1 (czerwony) jeśli X1 + X2 11, w
8
7 przeciwnym przypadku Y = 0 (zielony)
x2 6
5 Czyli h⋆ (x) = 1{x1 + x2 11}
4
3 Rozważ model H składający się z
2 klasyfikatorów progowych
1
0 h(x) = 1{x1 k} dla k = 0, . . . , 12
0 1 2 3 4 5 6 7 8 9 10 11
x1 Wyznacz błąd aproksymacji dla H
31 / 37
całkowita nadwyżka ryzyka

błąd predykcji
błąd estymacji błąd aproksymacji
złożoność modelu
32 / 37
Nierówności probabilistyczne
33 / 37
Nierówność Markowa
Niech X będzie nieujemną zmienną losową. Dla dowolnego a > 0:
E[X]
P (X a) ¬
a
34 / 37
E[X]
P (X a) ¬
a
Dowód:
X
E[X] = x P (X = x)
x
34 / 37
E[X]
P (X a) ¬
a
Dowód:
X
E[X] = x P (X = x)
x
X X
= x P (X = x) + x P (X = x)
x<a xa
| {z }
0
34 / 37
E[X]
P (X a) ¬
a
Dowód:
X
E[X] = x P (X = x)
x
X X
= x P (X = x) + x P (X = x)
x<a xa
| {z }
0
X
0 + a P (X = x)
xa
34 / 37
E[X]
P (X a) ¬
a
Dowód:
X
E[X] = x P (X = x)
x
X X
= x P (X = x) + x P (X = x)
x<a xa
| {z }
0
X
0 + a P (X = x)
xa
X
= a P (X = x) = aP (X a)
xa
34 / 37
E[X]
P (X a) ¬
a
Dowód:
X
E[X] = x P (X = x)
x
X X
= x P (X = x) + x P (X = x)
x<a xa
| {z }
0
X
0 + a P (X = x)
xa
X
= a P (X = x) = aP (X a)
xa
Dzieląc obustronnie przez a kończymy dowód.

34 / 37
Nierówność Czebyszewa
Dla zmiennej losowej o skończonej wartości oczekiwanej i wariancji:
D2 [X]
P |X − E[X]| ϵ ¬
ϵ2
Prawdopodobieństwo znacznego odchylenia się od wartości oczekiwanej
jest niewielkie.
35 / 37
Nierówność Czebyszewa
Dla zmiennej losowej o skończonej wartości oczekiwanej i wariancji:
D2 [X]
P |X − E[X]| ϵ ¬
ϵ2
Prawdopodobieństwo znacznego odchylenia się od wartości oczekiwanej
jest niewielkie.
Dowód przy użyciu nierówności Markowa

Nierówność Czebyszewa działa dla dowolnej zmiennej losowej, ale jest
przez to zwykle dość słaba
35 / 37
Nierówność Czebyszewa – przykład zastosowania
Niech X1 , . . . , Xn będą niezależnymi zmiennymi losowymi o tej samej

wartości oczekiwanej µ = E[Xi ] i wariancji σ 2 = D2 [Xi ]
1 Pn
Zdefiniuj X = n i=1 Xi
σ2
Ponieważ E[X] = µ i D2 [X] = n , mamy:
σ2
P |X − µ| ϵ ¬
ϵ2 n
Prawdopodobieństwo odchylenia średniej arytmetycznej od wartości
oczekiwanej maleje odwrotnie proporcjonalnie do n
36 / 37
Nierówność Hoeffdinga
Niech X1 , . . . , Xn będą niezależnymi zmiennymi losowymi o wartościach

z zakresu [a, b], o tej samej wartości oczekiwanej µ = E[Xi ]. Wtedy:
!
2ϵ2 n
P |X − µ| ϵ ¬ 2 exp −
(b − a)2
37 / 37

!
2ϵ2 n
P |X − µ| ϵ ¬ 2 exp −
(b − a)2
Porównaj z nierównością Czebyszewa:

σ2
P |X − µ| ϵ ¬ 2
ϵ n
37 / 37

!
2ϵ2 n
P |X − µ| ϵ ¬ 2 exp −
(b − a)2
Prawdopodobieństwo odchylenia średniej arytmetycznej od wartości

oczekiwanej maleje wykładniczo z n
Dowód poprzez zastosowanie nierówności Markowa (na ćwiczeniach)
37 / 37

04_wyklad

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

04_wyklad

Uploaded by

Copyright:

Available Formats

Teoria uczenia maszynowego

”Akademia Innowacyjnych Zastosowań Technologii Cyfrowych (AI Tech)”,

1. Uczenie się z danych

• Ocena jakości (ryzyko = średni błąd na populacji)

• Ocena jakości (ryzyko = średni błąd na populacji)

gdzie poszczególne przykłady uczące (Xi , Yi ) są losowane niezależnie, z

Mając do dyspozycji próbę z populacji:

wyznacz funkcję predykcyjną h

Posiadamy wartości na wyjściu dla n punktów X1 , . . . , Xn , w jaki sposób

Posiadamy wartości na wyjściu dla n punktów X1 , . . . , Xn , w jaki sposób

(swoją drogą: jeśli widzicie jakiś wzorzec, to jest to złudzenie, bo te kolory

Poruszony już w Badaniach dotyczących

David Hume (1711-1776)

Poruszony już w Badaniach dotyczących

David Hume (1711-1776)

Wolpert, D. (1996): The Lack of A Priori

Wolpert, D. (1996): The Lack of A Priori

Jesteśmy się w stanie uczyć z danych, ponieważ rzeczywiste problemy

Rozważmy problem klasyfikacji binarnej, Y = {0, 1}, w którym X

Rozważmy problem klasyfikacji binarnej, Y = {0, 1}, w którym X

Zauważmy, że P (Y = y|X = x) jest rozkładem

Rozważmy problem klasyfikacji binarnej, Y = {0, 1}, w którym X

Oczywiście, zakładamy, że nie znamy

Na powyższej próbce zerowy błąd

Na powyższej próbce zerowy błąd

Prawdopodobieństwo, że wybierzemy klasyfikator spójny

• Stosujemy nierówność Boole’a:

• Stosujemy nierówność Boole’a:

• Stosujemy nierówność Boole’a:

• Stosujemy nierówność Boole’a:

Wniosek: Wybierając klasyfikator spójny na zbiorze S, jego błąd

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)

b > ln |H| + ln(1/δ)

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)

Z prawdopodobieństwem co najmniej 1 − δ, błąd wybranego klasyfikatora

Nierówność (1 + x)n ¬ exn (wynika z ex ­ 1 + x)

Z prawdopodobieństwem co najmniej 1 − δ, błąd wybranego klasyfikatora

ERM (Empirical Risk Minimization):

gdzie ryzyko empiryczne L(h) b to średni błąd na zbiorze treningowym

ERM (Empirical Risk Minimization):

gdzie ryzyko empiryczne L(h) b to średni błąd na zbiorze treningowym

Uniwersalna zasada uczenia stosowana w większości metod uczących

Funkcja hb ma zerowy błąd na S, ponieważ dla każdego (Xi , Yi ),

Funkcja hb ma zerowy błąd na S, ponieważ dla każdego (Xi , Yi ),

Dobór modelu H nazywa się obciążeniem indukcyjnym, gdyż ogranicza

• Regresja liniowa (błąd kwadratowy)

Drzewa decyzyjne: rekursywny podział przestrzeni na podobszary

Drzewa decyzyjne: rekursywny podział przestrzeni na podobszary

Drzewa decyzyjne: rekursywny podział przestrzeni na podobszary

Drzewa decyzyjne: rekursywny podział przestrzeni na podobszary

Drzewa decyzyjne: rekursywny podział przestrzeni na podobszary

Drzewa decyzyjne: rekursywny podział przestrzeni na podobszary

Każdy podział przestrzeni przez drzewo o np. ustalonej maksymalnej

Inne przykłady modeli:

Przypomnienie: prawo wielkich liczb

Przypomnienie: prawo wielkich liczb

Wniosek: dla ustalonej funkcji predykcyjnej h,

Nierówność (1 + x)n ¬ exn (wynika z ex 1 + x)

Nierówność (1 + x)n ¬ exn (wynika z ex 1 + x)

Nierówność (1 + x)n ¬ exn (wynika z ex 1 + x)

Nierówność (1 + x)n ¬ exn (wynika z ex 1 + x)

Nierówność (1 + x)n ¬ exn (wynika z ex 1 + x)

Nierówność (1 + x)n ¬ exn (wynika z ex 1 + x)

Nierówność (1 + x)n ¬ exn (wynika z ex 1 + x)

Nierówność (1 + x)n ¬ exn (wynika z ex 1 + x)

Nierówność (1 + x)n ¬ exn (wynika z ex 1 + x)

Nierówność (1 + x)n ¬ exn (wynika z ex 1 + x)