Professional Documents
Culture Documents
04_wyklad
04_wyklad
Wykład 4
Wojciech Kotłowski
Instytut Informatyki PP
http://www.cs.put.poznan.pl/wkotlowski/
16.04.2024
1 / 37
Plan wykładu
2 / 37
Uczenie się z danych
3 / 37
Problem uczenia się z danych
Dotychczas analizowaliśmy „populacyjne” własności funkcji predykcyjnych:
4 / 37
Problem uczenia się z danych
Dotychczas analizowaliśmy „populacyjne” własności funkcji predykcyjnych:
S = {(X1 , Y1 ), . . . , (Xn , Yn )}
4 / 37
Zadanie uczenia się z danych
S = {(X1 , Y1 ), . . . , (Xn , Yn )} ,
. . . za to mamy
Jak najmniejsze. . .
. . . ale nie znamy próbę z rozkładu
rozkładu danych. . .
5 / 37
Ale czy coś da się w ogólności nauczyć?
6 / 37
Ale czy coś da się w ogólności nauczyć?
6 / 37
Problem indukcji
7 / 37
Problem indukcji
7 / 37
Twierdzenie No free lunch
8 / 37
Twierdzenie No free lunch
8 / 37
Regularności w danych
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
9 / 37
Problem z deterministycznym wyjściem
10 / 37
Problem z deterministycznym wyjściem
10 / 37
Problem z deterministycznym wyjściem
10 / 37
Problem z deterministycznym wyjściem
Przykład:
11
10
Rozważ X = (X1 , X2 ) losowane
9 jednostajnie na X1 , X2 ∈ {0, 1, . . . , 11}
8
7 Y = 1 (czerwony) jeśli X1 6, w
x2 6 przeciwnym przypadku Y = 0 (zielony)
5
4
3
Klasa H zawiera klasyfikatory progowe
2 postaci h(x) = 1{x1 k} dla
1 k = 0, 1, . . . , 12
0
0 1 2 3 4 5 6 7 8 9 10 11
x1 Mamy h⋆ = 1{x1 6} ∈ H
11 / 37
Problem z deterministycznym wyjściem
Proste rozwiązanie: Skoro h⋆ nigdy się nie myli na całej populacji, nie
może się więc mylić na próbie S. Wybierzmy więc dowolny klasyfikator z
H, który na S nie popełnia żadnego błędu.
12 / 37
Problem z deterministycznym wyjściem
Proste rozwiązanie: Skoro h⋆ nigdy się nie myli na całej populacji, nie
może się więc mylić na próbie S. Wybierzmy więc dowolny klasyfikator z
H, który na S nie popełnia żadnego błędu.
b ∈ H, którego
Jaka jest szansa, że wybierzemy w ten sposób klasyfikator h
ryzyko L(h) = P (h(X) ̸= Y ) przekracza ϵ?
b b
12 / 37
Problem z deterministycznym wyjściem
11
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11
13 / 37
Problem z deterministycznym wyjściem
13 / 37
Problem z deterministycznym wyjściem
13 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
14 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
• Oznaczmy ph = L(h) = P (h(X) ̸= Y ) dla h ∈ H i zdarzenie Bh –
klasyfikator h jest spójny na S. Wtedy P (Bh ) = . . .
14 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
• Oznaczmy ph = L(h) = P (h(X) ̸= Y ) dla h ∈ H i zdarzenie Bh –
klasyfikator h jest spójny na S. Wtedy P (Bh ) = (1 − ph )n
14 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
• Oznaczmy ph = L(h) = P (h(X) ̸= Y ) dla h ∈ H i zdarzenie Bh –
klasyfikator h jest spójny na S. Wtedy P (Bh ) = (1 − ph )n
• Zdarzenie A – wybrany klasyfikator hb spójny na S ma ryzyko L(h)
b
przekraczające ϵ
14 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
• Oznaczmy ph = L(h) = P (h(X) ̸= Y ) dla h ∈ H i zdarzenie Bh –
klasyfikator h jest spójny na S. Wtedy P (Bh ) = (1 − ph )n
• Zdarzenie A – wybrany klasyfikator hb spójny na S ma ryzyko L(h)
b
przekraczające ϵ
[ [
A⊆ Bh , stąd P (A) ¬ P Bh
h∈H : ph >ϵ h∈H : ph >ϵ
14 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
• Oznaczmy ph = L(h) = P (h(X) ̸= Y ) dla h ∈ H i zdarzenie Bh –
klasyfikator h jest spójny na S. Wtedy P (Bh ) = (1 − ph )n
• Zdarzenie A – wybrany klasyfikator hb spójny na S ma ryzyko L(h)
b
przekraczające ϵ
[ [
A⊆ Bh , stąd P (A) ¬ P Bh
h∈H : ph >ϵ h∈H : ph >ϵ
14 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
• Oznaczmy ph = L(h) = P (h(X) ̸= Y ) dla h ∈ H i zdarzenie Bh –
klasyfikator h jest spójny na S. Wtedy P (Bh ) = (1 − ph )n
• Zdarzenie A – wybrany klasyfikator hb spójny na S ma ryzyko L(h)
b
przekraczające ϵ
[ [
A⊆ Bh , stąd P (A) ¬ P Bh
h∈H : ph >ϵ h∈H : ph >ϵ
14 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
• Oznaczmy ph = L(h) = P (h(X) ̸= Y ) dla h ∈ H i zdarzenie Bh –
klasyfikator h jest spójny na S. Wtedy P (Bh ) = (1 − ph )n
• Zdarzenie A – wybrany klasyfikator hb spójny na S ma ryzyko L(h)
b
przekraczające ϵ
A Ponieważ ph B (1 − P
>h ϵ, więcstąd )n <
ph(A) P − ϵ)
¬(1
n
[ [
⊆ Bh
h∈H : ph >ϵ h∈H : ph >ϵ
14 / 37
Problem z deterministycznym wyjściem
• Nazwijmy klasyfikator spójnym na S jeśli ma na S zerowy błąd
• Oznaczmy ph = L(h) = P (h(X) ̸= Y ) dla h ∈ H i zdarzenie Bh –
klasyfikator h jest spójny na S. Wtedy P (Bh ) = (1 − ph )n
• Zdarzenie A – wybrany klasyfikator hb spójny na S ma ryzyko L(h)
b
przekraczające ϵ
[ [
A⊆ Bh , stąd P (A) ¬ P Bh
h∈H : ph >ϵ h∈H : ph >ϵ
15 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)
15 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)
15 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)
15 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)
ln |H| − nϵ = ln δ
15 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)
nϵ = − ln δ + ln |H|
15 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)
ln |H| + ln(1/δ)
ϵ=
n
15 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)
ln |H| + ln(1/δ)
ϵ=
n
15 / 37
Problem z deterministycznym wyjściem
b > ϵ) < |H|(1 − ϵ)n < |H|e−ϵn
P (L(h)
ln |H| + ln(1/δ)
ϵ=
n
b ¬ ln |H| + ln(1/δ)
Czyli: P L(h) 1−δ
n
ln |H| + ln(1/δ)
ϵ = z n jak 1/n
Ograniczenie błędu maleje
n
i zależy logarytmicznie
od rozmiaru zbioru
ln |H| + ln(1/δ)
klasyfikatorów H!
Czyli: P L(h) ¬
b 1−δ
n
Wnioski
• Udało się coś dowieść odnośnie procesu uczenia ,
• Im więcej danych, tym lepiej: błąd maleje z rozmiarem próby n
• Im mniejsze H tym lepiej, ale błąd rośnie wolno (logarytmicznie) z
rozmiarem H
• Klasyfikator h
b jest funkcją próby, a więc zmienną losową: możemy
dać gwarancję z dużym prawdopodobieństwem, ale nie z pewnością
(alternatywa: można być też podać średni błąd po losowym wyborze
próby – na ćwiczeniach!)
16 / 37
Minimalizacja ryzyka empirycznego
17 / 37
Minimalizacja ryzyka empirycznego (ERM)
18 / 37
Minimalizacja ryzyka empirycznego (ERM)
18 / 37
Obciążenie indukcyjne
Minimalizacja ryzyka empirycznego musi być wykonywana tylko w obrębie
ograniczonej klasy funkcji H, którą będziemy nazywali modelem
Minimalizacja względem wszystkich funkcji dałaby trywialne rozwiązanie
(zakładając, że Xi w obrębie S się nie powtarzają):
(
Yi jeśli x = Xi dla jakiegoś i = 1, . . . , n
h(x)
b =
cokolwiek w przeciwnym przypadku
Ale funkcja h
b jest bezużyteczna, gdyż po prostu nauczyła się przykładów
uczących na pamięć i nie potrafi przewidzieć nic poza zbiorem uczącym
19 / 37
Obciążenie indukcyjne
Minimalizacja ryzyka empirycznego musi być wykonywana tylko w obrębie
ograniczonej klasy funkcji H, którą będziemy nazywali modelem
Minimalizacja względem wszystkich funkcji dałaby trywialne rozwiązanie
(zakładając, że Xi w obrębie S się nie powtarzają):
(
Yi jeśli x = Xi dla jakiegoś i = 1, . . . , n
h(x)
b =
cokolwiek w przeciwnym przypadku
Ale funkcja h
b jest bezużyteczna, gdyż po prostu nauczyła się przykładów
uczących na pamięć i nie potrafi przewidzieć nic poza zbiorem uczącym
Model liniowy
hw (x) = w⊤ x = w0 +
X
H = {hw : w ∈ R} , wi x i
i
x2
x1
20 / 37
Obciążenie indukcyjne – przykłady
x1
21 / 37
Obciążenie indukcyjne – przykłady
x1 ¬ a
x2
ni
ta
e
a x1
21 / 37
Obciążenie indukcyjne – przykłady
x1 ¬ a
x2
ni
ta
e
x2 ¬ b
tak
nie
b
a x1
21 / 37
Obciążenie indukcyjne – przykłady
x1 ¬ a
x2
ni
ta
e
x2 ¬ b x1 ¬ c
tak
tak
nie
nie
b
a c x1
21 / 37
Obciążenie indukcyjne – przykłady
x1 ¬ a
x2
ni
ta
e
x2 ¬ b x1 ¬ c
d
tak
tak
nie
nie
b
x2 ¬ d
tak
nie
a c x1
21 / 37
Obciążenie indukcyjne – przykłady
x1 ¬ a
x2
ni
ta
e
x2 ¬ b x1 ¬ c
d
tak
tak
nie
nie
b
x2 ¬ d
tak
nie
a c x1
21 / 37
Obciążenie indukcyjne – przykłady
22 / 37
Ryzyko empiryczne a ryzyko
23 / 37
Ryzyko empiryczne a ryzyko
23 / 37
Ryzyko empiryczne a ryzyko
23 / 37
Wzorce w danych
24 / 37
Wzorce w danych
24 / 37
Nadmierne dopasowanie (overfitting)
25 / 37
Nadmierne dopasowanie – przykłady
26 / 37
Nadmierne dopasowanie – przykłady
Wygenerujmy dane jako:
x ∼ jednostajnie[0, 1],
y = x + ϵ, ϵ ∼ N (0, 0.05).
Wyjście y jest funkcją liniową x z szumem ϵ
Optymalna funkcja predykcyjna to h⋆ (x) = x
27 / 37
Nadmierne dopasowanie – przykłady
Wygenerujmy dane jako:
x ∼ jednostajnie[0, 1],
y = x + ϵ, ϵ ∼ N (0, 0.05).
Wyjście y jest funkcją liniową x z szumem ϵ
Optymalna funkcja predykcyjna to h⋆ (x) = x
● ●
● ●
● ●
y
y
● ●
● ●
● ●
● ●
● ●
●● ●●
x x
27 / 37
Błąd aproksymacji i estymacji
28 / 37
Błąd estymacji i aproksymacji
• Rozważmy dowolną funkcję predykcyjną h wybraną z klasy funkcji
H (np. przez ERM lub dowolny inny algorytm uczenia)
• Niech h⋆H = argminh∈H L(h) będzie funkcją minimalizującą ryzyko
w obrębie modelu H
29 / 37
Błąd estymacji i aproksymacji
• Rozważmy dowolną funkcję predykcyjną h wybraną z klasy funkcji
H (np. przez ERM lub dowolny inny algorytm uczenia)
• Niech h⋆H = argminh∈H L(h) będzie funkcją minimalizującą ryzyko
w obrębie modelu H
∆L(h) = L(h) − L(h⋆ ) = L(h) − L(h⋆H ) + L(h⋆H ) − L(h⋆ )
| {z } | {z } | {z }
nadwyżka ryzyka h błąd estymacji błąd aproksymacji
29 / 37
Błąd estymacji i aproksymacji
• Rozważmy dowolną funkcję predykcyjną h wybraną z klasy funkcji
H (np. przez ERM lub dowolny inny algorytm uczenia)
• Niech h⋆H = argminh∈H L(h) będzie funkcją minimalizującą ryzyko
w obrębie modelu H
∆L(h) = L(h) − L(h⋆ ) = L(h) − L(h⋆H ) + L(h⋆H ) − L(h⋆ )
| {z } | {z } | {z }
nadwyżka ryzyka h błąd estymacji błąd aproksymacji
29 / 37
Błąd estymacji i aproksymacji
• Rozważmy dowolną funkcję predykcyjną h wybraną z klasy funkcji
H (np. przez ERM lub dowolny inny algorytm uczenia)
• Niech h⋆H = argminh∈H L(h) będzie funkcją minimalizującą ryzyko
w obrębie modelu H
∆L(h) = L(h) − L(h⋆ ) = L(h) − L(h⋆H ) + L(h⋆H ) − L(h⋆ )
| {z } | {z } | {z }
nadwyżka ryzyka h błąd estymacji błąd aproksymacji
29 / 37
Błąd estymacji i aproksymacji
h⋆
H h⋆H
30 / 37
Błąd aproksymacji – przykład
31 / 37
Błąd aproksymacji – przykład
31 / 37
Błąd estymacji i aproksymacji
złożoność modelu
32 / 37
Nierówności probabilistyczne
33 / 37
Nierówność Markowa
Niech X będzie nieujemną zmienną losową. Dla dowolnego a > 0:
E[X]
P (X a) ¬
a
34 / 37
Nierówność Markowa
Niech X będzie nieujemną zmienną losową. Dla dowolnego a > 0:
E[X]
P (X a) ¬
a
Dowód:
X
E[X] = x P (X = x)
x
34 / 37
Nierówność Markowa
Niech X będzie nieujemną zmienną losową. Dla dowolnego a > 0:
E[X]
P (X a) ¬
a
Dowód:
X
E[X] = x P (X = x)
x
X X
= x P (X = x) + x P (X = x)
x<a xa
| {z }
0
34 / 37
Nierówność Markowa
Niech X będzie nieujemną zmienną losową. Dla dowolnego a > 0:
E[X]
P (X a) ¬
a
Dowód:
X
E[X] = x P (X = x)
x
X X
= x P (X = x) + x P (X = x)
x<a xa
| {z }
0
X
0 + a P (X = x)
xa
34 / 37
Nierówność Markowa
Niech X będzie nieujemną zmienną losową. Dla dowolnego a > 0:
E[X]
P (X a) ¬
a
Dowód:
X
E[X] = x P (X = x)
x
X X
= x P (X = x) + x P (X = x)
x<a xa
| {z }
0
X
0 + a P (X = x)
xa
X
= a P (X = x) = aP (X a)
xa
34 / 37
Nierówność Markowa
Niech X będzie nieujemną zmienną losową. Dla dowolnego a > 0:
E[X]
P (X a) ¬
a
Dowód:
X
E[X] = x P (X = x)
x
X X
= x P (X = x) + x P (X = x)
x<a xa
| {z }
0
X
0 + a P (X = x)
xa
X
= a P (X = x) = aP (X a)
xa
D2 [X]
P |X − E[X]| ϵ ¬
ϵ2
Prawdopodobieństwo znacznego odchylenia się od wartości oczekiwanej
jest niewielkie.
35 / 37
Nierówność Czebyszewa
D2 [X]
P |X − E[X]| ϵ ¬
ϵ2
Prawdopodobieństwo znacznego odchylenia się od wartości oczekiwanej
jest niewielkie.
35 / 37
Nierówność Czebyszewa – przykład zastosowania
σ2
P |X − µ| ϵ ¬
ϵ2 n
Prawdopodobieństwo odchylenia średniej arytmetycznej od wartości
oczekiwanej maleje odwrotnie proporcjonalnie do n
36 / 37
Nierówność Hoeffdinga
37 / 37
Nierówność Hoeffdinga
37 / 37
Nierówność Hoeffdinga
37 / 37