SU 7 Regresija

Strojno u
cenje
7. Regresija
prof. dr. sc. Bojana Dalbelo Basic
doc. dr. sc. Jan Snajder

Sveu
ciliste u Zagrebu
Fakultet elektrotehnike i ra
cunarstva
Ak. god. 2012/13.
Creative Commons ImenovanjeNekomercijalnoBez prerada 3.0
v1.1
1 / 34
Danas. . .
Uvod
Postupak najmanjih kvadrata
Poopceni linearan model regresije
Odabir modela
Regularizirana regresija
2 / 34
Danas. . .
Uvod
Odabir modela
3 / 34
Regresija
D
tpxpiq, ypiqqu,
x P Rn ,
PR
Hipoteza h aproksimira nepoznatu funkciju f : Rn
x ulazna varijabla (nezavisna, prediktorska)

y izlazna varijabla (zavisna, kriterijska)
Funkcija pogreske:
E ph|Dq
2
1 p iq
y hpxpiq q
2 i1
N
4 / 34
Regresija
Linearan model regresije:
h je linearna funkcija parametara w pw0 , . . . , wn q
Linearna regresija:
hpx|wq w0 w1 x1
w2 x2
wn x n
Polinomijalna regresija:
hpx|wq w0 w1 x w2 x2 wd xd pn 1q
hpx|wq w0 w1 x1 w2 x2 w3 x1 x2 w4 x21 w5 x22
Opcenite bazne funkcije:
hpx|wq w0 w1 1 pxq
pn 2, d 2q
wm m px q
5 / 34
Regresija
Broj ulaznih (nezavisnih) varijabli:
Univarijatna (jednostavna, jednostruka) regresija: n 1

Multivarijatna (visestruka, multipla) regresija: n 1
Broj izlaznih (zavisnih) varijabli:
Jednoizlazna regresija: f pxq y

Viseizlazna regresija: f pxq y
6 / 34
Danas. . .
Uvod
Odabir modela
7 / 34
Probabilisticki model regresije

Ogranicimo se BSO na univarijatnu (n 1) linearnu regresiju:
hpx|wq w0
Zbog suma u D:
y piq
Prepostavka:
Posjedicno:
odnosno
y |x
w1 x
w pw0 , w1 q
f pxpiqq

N p0, 2 q
N phpx|wq, 2 q
ppy |xq N phpx|wq, 2 q
E ry |xs hpx|wq
8 / 34
Probabilisticki model regresije
9 / 34
Log-izglednost
ln Lpw|Dq ln ppD|wq ln
ppxpiq , y piq q ln
i 1
ln
ppy piq |xpiq q
i 1
N
ln
ln
ppxpiq q
N hpxpiq |wq, 2

2
p
y iq hpxpiq |wq )
i 1
?1
N lnp
ln
ppy piq |xpiq q ln
i 1
ppy piq |xpiq qppxpiq q
i 1
N
i 1
N
i 1
N
exp
2 q
2 2
N
1 p iq
piq |wq2
y

h
p
x
2 2 i1

21 ypiq hpxpiq|wq 2
i1
N
10 / 34
MLE i postupak najmanjih kvadrata

Uz pretpostavku Gaussovog suma, maksimizacija izglednosti odgovara
minimizaciji funkcije pogreske definirane kao zbroj kvadratnih odstupanja:
argmax ln Lpw|Dq argmin E pw|Dq
w
E ph|Dq
L y, hpx|wq
w
N
2
1
y piq hpxpiq |wq
2 i1

9 y hpx|wq 2
Probabilisticko opravdanje za kvadratnu funkciju gubitka

Rjesenje MLE jednako je rjesenju koje daje postupak najmanjih kvadrata!
11 / 34

hpx|w0 , w1 q w0
w1 x
w0 ,w1 E ph|Dq 0
..
.
N
y piq N w0
w1
i 1
N
w0
i 1
ix
x p iq
w1
i 1
Matricni oblik: Aw z
A
x p iq
(1.3) u skripti
i 1
y piq xpiq

N
p iq
p iq
x
i piq 2
i
px q
pxpiqq2
(1.5) u skripti
i 1
w
w0
w1
z
piq
y
ipiq piq
iy
Rjesenje: w A1 z
12 / 34
Danas. . .
Uvod
Odabir modela
13 / 34
Bazne funkcije
Zanima nas poopcenje na n 1 koje obuhvaca sve multivarijatne linearne
modele regresije (univarijatna regresija, linearna regresija, polinomijalna
regresija, . . . ).
Uvodimo fiksan skup baznih funkcija (nelinearne funkcije ulaznih varijabli):
tj pxqumj1
j : Rn
(Dogovorno: 0 pxq 1)
Funkcija preslikavanja (vektor baznih funkcija):

p x q 0 p x q, . . . , m p x q
: Rn
Rm
Poopcen linearan model:

hpx|wq
wj j p x q w T px q
j 0
14 / 34
Poopceni linearan model

hpx|wq
wj j p x q w T px q
j 0
Linearna regresija:
pxq p1, x1 , x2 , . . . , xn q
Univarijatna polinomijalna regresija:
pxq p1, x, x2 , . . . , xm q
Polinomijalna regresija drugog stupnja:
pxq p1, x1 , x2 , x1 x2 , x21 , x22 q
Gaussove bazne funkcije:
j pxq exp
px 22 j q
2)
15 / 34
Gaussove bazne funkcije

(Opcenito: radijalne bazne funkcije, RBF)
16 / 34
Preslikavanje znacajki
Funkcija preslikavanja znacajki : Rn Rm preslikava primjere iz
n-dimenzijskog ulaznog prostora (engl. input space) u m-dimenzijski
prostor znacajki (engl. feature space).
Tipicno je m n. Funkcija koja je linearna u prostoru znacajki je
nelinearna u ulaznom prostoru.
sada mozemo koristiti linearan model za nelinearne probleme

imamo jedinstven matematicki tretman, neovisan o funkciji
17 / 34
Matricno rjesenje najmanjih kvadrata

Dizajn-matrica:
1
1

.
..
1 pxp1q q
1 pxp2q q
...
...
1 1 px p N q q . . .
m pxpN q q
pxp1q qT
pxp2q qT

..

.
m pxp1q q
m pxp2q q

pxpN q qT
N m
Vektor izlaznih vrijednosti:

y p1q
y p2q

y .
..
y pN q
Matricna jednadzba (N jednadzbi s m nepoznanica):

w y
18 / 34

Rjesenje je w 1 y
Medutim, rjesenja nema ili ono nije jedinstveno ako:
(1) nije kvadratna, pa nema inverz. U pravilu:
N m
sustav je preodreden (engl. overdetermined) i nema rjesenja
N m
sustav je pododreden (engl. underdetermined) i ima
visestruka rjesenja
(2) jest kvadratna (N m), ali ipak nema inverz
sustav je nekonzistentan
Priblizno rjesenje mozemo naci postupkom najmanjih kvadrata

minimizacija kvadrata pogreske svake od jednadzbi
19 / 34

Funkcija pogreske:
E pw|Dq
2
1
wT pxpiq q y piq
2 i1
N
Matricni oblik:
E pw|Dq
1
pw yqTpw yq
2
12 pwTTw wTTy yTw
21 pwTTw 2yTw yTyq
yT yq
20 / 34

E pw|Dq
w E
1 T T
pw w 2yTw yTyq
2

1 T T
w pT qT 2yT T w T y 0
2
d T
x Ax xT pA
dx
AT q
d
Ax A
dx
Sustav normalnih jednadzbi:

T w T y
Rjesenje:
w pT q1 T y y
pTq1T je pseudoinverz (Moore-Penroseov inverz) matrice

21 / 34
Danas. . .
Uvod
Odabir modela
22 / 34
Odabir modela
Linearan model regresije ima hiperparametre:
izgled baznih funkcija j
broj baznih funkcija m (dimenzija prostora znacajki)
Parametre treba namjestiti tako da odgovaraju podatcima, odnosno treba
dobro odabrati model. U suprotnom model moze biti podnaucen ili
prenaucen. Ako model ima mnogo parametra, lako ga je prenauciti.
Sprecavanje prenaucenosti:
(1) koristiti vise primjera za ucenje
(2) odabrati model unakrsnom provjerom
(3) regularizacija
(4) bayesovska regresija
23 / 34
Danas. . .
Uvod
Odabir modela
24 / 34
Regularizacija motivacija
Opazanje: kod linearnih modela, sto je model slozeniji, to ima vece
vrijednosti parametara w.
Prenauceni linearni modeli imaju:
(1) ukupno previse parametara (tezina) i/ili
(2) prevelike vrijednosti pojedinacnih parametara.
Ideja: ograniciti rast vrijednosti parametara kaznjavanjem hipoteza s
visokim vrijednostima parametara.
Time se ostvaruje kompromis izmedu tocnosti i jednostavnosti modela i to
vec pri samom ucenju modela. Efektivno se ogranicava slozenost modela i
sprecava se prenaucenost.
Cilj: sto vise parametara (tezina) pritegnuti na nulu
(engl. sparse models).
rijetki modeli
25 / 34
Regularizacija
Slozenost modela ugradena je u funkciju pogreske:
E1
empirijska pogreska
slozenost modela
E 1 pw|Dq E pw|Dq
Ew pwq
Veca vrijednost regularizacijskog faktora uzrokuje smanjuje efektivne

slozenost modela.
0 neregularizirana funkcija pogreske
Opcenit regularizacijski izraz:
Ew pwq
1
|wj |q
2 j 1
m
26 / 34
Regularizacija primjer
27 / 34
Regularizirani linearni model regresije

L2-regularizacija (engl. ridge regularization) (q
E pw|Dq
2)
2
1
wT pxpiq q y piq
2 i1
N
L1-regularizacija (engl. LASSO regularization) (q

E pw|Dq
L0-regularizacija (q
}w}2
2
1)
2
1
wT pxpiq q y piq
2 i1
N
}w}1
2
0)
E pw|Dq
2
1
wT pxpiq q y piq
2 i1
N
1 twj
2 j 1
m
0u
28 / 34
L2-regularizacija
Linearna regresija s L2-regularizacijom ima rjesenje u zatvorenoj formi:
E 1 pw|Dq

w E 1
T
1
p
w yqT pw yq
w w
2
2
1 T T
pw w 2yTw yTy wTwq
2
Tw Ty w
pT Iqw Ty 0
w pT
Iq1 T y
29 / 34
L2-regularizacija
Ima li L2-regularizirana pogreska probabilisticku interpretaciju?
Umjesto MLE, izracunajmo MAP:
ppw|Dq
9 ppD|wqppwq
Izglednost je normalna sa srednjom vrijednoscu hpx|wq:
ppD|wq
N hpxpiq |wq, 1
p 1{2q
i 1
Pretpostavimo da apriorna PDF parametara normalna sa srednjom

vrijednoscu nula i izotropnom kov. matricom:
ppwq N p0, 1 Iq
m{2
exp
2 wTw
p 1{2q
( i su hiperparametri modela)
30 / 34
L2-regularizacija
Maksimizacija aposteriorne vjerojatnosti istovjetna je minimizaciji
negativnog logaritma aposteriorne vjerojatnosti:
argmax ppD|wqppwq argmin
w
ln ppD|wq 2
y piq hpx|wq
2
ln ppD|wq ln ppwq
konst.
i 1
ln ppwq 2 wTw
Dakle, pogreska koju minimiziramo je:

N
2
piq
y hpx|wq
2 i1
T
w w
2
a to je upravo L2-regularizirana pogreska! (uz {)

31 / 34
Regularizacija napomene
Iznos parametra wj odgovara vaznosti znacajke, a predznak upucuje
na njezin utjecaj (pozitivan ili negativan) na izlaznu vrijednost
Regularizacija smanjuje slozenost modela na nacin da prigusuje
vrijednosti pojedinih znacajki, odnosno efektivno ih izbacuje (kada
wj 0). Ako je model nelinearan, to znaci smanjivanje nelinearnosti
Tezinu w0 treba izuzeti iz regularizacijskog izraza (jer ona definira
pomak) ili treba centrirati podatke tako da y 0, jer onda w0 0
L2-regularizacija kaznjava tezine proporcionalno njihovom iznosu
(velike tezine vise, a manje tezine manje). Tesko ce parametri biti
pritegnuti bas na nulu. Zato L2-regularizacija ne rezultira rijetkim
modelima
L1-regularizacija rezultira rijetkim modelima, ali nema rjesenja u
zatvorenoj formi (medutim mogu se koristiti iterativni optimizacijski
postupci)
32 / 34
Regularizacija napomene
Regularizacija je korisna kod modela s puno parametara, jer je takve
modele lako prenauciti
Regularizacija smanjuje mogucnost prenaucenosti, ali ostaje problem
odabira hiperparametra te drugih hiperparametara (broj i oblik
baznih funkcija). Taj se odabir najcesce radi unakrsnom provjerom
Q: Koju optimalnu vrijednost za bismo dobili kada bismo optimizaciju
radili na skupu za ucenje?
33 / 34
Sazetak
Linearan model regresije linearan je u parametrima
Nelinearnost regresijske funkcije ostvaruje se uporabom nelinearnih
baznih funkcija (preslikavanjem ulaznog prostora u prostor znacajki)
Uz pretpostavku normalno distribuiranog suma, MLE je istovjetan
postupku najmanjih kvadrata, sto daje probabilisticko opravdanje
za uporabu kvadratne funkcije gubitka
Parametri linearnog modela uz kvadratnu funkciju gubitka imaju
rjesenje u zatvorenoj formi u obliku pseudoinverza dizajn-matrice
Regularizacija smanjuje prenau
cenost ugradnjom dodatnog izraza
u funkciju pogreske kojim se kaznjava slozenost modela
L2-regularizirana regresija istovjetna je MAP-procjeni parametara
(uz pretpostavku Gaussovog suma) te ima rjesenje u zatvorenoj formi
Sljedeca tema: Linearni diskriminativni modeli

34 / 34

SU 7 Regresija

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

SU 7 Regresija

Uploaded by

Copyright:

Available Formats

Strojno u

doc. dr. sc. Jan Snajder

Ak. god. 2012/13.

Creative Commons ImenovanjeNekomercijalnoBez prerada 3.0

Postupak najmanjih kvadrata

Poopceni linearan model regresije

Postupak najmanjih kvadrata

Poopceni linearan model regresije

Hipoteza h aproksimira nepoznatu funkciju f : Rn

x ulazna varijabla (nezavisna, prediktorska)

Univarijatna (jednostavna, jednostruka) regresija: n  1

Broj izlaznih (zavisnih) varijabli:

Jednoizlazna regresija: f pxq  y

Postupak najmanjih kvadrata

Poopceni linearan model regresije

Probabilisticki model regresije

ppy |xq  N phpx|wq, 2 q

Probabilisticki model regresije

ppy piq |xpiq q

ppy piq |xpiq q  ln

ppy piq |xpiq qppxpiq q

MLE i postupak najmanjih kvadrata

Probabilisticko opravdanje za kvadratnu funkciju gubitka

Postupak najmanjih kvadrata

Postupak najmanjih kvadrata

Poopceni linearan model regresije

Funkcija preslikavanja (vektor baznih funkcija):

Poopcen linearan model:

Poopceni linearan model

Gaussove bazne funkcije

sada mozemo koristiti linearan model za nelinearne probleme

Matricno rjesenje najmanjih kvadrata

Vektor izlaznih vrijednosti:

Matricna jednadzba (N jednadzbi s m nepoznanica):

Matricno rjesenje najmanjih kvadrata

Priblizno rjesenje mozemo naci postupkom najmanjih kvadrata

Matricno rjesenje najmanjih kvadrata

Matricno rjesenje najmanjih kvadrata

Sustav normalnih jednadzbi:

 pTq1T je pseudoinverz (Moore-Penroseov inverz) matrice

Postupak najmanjih kvadrata

Poopceni linearan model regresije

Postupak najmanjih kvadrata

Poopceni linearan model regresije

Veca vrijednost regularizacijskog faktora uzrokuje smanjuje efektivne

Regularizirani linearni model regresije

L1-regularizacija (engl. LASSO regularization) (q

Pretpostavimo da apriorna PDF parametara normalna sa srednjom

Dakle, pogreska koju minimiziramo je:

a to je upravo L2-regularizirana pogreska! (uz  {)

Sljedeca tema: Linearni diskriminativni modeli

You might also like

Univarijatna (jednostavna, jednostruka) regresija: n 1

Jednoizlazna regresija: f pxq y

ppy |xq N phpx|wq, 2 q

ppy piq |xpiq q ln

pTq1T je pseudoinverz (Moore-Penroseov inverz) matrice

a to je upravo L2-regularizirana pogreska! (uz {)