Download as pdf or txt
Download as pdf or txt
You are on page 1of 35

Strojno u

cenje

7. Regresija
prof. dr. sc. Bojana Dalbelo Basic

doc. dr. sc. Jan Snajder


Sveu
ciliste u Zagrebu
Fakultet elektrotehnike i ra
cunarstva

Ak. god. 2012/13.

Creative Commons ImenovanjeNekomercijalnoBez prerada 3.0

v1.1

1 / 34

Danas. . .

Uvod

Postupak najmanjih kvadrata

Poopceni linearan model regresije

Odabir modela

Regularizirana regresija

2 / 34

Danas. . .

Uvod

Postupak najmanjih kvadrata

Poopceni linearan model regresije

Odabir modela

Regularizirana regresija

3 / 34

Regresija
D

 tpxpiq, ypiqqu,

x P Rn ,

PR

Hipoteza h aproksimira nepoznatu funkciju f : Rn

x ulazna varijabla (nezavisna, prediktorska)


y izlazna varijabla (zavisna, kriterijska)
Funkcija pogreske:
E ph|Dq 

2
1 p iq
y  hpxpiq q
2 i1
N

4 / 34

Regresija
Linearan model regresije:
h je linearna funkcija parametara w  pw0 , . . . , wn q
Linearna regresija:
hpx|wq  w0 w1 x1

w2 x2



wn x n

Polinomijalna regresija:
hpx|wq  w0 w1 x w2 x2    wd xd pn  1q
hpx|wq  w0 w1 x1 w2 x2 w3 x1 x2 w4 x21 w5 x22
Opcenite bazne funkcije:
hpx|wq  w0 w1 1 pxq



pn  2, d  2q

wm m px q

5 / 34

Regresija
Broj ulaznih (nezavisnih) varijabli:

Univarijatna (jednostavna, jednostruka) regresija: n  1


Multivarijatna (visestruka, multipla) regresija: n 1

Broj izlaznih (zavisnih) varijabli:

Jednoizlazna regresija: f pxq  y


Viseizlazna regresija: f pxq  y

6 / 34

Danas. . .

Uvod

Postupak najmanjih kvadrata

Poopceni linearan model regresije

Odabir modela

Regularizirana regresija

7 / 34

Probabilisticki model regresije


Ogranicimo se BSO na univarijatnu (n  1) linearnu regresiju:
hpx|wq  w0
Zbog suma u D:

y piq

Prepostavka:

Posjedicno:
odnosno

y |x

w1 x

w  pw0 , w1 q

 f pxpiqq


N p0, 2 q

N phpx|wq, 2 q

ppy |xq  N phpx|wq, 2 q

E ry |xs   hpx|wq
8 / 34

Probabilisticki model regresije

9 / 34

Log-izglednost
ln Lpw|Dq  ln ppD|wq  ln

ppxpiq , y piq q  ln

i 1

 ln

ppy piq |xpiq q

i 1
N

ln

 ln

ppxpiq q
N hpxpiq |wq, 2


2
p
y iq  hpxpiq |wq )
i 1

?1

 N lnp

ln

ppy piq |xpiq q  ln

i 1

ppy piq |xpiq qppxpiq q

i 1
N

i 1
N

i 1
N

exp

2 q 

2 2

N
1 p iq
piq |wq2
y

h
p
x
2 2 i1


 21 ypiq  hpxpiq|wq 2
i1
N

10 / 34

MLE i postupak najmanjih kvadrata


Uz pretpostavku Gaussovog suma, maksimizacija izglednosti odgovara
minimizaciji funkcije pogreske definirane kao zbroj kvadratnih odstupanja:
argmax ln Lpw|Dq  argmin E pw|Dq
w

E ph|Dq 
L y, hpx|wq

w
N

2
1
y piq  hpxpiq |wq
2 i1


9 y  hpx|wq 2

Probabilisticko opravdanje za kvadratnu funkciju gubitka


Rjesenje MLE jednako je rjesenju koje daje postupak najmanjih kvadrata!

11 / 34

Postupak najmanjih kvadrata


hpx|w0 , w1 q  w0

w1 x

w0 ,w1 E ph|Dq  0
..
.
N

y piq  N w0

w1

i 1
N

 w0

i 1

ix

x p iq

w1

i 1

Matricni oblik: Aw  z
A

x p iq

(1.3) u skripti

i 1

y piq xpiq


N
p iq

p iq

x
i piq 2
i

px q

pxpiqq2

(1.5) u skripti

i 1

w

w0
w1

z

 piq

y
ipiq piq
iy

Rjesenje: w  A1 z
12 / 34

Danas. . .

Uvod

Postupak najmanjih kvadrata

Poopceni linearan model regresije

Odabir modela

Regularizirana regresija

13 / 34

Bazne funkcije
Zanima nas poopcenje na n 1 koje obuhvaca sve multivarijatne linearne
modele regresije (univarijatna regresija, linearna regresija, polinomijalna
regresija, . . . ).
Uvodimo fiksan skup baznih funkcija (nelinearne funkcije ulaznih varijabli):

tj pxqumj1

j : Rn

(Dogovorno: 0 pxq  1)

Funkcija preslikavanja (vektor baznih funkcija):


p x q  0 p x q, . . . , m p x q

: Rn

Rm

Poopcen linearan model:


hpx|wq 

wj j p x q  w T px q

j 0
14 / 34

Poopceni linearan model


hpx|wq 

wj j p x q  w T px q

j 0

Linearna regresija:
pxq  p1, x1 , x2 , . . . , xn q
Univarijatna polinomijalna regresija:
pxq  p1, x, x2 , . . . , xm q
Polinomijalna regresija drugog stupnja:
pxq  p1, x1 , x2 , x1 x2 , x21 , x22 q
Gaussove bazne funkcije:
j pxq  exp

 px 22 j q

2)

15 / 34

Gaussove bazne funkcije


(Opcenito: radijalne bazne funkcije, RBF)

16 / 34

Preslikavanje znacajki
Funkcija preslikavanja znacajki : Rn Rm preslikava primjere iz
n-dimenzijskog ulaznog prostora (engl. input space) u m-dimenzijski
prostor znacajki (engl. feature space).
Tipicno je m n. Funkcija koja je linearna u prostoru znacajki je
nelinearna u ulaznom prostoru.

sada mozemo koristiti linearan model za nelinearne probleme


imamo jedinstven matematicki tretman, neovisan o funkciji
17 / 34

Matricno rjesenje najmanjih kvadrata


Dizajn-matrica:


1
1

 .
 ..

1 pxp1q q
1 pxp2q q

...
...

1 1 px p N q q . . .

m pxpN q q

pxp1q qT
 pxp2q qT 




..


.

m pxp1q q
m pxp2q q 


pxpN q qT

N m

Vektor izlaznih vrijednosti:




y p1q
 y p2q 


y . 
 ..
y pN q

Matricna jednadzba (N jednadzbi s m nepoznanica):


w  y
18 / 34

Matricno rjesenje najmanjih kvadrata


Rjesenje je w  1 y
Medutim, rjesenja nema ili ono nije jedinstveno ako:
(1) nije kvadratna, pa nema inverz. U pravilu:
N m
sustav je preodreden (engl. overdetermined) i nema rjesenja
N m
sustav je pododreden (engl. underdetermined) i ima
visestruka rjesenja
(2) jest kvadratna (N  m), ali ipak nema inverz
sustav je nekonzistentan

Priblizno rjesenje mozemo naci postupkom najmanjih kvadrata


minimizacija kvadrata pogreske svake od jednadzbi
19 / 34

Matricno rjesenje najmanjih kvadrata


Funkcija pogreske:
E pw|Dq 

2
1
wT pxpiq q  y piq
2 i1
N

Matricni oblik:
E pw|Dq 

1
pw  yqTpw  yq
2
 12 pwTTw  wTTy  yTw
 21 pwTTw  2yTw yTyq

yT yq

20 / 34

Matricno rjesenje najmanjih kvadrata


E pw|Dq 
w E

1 T T
pw w  2yTw yTyq
2


1 T T
w pT qT  2yT  T w  T y  0
2
d T
x Ax  xT pA
dx

AT q

d
Ax  A
dx

Sustav normalnih jednadzbi:


T w  T y
Rjesenje:

w  pT q1 T y  y

 pTq1T je pseudoinverz (Moore-Penroseov inverz) matrice


21 / 34

Danas. . .

Uvod

Postupak najmanjih kvadrata

Poopceni linearan model regresije

Odabir modela

Regularizirana regresija

22 / 34

Odabir modela
Linearan model regresije ima hiperparametre:
izgled baznih funkcija j
broj baznih funkcija m (dimenzija prostora znacajki)
Parametre treba namjestiti tako da odgovaraju podatcima, odnosno treba
dobro odabrati model. U suprotnom model moze biti podnaucen ili
prenaucen. Ako model ima mnogo parametra, lako ga je prenauciti.
Sprecavanje prenaucenosti:
(1) koristiti vise primjera za ucenje
(2) odabrati model unakrsnom provjerom
(3) regularizacija
(4) bayesovska regresija

23 / 34

Danas. . .

Uvod

Postupak najmanjih kvadrata

Poopceni linearan model regresije

Odabir modela

Regularizirana regresija

24 / 34

Regularizacija motivacija
Opazanje: kod linearnih modela, sto je model slozeniji, to ima vece
vrijednosti parametara w.
Prenauceni linearni modeli imaju:
(1) ukupno previse parametara (tezina) i/ili
(2) prevelike vrijednosti pojedinacnih parametara.
Ideja: ograniciti rast vrijednosti parametara kaznjavanjem hipoteza s
visokim vrijednostima parametara.
Time se ostvaruje kompromis izmedu tocnosti i jednostavnosti modela i to
vec pri samom ucenju modela. Efektivno se ogranicava slozenost modela i
sprecava se prenaucenost.
Cilj: sto vise parametara (tezina) pritegnuti na nulu
(engl. sparse models).

rijetki modeli
25 / 34

Regularizacija
Slozenost modela ugradena je u funkciju pogreske:
E1

 empirijska pogreska

 slozenost modela

E 1 pw|Dq  E pw|Dq

Ew pwq

Veca vrijednost regularizacijskog faktora uzrokuje smanjuje efektivne


slozenost modela.
 0 neregularizirana funkcija pogreske
Opcenit regularizacijski izraz:
Ew pwq 

1
|wj |q
2 j 1
m

26 / 34

Regularizacija primjer

27 / 34

Regularizirani linearni model regresije


L2-regularizacija (engl. ridge regularization) (q
E pw|Dq 

 2)

2
1
wT pxpiq q  y piq
2 i1
N

L1-regularizacija (engl. LASSO regularization) (q


E pw|Dq 
L0-regularizacija (q

}w}2
2

 1)

2
1
wT pxpiq q  y piq
2 i1
N

}w}1
2

 0)

E pw|Dq 

2
1
wT pxpiq q  y piq
2 i1
N

1 twj
2 j 1
m

 0u
28 / 34

L2-regularizacija
Linearna regresija s L2-regularizacijom ima rjesenje u zatvorenoj formi:
E 1 pw|Dq 


w E 1

T
1
p
w  yqT pw  yq
w w
2
2
1 T T
pw w  2yTw yTy wTwq
2

 Tw  Ty w
 pT Iqw  Ty  0

w  pT

Iq1 T y

29 / 34

L2-regularizacija
Ima li L2-regularizirana pogreska probabilisticku interpretaciju?
Umjesto MLE, izracunajmo MAP:
ppw|Dq

9 ppD|wqppwq
Izglednost je normalna sa srednjom vrijednoscu hpx|wq:
ppD|wq 

N hpxpiq |wq, 1

p  1{2q

i 1

Pretpostavimo da apriorna PDF parametara normalna sa srednjom


vrijednoscu nula i izotropnom kov. matricom:
ppwq  N p0, 1 Iq 

 m{2

exp

 2 wTw

p  1{2q

( i su hiperparametri modela)
30 / 34

L2-regularizacija
Maksimizacija aposteriorne vjerojatnosti istovjetna je minimizaciji
negativnog logaritma aposteriorne vjerojatnosti:
argmax ppD|wqppwq  argmin
w

 ln ppD|wq  2

y piq  hpx|wq

2

 ln ppD|wq  ln ppwq
konst.

i 1

 ln ppwq  2 wTw

Dakle, pogreska koju minimiziramo je:


N
2
piq
y  hpx|wq
2 i1

T
w w
2

a to je upravo L2-regularizirana pogreska! (uz  {)


31 / 34

Regularizacija napomene
Iznos parametra wj odgovara vaznosti znacajke, a predznak upucuje
na njezin utjecaj (pozitivan ili negativan) na izlaznu vrijednost
Regularizacija smanjuje slozenost modela na nacin da prigusuje
vrijednosti pojedinih znacajki, odnosno efektivno ih izbacuje (kada
wj 0). Ako je model nelinearan, to znaci smanjivanje nelinearnosti
Tezinu w0 treba izuzeti iz regularizacijskog izraza (jer ona definira
pomak) ili treba centrirati podatke tako da y  0, jer onda w0 0
L2-regularizacija kaznjava tezine proporcionalno njihovom iznosu
(velike tezine vise, a manje tezine manje). Tesko ce parametri biti
pritegnuti bas na nulu. Zato L2-regularizacija ne rezultira rijetkim
modelima
L1-regularizacija rezultira rijetkim modelima, ali nema rjesenja u
zatvorenoj formi (medutim mogu se koristiti iterativni optimizacijski
postupci)
32 / 34

Regularizacija napomene
Regularizacija je korisna kod modela s puno parametara, jer je takve
modele lako prenauciti
Regularizacija smanjuje mogucnost prenaucenosti, ali ostaje problem
odabira hiperparametra te drugih hiperparametara (broj i oblik
baznih funkcija). Taj se odabir najcesce radi unakrsnom provjerom
Q: Koju optimalnu vrijednost za bismo dobili kada bismo optimizaciju
radili na skupu za ucenje?

33 / 34

Sazetak
Linearan model regresije linearan je u parametrima
Nelinearnost regresijske funkcije ostvaruje se uporabom nelinearnih
baznih funkcija (preslikavanjem ulaznog prostora u prostor znacajki)
Uz pretpostavku normalno distribuiranog suma, MLE je istovjetan
postupku najmanjih kvadrata, sto daje probabilisticko opravdanje
za uporabu kvadratne funkcije gubitka
Parametri linearnog modela uz kvadratnu funkciju gubitka imaju
rjesenje u zatvorenoj formi u obliku pseudoinverza dizajn-matrice
Regularizacija smanjuje prenau
cenost ugradnjom dodatnog izraza
u funkciju pogreske kojim se kaznjava slozenost modela
L2-regularizirana regresija istovjetna je MAP-procjeni parametara
(uz pretpostavku Gaussovog suma) te ima rjesenje u zatvorenoj formi

Sljedeca tema: Linearni diskriminativni modeli


34 / 34

You might also like