Professional Documents
Culture Documents
SU 7 Regresija
SU 7 Regresija
cenje
7. Regresija
prof. dr. sc. Bojana Dalbelo Basic
v1.1
1 / 34
Danas. . .
Uvod
Odabir modela
Regularizirana regresija
2 / 34
Danas. . .
Uvod
Odabir modela
Regularizirana regresija
3 / 34
Regresija
D
tpxpiq, ypiqqu,
x P Rn ,
PR
2
1 p iq
y hpxpiq q
2 i1
N
4 / 34
Regresija
Linearan model regresije:
h je linearna funkcija parametara w pw0 , . . . , wn q
Linearna regresija:
hpx|wq w0 w1 x1
w2 x2
wn x n
Polinomijalna regresija:
hpx|wq w0 w1 x w2 x2 wd xd pn 1q
hpx|wq w0 w1 x1 w2 x2 w3 x1 x2 w4 x21 w5 x22
Opcenite bazne funkcije:
hpx|wq w0 w1 1 pxq
pn 2, d 2q
wm m px q
5 / 34
Regresija
Broj ulaznih (nezavisnih) varijabli:
6 / 34
Danas. . .
Uvod
Odabir modela
Regularizirana regresija
7 / 34
y piq
Prepostavka:
Posjedicno:
odnosno
y |x
w1 x
w pw0 , w1 q
f pxpiqq
N p0, 2 q
N phpx|wq, 2 q
E ry |xs hpx|wq
8 / 34
9 / 34
Log-izglednost
ln Lpw|Dq ln ppD|wq ln
ppxpiq , y piq q ln
i 1
ln
i 1
N
ln
ln
ppxpiq q
N hpxpiq |wq, 2
2
p
y iq hpxpiq |wq )
i 1
?1
N lnp
ln
i 1
i 1
N
i 1
N
i 1
N
exp
2 q
2 2
N
1 p iq
piq |wq2
y
h
p
x
2 2 i1
21 ypiq hpxpiq|wq 2
i1
N
10 / 34
E ph|Dq
L y, hpx|wq
w
N
2
1
y piq hpxpiq |wq
2 i1
9 y hpx|wq 2
11 / 34
w1 x
w0 ,w1 E ph|Dq 0
..
.
N
y piq N w0
w1
i 1
N
w0
i 1
ix
x p iq
w1
i 1
Matricni oblik: Aw z
A
x p iq
(1.3) u skripti
i 1
y piq xpiq
N
p iq
p iq
x
i piq 2
i
px q
pxpiqq2
(1.5) u skripti
i 1
w
w0
w1
z
piq
y
ipiq piq
iy
Rjesenje: w A1 z
12 / 34
Danas. . .
Uvod
Odabir modela
Regularizirana regresija
13 / 34
Bazne funkcije
Zanima nas poopcenje na n 1 koje obuhvaca sve multivarijatne linearne
modele regresije (univarijatna regresija, linearna regresija, polinomijalna
regresija, . . . ).
Uvodimo fiksan skup baznih funkcija (nelinearne funkcije ulaznih varijabli):
tj pxqumj1
j : Rn
(Dogovorno: 0 pxq 1)
: Rn
Rm
wj j p x q w T px q
j 0
14 / 34
wj j p x q w T px q
j 0
Linearna regresija:
pxq p1, x1 , x2 , . . . , xn q
Univarijatna polinomijalna regresija:
pxq p1, x, x2 , . . . , xm q
Polinomijalna regresija drugog stupnja:
pxq p1, x1 , x2 , x1 x2 , x21 , x22 q
Gaussove bazne funkcije:
j pxq exp
px 22 j q
2)
15 / 34
16 / 34
Preslikavanje znacajki
Funkcija preslikavanja znacajki : Rn Rm preslikava primjere iz
n-dimenzijskog ulaznog prostora (engl. input space) u m-dimenzijski
prostor znacajki (engl. feature space).
Tipicno je m n. Funkcija koja je linearna u prostoru znacajki je
nelinearna u ulaznom prostoru.
1
1
.
..
1 pxp1q q
1 pxp2q q
...
...
1 1 px p N q q . . .
m pxpN q q
pxp1q qT
pxp2q qT
..
.
m pxp1q q
m pxp2q q
pxpN q qT
N m
y p1q
y p2q
y .
..
y pN q
2
1
wT pxpiq q y piq
2 i1
N
Matricni oblik:
E pw|Dq
1
pw yqTpw yq
2
12 pwTTw wTTy yTw
21 pwTTw 2yTw yTyq
yT yq
20 / 34
1 T T
pw w 2yTw yTyq
2
1 T T
w pT qT 2yT T w T y 0
2
d T
x Ax xT pA
dx
AT q
d
Ax A
dx
w pT q1 T y y
Danas. . .
Uvod
Odabir modela
Regularizirana regresija
22 / 34
Odabir modela
Linearan model regresije ima hiperparametre:
izgled baznih funkcija j
broj baznih funkcija m (dimenzija prostora znacajki)
Parametre treba namjestiti tako da odgovaraju podatcima, odnosno treba
dobro odabrati model. U suprotnom model moze biti podnaucen ili
prenaucen. Ako model ima mnogo parametra, lako ga je prenauciti.
Sprecavanje prenaucenosti:
(1) koristiti vise primjera za ucenje
(2) odabrati model unakrsnom provjerom
(3) regularizacija
(4) bayesovska regresija
23 / 34
Danas. . .
Uvod
Odabir modela
Regularizirana regresija
24 / 34
Regularizacija motivacija
Opazanje: kod linearnih modela, sto je model slozeniji, to ima vece
vrijednosti parametara w.
Prenauceni linearni modeli imaju:
(1) ukupno previse parametara (tezina) i/ili
(2) prevelike vrijednosti pojedinacnih parametara.
Ideja: ograniciti rast vrijednosti parametara kaznjavanjem hipoteza s
visokim vrijednostima parametara.
Time se ostvaruje kompromis izmedu tocnosti i jednostavnosti modela i to
vec pri samom ucenju modela. Efektivno se ogranicava slozenost modela i
sprecava se prenaucenost.
Cilj: sto vise parametara (tezina) pritegnuti na nulu
(engl. sparse models).
rijetki modeli
25 / 34
Regularizacija
Slozenost modela ugradena je u funkciju pogreske:
E1
empirijska pogreska
slozenost modela
E 1 pw|Dq E pw|Dq
Ew pwq
1
|wj |q
2 j 1
m
26 / 34
Regularizacija primjer
27 / 34
2)
2
1
wT pxpiq q y piq
2 i1
N
}w}2
2
1)
2
1
wT pxpiq q y piq
2 i1
N
}w}1
2
0)
E pw|Dq
2
1
wT pxpiq q y piq
2 i1
N
1 twj
2 j 1
m
0u
28 / 34
L2-regularizacija
Linearna regresija s L2-regularizacijom ima rjesenje u zatvorenoj formi:
E 1 pw|Dq
w E 1
T
1
p
w yqT pw yq
w w
2
2
1 T T
pw w 2yTw yTy wTwq
2
Tw Ty w
pT Iqw Ty 0
w pT
Iq1 T y
29 / 34
L2-regularizacija
Ima li L2-regularizirana pogreska probabilisticku interpretaciju?
Umjesto MLE, izracunajmo MAP:
ppw|Dq
9 ppD|wqppwq
Izglednost je normalna sa srednjom vrijednoscu hpx|wq:
ppD|wq
N hpxpiq |wq, 1
p 1{2q
i 1
m{2
exp
2 wTw
p 1{2q
( i su hiperparametri modela)
30 / 34
L2-regularizacija
Maksimizacija aposteriorne vjerojatnosti istovjetna je minimizaciji
negativnog logaritma aposteriorne vjerojatnosti:
argmax ppD|wqppwq argmin
w
ln ppD|wq 2
y piq hpx|wq
2
ln ppD|wq ln ppwq
konst.
i 1
ln ppwq 2 wTw
T
w w
2
Regularizacija napomene
Iznos parametra wj odgovara vaznosti znacajke, a predznak upucuje
na njezin utjecaj (pozitivan ili negativan) na izlaznu vrijednost
Regularizacija smanjuje slozenost modela na nacin da prigusuje
vrijednosti pojedinih znacajki, odnosno efektivno ih izbacuje (kada
wj 0). Ako je model nelinearan, to znaci smanjivanje nelinearnosti
Tezinu w0 treba izuzeti iz regularizacijskog izraza (jer ona definira
pomak) ili treba centrirati podatke tako da y 0, jer onda w0 0
L2-regularizacija kaznjava tezine proporcionalno njihovom iznosu
(velike tezine vise, a manje tezine manje). Tesko ce parametri biti
pritegnuti bas na nulu. Zato L2-regularizacija ne rezultira rijetkim
modelima
L1-regularizacija rezultira rijetkim modelima, ali nema rjesenja u
zatvorenoj formi (medutim mogu se koristiti iterativni optimizacijski
postupci)
32 / 34
Regularizacija napomene
Regularizacija je korisna kod modela s puno parametara, jer je takve
modele lako prenauciti
Regularizacija smanjuje mogucnost prenaucenosti, ali ostaje problem
odabira hiperparametra te drugih hiperparametara (broj i oblik
baznih funkcija). Taj se odabir najcesce radi unakrsnom provjerom
Q: Koju optimalnu vrijednost za bismo dobili kada bismo optimizaciju
radili na skupu za ucenje?
33 / 34
Sazetak
Linearan model regresije linearan je u parametrima
Nelinearnost regresijske funkcije ostvaruje se uporabom nelinearnih
baznih funkcija (preslikavanjem ulaznog prostora u prostor znacajki)
Uz pretpostavku normalno distribuiranog suma, MLE je istovjetan
postupku najmanjih kvadrata, sto daje probabilisticko opravdanje
za uporabu kvadratne funkcije gubitka
Parametri linearnog modela uz kvadratnu funkciju gubitka imaju
rjesenje u zatvorenoj formi u obliku pseudoinverza dizajn-matrice
Regularizacija smanjuje prenau
cenost ugradnjom dodatnog izraza
u funkciju pogreske kojim se kaznjava slozenost modela
L2-regularizirana regresija istovjetna je MAP-procjeni parametara
(uz pretpostavku Gaussovog suma) te ima rjesenje u zatvorenoj formi