Robustna Regresija

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 20

Matematički fakultet

Linearni statistički modeli

Robustna regresija

Selena Stanković
Aleksandra Ilić
Milica Ivezić
Sadržaj

1 Uvod 3

2 Metode ocenjivanja 4
2.1 M . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 MM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3 Primeri/zadaci 14

2
1 Uvod
Da bismo objasnili šta je robustna regresija i kada se koristi posmatraćemo sledeći
linearni model sa p prediktora
yi = β0 + β1 xi,1 + ... + βp xi,p + ei , i = 1, 2, ..., n
yi je vrednost zavisne promenljive i-te opservacije, xi,k predstavlja vrednost i-te
opservacije k-tog prediktora , ei je greška, a β0 , ..., βp su parametri.
Metod za nalaženje parametara koji se najčešće koristi je metod najmanjih kvadrata,
u kom kao ukupnu grešku predvidjanja uzimamo sumu :
n
X
Q= e2i
i=1

Traženjem minimuma funkcije Q(β0 , β1 , ..., βp ) dobijamo ocene βˆ0 , βˆ1 , ..., βˆp parame-
tara β0 , β1 , ..., βp , a ocenjeni model je
ŷi = βˆ0 + βˆ1 xi,1 + ... + βˆp xi,p
Da bismo proverili da li je model dobar, posmatramo reziduale
ei = yi − ŷi = yi − (βˆ0 + βˆ1 xi,1 + ... + βˆp xi,p )
Ako važe uslovi Gaus-Markova tj E(ei ) = 0, var(ei ) = const, E(ei ej ) = 0, onda su
ocene dobijene metodom najmanjih kvadrata dobre. Možemo dodatno pretpostaviti
da greške imaju normalnu raspodelu, N (0, σ 2 ).
Kada reziduali nemaju normalnu raspodelu metod najmanjih kvadrata gubi efika-
snost, pa tada koristimo robustnu regresiju.
Robustna regresija je takode veoma bitna kod modela koji imaju autlajere, tj tačke
za koje je vrednost reziduala velika. Autlajeri mogu predstavljati pogrešan poda-
tak ili nam mogu reći da regresiona prava nije odgovarajuća. Robustna regresija ih
otkriva i daje nam model koji je ”otporan”na njih.

3
2 Metode ocenjivanja
2.1 M
Ovo je jedna od metoda ocenjivanja robustne regresije, koja se može shvatiti kao
robustna generalizacija metode maksimalne verodostojnisti.
Ocena M metodom dobija se traženjem sledećeg minimuma :
n e 
i
X
min ρ
b
i=1
σ

, gde je
p
X
ei = yi − (βˆ0 + βˆ1 xi,1 + ... + βˆp xi,p ) = yi − βˆj xi,j
j=0

Dakle, tražimo minimum sume


n  yi − Pp βˆj xi,j 
j=0
X
ρ (?)
i=1
σ

Funkcija ρ(.) prikazuje doprinos svakog od reziduala i zadovoljava sledeće uslove :


· ρ(e) ≥ 0
· ρ(0) = 0
· ρ(−e) = ρ(e)
· ρ(ei ) ≥ ρ(ej ), ako je |ei | > |ej |
Primetimo da je kod metode najmanjih kvadrata ρ(ei ) = e2i i da su navedeni uslovi
ispunjeni.
Neka je ψ = ρ0 . Diferenciranjem (?) po βˆj (j = 0, 1, ...p) i izjednačavanjem sa 0
dobijamo sistem od p + 1 jednačina, čijim ćemo rešavanjem dobiti tražene ocene :
n  yi − Pp βˆj xi,j 
j=0
X
ψ xi,j = 0
i=1
σ̂

Za sada ćemo pretpostaviti da je poznato σ̂.


Definišimo težinsku funkciju ω(e) = ψ(e)
e , gde je wi = w(ei ). Prethodni sistem onda
možemo zapisati kao
Xn Xp
ωi (yi − βˆj xi,j )xi,j = 0
i=1 j=0

ili matrično
β̂X T W X − X T W Y = 0
Za rešavanje ovoga potrebna nam je IRLS metoda (iteratively reweighted least-
squares), zato što težine zavise od reziduala, reziduali od procenjenih koeficijenata,
a oni od težina.

4
IRLS :
1. Ocenimo β̂ (0) metodom najmanjih kvadrata.
(t−1) (t−1)
2. U svakoj iteraciji t računamo reziduale ei i odgovarajuće težine wi =
t−1
w(ei ).
3. Računamo β̂ (t) kao
β̂ (t) = [X T W (t−1) X]−1 X T W (t−1) Y
 (t−1)
, gde je W (t−1) = diag wi .
Ponavljamo korake 2 i 3 dok koeficijenti ne iskonvergiraju.
Treba još da odredimo σ̂. Često korišćena ocena je :
M AD(e1 , ..., en ) median|ei − median(e1 , ..., en )|
σ̂ = =
0.6745 0.6745
Konstanta 0.6745 je izabrana tako da kada bi ei -ovi imali N (0, σ 2 ), σ̂ bila asimptotski
nepristrasna ocena za σ.

U zavisnotsti od toga kako je zadata funkcija ρ, govorimo o različitim metodama.


Neke od opcija za ρ su :
e2 - LS (least squares)
· ρLS (e) =(
e2
2 , |e| ≤ k
· ρH (e) = k2 - Huber
k|e| − 2 , |e| > k
( 2n h  2 i3 o
k e
· ρB (e) = 6 1− 1− k , |e| ≤ k
- Tukey/bisquare
k2
6 , |e| > k
Kako e raste od 0, tako i funkcije ρLS i ρH rastu (bez ograničenja), ali funkcija ρLS
2
raste brže. Za razliku od njih, funkcija ρB je za svako |e| > k jednaka k6 .
Odgovarajuće težinske funkcije su, redom :
· ωLS (e) =const
1 , |e| ≤ k
· ωH (e) = k
, |e| > k
( he  2 i 2
1 − ke , |e| ≤ k
· ωB (e) =
0 , |e| > k
Funkcija ωLS svakoj težini daje istu važnost, ωH opada za |e| > k, dok ωB opada
kada e raste od 0, a za |e| > k = 0.
Koeficijent k se zove koeficijent podešavanja. Manje vrednosti k daju veću otpornost
na autlajere, ali po cenu manje efikasnosti, kada su greške normalno raspodeljene.
Generalno, koeficijent k biramo tako da efikasnost bude što veća. Recimo, k =
1.345σ za Huberovu funkciju i k = 4.685σ za bikvadratnu, daju 95% efikasnosti,
kada greške imaju normalnu raspodelu.

5
(ρ, ψ, ω - least squares)

(ρ, ψ, ω - Huber - k = 1.345, σ = 1)

(ρ, ψ, ω - bisquare - k = 4.685, σ = 1)

6
2.2 S

7
2.3 MM
MM-procena je specijalan slučaj M-procene koju je razvio Yohai (1987),ona kom-
binuje visoku relativnu efikasnost M ocenjivača sa osobinom visoke tačke preloma
ocenjivača. MM-procene su postale sve popularnije i jedna od najčešće korišćenih
robusnih tehnika regresije.

Neka je ρ realna funkcija koja zadovoljava sledeće pretpostavke(A):


 
1. ρ(0) = 0 i ρ 00 = 0 po definiciji;

2. ρ(−r) = ρ(r)
3. 0 ≤ r ≤ v ⇒ ρ(r) ≤ ρ(v)
4. a = supρ onda 0 < a < ∞
5. ako je ρ(u) < a i 0 ≤ v, onda ρ(u) < ρ(v).
Za dati uzorak obima n, ocenjivač skale Sn definisan je kao rešenje
n
1 X  ri 
ρ =b (∗)
n i=1 Sn

gde je b definisano preko Eφ [ρ(r)] = b, a φ je standardna normalna raspodela.


Ukoliko
card{i : 1 ≤ i ≤ n, ri = 0} b
c(u) = <1− ,
n a
onda problem (∗) ima jedinstveno rešenje različito od nule. Inače, ukoliko je c(u) ≥
1 − ab , onda definišemo c(u) = 0.

MM ocenjivači su definisani u tri koraka:

Korak 1. Neka je βˆ0,n , inicijalni ocenjivač sa što većom tačkom preloma, ukoliko
je moguće želimo da tačka preloma iznosi ∗ = 0.5. Često se za početni ocenjivač
uzima upravo klasa S ocenjivača.

Korak 2. Prvo se izračunaju reziduali


r(βˆ0,n ) = y − βˆ0,n xi .
Potom se izračunava M-ocenjivač skale Sn = Sn (r(βˆ0,n )) definisan sa (3.17) funk-
cijom ρ0 koja zadovoljava navedene pretpostavke uz konstante a i b tako da važi
b
a = 0.5, gde je a = maxρ0 (r). Ova pretpostavka implicira da je tačka preloma
ocenjivača skale Sn iznosi ∗ = 0.5.

8
Korak 3. Neka je ρ1 druga funkcija koja zadovoljava pretpostavke (A) tako da
ρ1 (r) ≤ ρ0 (r),
supρ1 (r) = ρ0 (r) = a.
Neka je ψ1 = ∂∂r ρ1 . Onda su MM ocenjivači βˆ1,n definisani kao rešenje problema
n r 
i
X
ψ1 xi = 0
i=1
Sn

što potvrduje
S(βˆ1,n ) ≤ S(βˆ0,n ),
gde je
n  r (β) 
i
X
S(β) = ρ .
i=1
S n

Dakle, prva dva koraka su odgovorna za visoku tačku preloma ocenjivača, dok je
treći korak odgovoran za visoku efikasnost ocenjivača. Upravo zbog ovoga ρ0 i ρ1 ne
moraju nužno biti iste funkcije i zašto ocenjivač izabran u ovom koraku ne mora biti
nužno efikasan. Yohai dokazuje da ukoliko se u prvom koraku koristi ocenjivač sa
tačkom preloma 0.5 onda će MM ocenjivač takode imati tačku preloma 0.5. Klasa
MM ocenjivača poseduje egzakt f it osobinu koja kaže da na datom uzorku obima
n ukoliko bar n − n2 + 1 observacija zadovoljavaju y = xTi β, onda se kao ocenjivač
parametra dobija upravo β nezavisno od drugih observacija. Ovu osobinu poseduju
robusne klase ocenjivača poput S. Takode ukoliko se u prvom koraku uzme regresi-
ono invarijantan i/ili afino invarijantan ocenjivač onda će i dobijeni MM ocenjivač
zadržati te osobine.
Slika 1.: Uprkos 9 (od ukupno 20) observacija koje su autlajeri, MM ocenjivač

Slika 1

9
pronalazi linearan fit.
Bez obzira na ove impresivne osobine MM ocenjivača i ovaj ocenjivač se relativno
lako pokvari kada su nivoi kontaminacije mnogo manji od 50%. Ovo ilustrujemo
primerom.
Slika 2.: Uprkos kontaminaciji uzorka od svega 20% MM ocenjivač se u potpunosti

Slika 2

kvari i ponača se isto kao i ocenjivač metode LS.

Slika 3

Slika 3.: Mala promena uzorka i MM ocenjivač uspeva da pronade liearan trend
u podacima.

10
Izvori problema MM ocenjivača
Bez obzira na sposobnost MM ocenjivača da izadu na kraj sa individualnim autlaje-
rima u primeru ilustrovanom na Slici 3., videli smo osetljivost ocenjivača na klaster
podataka u primeru na Slici 2.

Rousenev i Liroj (1987, str. 154) naglašavaju da je visoka tačka preloma potreban,
ali ne i dovoljan uslov za dobar robusan ocenjivač. Deo problema leži u činjenici da
tačka preloma samo razmatra uticaj autlajera koji teče u beskonačnost.
([2]) ”, ” ” ”, . , on može postati vrlo
nepouzdan i da bude vrlo udaljen od prave ocene parametra. Robusnost ocenjivača
na autlajere donekle zavisi od stope kojom se ovaj skup širi kako se udeo autlajera
pocećava. Drugi izvor loše preformanse MM klase ocenjivača moe da leži i u Koraku
3. definicije ovog ocenjivača. Upravo izbor konstanti koji obezbeduje efikasnost i do
95% može da ima takvu posledicu da se ovaj ocenjivač ponaša znatno lošije, odnosno
proizvodi lošiji fit.
Slika 4.: Manje efikasni MM ocenjivači proizvode znatno bolji linearan fit.

Slika 4

Za generisanje Slika 1.i 4. korišćena je normalna raspodela N (0, 1), a potom je


biran prost slučajan uzorak sa x ose koji je pritom zamenjen Košijevom raspodelom
C(0, 40). U prilogu navodimo kod kojim je generisana Slika 4. Sličnim kodom ge-
nerisane su i ostale slike.
x < −seq(1, 20, length = 20)
y < −c(5 ∗ x + 7 + rnorm(20, 0, 1))
s1 < −sample(20, 10)
f or(j in s1){
x[j] < −x[j] + rcauchy(1, location = 0, scale = 40)

11
}
plot(x[s1], y[s1], col = ”purple”, pch = 20, xlab = ”x”, ylab = ”y”)
points(x[s1], y[s1], pch = 20)
rlmH < −rlm(y x, method = ”M M ”, psi = psi.bisquare, c = 4.685, maxit = 60)
abline(rlmH, col = ”red”, lwd = 2)
rlmL < −rlm(y x, method = ”M M ”, psi = psi.bisquare, c = 2.973, maxit = 60)
abline(rlmL, col = ”blue”, lwd = 2)
legend(320, 80, 75.9%ef ikasanM M , box.lwd = 2, box.col = ”blue”)
legend(320, 95, 95.7%ef ikasanM M , box.lwd = 2, box.col = ”red”)

Metodologija iza ocenjivača skale i selekcije parametara za postizanje efikasnosti


ocenjivača je bazirana na asimptotskim rezultatima, odnosno ovi rezultati su ba-
zirani na činjenici da je p fiksirano, a da n → ∞. Ovo znači da na preformans
ocenjivača znatno utiče i obim uzorka. Na konančnim populacijama np može biti
preveliko. Ispostavlja se da i na malim uzorcima gde je količnik np dovoljno mali
rezultati i dalje važe, inače se javljaju problemi. Maronna i Yohai (2010) pokazuju
da ukoliko je količnik np dovoljno veliki, onda je efikasnost MM ocenjivača lošija iz
dva razloga:

1. ocenjivač skale greške potcenjuje pristrasnosti, što imlicira da će potceniti i


tačnu ocenu skale.

2. stvarna efikasnost je znatno niža od željene, jer parametri ψ funkcija odabrani


u skladu sa asimptotskom teorijom su neodgovarajući.

Procedura MM procene je da proceni parametar regresije koristeći procenu S koja


minimizira skalu reziduala iz M procene, a zatim nastavlja sa M procenom. Vrednost
razbijanja je uobičajno mera proporcije autlajera koja se može rešiti pre nego što
utiče na model
n  yi − Pk xij β 
j=1
X
xij ψ = 0, j = 0, 1, ..., k.
i=1
σ̂
MM-procena je rešenje
n
X
ρi (ui )Xij = 0
i=1
ili
n  Yi − Pk Xij β̂ 
j=1
X
ρi Xij = 0
i=1
sM M

gde je sM M standardno odstupanje dobijeno od preostale procene S i ρ je Tukey-ova

12
težina: (
u2i u4i u6i
2 − 2c22 + 6c2 , −c ≤ ui ≤ c
ρ(ui ) = c
6 , ui < −c ili ui > c

Algoritam 3:
1. Proceniti koeficijente regresije na podacima koje koristi OLS.
2. Testiranje pretpostavki modela klasične regresije.
3. Otkriti prisustvo autlajera u podacima.
4. Izračunati vrednost reziduala ei = yi − ŷi procene S.
5. Izračunati vrednost σ̂i = σˆsn .
6. Izračunati vrednost ui = σ̂eii .
7. Izračunati ponderisanu vrednost
( h  2 i2
ui
1 − 4.685 , |ui | ≤ 4.685;
wi =
0 , |ui | > 4.685.

8. Izračunati βMˆM koristeći WLS metod sa ponderisanom wi .


9. Ponovite korake 5-8 da biste dobili konvergentnu vrednost βMˆM .
10. Testirati kako bi se utvrdilo da li nezavisne promenljive imaju značajan efekat
na zavisnu promenljivu.

13
3 Primeri/zadaci
Primer ove regresije émo uraditi na podacima Stackloss, koji predstavljaju opera-
tivne podatke postrojenja za oksidaciju amonijaka u azotnu kiselinu. Podaci sadrźe
21 opservaciju sa 4 promenljive. Promenljive su:

• Air Flow - Protok vazduha za hladjenje


• Water Temp - temperatura dovoda rashladne vode
• Acid Cond. - Koncentracija kiseline koja kruźi (na 1000, minus 500)
• stack.loss - zavisna promenljiva, deset puta veći procenat amonijaka koji ulazi
u postrojenje i koji izlazi neapsorbovan.

Posmatramo da nam je model oblika :


yi = β0 + β1 x1i + β2 x2i + β3 x3i + σi , i = 1, 2, ...21
i prirodno, podatke prvo uklapamo u model proste linearne regresije.

14
Dijagnostički grafici za OLS (ordinary least squares) metodu: grafik reziduala vs uklopljene(fitovane)
vrednosti,normalni QQ grafik reziduala,Kukovo rastojanje i statistika Kukovog rastojanja vs hii (1 − hii )

Prelazimo na trazenje autlajera,Odakle dobijamo da nam je 4ta opservacija mogući autlajer.

15
Kako bismo uzeli u obzir opservacije sa velikim vrednostima reziduala koristimo robusnu regresiju

16
Koristeći rlm, različite teźine u robustnim procenama mogu se lako izračunati, a grafički pregled moźe biti koristan
kako bi se odredili reziduali koji imaju teźine manje od 1. U mnogim siguacijama, te tezine vredi posmatrati jer one
automatski ukazuju na opservacije koje su razmatrane od strane robusne procene kao viśe ili manje udaljene od
većine podataka. Dijagnostičke grafike moźemo posmatrati i za robustno uklopljene modele kako bismo procenili
uklopljene vrednosti. Na sledećim slikama moźemo da vidimo dijagnostičke grafike za Huber procenu.

17
Ovo su izracunate vrednosti tezina reziduala razlicitim procenama. Na drugoj slici one su predstavljene i grafički, s
tim śto su teźine za Huber - krugovi,Hampel - trouglovi,Bisquare - krstići

Ovde ćemo
takodje uraditi i MM i S procenu na datim podacima.Funkcija rlm nam takodje omogućava implementaciju MM
procene:
rlm(formula,data,..,method = ”MM”)
Implementaciju S procene omogućava nam funkcija lqs. Koriśćenje funkcije lqs je :

lqs(formula,data, method = c(”lts”,”lqs”,”lms”,Š”),...)

18
Normalni QQ grafici razlicitih procena

Reziduali vs uklopljene vrednosti razlicitih procena

19
20

You might also like