Robustna Regresija

Matematički fakultet
Linearni statistički modeli
Robustna regresija
Selena Stanković
Aleksandra Ilić
Milica Ivezić
Sadržaj
1 Uvod 3
2 Metode ocenjivanja 4
2.1 M . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 MM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3 Primeri/zadaci 14
2
1 Uvod
Da bismo objasnili šta je robustna regresija i kada se koristi posmatraćemo sledeći
linearni model sa p prediktora
yi = β0 + β1 xi,1 + ... + βp xi,p + ei , i = 1, 2, ..., n
yi je vrednost zavisne promenljive i-te opservacije, xi,k predstavlja vrednost i-te
opservacije k-tog prediktora , ei je greška, a β0 , ..., βp su parametri.
Metod za nalaženje parametara koji se najčešće koristi je metod najmanjih kvadrata,
u kom kao ukupnu grešku predvidjanja uzimamo sumu :
n
X
Q= e2i
i=1
Traženjem minimuma funkcije Q(β0 , β1 , ..., βp ) dobijamo ocene βˆ0 , βˆ1 , ..., βˆp parame-
tara β0 , β1 , ..., βp , a ocenjeni model je
ŷi = βˆ0 + βˆ1 xi,1 + ... + βˆp xi,p
Da bismo proverili da li je model dobar, posmatramo reziduale
ei = yi − ŷi = yi − (βˆ0 + βˆ1 xi,1 + ... + βˆp xi,p )
Ako važe uslovi Gaus-Markova tj E(ei ) = 0, var(ei ) = const, E(ei ej ) = 0, onda su
ocene dobijene metodom najmanjih kvadrata dobre. Možemo dodatno pretpostaviti
da greške imaju normalnu raspodelu, N (0, σ 2 ).
Kada reziduali nemaju normalnu raspodelu metod najmanjih kvadrata gubi efika-
snost, pa tada koristimo robustnu regresiju.
Robustna regresija je takode veoma bitna kod modela koji imaju autlajere, tj tačke
za koje je vrednost reziduala velika. Autlajeri mogu predstavljati pogrešan poda-
tak ili nam mogu reći da regresiona prava nije odgovarajuća. Robustna regresija ih
otkriva i daje nam model koji je ”otporan”na njih.
3
2 Metode ocenjivanja
2.1 M
Ovo je jedna od metoda ocenjivanja robustne regresije, koja se može shvatiti kao
robustna generalizacija metode maksimalne verodostojnisti.
Ocena M metodom dobija se traženjem sledećeg minimuma :
n e
i
X
min ρ
b
i=1
σ
, gde je
p
X
ei = yi − (βˆ0 + βˆ1 xi,1 + ... + βˆp xi,p ) = yi − βˆj xi,j
j=0
Dakle, tražimo minimum sume

n yi − Pp βˆj xi,j
j=0
X
ρ (?)
i=1
σ
Funkcija ρ(.) prikazuje doprinos svakog od reziduala i zadovoljava sledeće uslove :

· ρ(e) ≥ 0
· ρ(0) = 0
· ρ(−e) = ρ(e)
· ρ(ei ) ≥ ρ(ej ), ako je |ei | > |ej |
Primetimo da je kod metode najmanjih kvadrata ρ(ei ) = e2i i da su navedeni uslovi
ispunjeni.
Neka je ψ = ρ0 . Diferenciranjem (?) po βˆj (j = 0, 1, ...p) i izjednačavanjem sa 0
dobijamo sistem od p + 1 jednačina, čijim ćemo rešavanjem dobiti tražene ocene :
n yi − Pp βˆj xi,j
j=0
X
ψ xi,j = 0
i=1
σ̂
Za sada ćemo pretpostaviti da je poznato σ̂.

Definišimo težinsku funkciju ω(e) = ψ(e)
e , gde je wi = w(ei ). Prethodni sistem onda
možemo zapisati kao
Xn Xp
ωi (yi − βˆj xi,j )xi,j = 0
i=1 j=0
ili matrično
β̂X T W X − X T W Y = 0
Za rešavanje ovoga potrebna nam je IRLS metoda (iteratively reweighted least-
squares), zato što težine zavise od reziduala, reziduali od procenjenih koeficijenata,
a oni od težina.
4
IRLS :
1. Ocenimo β̂ (0) metodom najmanjih kvadrata.
(t−1) (t−1)
2. U svakoj iteraciji t računamo reziduale ei i odgovarajuće težine wi =
t−1
w(ei ).
3. Računamo β̂ (t) kao
β̂ (t) = [X T W (t−1) X]−1 X T W (t−1) Y
(t−1)
, gde je W (t−1) = diag wi .
Ponavljamo korake 2 i 3 dok koeficijenti ne iskonvergiraju.
Treba još da odredimo σ̂. Često korišćena ocena je :
M AD(e1 , ..., en ) median|ei − median(e1 , ..., en )|
σ̂ = =
0.6745 0.6745
Konstanta 0.6745 je izabrana tako da kada bi ei -ovi imali N (0, σ 2 ), σ̂ bila asimptotski
nepristrasna ocena za σ.
U zavisnotsti od toga kako je zadata funkcija ρ, govorimo o različitim metodama.

Neke od opcija za ρ su :
e2 - LS (least squares)
· ρLS (e) =(
e2
2 , |e| ≤ k
· ρH (e) = k2 - Huber
k|e| − 2 , |e| > k
( 2n h 2 i3 o
k e
· ρB (e) = 6 1− 1− k , |e| ≤ k
- Tukey/bisquare
k2
6 , |e| > k
Kako e raste od 0, tako i funkcije ρLS i ρH rastu (bez ograničenja), ali funkcija ρLS
2
raste brže. Za razliku od njih, funkcija ρB je za svako |e| > k jednaka k6 .
Odgovarajuće težinske funkcije su, redom :
· ωLS (e) =const
1 , |e| ≤ k
· ωH (e) = k
, |e| > k
( he 2 i 2
1 − ke , |e| ≤ k
· ωB (e) =
0 , |e| > k
Funkcija ωLS svakoj težini daje istu važnost, ωH opada za |e| > k, dok ωB opada
kada e raste od 0, a za |e| > k = 0.
Koeficijent k se zove koeficijent podešavanja. Manje vrednosti k daju veću otpornost
na autlajere, ali po cenu manje efikasnosti, kada su greške normalno raspodeljene.
Generalno, koeficijent k biramo tako da efikasnost bude što veća. Recimo, k =
1.345σ za Huberovu funkciju i k = 4.685σ za bikvadratnu, daju 95% efikasnosti,
kada greške imaju normalnu raspodelu.
5
(ρ, ψ, ω - least squares)
(ρ, ψ, ω - Huber - k = 1.345, σ = 1)
(ρ, ψ, ω - bisquare - k = 4.685, σ = 1)
6
2.2 S
7
2.3 MM
MM-procena je specijalan slučaj M-procene koju je razvio Yohai (1987),ona kom-
binuje visoku relativnu efikasnost M ocenjivača sa osobinom visoke tačke preloma
ocenjivača. MM-procene su postale sve popularnije i jedna od najčešće korišćenih
robusnih tehnika regresije.
Neka je ρ realna funkcija koja zadovoljava sledeće pretpostavke(A):

1. ρ(0) = 0 i ρ 00 = 0 po definiciji;
2. ρ(−r) = ρ(r)
3. 0 ≤ r ≤ v ⇒ ρ(r) ≤ ρ(v)
4. a = supρ onda 0 < a < ∞
5. ako je ρ(u) < a i 0 ≤ v, onda ρ(u) < ρ(v).
Za dati uzorak obima n, ocenjivač skale Sn definisan je kao rešenje
n
1 X ri
ρ =b (∗)
n i=1 Sn
gde je b definisano preko Eφ [ρ(r)] = b, a φ je standardna normalna raspodela.

Ukoliko
card{i : 1 ≤ i ≤ n, ri = 0} b
c(u) = <1− ,
n a
onda problem (∗) ima jedinstveno rešenje različito od nule. Inače, ukoliko je c(u) ≥
1 − ab , onda definišemo c(u) = 0.
MM ocenjivači su definisani u tri koraka:
Korak 1. Neka je βˆ0,n , inicijalni ocenjivač sa što većom tačkom preloma, ukoliko
je moguće želimo da tačka preloma iznosi ∗ = 0.5. Često se za početni ocenjivač
uzima upravo klasa S ocenjivača.
Korak 2. Prvo se izračunaju reziduali

r(βˆ0,n ) = y − βˆ0,n xi .
Potom se izračunava M-ocenjivač skale Sn = Sn (r(βˆ0,n )) definisan sa (3.17) funk-
cijom ρ0 koja zadovoljava navedene pretpostavke uz konstante a i b tako da važi
b
a = 0.5, gde je a = maxρ0 (r). Ova pretpostavka implicira da je tačka preloma
ocenjivača skale Sn iznosi ∗ = 0.5.
8
Korak 3. Neka je ρ1 druga funkcija koja zadovoljava pretpostavke (A) tako da
ρ1 (r) ≤ ρ0 (r),
supρ1 (r) = ρ0 (r) = a.
Neka je ψ1 = ∂∂r ρ1 . Onda su MM ocenjivači βˆ1,n definisani kao rešenje problema
n r
i
X
ψ1 xi = 0
i=1
Sn
što potvrduje
S(βˆ1,n ) ≤ S(βˆ0,n ),
gde je
n r (β)
i
X
S(β) = ρ .
i=1
S n
Dakle, prva dva koraka su odgovorna za visoku tačku preloma ocenjivača, dok je
treći korak odgovoran za visoku efikasnost ocenjivača. Upravo zbog ovoga ρ0 i ρ1 ne
moraju nužno biti iste funkcije i zašto ocenjivač izabran u ovom koraku ne mora biti
nužno efikasan. Yohai dokazuje da ukoliko se u prvom koraku koristi ocenjivač sa
tačkom preloma 0.5 onda će MM ocenjivač takode imati tačku preloma 0.5. Klasa
MM ocenjivača poseduje egzakt f it osobinu koja kaže da na datom uzorku obima
n ukoliko bar n − n2 + 1 observacija zadovoljavaju y = xTi β, onda se kao ocenjivač
parametra dobija upravo β nezavisno od drugih observacija. Ovu osobinu poseduju
robusne klase ocenjivača poput S. Takode ukoliko se u prvom koraku uzme regresi-
ono invarijantan i/ili afino invarijantan ocenjivač onda će i dobijeni MM ocenjivač
zadržati te osobine.
Slika 1.: Uprkos 9 (od ukupno 20) observacija koje su autlajeri, MM ocenjivač
Slika 1
9
pronalazi linearan fit.
Bez obzira na ove impresivne osobine MM ocenjivača i ovaj ocenjivač se relativno
lako pokvari kada su nivoi kontaminacije mnogo manji od 50%. Ovo ilustrujemo
primerom.
Slika 2.: Uprkos kontaminaciji uzorka od svega 20% MM ocenjivač se u potpunosti
Slika 2
kvari i ponača se isto kao i ocenjivač metode LS.
Slika 3
Slika 3.: Mala promena uzorka i MM ocenjivač uspeva da pronade liearan trend
u podacima.
10
Izvori problema MM ocenjivača
Bez obzira na sposobnost MM ocenjivača da izadu na kraj sa individualnim autlaje-
rima u primeru ilustrovanom na Slici 3., videli smo osetljivost ocenjivača na klaster
podataka u primeru na Slici 2.
Rousenev i Liroj (1987, str. 154) naglašavaju da je visoka tačka preloma potreban,
ali ne i dovoljan uslov za dobar robusan ocenjivač. Deo problema leži u činjenici da
tačka preloma samo razmatra uticaj autlajera koji teče u beskonačnost.
([2]) ”, ” ” ”, . , on može postati vrlo
nepouzdan i da bude vrlo udaljen od prave ocene parametra. Robusnost ocenjivača
na autlajere donekle zavisi od stope kojom se ovaj skup širi kako se udeo autlajera
pocećava. Drugi izvor loše preformanse MM klase ocenjivača moe da leži i u Koraku
3. definicije ovog ocenjivača. Upravo izbor konstanti koji obezbeduje efikasnost i do
95% može da ima takvu posledicu da se ovaj ocenjivač ponaša znatno lošije, odnosno
proizvodi lošiji fit.
Slika 4.: Manje efikasni MM ocenjivači proizvode znatno bolji linearan fit.
Slika 4
Za generisanje Slika 1.i 4. korišćena je normalna raspodela N (0, 1), a potom je

biran prost slučajan uzorak sa x ose koji je pritom zamenjen Košijevom raspodelom
C(0, 40). U prilogu navodimo kod kojim je generisana Slika 4. Sličnim kodom ge-
nerisane su i ostale slike.
x < −seq(1, 20, length = 20)
y < −c(5 ∗ x + 7 + rnorm(20, 0, 1))
s1 < −sample(20, 10)
f or(j in s1){
x[j] < −x[j] + rcauchy(1, location = 0, scale = 40)
11
}
plot(x[s1], y[s1], col = ”purple”, pch = 20, xlab = ”x”, ylab = ”y”)
points(x[s1], y[s1], pch = 20)
rlmH < −rlm(y x, method = ”M M ”, psi = psi.bisquare, c = 4.685, maxit = 60)
abline(rlmH, col = ”red”, lwd = 2)
rlmL < −rlm(y x, method = ”M M ”, psi = psi.bisquare, c = 2.973, maxit = 60)
abline(rlmL, col = ”blue”, lwd = 2)
legend(320, 80, 75.9%ef ikasanM M , box.lwd = 2, box.col = ”blue”)
legend(320, 95, 95.7%ef ikasanM M , box.lwd = 2, box.col = ”red”)
Metodologija iza ocenjivača skale i selekcije parametara za postizanje efikasnosti

ocenjivača je bazirana na asimptotskim rezultatima, odnosno ovi rezultati su ba-
zirani na činjenici da je p fiksirano, a da n → ∞. Ovo znači da na preformans
ocenjivača znatno utiče i obim uzorka. Na konančnim populacijama np može biti
preveliko. Ispostavlja se da i na malim uzorcima gde je količnik np dovoljno mali
rezultati i dalje važe, inače se javljaju problemi. Maronna i Yohai (2010) pokazuju
da ukoliko je količnik np dovoljno veliki, onda je efikasnost MM ocenjivača lošija iz
dva razloga:
1. ocenjivač skale greške potcenjuje pristrasnosti, što imlicira da će potceniti i

tačnu ocenu skale.
2. stvarna efikasnost je znatno niža od željene, jer parametri ψ funkcija odabrani

u skladu sa asimptotskom teorijom su neodgovarajući.
Procedura MM procene je da proceni parametar regresije koristeći procenu S koja

minimizira skalu reziduala iz M procene, a zatim nastavlja sa M procenom. Vrednost
razbijanja je uobičajno mera proporcije autlajera koja se može rešiti pre nego što
utiče na model
n yi − Pk xij β
j=1
X
xij ψ = 0, j = 0, 1, ..., k.
i=1
σ̂
MM-procena je rešenje
n
X
ρi (ui )Xij = 0
i=1
ili
n Yi − Pk Xij β̂
j=1
X
ρi Xij = 0
i=1
sM M
gde je sM M standardno odstupanje dobijeno od preostale procene S i ρ je Tukey-ova
12
težina: (
u2i u4i u6i
2 − 2c22 + 6c2 , −c ≤ ui ≤ c
ρ(ui ) = c
6 , ui < −c ili ui > c
Algoritam 3:
1. Proceniti koeficijente regresije na podacima koje koristi OLS.
2. Testiranje pretpostavki modela klasične regresije.
3. Otkriti prisustvo autlajera u podacima.
4. Izračunati vrednost reziduala ei = yi − ŷi procene S.
5. Izračunati vrednost σ̂i = σˆsn .
6. Izračunati vrednost ui = σ̂eii .
7. Izračunati ponderisanu vrednost
( h 2 i2
ui
1 − 4.685 , |ui | ≤ 4.685;
wi =
0 , |ui | > 4.685.
8. Izračunati βMˆM koristeći WLS metod sa ponderisanom wi .

9. Ponovite korake 5-8 da biste dobili konvergentnu vrednost βMˆM .
10. Testirati kako bi se utvrdilo da li nezavisne promenljive imaju značajan efekat
na zavisnu promenljivu.
13
3 Primeri/zadaci
Primer ove regresije émo uraditi na podacima Stackloss, koji predstavljaju opera-
tivne podatke postrojenja za oksidaciju amonijaka u azotnu kiselinu. Podaci sadrźe
21 opservaciju sa 4 promenljive. Promenljive su:
• Air Flow - Protok vazduha za hladjenje

• Water Temp - temperatura dovoda rashladne vode
• Acid Cond. - Koncentracija kiseline koja kruźi (na 1000, minus 500)
• stack.loss - zavisna promenljiva, deset puta veći procenat amonijaka koji ulazi
u postrojenje i koji izlazi neapsorbovan.
Posmatramo da nam je model oblika :

yi = β0 + β1 x1i + β2 x2i + β3 x3i + σi , i = 1, 2, ...21
i prirodno, podatke prvo uklapamo u model proste linearne regresije.
14
Dijagnostički grafici za OLS (ordinary least squares) metodu: grafik reziduala vs uklopljene(fitovane)
vrednosti,normalni QQ grafik reziduala,Kukovo rastojanje i statistika Kukovog rastojanja vs hii (1 − hii )
Prelazimo na trazenje autlajera,Odakle dobijamo da nam je 4ta opservacija mogući autlajer.
15
Kako bismo uzeli u obzir opservacije sa velikim vrednostima reziduala koristimo robusnu regresiju
16
Koristeći rlm, različite teźine u robustnim procenama mogu se lako izračunati, a grafički pregled moźe biti koristan
kako bi se odredili reziduali koji imaju teźine manje od 1. U mnogim siguacijama, te tezine vredi posmatrati jer one
automatski ukazuju na opservacije koje su razmatrane od strane robusne procene kao viśe ili manje udaljene od
većine podataka. Dijagnostičke grafike moźemo posmatrati i za robustno uklopljene modele kako bismo procenili
uklopljene vrednosti. Na sledećim slikama moźemo da vidimo dijagnostičke grafike za Huber procenu.
17
Ovo su izracunate vrednosti tezina reziduala razlicitim procenama. Na drugoj slici one su predstavljene i grafički, s
tim śto su teźine za Huber - krugovi,Hampel - trouglovi,Bisquare - krstići
Ovde ćemo
takodje uraditi i MM i S procenu na datim podacima.Funkcija rlm nam takodje omogućava implementaciju MM
procene:
rlm(formula,data,..,method = ”MM”)
Implementaciju S procene omogućava nam funkcija lqs. Koriśćenje funkcije lqs je :
lqs(formula,data, method = c(”lts”,”lqs”,”lms”,Š”),...)
18
Normalni QQ grafici razlicitih procena
Reziduali vs uklopljene vrednosti razlicitih procena
19
20

Robustna Regresija

Uploaded by

Copyright:

Available Formats

You might also like

Robustna Regresija

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Robustna Regresija

Uploaded by

Copyright:

Available Formats

Matematički fakultet

Linearni statistički modeli

Dakle, tražimo minimum sume

Funkcija ρ(.) prikazuje doprinos svakog od reziduala i zadovoljava sledeće uslove :

Za sada ćemo pretpostaviti da je poznato σ̂.

U zavisnotsti od toga kako je zadata funkcija ρ, govorimo o različitim metodama.

(ρ, ψ, ω - Huber - k = 1.345, σ = 1)

(ρ, ψ, ω - bisquare - k = 4.685, σ = 1)

Neka je ρ realna funkcija koja zadovoljava sledeće pretpostavke(A):

gde je b definisano preko Eφ [ρ(r)] = b, a φ je standardna normalna raspodela.

MM ocenjivači su definisani u tri koraka:

Korak 2. Prvo se izračunaju reziduali

kvari i ponača se isto kao i ocenjivač metode LS.

Za generisanje Slika 1.i 4. korišćena je normalna raspodela N (0, 1), a potom je

Metodologija iza ocenjivača skale i selekcije parametara za postizanje efikasnosti

1. ocenjivač skale greške potcenjuje pristrasnosti, što imlicira da će potceniti i

2. stvarna efikasnost je znatno niža od željene, jer parametri ψ funkcija odabrani

Procedura MM procene je da proceni parametar regresije koristeći procenu S koja

gde je sM M standardno odstupanje dobijeno od preostale procene S i ρ je Tukey-ova

8. Izračunati βMˆM koristeći WLS metod sa ponderisanom wi .

• Air Flow - Protok vazduha za hladjenje

Posmatramo da nam je model oblika :

Prelazimo na trazenje autlajera,Odakle dobijamo da nam je 4ta opservacija mogući autlajer.

lqs(formula,data, method = c(”lts”,”lqs”,”lms”,Š”),...)

Reziduali vs uklopljene vrednosti razlicitih procena

You might also like