Professional Documents
Culture Documents
RegrMod Main 1sk
RegrMod Main 1sk
Marijus Radavičius
Vilnius
2020
Turinys
1 Įvadas 2
1
1 Įvadas
Nagrinėjamas ryšys tarp kintamųjų y ir x (pastarasis gali būti daugiamatis) su tikslu
atrasti taisyklę, kaip žinant x-ų reikšmes kiek galima tiksliau nuspėti y-o reikšmę. Tą
taisyklę pavadinę f siekiame ją parinkti taip, kad y = y(x) ≈ f (x) su visais x. Norė-
dami atsikratyti matematiniam tikslumui nepriderančios apytikslės lygybės ≈ savo mintį
perrašome tokiu būdu:
y = f (x) + ε
Sisteminė dalis (komponentė) aprašo y-o "tipinę", prie "sąlygų" x prognozuojamą (expected
– tikėtiną, vidutinę) reikšmę.
Trendu priimta vadinti esminio kitimo – paprastai jis būna laipsniškas, lėtas, glodus
– tendenciją. Šiuo atveju laikoma, kad tas kitimas yra sąlygotas x-o kitimo. Frazė "es-
minio kitimo" reiškia, kad trende ignoruojami chaotiški, nereguliarūs svyravimai ir laikini
nukrypimai nuo "bendros tendencijos", kuri tarsi "suvidurkina" visus tuos nereguliarius
svyravimus. Tokiu būdu trendas yra tarsi vidurkio analogas.
Visi minėti nereguliarūs svyravimai yra sudėti į atsitiktinę dalį (komponentę). Ji ap-
rašo nežinomų ir nekontroliuojamų veiksnių įnešamą y-o sklaidą. Ši komponentė nenuspė-
jama, neprognozuojama. Ją siekiama minimizuoti, kad prognozuojant y-o reikšmę pagal
taisyklę f (x), atsitiktinę komponentę pagrįstai būtų galima pakeisti nuliu.
Šis kursas skirtas supažindinti su
2
2 Mažiausiųjų Kvadratų metodas
Laikoma, kad nagrinėjamus duomenis D sudaro kintamųjų poros (x, y) stebiniai. Čia x
yra k-matis vektorius, t.y., x := (x1 , . . . , xk )⊤ ∈ Rk , (visi vektoriai laikomi vektoriais-
stulpeliais, (·)⊤ žymi vektoriaus ar matricos transponavimo operaciją), o y yra skaliaras,
y ∈ R. Taigi, duomenys
D = DN (x, y) := {(x(t), y(t)), t = 1, . . . , N }; (2)
čia N yra stebinių duomenyse kiekis (imties dydis), t žymi stebinio numerį ir priklausomai
nuo stebimo reiškinio ir stebėjimo proceso pobūdžio gali būti interpretuojamas kaip laikas,
atvejis, tiriamų objektų, įmonių, individų ir pan. numeris (identifikatorius).
Vienas iš kintamųjų duomenyse, būtent y, pavadintas kitu vardu todėl, kad kintamieji
x ir y regresinėje analizėje vaidina skirtingus vaidmenis. Antrasis kintamasis y, nors ir
stovi po kintamojo x, yra kaip ir "pagrindinis" tyrimo kintamasis, o kintamasis x yra "pa-
galbinis". (Kadangi x yra vektorius, tai galima sakyti ir "kintamieji x", ir " x kintamieji",
turint omenyje arskiras skaliarines vektoriaus x komponentes.)
Kintamieji x ir y vadinami įvairiai priklausomai nuo srities, kurioje taikoma regresinė
analizė, ir nusistovėjusių tradicijų:
• Kintamieji x: aiškinantieji, egzogeniniai (ekonometrijoje), nepriklausomi (pasenęs
nevartotinas terminas), impulsas (inžinerija), šokai, kovariantės, regresoriai, predik-
toriai.
• Kintamasis y: aiškinamasis, endogeninis (ekonometrijoje), priklausomas (pasenęs
nevartotinas terminas), atsakas (inžinerija).
kuris ir paaiškina šio metodo pavadinimą. Dydis R̂(f ), apibrėžtas formule (3),
vadinamas Vidutine Kvadratine Paklaida (VKP) (angl. Mean Square Error (MSE))
arba Kvadratine Rizika.
3
Mažiausiųjų Kvadratų uždavinys (MKu):
Rasti fˆ ∈ F , fˆ = fˆ (·| F, DN ), kuri minimizuotų R̂(f ) klasėje f ∈ F .
Simboliškai tai galima užrašyti keliais beveik ekvivalenčiais būdais:
Formulė (5) skiriasi nuo (4) tuo, kad įvardinamas uždavinio (4) sprendinys. Taigi, tuo
pačiu faktiškai padaroma prielaida, kad toks sprendinys egzistuoja.
Formulė (6) skiriasi nuo (5) tuo, kad pateikia uždavinio (4) sprendinį išreikštiniu būdu.
Jos dėka MKu formulavimui ir jo sprendinio įvardinimui nereikia žodžių.
1 Apibrėžimas. MK uždavinio sprendinys fˆ = fˆ (·| F, DN ), apibrėžtas (6), vadina-
mas Mažiausių Kvadratų Įvertiniu (MKĮ).
Nuostolių funkcija ir rizika. Statistikoje rizika vadimi vidutiniai nuostoliai. Nuo-
stolius apibrėžia nuostolių funkcija ℓ: ℓ(s; d) yra nuostoliai, kai stebimoje situacijoje s
yra priimamas sprendimas arba atliekamas veiksmas d. Natūralu tikėtis, kad nuostolių
funkcija yra neneigiama, bet bendru atveju ši prielaida nėra būtina.
Nors toliau nagrinėsime tik kvadratinę riziką, t.y. riziką su kvadratine nuostolių funk-
cija ℓ(s; d) := |s − d|2 , verta nors trumpai pasiaiškinti, ko šiuo pasirinkimu atsisakome.
Pateiksime rizikos su nuostolių funkcija ℓ apibrėžimą regresinės analizės kontekste ste-
bėtų duomenų DN (x, y) atveju.
2 Apibrėžimas. Prognozavimo taisyklės f ∈ F rizika R̂ℓ (f ) = R̂ℓ (f | DN (x, y)) duome-
nims DN (x, y) su duota nuostolių funkcija ℓ vadinsime tos taisyklės f pagrindu duomenims
DN (x, y) atliktų prognozių vidutinius nuostolius:
N ( )
1 ∑
R̂ℓ (f ) = R̂ℓ (f | DN (x, y)) := ℓ y(t); f (x(t)) . (7)
N t=1
Pavyzdžiai. Aptarsime kelis, matyt, neaiškiausio iš trijų objektų, kuriais remiasi MKm
– galimų prognozavimo taisyklių klasių F – pavyzdžius.
1 ∑N
R̂(fa ) = R̂(a) := (y(t) − a)2 .
N t=1
4
1 Pastaba. Apskritai yra nekorektiška riziką taisyklei fa ir R̂(a), vidutinį kvadratinį
y-ų nukrypimą nuo a, žymėti ta pačia raide, nes atvaizdavimas R̂(fa ) yra apibrėžtas
ant funkcijų aibės F, o R̂(a) – ant realių skaičių. Bet mes nebūsime tiek pedantiški
ir taupumo sumetimais atskiro naujo pažymėjimo funkcijai R̂(a) neįvedinėsime.
= {f : f (x) = c0 + c1 x + . . . + c1 xn , ci ∈ R, i = 1, . . . , n}.
Vadinasi, visas praktiškai įdomias funkcijas (t.y., tolydines funkcijas) galima aprok-
simuoti polinomais kokiu norima tikslumu. Taigi, polinomų klasė yra pakankamai
gausi ("turtinga", "skaitlinga", "didelė").
∑
k
β ⊤ x = x⊤ β = βi xi = β1 x1 + β2 x2 + . . . + βk xk .
i=1
5
Atrodytų, kad šiuo atveju prognozės funkcijų klasė F yra gana negausi ("skurdi",
"maža"), nes ją sudaro tik tiesinės funkcijos. Tačiau 3 pavyzdys yra atskiras DTR
atvejis. Iš tikro, užtenka paimti k = n, β0 := c0 , βi := ci , xi = xi , i = 1, . . . , n.
DTR bus pagrindinis mūsų nagrinėjamas modelis.
taikytina y-o per x ∈ Rk prognozavimo taisyklė yra f . Tada remiantis anksčiau aprašyta
ideologija (1) galima užrašyti
Jos reiškia, kad duomenys DN (x, y) tenkina Daugianarės Tiesinės Regresijos (DTR)
modelį.
Jeigu duomenims DN (x, y) galios (12) su nuliniu laisvuoju nariu, β0 = 0, tai sakysime,
kad galioja Daugianarės Tiesinės Regresijos modelis be laisvojo nario. Trumpai
– modelis DTR0.
2 Pastaba. DTR modelį paprasta suvesti į DTR0 modelį vienetu padidinus pastarojo
aiškinančiųjų kintamųjų skaičių ir juos pernumeravus.
Iš tikro, įveskime papildomą fiktyvų kintamąjį x0 , kurio reikšmės tapatingai lygios 1,
x0 (t) ≡ 1. Tada
6
( ) ( )
su β̃ ⊤ := β0 , β ⊤ ∈ Rk+1 ir x̃⊤ (t) := x0 (t), x⊤ (t) ∈ Rk+1 .
DTR0 pavidalas patogesnis matematinėms manipuliacijoms. Todėl toliau, jeigu ne-
pasakyta kitaip, DTR0 laikysime baziniu modeliu, iš kurio atitinkami teiginiai modeliui
DTR išplaukia paanaudojus aukščiau aprašytą triuką su fiktyviu kintamuoju x0 , x0 (t) ≡ 1.
Formulę (12) sudaro N lygčių. Patogiau naudotis jas užrašius per matricas ir vektorius.
7
Čia pasinaudojome iš modelio DTR0 apibrėžimo gaunamom lygybėm ε(t) = y(t) −
β ⊤ x(t), t = 1, . . . , N . Nesunku pastebėti, kad dešinėje lygybės (22) pusėje stovi pa-
klaidų vektoriaus E (formulė (14)) ilgio kvadratas, padalintas iš N . Vadinasi, pasinaudo-
ję skaliarinės sandaugos ir vektoriaus ilgio apibrėžimais bei iš (14) išplaukiančia lygybe
E = Y − Xβ galime pratęsti (22) tokiu būdu:
1 2 1 1
R̂(β) = |E| = E ⊤ E = (Y − Xβ)⊤ (Y − Xβ)
N N N
1 ( 2 )
= |Y | − Y ⊤ Xβ − β ⊤ X⊤ Y + β ⊤ X⊤ Xβ . (23)
N
Čia, žinoma, naudojomės matricų daugybos ir transponavimo savybėmis. Kadangi Y ⊤ Xβ
yra skaičius, tai
( )⊤
Y ⊤ Xβ = Y ⊤ Xβ = β ⊤ X⊤ Y.
Iš čia ir iš (23) išvedame, kad
1 ( 2 )
R̂(β) = |Y | − 2β ⊤ X⊤ Y + β ⊤ X⊤ Xβ . (24)
N
Matome, kad R̂(β) yra daugiamatė kvadratinė funkcija atžvilgiu β. Jeigu β būtų skaliaras,
tai R̂(β) būtų parabolė su neneigiamu koeficientu prie β 2 . Jeigu tas koeficientas būtų
teigiamas, tai parabolės šakos būtų nukreiptos į viršų, ir ji turėtų vienintelį minimumą.
Kadangi R̂(β) yra daugiamatė kvadratinė funkcija atžvilgiu β, t.y., pakankamai glodi
funkcija, apibrėžta visoje erdvėje Rk , tai jos minimumą, jeigu tik egzistuoja, galima būtų
rasti pradiferencijavus R̂(β) pagal βi , i = 1, . . . , k, ir prilyginus tas dalines išvestines nuliui:
∂
R̂(β) = 0, i = 1, . . . , k. (26)
∂βi
Kadangi funkcija R̂(β) paprasta, tai patogu pasinaudoti vektoriniu diferencijavimu. Da-
linė išvestinė (∂/∂β)R̂(β) atžvilgiu vektoriaus β yra traktuojama kaip vektorius stulpelis
su komponentėmis (∂/∂βi )R̂(β). Tuo pasinaudodami perrašome (26):
∂
R̂(β) = 0k . (27)
∂β
8
Jeigu matrica B yra simetrinė, tai (B + B ⊤ ) = 2B ir kvadratinės formos (dalinė) išvestinė
įgauną pavidalą, kurio ir būtų natūralu tikėtis pagal analogiją su skaliariniu (vienmačiu)
atveju.
Pasinaudoję (28) ir matricos X⊤ X simetriškumu iš (27) išvedame vektorinę lygtį, kurią
turi tenkinti parametro β MKĮ β̂:
X⊤ Xβ = X⊤ Y. (29)
4 Pratimas. Pasinaudoję MKĮ bendra formule (30) DTR0 modeliui bei 2-oje Pastaboje
aptartu sąryšiu tarp DTR modelio ir DTR0 modelio išveskite MKĮ formules PTR modelio
laisvajam nariui ir posvyriui.
5 Pratimas. Patikrinkite fomules (28).
6 Pratimas. Įsitikinkite, kad matrica X⊤ X simetrinė.
čia ( )
β (1)
β= , β (i) ∈ Rki , i = 1, 2, (32)
β (2)
( )
X = X(1) X(2) , (33)
o X(i) yra eilės N × ki matricos (i = 1, 2), k = k1 + k2 , tenkinančios ortogonalumo
sąlygą
( )⊤
X(1) X(2) = 0k1 ×k2 . (34)
Čia ir toliau simboliu 0k1 ×k2 žymima eilės k1 × k2 nulinė matrica (matrica, kurios visi
elementai yra 0). Jeigu būtų k1 = k2 = 1, tai matricos X(1) ir X(2) taptų vektoriais,
ir sąlyga (34) reikštų, kad tų vektorių skaliarinė sandauga yra lygi 0, kitaip tariant,
tie vektoriai yra ortogonalūs. Bendru atveju sąlyga (34) reiškia, kad visi matricos X(1)
stulpeliai yra ortogonalūs visiems X(2) stulpeliams.
9
1 Lema. (Lema apie ortogonalias regresijas.) Tarkime, kad galioja (31)–(34) ir matrica
( )−1
X⊤ X yra neišsigimusi. Tada DTR0 modelio (31) regresijos parametro β (32) MKĮ
yra ( )
β̂ (1)
β̂ = (2)
, β̂ (i) ∈ Rki , i = 1, 2, (35)
β̂
su (( )−1 (
)⊤ )⊤
β̂ (i) = X(i) X(i) X(i) Y i = 1, 2. (36)
( )⊤
Vadinasi, matricos X(i) X(i) , i = 1, 2, taip pat neišsigimusios. Remiantis (37) ir 7
Pratimu (žr. žemiau)
(( )⊤ )−1
(1) (1)
( )−1 X X 0k1 ×k2
X⊤ X =
(( )⊤ )−1
. (38)
(2) (2)
0k2 ×k1 X X
Remdamiesi MKĮ formule (30), pažymėjimu (35) bei (38) užbaigiame patikrinimą:
( )−1
β̂ = X⊤ X X⊤ Y
(( )⊤ )−1
(1) (1)
( )⊤
X X 0k1 ×k2 X(1) Y
(
= (( )⊤ )−1 )⊤ (39)
(2)
0k2 ×k1 X (2)
X (2) X Y
(( )⊤ )−1 ( )⊤
(1) (1) ( )
X X X(1) Y β̂ 1
= ( )−1 ( = .
( )⊤ )⊤
X (2)
X (2)
X (2)
Y β̂ 2
1 Išvada. Tarkime, kad galioja 1-os Lemos sąlygos. Tada DTR modelio (31) MKĮ
išsireiškia per atitinkamus modelių
10
7 Pratimas. Tegu k × k eilės matrica A yra neišsigimusi ir turi diagonalinę blokinę
struktūrą iš dviejų blokų, A1 dydžio k1 × k1 ir A2 dydžio k2 × k2 :
( )
A1 0k1 ×k2
A= . (41)
0k2 ×k1 A2
Įsitikikinkite, kad ( )
−1 A−1
1 0k1 ×k2
A = . (42)
0k2 ×k1 A−12
1 ∑N
ẏ(t) := y(t) − ȳ, t = 1, . . . , N, ȳ := y(j). (43)
N j=1
1 ∑N
ẋi (t) := xi (t) − x̄i , t = 1, . . . , N, x̄i := xi (j), i = 1, . . . , k; (46)
N j=1
( )
ẋ⊤ (1)
..
Ẋ := Ẋ1 . . . Ẋk =
. .
(47)
⊤
ẋ (N )
Centruoto vektoriaus Ẏ vektorinė išraiška
Ẏ = Y − ȳ 1N .
∑
N ∑
N ∑
N ∑
N
⊤
Ẏ 1N = ẏ(t) = ẏ(t) − ȳ = y(t) − ȳN = 0.
t=1 t=1 t=1 t=1
11
Tai galima suformuluoti ir kitaip: visi centruotų stebinių vektoriai yra ortogonalūs vek-
toriui, sudarytam iš vienetų:
∑
N
Ẏ ⊤ 1N = ẏ(t) = 0. (48)
t=1
Y = β0 1N + Xβ + E. (49)
y(t) = β0 + x⊤ (t) β + ε(t) = β0 + x̄⊤ β + ẋ⊤ (t) β + ε(t) = β̃0 + ẋ⊤ (t) β + ε(t). (50)
Taigi, galime užrašyti ekvivalenčią DTR modelio (49) formą su centruota plano matrica
Naudodamiesi tuo, kad visi centruotų stebinių vektoriai yra ortogonalūs vektoriui,
sudarytam iš vienetų, gauname, kad
∑
N
⊤
Ẋ 1N = ẋ(t) = 0k . (53)
t=1
(Paklaidos ε yra "mistinis objektas", jų vektorių šiuo atveju žymime kaip norime, bet
apskritai jis skiriasi nuo paklaidų vektoriaus modelyje (52).) Todėl pagal 1 Lemą
( )−1 ( )−1
β̂ = β̂ (2) := Ẋ⊤ Ẋ Ẋ⊤ Y = Ẋ⊤ Ẋ Ẋ⊤ Ẏ . (56)
Paskutinei lygybei gauti čia pasinaudojome 8 Pratimu (žr. žemiau). Iš jos matosi, kad
DTR modelio (52) parametro β MKĮ β̂ yra parametro β MKĮ ir DTR0 modelyje su
centruotais kintamaisiais x ir y:
Ẏ = Ẋβ + Ė. (57)
12
Apibendrinant 1-os Lemos taikymo rezultatus (54) ir (56) darome išvadą, kad para-
metrų β̃0 ir β MK įvertiniai yra atitinkamai ȳ ir β̂ (2) . Įstatę šias reikšmes į β̃0 išraišką
(51) gauname lygtį parametro β0 MK įvertiniui β̂0 :
1 ∑N
cov(xi , xj ) := (xi (t) − x̄i )(xj (t) − x̄j ) (60)
N t=1
1 ∑N
= xi (t) xj (t) − x̄i x̄j =: xi xj − x̄i x̄j .
N t=1
13
Taigi, DTR modelio MK įverčiams iš duomenų DN (x, y), kuriuos sudaro (k + 1)N skaičių,
apskaičiuoti faktiškai užtenka žinoti x̄, ȳ, cov(x, x), cov(x, y), t.y., tik m = k + 1 + k(k +
1)/2 + k skaičiukų. Kai k = 4, N = 1000 (pavyzdžiui), tai (k + 1)N = 5000, o m = 19.
Jeigu reiktų nuspėti naują y reikšmę y ◦ , kai žinoma, jog x = x◦ , o DTR modelio para-
metrai β0 ir β yra nežinomi, bet turime poros (x, y) stebinių duomenis DN (x, y), tiesinei
prognozavimo funkcijai f ∈ FT (formulė (11)) pritaikytume pakeitimo taisyklę (plug-in
rule) – jos nežinomomus parametrus keistume jų MK įvertiniais. Taigi, remdamiesi (50),
(54) ir 3-ia Išvada y ◦ prognozuotume taip:
ŷ ◦ = β̂0 + β̂ ⊤ x◦ = β̃ˆ0 + β̂ ⊤ (x◦ − x̄) = ȳ + cov(y, x) cov(x, x)−1 (x◦ − x̄). (65)
14
Taigi, prisiminus (68), turime vektoriaus Y išskaidymą į ortogonalias komponentes:
Y = Ŷ + Ê, Ŷ ∈ LX , Ê ∈ L⊥
X. (71)
Vadinasi, Ŷ yra Y -o ortogonalioji projekcija į tiesinį poerdvį LX . Tai reiškia, kad Ŷ yra
vektoriui Y artimiausio vektoriaus Z iš tiesinio poerdvio LX paieškos sprendinys:
Ŷ = ΠX Y = Xβ̂. (73)
Šioje lygybėje vektorių ilgių kvadratai yra ne kas kita kaip kvadratų suma. Todėl ji vadi-
nama kvadratų sumos išskaidymu arba kvadratų sumų atskyrimu (partition) ir ją įprasta
užrašyti taip:
TSS = ESS + RSS. (75)
Čia TSS (Total Sum of Squares) yra pilnoji kvadratų suma,
∑
N
TSS := |Y |2 = y 2 (t). (76)
t=1
Narys ESS (Explained Sum of Squares) yra paaiškintoji kvadratų suma (kvadratų suma,
paaiškinta parinkto DTR0 modelio),
2 ∑
N
ESS := Ŷ = ŷ 2 (t). (77)
t=1
Naudojami ir kiti akronimai (kitos santrumpos): Vietoje ESS kartais sutinkama MSS
arba SSM (Model Sum of Squares), FSS (Fitted Sum of Squares) RegSS (Regression Sum
of Squares); vietoje RSS kartais rašoma SSR, SSE (Error Sum of Squares, Sum of Squared
estimate of Errors, Sum of Squares for Error, Sum of the Squared Errors, Sum of Squares
of Errors).
Detaliau apie kvadratų sumų išskaidymo (atskyrimo) interpretaciją – kitame skyrelyje.
15
Kadangi duomenys yra informacija, ir ekonometrinę (statistinę) analizę galima in-
terpretuoti kaip patikimos informacijos išgavimą iš duomenų, tai prasminga aptarti ir
informacinę MK metodo interpretciją.
MKm ir informacija. Į kintamųjų x stebinių vektorius X1 , . . . , Xk galima žiūrėti
kaip į elementarius tikrovės faktus. Remiantis tais faktais galima atlikti paprastas lėkštojo
(plain, plane) mąstymo operacijas
X1 , . . . , Xk → Z := α1 X1 + . . . + αk Xk , α := (α1 , . . . , αk )⊤ ∈ Rk ,
tokiu būdu gaunant naujas žinias Z ∈ LX . LX yra visa informacija, kurią galima išgauti iš
elementarių tikrovės faktų X1 , . . . , Xk pasitelkiant lėkštąjį mąstymą – visų išgautų "žinių
bazė".
1. Jeigu naujas faktas Y ∈ LX , tai faktiškai jis nėra naujas, nes visa informacija apie
jį jau yra "žinių bazėje". Jis dubliuoja iš X1 , . . . , Xk jau išgautą informaciją.
3. Jeigu vektoriai Y ir Z yra vienas kitam ortogonalūs, Y ⊥ Z, tai jie neturi bendros
informacijos: nei Y nieko nepasako apie Z (lėkštojo mąstymo prasme), nei Z apie
Y.
Bendriau: jeigu vektorius Y yra ortogonalus LX , Y ⊥ LX , tai "žinių bazėje" (jokios)
informacijos apie Y nėra. Jis turi savyje visiškai originalią informaciją ir todėl per
X1 , . . . , Xk yra visiškai nenuspėjamas.
16
Čia A yra eilės k × k neišsigimusi matrica. Iš kintamojo z stebinių sudarytą plano matricą
pažymime Z ir duomenims DN (z, y) pritaikome DTR0 modelį (su endogeniniu kintamuoju
y ir egzogeniniais kintamaisiais z):
Y = Zα + U. (81)
Klausimas: Ką galite pasakyti apie modelio (81) nežinomo parametro α ∈ Rk MKĮ α̂?
Sprendimas. Klausimas suformuluotas gana abstrakčiai, tad visų pirma reikia sugalvoti,
ką šiuo atveju konkrečiai galima būtų ir derėtų pasakyti apie MKĮ α̂.
Egzistavimas ir vienatis. MKĮ α̂ egzistuoja ir yra vienintelis, jeigu matrica Z⊤ Z
yra neišsigimusi. Iš (80) išplaukia, kad
Z = X A⊤ . (P atikrinkite!) (82)
Todėl ( ) ( ) ( )
det Z⊤ Z = det AX⊤ XA⊤ = det(A)2 det X⊤ X ̸= 0, (83)
nes pagal prielaidą ir A, ir X⊤ X yra neišsigimusios.
Vadinasi, MKĮ α̂ egzistuoja ir yra vienintelis.
Ryšys tarp MKĮ α̂ ir MKĮ β̂. Lygybė (82) su neišsigimusia matrica A reiškia, kad
LZ = LX . (Kodėl?) Vadinasi, sutampa ir ortogonalieji projektoriai ΠX ir ΠZ , nes abu
projektuoja į tą patį tiesinį poerdvį. Todėl atsižvelgiant į (79) ir (82)
Ẏ ⊥ 1N , Ė ⊥ 1N . (87)
17
Centruoto DTR0 modelio (67) tyrimui galima panaudoti DTR0 modeliui jau išvestas
formules (67)–(71) ir (74) tik necentruotus vektorius ir matricas reikia pakeisti atitinka-
mais centruotais vektoriais ir atitinkammomis centruotomis matricomis.
Turime
ḃ ḃ ḃ
Y = Ẋβ̂ ⊥ 1N , E := Ẏ − Y , (88)
ḃ ḃ ḃ ḃ
Ẏ = Y + E, Y ∈ LẊ , E ∈ L⊥
Ẋ , (89)
ir
ḃ ḃ
|Ẏ |2 = |Y |2 + |E|2 . (90)
Čia
L = LẊ := span{Ẋ1 , . . . , Ẋk } = {Ẋβ, β ∈ Rk } (91)
Padalinę abi lygybės (90) puses iš N gauname dispersijų išskaidymo arba dispersijų
atskyrimo (variance partition) formulę
1 ∑N
1 ∑N
σy2 := 2
ẏ(t) = (y(t) − ȳ)2 = y 2 − (ȳ)2 . (93)
N t=1 N t=1
Pirmasis narys dešinėje lygybės (92) pusėje yra y-o prognozės ŷ (empirinė) dispersija.
Iš tikro, pasinaudoję pakeitimo taisykle ir pirmąja lygybe formulėje (88) analogiškai kaip
konstruojant prognozę (65) išvedame
ŷ(t) = ȳ + β̂ ⊤ x(t) ḃ
˙ = ȳ + y(t) (94)
arba
ḃ
y(t) = ŷ(t) − ȳ, t = 1, . . . , N. (95)
Prisiminę, kad centruotų dydžių (vektorių) vidurkiai yra lygūs 0 (žr. pirmąją išraišką
formulėje (88)), gauname, kad prognozės ŷ (vektoriaus Ŷ ) vidurkis sutampa su ȳ, y-o
stebinių vidurkiu. Vadinasi, dėka (95)
N ( )2
1 ∑N
1 ∑ ḃ 1 ḃ
σŷ2 := (ŷ(t) − ȳ) =
2
y(t) = |Y |2 . (96)
N t=1 N t=1 N
Paskutinis narys lygybėje (92) yra liekanų ε̂ (empirinė) dispersija. Remiantis antrąja
lygybe formulėje (88) bei (95)
( )
ḃ ḃ
E = Ẏ − Y = (Y − ȳ 1N ) − Ŷ − ȳ 1N = Y − Ŷ = Ê. (97)
Įsitikinome, kad DTR modelyje liekanų vektorius Ê sutampa su centruotų liekanų vekto-
ḃ
riumi E ir vadinasi, turi nulinį vidurkį. Taigi,
1 ∑N
1 1 ḃ
σε̂2 := (ε̂(t))2 = |Ê|2 = |E|2 . (98)
N t=1 N N
18
4 Išvada. Duomenims DN (x, y) pritaikius DTR modelį ir jo nežinomus parametrus įverti-
nus MK metodu endogeninio kintamojo y sklaida, jo kintamumas, matuojamas dispersija
σy2 , išsiskaido, kaip rodo formulės (92), (96) ir (98), į dvi dedamąsias:
Dispersijų išskaidymo formulę (92), žinoma, galima užrašyti ir per kvadratų sumas,
t.y., kaip centruotų y-o stebėtų reikšmių kvadratų sumos TSS išskaidymo į dedamąsias
ESS ir RSS formulę (cf.(75)), bet dispersijos turi daug aiškesnę interpretaciją negu kvad-
ratų sumos.
Tai, kad R2 galimos reikšmės priklauso intervalui [0, 1], išplaukia iš to, kad R2 yra
neneigiamų dydžių santykis ir vardiklis yra nemažesnis už skaitiklį. Kuo R2 didesnis,
tuo geriau, nes tuo didesnę dalį y-o sklaidos DTR modelis, įvertintas naudojant MK
metodą, paaiškina kintamųjų x kitimu, ir tuo mažiau lieka DTR modeliu nepaaiškintos
y-o sklaidos.
Idealiu atveju
Blogiausiu atveju
R2 = 0 ⇔ σŷ2 = 0 ⇔ Ŷ = ȳ 1N ⇔ β̂ = 0k
⇔ Ê := Y − Ŷ = Ẏ ⇔ σε̂2 = σy2 (101)
⇔ Ẏ ⊥ LẊ ⇔ Ẏ ⊥ Ẋi ∀i = 1, . . . , k, ⇔ Ẏ ∈ L⊥
Ẋ .
19
R-kvadrato kiekybinė-kokybinė interpretacija. Greičiau tai tik bandymas de-
terminacijos koeficiento kiekybinėms reikšmėms suteikti "kokybinę" interpretaciją. Kar-
tais galima sutikti maždaug tokio tipo komentarus: "kadangi R-kvadratas yra mažas, tai
sudarytas DTR modelis yra blogas" (sakykim, buvo R2 < 0.25). Arba priešingai: "Suda-
rytas DTR modelis yra geras, nes R-kvadratas yra pakankamai didelis" (sakykim, buvo
R2 > 0.9),
R-kvadrato skaitinių reikšmių kaip sudaryto DTR modelio kokybės mato interpretacija
yra gana sąlyginė. Visai natūralu, kad fizikų gerai organizuoto eksperimento duomenims
R2 > 0.99. Visuomenės moksluose ir R2 ≈ 0.25 galima laikyti dideliu pasiekimu.
3 Pastaba. Determinacijos koeficientas R2 negali būti vieninteliu sudaryto DTR modelio
kokybės kriterijumi. Pavyzdžiui, jeigu taikome PTR modelį, bet turime tik du stebinius
(N = 2) ir x(1) ̸= x(2), tai R2 = 1, nes šiuo atveju visada galima nubrėžti tiesę, einančią
per turimus du taškus (x(1), y(1) ir (x(2), y(2). Bet reiktų drąsos, kad tokiu būdu sudaryto
modelio pagrindu gautomis prognozėmis grįsti savo ateities (ekonominę) veiklą.
R-kvadrat ir koreliacijos koeficientas. Nagrinėkime PTR modelį, t.y. DTR mo-
delį su vienmačiu egzogeniniu kintamuoju x ∈ R (k = 1):
Tada prisiminę 3-io Pratimo sprendimo rezultatus (arba pritaikę DTR MK įvertinių for-
mules (63) ir (64) atvejui k = 1) galime užrašyti PTR modelio parametrų a ir b MK
įvertinius
â = ȳ − b̂x̄, (103)
cov(x, y)
b̂ = . (104)
σx2
Pagal paaiškintos dispersijos apibrėžimą ir savybes (žr. (96)) atsižvelgę į (103) ir (104)
išvedame:
N ( )2
1 ∑N
1 ∑ cov(x, y)2
σŷ2 = (ŷ(t) − ȳ) =
2 2 2
b̂ ẋ(t) = b̂ σx = .
N t=1 N t=1 σx2
20
• O koks ryšys tarp R2 ir koreliacijos koeficientų daugiamačio egzogeninio kintamojo
x atveju?
• Arba kitaip: kaip apibrėžti koreliaciją tarp y ir x, kai pastarasis yra k-matis vekto-
rius (k > 1)?
• O koks ryšys tarp corr1 (x, y), daugialypio koreliacijos koeficiento, kai k = 1, ir
corr(x, y)?
Be to,
R2 = corr2k (x, y). (109)
21
Įrodymas. Kadangi, remiantis xα apibrėžimu, ŷ(t) − β̂0 = β̂ ⊤ x(t) = xβ̂ (t) (t = 1, . . . , N )
ir koreliacijos koeficientas nepriklauso nuo koordinačių pradžios, tai
į ortogonolias komponentes:
( )
Xα = â 1N + b̂ Ŷ + U, Ŷ ⊤ U = 0, ū = 0. (112)
Šis išskaidymas faktiškai yra išskaidymo (89) į DTR modelio pagrindu gautą prognozės
(MK aproksimacijos) vektorių ir jam ortogonalų liekanų vektorių (šiuo atveju jis pažy-
mėtas U ) atskiras atvejis. Išskaidymas (112) gaunamas duomenims DN (ŷ, xα ) pritaikius
PTR modelį su atsako kintamuoju xα ir aiškinančiuoju kintamuoju ŷ. Koeficientai â ir b̂
prie atitinkamų vektorių išskaidyme (112) yra minėto PTR modelio parametrų MK įver-
tiniai. Iš kovariacijos savybių ir formulėje (112) pateiktų ortogonalumo lygčių išplaukia,
kad
1 ∑N
1
cov(u, ŷ) = u(t) ŷ(t) − ū ŷ = U ⊤ Ŷ + 0 = 0. (113)
N t=1 N
Analogiškai naudojantis kintamojo xα vektoriaus ortogonalumu liekanų ε̂ vektoriui išve-
dame, kad
cov(xα , y) b̂ σŷ2
corr(xα , y) = = √( ) . (117)
σxα σy
b̂2 σŷ2 + σu2 σy2
22
Jeigu b̂ ≤ 0, tai corr(xα , y) ≤ 0. Kai b̂ > 0, tai santykis formulės (117) dešinėje pusėje
neviršija neneigiamo dydžio σŷ /σy : vardiklį tik sumažiname dispersiją σu2 pakeitę 0.
Taigi, visais atvejais, tiek teigiamiems b̂, tiek ir b̂ ≤ 0, galioja nelygybė
σŷ
corr(xα , y) ≤ . (118)
σy
Belieka gautą kovariacijos išraišką (120) įstatyti į koreliacijos koeficiento formulę ir su-
prastinti vienodus narius. Lygybę (119) patikrinome.
Kadangi α ∈ Rk pasirinkome laisvai, tai (118) kartu su (119) patvirtina, kad
σŷ
corrk (x, y) = maxk corr(xα , y) ≤ = corr(ŷ, y).
α∈R σy
Pakėlę šios lygybės kairę ir dešinę pusę kvadratu gauname (109). Įrodymas baigtas.
Naudingos formulės. Pasinaudoję (120) bei prognozės ŷ formule (94) išvedame, kad
1 ⊤ ḃ 1
σŷ2 = cov(y, ŷ) = Ẏ Y = Ẏ ⊤ Ẋβ̂ = cov(y, x) β̂
N N
−1
= cov(y, x) (cov(x, x)) cov(x, y). (122)
cov(y, x) β̂
R2 = , (123)
σy2
σε̂2 = σy2 − σŷ2 = σy2 − cov(y, x) β̂ = σy2 − cov(y, x) (cov(x, x))−1 cov(x, y). (124)
Verta atkreipti dėmesį į tai, kad dispersija σε̂2 ≥ 0, vadinasi, cov(y, x) β̂ turėtų neviršyti
σy2 .
6 Išvada. Prognozės dispersijai σŷ2 , liekanų dispersijai σε̂2 ir R-kvadratui R2 suskaičiuo-
ti užtenka žinoti y-o dispersiją σy2 , kovariacijų vektorių cov(x, y) ir kovariacijų matricą
cov(x, x).
23
2.5 Pavyzdys: struktūrinio pokyčio regresinis modelis
Šiame skyrelyje aptariamas vienas iš struktūrinio pokyčio modelių. Tokio tipo modelius
ekonometrijoje įprasta taikyti tuomet, kai staigiai pasikeičia ekonominės veiklos sąlygos.
Tokių pasikeitimų priežastys, kaip taisyklė, yra politiniai sprendimai, įstatymų, mokesčių,
muitų ar akcizų pakeitimai.
Vaizdumo dėlei toliau aptariamą pavyzdį ir pavadinome "Akcizas": momentu t0 vy-
riausybė priėmė sprendimą pakeisti akcizus (įvesti, panaikinti, pakeisti jų dydį), dėl ko
galėjo esminiai pasikeisti kai kurių įmonių ekonominės veiklos efektyvumas.
t| −2 −1 0 1 2 3
. (125)
y| 2 6 4 5 1 3
Tegu pasikeitimo momentas t0 = 0.5.
Sprendimo gairės.
1. Galimų regresijos funkcijų aibė yra
F = { visos tolydinės laužtės su lūžio tšk. t0 }. (126)
Jos nusakomos dviem tiesėmis, y = f1 (t) := a1 + b1 t ir y = f2 (t) := a2 + b2 t, kurios
taikomos atitinkamai iki momento t0 ir po jo. Jos tenkina tolydaus sujungimo taške
t = t0 sąlygą f1 (t0 ) = f2 (t0 ), iš kur gauname, kad vienas parametras, pvz. a2 , išsireiškia
per kitus parametrus
a2 = a1 + (b1 − b2 ) t0 . (127)
Taigi, galimos regresijos funkcijos analitiškai išreiškiamos formule
{ {
f1 (t), t ≤ t0 a1 + b1 t, t ≤ t0
f (t) = = (128)
f2 (t), t > t0 a2 + b2 t, t > t0
24
Empirinis metodas – pirmasis lygis. Kadangi yra trys nežinomi parametrai a1 , b1 , b2 ,
tai bendras DTR modelio pavidalas turėtų atrodyti taip:
Kol kas prediktoriai x0 , x1 , x2 yra nenusakyti, bet juos lengva nustatyti, remiantis tuo,
kad, kai t ≤ t0 , regresijos funkcija yra f1 , o kitais atvejais ji yra lygi f2 . Be to turi
būti patenkinta sujungimo sąlyga (127). Aišku, kad, kol t ≤ t0 = 0.5, t.y. stebinio
numeris m ≤ 3 , x0 (m) ≡ 1, x1 (m) ≡ t(m), x2 (m) ≡ 0, o toliau, kai t > t0 = 0.5,
veikiame analogiškai, bet vietoje funkcijos f1 turime naudoti funkciją f2 , kurioje vietoje
nenaudojamo parametro a2 reikia įstatyti jo išraišką (127) per naudojamus parametrus.
Taigi, tuomet f2 (t) = a2 +b2 t = [a1 +(b1 −b2 ) t0 ]+b2 t = a1 +b1 t0 +b2 (t−t0 ) ir naudojantis
duomenų lentele (125) galime rašyti
m=1 ⇒
y(1) = f1 (t(1)) + ε(1) = a1 + b1 t(1) + ε(1) = a1 · 1 + b1 · (−2) + b2 · 0 + ε(1),
m=2 ⇒
y(2) = f1 (t(2)) + ε(2) = a1 + b1 t(2) + ε(2) = a1 · 1 + b1 · (−1) + b2 · 0 + ε(2),
m=3 ⇒
y(1) = f1 (t(3)) + ε(3) = a1 + b1 t(3) + ε(3) = a1 · 1 + b1 · 0 + b2 · 0 + ε(3),
m=4 ⇒
y(4) = f2 (t(4)) + ε(4) = a1 + b1 t0 + b2 (t(4) − t0 ) + ε(4)
= a1 · 1 + b1 · 0.5 + b2 · (1 − 0.5) + ε(4),
m = 5 ⇒ y(3) = f2 (t(5)) + ε(5) = a1 + b1 t0 + b2 (t(5) − t0 ) + ε(5) (130)
= a1 · 1 + b1 · 0.5 + b2 · (2 − 0.5) + ε(5),
m = 6 ⇒ y(6) = f2 (t(6)) + ε(6) = a1 + b1 t0 + b2 (t(6) − t0 ) + ε(6)
= a1 · 1 + b1 · 0.5 + b2 · (3 − 0.5) + ε(6).
Atsižvelgiant į (129) išraišką plano matricą turi sudaryti daugikliai prie kiekvieno iš pa-
rametrų a1, b1, b2 kiekvienoje iš 6-ių lygčių (130). Tokiu būdu galiausiai gauname
1 −2 0
1 −1 0
1 0 0
X=
.
1 0.5 1 − 0.5
1 0.5 2 − 0.5
1 0.5 3 − 0.5
25
• Šio metodo privalumas – atsakymą gauname formulių pavidalu:
čia
ψ0 (t) ≡ 1, ψ1 (t) ≡ (t0 − t)+ , ψ2 (t) ≡ (t − t0 )+ (134)
arba
ψ0 (t) ≡ 1, ψ1 (t) ≡ t, ψ2 (t) ≡ (t − t0 )+ . (135)
2. arba Gauso eliminavimo metodu išspręsti (šiuo atveju) 3-ios eilės tiesinių lygčių
sistemą (normalines lygtis)
X⊤ X β̂ = X⊤ Y (136)
atžvilgiu β̂ := (â1 , b̂1 , b̂2 )⊤ .
26