Download as pdf or txt
Download as pdf or txt
You are on page 1of 27

Regresiniai Modeliai

Marijus Radavičius

Vilnius
2020
Turinys
1 Įvadas 2

2 Mažiausiųjų Kvadratų metodas 3


2.1 Mažiausiųjų Kvadratų uždavinys . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Mažiausiųjų kvadratų įvertinys . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.1 Daugianarės tiesinės regresijos modelis . . . . . . . . . . . . . . . . 6
2.2.2 Matricinis pavidalas . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.3 Kvadratinė rizika . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.4 Mažiausių kvadratų įvertinys . . . . . . . . . . . . . . . . . . . . . . 8
2.2.5 Ortogonalios regresijos . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.6 Centruoti stebiniai . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Mažiausiųjų kvadratų metodo geometrinė interpretacija . . . . . . . . . . . 14
2.4 Dispersijos išskaidymas ir R-kvadrat . . . . . . . . . . . . . . . . . . . . . 17
2.4.1 Determinacijos koeficientas (R-kvadrat) . . . . . . . . . . . . . . . . 19
2.4.2 Daugialypis koreliacijos koeficientas ir R-kvadrat . . . . . . . . . . . 21
2.5 Pavyzdys: struktūrinio pokyčio regresinis modelis . . . . . . . . . . . . . . 24

1
1 Įvadas
Nagrinėjamas ryšys tarp kintamųjų y ir x (pastarasis gali būti daugiamatis) su tikslu
atrasti taisyklę, kaip žinant x-ų reikšmes kiek galima tiksliau nuspėti y-o reikšmę. Tą
taisyklę pavadinę f siekiame ją parinkti taip, kad y = y(x) ≈ f (x) su visais x. Norė-
dami atsikratyti matematiniam tikslumui nepriderančios apytikslės lygybės ≈ savo mintį
perrašome tokiu būdu:

y = f (x) + ε

aiškinamasis kintamasis = jo prognozė per x + paklaida


| {z } | {z }
(1)
atsakas = trendas, signalas + triukšmas
| {z }
| {z }

sisteminė dalis atsitiktinė dalis.

Sisteminė dalis (komponentė) aprašo y-o "tipinę", prie "sąlygų" x prognozuojamą (expected
– tikėtiną, vidutinę) reikšmę.
Trendu priimta vadinti esminio kitimo – paprastai jis būna laipsniškas, lėtas, glodus
– tendenciją. Šiuo atveju laikoma, kad tas kitimas yra sąlygotas x-o kitimo. Frazė "es-
minio kitimo" reiškia, kad trende ignoruojami chaotiški, nereguliarūs svyravimai ir laikini
nukrypimai nuo "bendros tendencijos", kuri tarsi "suvidurkina" visus tuos nereguliarius
svyravimus. Tokiu būdu trendas yra tarsi vidurkio analogas.
Visi minėti nereguliarūs svyravimai yra sudėti į atsitiktinę dalį (komponentę). Ji ap-
rašo nežinomų ir nekontroliuojamų veiksnių įnešamą y-o sklaidą. Ši komponentė nenuspė-
jama, neprognozuojama. Ją siekiama minimizuoti, kad prognozuojant y-o reikšmę pagal
taisyklę f (x), atsitiktinę komponentę pagrįstai būtų galima pakeisti nuliu.
Šis kursas skirtas supažindinti su

• modeliais ir metodais, naudojamais dominančių rodiklių prognozavimui įvairiose


mokslo ir veiklos srityse,

• prognozavimo taisyklių parinkimo remiantis turimais duomenimis metodika, tų tai-


syklių savybėmis,

• surinktų duomenų regresinės analizės rezultatų interpretacija.

2
2 Mažiausiųjų Kvadratų metodas
Laikoma, kad nagrinėjamus duomenis D sudaro kintamųjų poros (x, y) stebiniai. Čia x
yra k-matis vektorius, t.y., x := (x1 , . . . , xk )⊤ ∈ Rk , (visi vektoriai laikomi vektoriais-
stulpeliais, (·)⊤ žymi vektoriaus ar matricos transponavimo operaciją), o y yra skaliaras,
y ∈ R. Taigi, duomenys
D = DN (x, y) := {(x(t), y(t)), t = 1, . . . , N }; (2)
čia N yra stebinių duomenyse kiekis (imties dydis), t žymi stebinio numerį ir priklausomai
nuo stebimo reiškinio ir stebėjimo proceso pobūdžio gali būti interpretuojamas kaip laikas,
atvejis, tiriamų objektų, įmonių, individų ir pan. numeris (identifikatorius).
Vienas iš kintamųjų duomenyse, būtent y, pavadintas kitu vardu todėl, kad kintamieji
x ir y regresinėje analizėje vaidina skirtingus vaidmenis. Antrasis kintamasis y, nors ir
stovi po kintamojo x, yra kaip ir "pagrindinis" tyrimo kintamasis, o kintamasis x yra "pa-
galbinis". (Kadangi x yra vektorius, tai galima sakyti ir "kintamieji x", ir " x kintamieji",
turint omenyje arskiras skaliarines vektoriaus x komponentes.)
Kintamieji x ir y vadinami įvairiai priklausomai nuo srities, kurioje taikoma regresinė
analizė, ir nusistovėjusių tradicijų:
• Kintamieji x: aiškinantieji, egzogeniniai (ekonometrijoje), nepriklausomi (pasenęs
nevartotinas terminas), impulsas (inžinerija), šokai, kovariantės, regresoriai, predik-
toriai.
• Kintamasis y: aiškinamasis, endogeninis (ekonometrijoje), priklausomas (pasenęs
nevartotinas terminas), atsakas (inžinerija).

2.1 Mažiausiųjų Kvadratų uždavinys


Duota:
• Duomenys D = DN (x, y).
• Galimų (arba leistinų) y-o prognozavimo per x taisyklių klasė F ⊂ {f : Rk → R}.
Tradiciškai jos vadinamos regresijos funkcijomis.
• Prognozavimo tikslumo kriterijus R̂(f ) = R̂ (f | DN (x, y)), kuris matuotų, kaip tiks-
liai taisyklė f ∈ F, pritaikyta duomenims DN (x, y), nuspėja stebėtas y reikšmes.
R̂(f ) matuoja suminį prognozavimo paklaidų dydį. Kuo R̂(f ) mažesnis, tuo prog-
nozvimo taisyklė f yra tikslesnė.
Mažiausiųjų Kvadratų metode tikslumo kriterijus R̂(f ) turi tokį pavidalą,
N ( )2
1 ∑
R̂(f ) := y(t) − f (x(t)) , (3)
N t=1

kuris ir paaiškina šio metodo pavadinimą. Dydis R̂(f ), apibrėžtas formule (3),
vadinamas Vidutine Kvadratine Paklaida (VKP) (angl. Mean Square Error (MSE))
arba Kvadratine Rizika.

3
Mažiausiųjų Kvadratų uždavinys (MKu):
Rasti fˆ ∈ F , fˆ = fˆ (·| F, DN ), kuri minimizuotų R̂(f ) klasėje f ∈ F .
Simboliškai tai galima užrašyti keliais beveik ekvivalenčiais būdais:

R̂(f ) −→ min, (4)


f ∈F

R̂(fˆ) = min R(f ), (5)


f ∈F

fˆ := arg min R̂(f ). (6)


f ∈F

Formulė (5) skiriasi nuo (4) tuo, kad įvardinamas uždavinio (4) sprendinys. Taigi, tuo
pačiu faktiškai padaroma prielaida, kad toks sprendinys egzistuoja.
Formulė (6) skiriasi nuo (5) tuo, kad pateikia uždavinio (4) sprendinį išreikštiniu būdu.
Jos dėka MKu formulavimui ir jo sprendinio įvardinimui nereikia žodžių.
1 Apibrėžimas. MK uždavinio sprendinys fˆ = fˆ (·| F, DN ), apibrėžtas (6), vadina-
mas Mažiausių Kvadratų Įvertiniu (MKĮ).
Nuostolių funkcija ir rizika. Statistikoje rizika vadimi vidutiniai nuostoliai. Nuo-
stolius apibrėžia nuostolių funkcija ℓ: ℓ(s; d) yra nuostoliai, kai stebimoje situacijoje s
yra priimamas sprendimas arba atliekamas veiksmas d. Natūralu tikėtis, kad nuostolių
funkcija yra neneigiama, bet bendru atveju ši prielaida nėra būtina.
Nors toliau nagrinėsime tik kvadratinę riziką, t.y. riziką su kvadratine nuostolių funk-
cija ℓ(s; d) := |s − d|2 , verta nors trumpai pasiaiškinti, ko šiuo pasirinkimu atsisakome.
Pateiksime rizikos su nuostolių funkcija ℓ apibrėžimą regresinės analizės kontekste ste-
bėtų duomenų DN (x, y) atveju.
2 Apibrėžimas. Prognozavimo taisyklės f ∈ F rizika R̂ℓ (f ) = R̂ℓ (f | DN (x, y)) duome-
nims DN (x, y) su duota nuostolių funkcija ℓ vadinsime tos taisyklės f pagrindu duomenims
DN (x, y) atliktų prognozių vidutinius nuostolius:
N ( )
1 ∑
R̂ℓ (f ) = R̂ℓ (f | DN (x, y)) := ℓ y(t); f (x(t)) . (7)
N t=1

Pavyzdžiai. Aptarsime kelis, matyt, neaiškiausio iš trijų objektų, kuriais remiasi MKm
– galimų prognozavimo taisyklių klasių F – pavyzdžius.

1. Tegu F := {f : f (x) ≡ const} = {visos funkcijos, tapatingai lygios konstatntai},


t.y., visos y-o prognozavimo vienu skaičiumi taisyklės. Tada kiekvienam a ∈ R
egzistuoja f ∈ F tokia, kad f ≡ a. Pažymėkime fa funkciją, tapatingai lygią a.
Tada sąryšis a ↔ fa nusako abipus vienareikšmę atitinkamybę tarp a ∈ R ir f ∈ F.
Taisyklės fa kvadratinė rizika

1 ∑N
R̂(fa ) = R̂(a) := (y(t) − a)2 .
N t=1

4
1 Pastaba. Apskritai yra nekorektiška riziką taisyklei fa ir R̂(a), vidutinį kvadratinį
y-ų nukrypimą nuo a, žymėti ta pačia raide, nes atvaizdavimas R̂(fa ) yra apibrėžtas
ant funkcijų aibės F, o R̂(a) – ant realių skaičių. Bet mes nebūsime tiek pedantiški
ir taupumo sumetimais atskiro naujo pažymėjimo funkcijai R̂(a) neįvedinėsime.

1 Pratimas. Raskite prognozavimo taisyklės fa ∈ F , jos parametro a ∈ R MK


įvertinius.

2 Pratimas. Raskite prognozavimo taisyklę fa ∈ F, kuri klasėje F minimizuotų


riziką su nuostolių funkcija ℓ(s; d) := |s − d|.

2. Paprastoji Tiesinė Regresija (PTR). Tegu x ∈ R (x yra skaliaras) ir F :=


{visos tiesinės atžvilgiu x funkcijos} = {f : f (x) = a + b x, a, b ∈ R}.

3 Pratimas. Raskite prognozavimo taisyklės f ∈ F, jos parametrų a, b ∈ R MK


įvertinius.

3. Polinominė Regresija (PoR). Tegu vėl x ∈ R ir

F = Pn := {visi ne aukštesnės kaip n eilės polinomai atžvilgiu x}

= {f : f (x) = c0 + c1 x + . . . + c1 xn , ci ∈ R, i = 1, . . . , n}.

Stouno-Vejerštraso teorema. Bet kokia tolydinė uždarame intervale funkcija


gali būti tolygiai tame intervale kokiu norima tikslumu aproksimuota polinomu.
Tiksliau: tegu f yra tolydi intervale [A, B]. Tada kiekvienam tikslumui δ > 0
egzistuoja natūralusis skaičius n = n(δ, f ) ir polinomas π = π(·| δ, f ) ∈ Pn tokie,
kad
max |f (x) − π(x)| ≤ δ.
A≤x≤B

Vadinasi, visas praktiškai įdomias funkcijas (t.y., tolydines funkcijas) galima aprok-
simuoti polinomais kokiu norima tikslumu. Taigi, polinomų klasė yra pakankamai
gausi ("turtinga", "skaitlinga", "didelė").

4. Daugianarė Tiesinė Regresija (DTR). Tegu dabar x := (x1 , . . . , xk )⊤ ∈ Rk (x


yra k-matis vektorius-stulpelis) ir

F := {visos tiesinės atžvilgiu x funkcijos} (8)


= {f : f (x) = β0 + β ⊤ x, β0 ∈ R, β ∈ Rk }.

Čia β = (β1 , . . . , βk )⊤ yra k-matis regresijos koeficientų (parametrų) vektorius-


stulpelis, β0 yra (regresijos funkcijos) laisvasis narys (intercept), išraiška β ⊤ x api-
brėžia skaliarinę sandaugą tarp (šiuo atveju k-mačių) vektorių β ir x:


k
β ⊤ x = x⊤ β = βi xi = β1 x1 + β2 x2 + . . . + βk xk .
i=1

5
Atrodytų, kad šiuo atveju prognozės funkcijų klasė F yra gana negausi ("skurdi",
"maža"), nes ją sudaro tik tiesinės funkcijos. Tačiau 3 pavyzdys yra atskiras DTR
atvejis. Iš tikro, užtenka paimti k = n, β0 := c0 , βi := ci , xi = xi , i = 1, . . . , n.
DTR bus pagrindinis mūsų nagrinėjamas modelis.

2.2 Mažiausiųjų kvadratų įvertinys


Šiame poskyryje ieškosime mažiausių kvadratų įvertinio tarę, kad turimiems duomenims
galioja DTR modelis. Pradžioje detaliau aprašysime patį modelį ir užrašysime jį matrici-
niu pavidalu.

2.2.1 Daugianarės tiesinės regresijos modelis


Tarkime, kad duomenims

D = DN (x, y) := {(x(t), y(t)), t = 1, . . . , N } (9)

taikytina y-o per x ∈ Rk prognozavimo taisyklė yra f . Tada remiantis anksčiau aprašyta
ideologija (1) galima užrašyti

y(t) = f (x(t)) + ε(t), t = 1, . . . , N. (10)

Čia {ε(t), t = 1, . . . , N } yra nestebimas, "mistinis" objektas – paklaidos, kurių paskir-


tis (prasmė) yra aprašyti visų (mums) nežinomų veiksnių galimą poveikį stebėtoms y-ų
reikšmėms.
Jeigu padarome dar papildomą prielaidą, kad funkcija f lygtyse (10) yra tiesinė, t.y.,
f ∈ FT ,
FT := {f : f (x) = β0 + β ⊤ x, β0 ∈ R, β ∈ Rk }, (11)
tai lygtys (10) virsta į

y(t) = β0 + β ⊤ x(t) + ε(t), t = 1, . . . , N. (12)

Jos reiškia, kad duomenys DN (x, y) tenkina Daugianarės Tiesinės Regresijos (DTR)
modelį.
Jeigu duomenims DN (x, y) galios (12) su nuliniu laisvuoju nariu, β0 = 0, tai sakysime,
kad galioja Daugianarės Tiesinės Regresijos modelis be laisvojo nario. Trumpai
– modelis DTR0.
2 Pastaba. DTR modelį paprasta suvesti į DTR0 modelį vienetu padidinus pastarojo
aiškinančiųjų kintamųjų skaičių ir juos pernumeravus.
Iš tikro, įveskime papildomą fiktyvų kintamąjį x0 , kurio reikšmės tapatingai lygios 1,
x0 (t) ≡ 1. Tada

y(t) = β0 + β ⊤ x(t) + ε(t) = β0 x0 (t) + β ⊤ x(t) + ε(t)


( )
( ) x (t)

= β0 , β 0
+ ε(t) = β̃ ⊤ x̃(t) + ε(t)
x(t)

6
( ) ( )
su β̃ ⊤ := β0 , β ⊤ ∈ Rk+1 ir x̃⊤ (t) := x0 (t), x⊤ (t) ∈ Rk+1 .
DTR0 pavidalas patogesnis matematinėms manipuliacijoms. Todėl toliau, jeigu ne-
pasakyta kitaip, DTR0 laikysime baziniu modeliu, iš kurio atitinkami teiginiai modeliui
DTR išplaukia paanaudojus aukščiau aprašytą triuką su fiktyviu kintamuoju x0 , x0 (t) ≡ 1.

Formulę (12) sudaro N lygčių. Patogiau naudotis jas užrašius per matricas ir vektorius.

2.2.2 Matricinis pavidalas


Prdžioje įvesime reikalingus vektorius ir matricas:
( )⊤
Y := y(1), y(2), . . . , y(N ) ∈ RN , (13)
( )⊤
E := ε(1), ε(2), . . . , ε(N ) ∈ RN , (14)
( )⊤
Xi := xi (1), xi (2), . . . , xi (N ) ∈ RN , i = 1, . . . , k, (15)
 
( )
x⊤ (1)
 .. 
X := X1 X2 . . . Xk =
 . .
 (16)

x (N )
Matrica X yra matavimo N × k (N eilučių ir k stulpelių) ir pagal seną tradiciją vadinama
plano matrica.
Remiantis įvestais pažymėjimais DTR0 modelio lygtis (DTR modelio lygtis (12) su
nuliniu laisvuoju nariu) galima užrašyti ekvivalenčiu matriciniu pavidalu:
Y = Xβ + E. (17)
Tegu 1N žymi N -matį vektorių, sudarytą vien tik iš vienetų,
( )⊤
1N := 1, 1, . . . , 1 ∈ RN . (18)
| {z }
N kartu

Tada DTR modelio (12) matricinis pavidalas


fβ̃ + E.
Y = β0 1N + Xβ + E = X (19)
Čia
f := (1 X) = (1 X . . . X ) ,
X (20)
N N 1 k
( )⊤
β̃ := β0 , β ⊤ = (β0 , β1 , . . . , βk )⊤ ∈ Rk+1 . (21)

2.2.3 Kvadratinė rizika


Atsako y prognozės naudojant taisyklę f (x) = fβ (x) := β ⊤ x kvadratinė rizika R̂(fβ ) =
R̂(β) (žr. 1 Pastabą)
N ( )2
1 ∑ ⊤ 1 ∑N
R̂(β) := y(t) − β x(t) = ε2 (t). (22)
N t=1 N t=1

7
Čia pasinaudojome iš modelio DTR0 apibrėžimo gaunamom lygybėm ε(t) = y(t) −
β ⊤ x(t), t = 1, . . . , N . Nesunku pastebėti, kad dešinėje lygybės (22) pusėje stovi pa-
klaidų vektoriaus E (formulė (14)) ilgio kvadratas, padalintas iš N . Vadinasi, pasinaudo-
ję skaliarinės sandaugos ir vektoriaus ilgio apibrėžimais bei iš (14) išplaukiančia lygybe
E = Y − Xβ galime pratęsti (22) tokiu būdu:
1 2 1 1
R̂(β) = |E| = E ⊤ E = (Y − Xβ)⊤ (Y − Xβ)
N N N
1 ( 2 )
= |Y | − Y ⊤ Xβ − β ⊤ X⊤ Y + β ⊤ X⊤ Xβ . (23)
N
Čia, žinoma, naudojomės matricų daugybos ir transponavimo savybėmis. Kadangi Y ⊤ Xβ
yra skaičius, tai
( )⊤
Y ⊤ Xβ = Y ⊤ Xβ = β ⊤ X⊤ Y.
Iš čia ir iš (23) išvedame, kad
1 ( 2 )
R̂(β) = |Y | − 2β ⊤ X⊤ Y + β ⊤ X⊤ Xβ . (24)
N
Matome, kad R̂(β) yra daugiamatė kvadratinė funkcija atžvilgiu β. Jeigu β būtų skaliaras,
tai R̂(β) būtų parabolė su neneigiamu koeficientu prie β 2 . Jeigu tas koeficientas būtų
teigiamas, tai parabolės šakos būtų nukreiptos į viršų, ir ji turėtų vienintelį minimumą.

2.2.4 Mažiausių kvadratų įvertinys


Pasinaudodami formule (24) spręsime kvadratinės rizikos minimizavimo uždavinį

R̂(β) −→ mink . (25)


β∈R

Kadangi R̂(β) yra daugiamatė kvadratinė funkcija atžvilgiu β, t.y., pakankamai glodi
funkcija, apibrėžta visoje erdvėje Rk , tai jos minimumą, jeigu tik egzistuoja, galima būtų
rasti pradiferencijavus R̂(β) pagal βi , i = 1, . . . , k, ir prilyginus tas dalines išvestines nuliui:

R̂(β) = 0, i = 1, . . . , k. (26)
∂βi

Kadangi funkcija R̂(β) paprasta, tai patogu pasinaudoti vektoriniu diferencijavimu. Da-
linė išvestinė (∂/∂β)R̂(β) atžvilgiu vektoriaus β yra traktuojama kaip vektorius stulpelis
su komponentėmis (∂/∂βi )R̂(β). Tuo pasinaudodami perrašome (26):

R̂(β) = 0k . (27)
∂β

Čia 0k žymi nulinį vektorių su k komponenčių, 0k = (0, . . . , 0)⊤ ∈ Rk . Nesunku įsitikinti,


kad kiekvienam k-mačiam vektoriui b ir kiekvienai eilės k × k matricai B galioja
∂ ( ⊤ ) ∂ ( ⊤ )
β b = b, β Bβ = (B + B ⊤ )β. (28)
∂β ∂β

8
Jeigu matrica B yra simetrinė, tai (B + B ⊤ ) = 2B ir kvadratinės formos (dalinė) išvestinė
įgauną pavidalą, kurio ir būtų natūralu tikėtis pagal analogiją su skaliariniu (vienmačiu)
atveju.
Pasinaudoję (28) ir matricos X⊤ X simetriškumu iš (27) išvedame vektorinę lygtį, kurią
turi tenkinti parametro β MKĮ β̂:

X⊤ Xβ = X⊤ Y. (29)

Šią (lygtį priimta


)
vadinti normaline lygtimi. Jeigu matrica X⊤(X neišsigimusi,
)−1
t.y.,
⊤ ⊤
det X X ̸= 0, tai egzistuoja šios matricos atvirkštinė matrica X X , ir norma-
linė lygtis (29), o tuo pačiu ir kvadratinių nuostolių minimizavimo uždavinys (25) turi
vienintelį sprendinį, parametro β MKĮ
( )−1
β̂ = X⊤ X X⊤ Y. (30)

4 Pratimas. Pasinaudoję MKĮ bendra formule (30) DTR0 modeliui bei 2-oje Pastaboje
aptartu sąryšiu tarp DTR modelio ir DTR0 modelio išveskite MKĮ formules PTR modelio
laisvajam nariui ir posvyriui.
5 Pratimas. Patikrinkite fomules (28).
6 Pratimas. Įsitikinkite, kad matrica X⊤ X simetrinė.

2.2.5 Ortogonalios regresijos


Tarkime, kad DTR0 modelis gali būti išskaidytas tokiu būdu:

Y = Xβ + E = X(1) β (1) + X(2) β (2) + E, (31)

čia ( )
β (1)
β= , β (i) ∈ Rki , i = 1, 2, (32)
β (2)
( )
X = X(1) X(2) , (33)
o X(i) yra eilės N × ki matricos (i = 1, 2), k = k1 + k2 , tenkinančios ortogonalumo
sąlygą
( )⊤
X(1) X(2) = 0k1 ×k2 . (34)

Čia ir toliau simboliu 0k1 ×k2 žymima eilės k1 × k2 nulinė matrica (matrica, kurios visi
elementai yra 0). Jeigu būtų k1 = k2 = 1, tai matricos X(1) ir X(2) taptų vektoriais,
ir sąlyga (34) reikštų, kad tų vektorių skaliarinė sandauga yra lygi 0, kitaip tariant,
tie vektoriai yra ortogonalūs. Bendru atveju sąlyga (34) reiškia, kad visi matricos X(1)
stulpeliai yra ortogonalūs visiems X(2) stulpeliams.

9
1 Lema. (Lema apie ortogonalias regresijas.) Tarkime, kad galioja (31)–(34) ir matrica
( )−1
X⊤ X yra neišsigimusi. Tada DTR0 modelio (31) regresijos parametro β (32) MKĮ
yra ( )
β̂ (1)
β̂ = (2)
, β̂ (i) ∈ Rki , i = 1, 2, (35)
β̂
su (( )−1 (
)⊤ )⊤
β̂ (i) = X(i) X(i) X(i) Y i = 1, 2. (36)

Patikrinimas. Pasinaudoję (33) ir ortogonalumo sąlyga (34) gauname


 ( )⊤ ( )⊤   ( )⊤ 
(1)
⊤  X X(1) X (1)
X (2)
  X
(1)
X(1) 0k1 ×k2 
X X= ( )⊤ ( )⊤ = ( )⊤ . (37)
X(2) X(1) X(2) X(2) 0k2 ×k1 X(2) X(2)

Kadangi pagal Lemos sąlygą matrica X⊤ X neišsigimusi, tai dėka (37)


(( ) ) (( ) ) ( )
(1) ⊤ (2) ⊤
det X X (1)
det X X (2)
= det X⊤ X ̸= 0.

( )⊤
Vadinasi, matricos X(i) X(i) , i = 1, 2, taip pat neišsigimusios. Remiantis (37) ir 7
Pratimu (žr. žemiau)
 (( )⊤ )−1 
(1) (1)
( )−1  X X 0k1 ×k2 
X⊤ X =
 (( )⊤ )−1 
. (38)
(2) (2)
0k2 ×k1 X X

Remdamiesi MKĮ formule (30), pažymėjimu (35) bei (38) užbaigiame patikrinimą:
( )−1
β̂ = X⊤ X X⊤ Y
 (( )⊤ )−1  
(1) (1)
( )⊤
 X X 0k1 ×k2   X(1) Y
  ( 
=  (( )⊤ )−1  )⊤  (39)
(2)
0k2 ×k1 X (2)
X (2) X Y
 (( )⊤ )−1 ( )⊤ 
(1) (1) ( )
 X X X(1) Y  β̂ 1
=  ( )−1 ( = .
 ( )⊤ )⊤ 
X (2)
X (2)
X (2)
Y β̂ 2

1 Išvada. Tarkime, kad galioja 1-os Lemos sąlygos. Tada DTR modelio (31) MKĮ
išsireiškia per atitinkamus modelių

Y = X(i) β (i) + E (i) , i = 1, 2, (40)

MK įvertinius β̂ (i) , i = 1, 2, pagal formulę (35).

10
7 Pratimas. Tegu k × k eilės matrica A yra neišsigimusi ir turi diagonalinę blokinę
struktūrą iš dviejų blokų, A1 dydžio k1 × k1 ir A2 dydžio k2 × k2 :
( )
A1 0k1 ×k2
A= . (41)
0k2 ×k1 A2

Įsitikikinkite, kad ( )
−1 A−1
1 0k1 ×k2
A = . (42)
0k2 ×k1 A−12

2.2.6 Centruoti stebiniai


Centruoti stebiniai naudojami kompiuteriniuose skaičiavimuose, nes sumažina maksima-
lias absoliutinių dydžiu stebinių reikšmes tuo pačiu sumažindami ir kompiuterių baigtinės
aritmetikos nepageidautinų efektų tikimybę.
Centruoti stebiniai pasitarnauja ir nagrinėjant DTR modelius (modelius su laisvuoju
natiu).
Atsako kintamojo y stebinius vadinsime centruotais, jeigu iš jų yra atimtas jų bendras
(empirinis) vidurkis. Taigi, y-o centruoti stebiniai yra

1 ∑N
ẏ(t) := y(t) − ȳ, t = 1, . . . , N, ȳ := y(j). (43)
N j=1

Centruotų y-o stebinių vektorius yra Ẏ := (ẏ(1), . . . , ẏ(N ))⊤ ∈ RN .


Analogiškai apibrėžiami centruoti egzogeninių kintamųjų x stebiniai, vektoriai ir plano
matrica:

Ẋi := (ẋi (1), . . . , ẋ(N ))⊤ ∈ RN , (44)


ẋ(t) := (ẋ1 (t), . . . , ẋk (t))⊤ ∈ Rk , (45)

1 ∑N
ẋi (t) := xi (t) − x̄i , t = 1, . . . , N, x̄i := xi (j), i = 1, . . . , k; (46)
N j=1
 
( )
ẋ⊤ (1)
 .. 
Ẋ := Ẋ1 . . . Ẋk =
 . .
 (47)

ẋ (N )
Centruoto vektoriaus Ẏ vektorinė išraiška

Ẏ = Y − ȳ 1N .

Vektorinės egzogeninių kintamųjų x centruotų vektorių išraiškos yra analogiškos.


Svarbu: Centruotų stebinių suma ir vidurkis yra lygūs nuliui. Pavyzdžiui,


N ∑
N ∑
N ∑
N

Ẏ 1N = ẏ(t) = ẏ(t) − ȳ = y(t) − ȳN = 0.
t=1 t=1 t=1 t=1

11
Tai galima suformuluoti ir kitaip: visi centruotų stebinių vektoriai yra ortogonalūs vek-
toriui, sudarytam iš vienetų:

N
Ẏ ⊤ 1N = ẏ(t) = 0. (48)
t=1

Nagrinėkime DTR modelį:

Y = β0 1N + Xβ + E. (49)

Pažymėkime egzogeninių kintamųjų vidurkių vektorių x̄ := (x̄1 , . . . , x̄k )⊤ . Kiekvienam


stebiniui t turime

y(t) = β0 + x⊤ (t) β + ε(t) = β0 + x̄⊤ β + ẋ⊤ (t) β + ε(t) = β̃0 + ẋ⊤ (t) β + ε(t). (50)

Čia naujasis laisvasis narys

β̃0 = β̃0 (β0 , β, x̄) := β0 + x̄⊤ β. (51)

Taigi, galime užrašyti ekvivalenčią DTR modelio (49) formą su centruota plano matrica

Y = β̃0 1N + Ẋβ + E. (52)

Naudodamiesi tuo, kad visi centruotų stebinių vektoriai yra ortogonalūs vektoriui,
sudarytam iš vienetų, gauname, kad


N

Ẋ 1N = ẋ(t) = 0k . (53)
t=1

Vadinasi, galioja 1-os Lemos sąlygos su matricomis X(1) := 1N ir X(2) := Ẋ ir k1 =


1, k2 = k. Pirmąją plano matricą atitinka DTR modelis, kuris tenkina 1-ojo Pratimo
sąlygas. Todėl šiuo atveju MKĮ yra (empirinis) vidurkis:

β̃ˆ0 = β̂ (1) = ȳ. (54)

Antrąją – centruotąją – plano matricą, atitinka DTR0 modelis

Y = Ẋβ + Ẽ. (55)

(Paklaidos ε yra "mistinis objektas", jų vektorių šiuo atveju žymime kaip norime, bet
apskritai jis skiriasi nuo paklaidų vektoriaus modelyje (52).) Todėl pagal 1 Lemą
( )−1 ( )−1
β̂ = β̂ (2) := Ẋ⊤ Ẋ Ẋ⊤ Y = Ẋ⊤ Ẋ Ẋ⊤ Ẏ . (56)

Paskutinei lygybei gauti čia pasinaudojome 8 Pratimu (žr. žemiau). Iš jos matosi, kad
DTR modelio (52) parametro β MKĮ β̂ yra parametro β MKĮ ir DTR0 modelyje su
centruotais kintamaisiais x ir y:
Ẏ = Ẋβ + Ė. (57)

12
Apibendrinant 1-os Lemos taikymo rezultatus (54) ir (56) darome išvadą, kad para-
metrų β̃0 ir β MK įvertiniai yra atitinkamai ȳ ir β̂ (2) . Įstatę šias reikšmes į β̃0 išraišką
(51) gauname lygtį parametro β0 MK įvertiniui β̂0 :

ȳ = β̂0 + x̄⊤ β̂ (2) .

2 Išvada. DTR modelio (49) (modelio su laisvuoju nariu) parametrų β0 ir β MK įvertiniai


yra atitinkamai

β̂0 = ȳ − x̄⊤ β̂, (58)


( )−1
β̂ = Ẋ⊤ Ẋ Ẋ⊤ Ẏ . (59)

8 Pratimas. Įsitikinkite, kad Ẋi⊤ Y = Ẋi⊤ Ẏ su visais i.


9 Pratimas. Įsitikinkite, kad matricos Ẋ⊤ Ẋ elementas (i, j)
( )
Ẋ⊤ Ẋ = N cov(xi , xj ).
i,j

Čia cov(xi , xj ) yra (empirinė) covariacija tarp kintamųjų xi ir xj (stebinių):

1 ∑N
cov(xi , xj ) := (xi (t) − x̄i )(xj (t) − x̄j ) (60)
N t=1
1 ∑N
= xi (t) xj (t) − x̄i x̄j =: xi xj − x̄i x̄j .
N t=1

Remdamiesi 9-o Pratimo įžvalgomis apibrėšime (empirinę) kovariacijų matricą.


Eilės k × k matrica
1 ⊤
cov(x, x) := Ẋ Ẋ (61)
N
vadinama (vektorinių) kintamųjų x (tarpusavio empirinė) kovariacijų matrica. Ji yra
simetrinė ir jos diagonalėje stovi atitinkamų komponenčių dispersijos.
Atitinkamai k-matis vektorius
1 ⊤
cov(x, y) := Ẋ Ẏ (62)
N
yra vektorinio kintamojo x ir skaliarinio kintamojo y (empirinių) kovariacijų vektorius.

3 Išvada. DTR modelio (49) (modelio su laisvuoju nariu) parametrų β0 ir β MK įvertiniai


yra atitinkamai

β̂0 = ȳ − x̄⊤ β̂, (63)


−1
β̂ = cov(x, x) cov(x, y). (64)

13
Taigi, DTR modelio MK įverčiams iš duomenų DN (x, y), kuriuos sudaro (k + 1)N skaičių,
apskaičiuoti faktiškai užtenka žinoti x̄, ȳ, cov(x, x), cov(x, y), t.y., tik m = k + 1 + k(k +
1)/2 + k skaičiukų. Kai k = 4, N = 1000 (pavyzdžiui), tai (k + 1)N = 5000, o m = 19.
Jeigu reiktų nuspėti naują y reikšmę y ◦ , kai žinoma, jog x = x◦ , o DTR modelio para-
metrai β0 ir β yra nežinomi, bet turime poros (x, y) stebinių duomenis DN (x, y), tiesinei
prognozavimo funkcijai f ∈ FT (formulė (11)) pritaikytume pakeitimo taisyklę (plug-in
rule) – jos nežinomomus parametrus keistume jų MK įvertiniais. Taigi, remdamiesi (50),
(54) ir 3-ia Išvada y ◦ prognozuotume taip:

ŷ ◦ = β̂0 + β̂ ⊤ x◦ = β̃ˆ0 + β̂ ⊤ (x◦ − x̄) = ȳ + cov(y, x) cov(x, x)−1 (x◦ − x̄). (65)

• Prognozavimo funkcijos ją taikant nežinomomų parametrų pakeitimo jų MK įverti-


niais taisyklė yra labai natūrali. Bet ar tai geriausia, ką galima padaryti?

2.3 Mažiausiųjų kvadratų metodo geometrinė interpretacija


Tegu β̂ yra DTR0 modelio parametro MKĮ naudojant duomenis DN (x, y). Tada pritaikę
analogišką metodologiją (65) kaip prognozuojant y ◦ , stebėtą y reikšmę y(t) (t = 1, . . . , N )
prognozuotume taip:
ŷ(t) = β̂ ⊤ x(t), t = 1, . . . , N. (66)
Matriciniu pavidalu
Ŷ = Xβ̂. (67)
Vektorių Ŷ toliau vadinsime y stebinių vektoriaus Y (tiesine) prognoze. Ekonometrijoje
Ŷ vadinamas stebinių vektoriaus Y MK aproksimacija, nes prognoze priimta vadinti tik
ateities reikšmių nuspėjimą.
Skirtumas
Ê = Y − Ŷ = Y − Xβ̂ (68)
vadinamas liekanų vektoriumi (angl. liekanos yra residuals).
Iš normalinės lygties (29), kurią turi tenkinti MKĮ β̂, išplaukia, kad 0k = X⊤ (Y −
Xβ̂) = X⊤ Ê. Vadinasi, liekanų vektorius Ê yra statmenas visisems plano matricos X
stulpeliams:
Xi⊤ Ê = 0, i = 1, . . . , k. (69)
Tegu
L = LX := span{X1 , . . . , Xk } = {Z ∈ Rk : Z = Xβ, β ∈ Rk } (70)
žymi N -mačių vektorių-stulpelių X1 , . . . , Xk generuotą tiesinį poerdvį.
Akivaizdu, kad prognozės vektorius Ŷ priklauso tiesiniam poerdviui LX . Iš kitos pusės,
liekanų vektorius Ê priklauso tiesiniam poerdviui L⊥ X , sudarytam iš visų N -mačių vektorių,
ortogonalių tiesiniam poerdviui LX . Poerdvis L⊥ X vadinamas poerdvio LX ortoganaliuoju
papildiniu. Tai, kad Ê ⊥ LX (Ê yra statmenas poerdviui LX ) išplaukia iš to, kad Ê,
remiantis (69), yra statmenas visiems poerdvį LX generuojantiems vektoriams X1 , . . . , Xk .

14
Taigi, prisiminus (68), turime vektoriaus Y išskaidymą į ortogonalias komponentes:

Y = Ŷ + Ê, Ŷ ∈ LX , Ê ∈ L⊥
X. (71)

Vadinasi, Ŷ yra Y -o ortogonalioji projekcija į tiesinį poerdvį LX . Tai reiškia, kad Ŷ yra
vektoriui Y artimiausio vektoriaus Z iš tiesinio poerdvio LX paieškos sprendinys:

Ŷ = arg min |Y − Z|2 . (72)


Z∈LX

Savo ruožtu Ê yra Y -o ortogonalioji projekcija į tiesinį poerdvį L⊥


X . Pažymėkime ΠX
ortogonalųjį projektorių (ortogonalaus projektavimo operatorių) į LX . Tada

Ŷ = ΠX Y = Xβ̂. (73)

Pritaikę ortogonaliajam išdėstymui (71) Pitagoro teoremą išvedame, kad

|Y |2 = |Ŷ |2 + |Ê|2 . (74)

Šioje lygybėje vektorių ilgių kvadratai yra ne kas kita kaip kvadratų suma. Todėl ji vadi-
nama kvadratų sumos išskaidymu arba kvadratų sumų atskyrimu (partition) ir ją įprasta
užrašyti taip:
TSS = ESS + RSS. (75)
Čia TSS (Total Sum of Squares) yra pilnoji kvadratų suma,


N
TSS := |Y |2 = y 2 (t). (76)
t=1

Narys ESS (Explained Sum of Squares) yra paaiškintoji kvadratų suma (kvadratų suma,
paaiškinta parinkto DTR0 modelio),
2 ∑
N
ESS := Ŷ = ŷ 2 (t). (77)
t=1

Narys RSS (Residual Sum of Squares) yra liekanų kvadratų suma,


2 ∑
N

RSS := Ê = ε̂2 (t). (78)
t=1

Naudojami ir kiti akronimai (kitos santrumpos): Vietoje ESS kartais sutinkama MSS
arba SSM (Model Sum of Squares), FSS (Fitted Sum of Squares) RegSS (Regression Sum
of Squares); vietoje RSS kartais rašoma SSR, SSE (Error Sum of Squares, Sum of Squared
estimate of Errors, Sum of Squares for Error, Sum of the Squared Errors, Sum of Squares
of Errors).
Detaliau apie kvadratų sumų išskaidymo (atskyrimo) interpretaciją – kitame skyrelyje.

15
Kadangi duomenys yra informacija, ir ekonometrinę (statistinę) analizę galima in-
terpretuoti kaip patikimos informacijos išgavimą iš duomenų, tai prasminga aptarti ir
informacinę MK metodo interpretciją.
MKm ir informacija. Į kintamųjų x stebinių vektorius X1 , . . . , Xk galima žiūrėti
kaip į elementarius tikrovės faktus. Remiantis tais faktais galima atlikti paprastas lėkštojo
(plain, plane) mąstymo operacijas

X1 , . . . , Xk → Z := α1 X1 + . . . + αk Xk , α := (α1 , . . . , αk )⊤ ∈ Rk ,

tokiu būdu gaunant naujas žinias Z ∈ LX . LX yra visa informacija, kurią galima išgauti iš
elementarių tikrovės faktų X1 , . . . , Xk pasitelkiant lėkštąjį mąstymą – visų išgautų "žinių
bazė".

1. Jeigu naujas faktas Y ∈ LX , tai faktiškai jis nėra naujas, nes visa informacija apie
jį jau yra "žinių bazėje". Jis dubliuoja iš X1 , . . . , Xk jau išgautą informaciją.

2. Jeigu vektorius Y yra tiesiškai nepriklausomas su X1 , . . . , Xk , tai jis naudojant tik


lėkštą mąstymą negali būti "išmąstytas" iš X1 , . . . , Xk ir, vadinasi, nepriklauso LX .
Taigi, Y turi savyje ir originalios informacijos.

3. Jeigu vektoriai Y ir Z yra vienas kitam ortogonalūs, Y ⊥ Z, tai jie neturi bendros
informacijos: nei Y nieko nepasako apie Z (lėkštojo mąstymo prasme), nei Z apie
Y.
Bendriau: jeigu vektorius Y yra ortogonalus LX , Y ⊥ LX , tai "žinių bazėje" (jokios)
informacijos apie Y nėra. Jis turi savyje visiškai originalią informaciją ir todėl per
X1 , . . . , Xk yra visiškai nenuspėjamas.

4. Tegu Z1 , . . . , Zm yra kiti, skirtingi nuo X1 , . . . , Xk , elementarūs faktai, ir nauja


"žinių bazė" LZ := span{Z1 , . . . , Zm } yra dalis "žinių bazės" LX , LZ ⊂ LX . Tai
reiškia, kad kiekvienas iš faktų Zi dubliuoja iš X1 , . . . , Xk jau išgautą informaciją ir
todėl yra pilnai per juos nuspėjamas (i = 1, . . . , m).
Aišku, kad gali būti skirtingi faktų rinkiniai Z1 , . . . , Zm ir X1 , . . . , Xk , kurie sukuria
(generuoja) tą pačią "žinių bazę".

Pavyzdys. (Egzogeninių kintamųjų transformacija ir MKĮ). Tarkime, kad turime duo-


menis DN (x, y), kuriems pritaikius DTR0 modelį yra apskaičiuotas to modelio nežinomų
parametrų β (regresijos koeficientų) MKĮ β̂. Taigi, daroma prielaida, kad matrica X⊤ X
yra neišsigimusi. Tada Y prognozė per X1 , . . . , Xk (arba trumpiau: prognozė per X) yra
(žr. (73))
ŶX := Xβ̂ = ΠX Y. (79)
Tegu z ∈ Rk yra nauji aiškinantieji kintamieji, tiesiškai susieti su pradiniais kintamaisiais:

z(t) = Ax(t), t = 1, . . . , N. (80)

16
Čia A yra eilės k × k neišsigimusi matrica. Iš kintamojo z stebinių sudarytą plano matricą
pažymime Z ir duomenims DN (z, y) pritaikome DTR0 modelį (su endogeniniu kintamuoju
y ir egzogeniniais kintamaisiais z):

Y = Zα + U. (81)

Klausimas: Ką galite pasakyti apie modelio (81) nežinomo parametro α ∈ Rk MKĮ α̂?
Sprendimas. Klausimas suformuluotas gana abstrakčiai, tad visų pirma reikia sugalvoti,
ką šiuo atveju konkrečiai galima būtų ir derėtų pasakyti apie MKĮ α̂.
Egzistavimas ir vienatis. MKĮ α̂ egzistuoja ir yra vienintelis, jeigu matrica Z⊤ Z
yra neišsigimusi. Iš (80) išplaukia, kad

Z = X A⊤ . (P atikrinkite!) (82)

Todėl ( ) ( ) ( )
det Z⊤ Z = det AX⊤ XA⊤ = det(A)2 det X⊤ X ̸= 0, (83)
nes pagal prielaidą ir A, ir X⊤ X yra neišsigimusios.
Vadinasi, MKĮ α̂ egzistuoja ir yra vienintelis.
Ryšys tarp MKĮ α̂ ir MKĮ β̂. Lygybė (82) su neišsigimusia matrica A reiškia, kad
LZ = LX . (Kodėl?) Vadinasi, sutampa ir ortogonalieji projektoriai ΠX ir ΠZ , nes abu
projektuoja į tą patį tiesinį poerdvį. Todėl atsižvelgiant į (79) ir (82)

ŶX = Xβ̂ = ΠX Y = ΠZ Y = Zα̂ = X A⊤ α̂. (84)


( )−1
Padauginę iš matricos X⊤ X X⊤ abi lygybės Xβ̂ = X A⊤ α̂, gautos iš (84), puses
matome, kad
β̂ = A⊤ α̂, α̂ = A−⊤ β̂. (85)
( )−1
(Matricą A⊤ įprasta žymėti A−⊤ .)

2.4 Dispersijos išskaidymas ir R-kvadrat


Nagrinėkime DTR modelį (49). Jau išsiaiškinome, kad parametro β MKĮ β̂ šiame DTR
modelyje yra taip pat ir parametro β MKĮ DTR0 modelyje su centruotais kintamaisiais
(žr. (57)):
Ẏ = Ẋβ + Ė. (86)
Šį modelį trumpai vadinsime centruotu DTR0 modeliu. Kadangi jame tiek y-o, tiek ir x-o
stebinių vektoriai yra centruoti, tai būtinai yra centruotas ir modelio paklaidų vektorius.
Taigi, šiuo atveju paklaidų vektoriaus pažymėjimas Ė dera su šiame kurse naudojamu
centruotų vektorių žymėjimu. Kaip jau žinome, vektorius centruotas tada ir tik tada, kai
jis ortogonalus vektoriui, sudarytam vien tik iš vienetukų:

Ẏ ⊥ 1N , Ė ⊥ 1N . (87)

17
Centruoto DTR0 modelio (67) tyrimui galima panaudoti DTR0 modeliui jau išvestas
formules (67)–(71) ir (74) tik necentruotus vektorius ir matricas reikia pakeisti atitinka-
mais centruotais vektoriais ir atitinkammomis centruotomis matricomis.
Turime
ḃ ḃ ḃ
Y = Ẋβ̂ ⊥ 1N , E := Ẏ − Y , (88)
ḃ ḃ ḃ ḃ
Ẏ = Y + E, Y ∈ LẊ , E ∈ L⊥
Ẋ , (89)
ir
ḃ ḃ
|Ẏ |2 = |Y |2 + |E|2 . (90)
Čia
L = LẊ := span{Ẋ1 , . . . , Ẋk } = {Ẋβ, β ∈ Rk } (91)
Padalinę abi lygybės (90) puses iš N gauname dispersijų išskaidymo arba dispersijų
atskyrimo (variance partition) formulę

σy2 = σŷ2 + σε̂2 . (92)

Kairėje šios lygybės pusėje stovi y-o (empirinė) dispersija:

1 ∑N
1 ∑N
σy2 := 2
ẏ(t) = (y(t) − ȳ)2 = y 2 − (ȳ)2 . (93)
N t=1 N t=1

Pirmasis narys dešinėje lygybės (92) pusėje yra y-o prognozės ŷ (empirinė) dispersija.
Iš tikro, pasinaudoję pakeitimo taisykle ir pirmąja lygybe formulėje (88) analogiškai kaip
konstruojant prognozę (65) išvedame

ŷ(t) = ȳ + β̂ ⊤ x(t) ḃ
˙ = ȳ + y(t) (94)

arba

y(t) = ŷ(t) − ȳ, t = 1, . . . , N. (95)
Prisiminę, kad centruotų dydžių (vektorių) vidurkiai yra lygūs 0 (žr. pirmąją išraišką
formulėje (88)), gauname, kad prognozės ŷ (vektoriaus Ŷ ) vidurkis sutampa su ȳ, y-o
stebinių vidurkiu. Vadinasi, dėka (95)
N ( )2
1 ∑N
1 ∑ ḃ 1 ḃ
σŷ2 := (ŷ(t) − ȳ) =
2
y(t) = |Y |2 . (96)
N t=1 N t=1 N

Paskutinis narys lygybėje (92) yra liekanų ε̂ (empirinė) dispersija. Remiantis antrąja
lygybe formulėje (88) bei (95)
( )
ḃ ḃ
E = Ẏ − Y = (Y − ȳ 1N ) − Ŷ − ȳ 1N = Y − Ŷ = Ê. (97)

Įsitikinome, kad DTR modelyje liekanų vektorius Ê sutampa su centruotų liekanų vekto-

riumi E ir vadinasi, turi nulinį vidurkį. Taigi,

1 ∑N
1 1 ḃ
σε̂2 := (ε̂(t))2 = |Ê|2 = |E|2 . (98)
N t=1 N N

18
4 Išvada. Duomenims DN (x, y) pritaikius DTR modelį ir jo nežinomus parametrus įverti-
nus MK metodu endogeninio kintamojo y sklaida, jo kintamumas, matuojamas dispersija
σy2 , išsiskaido, kaip rodo formulės (92), (96) ir (98), į dvi dedamąsias:

• tą y sklaidos, jo kintamumo dalį, kurią pavyko paaiškinti egzogeninių kintamųjų


x kitimu parinktame DTR modelyje; ta paaiškinta sklaida yra matuojama MK
prognozės ŷ dispersija σŷ2 ;

• tą y sklaidos, jo kintamumo dalį, kurios parinktas DTR modelis nepaaiškina; ta


nepaaiškinta sklaida yra matuojama parinkto DTR modelio liekanų ε̂ dispersija σε̂2 .

Dispersijų išskaidymo formulę (92), žinoma, galima užrašyti ir per kvadratų sumas,
t.y., kaip centruotų y-o stebėtų reikšmių kvadratų sumos TSS išskaidymo į dedamąsias
ESS ir RSS formulę (cf.(75)), bet dispersijos turi daug aiškesnę interpretaciją negu kvad-
ratų sumos.

2.4.1 Determinacijos koeficientas (R-kvadrat)


Apibrėžimas. (R-kvadrat, angl. R-squared) Determinacijos koeficientu arba R-kvadratu
(žym. R2 ) vadinamas santykis tarp parinktu DTR modeliu paaiškintos dispersijos σŷ2 ir
visos y-o dispersijos σy2 :
σ2 ESS
R2 := ŷ2 = ∈ [0, 1]. (99)
σy T SS

Tai, kad R2 galimos reikšmės priklauso intervalui [0, 1], išplaukia iš to, kad R2 yra
neneigiamų dydžių santykis ir vardiklis yra nemažesnis už skaitiklį. Kuo R2 didesnis,
tuo geriau, nes tuo didesnę dalį y-o sklaidos DTR modelis, įvertintas naudojant MK
metodą, paaiškina kintamųjų x kitimu, ir tuo mažiau lieka DTR modeliu nepaaiškintos
y-o sklaidos.
Idealiu atveju

R2 = 1 ⇔ σŷ2 = σy2 ⇔ σε̂2 = 0


⇔ Ê = 0N ⇔ Y = Ŷ = β̂0 1N + Xβ̂
⇔ y(t) = β̂0 + β̂ ⊤ x(t) = ȳ + β̂ ⊤ ẋ(t), ∀ t = 1, . . . , N, (100)
⇔ Ẏ ∈ LẊ .

Blogiausiu atveju

R2 = 0 ⇔ σŷ2 = 0 ⇔ Ŷ = ȳ 1N ⇔ β̂ = 0k
⇔ Ê := Y − Ŷ = Ẏ ⇔ σε̂2 = σy2 (101)
⇔ Ẏ ⊥ LẊ ⇔ Ẏ ⊥ Ẋi ∀i = 1, . . . , k, ⇔ Ẏ ∈ L⊥
Ẋ .

19
R-kvadrato kiekybinė-kokybinė interpretacija. Greičiau tai tik bandymas de-
terminacijos koeficiento kiekybinėms reikšmėms suteikti "kokybinę" interpretaciją. Kar-
tais galima sutikti maždaug tokio tipo komentarus: "kadangi R-kvadratas yra mažas, tai
sudarytas DTR modelis yra blogas" (sakykim, buvo R2 < 0.25). Arba priešingai: "Suda-
rytas DTR modelis yra geras, nes R-kvadratas yra pakankamai didelis" (sakykim, buvo
R2 > 0.9),
R-kvadrato skaitinių reikšmių kaip sudaryto DTR modelio kokybės mato interpretacija
yra gana sąlyginė. Visai natūralu, kad fizikų gerai organizuoto eksperimento duomenims
R2 > 0.99. Visuomenės moksluose ir R2 ≈ 0.25 galima laikyti dideliu pasiekimu.
3 Pastaba. Determinacijos koeficientas R2 negali būti vieninteliu sudaryto DTR modelio
kokybės kriterijumi. Pavyzdžiui, jeigu taikome PTR modelį, bet turime tik du stebinius
(N = 2) ir x(1) ̸= x(2), tai R2 = 1, nes šiuo atveju visada galima nubrėžti tiesę, einančią
per turimus du taškus (x(1), y(1) ir (x(2), y(2). Bet reiktų drąsos, kad tokiu būdu sudaryto
modelio pagrindu gautomis prognozėmis grįsti savo ateities (ekonominę) veiklą.
R-kvadrat ir koreliacijos koeficientas. Nagrinėkime PTR modelį, t.y. DTR mo-
delį su vienmačiu egzogeniniu kintamuoju x ∈ R (k = 1):

y(t) = a + b x(t) + ε(t), t = 1, . . . , N. (102)

Tada prisiminę 3-io Pratimo sprendimo rezultatus (arba pritaikę DTR MK įvertinių for-
mules (63) ir (64) atvejui k = 1) galime užrašyti PTR modelio parametrų a ir b MK
įvertinius

â = ȳ − b̂x̄, (103)
cov(x, y)
b̂ = . (104)
σx2

Pagal paaiškintos dispersijos apibrėžimą ir savybes (žr. (96)) atsižvelgę į (103) ir (104)
išvedame:
N ( )2
1 ∑N
1 ∑ cov(x, y)2
σŷ2 = (ŷ(t) − ȳ) =
2 2 2
b̂ ẋ(t) = b̂ σx = .
N t=1 N t=1 σx2

Vadinasi, PTR modeliui


σŷ2 cov(x, y)2
R2 = = = corr(x, y)2 . (105)
σy2 σx2 σy2

Paskutinę lygybę užrašėme prisiminę koreliacijos koeficiento apibrėžimą.


5 Išvada. PTR modeliui R-kvadrat sutampa su koreliacijos tarp x ir y koeficiento kvad-
ratu: R2 = corr(x, y)2 . Taigi, šiuo atveju, kad suskaičiuoti R2 , nebūtina pradžioje suskai-
čiuoti parametrų įverčius, tada prognozes ir galų gale – reikalingas dispersijas. Galima
tiesiog suskaičiuoti koreliacijos koeficientą ir pakelti jį kvadratu.
Šis sąryšis tarp koreliacijos koeficiento ir R2 suteikia jiems abiems papildomą interpre-
taciją (prasmę).

20
• O koks ryšys tarp R2 ir koreliacijos koeficientų daugiamačio egzogeninio kintamojo
x atveju?

• Arba kitaip: kaip apibrėžti koreliaciją tarp y ir x, kai pastarasis yra k-matis vekto-
rius (k > 1)?

2.4.2 Daugialypis koreliacijos koeficientas ir R-kvadrat


Tegu turime duomenis DN (x, y) su x ∈ Rk , k > 1. Tegu α ∈ Rk yra fiksuotas vektorius.
Pažymėkime:
xα (t) := α⊤ x(t), t = 1, . . . , N.

Apibrėžimas. (Daugialypis koreliacijos koeficientas, angl. multiple correlation coef-


ficient, multiple – daugialypis, daugianaris). Daugialypiu koreliacijos koeficientu tarp
vektoriaus x ∈ Rk ir skaliarinio kintamojo y stebinių vadinsime dydį

corrk (x, y) := maxk corr(xα , y). = max corr(xα , y). (106)


α∈R |α|=1, α∈Rk

Pirmiausia pastebėsime, kad corrk (x, y) ≥ 0. Iš tikro, jeigu su kažkuriuo α ∈ Rk


koreliacijos koeficientas corr(xα , y) < 0, tai pakeitę α į −α gautume priešingą nelygybę.
Taigi, corrk (x, y) ∈ [0, 1].
Todėl ieškodami maksimalios pagal α koreliacijos koeficiento corr(xα , y) reikšmės gali-
ma apsiriboti tik nenuliniais vektoriais α. Kai α ̸= 0k , jo ilgis |α| > 0. Kadangi koreliacijos
koeficiento reikšmė nepriklauso nuo mastelio (juk koreliacijos koeficientas yra tiesinio ry-
šio tarp kintamųjų glaudumo matas, o tiesinio ryšio glaudumas neturi priklausyti nuo
mastelio), tai
corr(xα , y) = corr(xα∗ , y). (107)
Čia
α xα (t) α
xα∗ (t) := x(t)⊤ α∗ = x(t)⊤ = , α∗ := . (108)
|α| |α| |α|
Kadangi |α∗ | = 1, tai (107) ir (108) paaiškina paskutiniąją lygybę formulėje (106).

• O koks ryšys tarp corr1 (x, y), daugialypio koreliacijos koeficiento, kai k = 1, ir
corr(x, y)?

10 Pratimas. Nesunku atspėti ir patikrinti, kad corr1 (x, y) = |corr(x, y)|.


Teiginys. Daugialypis koreliacijos koeficientas

corrk (x, y) = corr(ŷ, y) = max corr(f (x), y).


f ∈FT

Be to,
R2 = corr2k (x, y). (109)

21
Įrodymas. Kadangi, remiantis xα apibrėžimu, ŷ(t) − β̂0 = β̂ ⊤ x(t) = xβ̂ (t) (t = 1, . . . , N )
ir koreliacijos koeficientas nepriklauso nuo koordinačių pradžios, tai

corr(ŷ, y) = corr(xβ̂ , y) ≤ corrk (x, y). (110)

Fiksuokime α ∈ Rk ir bandykime prognozuoti kintamąjį xα per ŷ naudojant PTR


(paprastosios regresijos su laisvuoju nariu) modelį. Kitaip tariant, išskaidykime vektorių

Xα := (xα (1), . . . , xα (N ))⊤ ∈ RN (111)

į ortogonolias komponentes:
( )
Xα = â 1N + b̂ Ŷ + U, Ŷ ⊤ U = 0, ū = 0. (112)

Šis išskaidymas faktiškai yra išskaidymo (89) į DTR modelio pagrindu gautą prognozės
(MK aproksimacijos) vektorių ir jam ortogonalų liekanų vektorių (šiuo atveju jis pažy-
mėtas U ) atskiras atvejis. Išskaidymas (112) gaunamas duomenims DN (ŷ, xα ) pritaikius
PTR modelį su atsako kintamuoju xα ir aiškinančiuoju kintamuoju ŷ. Koeficientai â ir b̂
prie atitinkamų vektorių išskaidyme (112) yra minėto PTR modelio parametrų MK įver-
tiniai. Iš kovariacijos savybių ir formulėje (112) pateiktų ortogonalumo lygčių išplaukia,
kad
1 ∑N
1
cov(u, ŷ) = u(t) ŷ(t) − ū ŷ = U ⊤ Ŷ + 0 = 0. (113)
N t=1 N
Analogiškai naudojantis kintamojo xα vektoriaus ortogonalumu liekanų ε̂ vektoriui išve-
dame, kad

cov(xα , y) = cov(xα , ŷ) + cov(xα , ε̂) (114)


1 ∑N
= cov(xα , ŷ) + xα (t) ε̂(t) − x̄α ε̂ = cov(xα , ŷ).
N t=1

Pasinaudodami išskaidymu (112) bei pastebėjimais (113) ir (114) suskaičiuosime ko-


reliaciją corr(xα , y).
Kovariacija nepriklauso nuo koordinačių pradžios, yra adityvi pagal kiekvieną iš argu-
mentų ir simetriška jų atžvilgiu. Todėl dėka (112), (114) ir (113)

cov(xα , y) = cov(xα , ŷ) = b̂ cov(ŷ, ŷ) + cov(u, ŷ) = b̂ σŷ2 . (115)

Analogiškai, remiantis dispersijų sumos teorema (u ir ŷ nekoreliuoti!)

σx2α := var(xα ) = b̂2 var(ŷ) + var(u) = b̂2 σŷ2 + σu2 . (116)

Sustatome formules (115) ir (116) į koreliacijos koeficiento formulę

cov(xα , y) b̂ σŷ2
corr(xα , y) = = √( ) . (117)
σxα σy
b̂2 σŷ2 + σu2 σy2

22
Jeigu b̂ ≤ 0, tai corr(xα , y) ≤ 0. Kai b̂ > 0, tai santykis formulės (117) dešinėje pusėje
neviršija neneigiamo dydžio σŷ /σy : vardiklį tik sumažiname dispersiją σu2 pakeitę 0.
Taigi, visais atvejais, tiek teigiamiems b̂, tiek ir b̂ ≤ 0, galioja nelygybė
σŷ
corr(xα , y) ≤ . (118)
σy

Nesunku patikrinti, kad


σŷ
= corr(ŷ, y). (119)
σy
Prisiminę apie vektorių Ŷ ir 1N ortogonalumą liekanų vektoriui Ê veikiame analogiškai
kaip skaičiuojant (62):

cov(ŷ, y) = cov(ŷ, ŷ) + cov(ŷ, ε̂) = σŷ2 . (120)

Belieka gautą kovariacijos išraišką (120) įstatyti į koreliacijos koeficiento formulę ir su-
prastinti vienodus narius. Lygybę (119) patikrinome.
Kadangi α ∈ Rk pasirinkome laisvai, tai (118) kartu su (119) patvirtina, kad
σŷ
corrk (x, y) = maxk corr(xα , y) ≤ = corr(ŷ, y).
α∈R σy

Priešinga pastarajai nelygybė (106) įrodo, kad faktiškai galioja lygybė


σŷ
corrk (x, y) = corr(ŷ, y) = . (121)
σy

Pakėlę šios lygybės kairę ir dešinę pusę kvadratu gauname (109). Įrodymas baigtas.

Naudingos formulės. Pasinaudoję (120) bei prognozės ŷ formule (94) išvedame, kad
1 ⊤ ḃ 1
σŷ2 = cov(y, ŷ) = Ẏ Y = Ẏ ⊤ Ẋβ̂ = cov(y, x) β̂
N N
−1
= cov(y, x) (cov(x, x)) cov(x, y). (122)

Iš čia gauname tokias skaičiavimui patogias R-kvadrat ir σε̂2 formules:

cov(y, x) β̂
R2 = , (123)
σy2

σε̂2 = σy2 − σŷ2 = σy2 − cov(y, x) β̂ = σy2 − cov(y, x) (cov(x, x))−1 cov(x, y). (124)
Verta atkreipti dėmesį į tai, kad dispersija σε̂2 ≥ 0, vadinasi, cov(y, x) β̂ turėtų neviršyti
σy2 .
6 Išvada. Prognozės dispersijai σŷ2 , liekanų dispersijai σε̂2 ir R-kvadratui R2 suskaičiuo-
ti užtenka žinoti y-o dispersiją σy2 , kovariacijų vektorių cov(x, y) ir kovariacijų matricą
cov(x, x).

23
2.5 Pavyzdys: struktūrinio pokyčio regresinis modelis
Šiame skyrelyje aptariamas vienas iš struktūrinio pokyčio modelių. Tokio tipo modelius
ekonometrijoje įprasta taikyti tuomet, kai staigiai pasikeičia ekonominės veiklos sąlygos.
Tokių pasikeitimų priežastys, kaip taisyklė, yra politiniai sprendimai, įstatymų, mokesčių,
muitų ar akcizų pakeitimai.
Vaizdumo dėlei toliau aptariamą pavyzdį ir pavadinome "Akcizas": momentu t0 vy-
riausybė priėmė sprendimą pakeisti akcizus (įvesti, panaikinti, pakeisti jų dydį), dėl ko
galėjo esminiai pasikeisti kai kurių įmonių ekonominės veiklos efektyvumas.

Akcizas. Tarkime, kad momentu t = t0 įvyko stebimo proceso (reiškinio) "struktūri-


nis" pasikeitimas, nes pasikeitė akcizai. Laikoma, kad pats procesas yra tolydus (neturi
trūkio), bet galėjo pakisti jo kitimo tendencijos, kitaip tariant, tiesinio trendo posvyrio
koeficientas.
Uždavinys. Remiantis turimais stebėjimų duomenimis iki struktūrinio pasikeitimo mo-
mento t = t0 ir po jo reiktų įvertinti proceso tendencijų pokyčius, patikrinti hipotezę, ar
jos tikrai pasikeitė, sudaryti proceso tolimesnio kitimo prognozes.
Antrasis klausimas su hipoteze kiek pirmalaikis, jį aiškinsimės ateityje. Bet MK meto-
du įvertinti proceso kitimo tendencijų parametrus ir pasiūlyti ateities reikšmių prognozes
jau galėtume. Reiktų tik aprašytą situaciją suvesti į DTR modelį.
Duomenys (D)

t| −2 −1 0 1 2 3
. (125)
y| 2 6 4 5 1 3
Tegu pasikeitimo momentas t0 = 0.5.
Sprendimo gairės.
1. Galimų regresijos funkcijų aibė yra
F = { visos tolydinės laužtės su lūžio tšk. t0 }. (126)
Jos nusakomos dviem tiesėmis, y = f1 (t) := a1 + b1 t ir y = f2 (t) := a2 + b2 t, kurios
taikomos atitinkamai iki momento t0 ir po jo. Jos tenkina tolydaus sujungimo taške
t = t0 sąlygą f1 (t0 ) = f2 (t0 ), iš kur gauname, kad vienas parametras, pvz. a2 , išsireiškia
per kitus parametrus
a2 = a1 + (b1 − b2 ) t0 . (127)
Taigi, galimos regresijos funkcijos analitiškai išreiškiamos formule
{ {
f1 (t), t ≤ t0 a1 + b1 t, t ≤ t0
f (t) = = (128)
f2 (t), t > t0 a2 + b2 t, t > t0

su trimis nežinomais parametrais a1 , b1 ir b2 ir per juos išsireiškiančiu parametru a2 (for-


mulė (127)).
2. Matricinis DTR modelio pavidalas. Kaip sudaryti Y aišku, nežinomų parametrų
vektorius yra β = (a1 , b1 , b2 )⊤ , o plano matricos X sudarymui galima taikyti įvairius
metodus. Aptarsime tris skirtingo lygio metodologijas.

24
Empirinis metodas – pirmasis lygis. Kadangi yra trys nežinomi parametrai a1 , b1 , b2 ,
tai bendras DTR modelio pavidalas turėtų atrodyti taip:

y(m) = a1 x0 (m) + b1 x1 (m) + b2 x2 (m) + ε(m), m = 1, . . . 6. (129)

Kol kas prediktoriai x0 , x1 , x2 yra nenusakyti, bet juos lengva nustatyti, remiantis tuo,
kad, kai t ≤ t0 , regresijos funkcija yra f1 , o kitais atvejais ji yra lygi f2 . Be to turi
būti patenkinta sujungimo sąlyga (127). Aišku, kad, kol t ≤ t0 = 0.5, t.y. stebinio
numeris m ≤ 3 , x0 (m) ≡ 1, x1 (m) ≡ t(m), x2 (m) ≡ 0, o toliau, kai t > t0 = 0.5,
veikiame analogiškai, bet vietoje funkcijos f1 turime naudoti funkciją f2 , kurioje vietoje
nenaudojamo parametro a2 reikia įstatyti jo išraišką (127) per naudojamus parametrus.
Taigi, tuomet f2 (t) = a2 +b2 t = [a1 +(b1 −b2 ) t0 ]+b2 t = a1 +b1 t0 +b2 (t−t0 ) ir naudojantis
duomenų lentele (125) galime rašyti

m=1 ⇒
y(1) = f1 (t(1)) + ε(1) = a1 + b1 t(1) + ε(1) = a1 · 1 + b1 · (−2) + b2 · 0 + ε(1),
m=2 ⇒
y(2) = f1 (t(2)) + ε(2) = a1 + b1 t(2) + ε(2) = a1 · 1 + b1 · (−1) + b2 · 0 + ε(2),
m=3 ⇒
y(1) = f1 (t(3)) + ε(3) = a1 + b1 t(3) + ε(3) = a1 · 1 + b1 · 0 + b2 · 0 + ε(3),
m=4 ⇒
y(4) = f2 (t(4)) + ε(4) = a1 + b1 t0 + b2 (t(4) − t0 ) + ε(4)
= a1 · 1 + b1 · 0.5 + b2 · (1 − 0.5) + ε(4),
m = 5 ⇒ y(3) = f2 (t(5)) + ε(5) = a1 + b1 t0 + b2 (t(5) − t0 ) + ε(5) (130)
= a1 · 1 + b1 · 0.5 + b2 · (2 − 0.5) + ε(5),
m = 6 ⇒ y(6) = f2 (t(6)) + ε(6) = a1 + b1 t0 + b2 (t(6) − t0 ) + ε(6)
= a1 · 1 + b1 · 0.5 + b2 · (3 − 0.5) + ε(6).

Atsižvelgiant į (129) išraišką plano matricą turi sudaryti daugikliai prie kiekvieno iš pa-
rametrų a1, b1, b2 kiekvienoje iš 6-ių lygčių (130). Tokiu būdu galiausiai gauname
 
1 −2 0
 
 1 −1 0 
 
 1 0 0 
X=

.

 1 0.5 1 − 0.5 
 
 1 0.5 2 − 0.5 
1 0.5 3 − 0.5

Analitinis metodas – antrasis lygis. Įvykio {t ≤ t0 } indikatorių žymėsime 1{t ≤ t0 }.


Tuomet, remiantis siūlomu regresijos funkcijos f pavidalu, f ∈ F , galima parašyti

y = f1 (t) 1{t ≤ t0 } + f2 (t) 1{t > t0 } + ε


= (a1 + b1 t) 1{t ≤ t0 } + ([a1 + (b1 − b2 ) t0 ] + b2 t) 1{t > t0 } + ε (131)
= a1 + b1 min(t, t0 ) + b2 (t − t0 )+ + ε.

Čia a+ , kaip įprasta (standartiškai), žymi max(a, 0).

25
• Šio metodo privalumas – atsakymą gauname formulių pavidalu:

x0 (m) ≡ 1, x1 (m) = min(t(m), t0 ), x2 (m) = (t(m) − t0 )+ , m = 1, . . . , 6. (132)

Naudojantis formulėmis (132) plano matricos X elementus galima lengvai surasti


bet kokiai stebėjimo momentų sekai t(m), m = 1, . . . , t.y. santykinai nepriklausomai
nuo konkrečios situacijos, neprisirišant prie konkrečių duomenų.

Konstruktyvus metodas – trečiasis lygis. Nesunku pastebėti, kad ∀f ∈ F galima


išreikšti kaip tiesinę kombinaciją

f (t) = β0 ψ0 (t) + β1 ψ1 (t) + β2 ψ2 (t), (133)

čia
ψ0 (t) ≡ 1, ψ1 (t) ≡ (t0 − t)+ , ψ2 (t) ≡ (t − t0 )+ (134)
arba
ψ0 (t) ≡ 1, ψ1 (t) ≡ t, ψ2 (t) ≡ (t − t0 )+ . (135)

• Parenkant funkcijas ψi siekiama, kad jos ir parametrai prie jų turėtų (ati)tinkamą


interpretaciją (būtų interpretuojami kuo aiškiau ir paprasčiau) ir su kiek galima
mažesniu skaliarinių parametrų skaičiumi (kuo tiksliau) aprašytų visas galimas re-
gresijos funkcijas (t.y., funkcijas iš F).

11 Pratimas. Klausimas: kokią interpretaciją (prasmę) turi skaliariniai parametrai


β0 , β1 , β2 dviem aukščiau pasiūlytų bazinių funkcijų rinkinių {ψ0 , ψ1 , ψ2 } atvejais (134) ir
(135)?

3. MKĮ apskaičiavimas. Naudojant matematinius paketus – tai grynai techninis užda-


vinys. "Plikomis rankomis" arba su kalkuliatoriais galima rekomenduoti dvi alternatyvas

1. arba vienetu sumažinti matricos X⊤ X eilę eliminuojant laisvąjį narį centruojant


kintamuosius ir naudojant formules (58), (59);

2. arba Gauso eliminavimo metodu išspręsti (šiuo atveju) 3-ios eilės tiesinių lygčių
sistemą (normalines lygtis)
X⊤ X β̂ = X⊤ Y (136)
atžvilgiu β̂ := (â1 , b̂1 , b̂2 )⊤ .

12 Pratimas. Nubraižykite turimų duomenų (125) sklaidos diagramą (scatterplot), ap-


skaičiuokite nežinomų parametrų MK įverčius, sklaidos diagramos grafike nubrėžkite įver-
tintą regresijos funkciją ir raskite kintamojo y prognozuojamą reikšmę momentu t = 5.

26

You might also like