Download as doc, pdf, or txt
Download as doc, pdf, or txt
You are on page 1of 14

Regressziószámítás

A korrelációs együttható egyike a klasszikus függőségi mérőszámok-


nak, de csak egyféle kapcsolat szorosságára utal, éspedig a lineáris kapcso-
latra. Ennek lényegét tömören így fogalmazhatjuk meg: ha a korrelációs
együttható értéke nagy (közel az +1-hez), akkor többnyire a kisebb
értékekhez kisebb, a nagyobb értékekhez nagyobb értékek tartoznak (ha
pedig –1-hez van közelebb, akkor többnyire a kisebb értékekhez a másik
változó nagyobb értékei, a nagyokhoz pedig kisebb értékei tartoznak).
Példaként tekintsük az alábbi táblazatban szereplő adatokat (fiktív adatok
és a számított mennyiségek az elméleti bemutatásban igen sok
tizedesjegyű pontossággal szerepelnek):

1. tábla. A sokaság bemutatása (fiktív adatok)


Sorszám Műtrágya (kg/ha) Búza (q/ha)
1. 80 60
2. 55 48
3. 30 35
4. 46 45
5. 48 45
6. 25 45
7. 110 70
8. 60 50
9. 80 48
10. 75 60
11. 92 65
Átlag 63,7272727 51,9090909
Szórás 688,6181818 109,2909091
Szórás-
26,2415354 10,4542292
négyzet
A korrelációs együttható értéke r=0,903, igen nagy érték, ami azt
jelenti, hogy nagyon szoros összefüggés (korrelálás) tapasztalható a búza
hozama és a felhasznált műtrágya mennyisége között: minél több a
használt műtrágya, annál nagyobb a búza hozama.
Ábrázolva egy derékszögű koordináta-rendszerben a parcellákat a
felhasznált műtrágya mennyiségét vízszintes tengelyen véve, a búza
hozamát függőleges tengely mentén, észrevehetjük, hogy két parcella eltér
kissé a többi parcella által kirajzolódott vonaltól (kivételek, a legkevesebb
műtrágyát használják egyik parcellán – a 6.-on – és mégis 45 mázsa búzát
takarítanak be egy hektárról, egy másik parcellán fordított a helyzet, 80 kg
műtrágya használata mellett is “csupán” 48 mázsa búza terem – 9.
parcella). Nem a változatosság kedvéért vettem így, hanem azért, mert a
valóságban is vannak különbségek, ugyanis a búza hozama más
tényezőktől is függ, mint amilyen a termőföld minősége, a talajmunkák
minősége, a föld nedvességtartalma, hőmérséklete vetéskor stb. Ha szoros
a korreláció egyik befolyásoló tényezővel, akkor csak annyit mondhatunk,
hogy ez a tényező fontos, fontosabb, mint más.
80

70

60

50

40
BUZA

30
20 40 60 80 100 120

MUTRAGYA

Úgy vehetjük, hogy ezen parcellák esetében az egyéb tényezők


fontosabb szerephez jutnak, mint a felhasznált műtrágya, ezért a további
elemzésből ezeket nyugodtan kihagyhatjuk (akár kivételeknek is
tekinthetjük). Így már 0,990-es korrelációs együttható adódik, azaz nagyon
közel állunk egy lineáris függvénykapcsolathoz a két változó között. Ha a
korrelációs együttható 1 lenne, akkor létezne olyan a és b, hogy:

búzahozam (q/ha) = a + bműtrágya (kg/ha)


Nyilvánvalóan az a mértékegysége is q/ha, jelentése az lenne, hogy
műtrágya használata mellett ekkora lenne a búzahozam.
A lineáris függvénykapcsolat keresésére azért is lehet okunk, mert a
műtrágya és a búza regisztrált mennyiségei erősen kerekített értékek, a
terület is egy becsült érték, így a hektárokra viszonyított számok is
pontatlanok, sőt még kerekítettek is, így nem várható el a pontos 1-es
korrelációs együttható.
A változók közti statisztikai kapcsolat függvényszerű alakjának
meghatározását regressziószámításnak nevezzük. A idegen eredetű
regresszió szónak a jelentése csökkenés, hanyatlás, hátrafelé mozgás,
hátrálás, irányváltoztatás, visszaesés, visszafejlődés, visszafordulás,
vissza-húzódás, visszarendezés, visszatérés, látszólag semmi kapcsolat
nincs a szó köznapi és a statisztikai jelentése között. A kapcsolat kulcsa
Galton, aki a statisztikai kapcsolat függvényszerű alakjával bizonyította
azt a vissza-rendezést, amely tapasztalható a fiak és az apák testmagassága
között (ti. ugyanolyan magasságú apák fiúgyermekei különböző
testmagasságot érnek el, viszont nagyszámú apára – és fiaikra –
vonatkozóan a testmagasságok eloszlása ugyanolyan – minimum,
maximum, átlag, szórás).
Általában a regressziószámítás alapja az, hogy egyes változók közt, a
dolgok lényege valamint a korrelációs együttható értéke vagy az ábrázolás
által ok–okozati és statisztikai összefüggés is feltételezhető, illetve követ-
keztethető. Az ok–okozati kapcsolat leírása érdekében a változók közt
függvényszerű kapcsolatot keresünk, éspedig az okozatot függő
(dependent) változónak tekintjük, a többi befolyásoló változót független
(independent) változónak. Ha elsőfokú függvényt keresünk a kapcsolat jel-
lemzésére, akkor lineáris regresszióról beszélünk, egyéb függvény esetén
pedig nemlineáris regresszióról A független változók száma szerint beszél-
hetünk egyváltozós vagy többváltozós regressziószámításról. A
nemlineáris regresszió lehet logaritmikus, exponenciális, polinomiális,
hiperbolikus, stb.
Általában, a keresett függvény alakúnak tekintendő,
ahol a függő (okozat vagy főleg okozat) változó, az ,
pedig a független (ok, vagy főleg ok) változók. Megoldásnak általában az
kifejezést minimizáló függvényt tekintik (a legkisebb
négyzetek módszere, a legkisebb négyzetes középhiba).

Egyváltozós regressziók

Lineáris regresszió

Térjünk vissza az 1. táblázatból származó adatmátrixra (9 sor és 2


oszlop – 2 eset kizárva). Alapos okunk van azt feltételezni, hogy bizonyos
mennyiségű műtrágya nagy valószínűséggel hasonló búzahozamot
eredmé-nyez, egy bizonyos műtrágyatöbblet hasonló búzahozam-többletet
eredmé-nyez, de ezt a meg-feleltetést még nem tudjuk másképpen leírni.
Amennyi-ben feltételezzük, hogy a kapcsolatot leíró függvény lineáris,
akkor elég egyszerű módon eljuthatunk a kapcsolat számszerű (numérikus)
leírására.
Legyen a műtrágya mennyisége a független változó (x), a búza
hozamát pedig jelöljük a középiskolában szokásos módon y-nal. Egy
terjedelmesebb adatmátrixban az oszlopok (változók) száma igen nagy, a
változók nevei általában több karakteres azonosítóból állnak, így a konkrét
alkalmazásokban nem találkozunk többet az x-szel meg y-nal (egy betűvel
jelölt változóval), de az elméleti levezetés, amire most vállalkozunk,
igényli az egyszerű jelöléseket.
Általánosítsuk (vezessük elméleti síkra) a feladatot azáltal, hogy az
esetek számát is parametrizáljuk (m), így adottnak tekintjük az (x1,y1),
(x2,y2), … , (xm,ym) számpárokat. Legyen f:RR egy lineáris függvény,
analitikus alak szerint f(x)=a+bx, xR. Különböző a és b értékek más-más
függvényt értelmeznek. A következő táblázat szemlélteti a könkrét
eseteket, valamint az elméleti helyzetet.
2. tábla. Példa lineáris függvényértékekre
Sor-
Műtrágya Búza f(x) = –15+2x f(x) = 9+x/2 f(x) = a+bx
szám
i xi yi zi wi
1. 80 60 170 60,0 a+80b
2. 55 48 120 47,5 a+55b
3. 30 35 70 35,0 a+30b
4. 46 45 102 43,0 a+46b
5. 48 45 106 44,0 a+48b
6. 110 70 230 75,0 a+110b
7. 60 50 130 50,0 a+60b
8. 75 60 160 57,5 a+75b
9. 92 65 194 66,0 a+92b

Egy felületes pillantás is a táblázat z és w értékeinek oszlopára azt


sugallja, hogy a w értékei sokkal jobbak a z-nél, azaz a w értékei feltűnően
kevesebbel térnek el y-tól mint a z változó értékei. E két esetben
nyilvánvaló a jobb minősítés, de elképzelhető sok olyan más helyzet,
amikor nagy a hasonlóság a kétféle analitikus képlet adta számok között.
Szükség van tehát egy pontos (precíz, szabatos) definicióra. Az értelmezés
megadása előtt említést kell tennünk egy olyan fogalomról, amelyik igen
gyakran szerepel ezután.

Értelmezés:

Legyen (xi,yi), i=1..m egy adatmátrix, f:RR egy függvény.

Az ei = yi – f(xi) összefüggés adta (ei), i=1..m változót


maradékváltozó-nak nevezzük (idegen eredetű kifejezéssel reziduális
változónak, vagy röviden reziduumnak).
A maradékváltozó értéke a mért (yi) és a számított érték ( f(xi))
közti különbség, ez lehet negatív is. Négyzetre emeléssel a különbségek
nemnegatívvá válnak, a kifejezések pedig átalakíthatóvá (ez utóbbinak
szükségességét nemsokára látni fogjuk), összegezés után pedig az
úgynevezett reziduális négyzetösszeg adódik. A következő táblázat a
reziduális négyzetösszegek kiszámítását példázza.
Legyen (xi,yi), i=1..m egy adatmátrix két oszlopa (változója), f:RR
egy lineáris függvény, f(x)=a+bx, a,bR. Akkor a reziduális
négyzetösszeg:
Ez utóbbi alak azt bizonyítja, hogy bármilyen a és b valós számra:
,

tehát a reziduális négyzetösszegek minimuma legalább , a


minimumot pedig az a lineáris függvény szolgáltatja, amelynek az
analitikus alakjában szereplő a és b minimizálja az és a
kifejezéseket.
Ilyen a és b létezik, éspedig az

egyenletrendszer megoldása, mely megoldást a következő alakban szokták


felírni:

.
Meglepő talán az, hogy a megoldás alakjában szerepel a valós változók
átlaga, szórása és korrelációs együtthatója.

Megjegyzés: A fenti levezetésnél egyszerűbb az a megoldás, amelyik a


többváltozós függvények parciális deriváltját használja, általában a szerzők
ezt a megoldást szokták bemutatni. E megoldás lényege az, hogy az S2 egy
nemnegatív, deriválható kétváltozós függvény, és egy ilyen függvénynek a
szélsőértékei (tehát a minimumpontja is) a parciális deriváltak zérushelyei
közt keresendők. Mivel a középiskolában a parciális derivált fogalma nem
szerepel a tananyagban, annyit itt el kell mondanunk, hogy a polinim-
függvényeknek léteznek a parciális deriváltjai és ezeket úgy számítjuk ki,
hogy az illető változót ismeretlennek tekintjük, a többit pedig konstans
paraméternek, és így deriváljuk az ismert módon. A jelölések pedig:
vagy (a többváltozós függvényt jó nagy betűvel jelölni, itt egyik
változót w-vel jelöltük).
Ha megfigyeljük a minimizálandó kifejezést, akkor ez egy kétváltozós
függvény a-ban és b-ben:

Ennek parciális deriváltjait egyenlővé téve 0-val az alábbi egyenlet-


rendszert kapjuk:

Az első egyenlet azonnal elvezet az ismerős alakhoz, ezt


behelyettesítve a másik egyenletbe, majd néhány átalakítás után
megkapjuk a összefüggést is.

Különböző szerzők szokták a regressziós egyenes alakját az alábbi


formában is megadni:

.
Ugyanez az alak a számítási képletek alkalmazásával így néz ki:

Ez utóbbi képlet akkor hasznos, ha az átlagok, szórások és


korrelációs együttható ismeretlen és nem vagyunk programozható
számítógép közelében. Ilyenkor célszerű táblázatba sűríteni a számításokat
és csak oszlopösszegeket számítani, szemléltetésre vegyük a
menyasszony-vőlegény esetet (a viszonyszámok már bemutatott értékeit
ellenőrzésre fogjuk itt használni).
3. tábla. A regressziós egyenes meghatározása kézi számítással
i
1. 6400 80 4800 60
2. 3025 55 2640 48
3. 900 30 1050 35
4. 2116 46 2070 45
5. 2304 48 2160 45
6. 12100 110 7700 70
7. 3600 60 3000 50
8. 5625 75 4500 60
9. 8464 92 5980 65
44534 596 33900 478
Ezekkel a regressziós egyenlet alakja:

,
és végül

Amennyiben rendelkezünk már az átlagértékekkel, szórásokkal és a


korrelációs együtthatóval, akkor a regressziós egyenes egyenletének a
meghatározása leegyszerűsödik:

, stb.
Az itt használt értékek azzal a pontossággal szerepelnek, ahogy az Spss
eredménytáblázataiban első nézetre látjuk őket, de ha nagyobb pontosságú
számításra törekszünk, akkor az Output Navigator-ban kattintsunk az
egérrel duplát az illteő táblázatra, majd újra duplát az illető rovatra, erre a
tárolt értéket látjuk igen sok lényeges számjegy megjelenítésével (ha
szükséges, előtte szélesítsük meg a rovat oszlopát). A sokpontosságű alak
inverz video megjelenésű, ami azt jelenti, hogy azonnal másolható a
Ctrl+C billentyűkombinációval. Ilyenkor módosíthatjuk is a rovat
tartalmát.

Végül pedig bemutatjuk a feladat megoldását az Spss programcsomag


regressziós utasításával. Az adatok bevezetése és ellenőrzése után az
alábbi utasítást adjuk ki: reg /dep y /met ent x.
Az Output-ablakban többek között megtalálható az alábbi táblázat is:
Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 23.752 1.722 13.796 .000
X Hasznalt
.443 .024 .990 18.115 .000
mutragya (kg/ha)
a. Dependent Variable: Y Buzahozam (q/ha)

Az első rovatokban találjuk a szabadtagot és az együtthatót.


A következő kérdés az, hogy miként értelmezzük a kapott eredményt.
Nyilvánvaló, hogy a megfigyelt (mért) adatok pontossága csekély, ezért a
regressziós függvényt is bőven elég két tizedesjegy pontossággal felírni:
Szavakban a következőképpen lehet ezt elmondani: a búza hozama
hektáronként annyi mint közel 24 mázsa plusz az egy hektárra eső kg-ban
megadott műtrágya értékének 44%-a. Ez egy elég elvont megfogalmazás,
törekednünk kell egy sokkal közérthetőbb kapcsolatleírásra. Amennyiben a
változók között jól elkülönülő ok-okozati kapcsolat is van, akkor az
összefüggés leírásához használjuk az ok (független változó) egységnyi
(vagy nagyobb értékű) változása által bekövetkező okozatváltozást (függő
változó változást) is. Például: 10 kg-mal több műtrágya használata közel 4
és fél mázsával növeli meg a búza hozamát.

Az általánosabb esetben:

, ,

.
Tehát az elsőfokú tag együtthatója a kulcs az ilyen értelmezésben: a
független változó egységnyi növekedése a függő változóban b egységnyi
növekedést (ha b<0, akkor csökkenést) idéz elő. Ha nem elég világos az
ok-okozati kapcsolat megléte és iránya, akkor a „növekedést idéz elő”
helyett csak azt használjuk, hogy „növekedéssel jár együtt”.
Vigyázzunk, mert a összefüggésből egyszerűen kapható
nem alkalmas a fordított kapcsolat leírására, vagyis ha
felcseréljük a független és függő változókat, az erre az esetre számított
regressziós egyenes egyenletéből nem a adódik (az eltérések
annál nagyobbak, minél távolabb van a korrelációs együttható abszolút
értékben 1-től).
Térjünk vissza a regressziós egyenes együtthatóinak
meghatározásához és figyeljük meg a maradékváltozó tulajdonságait. A
következő leveze-tésekben lényeges szerephez jut a regressziós egyenes
együtthatóinak a meghatározása során feltárt összefüggés.
Először is a reziduumok értelmezése:

, i=1..m.

Ebből az értelmezésből adódik egy kis számítással az átlagértéke:

Másrészt, a reziduális négyzetösszeg minimuma, egy korábbi


bizonyí-tás alapján:

vagyis

Tehát a reziduális szórásnégyzet 0 és között van, extrém esetekben


egybeesik ezek valamelyikével. Ha a reziduum szórásnégyzete 0 (r=1),
akkor zéróval egyenlő az összes maradéktag, tehát a mért és számított
értékek pontosan egybeesnek, ami gyakorlatban igen ritkán fordul elő, és,
akkor is csak olyan esetben, amikor a két változó mértékegységben
különbözik egymástól (az egyik abszolút értékű, a másik meg relatív, vagy
az egyik a földterületet árban, a másik változó pedig ugyanezt katasztrális
holdban adja meg) vagy egymást kiegészítő százalékos mennyiségek
(férfi-nő arány, falu-város viszony, stb.). A reziduum szórásnégyzete ha
meg-közelíti a függő változó (y) szórásnégyzetét, akkor a korrelációs
együttható 0 körüli, tehát lineárisan korrelálatlanok a változók, így nincs is
miért lineáris kapcsolatot leíró függvényt keresni.
Nézzük most a regresszióval becsült (számított) változó átlagát és
szórásnégyzetét:
,

Tehát a számított változó szórásnégyzete ugyancsak 0 és között van,


de most már olyanformán, hogy ha erősen korreláltak a valós változók (a
korrelációs együttható közel van a ±1-hez), akkor a regresszióval becsült
változó kiadja a megfigyelt (mért) változó szórásnégyzetének nagy
hányadát. Hogy a számított változó hányadát valósítja meg a megfigyelt
változó szórásnégyzetének, azt pontosan az adja meg. Így még mielőtt
regressziószámításba kezdenénk meg tudjuk mondani, hogy a majd
számítandó, regresszióval becsült változó mennyire reprodukálja a mért
változó változását (szórásnégyzetét).
A fenti két szórásnégyzetet összegezve azt kapjuk, hogy:
.

Másrészt, a számított érték ( ) és maradékérték (ei) összege a


megfigyelt érték (yi):

, i=1..m,
így a szórásnégyzet egyik tulajdonsága alapján:
.

Összevetve a két egyenlőséget az derül ki, hogy , azaz a


számított értékek és a reziduumok korrelálatlanok, vagyis az eltérések a
kicsi, közepes és nagy számított értékek esetében véletlenszerűek,
vegyesen kicsik és nagyok, persze, ha van kellő számú eset a vizsgált
sokaságban.

You might also like