Download as pdf or txt
Download as pdf or txt
You are on page 1of 445

Reiczigel Jenő - I lamos Andrea - Solymosi Norbert

BIOSTATISZTIKA
NEM STATISZTIKUSOKNAK
Reiczigel Jenő – Harnos Andrea – Solymosi Norbert

BIOSTATISZTIKA
nem statisztikusoknak
PARS KÖNYVEK
Pecsenye Katalin (2006): Populációgenetika. Pars Kft., Nagykovácsi, 401 oldal, ISBN 963
06 0325 X
Izsák János – Szeidl László (2009): Fajabundancia-eloszlási modellek. Pars Kft., Nagyko-
vácsi. 300 oldal, ISBN 978-963-88339-0-7
Papp, L. and Černý, M. (2015): Agromyzidae (Diptera) of Hungary. Volume 1. Agromy-
zinae. Pars Ltd, Nagykovácsi, 416 pp., ISBN 978 963 88339 2 1
Papp, L. and Černý, M. (2016): Agromyzidae (Diptera) of Hungary. Volume 2. Phytomy-
zinae I. Pars Ltd, Nagykovácsi, 385 pp., ISBN 978 963 88339 3 8
Papp, L. and Černý, M. (2017): Agromyzidae (Diptera) of Hungary. Volume 3. Phytomy-
zinae II. Pars Ltd, Nagykovácsi, 427 pp., ISBN 978 963 88339 5 2
Tóth, M. (2017): Hair and fur atlas of Central European mammals. Pars Ltd, Nagykovácsi,
307 pp., ISBN 978 963 88339 7 6
Pecsenye Katalin (2018): Evolúciós kvantitatív genetika. Pars Kft., Nagykovácsi, 400 oldal.
ISBN 978 615 81152 0 9
Papp, L. and Černý, M. (2019): Agromyzidae (Diptera) of Hungary. Volume 4. Phytomy-
zinae III. Pars Ltd, Nagykovácsi, 708 pp., ISBN 978 963 88339 6 9
Varga Zoltán (2019): Biogeográfia – az élet földrajza. Pars Kft., Nagykovácsi, 610 oldal,
ISBN 978 963 88339 9 0
Varga Zoltán – Rózsa Lajos – Papp László – Peregovits László (szerk.) (2021): Zootaxonó-
mia – Az állatvilág sokfélesége. Javított kiadás, Pars Kft., Nagykovácsi, 449 oldal, ISBN
978-963-8833945
Reiczigel Jenő, Harnos Andrea és Solymosi Norbert (2021): Biostatisztika nem statiszti-
kusoknak. 3. kiadás. Pars Kft., Nagykovácsi, i-x+433 oldal, ISBN 978 615 81152 1 6

Megrendelhető
Pars Kft.
2094 Nagykovácsi Balta u. 11.
parskft@gmail.com
06-20-5466048
Reiczigel Jenő – Harnos Andrea – Solymosi Norbert

BIOSTATISZTIKA
nem statisztikusoknak

Pars Kft., Nagykovácsi


2021
A könyv 2007-es kiadása az Oktatási és Kulturális Minisztérium
támogatásával,
a Felsőoktatási Tankönyv- és Szakkönyv-támogatási Pályázat
keretében jelent meg.

Lektorok

Lang Zsolt
Kis János

Borító: Németh János

HU ISBN 978-615-81152-1-6
HU ISSN 1788-4349

© Reiczigel Jenő – Harnos Andrea – Solymosi Norbert, 2021


© Pars Kft., Nagykovácsi, 2021

3. kiadás

Minden jog fenntartva, beleértve a mű bővített, illetve rövidített


változatainak kiadási jogát is. A kiadó írásos engedélye nélkül sem
elektronikus, sem hagyományos úton nem sokszorosítható, tárolható,
illetve terjeszthető.

Nyomdai munkálatok: Mondat Kft., Vác


Tartalomjegyzék

Előszó 1
Köszönetnyilvánítás . . . . . . . . . . . . . . . . . . . . . . . . . 5
Hogyan olvassuk ezt a könyvet? . . . . . . . . . . . . . . . . . . 6
Szükséges előismeretek . . . . . . . . . . . . . . . . . . . . . . . 7
Jelölések, írásmód . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Ismerkedés az R-rel . . . . . . . . . . . . . . . . . . . . . . . . . 9
Hogyan olvassuk az R-kódokat? . . . . . . . . . . . . . . . . . 10

1. Bevezetés 13
1.1. Miért tanuljunk statisztikát? . . . . . . . . . . . . . . . . 13
1.2. Megjegyzések a példákhoz . . . . . . . . . . . . . . . . . . 16
1.3. Hétköznapi valószínűségszámítás és statisztika . . . . . . 20

2. A statisztika alapfogalmai 23
2.1. Populáció és minta . . . . . . . . . . . . . . . . . . . . . . 23
2.2. Leíró és induktív statisztika . . . . . . . . . . . . . . . . . 27
2.3. Mintavételi módszerek . . . . . . . . . . . . . . . . . . . . 29
2.4. Az adatok . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4.1. Adatmátrix . . . . . . . . . . . . . . . . . . . . . . . 33
2.4.2. Adattípusok, mérési skálák . . . . . . . . . . . . . . . 34
2.4.3. Transzformációk, származtatott változók . . . . . . . 39
2.4.4. Hiányzó értékek . . . . . . . . . . . . . . . . . . . . . 45
2.4.5. Kiugró értékek . . . . . . . . . . . . . . . . . . . . . . 48

3. Egy kis valószínűségszámítás 51


3.1. Események, valószínűség . . . . . . . . . . . . . . . . . . . 51
3.2. Oddsz és logit . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3. Relatív kockázat és esélyhányados . . . . . . . . . . . . . 58
3.4. Valószínűségi változók . . . . . . . . . . . . . . . . . . . . 60
3.4.1. Valószínűségi változók függetlensége . . . . . . . . . . 67

i
3.5. A statisztikában leggyakrabban használt eloszlások . . . . 68
3.5.1. A hipergeometrikus és a binomiális eloszlás . . . . . 68
3.5.2. A Poisson-eloszlás . . . . . . . . . . . . . . . . . . . . 75
3.5.3. A normális eloszlás . . . . . . . . . . . . . . . . . . . 78
3.5.4. További folytonos eloszlások . . . . . . . . . . . . . . 80
3.6. A valószínűségszámítás és a statisztika kapcsolata . . . . 82

4. Leíró statisztika 87
4.1. Táblázatok és ábrák . . . . . . . . . . . . . . . . . . . . . 87
4.1.1. Egy változó ábrázolása . . . . . . . . . . . . . . . . . 88
4.1.2. Két változó együttesének ábrázolása . . . . . . . . . 98
4.2. Mérőszámok, statisztikák . . . . . . . . . . . . . . . . . . 103
4.2.1. Egy változó jellemzése . . . . . . . . . . . . . . . . . 104
4.2.2. Két változó közötti összefüggés jellemzése . . . . . . 115
4.2.3. Asszociációs mértékek . . . . . . . . . . . . . . . . . 118
4.2.4. Adattranszformációk hatása a statisztikai mérőszámok-
ra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

5. Becslés 123
5.1. Alapfogalmak . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.1.1. Pontbecslés . . . . . . . . . . . . . . . . . . . . . . . 124
5.1.2. Intervallumbecslés . . . . . . . . . . . . . . . . . . . . 126
5.1.3. Matematikai formalizmus . . . . . . . . . . . . . . . 129
5.1.4. A mintaátlag néhány fontos tulajdonsága . . . . . . . 131
5.1.5. Becslés pontossága . . . . . . . . . . . . . . . . . . . 132
5.2. Pontbecslések jósága . . . . . . . . . . . . . . . . . . . . . 135
5.2.1. Torzítatlanság . . . . . . . . . . . . . . . . . . . . . . 135
5.2.2. Konzisztencia . . . . . . . . . . . . . . . . . . . . . . 139
5.3. Eljárások pontbecslések készítésére . . . . . . . . . . . . . 139
5.3.1. Behelyettesítéses becslés . . . . . . . . . . . . . . . . 139
5.3.2. Maximum likelihood (ML) becslés . . . . . . . . . . 140
5.4. Eljárások konfidencia-intervallumok szerkesztésére . . . . 142
5.5. Több paraméter szimultán becslése . . . . . . . . . . . . . 145
5.6. A szükséges mintaelemszám meghatározása becsléshez . . 147

6. Hipotézisvizsgálat 151
6.1. A statisztikai hipotézisvizsgálat alapgondolata . . . . . . 153
6.1.1. Az indirekt bizonyítás . . . . . . . . . . . . . . . . . 154
6.1.2. A tudomány fejlődése . . . . . . . . . . . . . . . . . . 155
6.1.3. Null- és alternatív hipotézis . . . . . . . . . . . . . . 156

ii
6.1.4. Döntés a nullhipotézisről . . . . . . . . . . . . . . . . 159
6.2. A hipotézisvizsgálat technikai kérdései . . . . . . . . . . . 163
6.2.1. Próbastatisztika . . . . . . . . . . . . . . . . . . . . . 164
6.2.2. A p-érték meghatározása . . . . . . . . . . . . . . . . 168
6.2.3. Döntés a H 0 -ról p-érték nélkül . . . . . . . . . . . . . 170
6.2.4. Egyszerű és összetett hipotézisek . . . . . . . . . . . 174
6.2.5. Próba ereje . . . . . . . . . . . . . . . . . . . . . . . 177
6.3. További témák . . . . . . . . . . . . . . . . . . . . . . . . 182
6.3.1. Többszörös összehasonlítások . . . . . . . . . . . . . 182
6.3.2. Tesztek és konfidencia-intervallumok . . . . . . . . . 184
6.3.3. A szükséges mintaelemszám meghatározása . . . . . 185
6.3.4. Paraméteres és nemparaméteres eljárások . . . . . . 187

7. Gyakran használt statisztikai próbák 193


7.1. Várható értékekre (populációátlagokra) vonatkozó próbák 194
7.1.1. Egy várható érték . . . . . . . . . . . . . . . . . . . . 194
7.1.2. Két várható érték, független minták . . . . . . . . . . 196
7.1.3. Két várható érték, párosított minták . . . . . . . . . 200
7.1.4. Kettőnél több várható érték . . . . . . . . . . . . . . 202
7.2. Varianciákra vonatkozó próbák . . . . . . . . . . . . . . . 202
7.2.1. Egy variancia . . . . . . . . . . . . . . . . . . . . . . 203
7.2.2. Két variancia, független minták . . . . . . . . . . . . 203
7.2.3. Kettőnél több variancia, független minták . . . . . . 205
7.3. Eloszlásokra vonatkozó próbák . . . . . . . . . . . . . . . 206
7.3.1. Egy eloszlás: illeszkedésvizsgálat . . . . . . . . . . . . 206
7.3.2. Két változó együttes eloszlása: függetlenség vizsgálat 213
7.3.3. Két vagy több eloszlás: homogenitásvizsgálat . . . . 218
7.4. Valószínűségekre (populációbeli arányokra) vonatkozó pró-
bák . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
7.4.1. Egy valószínűség . . . . . . . . . . . . . . . . . . . . 220
7.4.2. Két valószínűség, független minták . . . . . . . . . . 223
7.4.3. Két valószínűség, párosított minták . . . . . . . . . . 226
7.4.4. Kettőnél több valószínűség, független minták . . . . 227
7.5. Mediánokra vonatkozó próbák . . . . . . . . . . . . . . . 227
7.5.1. Egy medián . . . . . . . . . . . . . . . . . . . . . . . 227
7.5.2. Két vagy több medián . . . . . . . . . . . . . . . . . 229
7.6. Rangpróbák . . . . . . . . . . . . . . . . . . . . . . . . . . 231
7.6.1. Wilcoxon-féle előjeles rangpróba . . . . . . . . . . . . 231
7.6.2. Mann–Whitney-féle U-próba . . . . . . . . . . . . . . 235
7.6.3. Kruskal–Wallis-féle H-próba . . . . . . . . . . . . . . 238

iii
8. Korrelációszámítás 243
8.1. A Pearson-féle korrelációs együttható . . . . . . . . . . . 244
8.1.1. Hipotézisvizsgálat a Pearson-féle korrelációs
együtthatóra vonatkozóan . . . . . . . . . . . . . . . 246
8.2. Együtthatók monoton kapcsolatokra . . . . . . . . . . . . 247
8.2.1. A monoton korrelációs együtthatókra vonatkozó próba 249

9. Regressziószámítás 251
9.1. A regressziószámítás szokásos kérdésfeltevései . . . . . . . 252
9.2. Véletlenség a magyarázó és a függő változóban . . . . . . 253
9.3. Mikor használjunk korreláció-, illetve regressziószámítást? 254
9.4. Egyszerű lineáris regresszió: I-es modell . . . . . . . . . . 255
9.4.1. Hipotézisvizsgálatok . . . . . . . . . . . . . . . . . . 257
9.4.2. A determinációs együttható . . . . . . . . . . . . . . 259
9.4.3. Predikció a modellben . . . . . . . . . . . . . . . . . 260
9.5. Origón átmenő regresszió . . . . . . . . . . . . . . . . . . 263
9.6. Egyszerű lineáris regresszió: II-es modell . . . . . . . . . . 265
9.6.1. MA-regresszió . . . . . . . . . . . . . . . . . . . . . . 265
9.6.2. SMA-regresszió . . . . . . . . . . . . . . . . . . . . . 265
9.7. Többszörös lineáris regresszió . . . . . . . . . . . . . . . . 268
9.7.1. Hipotézisvizsgálatok . . . . . . . . . . . . . . . . . . 271
9.8. További korrelációs mérőszámok . . . . . . . . . . . . . . 273
9.8.1. A többszörös korreláció és a determinációs együttható 273
9.8.2. A parciális korreláció . . . . . . . . . . . . . . . . . . 274
9.9. Multikollinearitás . . . . . . . . . . . . . . . . . . . . . . 276
9.10. Regressziós diagnosztika . . . . . . . . . . . . . . . . . . . 279
9.10.1. Az illesztett modell jóságának vizsgálata . . . . . . . 279
9.10.2. Alkalmazhatósági feltételek vizsgálata . . . . . . . . 280
9.10.3. Kiugró értékek és torzító pontok . . . . . . . . . . . . 285
9.10.4. Diagnosztikus ábrák . . . . . . . . . . . . . . . . . . 292
9.11. Nemlineáris kapcsolatok . . . . . . . . . . . . . . . . . . . 293
9.11.1. Lineárisra visszavezethető regressziók . . . . . . . . . 294
9.11.2. Példák változók transzformálásával végzett regressziók-
ra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
9.11.3. Lineárisra nem visszavezethető regressziók . . . . . . 303

10. Varianciaelemzés (ANOVA) 313


10.1. A számítások . . . . . . . . . . . . . . . . . . . . . . . . . 315
10.1.1. Varianciatábla (szórásfelbontás) . . . . . . . . . . . . 319
10.2. Csoportok páronkénti összehasonlítása . . . . . . . . . . . 322

iv
10.3. Többtényezős varianciaelemzés . . . . . . . . . . . . . . . 325
10.4. Kísérleti elrendezések . . . . . . . . . . . . . . . . . . . . 329
10.4.1. Véletlen blokkos elrendezés . . . . . . . . . . . . . . . 329
10.4.2. Latinnégyzet-elrendezés . . . . . . . . . . . . . . . . 331
10.5. Az ANOVA diagnosztikája . . . . . . . . . . . . . . . . . 332
10.6. Kontrasztok . . . . . . . . . . . . . . . . . . . . . . . . . . 333

11. Az általános lineáris modell 337


11.1. A fejezet példája . . . . . . . . . . . . . . . . . . . . . . . 337
11.1.1. A kísérlet rövid leírása . . . . . . . . . . . . . . . . . 337
11.1.2. Exploratív elemzések . . . . . . . . . . . . . . . . . . 339
11.2. Statisztikai modellek . . . . . . . . . . . . . . . . . . . . . 344
11.3. A modell felírása . . . . . . . . . . . . . . . . . . . . . . . 345
11.3.1. Példák különböző modellekre . . . . . . . . . . . . . 347
11.3.2. Faktorok a lineáris modellben . . . . . . . . . . . . . 348
11.4. A lineáris modell paramétereinek becslése . . . . . . . . 358
11.4.1. A becsült értékek és a vetítő mátrix . . . . . . . . . . 360
11.5. Hipotézisvizsgálat . . . . . . . . . . . . . . . . . . . . . . 360
11.5.1. A null- és a telített modell . . . . . . . . . . . . . . . 360
11.5.2. Modell és részmodell összehasonlítása . . . . . . . . . 361
11.5.3. Az összes magyarázó változó együttes tesztelése . . . 362
11.5.4. Több változó szimultán tesztelése . . . . . . . . . . . 364
11.5.5. Megjegyzések a modellek tesztelésével kapcsolatban . 365
11.6. A lineáris modellek alkalmazhatóságának feltételei . . . . 367
11.6.1. Linearitás . . . . . . . . . . . . . . . . . . . . . . . . 367
11.6.2. Kiugró és torzító pontok . . . . . . . . . . . . . . . . 370
11.7. Modellválasztás . . . . . . . . . . . . . . . . . . . . . . . . 370
11.7.1. Mit értsünk a „legjobb” modellen? . . . . . . . . . . 371
11.7.2. A legszűkebb modell, amely nem különbözik
szignifikánsan a teljes modelltől . . . . . . . . . . . . 372
11.7.3. Információs kritériumok . . . . . . . . . . . . . . . . 372
11.8. Modellszelekciós eljárások . . . . . . . . . . . . . . . . . 374
11.8.1. Egyenkénti beléptetés . . . . . . . . . . . . . . . . . . 374
11.8.2. Egyenkénti kihagyás . . . . . . . . . . . . . . . . . . 374
11.8.3. Váltakozó beléptetés-kihagyás . . . . . . . . . . . . . 375
11.9. Mikor használjuk az aov(), és mikor az lm() függvényt? . 376
11.9.1. Négyzetösszegtípusok . . . . . . . . . . . . . . . . . . 376
11.10. Többszörös összehasonlítások . . . . . . . . . . . . . . . . 378
11.11. Kontrasztok az általános lineáris modellben . . . . . . . . 380

v
11.11.1. Kontrasztok (általános lineáris hipotézisek)
becslése és tesztelése . . . . . . . . . . . . . . . . . . 381

Függelék

A. Konfidencia-intervallumok képletei 397


A.1. Normális eloszlású változó átlaga . . . . . . . . . . . . . . 397
A.2. Két normális eloszlású változó átlaga közötti különbség . 398
A.3. Normális eloszlású változó varianciája, illetve szórása . . . 401
A.4. Valószínűség (populációbeli arány) . . . . . . . . . . . . . 402
A.4.1. Wald-féle intervallum . . . . . . . . . . . . . . . . . . 403
A.5. Két valószínűség különbsége . . . . . . . . . . . . . . . . . 405
A.6. Relatív kockázat . . . . . . . . . . . . . . . . . . . . . . . 406
A.7. Esélyhányados . . . . . . . . . . . . . . . . . . . . . . . . 407

B. Statisztikai táblázatok 409

Irodalomjegyzék 419

Tárgymutató 423

vi
Előszó
Könyvünk megírásához mind a motivációt, mind a tematikát a Szent István
Egyetem Állatorvos-tudományi Karán (ma Állatorvostudományi Egyetem)
tartott, közösen kidolgozott kurzusaink adták. Az anyag zöme a zoológia,
most már biológia BSc szakos hallgatóknak tartott Biomatematika II és
Számítógépes statisztika kurzusainkon alapul, de felhasználtuk benne Kí-
sérlettervezés, Regressziószámítás és Bevezetés az R-be PhD tanfolyama-
ink, illetve a jelen kiadásban a Biostatisztikus szakképzésen tartott Lineáris
modellek kurzus anyagát is.
A könyvet elsősorban a bevezető statisztika kurzusok hallgatóinak szán-
juk, hogy segítse őket az alapfogalmak és a legszükségesebb módszerek el-
sajátításában, valamint a statisztikai szemléletmód kialakításában. Mivel
magunk is az élettudományok területén dolgozunk és oktatunk, példáinkat
is főleg ilyen területekről vettük, ezért könyvünket valószínűleg a biológus,
orvos, állatorvos és agrár szakos hallgatók forgathatják legtöbb haszonnal.
A statisztika vizsgára készülő hallgatókon kívül jó szívvel ajánljuk a
könyvet azoknak is, akiknek munkájukhoz szükségük van a statisztika al-
kalmazására, de bizonytalannak érzik magukat ezen a területen, vagy a
statisztika logikáját a hétköznapi gondolkodástól idegennek érzik. Remél-
jük, hogy sikerül bebizonyítanunk, hogy a statisztikai gondolkodásmódban
igenis van logika, s a hétköznapi életben a Kedves Olvasó is gyakran így
gondolkodik, csak esetleg nem veszi észre. Arról is szeretnénk meggyőzni az
olvasót, hogy a statisztika nem csupán szükséges rossz, hanem hasznos se-
gítség annak megítélésében, hogy mennyire bízhatunk (vagy mennyire kell
kételkednünk) egy kapott eredményben. Végül azt is szeretnénk bebizonyí-
tani, hogy a statisztika nem „varázslás”, hanem bárki számára – igaz, némi
erőfeszítés árán – elsajátítható.
Könyvünk hasznos lehet azoknak a statisztikát jól ismerő és munká-
jukban rendszeresen használó kutatóknak is, akik szeretnének közelebbről
megismerkedni az R programcsomaggal. Az R egy ingyenes, több, mint 25
éve fejlesztett, s mára nagyon elterjedt, tökéletesen professzionális statisz-

1
2 Reiczigel – Harnos – Solymosi: Biostatisztika

tikai programcsomag (R Core Team 2020). Mi magunk ma már kizárólag


ezt használjuk, egyre növekvő lelkesedéssel, mindennapi munkánkban. Az
R nemcsak ingyenes volta miatt vonzó, hanem azért is, mert a statisztikai
módszerek szinte végtelen választékát kínálja, és nagyon friss, tehát komoly
esély van arra, hogy egy-egy vadonatúj statisztikai eljárás leghamarabb R-
ben válik elérhetővé.
Akiket elriaszt az R-től az, hogy menük nyitogatása és űrlapok kitöltö-
getése helyett kódokat kell begépelnie, ajánljuk az R Commander interfészt
(Fox 2005, 2017; Fox & Bouchet-Valat 2020), amit az Rcmdr csomag R-be
betöltésével indíthatunk el, illetve a Deducer interfészt (www.deducer.org).
Az R Commander egy olyan interfész, melyben menük és űrlapok segítségé-
vel generálhatjuk az R kódokat, és futtathatjuk azokat. Rövidebb tanfolya-
mainkon mi magunk is ezt használjuk. Az R Commander-ről részletesebb
információt a www.rcommander.com honlapon találhatnak.
A könyv írása során igyekeztünk megtalálni az egyensúlyt két véglet kö-
zött: az egyik a „receptkönyv”, amely elmondja, hogy mit hogyan kell csinál-
ni, de arról hallgat, hogy miért; a másik az elméleti matematikai statisztika
tankönyv, amely gyakorlati problémák megoldásával egyáltalán nem fog-
lalkozik. Egyensúlyt találni sohasem könnyű feladat, bizonyára helyenként
nekünk sem sikerült, amiért előre elnézést kérünk az olvasótól. Egy olyan
alkalmazott statisztika tankönyvet szándékoztunk írni, amely igyekszik a
miérteket is megválaszolni, de ahol csak lehet szemléletesen, a matematikai
részletek tárgyalása nélkül, lehetőleg minél kevesebb elvont definícióval és
képlettel terhelve az olvasót. Inkább azt próbáljuk elmondani, hogy mi az
a szemléletes tartalom, ami a definíciók és képletek mögött van, ami miatt
ezek ilyen – néha barátságtalan – formát kell, hogy öltsenek. Az elméleti
részeket pedig igyekeztünk minél több példával érthetővé tenni.
Törekedtünk arra is, hogy a könyv megértéséhez elegendő legyen a kö-
zépiskolai matematika anyag ismerete. Egyedül a mátrixokkal és vektorok-
kal kapcsolatos alapismereteket kell az olvasónak máshonnan elsajátítani:
ezekre a könyv utolsó fejezeteinek megértéséhez lesz szükség. Ajánljuk pél-
dául Freud Róbert: Lineáris algebra című könyvét (Freud 1996). Könyvünk
honlapjáról (www.biostatkonyv.hu) is letölthető egy rövid összefoglaló a
szükséges ismeretekről.
Azoknak, akik a középiskolában nem tanultak valószínűségszámítást,
vagy nehézségeik voltak vele, hasznos lehet egy bevezető valószínűségszá-
mítási könyv előzetes tanulmányozása is (például Solt, 2006).
Előszó 3

Van néhány dolog, amit – bár nem lett volna ellenünkre – mégsem tud-
tunk felvállalni. Tehát mit ne várjon a Kedves Olvasó a könyvünktől:

• Terjedelmi okokból lemondtunk a valószínűségszámítás részletes tár-


gyalásáról, csak egy néhány oldalas összefoglalóban ismertetjük a leg-
szükségesebb fogalmakat. Mentségünkre szolgál, hogy a magyar szak-
könyvpiacon valószínűségszámításból nagyobb a választék mint sta-
tisztikából, R-es bevezető statisztika könyv pedig egyáltalán nincsen;
mi elsősorban ezt a hiányt szerettük volna pótolni.

• A matematikai precizitásból a legtöbb helyen engedtünk, amiért a


matematikusoktól elnézést kérünk. Több definíción – a könnyebb ért-
hetőség kedvéért – egyszerűsítettünk, vagy csak szemléletes definíciót
adtunk. Ilyenkor megjegyzésben vagy apró betűs részben utalunk ar-
ra, hogy eltértünk a matematikai statisztikában szokásos definíciótól.

• Egy-egy mondatnyi megjegyzéstől eltekintve egyáltalán nem foglal-


kozunk a bayesi statisztikával. Egyrészt terjedelmi okokból, másrészt
azért, mert a statisztikával most először ismerkedők helyzetét nem
akartuk azzal nehezíteni, hogy egyszerre két különböző szemléletmó-
dot tárunk eléjük. Mentségünkre szolgál, hogy bayesi statisztika a be-
vezető kurzusok legtöbbjében egyáltalán nem, vagy legfeljebb csak az
említés szintjén szerepel.

• Az R szinte végtelenül gazdag lehetőségeinek bemutatása is meghalad-


ja e könyv lehetőségeit. Ha a Kedves Olvasó az R-et már valamennyi-
re tudja használni, akkor speciális problémáira – a túlélés-elemzéstől
kezdve a genomikáig – az interneten nagyon sok kész R csomagot
(értsd: kész programokat) találhat, amelyekhez készítőik részletes le-
írást is mellékeltek. Teljességre törekedni már csak azért is lehetetlen
volna, mert az R-es közösség tagjainak munkája révén nap mint nap
új R-csomagok készülnek. (A 2021 márciusában az elérhető csomagok
száma meghaladja a 17200-at!) Lehet, hogy az R lelkes felhasználójává
válván, egyszer majd a Kedves Olvasó is közzétesz egy saját fejlesztésű
csomagot.

• Könyvünk a kézi számoláshoz szükséges képletek közül csak a legalap-


vetőbbeket tartalmazza, lényegében csak azokat, amelyek a bevezető
kurzusokon a feladatok megoldásához kellenek. Ma már a számítógé-
pes programok alkalmazása mentesít a képletekkel való számolástól.
4 Reiczigel – Harnos – Solymosi: Biostatisztika

A mai felhasználónak inkább azzal kell tisztában lennie, hogy mikor


melyik módszert alkalmazhatja, mik a módszer alkalmazhatósági fel-
tételei, és hogy hogyan értelmezze az eredményeket, mintsem a számí-
tások részleteivel. Mégis, elsősorban a bevezető kurzusok hallgatóira
gondolva, a legfontosabb képletek alkalmazására bemutatunk néhány
kézi számolásos példát is. Hasonló a helyzet egyes klasszikus módsze-
rekkel: a gyakorlatban már sohasem használjuk őket, mert ma már
vannak sokkal hatékonyabb módszerek is, de a könyvből nem akartuk
kihagyni, mert a bevezető kurzusokon – elsősorban didaktikai okokból
– mégis ezeket tanítjuk.

• Az eljárásokat ismertető eredeti közleményekre nem hivatkozunk, csak


azt az R-függvényt adjuk meg, amellyel az eljárást végrehajthatjuk.
Ha valakit az eljárások elméleti háttere érdekel, akkor azt ajánljuk,
hogy az R-függvény leírásában (súgó) szereplő hivatkozásból induljon
ki. Ezenkívül az irodalomjegyzékben megadunk néhány „alapművet”,
amelyekben sok módszer részletes leírása megtalálható.

A könyv kézirata a LATEX szövegszerkesztő rendszer a windowsos MiKTeX


2.5-tel1 , majd a 2021-es utánnyomás már Ubuntu 18.04-es környezetben, a
Tex Live2 programmal és a Texmaker3 editor segítségével készült. Felhasz-
náltuk Fritz Leisch rendszerét, amellyel a TEX és R-kódokat együtt tudtuk
kezelni (Leisch 2002).
Könyvünk honlapjának címe: www.biostatkonyv.hu,
ahol a Kedves Olvasó a könyvben szereplő példák R-
kódjait, további segédanyagokat és programokat találhat.
Olvasóink visszajelzéseit is szívesen fogadjuk a honlapon
megadott e-mail címen.
A jelen kiadással egyidőben a tankönyv anyagának
összefoglalókkal kiegészített elektronikus változata is el-
érhető a statR.e-akademia.hu honlapon, ahol interaktív
R bevezető, R gyakorlatok és tudásellenőrző tesztek is segítenek az R és a
tananyagot mélyebben elsajátításában.

1
www.miktex.org
2
www.tug.org/texlive/
3
www.xm1math.net/texmaker/
Köszönetnyilvánítás 5

Köszönetnyilvánítás
Ezen könyv megszületése – bár csak három szerző jegyzi – nagyon sokak
munkájának, biztatásának, lelkesedésének köszönhető. Hálánk jeléül felso-
roljuk azokat, akik tevőlegesen hozzájárultak a könyv létrejöttéhez, tudva
azt, hogy rajtuk kívül még sokakat felsorolhatnánk. A könyv lektorálásában
részt vettek: Lang Zsolt, Kis János, Kiss Alexa, Abonyi-Tóth Zsolt, Lőkös
László, Valcz Gábor, Maróti-Agóts Ákos, Szőke Dominika, Speiser Ferenc,
Lakos András. Akiknek az adatait felhasználhattuk a példákhoz: Takács Er-
zsébet†, Székely Tamás, Kis János, Peregovits László, Kőrösi Ádám, Mán-
doki Míra, Nagy Péter, Kabai Péter.
Sokan támogatták erőfeszítéseinket azzal, hogy olyan körülményeket te-
remtettek nekünk, amelyek lehetővé tették a könyv megírását: Fodor János†,
Fodor László, Harnos Zsolt†, Kövér Szilvia, Demeter Márton, Szabó Gabri-
ella. Külön köszönet Demeter Mártonnak a 3., Piross Imre Sándornak a 4.
javított utánnyomáshoz nyújtott segítségéért.
Akik biztattak minket: Kis János, Varga Zoltán, Izsák János, Papp Pé-
ter László, Rózsa Lajos, Barta Zoltán, Pénzes Zsolt, Miklósi Ádám, Boda
Krisztina és még sokan mások.
És természetesen hálával tartozunk családtagjainknak – Szekeres Zsu-
zsának, Dala Sárának, Vattay Gábornak, Enikőnek, Gergőnek és Demeter
Daninak – azért, hogy elviselték a könyvírás nehéz időszakát.
Könyvünk 2007-es kiadása az Oktatási és Kulturális Minisztérium tá-
mogatásával, a Felsőoktatási Tankönyv- és Szakkönyvtámogatási Pályázat
keretében jelent meg, és a T049157 számú OTKA pályázat támogatásával
készült.

Budapest, 2021. március 10.


Reiczigel Jenő
Harnos Andrea
Solymosi Norbert

ÁTE Biomatematikai és
Számítástechnikai Tanszék
6 Reiczigel – Harnos – Solymosi: Biostatisztika

Hogyan olvassuk ezt a könyvet?


Könyvünk minden fejezetének hasonló a szerkezete. Valamennyi témát egy
általános bevezetővel kezdünk, majd az elmélet ismertetésével és példákkal
való illusztrálásával folytatjuk. Az elméleti magyarázatok néha apró be-
tűs részeket is tartalmaznak. Ezek olyan megjegyzések vagy kiegészítések,
amelyek a téma megértéséhez nem elengedhetetlenek, valamiért mégis fon-
tosnak tartottuk megemlíteni őket. Az apró betűs részeket az olvasó akár
át is ugorhatja, ez a megértést nem gátolja.
A példáknak három fajtája van:
• Csupán az elmélet illusztrálását szolgáló példák, ezekkel az olvasónak
nincs más teendője, csak az, hogy igyekezzék megérteni őket. E példák
célja, hogy segítségükkel az elméleti definíciókat szemléletes tartalom-
mal töltsük meg. Érdemes ezeken úgy végigmenni, hogy pontról pontra
megnézzük, hogy az előzőekben definiált fogalmak minek felelnek meg
a példában.
• Kézi számolással megoldható példák, amelyeket hasznos lenne, ha az
olvasó maga is végigszámolna. Sokszor csak így derül ki ugyanis, hogy
a módszer egyes részleteit is jól érti-e. A bevezető kurzusok hallgató-
inak a példák végigszámolása a statisztika dolgozatra való felkészülés
részeként mindenképpen ajánlatos.
• R-es példák, amelyeket – ha a Kedves Olvasó járatos az R-ben, vagy
meg szeretné tanulni a használatát – mindenképpen hasznos lenne,
ha kipróbálna. A példák kipróbálásához segítség a könyv honlapja,
ahonnan a könyvben szereplő R-kódok (= utasítások, programok) le-
tölthetők.
Az interaktív R bevezető, R gyakorlatok és tesztek még inkább meg-
könnyíti az elmélet és a kódolás megtanulását, illetve az outputok
értelmezését. (statR.e-akademia.hu)
Azt ajánljuk azonban, hogy a Kedves Olvasó sajátkezűleg is írjon R-
kódokat, mert ha csak a könyv honlapján találtakat másolja le és
futtatja, akkor egyes fontos részletek (zárójelek, határoló jelek, ma-
tematikai műveleti jelek, kis- és nagybetűk használata stb.) könnyen
elkerülhetik a figyelmét.
A könnyebb visszakereshetőség kedvéért a példáknak nevet adtunk, és
ha ugyanaz a példa különböző összefüggésekben többször is előkerül, a név
eleje megegyezik (például „Elléstől az ovulációig eltelt idő – előjelpróba” és
„Elléstől az ovulációig eltelt idő – Mood-féle mediánpróba”).
A példákban szereplő R-függvényeknek mindig csak azokat a paramé-
tereit ismertetjük, amelyeknek a szóban forgó példában szerepük van. A
Szükséges előismeretek 7

függvényeknek általában sokkal több paramétere van, amelyeknek az R sú-


gójában lehet utánanézni. Ha egy példában valaminek a jelentése vagy hasz-
nálatának módja nem derül ki egyértelműen, akkor is az R súgóját ajánljuk,
ahol általában további bemutató példákat találhatunk.
Az ábrákhoz tartozó R-kódokat nyomdatechnikai és tördelési követelmé-
nyek miatt esetenként meg kellett változtatnunk. Az ilyenkor alkalmazott
különleges beállítások kezdők számára érdektelenek, és valószínűleg értel-
mezhetetlenné tennék a kódokat, ezért ezek ismertetésétől eltekintünk. Ter-
mészetesen csak formai különbségekről van szó, az ábrák tartalma megegye-
zik a közölt R-kódokból előállítható ábrákéval.
A hagyományos számoláshoz a Függelékben eloszlástáblázatokat (stan-
dard normális, Student-féle t, khi-négyzet és F ) és egy véletlenszám-táblá-
zatot is közlünk.

Szükséges előismeretek
A teljes középiskolai matematika anyag ismeretét feltételezzük, de néhány
fejezetet külön is kiemelünk, mert ezek ismeretét különösen fontosnak tart-
juk. Egyik ilyen fejezet a logika. Érteni kell, hogy mit jelent az, hogy egy
állításból logikailag következik egy másik állítás. Tisztában kell lenni azzal,
hogy mit jelentenek – és mikor igazak – az „és”-sel, illetve „vagy”-gyal kép-
zett összetett állítások és a „ha-akkor” típusú kijelentések. Azt is tudni kell,
hogy hogyan képezhetjük az ilyen összetett állítások tagadását.
Ismerni kell a halmazműveleteket: a metszetet, egyesítést és a komp-
lementer halmaz képzését. Ismerni kell a kombinatorika alapfogalmait, de
legalább a faktoriális jelölést:
5! = 1 · 2 · 3 · 4 · 5, k! = 1 · 2 · · · · · k
és a binomiális együtthatókat:
! !
n n! 8 8! 8·7·6
= , = = = 56.
k k! · (n − k)! 3 3! · 5! 3·2·1

Tudni kell hatványokkal és logaritmussal számolni, ismerni kell a termé-


szetes alapú („e” alapú: ln) logaritmust is.
Reméljük, hogy valószínűségszámításból a középiskolás anyag – kiegé-
szítve a könyv valószínűségszámítás fejezetével – elegendő a további részek
megértéséhez.
Az utolsó fejezetekhez szükség lesz a mátrixokkal kapcsolatos alapismere-
tekre is, ezek azonban nem haladják meg a biológus, állatorvos stb. szakosok
bevezető matematika előadásaiban foglaltakat.
8 Reiczigel – Harnos – Solymosi: Biostatisztika

Jelölések, írásmód
A könyvben tizedesvessző helyett tizedespontot használunk, részint azért,
mert az R is tizedespontot használ, részint pedig azért, mert a statisztikában
sokszor kell felsorolnunk számokat, és tizedesvessző használata esetén ezek
a felsorolások olvashatatlanná válnának.
Nagyon kicsi és nagyon nagy értékeket az R normálalakban ír ki: például
a 0.00000000000689 szám normálalakja 6.89 · 10−12 . Ennek másik szokásos
formája a 6.89E-12, ahol az „E” az exponensre (= kitevő) utal. Figyelem,
az R kis „e”-vel írja, így: 6.89e-12!
Sokszor használjuk a szumma jelet, amely összegek tömör leírására szol-
gál. Két példa:

6 n
X 1 1 1 1 1 20 + 15 + 12 + 10 57 X
= + + + = = pk = p+p2 +p3 +. . .+pn .
j=3
j 3 4 5 6 60 60 k=1

P
Ha a jelnél nem írjuk ki, hogy mettől meddig összegzünk, akkor az
azt jelenti, hogy az összes lehetséges értékre (például az összes mintaelemre)
képezzük az összeget.
Igyekeztünk a statisztikában szokásos jelöléseket használni, így néhány
dolgot görög betűvel jelölünk. Nevezetesen az alábbi görög betűket hasz-
náljuk: α (alfa), β (béta), γ (gamma), ε (epszilon), λ (lambda), χ (khi),
τ (tau), µ (mű), σ (szigma), valamint Σ (nagy szigma).
A valószínűségszámításról szóló fejezetben azt az elvet követjük, hogy a
valószínűségi változókat nagybetűvel (X), a konkrét számértékeket pedig
kisbetűvel (x) jelöljük. Ennek előnye, hogy a képletekben egyértelmű, hogy
melyik betű jelöl változót és melyik konkrét számértéket. Sajnos a statisz-
tikáról szóló fejezetekben ezt már nem tudtuk következetesen alkalmazni,
elsősorban azért, mert más, ugyancsak megszokott jelöléseken, amelyek en-
nek az elvnek ellentmondanak, nem akartunk változtatni.
Ha egy változót vastag álló betűvel jelölünk, akkor az kisbetű esetén
vektort (például b1 ), nagybetű esetén mátrixot (például H) jelent.
A könyvben szereplő fontosabb fogalmak definícióját kiemeltük, és a defi-
nícióval együtt az angol elnevezést is megadtuk. Sajnos ugyanarra a fogalom-
ra gyakran mind a magyarban, mind az angolban több kifejezés is létezhet.
Ilyen esetekben igyekeztünk mind magyarul, mind angolul az összes ismert
elnevezést felsorolni, és rámutatni az esetleges értelmezésbeli különbségek-
re. Szintén kiemelten szedtünk olyan megállapításokat, amelyeket alapvető
fontosságúnak tartunk.
Ismerkedés az R-rel 9

A törzsszöveget, a példák szövegét és az R-kódokat, illetve függvény-


neveket, változóneveket stb. a könnyebb megkülönböztethetőség kedvéért
más-más betűtípussal szedtük.

Ismerkedés az R-rel
Könyvünk 2. javított utánnyomásában a statisztikai elemzésekhez és a leg-
több ábra elkészítéséhez az R 2.15.1 programot használtuk MS Windows
környezetben. A 5. javított utánnyomás kódjai Ubuntu 18.04 operációs rend-
szeren és R 4.0.2 verzión lettek futtatva.
Az R-ben a felhasználó a manapság megszokott menürendszer helyett
szöveges parancsokkal vezérli a programot. A program kezelő felülete az
RGui, ennek „R Console” ablakába írhatjuk be a parancsokat, és az ered-
ményeket is itt kapjuk meg (az ábrák kivételével, amelyek az „R Graphics”
ablakban jelennek meg). Az RGui ablakai minimális menürendszerrel ren-
delkeznek, amelyekben a szerkesztéshez, beállításokhoz, letöltésekhez, men-
tésekhez, súgóhoz stb. tartozó fontosabb funkciók érhetők el.
A menürendszerrel működő programokhoz képest az R tanulása nagyobb
kezdeti befektetést igényel felhasználójától, cserébe azonban sokkal többet
is nyújt. (A statR.e-akademia.hu-n elérhető egy ingyenes interaktív R
bevezető tananyag, melynek segítségével a Kedves Olvasó elsajátíthatja az
R alapszintű használatához szükséges ismereteket.) Tapasztalataink szerint
azok, akik R-rel kezdenek statisztikát tanulni, jóval többet értenek saját
elemzéseikből, mint azok, akik menüvezérelt programokkal kezdenek (persze
soha nem késő váltani).
Egy elemzéshez szükséges parancsok sorozata („szkript”, „program” vagy
„R-kód”) elmenthető és bármikor újrafuttatható. Ennek nagy előnye, hogy
ha sokszor kell ugyanolyan típusú elemzést végeznünk, akkor elég egyszer
elkészíteni a programot. Az R-kódokat célszerű részletes jegyzetekkel (kom-
mentekkel) ellátni, hasonlóan a program forráskódokhoz. Ez a kezdeti „több-
let” munka sokszorosan visszatérül, hiszen így sok évvel az elemzések elvég-
zése után is pontosan felidézhetjük elemzéseink legapróbb részleteit is.
A kódszerkesztést megkönnyíthetjük azzal, ha az RGui kódszerkesztő-
jét más szövegszerkesztővel helyettesíthetjük. Ilyen például a Tinn-R4 , az
RStudio5 vagy az RKWard6 , amelyek használata ingyenes, és többek között
képes az R programozási nyelv szintaxisának megfelelő szövegkiemelésre,
és egyszerre több szkriptet is szerkeszthetünk benne. Képesek az RGui-val
4
https://sourceforge.net/projects/tinn-r/
5
https://www.rstudio.com/
6
https://rkward.kde.org/
10 Reiczigel – Harnos – Solymosi: Biostatisztika

kommunikálni, azaz kódjainkat egyből futtathatjuk is ezekből a kódszer-


kesztőkből.
Egy menüből vezérelt program általában nem lehet olyan rugalmas, mint
egy szkriptnyelven működő, ez már az első néhány óra használat után nyil-
vánvalóvá válik. Az ilyen programok ráadásul sokkal gyorsabban fejleszt-
hetők. Ha valaki új statisztikai eljárást dolgoz ki, a már meglévő eljárások
felhasználásával könnyen készíthet rá R-programot, amely azonnal széles
körben használható. Némi gyakorlat megszerzése után már magunk is írha-
tunk egyszerű programokat.

Hogyan olvassuk az R-kódokat?


Az R-kódokat – akár a törzsszövegben, akár példákban szerepelnek – be-
tűtípusukkal is megkülönböztettük, így a szövegbe beszúrt R-kifejezések
(függvények neve, például t.test(), változónevek, például MAGASSAG, vagy
kulcsszavak, például alternative = 'two.sided' ) kellőképpen elkülönül-
nek a szöveg többi részétől.
A könyv R-es példáiban – a könnyebb tájékozódás kedvéért – a felhasz-
náló által beírt szövegek (kódok, parancsok) dőlt betűvel jelennek meg, míg
a program válaszai (az eredmények) nem.
A könyvben felhasznált kódok és adatok letölthetők a könyv honlapjáról
(www.biostatkonyv.hu). Ezek futtatásához az R telepítése, majd elindítása
után az RGui menüjével (File/Change dir ...) állítsuk be munkakönyvtárnak
azt a könyvtárat, ahová a kódokat és adatokat letöltöttük! Ezután nyissuk
meg a kipróbálni kívánt kódot (File/Open script)! Az utasításokat legegy-
szerűbben úgy futtathatjuk, hogy rálépünk a kurzorral az adott kódsorra
(több sor esetén kijelöljük a kódrészletet), és megnyomjuk az Ctrl-R vagy
F5 billentyűt, vagy a jobb egérgomb megnyomásával megnyíló kis menüből
választjuk ki az első menüpontot.
És most lássuk, hogy mi mit jelent a kódokban!

Jel Jelentés
> Az úgynevezett „prompt”, az R ezzel jelzi (az „R Console”
ablakban), hogy várja a felhasználó parancsait.
+ Akkor jelenik meg a prompt helyén, ha az előző sorban lévő
utasítást az R nem találta teljesnek, folytatásra vár.
1:5 Az 1, 2, 3, 4, 5 értékekből álló vektor.
Ismerkedés az R-rel 11

Jel Jelentés
= Értékadás: például az a = 12 parancs azt jelenti, hogy az a
változó értéke legyen 12, a b = 3:6 pedig azt, hogy a b legyen
a 3, 4, 5, 6 számokból álló vektor. Lehet helyette használni
a <-, illetve -> szimbólumokat is.
(...=...) Ha egy értékadó utasítást zárójelbe teszünk, akkor az R az
értékadás végrehajtása mellett ki is írja az eredményt (célja
csupán helytakarékosság).

^ Hatványozás, például a 2^3 jelentése 23 .


() Függvényargumentumok határolója, például mean(b) a b
vektor átlaga.
~ Formulában a függő és a magyarázó változó(ka)t vagy a be-
lőlük készített kifejezést köti össze.
8.88e-16 8.88 · 10−16 .
Inf Végtelen (az olyan nagy számot, amely már meghaladja az
R számábrázolási lehetőségeit, így jelöli a program).
[ ] Index: vektorok, mátrixok és táblázatok egyes elemeinek je-
lölésére szolgál. Az előbbi b vektorral például, b[3] a vek-
torbeli harmadik érték, vagyis az 5. Mátrixoknak, tábláza-
toknak két indexe van, az első a sort, a második az oszlopot
azonosítja. Ha valamelyiket elhagyjuk, akkor ez a mátrix egy
teljes sorát, illetve oszlopát jelenti, például a [, 2] a máso-
dik oszlopot.
Az eredmények kiírásakor a sorok elején azt jelenti, hogy a
sor elején álló szám az outputnak hányadik eleme. A kiírás
első sorában ez mindig [1]. Ha a kiírt számok elférnek egy
sorban, akkor nem is lenne rá szükség, de az R ekkor is kiírja.
$ Az adatmátrixot (táblázatot) és az abban levő oszlopot (vál-
tozót) köti össze. Így tudjuk megmondani, hogy melyik mát-
rix melyik oszlopáról van szó, például a pop$magas a pop
nevű adatmátrixban a magas nevű változó (= oszlop).
12 Reiczigel – Harnos – Solymosi: Biostatisztika

Olyan függvények, amelyek többször előfordulnak, és a szövegben később


már nem magyarázzuk el őket:
with() Például: with(regr.kurz,...), a regr.kurz adat-
mátrixszal végezzük el a . . . utasítást.
library() R-csomag betöltése.
as.numeric() Faktorból ideiglenesen numerikus változót állít elő (a
változó értékei egész számok lesznek, a szintek belső
kódjai).
legend() Ábrán cimkék pozicionálása, megadása és formázása.
par() Grafikus paraméterek beállítására szolgál, például a
par(mfrow = c(2,2)) a grafikus ablak felosztása 4
részre (2 sorra és 2 oszlopra).
c(1,2,4) Vektorrá fűzi össze az argumentumokat.
rep() Ismétlés, például rep(3,4) a 3-at ismétli 4-szer, ered-
ménye a (3, 3, 3, 3) vektor.
matrix() Mátrixot hoz létre egy számsorból.
cbind(),rbind() Vektorokat, mátrixokat vagy táblázatokat fűznek
össze oszlopok, illetve sorok szerint.
data.frame() Vektorokat, mátrixokat, táblázatokat egy táblázattá
fűz össze.

Gyakran használt függvényargumentumok


data Adatmátrix megadása.
T vagy TRUE Igaz.
F vagy FALSE Hamis.
xlab, ylab Ábrákon az x és y tengelyfeliratok.
pch Pontok típusának megadása.
bty A keret típusának megadása.
lty A vonal típusának megadása.
main A főcím megadása.
add Ha T-re (TRUE) állítjuk, akkor az
előző ábrát írja felül.
1. Bevezetés

1.1. Miért tanuljunk statisztikát?


Erre a kérdésre több lehetséges válaszunk is van. Lássunk néhányat:
1. Azért, hogy el tudjuk dönteni, elhiggyünk-e valamit, amit olvasunk,
vagy hogy észrevegyük, hol van benne a hiba, vagyis hogy ne dőljünk be
olyan könnyen a statisztikai bűvészkedéseknek, műtermékeknek és tévedé-
seknek. Lássunk néhány példát!
a) „Egy 2002-es tanulmány szerint azok, akik naponta nyolc óránál töb-
bet alszanak, az átlagosnál jóval nagyobb valószínűséggel halnak meg.”
b) „A Nemzeti Autópálya Rt. adatai szerint a matricák 85 százalékát
személygépkocsikra, 15 százalékát teherautókra veszik, ami azt jelzi,
hogy a fizető utak tarifáit a személygépkocsik tulajdonosai elfogadták.
Ez a százalékos eloszlás egyébként lényegében megfelel a gépjárműál-
lomány összetételének.”
c) „Hihetetlen mértékben emelkedett részvényeink ára az utóbbi idő-
ben” (1.1. ábra).
d) „Tavaly drámaian csökkentek a lakosság megtakarításai az előző év-
hez képest” (1.2. ábra).
e) „Csalás az átlagjövedelem számításában? Kiderült, hogy az emberek
többsége kevesebbet keres, mint az átlagjövedelem KSH által közölt
értéke!”
f) „Alvászavart okozhat a papírzsebkendő használata! 1500 fős repre-
zentatív mintán végzett vizsgálatunkban a 30 és 40 év közötti vidéki
diplomás férfiak körében erősen szignifikáns (p = 0.009) összefüggést
találtunk a papírzsebkendő használata és az alvászavarok előfordulása
között.”
Reméljük, hogy a Kedves Olvasó nem sajnál némi fejtörést, hogy megtalálja
a hibákat, illetve kifogásolható pontokat a fenti állításokban és következte-
tésekben (a megoldásokat lásd a következő részben).

13
14 Reiczigel – Harnos – Solymosi: Biostatisztika

1.1. ábra. „Hihetetlen mértékben emelkedett részvényeink ára az utóbbi időben.”

1.2. ábra. „Tavaly drámaian csökkentek a lakosság megtakarításai az előző évhez


képest.”

2. Azért, hogy jobban meg tudjuk ítélni, hogy szerencsénk volt-e, vagy
pechünk – vagy éppen egyik sem: ami történt, az általában így szokott
történni, ez a dolgok normális menete.
Az autóbusznak, amellyel nap mint nap járok, a tábla szerinti követési ideje
15 perc. Mivel nincs pontos menetrendje, úgy számoltam, hogy átlagosan
hét és fél percet kell várnom rá, de egy idő után az volt az érzésem, hogy a
helyzet ennél sokkal rosszabb. Nem voltam rest, lemértem 50 várakozási időt,
1.1. Miért tanuljunk statisztikát? 15

és ezekből az jött ki, hogy átlagosan 11 percet kell várnom a buszra. Ilyen
peches lennék? Vagy a tábla nem mond igazat? Vagy ez csupán véletlen? (a
megoldást lásd a következő részben)
3. Azért, hogy jobban meg tudjuk ítélni, mi mennyit ér, miért mennyit
érdemes kockáztatni. (Érdemes megjegyezni, hogy a valószínűségszámítás
kialakulásának idején – a tizenhetedik században – ezt az új tudományágat
a szerencsejátékok rejtélyes világa inspirálta, és eredményeinek első alkal-
mazásai is a szerencsejátékok területén voltak.)
Sorsjegyből 10000 db-ot nyomnak, közülük 1 fizet 1 millió forintot, 50 tíz-
ezret, 2449 pedig ezret (így ráírhatják, hogy „minden negyedik nyer legalább
1000, de akár 1 millió forintot”). A sorsjegyet 490 forintért árulják. Megéri-
e játszani? Szerencsének tekintené-e, ha egy ilyen sorsjeggyel nyert? Pech-
nek tekintené-e, ha nem nyert? És ha vett tízet, és egyik sem nyert? Hogyan
változnának a fenti kérdésekre adott válaszok, ha a 7500 „nem nyert” kö-
zül 1000-re azt írnák, hogy „újra húzhat”? (a megoldást lásd a következő
részben)
4. Azért, hogy pontosan értsük a szakirodalmat.
a) „A kísérlet során az állatok átlagos tömeggyarapodása a kezelt cso-
portban 44.6 ± 8.7 kg (n = 44), a kontrollban pedig 40.7 ± 14.7 kg
(n = 48) volt. A közel 10%-os különbség az átlagok között jelentős,
de statisztikailag nem szignifikáns (kétmintás Welch-féle t-próbával
p = 0.1279). Ugyanakkor a szórások között a különbség szignifikáns
(F -próbával p = 0.0007).”
b) „A vizsgálat szerint cukorbetegség esetén a stroke relatív kockázata
a nem cukorbetegekhez képest 2.56 (95%-os konfidencia-intervallum:
(1.37, 5.26), p = 0.009).”
5. Azért, hogy saját vizsgálataink tervezését, illetve kiértékelését ügye-
sebben el tudjuk végezni.
Mekkora mintával dolgozzak? Elhagyhatok-e egy gyanús, hibásnak látszó ada-
tot? Regresszió- vagy korrelációszámítást végezzek? A sok azonos célú – csak
részleteiben különböző – varianciaelemzés modell közül melyiket használjam?
Érdekes, váratlan eredményt kaptam: vajon most felfedeztem valamit, vagy
csak a véletlen játéka, amit látok? Mennyire megbízható, mennyire pontos
az eredmény, amit kaptam?
6. Azért, hogy eredményeinket érthetőbben és hatásosabban, a lényeget
kiemelve tudjuk közölni.
Az ember gyakran bizonytalan: elég, ha megadom az átlagokat és a szórá-
sokat? Minden átlaghoz külön adjam meg a szórást vagy csak egy közöset?
Vagy az átlag helyett jobb lenne a medián? Esetleg kellene az előadásba né-
hány táblázat vagy ábra is? Ha ábra, akkor kördiagram vagy oszlopdiagram?
16 Reiczigel – Harnos – Solymosi: Biostatisztika

Sokan megszokásból, mások pedig ellesett minták alapján döntenek: „lát-


tam egy hasonló témájú cikket, abban mediánt számoltak, és egy ilyen és
ilyen ábra volt...”
Reméljük, hogy könyvünk mindezekben a kérdésekben segít eligazodni.

1.2. Megjegyzések a példákhoz


1a) A tudomány jelen állása szerint mindenki biztosan – tehát 1 valószí-
nűséggel – meghal, azaz ennyi az elhalálozás átlagos valószínűsége is. És ezt
már semmivel sem lehet növelni. Lehet, hogy a sok alvásnak van valamilyen
kockázata, de az nem egyszerűen a halálozás valószínűségével kapcsolatos,
hanem valamely betegségben való vagy az átlagosnál korábbi elhalálozásé-
val, esetleg az adott életkorban, adott egészségi állapot, életmód stb. melletti
halálozási valószínűséggel. A cikkíró bizonyára minél rövidebben, a lényeg-
telen technikai részletek elhagyásával szerette volna összefoglalni a kutatás
eredményeit, de sajnos épp az egyik legfontosabb részletet hagyta ki. (Az
már más kérdés, hogy – még ha találtak is ilyen összefüggést – vajon eb-
ből következik-e, hogy a magasabb kockázatnak valóban a sok alvás az oka.
Oksági kapcsolat bizonyításához a statisztikai összefüggés kimutatása nem
elegendő. Ezzel kapcsolatban lásd a 4.2.2. fejezetet is.)
1b) Ha az eladott matricák 85–15%-os megoszlása megfelel a gépjármű-
állomány összetételének, akkor a személygépkocsik és tehergépkocsik tu-
lajdonosai pont ugyanannyira fogadták el a tarifákat. De hogy valójában
mennyire, arról ez a százalékos megoszlás semmit sem mond, hiszen a kö-
vetkeztetést levonhatták akár az első 100 vagy 200 matrica eladása után is.
Ebből a szempontból az lenne informatív, hogy a személy-, illetve tehergép-
kocsik hány százalékára vásároltak matricát (vagy még inkább az, hogy az
autópályát potenciálisan igénybe vevő gépkocsik hány százalékára).
1c) A perspektivikus ábrázolás, valamint az y tengely „ügyes” skálázása
segít félrevezetni az olvasókat. A feltehetően megtévesztő szándékú előadó
arra épít, hogy az ábra csak néhány másodpercig lesz látható, és ennyi idő
a hallgatóságnak nem lesz elegendő a trükk leleplezésére. Az 1.3. (a) ábra
ugyanazokat az adatokat ábrázolja perspektíva nélkül, de megtartva az y
tengely félrevezető skálázását. Az 1.3. (b) ábrán látható a diagram úgy, hogy
az y tengely 0-ról indul.
1d) A piktogram kombinálva a térbeli ábrázolással azt eredményezi, hogy
az olvasó a pénzeszsákokat nem magasságuk, hanem vélt térfogatuk szerint
hasonlítja össze. Így a valójában 16%-os csökkenés több, mint 40%-os csök-
kenésként érzékelhető. Ugyanez a csökkenés egy egyszerű oszlopdiagramon
sokkal kevésbé látszik drámainak (1.4. ábra).
1.2. Megjegyzések a példákhoz 17

(a) (b)
9000
8700 8000
8600 7000
6000
8500 5000
8400 4000
3000
8300 2000
8200 1000
0

Január Február Március Április Január Február Március Április

1.3. ábra. A részvényárak változásának grafikonja, ha az y tengely skálázása nem


nulláról indul (a), illetve ha nulláról indul (b)

2004 2005
1.4. ábra. Az oszlopok magasságának aránya ugyanakkora, mint az 1.2. ábrán lévő
pénzeszsákok magasságának aránya, a piktogramon a különbség mégis nagyobbnak
látszik

1e) Semmi különös nincs abban, hogy a népességnek több mint a fe-
le helyezkedik el az átlag alatt. Soha nem állította senki az átlagról, hogy
rendelkezne azzal a tulajdonsággal, hogy ugyanannyian vannak alatta, mint
felette. Van ilyen statisztikai mutató is, de az nem az átlag, hanem a medián
(további részletek a 4.2.1. fejezetben). Az átlag nem feltétlenül a tipikus, a
hétköznapi, a leggyakoribb érték. Jól példázza ezt a következő meghökkentő
állítás is: „Az emberek túlnyomó többségének az átlagosnál több lába van.”
Valóban, különböző betegségek vagy balesetek miatt az emberek egy csekély
18 Reiczigel – Harnos – Solymosi: Biostatisztika

hányada sajnálatos módon elveszíti egyik vagy mindkét lábát, aminek kö-
vetkeztében az átlag egy kicsivel kettő alá csökken. Ugyanakkor az emberek
túlnyomó többségének két lába van.
1f) A megfogalmazásból látszik, hogy a vizsgált 1500 fős mintát életkor,
nem, iskolai végzettség és lakóhely szerint csoportokra bontották. Feltehe-
tően nem szerint kettő, kor szerint – a 10 éves osztályszélességből követ-
keztetve – legalább öt, iskolai végzettség szerint legalább három, lakóhely
szerint legalább két csoportot képeztek. Ez összesen 2 · 5 · 3 · 2 = 60 cso-
portot jelent. Ha ilyen sok csoport mindegyikében elvégezzük ugyanazt a
statisztikai tesztet, akkor számítanunk kell arra, hogy néhányban – pusztán
a véletlen folytán is – erős összefüggés mutatkozik. Ráadásul a szöveg azt
sejteti, hogy a vizsgálat nem csupán a papírzsebkendőre és az alvászavarok-
ra terjedt ki, hanem számos további adatra, tehát az elvégzett statisztikai
tesztek száma akár több százra is rúghatott, vagyis nagyon valószínű, hogy
a közölt eredmény semmit sem bizonyít (vö. a többszörös összehasonlításról
írottakkal, 6.3.1. fejezet).
2) Lehet, hogy peches vagyok, az is lehet, hogy a tábla nem mond igazat,
de abból a megfigyelésből, hogy az átlagos várakozási idő 11 perc, egyik sem
következik. Az átlagos várakozási idő csak akkor lenne egyenlő a követési
idő felével, ha a buszok teljesen szabályosan – mindig pontosan 15 percen-
ként – követnék egymást, ez pedig a végállomástól távolabb eső megállókban
(legalábbis a budapesti buszokra) már nem igaz. Ha a buszok nem ponto-
san 15 percenként jönnek, akkor az átlagos várakozási idő mindig hosszabb,
mint az átlagos követési idő fele. Hogy mennyivel, az attól függ, mennyire
szabálytalan időközökből jön ki az átlagos követési idő: annál nagyobb a
különbség, minél nagyobbak az eltérések a szabályostól. Ezt számításokkal
is lehetne bizonyítani, de nem akarjuk ezzel terhelni az olvasót. Minden-
esetre az számolás nélkül is világos, hogy szabálytalan követési idő esetén
valószínűbb, hogy az ember valamelyik hosszabb intervallumban érkezik a
megállóba, mint az, hogy valamelyik rövidebben. Ez pedig megnöveli az át-
lagos várakozási időt, amely tehát szinte törvényszerűen nagyobb, mint az
átlagos követési idő fele. Szemléltetésül képzeljük el például azt a végletes
esetet, hogy így jönnek a buszok: harminc percig semmi, aztán két busz rög-
tön egymás után, megint harminc percig semmi, megint két busz egymás
után stb. (Néha sajnos tényleg így jönnek . . . ) Ekkor éppen megduplázódik
az átlagos várakozási idő a szabályos követéshez képest.
3) A 10000 sorsjegy után kifizetendő összes nyereség 1 · 1000000 +
50 · 10000 + 2449 · 1000 = 3949000 Ft, tehát az egy sorsjegyre jutó átla-
gos nyereség 3949000/10000 = 394.9 Ft, ami 95.1 forinttal kevesebb, mint a
sorsjegy ára. Tehát nem éri meg, csak az játsszon, aki bízik a szerencséjében!
1.2. Megjegyzések a példákhoz 19

(Na jó, ezt gondolhattuk volna, hiszen a sorsjegy kibocsátójának is meg kell
élnie valamiből. . . ) Mivel a nyerés valószínűsége csak 25%, aki nyer, szeren-
csésnek mondhatja magát. Aki nem nyer, az viszont nem peches, csak éppen
bejött a papírforma. Annak a valószínűsége, hogy tíz sorsjegyből egy sem
 10
nyer, 34 = 0.0056 = 5.6%, tehát aki így jár, az már jogosan bosszanko-
dik. Ha 1000 sorsjegyre a „nem nyert” helyett „újra húzhat” kerül, akkor
a 10000 sorsjegyből a vásárlók csak 9000 sorsjegyért fizetnek, 1000-hez az
újra húzás révén ingyen jutnak hozzá. Így a sorsjegyek átlagos ára most
490 Ft helyett csak 9000 · 490/10000 = 441 Ft, ami még mindig több, mint
az átlagos nyereség. A nyerés valószínűsége most körülbelül 27.8%, tehát
aki nyer, az most is szerencsés, aki nem, az pedig azt kapta, amire józanul
számíthatott. Tíz sorsjeggyel nem nyerni viszont most még nagyobb pech,
mint az előbb (valószínűsége kb. 3.9%).
4a) A kezdők ebből bizonyára egy kukkot sem értenek, de aki a rég elfe-
lejtett statisztikai ismereteit szeretné könyvünk segítségével feleleveníteni,
annak talán rémlik, hogy ilyen közlésekben a ± jel előtt a tömeggyarapodás
átlaga, utána pedig a szórása szokott állni, az n pedig annak a mintának
az elemszámát jelöli, amelyen a következtetések alapulnak. A „szignifikáns”
és a „p-érték” fogalmak pontos jelentésére már bizonyára kevesebben em-
lékeznek. A statisztikai hipotézisvizsgálatok részletes ismertetését lásd a 6.
fejezetben, egyelőre csak annyit, hogy a „statisztikailag szignifikáns” nagy-
jából azt jelenti, hogy „több, mint véletlen”, azaz „nem nagyon hihető, hogy
a véletlen játéka volna”, a p-érték pedig számszerűen is megadja, mennyire
valószínű, hogy a kapott eredmény a véletlen játékának tulajdonítható (te-
hát kis p-érték: szignifikáns, nem hisszük, hogy véletlen, nagy p-érték: nem
szignifikáns, könnyen lehet, hogy véletlen). Az átlagok közötti különbség-
re kapott p-érték 0.1279, azaz ekkora különbséget az átlagok között közel
13% valószínűséggel a véletlen játéka (a biológiai változatosság, a mérési
hibák stb.) is produkálhat. A szórások között tapasztalt mértékű eltérés
ezzel szemben 1/1000-nél is kisebb valószínűséggel írható a véletlen számlá-
jára, tehát bízhatunk benne, hogy ez valódi különbséget jelez. Jó szokás, ha
mindig megadjuk az alkalmazott statisztikai teszt nevét is, hogy az olvasó
tudja, melyik módszerrel kaptuk a közölt eredményt.
4b) Az, hogy a relatív kockázat egy csoportban egy másik csoporthoz
viszonyítva 2.56, azt jelenti, hogy a szóban forgó csoportban a betegség va-
lószínűsége 2.56-szor akkora, mint a másik csoportban. Mivel a 2.56 értéket
egy mintából kapták, ez nem feltétlenül egyezik meg a teljes populációban
érvényes relatív kockázattal. A 95%-os konfidencia-intervallum egy olyan
értéktartományt jelöl, amely 95% megbízhatósággal – azaz 5% tévedési va-
20 Reiczigel – Harnos – Solymosi: Biostatisztika

lószínűséggel – tartalmazza a populációbeli relatív kockázatot. A példához


lásd a 3.3. és a 5. fejezeteket is. A p-érték jelentése itt az, hogy a mintá-
ból kapott 2.56 szignifikánsan eltér 1-től (azért épp az 1-től, mert az, hogy
a relatív kockázat 1, azt jelentené, hogy a kockázat mindkét csoportban
ugyanakkora).

1.3. Hétköznapi valószínűségszámítás


és statisztika
Ebben a részben arról szeretnénk meggyőzni az olvasót, hogy a statisztikai
gondolkodáshoz szükséges szemléletmód csírájában mindnyájunkban meg-
van, hétköznapjainkban több-kevesebb tudatossággal használjuk is, de azért
legtöbbünknek nem árt egy kis „rátanulás”, a fogalmak pontosítása, egyes
fontos részletek tisztázása.
Néha úgy érezzük, hogy nagy pechünk volt, vagy éppen nagy szerencse
ért. „Azt vártam, hogy könnyű lesz a vizsga, mert az előző napi vizsgá-
zók mind négyest-ötöst kaptak, tanultam is rá, mégis megbuktam. Pechem
volt.” Amikor pechről vagy szerencséről beszélünk, mindig arról van szó –
akár tudatosan, akár nem –, hogy egy bekövetkezett eseményt az előzete-
sen neki tulajdonított valószínűséggel vagy egy megfigyelt számértéket egy
– különböző megfontolások alapján számított – feltételezett számértékkel
szembesítünk.
Az új kolléga méltatlankodik a buszmegállóban: „Micsoda pechem van
már megint! Öt napja dolgozom itt, és eddig mind az öt alkalommal a
te buszod jött előbb!”. A régi kolléga nyugtatgatja: „Ugyan, nézd meg a
menetrendet, mindkét busz tízpercenként jár, csak az enyém mindig egy
perccel előbb érkezik, mint a tiéd. Így az esetek 90%-ában ugyan az enyém
jön előbb, hosszú távon mégis ugyanannyi időt fogunk várakozással tölteni.”
Ahhoz, hogy valamire azt mondhassuk, pech, a dolognak kellemetlennek,
rossznak kell lennie. De egy rossz dolog még nem feltétlenül pech, csak ha
emberi számítás szerint nem kellett volna bekövetkeznie. Hasonlóképpen,
szerencséről akkor beszélünk, ha egy olyan jó dolog ér, amire előre nem
számíthattunk. Amikor azt latolgatjuk, hogy egy elért nyeremény szeren-
csésnek nevezhető-e, akkor értékét egy olyan feltételezett értékkel – a nye-
remény várható értékével – hasonlítjuk össze, amelyben benne foglaltatik a
lehetséges nyereményeknek mind a nagysága, mind pedig a valószínűsége.
„Óriási szerencsém volt, nagyon olcsón jutottam ehhez a lakáshoz” –
meséli valaki. Amikor véleményt formálunk erről a kijelentésről, gondolat-
ban kialakítunk magunkban egy reális vételárat a lakás helye, nagysága,
1.3. Hétköznapi valószínűségszámítás és statisztika 21

1.5. ábra. Tíz, az utóbbi hónapokban elkelt, barátoméhoz nagyjából hasonló lakás
ára (millió forint). Minden kör egy-egy lakás árát jelöli, a négyzet a barátomét. Ennek
alapján vajon jó vásárt csinált-e?

állapota alapján (modell!), és a tényleges vételárat ezzel hasonlítjuk össze.


Ha vannak ismereteink ugyanazon a környéken lévő, hasonló nagyságú és
állapotú lakások eladási áráról, akkor hasonlíthatjuk ezekhez, vagy ezek át-
lagához (vagy mediánjához? modellválasztás!) az ismerősünk által fizetett
árat (az átlagról és mediánról bővebben a 4.2.1. fejezetben). Az 1.5. ábrán
tíz, hasonló paraméterekkel rendelkező lakás eladási ára látható az utób-
bi hónapokból, fekete négyzet jelöli ismerősöm lakásának az árát. Ennek
alapján mit gondolunk, valóban óriási szerencséje volt?
Persze a válasz attól függ, milyen „modellel” dolgozunk. Érvelhetünk
úgy, hogy az átlagos árnál csaknem két és fél millióval olcsóbban jutott
hozzá, tehát szerencséje volt. De gondolkozhatunk úgy is, hogy mivel az
ábra szerint ilyen árfekvésben is vannak lakások, nem különösebb szerencse,
hogy rátalált egyre. Igaz, mondhatjuk, mégiscsak szerencse, hiszen tíz közül
nyolcan többet fizettek nála. Finomíthatjuk a modellt, ha belekalkuláljuk
a lakáskereséssel töltött időt is, így esetleg szerencsének gondoljuk, ha egy
hét alatt sikerült rátalálnia, de nem gondoljuk szerencsének, ha csak másfél
év keresgélés után.
Néha úgy érezzük, hogy ismerősünk – mint az előbb a buszmegállóban –
rosszul ítélte meg a körülményeket (rossz modellel dolgozott!), ekkor ilyen
válaszokat adunk: „Miért mondod, hogy ez nagy pech? Hiszen ez minden-
kivel számtalanszor megtörténik!” „Ne mondd, hogy peched volt! Én a he-
lyedben éppen erre számítottam volna!” „Na ne szerénykedj! Miért lenne
szerencse? Hiszen annyit dolgoztál érte, nagyon is megérdemled!”
Új lakásba költöztem, most kezdem kitapasztalni, mikor kell elindulnom
otthonról, hogy idejében beérjek a munkahelyemre. Ha tömegközlekedéssel
megyek, az két átszállást jelent, tehát körülbelül egy óra utazásra számítok.
Első nap minden jármű hamar jött, 53 perc alatt beértem. Második nap
sokat is kellett várni, lassan is ment minden jármű, 72 percig tartott az
22 Reiczigel – Harnos – Solymosi: Biostatisztika

5
Gyakoriság

45 50 55 60 65 70 75

1.6. ábra. Az utazási idő megoszlása: a diagram az első ötven utazás adatait ábrázolja

utazás. Vajon első nap volt ritka szerencsém, vagy másnap volt pechem?
Lehet ez is, az is, még nem tudom, majd meglátjuk, mi a jellemző. Úgy
két hónap múlva már elég jól ismerem az utazással töltött idő eloszlását,
nagyjából tudom, hogy hány perces utazás mennyire valószínű (1.6. ábra).
Ötven megfigyelésből a leggyorsabb, illetve a leglassúbb utazás 45, ill. 72
perces volt. (Azok számára, akik már tanultak statisztikát, azt is eláruljuk,
hogy az átlag 57.4, a medián pedig 57 perc.)
Ennek alapján már látszik, hogy az első napi 53 perc nem különösebb
szerencse, hiszen durván az esetek egyharmadában ennyi idő elegendő volt
az utazásra. A második napi 72 perc viszont valóban ritka pechnek szá-
mít, ötvenből csupán egyszer tartott ilyen sokáig az út. Az ábrán látható
mintázat – a több elkülönülő kis „dombocska” – inhomogenitást jelez, azt
sugallja, hogy a vizsgált jelenség több különböző típus keveréke. A jelen
példában gondolhatunk arra, hogy esetleg más utazási időre lehet számítani
hétfőn, kedden és pénteken, vagy hogy a vizsgált 50 nap éppen augusztus-
szeptemberre esik, és az ábrán a nyár és ősz közötti különbség jelenik meg.
A „kilógó”, a többiektől elkülönülő három értéket pedig valószínűleg valami-
lyen rendkívüli esemény (baleset, útlezárás) magyarázza. Az 50 megfigyelés
alapján azt mondhatjuk, hogy az esetek 5–10%-ában számíthatunk ilyenre.
A tudományos kutatásban ezeknél gondosabban megtervezett megfigye-
lések vagy kísérletek alapján vonunk le bizonyos következtetéseket, de az
esélyek mérlegelésére szolgáló gondolatmenetek a fentiekhez hasonlóak.
2. A statisztika alapfogalmai
A statisztika adatgyűjtéssel, majd a megfigyelt adatok lényegre törő ábrázo-
lásával, illetve elemzésével foglalkozik (Armitage et al. 2008; Freedman et al.
2005). Az elemzések célja a konkrét, egyedi megfigyelésekből általánosabb
érvényű következtetések levonása. A következőkben összefoglaljuk azokat a
legfontosabb fogalmakat és elnevezéseket, amelyekre a további fejezetekben
építeni fogunk, és amelyek az irodalom értő olvasásához is nélkülözhetetle-
nek.
Biológusok, figyelem! A populáció elnevezés a statisztikában is használa-
tos, de más a jelentése, mint a biológiában (lásd alább). Ebben a könyvben
populáció alatt statisztikai populációt értünk (ha valahol mégsem, akkor
ott mindig kiírjuk, hogy „biológiai populáció”).

2.1. Populáció és minta


Ahhoz, hogy a populáció és a minta fogalmát megértsük, először a megfi-
gyelési egység fogalmát kell tisztáznunk. Egy megfigyelési egység vagy
mintavételi egység (observational unit, sampling unit, subject) a vizs-
gálat alanya vagy tárgya, amelyen a méréseket, vizsgálatokat vé-
gezzük. Megfigyelési egység lehet egy Petri-csésze, egy vérminta, egy sejt-
csoport, egy szerv, egy 20 négyzetméteres mintaterület, egy 1 hektáros er-
dőrészlet, egy faj, egy egyed, egy nyáj, egy ember, egy család, egy iskolai
osztály, egy iskola, egy választókerület, egy település stb.
Bár azt, hogy mik legyenek a megfigyelési egységek, elsősorban az dönti
el, hogy mi a bennünket érdeklő kutatási kérdés, ezért a választásban az
is szerepet játszik, hogy egyáltalán mi vizsgálható, mi milyen pontosság-
gal mérhető stb. Soha ne nyugodjunk bele, ha egy vizsgálat tervezésekor
nem látjuk világosan, mi lenne a vizsgálatban a legmegfelelőbb megfigyelé-
si egység! Valójában ezt mindig magunknak kell eldöntenünk a kutatási cél
szem előtt tartásával. Természetesen a megfigyelési egységek megválasztásá-
tól függően a megfigyelt adatok is változhatnak. Például baromfi takarmá-

23
24 Reiczigel – Harnos – Solymosi: Biostatisztika

nyozási kísérletekben tipikus, hogy a súlygyarapodás állatonként mérhető,


de a takarmányfogyasztás csak ketrecenként, egyedenként nem. Most vajon
az egyedi állatot vagy a ketrecet tekintsük a megfigyelési egységnek? Ha az
egyedi állatot, akkor a takarmányfogyasztását jellemezhetjük az egy állatra
jutó átlagos takarmányfogyasztással (azaz azt feltételezzük, hogy ugyanab-
ban a ketrecben minden állat azonos mennyiséget fogyasztott), ha pedig a
ketrecet, akkor a ketrecbeli átlagos súlygyarapodást érthetjük súlygyarapo-
dás alatt.
Ha kell, megtehetjük azt is, hogy ugyanazon adatok egyik elemzésében
mást tekintünk megfigyelési egységnek, mint egy másikban. Vérparaméterek
vizsgálatakor például elképzelhető, hogy minden állatból azonos időpontban
3 vérmintát veszünk, mert azt is szeretnénk látni, hogy milyen pontossággal
ismételhető a mérés. Kérdés, hogy most mit tekintsünk megfigyelési egység-
nek, egy vérmintát vagy egy állatot, azaz 3 összetartozó vérmintát? Választ-
hatunk: ha elsősorban a mérés ismételhetősége érdekel, akkor a vérmintát,
ha pedig az állatok állapota, akkor az állatot, amely ekkor jellemezhető a
három mért adat átlagával (mert az átlag pontosabb, mint bármelyik egyedi
mérés). Ha ez is, az is, végezhetünk két elemzést, egyiket így, másikat úgy.
Vagy tegyük fel, hogy madárfészkeket számolunk sok 1-1 hektáros er-
dőrészletben, emellett minden fészekben megszámoljuk a lerakott tojásokat
is. Az így gyűjtött adatokat felfoghatjuk úgy, hogy a megfigyelési egység az
erdőrészlet, így minden erdőrészlethez van két adatunk, a fészkek száma és
a tojások össz-száma. Ugyanakkor gondolhatjuk úgy is, hogy a megfigyelési
egység a fészek, így minden fészekhez tartozik két adat, a tojások száma és
az erdőrészlet sorszáma, amelybe a fészek esik.
Már a fenti példák alapján is nyilvánvaló: nem mindegy, mit választunk
megfigyelési egységnek, hiszen már a mintanagyság is különböző egyik vagy
másik esetben. A választás azt is meghatározhatja, hogy mely statisztikai
módszereket alkalmazhatjuk, sőt a módszerek alkalmazhatósági feltételei is
eltérőek lehetnek.
A minta (sample) a ténylegesen megvizsgált, illetve vizsgálatra
kiválasztott megfigyelési egységek halmaza, míg a populáció vagy alap-
sokaság (population) az összes lehetséges, szóba jöhető mintavételi
egységet tartalmazó halmaz, amelynek a minta részhalmaza.
Valójában mindig a populáció az a kör, amelyre a vizsgálat irányul,
amelyre eredményeinket, következtetéseinket vonatkoztatni szeretnénk.
A populáció gyakran egy konkrét, jól meghatározott, véges halmaz –
például egy tehenészetbeli összesen 355 tehén –, de ez nem mindig van így.
Például egy, az allergiás bőrtüneteket enyhítő szerrel kapcsolatban beszélhe-
tünk az „allergiás bőrtüneteket mutatókról”, akikre a szer hatását vizsgálni
2.1. Populáció és minta 25

szeretnénk. Ezt „képzetes populációnak”, „végtelen populációnak” vagy „hi-


potetikus populációnak” is szokták nevezni, mivel beleértjük azokat is, akik
bárhol a világban, és bármikor – esetleg csak a jövőben – jelentkeznek majd
bőrtünetekkel. Végtelen populációból származó számszerű megfigyeléseket
a valószínűségszámításban a valószínűségi változó fogalmával modellezünk
(lásd a 3.4. fejezetben).
Vigyázzunk, hogy ne okozzon félreértéseket, ha egy vizsgálatban más a
statisztikai és más a biológiai populáció! A fenti – madárfészkek számlá-
lásáról szóló – példában a biológiai populációt a madarak, a statisztikai
populációt pedig az erdőrészletek (vagy a fészkek) alkotják. Általában is,
ha az adatok gyakoriságok, a megfigyelési egység mindig az, amiben a gya-
koriságot számoljuk – ehhez tartoznak ugyanis a megfigyelt számadatok –
még akkor is, ha biológiailag az az érdekesebb, amit számolunk.
Természetesen az a legmegbízhatóbb vizsgálat, amikor a teljes populá-
ciót megvizsgáljuk, de ez gyakran lehetetlen vagy túlságosan költséges vol-
na. Nyilvánvalóan lehetetlen végtelen populáció esetén, és akkor is, ha a
vizsgálat során a vizsgált objektum megsemmisül vagy tönkremegy. Így a
vizsgálat általában nem terjedhet ki a teljes populációra, csak egy kis részé-
re, a mintára. A minta mérete (= mintanagyság, mintaelemszám) (sample
size) mindig akkora kell, hogy legyen, amekkorára feltétlenül szükség van
a megkívánt pontosságú vagy megbízhatóságú eredményekhez! Ha a minta
túl nagy, az pazarlás (pénz, idő, energia), sőt ha a kísérleti alanyok emberek
vagy állatok, akkor etikai problémákat is felvet a szükségtelenül kockázat-
nak vagy szenvedésnek kitett kísérleti alanyok miatt. Ha a minta túl kicsi,
az pedig még nagyobb pazarlás, hiszen ha a kitűzött célt nem érjük el,
akkor az összes ráfordítás kárba ment, és az összes kísérleti alanyt feleslege-
sen tettük ki kockázatnak vagy szenvedésnek. Ezért van szükség – olykor
bonyolult – módszerekre az egyes vizsgálatokhoz szükséges mintaelemszám
meghatározásához (lásd az 5.6. és a 6.3.3. fejezeteket).
A vizsgálatban a minta képviseli a populációt, fontos tehát, hogy jól
tükrözze annak – a vizsgálat szempontjából lényeges – tulajdonságait. A
mintát valamely szempontból reprezentatívnak nevezzük, ha ab-
ból a szempontból jól tükrözi a populációt. Lehet, hogy egy minta
nem szerint reprezentatív, de életkor szerint nem. Valamely korcsoport le-
het túlreprezentált, másik pedig alul reprezentált a mintában. Ez azt jelenti,
hogy részaránya a mintában nagyobb, illetve kisebb, mint a populációban.
Ne kergessünk délibábot, nincs olyan mintavételi módszer, amely minden
szempontból tökéletesen reprezentatív mintát szolgáltatna! Ha lenne ilyen,
a statisztika jókora része fölöslegessé válna.
26 Reiczigel – Harnos – Solymosi: Biostatisztika

Valószínűségszámítás és matematikai statisztika tankönyvekben gyakran


olvassuk, hogy „legyen x1 , x2 , . . . , xn egy n elemű minta az X valószínűségi
változóból”. Itt a minta szó nem a megfigyelési egységekre utal, hanem a
rajtuk mért értékekre. A matematikai statisztikában populáció, il-
letve minta alatt nem megfigyelési egységeket, hanem az azokon
mért számértékeket értik. Matematikai szempontból mindegy ugyan-
is, hogy a megfigyelési egységek állatok, növények vagy bármi más. Az is
mindegy, hogy a mért adat az életkoruk, magasságuk vagy valami egyéb.
Absztrakt matematikai értelemben a megfigyelési egységek azonosíthatók
a rajtuk mért értékekből álló vektorokkal (= számsorokkal), így a minta
is csak számokból áll. Egyes megfigyeléseket valóban nem lehet másként
értelmezni: ha például minden reggel pontban kilenc órakor megmérem a
szobámban a hőmérsékletet, akkor itt tényleg nincs egy „jobb” populáció,
mint a lehetséges értékeké.
A statisztikai számítások kissé eltérnek véges és végtelen populációra,
sőt véges populáció esetén az sem mindegy, hogy a mintavétel visszatevéssel
vagy visszatevés nélkül történik. Visszatevéses mintavételnél ugyanaz
a megfigyelési egység többször is beválasztható a mintába, míg
visszatevés nélkülinél a már egyszer bekerültek nem választhatók
még egyszer. Végtelen populációra a visszatevéses és visszatevés nélküli
mintavétel közötti különbség elenyészik, ugyanis ekkor visszatevéses minta-
vétel esetén is 0 annak a valószínűsége, hogy egy megfigyelési egységet több-
ször kiválasztunk. Ha a populáció véges ugyan, de nagyon nagy, akkor jó kö-
zelítéssel alkalmazhatjuk a végtelen populációt, illetve visszatevéses minta-
vételt feltételező módszereket. Pontosabban ez akkor igaz, ha a minta kicsi a
populációhoz képest – mondjuk, ha egy több százezres populációból veszünk
egy néhány százas, vagy egy többszázas populációból egy 10–20 elemű min-
tát. Bár a leggyakrabban használt statisztikai eljárások végtelen
populációt, illetve visszatevéses mintavételt feltételeznek, haszná-
latuk véges populáció és visszatevés nélküli mintavétel esetén is
megengedett, ha a minta kisebb, mint a populáció 5%-a.
Jegyezzük meg tehát, hogy a matematikai statisztikában az alapértelme-
zés „a lehetséges értékek végtelen populációja” vagy „a lehetséges értékek
véges populációja visszatevéses mintavétellel”. Itt a hétköznapi ésszel sok-
kal természetesebb véges populáció és visszatevés nélküli mintavétel számít
különlegesnek. Ennek ellenére, mivel ritka az olyan vizsgálat, amelyben a
minta meghaladja a populáció 5%-át, ez alig okoz gondot.
2.2. Leíró és induktív statisztika 27

2.2. Leíró és induktív statisztika


A leíró statisztika (descriptive statistics) a statisztikának az az ága, ame-
lyik az adatokban rejlő információ emészthető formában való tá-
lalásával foglalkozik. Ez jelentheti az adatok rendezését, csoportosítását
(táblázatok), megjelenítését (grafikonok, diagramok, piktogramok), illetve
statisztikai mérőszámokkal való jellemzését (minimum, maximum, átlag,
szórás stb). A leíró statisztika azért fontos, mert nagy adatmennyiségek –
több ezer adat – esetén hiába tennénk közzé az összes számot, közönséges
halandó úgysem tudna mit kezdeni vele.
A leíró statisztika eszközei a különféle táblázatok (table), diag-
ramok (chart, plot, diagram) és statisztikai mérőszámok (statistic). Az
első kettőre példa a 2.1. táblázat és a 2.1. ábra, a statisztikai mérőszámokat
pedig egyszerűen a szövegben szokás közölni, például így: „A mintában a
testmagasság és a testtömeg között szoros összefüggést találtunk (Pearson-
féle korrelációs együttható: r = 0.53)”. Az ábrák információgazdagságának
szép példája a népességtudományban használatos „korfa”, amely nem és kor
szerinti bontásban szemlélteti a populáció összetételét (2.2. ábra).
Tipikus a leíró statisztika használata akkor, amikor teljeskörű adatfelvé-
tel történik, például népszámlálási vagy választási adatok, bejelentési köte-
lezettséggel járó fertőző betegségek esetén, vagy ha egy vizsgált állattartó
telepen valamennyi állat adatai rendelkezésre állnak stb. Már említettük
azonban, hogy legtöbbször nincs módunk a teljes populációt megvizsgálni,
ezért kénytelenek vagyunk csupán egy minta vizsgálatából levonni a
populációra érvényes következtetéseket. Ekkor lép színre az induk-
tív statisztika (statistical inference) az induktív szónak az „általánosító”
értelmében (mint az egyediből az általánosra való következtetés). Természe-
tes, hogy egy ilyen következtetéstől nem várjuk el, hogy 100% biztonsággal
helyes legyen, csak azt, hogy „nagy valószínűséggel”, ami általában – szak-
területtől függően – 90, 95 vagy 99%-os megbízhatóságot, azaz 10, 5 vagy
1% tévedési valószínűséget jelent. A megbízhatóság, illetve a tévedési va-
lószínűség pontos jelentését nem könnyű megérteni. A legegyszerűbb, ha
úgy gondolunk rá, hogy „ha sokszor alkalmazzuk a szóban forgó módszert,
akkor várhatóan az esetek hány százalékában kapunk helyes, illetve téves
eredményt”.
Az induktív statisztika két legjellemzőbb feladata a becslés (estima-
tion) és a hipotézisvizsgálat (hypothesis testing). A becslés a „Mennyi?
Mekkora? Hány százalék? stb.” kérdésekre vár választ, mégpedig egy (vagy
néhány) számot. A hipotézisvizsgálatban ezzel szemben „Igen/Nem” választ
28 Reiczigel – Harnos – Solymosi: Biostatisztika

2.1. táblázat. Testmagasság és testtömeg összefüggése táblázattal

Testtömeg
Testmagasság < 80 kg ≥ 80 kg
< 175 cm 243 75
≥ 175 cm 267 415

● ●
110 ●
● ●●●
● ● ● ●●
●● ● ● ●
●● ●
100 ● ●
●●● ●●● ● ●●● ●
● ●

●●●●
●●
●● ● ● ●●
● ● ●●
● ●
● ● ● ●●●●
● ● ● ● ●●● ●●
● ● ● ●●●● ●● ●● ●● ●● ●●
●●●●●● ● ● ●●●●●●●
● ●● ●●

●●
● ●● ●●● ●
Testtömeg (kg)

● ● ● ● ● ● ●●●
● ●● ●
● ●●● ●● ●
● ● ●
● ●●● ●
●● ●●● ●●● ●●● ●● ● ●● ●● ● ●● ● ●●● ● ● ●
90 ● ●●●
● ●●●● ●●
●● ●● ●● ●● ●

●●
●●● ●●
● ●●●
●●● ●●

●●●●●●●


● ●
● ●● ●
●●
● ● ●● ● ● ●
● ●●

●●●●● ●●


● ●●
●●●●●●●


●●

●●●
●● ●


●●● ●
●●
●●● ●● ●●
● ● ● ●
● ●●



●●●●
● ●
●●●● ● ●●

●●●●●●

●●● ●
●●
●●


●●●
●●
● ●●●●●
●●
●●


● ●●●

●●●● ●

●● ●● ●●●●● ● ● ●● ●● ●●
●●●● ● ●●●●
●●
●●●

● ●● ●●● ●● ● ●●● ● ●
● ●● ●● ●●● ●●
●● ●● ●●●●●● ●●
●●●●● ● ●●● ●
●●● ●
80 ●● ● ●●●●

● ● ● ●●
● ●●●●
●●●●●●●
●●
●● ●●●● ●
●● ●

●●●●●
●●

● ●

●●●
●● ●●
●● ● ●● ● ● ● ●●
●●●● ● ● ● ●
● ● ● ● ●● ●●● ●●
● ●●●● ●●● ●●●
● ●
●●
●●

●● ●
●●
●●
●●
●●
●●●
● ●●●
● ●● ●●●● ● ● ●

●● ●
● ●● ● ●●●
● ●

●●●●●●

●●●●●●
●●●●


●●
● ●

●● ●
●●●

● ●
●●●

●●


●●● ●●●●●



● ●
●● ●
● ●

● ●●●● ● ● ● ●
● ● ● ●● ● ●●
● ●● ●●
● ●●
● ●●●
● ●●
● ●●●● ●● ●● ● ●●

● ●●● ●● ●●● ● ● ●● ●●●● ●●● ● ●● ● ● ●● ●
70 ● ● ● ● ●●●
● ●●●●●● ●●●
●● ●● ●●
●●●


●● ●
●● ●● ●● ●●● ●
●●●●● ●●

● ●● ● ● ●
●●● ● ● ●● ● ●●●
● ●● ●● ●●
●●● ●●
●●●●●●●●
●●●● ●
● ●● ●●●●
● ●● ● ●●●●
● ●●● ● ●●

● ● ● ● ● ●●● ● ● ● ●
● ●
● ● ● ● ●●
● ● ● ●● ● ●● ●
● ● ● ●● ●●● ● ● ●
60 ● ●● ● ● ● ● ● ●
● ● ●
● ● ● ● ●● ●
●●● ● ●● ●
● ●
50 ● ●

160 170 180 190

Magasság (cm)

2.1. ábra. Testmagasság és testtömeg összefüggésének ábrázolása szórásdiagrammal

várunk az „Igaz-e? Fennáll-e? Van-e összefüggés. . . ? Van-e hatása. . . ? Van-e


különbség. . . ? stb.” kérdésekre.
A leíró és induktív statisztika nem mindig választható szét élesen. Ami-
kor több ezres mintákkal dolgozunk, akkor már a minta jellemzéséhez is
szükség van a leíró statisztika módszereire, bár a fő cél ilyenkor is a popu-
lációra érvényes következtetések levonása, amelyhez az induktív statisztika
szükséges. Másfelől kis minták esetén is előnyös a leíró statisztika mód-
szereinek – különösen a grafikus megjelenítésnek – az alkalmazása azért,
hogy az információkat szemléletesebben, illetve hatásosabban tudjuk közöl-
ni. Az induktív statisztikai vizsgálatokban azért is fontosak a leíró statiszti-
ka módszerei, mert segítségükkel jobban átláthatjuk adatainkat, észrevehet-
jük olyan tulajdonságaikat, amelyek döntően befolyásolják az elemzésükhöz
legmegfelelőbb módszerek kiválasztását.
2.3. Mintavételi módszerek 29

férfi ő
80+
75−79
70−74
65−69
60−64
55−59
Korcsoport

50−54
45−49
40−44
35−39
30−34
25−29
20−24
15−19
10−14
5−9
0−4

300 200 100 0 100 200 300

Lélekszám (millió)

2.2. ábra. A Föld lakosságának korfája 2006-ban (Forrás: U.S. Census Bureau, Inter-
national Data Base)

2.3. Mintavételi módszerek


Az induktív statisztikában a mintából vonunk le a populációra érvényes
következtetéseket. Nem mindegy azonban, hogy miként választjuk ki a min-
tát a populációból. A mintavétel módjától függ többek között az is, hogy
az elemzésre milyen eljárásokat, illetve az eljárásoknak milyen változatait
kell vagy lehet használnunk. A bevezető statisztika kurzusokon ismerte-
tett módszerek és számítások általában a legegyszerűbb esetre, az egyszerű
véletlen mintavételre érvényesek. Egyszerű véletlen mintavétel (simp-
le random sampling) esetén az alapsokaság minden egyede egyforma
eséllyel kerül a mintába. A mintavétel lehet visszatevéses (sampling with
replacement) vagy visszatevés nélküli (sampling without replacement) (vö.
26. oldal). Véges populáció esetén a visszatevés nélküli mintavétel a termé-
szetesebb, ha kivitelezhető. (Nem kivitelezhető, ha a megfigyelési egységek
azonosítása nem megoldható, például utasok, vásárlók, éttermi vendégek
számlálásakor, vadon élő állatok kamerás megfigyelése esetén stb.)
Végtelen populáció vagy visszatevéses mintavétel esetén a mintabeli ér-
tékek mint valószínűségi változók függetlenek (independent) egymástól (vö.
30 Reiczigel – Harnos – Solymosi: Biostatisztika

4.2.2. fejezet), amit röviden a „mintaelemek függetlensége” vagy a „függet-


len minta” elnevezésekkel fejezhetünk ki. Ez a legtöbb klasszikus statisztikai
eljárás alkalmazhatóságának egyik feltétele. Véges populáció és visszatevés
nélküli mintavétel esetén ez nem teljesül, de közmegegyezés szerint nagy po-
pulációból vett viszonylag kis minta esetén mégis megengedett e módszerek
használata (vö. 26. oldal). (Megjegyezzük, hogy ma már olyan módszerek
is vannak, amelyeknek nem feltétele a mintaelemek függetlensége (Pinheiro
& Bates 2006; Faraway 2016a).)
Ha az alapsokaságot valamilyen szempont (nem, kor stb.) sze-
rint részekre bontjuk, és ezekből az ún. rétegekből egymástól füg-
getlenül veszünk egyszerű véletlen mintákat, akkor rétegzett min-
tavételről (stratified sampling) beszélünk. Ha az egyes rétegekből vett
minták nagysága arányos a rétegek populációbeli részarányával, akkor a ré-
tegzett minta majdnem ugyanolyan, mint egy, a populációból vett egyszerű
véletlen minta (de azért nem teljesen, mert az egyszerű véletlen mintában az
egyes rétegek részaránya a véletlentől függ, míg a rétegzettben előre be van
állítva). De a rétegzett mintavétel általában nem így történik, legtöbbször
minden rétegből ugyanakkora mintát veszünk (például 100 nő és 100 férfi
vagy 300 beteg és 300 egészséges stb.), mert közel azonos méretű mintákkal
a statisztikai elemzések általában hatékonyabbak.
Mind az egyszerű véletlen, mind a rétegzett mintavétel általában a popu-
lációról készített teljes lista és sorsolás segítségével történik. A sorsoláshoz
régebben kizárólag véletlenszám-táblázatokat használtak (lásd 417. oldal),
de ma már gyakran számítógéppel (véletlenszám-generátorral) végzik.

2.1. példa. Véletlen számok mintavételhez Ha R-ben szeretnénk mondjuk az


1 . . . 1000 számok közül véletlenszerűen kiválasztani 20-at, akkor azt a következő kóddal
tehetjük meg:
> (minta = sample(1000, 20))

[1] 465 358 271 605 421 369 915 78 595 578 119 473 663 535 185 25
[17] 190 951 379 2

Az így kapott véletlen sorszámokat a sort() függvénnyel rendezhetjük nagyság szerint:


> sort(minta)

[1] 2 25 78 119 185 190 271 358 369 379 421 465 473 535 578 595
[17] 605 663 915 951

Gyakran lehet hallani vagy olvasni, hogy a véletlen mintavételnek az a


legnagyobb előnye, hogy a populációt a lehető legjobban reprezentáló min-
2.3. Mintavételi módszerek 31

tát szolgáltat. Ez nem egészen így van: ha a mintavételt a véletlenre bízzuk,


akkor ezzel éppen hogy megengedjük, hogy a minta esetleg ne legyen repre-
zentatív. Például, egyáltalán nem meglepő, ha egy egyszerű véletlen minta
kormegoszlása eltér a populációétól. Ha azt szeretnénk, hogy a mintabeli
kormegoszlás pontosan megegyezzen a populációbelivel, akkor kor szerint
rétegzett mintát kell vennünk, minden korosztályból akkora mintát véve,
amely arányos a korosztály populációbeli részarányával. Az egyszerű vélet-
len mintavétel nagy valószínűséggel ennél – legalábbis ebből a szempontból
– rosszabb mintát produkál. Tehát, ha valamilyen szempontból fontos a
reprezentativitás, akkor aszerint a szempont szerint érdemes rétegeznünk.
Akkor vajon mi az az előnye a véletlen mintavételnek, amely ilyen népsze-
rűvé teszi? Az, hogy a minták különbözőségéből, változékonyságából adó-
dó bizonytalanság, illetve ingadozás matematikai eszközökkel kiszámítható
abból a feltételből kiindulva, hogy az összes lehetséges minta egyformán va-
lószínű. Tehát bármely, a mintából számított érték (minimum, maximum,
átlag stb.) – a minta véletlenségéből következően – egy olyan véletlen szám
(valószínűségi változó) lesz, amelynek eloszlása a valószínűségszámítás se-
gítségével kiszámítható.
Sajnos véletlen mintavételre nem mindig van módunk. A legfőbb aka-
dály általában az, hogy nincs – és gyakran nem is készíthető – teljes fel-
sorolás a populációbeli megfigyelési egységekről. Végtelen populáció esetén
ez nyilvánvalóan lehetetlen, de gyakorlatilag véges populáció esetén is sok-
szor kivihetetlen. Az is előfordulhat, hogy lista ugyan készíthető – például
a TAJ-szám segítségével – de ezen a listán keresztül az egyedek nem elérhe-
tőek (például mert a lista a lakcímüket nem tartalmazza). Ilyen esetekben
más mintavételi módszerekre kényszerülünk.
Szabályos, szisztematikus mintavétel (systematic sampling) esetén
csak az első egyedet választjuk véletlenszerűen, a többit megha-
tározott mintavételi intervallumok kihagyásával (például minden ti-
zedik egyedet választjuk be vagy háromnaponként mintavételezünk). Ezt a
módszert leggyakrabban akkor szokták használni, ha az egyedek spontán
jelennek meg a vizsgálat látókörében, például betegek a rendelőben, ügyfe-
lek a hivatalban, vásárlók a boltban, jegypénztárnál, állatok az itatónál stb.
Szisztematikus mintavétel esetén a szokásos – a valószínűségszámítás alkal-
mazásával nyert, véletlen mintákra érvényes – statisztikai következtetéseket
(konfidencia-intervallumok, p-értékek stb.) fenntartással kell kezelnünk. Az
a gond ugyanis, hogy a mintavételi szabályunk összefügghet valamely más
változóval, és ekkor könnyen lehet, hogy a minta már nem reprezentálja
jól a populációt: ez az úgynevezett mintavételi torzítás (sampling bi-
as). Például, ha a rendelőben vagy a hivatalban minden nap az első beteget
32 Reiczigel – Harnos – Solymosi: Biostatisztika

vagy ügyfelet választjuk a mintába, akkor a koránkelők vagy a munkába si-


etők túl lesznek reprezentálva a ráérősökhöz képest (vagy az aktív dolgozók
a nyugdíjasokhoz képest). Ha sorsolással választunk, akkor ilyen torzítás
szóba sem jöhet, hiszen a véletlen számok a vizsgált folyamat változóival
semmiképpen nem függhetnek össze.
Csoportos (klaszteres) mintavételről (cluster sampling) akkor be-
szélünk, ha a megfigyelési egységeket nem tudjuk egyenként, egy-
mástól függetlenül kiválasztani (egy alom, egy fészekalj madárfióka, egy
gazdapéldányon fellelt paraziták, egy háztartásban élő emberek, egy iskolai
osztály stb.). Általában ezt a mintavételi módszert sem saját jószántunkból
választjuk, hanem a körülmények kényszerítenek rá. A klasszikus statisz-
tikai eljárások alkalmazása ilyenkor nem helyénvaló, mert azok független
mintát kívánnak, de ma már szép számmal vannak kifejezetten ilyen ada-
tok elemzésére való módszerek is (Pinheiro & Bates 2006; Faraway 2016a).
Azt azért általában ezek is feltételezik, hogy a csoportok kiválasztása (a
csoportok populációjából!) véletlen mintavétellel történt.
Természetesen a felsoroltakon kívül még nagyon sok más mintavételi
módszer létezik. Könyvünkben a módszereknek és mutatóknak csak az egy-
szerű véletlen mintavétel esetére érvényes változatát ismertetjük. Ha más
mintavételi eljárással dolgozunk, akkor elképzelhető, hogy már olyan egy-
szerű mutatókat is, mint az átlag vagy a szórás, más képlettel kell számolni.
Ha a Kedves Olvasó további mintavételi eljárásokat szeretne megismerni,
vagy arra kíváncsi, hogy az egyes mintavételi módszerek esetén hogyan mó-
dosulnak az elemzések és számítások, akkor figyelmébe ajánljuk Cochran
klasszikus munkáját (Cochran 1977).

2.4. Az adatok
Egy kutatási kérdés felvetődésétől általában több lépésen – és nagyon sok
fáradságon – keresztül vezet el az út addig, amíg a vizsgálat adatai összeáll-
nak. Ilyen lépések a kutatási kérdés pontosítása, operacionalizálása (= mér-
hető formában való megfogalmazása), a megválaszolásához szükséges mérési
módszerek megválasztása vagy kidolgozása, a vizsgálat részleteinek meg-
tervezése, a megfigyelési egységek kiválasztása, esetleges előkísérletek stb.
Ezekkel a kérdésekkel most nem kívánunk foglalkozni, csak annyit jegyzünk
meg, hogy ezek mind a kísérlettervezés (experimental design, study design)
vagy a kutatásmódszertan, illetve kutatástervezés (research methodology,
research planning) témakörébe tartoznak.
2.4. Az adatok 33

A vizsgálat elvégzése után az összegyűlt adatokat hagyományosan pa-


píron tárolták, manapság pedig a számítógépen, általában valamilyen táb-
lázatkezelő program segítségével (Excel, Calc stb.). Mivel a táblázatkezelő
programok a kockás papírt utánozzák, az emberek a számítógépes tárolás-
ra is ugyanolyan formát szoktak választani, mintha papírra írnának, azaz
amely a legkevesebb írásmunkával jár, és a szemnek is a legáttekinthetőbb.
Általában több kisebb, jól áttekinthető táblázatba csoportosítják az adato-
kat, kerülik az ismétlést, ismétlődő adatokat inkább fejlécbe tesznek, fontos
adatokat színekkel, kiemelésekkel, magyarázó szövegekkel jeleznek. Sajnos
a statisztikai programok másképp – sokkal egyszerűbben, mondhatni egé-
szen bután – gondolkodnak, számukra az egyetlen érthető forma a legegy-
szerűbb, csoportosítás és kiemelések nélküli elrendezés, egyetlen fejléccel,
egyes adatokat akár ezerszer is megismételve: ez az úgynevezett adatmátrix
(2.2. táblázat).

2.4.1. Adatmátrix
Az adatmátrix (data matrix) – az R-ben „data frame” a neve – egy olyan
táblázat, amelynek minden sora egy megfigyelési egységnek (személy,
állat, vérminta stb.), oszlopai pedig az egyes mért vagy megfigyelt
adatoknak (kor, nem, testtömeg stb.) felelnek meg. A sorokat esetek-
nek (case), az oszlopokat változóknak (variable) nevezzük. Ezt a szo-
kásos elrendezést és elnevezéseket azért kell ismernünk, mert a statisztikai
programok legtöbbje – így az R is – az elemzendő adatokat ilyen formában
várja, az eredmények kiírásakor pedig rendszerint a „case” és „variable” el-
nevezéseket használja. A továbbiakban a „megfigyelési egység” helyett mi
is legtöbbször a rövidebb „eset” elnevezést fogjuk használni, a „megfigye-
lési egységeken mért adat” helyett pedig „változó”-t mondunk. Célszerű az
adatmátrixot úgy elkészíteni, hogy első sora a változók nevét tartalmazza,
mert az R ezeket a neveket át tudja venni, és később a változókra az R-ben
is ezekkel a nevekkel hivatkozhatunk. Arra is van mód, hogy az adatmátrix
valamelyik oszlopa az esetek nevét vagy azonosítóját tartalmazza. Adatok
adatmátrix formában való elrendezésére példát mutat a 2.2. (b) táblázat.
Az adatok lehetnek akár számértékek, akár szöveges adatok, akár kódok.
A kódok olyan értékek, amelyek csak azonosításra szolgálnak: legyenek bár
számok, akkor sem számolhatunk velük: ilyen például a 2.2. (b) táblázatban
az ID nevű változó.
Ha az adatbevitelt táblázatkezelő programmal végeztük, és az adatokat
már a fenti – az adatmátrixnak megfelelő – formában rendeztük el, akkor
csak az a kérdés, hogy hogyan tudjuk ezt az R-nek átadni. Erre egy egyszerű
34 Reiczigel – Harnos – Solymosi: Biostatisztika

2.2. táblázat. Táblázat ugyanazokról a kísérleti adatokról, ahogy a táblázatkezelőben


saját magunk számára elrendeznénk (a), és ahogy a statisztikai programok várják (b).
Az ID az állat egyedi azonosítója (identifier)

(a)

(b)

és kényelmes módszer a táblázat „csv” (= comma separated values) formá-


ban való mentése, majd az R read.table() függvényével való beolvasása.

2.4.2. Adattípusok, mérési skálák


Láttuk, hogy az adatmátrixban nemcsak számok szerepelhetnek, hanem szö-
veges adatok, dátumok és kódok is. A változók típusa meghatározza, hogy
milyen műveleteket végezhetünk velük. Említettük azt is, hogy a számokkal
nem mindig számolhatunk, például fülszám, helyrajzi szám stb. (Persze, aki
statisztika címén csak átlagot tud számolni, az mindenből átlagot számol.
2.4. Az adatok 35

Anekdoták szólnak arról, hogy botcsinálta „statisztikusok” olykor még a


betegségkódokból és a postai irányítószámokból is átlagot számoltak.)
Az adatokat sokféleképpen lehet típusokba sorolni, a különböző statisz-
tika könyvekben többféle rendszerrel is találkozhatunk, amelyek közül csak
kettőt ismertetünk részletesen. Az egyik a változók mérési skála (mea-
surement scale) szerinti csoportosítása. Ebben négy mérési skálát külön-
böztetünk meg: nominális, ordinális, intervallum- és abszolút (vagy arány-)
skálát. A másik csoportosítás két típust tartalmaz: kvalitatív és kvantitatív
változókat. A kvalitatív változók nagyjából lefedik a mérési skála szerinti
csoportosításban az első két, a kvantitatívak pedig a második két típust.
A nominális (nominal) változó – mint a neve is mutatja – csak meg-
nevez, kategorizál, csoportba sorol, kódol. Értékei lehetnek akár szö-
vegek, nevek, akár számok, számolni nem lehet velük, se összeadni, se szo-
rozni, sőt az értékeknek még a nagyság szerinti sorrendje sem bír semmi-
lyen jelentéssel. Nominális változók a szemszín, családi állapot, felekezeti
hovatartozás, településnév vagy -kód, helyrajzi szám, postai irányítószám,
személyi szám, TAJ-szám, betegségkód, talajtípus stb. Magyarul a nominá-
lis változót nevezik csoportosító, csoportképző, megállapítható, kategóriás
vagy kategoriális változónak is.
Nominális változókkal nem nagyon lehet mást csinálni, mint leszámlálni,
hogy az egyes kategóriákba hány eset, illetve az esetek hányadrésze, vagy
hány százaléka esik. Az ilyen adatokat gyakorisági adatoknak (frequency
data) nevezzük.
Az ordinális (ordinal) változó szintén csoportba sorol, de értékeinek
egyértelmű természetes sorrendje van. Ugyan számolni a kódokkal
most sem tudunk (a kódok lehetnek akár betűk is), de rendezettek, azaz
sorrendjük értelmes jelentéssel bír. Ilyen változó például a vizsgaeredmény,
amelyet egyes országokban betűkkel, más országokban számokkal kódol-
nak. Az persze vicces, hogy attól, hogy az osztályzatok számok, mindjárt
ellenállhatatlan vágyat érzünk, hogy tanulmányi átlagot számoljunk. (Ahol
a vizsgaeredményeket A, B, C-vel kódolják, nincs ilyen kísértés.) Ugyan-
csak ilyen változó az iskolai végzettség, akár kódszámokkal jelöljük, akár
nevekkel. Sok kódolt változó is ordinális, például az alkoholfogyasztást kó-
dolhatjuk így: 1 = soha, 2 = évente egyszer-kétszer, 3 = havonta egyszer,
4 = hetenként, 5 = hetenként többször, 6 = minden nap. Nyilvánvaló, hogy
a számok itt sem szám-mivoltukban jelennek meg.
Az ordinális változóknál is a gyakoriságok leszámlálása az egyetlen ér-
telmes összesítés, de itt már – a természetes rendezés miatt – a kumulatív
gyakoriságok is értelmesek. A kumulatív (halmozott) gyakoriság (cu-
mulative frequency) azt jelenti, hogy nemcsak az adott osztályba
36 Reiczigel – Harnos – Solymosi: Biostatisztika

eső egyedeket számoljuk össze, hanem az adott és az összes őt


megelőző osztályba tartozókat is (lásd még a 4.1.1. fejezetben is).

2.2. példa. Matek osztályzatok – gyakorisági táblázat


Elsőéves férfi biológus hallgatók – egy (elképzelt) 1000 fős populáció, amely a későb-
biekben több példában is előkerül – matematika osztályzatairól készítünk gyakorisági
táblázatot a table() függvénnyel. Az adatokat a pop nevű adatmátrix – R-es szóhasz-
nálattal data.frame – tartalmazza. Az adattáblázat matek nevű oszlopára pop$matek
néven hivatkozhatunk. A gyakorisági táblázat:
> table(pop$matek)

1 2 3 4 5
232 198 188 191 191

A kumulatív gyakoriságokat (jelentésük: hányan kaptak legfeljebb kettest, legfeljebb


hármast stb.) az előbbi táblázatból a cumsum() függvénnyel készíthetjük el:
> cumsum(table(pop$matek))

1 2 3 4 5
232 430 618 809 1000

Az intervallumskálán (interval) mért változóval már végezhe-


tünk összeadást és kivonást, de a 0 érték nem az abszolút nulla,
ezért a szorzás-osztás és az arányítás („kétszer akkora”, „harmad-
annyi”) nem értelmes. A valódi számszerű változóink többnyire ilyenek,
ezekkel már gyakorlatilag mindegyik statisztikai módszer működik. Nyil-
vánvalóan ilyen a Celsius- vagy a Fahrenheit-skálán mért hőmérséklet, ahol
a 0 °C, illetve a 0 °F önkényesen választott 0 pontok (ellentétben a Kelvin-
skálával, amelynél a 0 abszolút nullának tekinthető). Valójában az abszolút
nullában az ember csak nagyon ritkán lehet biztos – még az életkort is
számíthatjuk a születés helyett a fogamzástól.
Az arány- vagy abszolút (ratio, absolute) skálán mért változóknak
a 0 abszolút nulla pontja, ezért ezekkel már a szorzás és osztás
is megengedett, mondhatjuk, hogy „x kétszer akkora, mint y” stb. Sok
fizikai változó ilyen, mint például a hosszúság vagy a tömeg, a darabszámok
stb. Szintén abszolút skála a hőmérséklet mérésére a Kelvin-skála. Ritka az
olyan statisztikai eljárás, amelyik csak arányskálájú adatokra alkalmazható
– ilyen például a relatív szórás (lásd 4.2.1. fejezet) vagy az origón átmenő
regresszió (lásd 9.5. fejezet) – a legtöbb módszer megelégszik intervallum-
skálájú adatokkal.
Fontos észben tartani, hogy egy változóhoz nem eleve adott, hogy mi-
lyen skálájú, hanem mindig mi döntjük el, hogy milyen skálájúnak ésszerű
2.4. Az adatok 37

tekintenünk. Sőt, már azt is mi döntjük el, hogy egyáltalán hogyan mérjünk
egy bizonyos, minket érdeklő mennyiséget. Például, ha egy anyag jelenléte
érdekel a vérben, akkor mérhetjük egy gyors teszttel, amely csak igen-nem
választ ad, és amelyet esetleg kiegészíthetünk egy „lehet, de nem egyértel-
mű” kategóriával a határesetekre: így egy ordinális skálájú változóhoz ju-
tunk. Ha műszeres mérést végzünk, akkor egy számértéket kapunk az anyag
koncentrációjára. Ha úgy akarjuk, tekinthetjük ezt a változót abszolút ská-
lájúnak, de elképzelhető, hogy a nulla pont a műszer kalibrálásától függ,
ezért lehet, hogy jobb, ha csak intervallumskálájúnak tekintjük.
Vagy képzeljük el, hogy zajszintet mérünk egy olyan műszerrel, amelyen
egy gombbal beállíthatjuk, hogy W/m2 -ben vagy dB-ben mérjen. A mért ér-
ték mindkét esetben egy fizikai mennyiség számszerű kifejezése, bármelyikre
könnyen rámondanánk, hogy intervallum-, sőt akár hogy abszolút skálájú.
De tudjuk, hogy a dB skála logaritmus-transzformáltja a másiknak, tehát
nem lehet mindkettő még intervallumskálájú sem! Akkor melyik az igazi?
Érvelhetünk úgy, hogy a W/m2 az a fizikai mennyiség, amelynek abszo-
lút nulla pontja van, a teljes csend, a másik pedig származtatott változó,
tehát az nem lesz sem abszolút, sem intervallumskálájú. De tudjuk, hogy
hangosság-érzetünket a dB skála tükrözi hívebben: a zajt annyival érezzük
erősebbnek, amennyivel az a dB skálán mérve nagyobb, tehát az érzékelt
hangosságbeli különbségeket az tükrözi hívebben. Az, hogy melyiket tekint-
sük intervallumskálájúnak, attól függ, hogy a fizikai inger, vagy az érzékelés
szintjén szeretnénk-e kifejezni a zaj erősségét. Azt pedig, hogy kutatási cél-
jainknak melyik a megfelelőbb, mindig magunknak kell eldöntenünk.
Külön említést érdemelnek azok a nominális változók, amelyeknek
csak két értékük van. Ezek az úgynevezett dichotom vagy bináris
(dichotomous, binary) változók. Ezekre egészen speciális elemzési módsze-
reket dolgoztak ki. A dichotom változók két értéke gyakran természetes mó-
don rendezett, például amikor a két lehetséges érték igen/nem, van/nincs,
pozitív/negatív stb. Ilyenkor bizonyos elemzésekben tekinthetjük őket ordi-
nális skálájúnak is, így például beszélhetünk két tulajdonság megléte között
vagy két diagnosztikai teszt eredménye között fennálló pozitív vagy negatív
korrelációról.
A másik csoportosítás szerint a nominális és ordinális változókat
együtt kvalitatív változóknak, vagy R-es szóhasználattal faktoroknak
(factor) nevezzük. Ezeket kódolhatjuk szöveggel, betűkóddal, vagy akár
számmal is, de matematikai műveleteket akkor sem végezhetünk velük. Ha
az R-ben faktorral próbálunk matematikai műveletet végezni, figyelmeztető
üzenetet kapunk.
38 Reiczigel – Harnos – Solymosi: Biostatisztika

A kvantitatív változók – az R-ben numerikus (numeric) változók-


nak nevezik őket – magukban foglalják az intervallum- és az abszolút
skálájú változókat. Ezekkel az R az összes matematikai számítást megen-
gedi. Később látunk majd rá példát, hogy az R valamely eljárást faktorokkal
és numerikus változókkal egyaránt végrehajt, de a számítások – és persze
az eredmények is – különböznek aszerint, hogy az elemzést faktorral vagy
numerikus változóval végezzük.
Ha egy változó értékei nem számok, akkor azt a változót az R magától
is faktornak tekinti. De ha egy faktort számokkal kódolunk, akkor az R-nek
külön meg kell mondanunk, hogy ez faktor (különben az R azt feltételezi,
hogy a számok tényleg számok, ami az elemzések eredményére is hatással
van). Erre szolgálnak a factor(), illetve a as.factor() függvények. Ha a
matek változót faktorrá szeretnénk alakítani:

> pop$matek = factor(pop$matek)


> str(pop$matek)

Factor w/ 5 levels "1","2","3","4",..: 3 1 5 1 1 4 3 2 5 4 ...

A faktorrá alakítás után ellenőrzésképpen az str() függvényt is meg-


hívtuk. A függvény felsorolja a faktor kategóriáinak nevét (a példában az
idézőjel jelzi, hogy ezek nevek és nem számok), majd az adatmátrix első
néhány esetére a faktor belső kódjait.
A kvantitatív – azaz számértékű – változókat tovább bonthatjuk diszkré-
tekre és folytonosakra. Diszkrét változónak (discrete variable) az olyan
változót nevezzük, amelynek összes lehetséges értékét szépen egy-
más után fel tudjuk sorolni úgy, hogy van egy első érték, egy második
érték stb. Ezt nyilvánvalóan mindig megtehetjük, ha a lehetséges értékek
halmaza véges, és esetenként akkor is, ha végtelen (például, ha az értékek a
természetes számok).
Az olyan végtelen halmazokat, amelyeknek elemeit így fel lehet sorolni, megszámlál-
hatóan végtelen halmazoknak nevezzük. Bizonyítható, hogy nem minden végtelen hal-
maz elemeit lehet így felsorolni, például az összes valós számot, vagy egy intervallumbeli
(mondjuk a [0, 1]-beli) összes valós számot sem; az ilyen végtelen halmazokat nem meg-
számlálhatóan végtelennek nevezzük.

Folytonos változónak (continuous variable) az olyan változót ne-


vezzük, amelynek lehetséges értékei a számegyenesen egy folyto-
nos tartományt – például egy intervallumot – alkotnak. Az inter-
vallum lehet végtelen hosszú is, sőt akár a teljes számegyenes is (= az összes
valós szám).
A változók szokásos csoportosításait a 2.3. ábra foglalja össze.
2.4. Az adatok 39

kvalitatív változók kvantitatív változók


(R: faktorok) (R: numerikus változók)
(skála: nominális vagy ordinális) (skála: intervallum- vagy abszolút)
(mat. stat.: valószínűségi változók)

diszkrét változók folytonos változók

2.3. ábra. Változók osztályozása

A kvantitatív változók – legyenek akár diszkrétek, akár folytonosak –


matematikai modellje a valószínűségszámításban a valószínűségi változó.
Erről részletesebben a 3.4. fejezetben lesz szó.

2.4.3. Transzformációk, származtatott változók


Mivel az alábbiakban több olyan dologról is említést teszünk, amelyek kez-
dők számára valószínűleg nem sokat mondanak, azt ajánljuk, hogy a sta-
tisztikával most első ízben ismerkedők ezt a fejezetet a becslések és hipoté-
zisvizsgálatok ismeretében olvassák majd újra.
Származtatott vagy képzett változónak az olyan változót ne-
vezzük, amelyet nem megfigyelünk, hanem más változókból ma-
tematikai vagy logikai műveletekkel számolunk ki. Ilyenek például a
testtömeg-index, a „fehérje % a szárazanyagban”, vagy kérdőíves felmérések-
nél egy kérdéscsoportra adott pontszámok összege stb. Ilyen származtatott
változókat nagyon könnyen készíthetünk az R-rel, nem érdemes erre másik
programot használni (ld. 2.3. példa).
Gyakran az a helyzet, hogy nem tudjuk – vagy túl nehéz lenne, ezért
nem éri meg – azt a változót megmérni, amire szükségünk lenne, de helyet-
te meg tudunk mérni egy másikat, amelyikből amaz közelítőleg meghatá-
rozható. Ilyen eset például, amikor egy szerv vagy képlet térfogatát, illetve
tömegét kell meghatároznunk ultrahangos vizsgálat alapján, vagy ha egy
állat testfelszínét kell megbecsülnünk a lineáris méreteiből. Ilyenkor általá-
ban elméleti megfontolásokon alapuló – pontos vagy közelítő – képletekkel
számolunk.
Néha a szakma hagyományai határozzák meg, mit hogyan szokás transz-
formálni. Van olyan szakterület, ahol inkább a hullámhosszal, máshol in-
40 Reiczigel – Harnos – Solymosi: Biostatisztika

kább a frekvenciával „illik” dolgozni. Szintén a tradíció dönti el, hogy a


hidrogénion-koncentrációval vagy a pH-val számolunk-e.
De az is lehet, hogy „ad hoc” csak azért transzformálunk, hogy az ada-
tokra teljesüljenek valamely statisztikai módszer alkalmazhatósági feltéte-
lei. Ilyenkor legtöbbször az a cél, hogy (1) a transzformált változó eloszlása
közelítőleg normális legyen, vagy (2) regressziószámításnál a függő válto-
zó szórása a magyarázó változók teljes tartományában azonos legyen, vagy
(3) két változó közötti nemlineáris kapcsolat lineárissá váljon. Most csak az
elsővel foglalkozunk, a másik kettőről a regressziószámításról szóló, 9. feje-
zetben lesz szó. Vigyázzunk, megtörténhet, hogy egy bizonyos célra alkalmas
transzformációnak más szempontból „káros mellékhatása” van, például egy,
a linearizálás céljából alkalmazott transzformáció elronthatja a normalitást.

2.3. példa. Testtömeg-index kiszámítása R-rel


Számítsuk ki az elsőéves egyetemisták testtömeg-indexét (body mass index, BMI) a
magasságuk (magas) és testtömegük alapján (tomeg)!
A testtömeg-index képlete:
testtömeg
BM I = ,
magasság2
a testtömeget kg-ban, a magasságot méterben mérve. A megfelelő R kód:
> pop$BMI = pop$tomeg/pop$magas^2 * 10000
Az 10000-rel való szorzásra azért van szükség, mert a pop adattáblázatban a magasság
cm-ben van megadva. Az eredmény (csak a pop állomány első három sorát, azaz az
első három eset adatait íratjuk ki):
> pop[1:3, ]

magas tomeg matek biol matek.kat BMI


1 183 73 3 3 rossz 21.79820
2 176 99 1 3 rossz 31.96023
3 179 84 5 5 jo 26.21641

Egy változó eloszlásán (distribution) egyelőre értsük azt a mintázatot,


ahogyan a megfigyelt pontok elhelyezkednek a számegyenesen. (Az eloszlá-
sokkal kapcsolatban lásd még a 3.4. és a 3.5. fejezeteket.) Ebben az értelem-
ben egy tartományon egyenletes (uniform) eloszlásról akkor beszélünk, ha
a tartomány egyik részében sem sűrűbb a pontok mintázata, mint másutt
(2.4. ábra (a) adatsor). Egycsúcsú (unimodal) eloszlásról akkor beszélünk,
ha a megfigyelések a tartományban egy hely környékén sűrűbbek, mint má-
sutt (2.4. ábra (b) adatsor), többcsúcsúról (multimodal) pedig akkor, ha
több ilyen sűrűsödési hely van (2.4. (c) adatsor). A „csúcs” elnevezés ma-
2.4. Az adatok 41

a ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ●●●

b ● ● ● ●●● ● ●●● ●●● ● ● ● ● ● ● ● ● ●

c ●● ● ● ●●● ●● ● ● ●● ● ● ●● ● ● ● ●● ● ●

d ●●●●●●●● ●● ● ● ● ● ● ● ●●● ● ● ● ● ●

e ● ● ● ● ● ●●●● ● ● ● ● ● ● ●● ●●●●●●●●

0 20 40 60 80 100

Értékek

2.4. ábra. Különböző eloszlás-mintázatok 25-25 ponttal ábrázolva: az egész tartomá-


nyon egyenletesen sűrű (a), középen sűrűbb, a szélek felé mindkét oldalon szimmetri-
kusan egyre ritkuló (b), két helyen sűrűsödő (c), jobbra elnyúló vagy jobbra ferde (d),
balra elnyúló vagy balra ferde (e)

gyarázatáról lásd a 3.4. ábrát a 3.4. fejezetben. Ferde (skewed) eloszlás az


olyan, amelyik egycsúcsú ugyan, de nem szimmetrikus: a sűrűsödési helytől
balra és jobbra távolodva a pontok sűrűsége nem azonos mértékben csök-
ken (2.4. ábra (d) és (e) adatsorok). Úgy is mondhatjuk, hogy a pontok
egyik irányban jobban elnyúló mintázatot mutatnak. A nagyobb értékek
irányában (jobbra, felfelé, + irányban) elnyúló eloszlást jobbra ferdének
(right skewed) (2.4. ábra (d) adatsor), a kisebb értékek felé (balra, lefelé,
− irányban) elnyúlót pedig balra ferdének (left skewed) nevezzük (2.4. áb-
ra (e) adatsor). Jobbra ferde az összes olyan változó, amelyek értékei nem
lehetnek negatív számok, de szélsőségesen nagy értékek azért előfordulnak.
Tipikusan ilyen a jövedelem-eloszlás.
A normális vagy Gauss-eloszlás (normal distribution, Gaussian distribu-
tion) egycsúcsú, szimmetrikus eloszlás: a sűrűsödési hely a tartomány kö-
zepén van, és tőle balra és jobbra a pontok sűrűsége a távolságtól függően
ugyanolyan ütemben csökken (2.4. ábra (b) adatsor). (A normális elosz-
lásnak ezen kívül még más, sajátos tulajdonságai is vannak, de azoknak
már nincs olyan szemléletes jelentése, amely pusztán a mintázat szemrevé-
telezése útján észlelhető.) A statisztikában a normális eloszlás azért játszik
különösen fontos szerepet, mert a vizsgált változók nagyon gyakran – leg-
alábbis közelítőleg – normális eloszlásúak, valamint mert sok statisztikai
eljárás csak normális eloszlású változókkal működik helyesen. Azért, hogy
42 Reiczigel – Harnos – Solymosi: Biostatisztika

(a)

●● ●●●●●●●●●●●●●● ● ● ● ● ●● ● ●

0 20 40 60 80 100

Érték

(b)

● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ●● ● ● ●● ● ●

0.0 0.5 1.0 1.5 2.0

Érték

2.5. ábra. Jobbra ferde eloszlásból származó 25 érték (a) és logaritmus-transzfor-


máltjaik (b). Tízes alapú logaritmust (lg) használtunk, hogy az értékek változása
könnyebben követhető legyen. A legkisebb és legnagyobb érték 1, illetve 98, transzfor-
máltjaik: lg(1) = 0, lg(98) = 1.99. Az értékek 10 körül sűrűsödnek, transzformáltjaik
lg(10) = 1 körül

ezeket az eljárásokat is alkalmazni lehessen, bevett szokás, hogy a ferde


eloszlású változókat különféle transzformációkkal próbálják normális elosz-
lásúvá tenni (sajnos, elég gyakran gondolkodás nélkül). A leggyakoribbak a
hatvány- és gyök-, valamint az exponenciális és logaritmus-transzformációk.
Jobbra ferde eloszlás esetén a gyök- vagy a logaritmus-transzformáció se-
gíthet, balra ferde eloszlás esetén a hatvány- vagy exponenciális függvénnyel
való transzformáció. Ezek mind úgy működnek, hogy megváltoztatják az
értékek közötti távolságokat: az értéktartomány egyik szélén nyújtják, a
másikon pedig összenyomják a skálát (2.5. ábra).
Más esetekben másfajta transzformációkkal érdemes próbálkozni – re-
latív gyakoriságokra például az arcsin (arkusz szinusz) függvényt szokták
ajánlani –, de a sikerre nincs garancia, előfordulhat, hogy az eloszlást sem-
milyen transzformációval nem tudjuk – még közelítőleg sem – normálissá
tenni. Két fontos figyelmeztetés:
1. Megtörténhet, hogy az eredeti adatok biológiailag jól interpretálha-
tók, a transzformált adatoknak viszont már nem tudunk biológiai jelentést
tulajdonítani. Ilyenkor inkább ne transzformáljunk, hanem keressünk ferde
eloszlásokkal is működő módszereket!
2.4. Az adatok 43

2. Ne akarjuk mindenáron az adott mintához „legjobb” transzformációt


megtalálni! Egy ilyen transzformáció nagy valószínűséggel nem lesz jó a
következő mintához. Többet ér, amelyik ugyan gyengébben, de egyenletesen
jól teljesít.
Egy sajátos transzformáció az úgynevezett standardizálás vagy stu-
dentizálás (standardization, studentization). Erre akkor van szükség, ami-
kor sokváltozós elemzésben több különböző mértékegységben mért, különbö-
ző értéktartományba eső változót kell együtt elemeznünk, és attól tartunk,
hogy a nagy értékekkel, illetve az értékek nagy változatosságával bíró válto-
zók elnyomják a kis értékű vagy kis variabilitású társaikat. Azt pedig nem
szeretnénk, hogy egy változó mértékegységétől függjön az, hogy milyen sze-
repet játszhat egy elemzésben. Ezért minden változót igyekszünk nulla kö-
rüli és nagyjából azonos variabilitást mutató változóvá transzformálni. Ezt
úgy érjük el, a változó minden egyes értékéből levonjuk a változó átlagát,
majd az így kapott értéket elosztjuk a változó szórásával (a mutatókat lásd
a 4.2.1. fejezetben). Az eljárást szigorú értelemben akkor nevezhetjük stan-
dardizálásnak, ha az elméleti (= populáció-) átlagot vonjuk le és az elméleti
(= populációs) szórással osztunk, és akkor studentizálásnak, ha ezeket is a
mintából becsüljük. (A továbbiakban, ha nem okoz félreértést, standardizá-
lásnak nevezzük a studentizálást is.) Az így átalakított változók átlaga 0,
szórása pedig 1 lesz. Az R-ben a scale() függvénnyel lehet átskálázni ada-
tokat (átskálázás alatt lineáris transzformációt értünk). Alapértelmezése a
studentizálás, az eredmény egy táblázat, amelynek első oszlopa tartalmazza
a studentizált adatokat. (Egy egész táblázatot is át lehet egyszerre transz-
formálni!)

2.4. példa. Studentizált értékek kiszámítása R-rel


Ötelemű mintára kiszámoljuk a mintaátlagot és a szórást, majd a studentizált értékeket:
> (minta = c(1, 4, 2, 3, 6))

[1] 1 4 2 3 6

> mean(minta)

[1] 3.2

> sd(minta)

[1] 1.923538

> (stminta = scale(minta)[, 1])

[1] -1.1437255 0.4159002 -0.6238503 -0.1039750 1.4556507


44 Reiczigel – Harnos – Solymosi: Biostatisztika

> mean(stminta)

[1] -1.054495e-16

> sd(stminta)

[1] 1

Hasonló a célja annak a – szintén különleges – transzformációnak is, ami-


kor a mért értékeket a rangszámaikkal (ranks), azaz az 1, 2, . . . , n értékekkel
helyettesítjük. A legkisebb érték kapja az 1-est, a második legkisebb a 2-est
és így tovább. Sok statisztikai eljárás dolgozik rangokkal, mint például a
Wilcoxon-féle rangösszeg-próba, a Spearman-féle rangkorreláció stb. (lásd
a 7.6. és a 8.2. fejezeteket). A rang-transzformációval egyenletes eloszlásúvá
transzformáljuk az adatokat, amelyeknek így eredeti értéktartományuktól,
mértékegységüktől és eloszlásuktól függetlenül ugyanaz lesz az értékkészle-
te: az 1-től n-ig terjedő egész számok. Pontosabban ez csak akkor igaz, ha
az értékek között nincsenek egyenlők. Ha ugyanis az értékek között van-
nak egyenlők, akkor azok egy igazságos rangsorban ugyanazt a rangszámot
kell, hogy kapják. Igen ám, de mennyi legyen ez az ugyanannyi? A szokásos
megoldás erre az, hogy holtversenyben álló értékek mindegyike a rájuk eső
rangok átlagát kapja. Például, ha a 3-4-5-6 helyen van négyes holtverseny,
akkor mind a négy érték a 3, 4, 5, 6 rangok átlagát, 4.5-et kapja. Így vi-
szont a rangok értékkészlete megváltozik: jelen esetben az 1, 2, 3, 4, 5, 6,
7, 8,. . . helyett 1, 2, 4.5, 4.5, 4.5, 4.5, 7, 8,. . . lesz. Ezért az egyenlő értékek
– és az ezekhez tartozó úgynevezett kapcsolt rangok (ties, tied ranks) – a
rangszámokon alapuló statisztikai módszerek alkalmazásánál néha komoly
gondokat okoznak.

2.5. példa. Rangok kiszámítása R-rel


Egy adatsor értékeiből rangszámokat a rank() függvénnyel készíthetünk. Figyeljük meg
az egyenlő értékekhez tartozó kapcsolt rangokat!
> ertekek = c(21, 21.4, 21.4, 23.1, 23.5, 25, 25, 25, 27.2, 28)
> (rangok = rank(ertekek))

[1] 1.0 2.5 2.5 4.0 5.0 7.0 7.0 7.0 9.0 10.0

Nyilvánvaló, hogy amikor egy változót egy kevésbé információgazdag ská-


lára transzformálunk, például amikor az életkor változóból előállítjuk a kor-
csoport változót így: 1 = fiatal (35 év alatti), 2 = középkorú (30–60), 3 = idős
(60 év feletti), akkor információt veszítünk. Ezért sokan azt gondolják, hogy
2.4. Az adatok 45

egy statisztikai elemzésben az így transzformált változót használva feltétle-


nül rosszabb, pontatlanabb eredményeket kapunk. Ez azonban tévedés! Ha
a pontos életkor nem releváns a vizsgált összefüggés szempontjából, akkor
még az is előfordulhat, hogy a korcsoport változóval pontosabb eredményt
kapunk, mint az életkorral. Az általános szabály az, hogy releváns infor-
máció elhagyása pontatlanabbá, irreleváns információ elhagyása
pedig pontosabbá teszi a statisztikai elemzések eredményét.

2.4.4. Hiányzó értékek


Bármennyire gondosan is végezzük a vizsgálatainkat, elkerülhetetlenek az
olyan esetek, amikor egy-egy mérés meghiúsul akár egy kísérleti állat elhul-
lása, akár egy minta tönkremenetele vagy szennyeződése miatt. Az adatrög-
zítéskor a szóban forgó helyre nem írunk semmit, ezért az adatmátrixból
egy vagy több adat hiányozhat, ezek az úgynevezett hiányzó ér-
tékek (missing values, missing data). A számítógépes programok elvileg
különbséget tudnak tenni a nulla, a szóköz és a „semmit nem írtunk oda”
között, de ebben sajnos nem mindig következetesek. Az Excel például, ha
átlagot számol, akkor a szóközt és az üres cellát kihagyja, összeadásnál és
szorzásnál viszont nullának veszi őket. A statisztikai programok legtöbb-
je a hiányzó értékeket helyesen kezeli: minden számításból kihagyja őket,
és bármely velük végzett művelet eredménye ugyancsak hiányzó érték lesz.
Az R a hiányzó értékeket az NA szimbólummal jelöli (olvasd: en-á, az an-
gol „not available” rövidítéséből, de megjegyezhetjük úgy is, hogy „nincs
adat”). Adatfájl előkészítésekor vagy adatok bevitelekor mi is használhat-
juk a hiányzó adatok NA-val való jelölését, az R megérti.
Egyes R-függvények rendelkeznek olyan argumentummal, amelynek se-
gítségével beállíthatjuk, hogy mi történjék, ha a függvény NA értékkel talál-
kozik. Például az átlagot számoló mean() függvénynek az na.rm argumen-
tuma szabályozza ezt. A név az „na.remove” rövidítése, ami magyarul „az
NA-k számításból való eltávolítása”, így ha na.rm = TRUE, akkor az NA-k a
számításból kimaradnak, ha na.rm = FALSE (ez az alapértelmezés), akkor
részt vesznek benne (true = igaz, false = hamis). Utóbbi esetben, ha az
adatok között vannak NA-k, akkor az átlag is NA lesz.
Ezt illusztrálja az alábbi példa, ahol a hianyos.adatok vektor két NA
értéket tartalmaz.
> hianyos.adatok = c(122, 27, 194, 5, 182, NA, 126, 81,
+ 106, 197, 75, 114, NA, 127, 118, 175, 195, 83, 88,
+ 38, 177, 138)
46 Reiczigel – Harnos – Solymosi: Biostatisztika

> mean(hianyos.adatok)

[1] NA

> mean(hianyos.adatok, na.rm = TRUE)

[1] 118.4

Sajnos nem minden függvénynek van ilyen argumentuma, és akkor ma-


gunknak kell gondoskodnunk arról, hogy az NA értékek ne okozzanak gon-
dot a számításaink során. Ehhez használhatjuk az na.omit() függvényt. Az
na.omit() az objektumot adja vissza a hiányos sorok nélkül. Egy példa az
alkalmazására:
> adatok.na.omit = na.omit(hianyos.adatok)
> mean(adatok.na.omit)

[1] 118.4

A függvény a hianyos.adatok-ból létrehozott egy olyan objektumot, amely-


ben az NA-k már nem szerepelnek. Erre az „előkezelt” objektumra már nyu-
godtan alkalmazhatunk olyan függvényeket is, amelyek nem boldogulnának
a hiányzó adatokkal. Így már az átlagszámításhoz sem kell beállítanunk a
na.rm = TRUE-t. A további függvényekkel kapcsolatban érdemes megnézni
az R súgóját.
A hiányzó értékek kezeléséhez hasznos még az is.na() függvény, amellyel
azonosíthatjuk a vektorunkban lévő NA-k helyét: a függvény eredményként
egy logikai értékekből álló vektort ad vissza, amelynek értéke TRUE vagy
FALSE aszerint, hogy az adott helyen NA áll-e vagy sem. Ennek használatát
mutatja be az alábbi R kód:
> (hianyzike = is.na(hianyos.adatok))

[1] FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE
[12] FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE

> (hianyzoksorszamai = which(hianyzike))

[1] 6 13

> (hianyzoknelkul = hianyos.adatok[-hianyzoksorszamai])

[1] 122 27 194 5 182 126 81 106 197 75 114 127 118 175 195 83
[17] 88 38 177 138
2.4. Az adatok 47

A which() függvénnyel meghatároztuk az NA-k sorszámait, majd létrehoz-


tunk egy olyan vektort (hianyzoknelkul), amelyben az NA-k már nem sze-
repelnek (a szögletes zárójelen belül a mínusz jel azt jelenti, hogy az olyan
sorszámúak maradjanak ki a vektorból).
Több statisztikai módszer – például regressziószámítás, faktorelemzés
stb. – úgy működik, hogy ha az adatmátrix valamelyik sorában van hiány-
zó adat, akkor az egész sort kihagyja, vagyis az az eset, amelyiknek akár
csak egy adata is hiányzik, teljesen kimarad az elemzésből. Ezért viszonylag
kevés hiányzó érték is – ha elszórtan, különböző sorokban helyezkedik el
– erősen lecsökkentheti a feldolgozható mintanagyságot. Egyetlen hiányzó
szám miatt egy egész sort kidobni pazarlásnak tűnik, az ember úgy érzi,
hogy a szükségesnél több információt dobunk ki az ablakon. A hiányzó ér-
tékek általában úgy nem pótolhatók, hogy a mérést újra elvégezzük, mert
a kísérleti körülmények, a műszerek kalibrálása, az állatok, és még sok min-
den megváltozhatott időközben. Ezért dolgoztak ki statisztikai módszereket
a hiányzó adatok pótlására: ezt adatpótlásnak vagy imputálásnak (im-
putting) nevezzük. (Figyelem, m-mel! Ne keverjük össze az input = adatbe-
vitellel!) Ezek a módszerek a hiányzó értékeket az adatmátrixban szereplő
többi értékből statisztikai becslések segítségével pótolják. Természetesen az
imputálással nyert értékek – mivel a módszerek a többi adatot használják
fel a hiányzó értékek pótlására – nem hordoznak új információt, hasznuk
csupán annyi, hogy nem kell olyan sok meglévő adatot kidobni a hiány-
zó értékek miatt. A hiányzó értékek pótlása, illetve az egyes statisztikai
módszerek átalakítása úgy, hogy hiányzó értékek mellett is működőképesek
maradjanak, egy „külön tudomány” vagy inkább művészet, amely jócskán
meghaladja e könyv kereteit. Olyannyira, hogy több, csupán e témával fog-
lalkozó monográfia is megjelent, amelyek közül az egyik leghíresebb: (Little
& Rubin 2014).
Ha a hiányzó értékek száma eléri vagy meghaladja a releváns adatok
10%-át, akkor már jobb, ha az adatokat félretesszük, és inkább azon gon-
dolkodunk, hogyan tudnánk egy megbízhatóbb kísérleti protokollt kidol-
gozni, amely biztosítja, hogy kevesebb hiányzó adat keletkezzék. Ilyen sok
hiányzó érték esetén ugyanis senki nem fogja elhinni az eredményeinket.
Szimulált adatokkal – vagy akár saját valódi adataival – a Kedves Olvasó is
kipróbálhatja, hogy a legtöbb adathalmazból levonható következtetés meg-
változtatható, sőt ellenkezőjére fordítható az adatok 10–15%-ának „ügyes”
elhagyásával.
48 Reiczigel – Harnos – Solymosi: Biostatisztika


1.0


● ●
0.8 ●

● ●

0.6
●●
y


0.4 ●

● ●
0.2 ●
● ●

0.0
0.0 0.2 0.4 0.6 0.8 1.0

2.6. ábra. Bár a nyíllal megjelölt x = 0.8, y = 0.1 pont szemmel láthatóan nagyon
„kilóg a sorból”, külön-külön sem az x = 0.8, sem az y = 0.1 nem számítana kiugró
értéknek. A kiugró értékeket – többek között – hasonló okokból sem mindig vesszük
észre az adatok első elemzésekor

2.4.5. Kiugró értékek


Az is gyakran előfordul, hogy egyes adatok „kilógnak a sorból”. Lehet, hogy
egy érték egyenesen képtelenség, de lehet, hogy csak gyanúsan eltér a töb-
bitől. Az ilyen értékeket kiugró értékeknek (outlier) nevezzük. Tipikus,
hogy ezeket már csak az adatok elemzése során vesszük észre, sőt, való-
színűleg csak az elemzés későbbi fázisaiban. Például a 2.6. ábrán látható
kiugró érték csak a két változó együttes elemzésekor tűnik fel, ha csak az
x-et vagy csak az y-t nézzük, akkor nem. Mivel egy kiugró érték oka lehet
elírás vagy adatrögzítési hiba is, általános szabály, hogy ilyenkor a hibásnak
tűnő adatot ellenőrizni kell a keletkezésétől kezdve egészen az adatmátrix-
ba kerüléséig. Ugyancsak ellenőrizni kell a kísérleti jegyzőkönyvet, hátha
abban feljegyeztek valamely olyan körülményt, amely magyarázza az adat
furcsaságát. Többek között ezért is meg kell őriznünk az eredeti mérési bi-
zonylatokat, kísérleti jegyzőkönyveket.
Ha semmi olyan körülményt nem találunk, amelynek alapján az érték
javítható volna, akkor vagy úgy gondoljuk, hogy furcsa ugyan, de úgy lát-
szik, ilyen érték is előfordulhat, vagy továbbra is azt gondoljuk, hogy ez
lehetetlen, valami hiba van a dologban. Érdemes ilyenkor irodalomkuta-
tást is végezni, találtak-e már mások is hasonlót. Ha végül úgy döntünk,
hogy az érték képtelenség, akkor elhagyhatjuk. Kétséges esetben ajánlatos
2.4. Az adatok 49

elvégezni az elemzést így is, úgy is, hogy pontosan lássuk, mi lesz a kü-
lönbség az eredmények között. Az outlierekre még fokozottabban érvényes,
amit a hiányzó értékekkel kapcsolatban mondtunk: ha túl sok értéket kiugró
értéknek tekintünk és elhagyunk, akkor ezzel az eredményeket jelentős mér-
tékben befolyásolhatjuk. Ha az eredményekből közlemény születik, abban
mindenképpen meg kell említeni, hogy voltak-e kiugró értékek, amelyeket
elhagytunk – már csak azért is, mert ha a vizsgált jelenség olyan, hogy
időről időre előfordulnak benne szélsőséges eredmények, de senki sem közli
őket, akkor lehet, hogy sohasem fog kiderülni a létezésük. Gondoljunk arra,
lehet, hogy épp a kiugró értékek a legfontosabb megfigyeléseink,
amikből valami újat fogunk tanulni!
Állítólag az Antarktisz feletti ózonlyukat azért nem fedezték fel olyan sokáig – pedig a
mérések akkor már évek óta folytak –, mert a mérőállomások adatfeldolgozó programjaiba
beépített outlier-detektáló modulok az erre utaló értékeket kiugró értéknek tekintették és
rendre kihagyták.

Elkerülendő a szubjektivitást, több módszert is kitaláltak annak eldön-


tésére, hogy mi számítson kiugró értéknek, és mi nem.
Egy módszer ezek közül normális eloszlású adatokra: az átlagtól való több mint 3 szó-
rásnyi eltérést mutató érték már kiugró értéknek számít. Egy másik, amely nem tételezi fel
az adatok normális eloszlását: az alsó, illetve felső kvartilistől 1.5 interkvartilis terjedelem-
nyi távolságnál messzebb eső érték outliernek számít (az említett mutatókról lásd a 4.2.1.
fejezetet). Az R is ez utóbbiakat tekinti kiugró értéknek. Ezeket a boxplot.stats() függ-
vénnyel számolás nélkül megtalálhatjuk, mint azt a 2.6. példa mutatja.

2.6. példa. Elsőéves hallgatók testmagassága – kiugró értékek


Az elsőéves egyetemisták testmagasság adatai közül kikeressük azokat az érté-
keket, amelyek a fenti kritérium szerint kiugró értéknek számítanak. Ezeket a
boxplot.stats() függvény out néven adja vissza:
> boxplot.stats(pop$magas)$out

[1] 158 197 161 197 160 160 195

Természetesen az ilyen módszerek csak arra valók, hogy olyan „gyanús”


értékeket találhassunk, amelyeket esetleg érdemes ellenőriznünk, de a talált
értékekről nem bizonyítják, hogy valóban gond lenne velük. Sőt, az ilyen
kritériumok mechanikus alkalmazásakor az embert az a kellemetlen meg-
lepetés érheti, hogy talál egy kiugró értéket, elhagyja, majd ellenőrizvén
a maradék adatokat ugyanazzal a kritériummal – mivel az első elhagyása
megváltoztatta a mintát – megint talál egyet, és így tovább. Rossz esetben
elfogyhat a minta. Ilyenkor (már akkor is, ha az első outlier elhagyása után
50 Reiczigel – Harnos – Solymosi: Biostatisztika

megjelenik még egy!) mindig jusson eszünkbe, hogy talán nem is kiugró
értékekkel van dolgunk, hanem egy egyik irányba elnyúló, ferde eloszlás-
sal (vagyis hogy talán már az első sem volt az!), és próbálkozzunk inkább
valami olyan elemzéssel, amely ferde eloszlásokkal is jól működik!
Általában is fontos eldöntendő kérdés, hogy a többitől távol eső, nem tipi-
kus megfigyeléseket szemétnek tekintjük-e, vagy a vizsgált folyamat szerves
részének, amelyek elhagyása meghamisítaná az eredményeket. A parazitoló-
giában például ismert, hogy a paraziták gazdákon való eloszlása jellemzően
aggregált, azaz a legtöbb gazdán csak kevés parazita található, a paraziták
többsége néhány igen fertőzött gazdán koncentrálódik. Ha ezeket, mint nem
tipikusakat elhagynánk, akkor ezzel a jelenség lényegi részétől – egyben a
parazita-populáció döntő többségétől – válnánk meg.
Ha úgy látjuk, hogy a kiugró értékek valójában nem tartoznak a vizsgált folyamat-
hoz, akkor úgynevezett robusztus módszereket kell alkalmaznunk, amelyek az outliereket
képesek figyelmen kívül hagyni. A robusztus módszerekről lásd Jureckova et al. (2019)
könyvét. Tehát, ha robusztus módszert alkalmazunk, akkor a kiugró értékeket nem kell
saját kezűleg elhagynunk, a módszer maga gondoskodik róla, hogy ne sok vizet zavarhas-
sanak. Viszont nagy hiba a robusztus módszerek alkalmazása akkor, ha a távoleső értékek
a folyamat szerves részét alkotják. Ilyenkor az egyik lehetőség, hogy nemparaméteres vagy
eloszlásfüggetlen módszerrel próbálkozunk, a másik pedig, hogy olyan paraméteres mód-
szerrel, amelyet éppen a szóban forgóhoz hasonló ferde eloszlásokra dolgoztak ki. Ezek
a módszerek ugyanis a távol eső értékeket is megfelelően figyelembe tudják venni a szá-
mításokban. Ha viszont a távol eső értékek nem tartoznak a folyamathoz, akkor épp e
módszerek alkalmazása ad félrevezető eredményt.
3. Egy kis valószínűségszámítás
Előre kell bocsátanunk, hogy ebből a rövid leírásból nem lehet elsajátítani
a valószínűségszámítást, csak egy hozzávetőleges képet kaphat róla az, aki
még soha nem tanulta korábban. De feltételezzük, hogy sokan egyszer már
tanulták, és ez a rövid emlékeztető talán felszínre hozza az emlékeket. Ha
a Kedves Olvasónak az az érzése, hogy ezt annak idején bonyolultabban,
precízebben, részletekben gazdagabban tanulta, akkor bizonyára igaza van.
Most csak a továbbiakhoz nélkülözhetetlen fogalmak rövid összefoglalása a
célunk a matematikai precizitás mellőzésével, amiért előre elnézést kérünk.
Cserébe viszont néhány olyan gyakorlati dolgot is leírunk, amit a beveze-
tő valószínűségszámítás kurzusokon – lévén a valószínűségszámítás elméleti
tudomány – nem szoktak megemlíteni.

3.1. Események, valószínűség


Kezdjük az esemény fogalmával. Intuitíve az eseményt (event) egy ki-
jelentéssel leírható történéssel azonosíthatjuk, mint például „tegnap
délben esett a hó”, „idén december 13-a péntekre esik”, „a jövő hónap-
ban nyerni fogok a lottón” stb., szem előtt tartva azonban, hogy ugyanazt
az eseményt több különböző kijelentéssel is leírhatjuk, mint például „négy
gyermekük közül egy lány” vagy „négy gyermekük közül három fiú”. Fontos
követelmény, hogy az eseményekről megfigyelésükkor egyértelműen eldönt-
hetőnek kell lennie, hogy bekövetkeztek-e vagy sem.
Eseményekkel műveleteket is végezhetünk, amelyek eredményei termé-
szetesen újabb események lesznek. A három legfontosabb művelet az úgy-
nevezett komplementer vagy ellentett esemény képzése tagadással, valamint
két esemény összekapcsolása „és”-sel, illetve „vagy”-gyal. (Azok számára,
akik ezt halmazműveletekkel tanulták: a metszet az „és”, az unió pedig a
„vagy” megfelelője.) Példák: „nem süt a nap”, „süt a nap és esik az eső”,
„átmegyek matekból vagy átmegyek kémiából”. A „vagy” itt is – mint a
matematikában általában – megengedő vagy, tehát az „átmegyek matekból

51
52 Reiczigel – Harnos – Solymosi: Biostatisztika

vagy átmegyek kémiából” akkor is bekövetkezik, ha mindkét tárgyból át-


megyek. Reméljük, a Kedves Olvasó emlékszik még az iskolából a tagadás
szabályaira, amelyek szerint (de a józan ész alapján is) például a „süt a nap,
és esik az eső” tagadása a „nem süt a nap ,vagy nem esik az eső”, az „át-
megyek matekból, vagy átmegyek kémiából” tagadása pedig azt a szomorú
eseményt jelenti, hogy mind a két tárgyból megbukom, vagyis „nem megyek
át matekból, és nem megyek át kémiából”.
Két eseményt kizáró eseményeknek nevezünk (mutually exclusive
events), ha nem következhetnek be egyszerre. Itt az „egyszerre” nem
egyidejűséget jelent, hanem ugyanahhoz a megfigyelési egységhez tartozó
bekövetkezést. Például nem kizáróak a következő események „a betegnek
hétfőn láza volt” és „a beteg kedden meghalt”, mert bár időben nem követ-
kezhetnek be egyszerre, de ugyanannál a betegnél igen. Kizáró események
viszont „a beteg hétfőn meghalt” és „a betegnek kedden láza volt” (leg-
alábbis ha ugyanannak a hétnek a hétfőjéről és keddjéről van szó).
Azt mondjuk, hogy egy E esemény maga után vonja (imply) az
F eseményt, ha valahányszor E bekövetkezik, mindannyiszor F is
bekövetkezik. Ez a helyzet például, ha E = „a hőmérséklet 17 °C alatt
van”, és F = „a hőmérséklet 20 °C alatt van”.
Ha egy esemény biztosan bekövetkezik – például a „süt a nap vagy
nem süt a nap” ilyen – akkor azt biztos eseménynek (sure event), ha
pedig biztosan nem következik be – például „süt a nap és nem süt a
nap” – akkor lehetetlen eseménynek (impossible event) nevezzük. Ha
egy olyan megfigyelést végzünk, amelynek eredménye egy szám, az ezzel
kapcsolatos események számoknak, illetve számhalmazoknak felelnek meg.
Például, ha hőmérsékletet mérünk, akkor események „a hőmérséklet leg-
feljebb 17.5 °C”, „a hőmérséklet 15 és 20 °C között van”, „a hőmérsék-
let 23 °C fölött van” stb. Ha a hőmérsékletet X-szel jelöljük, akkor ezek
az események a következőképpen írhatók fel számhalmazok segítségével:
{X : X ≤ 17.5}, {X : 15 ≤ X ≤ 20}, {X : X > 23} (olvasd: azon
X-ek halmaza, amelyek. . . ). Intervallumokkal pedig így: X ∈ (−∞, 17.5],
X ∈ [15, 20], X ∈ (23, ∞) (olvasd: azon X értékek, amelyek benne vannak
a . . .). Az intervallumok jelölésekor szögletes zárójellel jelöljük, hogy a szó-
ban forgó határ hozzátartozik az intervallumhoz, kerek zárójellel pedig azt,
hogy nem (az iskolában manapság erre a célra kerek zárójel helyett kife-
lé fordított szögletes zárójelet szoktak használni, de mi inkább maradunk
a régies jelölésnél). A végtelenhez mindig kerek zárójelet teszünk, mert a
végtelen csak egy szimbólum, nem az intervallum legszélső száma.
A fenti halmazokat a számegyenesen is ábrázolhatjuk (3.1. ábra).
3.1. Események, valószínűség 53

0 5 10 15 20 25

0 5 10 15 20 25

0 5 10 15 20 25

3.1. ábra. A szövegben említett, hőmérsékletméréssel kapcsolatos eseményeknek meg-


felelő számhalmazok a számegyenesen ábrázolva

Hogy milyen számértékeket fogadunk el mint lehetséges megfigyeléseket,


az mindig tőlünk, illetve a vizsgálat céljától függ. Hőmérséklet esetén pél-
dául választhatunk, hogy (1) bármely valós számot megengedünk, (2) ha
úgyis csak egész fokokat mérünk, akkor csak az egész számokat, (3) csak
a −274 °C-nél nagyobb egészeket, (4) ha meteorológiai adatokról van szó,
akkor csak a [−60 °C, +60 °C] tartományt. A lehetséges értékek hal-
mazát eseménytérnek (event space) nevezzük, az események ennek
a halmaznak a részhalmazai.
A következő fogalom a valószínűség (probability). Az eseménytér bár-
mely eseményének valószínűséget tulajdoníthatunk, amely egy 0 és 1 kö-
zötti valós szám, és az esemény bekövetkezésének esélyét fejezi ki.
Kifejezhetjük százalékban is. A 0 jelentése „(szinte) lehetetlen”, a 0.5-é vagy
50%-é „azonos eséllyel igen vagy nem”, az 1-é vagy 100%-é pedig „(szinte)
biztos”.
Itt a „szinte” bizonyára meghökkentő. Magyarázata az, hogy ha a megfigyelésnek
végtelen sok lehetséges kimenetele van (vagyis az eseménytér végtelen halmaz), akkor egy
0 valószínűségű esemény is bekövetkezhet. Például, ha azt mondjuk, hogy „válasszuk ki egy
szakasz egy pontját”, akkor úgy gondoljuk, hogy minden pont egyforma valószínűséggel
jön szóba. Ekkor viszont ez a valószínűség nem lehet nagyobb nullánál, mert végtelen
sok egyenlő nullánál nagyobb szám összege végtelen lenne. Tehát ilyenkor minden pont 0
valószínűséggel jön szóba, végül mégis kiválasztjuk valamelyiket – vagyis bekövetkezik egy
0 valószínűségű esemény. Véges sok kimenetel esetén azonban a 0 valószínűségű esemény
valóban lehetetlennek, az 1 valószínűségű pedig biztosnak tekinthető.

Az E esemény valószínűségét P (E)-vel (olvasd: pé e) jelöljük.


A valószínűséggel modellezhetjük egy bizonyos tulajdonsággal rendelke-
zők populációbeli részarányát (population proportion), egy betegség preva-
lenciáját (prevalence), illetve kockázatát vagy rizikóját (risk).
54 Reiczigel – Harnos – Solymosi: Biostatisztika

Például azt, hogy egy populációban a dohányosok aránya 36%, úgy is


felfoghatjuk, hogy ha a populációból találomra kiválasztunk valakit, akkor
36% annak a valószínűsége, hogy egy dohányos „akad horogra”.
Az, hogy a magas vérnyomás prevalenciája a populációban 15%, ugyan-
azt jelenti, mint az, hogy egy, a populációból találomra kiválasztott személy
15% valószínűséggel szenved magas vérnyomásban. Ezt úgy is szokták fo-
galmazni, hogy a magas vérnyomás kockázata vagy rizikója a populáció
bármely tagja számára 15%.
Végtelen populáció esetén a valószínűség absztraktabb fogalom. Ha reg-
gel kilenckor megmérem a hőmérsékletet a szobámban, akkor annak a való-
színűsége, hogy a hőmérséklet 20 °C fok alatt van, csak úgy értelmezhető,
hogy a mérés nagyon sokszori (értsd: végtelen sokszori) ismétlése során az
esetek ennyi százalékában lesz a hőmérséklet 20 °C fok alatt.
A valószínűségszámítás (probability theory) azzal foglalkozik, hogy
bizonyos egyszerűbb események valószínűségét ismertnek feltéte-
lezve hogyan számíthatjuk ki más, bonyolultabb események va-
lószínűségét. A kiinduló feltételezések együttesét „modell”-nek nevezzük.
Például feltételezve, hogy egy dobókockán a 6-os dobás valószínűsége 1/6 (ez
a modell), a valószínűségszámítás segítségével meghatározhatjuk annak az
eseménynek a valószínűségét, hogy 10 dobásból egyszer sem dobunk hatost.
Emlékeztetőül azoknak, akik egyszer már tanulták: annak, hogy nem dobunk hatost,
mindegyik dobásnál 5/6 a valószínűsége, és mivel a dobások függetlenek, annak a valószí-
nűsége, hogy mind a tízszer ez az esemény következik be, 5/6 · 5/6· . . . ·5/6 = (5/6)10 ≈
0.1615.

Ha két ember más kiinduló modellel számol, különböző eredményt kap-


hatnak akkor is, ha mindketten helyesen alkalmazzák a számolási szabá-
lyokat. A valószínűségekkel való számolás szempontjából mindegy, hogy a
kiindulásul szolgáló valószínűségeket honnan vesszük, tapasztalatból vagy
hasból. A helyes modell megválasztása nem tartozik a valószínűségszámítás
illetékességébe (bár olykor jól bevált ötleteket ad hozzá).
A legegyszerűbb számolási szabályok:

P (nem E) = 1 − P (E),

és ha E és F kizáró események, akkor

P (E vagy F ) = P (E) + P (F ).

A valószínűségnek ez az „összegzési szabálya” több, egymást páronként


kizáró eseményre is ugyanígy érvényes.Még végtelen sokra is (pontosabban
3.1. Események, valószínűség 55

csak megszámlálhatóan végtelen sokra, lásd 38. oldal), ekkor

P (E1 vagy E2 vagy E3 vagy . . .) = P (E1 ) + P (E2 ) + P (E3 ) + . . . .

Ha az E és F események nem kizáróak, akkor az alábbi összefüggés érvényes:

P (E vagy F ) = P (E) + P (F ) − P (E és F ),

amely több eseményre meglehetősen bonyolulttá válik (ezek az úgynevezett szita-


formulák, lásd pl. Rényi: Valószínűségszámítás, II. fejezet, 3. §, Rényi (1973) ).

Gyakran arra vagyunk kíváncsiak, hogy egy eseménynek vagy tulajdon-


ságnak a populáció egy jól definiált részében – például az idősek, a nők vagy
a gyerekek között – mekkora a valószínűsége. Ilyen kérdések megválaszolá-
sát segíti a feltételes valószínűség. Ha a valószínűség azt jelenti, hogy
„az esetek ennyi és ennyi százalékában”, illetve „a populáció ennyi
és ennyi százalékában”, akkor a feltételes valószínűség (conditional
probability) azt jelenti, hogy „azoknak az eseteknek ennyi és ennyi
százalékában, amikor. . . ”, vagy „a populáció azon részének ennyi
és ennyi százalékában, amelyre. . . ”, ahol a három pont után egy
feltétel áll. Tehát a feltétel szerepe a teljes populáció leszűkítése a min-
ket éppen érdeklő részpopulációra. A feltételes valószínűség számításakor
a populációnak azt a részét, amelyre a feltétel nem teljesül, figyelmen kívül
hagyjuk (úgy számolunk, mintha az a rész nem is létezne).
Az E esemény F feltétel melletti feltételes valószínűségét P (E|F )-fel (ol-
vasd: pé e feltéve f) jelöljük. Itt az F is egy esemény, csakúgy mint az E,
csakhogy más a szerepe, mégpedig az, hogy leszűkítse azt a kört, amelyben
az E valószínűségét kérdezzük. Végtelen populációra is ugyanúgy működik,
korlátozhatom a vizsgálódást például a szobámban csak a hétfő reggelen-
ként mért hőmérsékletekre, vagy csak az olyan napokra, amikor a külső
hőmérséklet 10 °C-nál alacsonyabb stb.
Egy dohányzással kapcsolatos vizsgálatban jelölje N , F és D azokat az
eseményeket, hogy a vizsgált személy nő, férfi, illetve hogy dohányzik. Ekkor
a P (D|N ) és P (D|F ) feltételes valószínűségek jelentése a dohányzás való-
színűsége (vagy ha úgy tetszik, a dohányosok aránya) a nők, illetve a férfiak
között. Úgy is fogalmazhatjuk, hogy P (D|N ) annak a valószínűsége, hogy
egy találomra választott személy dohányzik, feltéve hogy nő. Hazánkban –
2003-as adatok szerint – P (D|N ) = 26% és P (D|F ) = 44%. Vigyázzunk,
mindig az elöl álló esemény valószínűségét számoljuk a másik esemény mint
feltétel mellett. Ha felcseréljük őket, akkor a valószínűség jelentése is és
számértéke is változhat. Tehát míg a P (D|N ) a dohányosok részarányát je-
lenti a nők között („feltéve, hogy az illető nő, mennyi a valószínűsége, hogy
56 Reiczigel – Harnos – Solymosi: Biostatisztika

dohányos”), addig P (N |D) a nők arányát a dohányosok között („feltéve,


hogy az illető dohányos, mennyi a valószínűsége, hogy nő”).
A feltételes valószínűség matematikai definíciója a feltétel nélküli való-
színűségre épül a következőképpen:

P (E és F )
P (E|F ) = ,
P (F )

amiből az is látszik, hogy a feltételes valószínűséget csak akkor értelmezhet-


jük, ha a feltétel valószínűsége nem nulla. De ez nem is meglepő, egy olyan
feltétellel, amelynek valószínűsége 0, a fenti „azoknak az eseteknek az ennyi
és ennyi százalékában, amikor. . . ” intuitív definíció is értelmetlen volna.
Két eseményt, A-t és B-t függetlennek (independent) nevezünk,
ha az egyik bekövetkezéséből nem nyerhetünk információt a má-
sik esélyeire nézve, azaz akár bekövetkezik A, akár nem, B-nek
ugyanannyi a valószínűsége. Formálisan ez úgy írható, hogy

P (B|A) = P (B| nem A) = P (B).

Bizonyítható, hogy ekkor igazak a következők is:

P (A|B) = P (A| nem B) = P (A), valamint P (A és B) = P (A) · P (B).

Ez utóbbit szokták a függetlenség matematikai definíciójának tekinte-


ni, elsősorban azon előnye miatt, hogy nem szerepel benne a bonyolultabb
feltételes valószínűség, csak a feltétel nélküli, meg amiatt is, hogy rögtön
látszik rajta, hogy a függetlenség szimmetrikus viszony két esemény között.

3.2. Oddsz és logit


Bár a valószínűség a legelterjedtebb, léteznek más mérőszámok is események
bekövetkezési esélyeinek számszerűsítésére. Kettőt ezek közül mindenképpen
ismernie kell annak, aki a statisztikát alkalmazni szeretné munkájában.
Az egyik az oddsz vagy esélyérték (odds), amelyet fogadásoknál szok-
tak használni, és azt fejezi ki, hogy a tét hányszorosa legyen a nyeremény.
Fogadásoknál hagyományos formája az arányként való megadás, mint példá-
ul 1:5 (olvasd: egy az öthöz), 1:30 stb., a statisztikában azonban ezt törtként
értelmezik, vagyis például 1:5 = 1/5 = 0.2.
Az oddszot magyarul egyszerűen esélynek is nevezik, de mi szeretnénk az esély szót
fenntartani az általános fogalom számára, amelyet aztán többféleképpen is számszerűsít-
hetünk, akár a valószínűséggel, akár az oddsszal, akár a logittal, akár másképpen. Ezért
3.2. Oddsz és logit 57

3.1. táblázat. Valószínűség (P), oddsz (O) és logit (L) kapcsolata

P 0 0.01 0.1 0.25 0.5 0.75 0.9 0.99 1


O 0 0.010 0.111 0.333 1 3 9 99 ∞
L −∞ −4.60 −2.20 −1.99 0 1.99 2.20 4.60 ∞

maradunk az oddsznál – így, magyaros írásmóddal –, illetve amikor ragozott alakjai túl
nyelvtörőek lennének, esélyértéknek nevezzük.

Egy esemény oddszát úgy is megfogalmazhatjuk, hogy „hányszor akkora


a valószínűsége annak, hogy bekövetkezik, mint annak, hogy nem”. Ha a va-
lószínűséget P , az esélyértéket pedig O jelöli, akkor az átszámítási képletek
a következők:
P O
O= , P = .
1−P 1+O
Így például, ha egy esemény valószínűsége 1/6, akkor esélyértéke:
1/6 1
= .
5/6 5
Valóban, ha kockadobásnál a hatosra fogadunk, éppen akkor lesz igazsá-
gos a játék, ha 1 forintot veszítek, amikor nem jön be a hatos, és 5 forintot
nyerek, amikor bejön. Figyelem, az oddsz nem esik mindig 0 és 1 kö-
zé! Az 1/2-nél nagyobb valószínűségű események esélyértéke 1-nél nagyobb,
például egy 3/4 valószínűségű esemény esélyértéke 3/41/4 = 3. Tehát az oddsz
0 és végtelen között bármely szám lehet, a 0 jelentése: (szinte) lehetetlen,
az 1-é: azonos eséllyel igen vagy nem. A biztos esemény esélyértéke a 0-val
osztás miatt ugyan nem értelmes, de szokás rá azt mondani, hogy végtelen.
Néhány további érték átszámítását mutatja a 3.1. táblázat.
Technikai okok miatt néha az esélyérték helyett a logaritmusát használ-
ják, amelyet logitnak (logit) neveznek. Előnye, hogy értékei a 0-ra szimmet-
rikusan mindkét irányban tetszőlegesen nagyok lehetnek. A 0 logit jelentése:
azonos eséllyel igen vagy nem, míg a (szinte) biztos és a (szinte) lehetetlen
események logitja az előbbi értelemben végtelen, illetve mínusz végtelen. Ha
továbbra is P jelöli a valószínűséget, O az esélyértéket és L a logitot, akkor
az átszámítási képletek a következők:
P eL
 
L = ln(O) = ln , O = eL , P = .
1−P 1 + eL
A 3.1. táblázat szemlélteti az összefüggést egyes kiválasztott valószínű-
ségek és a nekik megfelelő oddszok, illetve logitok között.
58 Reiczigel – Harnos – Solymosi: Biostatisztika

3.3. Relatív kockázat és esélyhányados


Egy betegség kockázata – azaz valószínűsége – más és más lehet a populáció
különböző csoportjaiban, például a magas vérnyomás kockázata eltérhet a
férfiak és a nők, vagy a dohányosok és a nem dohányzók körében. Egy cso-
portbeli kockázat egy feltételes valószínűség (vö. 55. oldal). Formálisan, ha
N , F és M jelöli azokat az eseményeket, hogy a szóban forgó személy nő,
férfi, illetve hogy magas vérnyomásban szenved, akkor a magas vérnyomás
kockázata a nők körében a P (M |N ), a férfiak körében pedig a P (M |F ) felté-
teles valószínűség. Gyakran felmerül az a kérdés, hogy mennyivel nagyobb
a kockázat egy bizonyos csoportban, mint egy másikban. Pontosabban a
kérdést úgy szokás feltenni, hogy hányszorosa az egyik csoportbeli kockázat
a másik csoportbelinek.
A relatív kockázat vagy relatív rizikó (relative risk, risk ratio, RR)
két valószínűség hányadosa: azt fejezi ki, hogy egyik csoportban
egy eseménynek – megbetegedésnek, halálozásnak – hányszor ak-
kora a valószínűsége, mint egy másikban. Ez utóbbi csoport az úgy-
nevezett referenciacsoport.
Az előbbi jelölésekkel a magas vérnyomás relatív kockázata a férfiak kö-
rében a nőkhöz mint referenciacsoporthoz képest:

P (M |F )
RR = .
P (M |N )

Ha a férfiak körében a kockázat 15%, a nők körében pedig 10%, akkor a


relatív kockázat RR = 0.15/0.1 = 1.5.
A vizsgált csoportot – amelyre a relatív kockázatot számoljuk – gyakran
egy úgynevezett rizikófaktor megléte definiálja (ami a kockázatot növeli a
referenciacsoporthoz képest, pl. dohányzás, korábbi betegségek stb.). Erre
utal a rizikócsoport elnevezés. Ha a relatív kockázat 1-nél kisebb, akkor a
faktort preventív faktornak nevezik. Ha a relatív kockázat 1, akkor a két
csoportban azonos a kockázat, azaz a faktor nem befolyásolja a kockázatot.
Emlékeztetünk a bevezetés 4b) példájára (15. oldal), ahol egy, a stroke
relatív kockázatáról szóló állítást olvashattunk a cukorbetegséggel, mint ri-
zikófaktorral kapcsolatban (a példához fűzött magyarázatot lásd a 19. ol-
dalon).
Ha a kockázat a referenciacsoportban is nagy, akkor a relatív kockázat
már nem lehet olyan nagy, hiszen a valószínűség a rizikócsoportban sem
haladhatja meg az 1-et. (Például, ha a referenciacsoportban a kockázat 0.5,
akkor RR ≤ 2.)
3.3. Relatív kockázat és esélyhányados 59

A „hányszor akkora a valószínűség” kérdés helyett feltehetjük a „hány-


szor akkora az oddsz” kérdést is, ekkor egy, a relatív kockázatnak fogalmilag
megfelelő, de másik skálán mért mutatót kapunk.
Az esélyhányados (odds ratio, OR) két oddsz hányadosa: azt fe-
jezi ki, hogy egy bizonyos csoportban egy eseménynek – meg-
betegedésnek, halálozásnak – hányszor akkora az oddsza, mint a
referenciacsoportban.
Írjuk fel a fenti magas vérnyomásos példára az esélyhányadost is a való-
színűségekkel!
P (M |F ) P (M |N )

OR = .
1 − P (M |F ) 1 − P (M |N )
Az előző számpéldával számolva most is (a férfiak kockázata 15%, a nőké
10%), az esélyhányados:

0.15 0.1

OR = = 0.1765/0.1111 = 1.589.
0.85 0.9

Jegyezzük meg, hogy mivel az oddsz felülről nem korlátos, az esélyhá-


nyados akkor is lehet nagy, ha a referenciacsoportbeli esélyérték nagy!
A relatív kockázat és az esélyhányados közötti átszámítást az teszi ne-
hézzé, hogy a közöttük fennálló összefüggés attól is függ, hogy mekkorák
maguk a kockázatok.

3.1. példa. Relatív kockázat és esélyhányados kapcsolata


Legyen például a referenciacsoportban a kockázat 1%, a vizsgált csoportban pedig 3%!
Ekkor a relatív kockázat:

RR = 0.03/0.01 = 3,
az esélyhányados pedig:

0.03 0.01
OR = = 0.0309/0.0101 = 3.0594.
0.97 0.99

De ha a referenciacsoportban a kockázat 20%, a vizsgált csoportban pedig 60%, akkor


a relatív kockázat ugyanannyi, mint az előbb:

RR = 0.6/0.2 = 3,
ellenben az esélyhányados nagyon eltér az előzőtől:

0.6 0.2
OR = = 1.5/0.25 = 6.
0.4 0.8
60 Reiczigel – Harnos – Solymosi: Biostatisztika

Egy általános képlet a közöttük fennálló összefüggésre:

p/(1 − p) p 1 − p0 1 − p0
OR = = · = RR · ,
p0 /(1 − p0 ) p0 1 − p 1−p
ahol p0 a referenciacsoportbeli, p pedig a vizsgált csoportbeli kockázatot
jelöli.
A képletből látható, hogy ha a p0 és a p kockázatok kicsik, akkor
az (1 − p0 )/(1 − p) tényező értéke 1 körüli, ezért az RR és az OR közel
azonos. Figyeljük meg, hogy ez a példában is így volt 1%-os és 3%-os
kockázatok mellett! Ha azonban a kockázatok nagyobbak, akkor az RR és
az OR nagyon eltérhet egymástól.
Az esélyhányados fontosságát az adja, hogy vannak olyan epidemiológiai vizsgálatok,
amelyekben a mintavétel módja a kockázatok becslését nem teszi lehetővé, így ilyenkor
a relatív kockázat becslése sem lehetséges. (Lehet, hogy a Kedves Olvasó hallott már az
úgynevezett „eset-kontroll” (case control) típusú vizsgálatról, az például ilyen.) Meglepő
módon azonban az esélyhányados becslése ilyenkor is lehetséges, és ha tudjuk, hogy a
kockázatok mindkét csoportban kicsik – legfeljebb néhány százalék körüliek –, akkor a
fentiek szerint az esélyhányadost a relatív kockázat közelítő becsléseként használhatjuk.

Azt is érdemes megjegyezni, hogy az OR és az RR csak akkor egyenlők,


ha mindkettő 1, egyébként pedig az 1-nek mindig ugyanarra az oldalára
esnek (vagy mindkettő kisebb, vagy mindkettő nagyobb), és hogy az OR
mindig távolabb van az 1-től, mint az RR. (Ezek mind egyszerű számolással
adódnak, tessék kipróbálni!)
Végül még csak annyit, hogy ha egy esélyhányados logaritmusát vesszük,
akkor két logit különbségét kapjuk. Ha O és O0 jelöli az esélyértékeket a
vizsgált, illetve a referenciacsoportban, akkor

ln(O/O0 ) = ln O − ln O0 .

3.4. Valószínűségi változók


A statisztikában leggyakrabban számszerű változókkal dolgozunk: mért ér-
tékekkel vagy gyakoriságokkal (vö. 2.4.2. fejezet). Egy számszerű változó
lehetséges értékeit és azt, hogy melyik értéknek mekkora esélye van arra,
hogy megfigyeljük, az határozza meg, hogy mely értékek és milyen gyako-
risággal fordulnak elő a populációban. Ugyanakkor a megfigyelt értékek a
véletlen mintavétel miatt a véletlentől is függnek. A valószínűségszámítás-
ban az ilyen számszerű változókat a valószínűségi változó fogalmával mo-
dellezzük. Végtelen populáció esetén nincs is más választásunk a jelenség
leírására, mint a valószínűségi változókkal való modellezés.
3.4. Valószínűségi változók 61

A valószínűségi változó (random variable) egy véletlentől függő


mennyiség, amelynek lehetséges értékei egy számhalmaz elemei úgy, hogy a
halmaz minden eleméhez és részhalmazához tartozik egy valószínűség, vagy-
is elvileg minden szóba jöhető értékre meg tudjuk mondani, hogy
milyen valószínűséggel fordul elő, és minden számhalmazra, hogy
milyen valószínűséggel kerül ki éppen onnan az érték. (A matemati-
kában szokásos definíció bonyolultabb, de nem matematikusok számára ez
a definíció is elég jól kifejezi a dolog lényegét: ha így gondolunk a valószí-
nűségi változókra, nem tévedünk nagyot.) Valószínűségi változó például egy
(találomra választott) anya gyermekeinek száma, egy (találomra választott)
csecsemő születéskori testtömege, egy napi középhőmérséklet stb. Két típu-
sát – a diszkrét és folytonos változókat – csak azért szokták külön tárgyalni,
mert matematikailag másképp kell őket kezelni. A diszkrét változókkal való
számoláshoz elég csak az összeadást ismerni (igaz, tudni kell végtelen sok
számot is összeadni), míg a folytonos változókkal való számoláshoz integ-
rálszámításra is szükség van.
Már említettük (2.4.2. fejezet), hogy egy diszkrét változó lehetséges ér-
tékeit fel tudjuk sorolni, és egy – esetleg végtelen hosszú – táblázatba tud-
juk rendezni. Ha minden lehetséges értéknek megadjuk a valószínűségét,
akkor az értékek bármely halmazának a valószínűsége is kiadódik az ele-
meihez rendelt valószínűségek összegeként. Figyelem, az összes lehetséges
értékhez tartozó valószínűségek összegének 1-nek kell lennie! Diszkrét va-
lószínűségi változó eloszlásán (distribution, probability distribution) a
lehetséges értékek és a hozzájuk tartozó valószínűségek együtte-
sét értjük. Az eloszlás vagy valószínűség-eloszlás elnevezés arra utal, hogy
hogyan oszlik meg az összesen 1 valószínűség a szóba jöhető értékek kö-
zött. Valószínűségi függvénynek (probability mass function) nevezzük
az „érték → valószínűség” függvényt. A továbbiakban – a jobb látha-
tóság kedvéért – a valószínűségi függvényt szemléltető ábrákon nem a függ-
vény matematikai értelemben vett grafikonját ábrázoljuk, hanem a grafikon
pontjaiból az x tengelyre merőlegeseket bocsátunk, így a valószínűségek
nagyságát e függőleges vonalak hosszúsága szemlélteti.

3.2. példa. Kockadobás Diszkrét valószínűségi változó például egy kockadobás


eredménye. Lehetséges értékei az 1, 2, 3, 4, 5, 6 számok (véges halmaz), mindegyiknek
1/6 a valószínűsége. Az eloszlás az alábbi táblázatban, a valószínűségi függvény pedig
a 3.2. ábrán látható.

Dobás 1 2 3 4 5 6
Valószínűség 1/6 1/6 1/6 1/6 1/6 1/6
62 Reiczigel – Harnos – Solymosi: Biostatisztika

0.30
0.25
Valószínűség

0.20
0.15
0.10
0.05
0.00

1 2 3 4 5 6

Kockadobás

3.2. ábra. A kockadobás eredményének valószínűségi függvénye

3.3. példa. Hányadik dobásra jön ki először fej


Szintén diszkrét valószínűségi változó az, hogy pénzfeldobásnál hányadik dobásra jön
ki először fej. Lehetséges értékei a természetes számok, tehát ennek már végtelen sok
lehetséges értéke van, ezek azonban sorba rendezhetők, vagyis megszámlálhatóan vég-
telen halmazt alkotnak (vö. 2.4.2. fejezet). Valószínűségeiket összeadva (figyelem, egy
végtelen hosszú összegről van szó!) itt is 1-et kapunk. Az eloszlás – szabályos pénzt
feltételezve – az alábbi táblázatban, a valószínűségi függvény pedig a 3.3. ábrán látható.
Figyeljük meg, hogy bár a valószínűség matematikailag bármilyen nagy számra nagyobb
nullánál, elég gyorsan szinte nullára csökken: ötvennél nagyobb értékek már szinte le-
hetetlenek!

Hányadik dobás 1 2 3 4 5 6
Valószínűség 1/2 1/4 1/8 1/16 1/32 1/64
Hányadik dobás 7 8 9 10 11 ...
Valószínűség 1/128 1/256 1/512 1/1024 1/2048 ...

Folytonos valószínűségi változóval modellezhetők mindazon vál-


tozók, amelyeknek az értékei elvileg tetszőleges pontossággal mérhető
tizedes törtek (= valós számok), ilyenek például a súly, nyomás, hőmér-
séklet stb. Ekkor a lehetséges értékek a számegyenesen egy folytonos tarto-
mányt alkotnak, és mivel egy folytonos tartományba eső összes valós számot
nem lehet felsorolni (nem megszámlálhatóan végtelen halmaz), az eloszlást
táblázatos formában – mint a diszkrét változóknál – nem lehet megadni.
3.4. Valószínűségi változók 63

0.5
0.4
Valószínűség

0.3
0.2
0.1
0.0

5 10 15 20

Dobások száma

3.3. ábra. A „hányadik dobásra jön ki először fej” valószínűségi változó valószínűségi
függvénye

Folytonos változó esetén minden egyes érték 0 valószínűségű (vö. az ap-


róbetűs megjegyzéssel az 53. oldalon), csak tartományoknak van pozitív va-
lószínűsége, így a táblázat úgyis csupa nullát tartalmazna. A valószínűségi
függvénnyel sem mennénk sokra, az is mindenütt 0 volna. Folytonos vál-
tozó eloszlásának megadásához ezért rafináltabb segédeszközökre van szük-
ség: ilyenből kettő is van, az eloszlásfüggvény (cumulative distribution
function, cdf) és a sűrűségfüggvény (probability density function, pdf).
Matematikai előképzettség nélkül a sűrűségfüggvényt könnyebb megérteni.
Szemléletes jelentése a következő: ha a változót sokszor megfigyeljük,
akkor ott helyezkednek el sűrűbben a megfigyelések, ahol a sűrű-
ségfüggvény értéke nagyobb. Ezt szemlélteti a 3.4. ábra három különbö-
ző alakú sűrűségfüggvénnyel. Az ábrán a sűrűségfüggvények alatt egy-egy,
a megfelelő eloszlásból vett 25 elemű mintát is láthatunk.
Mind az eloszlás-, mind a sűrűségfüggvénynek az a szerepe, hogy bármely
tartományhoz megadja annak a valószínűségét, hogy a változó értéke abba a
tartományba esik. Hogy hogyan teszik ezt, arra a 3.5. ábra ad magyarázatot.
Az ábrák egy intervallumba esés valószínűségét szemléltetik: a valószí-
nűség az eloszlásfüggvénynél az intervallum két végéhez tartozó függvényér-
tékek különbsége, a sűrűségfüggvénynél pedig a görbe alatti terület. Több
intervallumból összetett tartomány esetén a valószínűség az egyes interval-
lumokhoz tartozó valószínűségek összegeként adódik. A teljes számegyenes
valószínűségének 1-nek kell lennie.
Jó matematikai érzékkel megáldott olvasóink most bizonyára hitetlenkedve kérdezik:
valóban bármely halmaz valószínűsége kiadódik az intervallumok valószínűségéből? Igazuk
van, léteznek olyan bonyolult halmazok, amelyeknek ilyen módon nem tudunk valószínű-
séget tulajdonítani, de gyakorlati problémákban ilyenek sohasem fordulnak elő, ezért az
eloszlásfüggvény-sűrűségfüggvény apparátus a statisztikához mégis elegendő. Megjegyez-
64 Reiczigel – Harnos – Solymosi: Biostatisztika

(a)
0.025
0.020
0.015
0.010
0.005
0.000

0 50 100 150

Értékek

(b)
0.025
0.020
0.015
0.010
0.005
0.000

0 50 100 150

Értékek

(c)
0.025
0.020
0.015
0.010
0.005
0.000

0 50 100 150

Értékek

3.4. ábra. Három sűrűségfüggvény, egy közel szimmetrikus egycsúcsú (a), egy kétcsú-
csú (b) és egy jobbra ferde (c). A sűrűségfüggvények alatt a megfelelő eloszlásból vett
25-25 elemű véletlen minta is látható (függőleges vonalkák). Figyeljük meg, hogy ahol
a sűrűségfüggvény értéke nagy, ott a minta pontjai sűrűbben vannak (ugyanakkora
tartományban több pontra számíthatunk), ez indokolja a sűrűségfüggvény elnevezést
3.4. Valószínűségi változók 65

(a)

0.15

0.10

0.05 P(5<X<10)

0.00

0 5 10 15 20

(b)
1.0

0.8
P(5<X<10)

0.6

0.4

0.2

0.0

0 5 10 15 20

3.5. ábra. Egy X változó sűrűségfüggvénye (a) és eloszlásfüggvénye (b). Mindket-


tőn feltüntettük annak a valószínűségét, hogy a változó értéke 5 és 10 közé esik. A
valószínűséget a sűrűségfüggvénynél a görbe alatti terület, az eloszlásfüggvénynél két
függvényérték különbsége szolgáltatja
66 Reiczigel – Harnos – Solymosi: Biostatisztika

zük azt is, hogy eloszlásfüggvénye minden valószínűségi változónak van, még a diszkré-
teknek is (csak ott nincs rá igazán szükség, nélküle is jól elboldogulunk), de sűrűségfügg-
vénye csak azoknak, amelyeknek az eloszlásfüggvénye differenciálható. A sűrűségfüggvény
ugyanis az eloszlásfüggvény deriváltja.
Formálisan, ha egy X változó eloszlásfüggvényét F (x) jelöli, akkor igazak a következők:

P (X < x) = F (x), P (x1 ≤ X < x2 ) = F (x2 ) − F (x1 ), P (x ≤ X) = 1 − F (x),


az X sűrűségfüggvényére, f (x)-re pedig a következők:
Z x Z x2 Z ∞
P (X < x) = f (t)dt, P (x1 ≤ X < x2 ) = f (t)dt, P (x ≤ X) = f (t)dt.
−∞ x1 x

A diszkrét változó valószínűségi függvénye és a folytonos változó sűrűségfüggvénye szegről-


végről rokonok.

Hogyan modellezhetjük a statisztikai adatokat valószínűségi változók se-


gítségével? Vegyünk példaként egy 10 családból álló populációt, és nézzünk
csak egyetlen, a családokat jellemző számszerű változót, a család létszá-
mát. Legyenek a létszámok mondjuk 3, 4, 4, 4, 5, 5, 5, 5, 6, 6! Ekkor a
családlétszám matematikai modellezésére használhatunk egy olyan diszkrét
valószínűségi változót, amelynek lehetséges értékei 3, 4, 5, 6, a hozzájuk
tartozó valószínűségek pedig 0.1, 0.3, 0.4, 0.2. (Figyeljük meg, hogy össze-
gük 1!) Ez azt jelenti, hogy ha a fenti populációból találomra kiválasztunk
egy családot, akkor létszáma egy olyan valószínűségi változó, amely épp a
felsorolt értékeket veheti fel, mégpedig a felsorolt valószínűségekkel.
A valószínűségi változó azonban általánosabb fogalom, segítségével olyan
jelenségeket is modellezhetünk, amelyeknél az értékek nem egy véges popu-
láció egyes tagjaihoz tartoznak. Ilyen például a kockadobás, ahol – bár a
lehetséges értékek halmaza véges – az értékek nem egy populáció valamely
egyedének megfigyeléséből adódnak. Itt egy dobás egy megfigyelés, amely
akárhányszor megismételhető, ezért a „dobások populációja” egy végtelen,
képzetes populáció. Ebből a populációból úgy „veszünk egy százelemű min-
tát”, hogy százszor dobunk. Mégis a hat lehetséges értékkel és az 1/6 valószí-
nűségekkel megfelelően modellezhetjük a kockadobást. A hőmérsékletmérés-
nél szintén csak a „mérések populációjára” gondolhatunk, de egy folytonos
valószínűségi változó – realisztikusan megválasztott sűrűségfüggvénnyel –
remekül leírja a szituációt. Ilyen eseteken a „populációs jellemzőknek” az
„eloszlás jellemzői” felelnek meg: egy valószínűségi változónak is van átlaga,
mediánja, varianciája stb. – minden jellemző megvan itt is, de definíciójuk és
kiszámításuk egy kicsit bonyolultabb (különösen folytonos változók esetén)
és gyakran kevésbé szemléletes.
Itt most csak az átlagot mutatjuk meg, de még ezt sem kell részletei-
ben is megérteni. Inkább csak annyit jegyezzünk meg, hogy a valószínűségi
3.4. Valószínűségi változók 67

változóknál is megvan minden, ami véges populációk esetén szóba jöhet, és


nagyjából ugyanazt jelenti itt is, mint ott, csupán a matematikai formaliz-
mus eltérő.
Az átlagnak a valószínűségi változó várható értéke (expected value,
expectation) felel meg. Egy X változó várható értékét E(X) (vagy gyak-
ran µ) jelöli, képlete diszkrét változóra E(X) = ni=1 xi pi , ahol a válto-
P

zó értékeit xi (i = 1, 2, . . . n), a hozzájuk tartozó valószínűségeket pedig


pi (i = 1, 2, . . . n) jelöli. A kockával dobott szám várható értéke eszerint:

1 1 1 1 1 1
E(X) = 1 · + 2 · + 3 · + 4 · + 5 · + 6 · = 3.5.
6 6 6 6 6 6
R ∞
Folytonos változó várható értékének képlete: E(X) = −∞ xf (x)dx, ahol
f (x) a változó sűrűségfüggvénye.
A várható érték, E(X) szemléletesen azt az értéket jelenti, amelyet akkor
kapunk, ha az X változót nagyon sokszor (értsd: végtelen sokszor) megfi-
gyeljük, és a megfigyelt értékek átlagát vesszük. Véges populáció átlagát a
populáció összes tagjának megfigyeléséből származtatjuk (vö. 4.2.1. fejezet);
valószínűségi változóknál ezt a végtelen sokszori megfigyelés helyettesíti.
Az mindig rajtunk áll, hogy egy jelenséget diszkrét vagy folytonos vál-
tozóval modellezünk-e, hiszen még akkor is, ha az értékek elméletileg valós
számok, egy mérés mindig kerekített értéket ad, a születéskori testtömeget
egész grammban mérjük, a napi középhőmérsékletet legfeljebb tizedfokban
stb. A választás két dolgon múlik: azon, hogy melyik modell tűnik realisz-
tikusabbnak az adott jelenséggel kapcsolatban, illetve hogy a számítások
melyik modellben egyszerűbbek. Egy folytonos modell helyett mindig vá-
laszthatunk egy megfelelően sűrű értékkészletű diszkrét modellt. Ha például
egy 9 és 10 óra közötti időpontot perc pontossággal mérünk, akkor választ-
hatjuk azt a diszkrét modellt, amelyben a lehetséges értékek a 0, 1, 2, . . . ,
59, 60. Ha pedig másodperc pontossággal, akkor azt, amelyben a lehetséges
értékek 0, 1, 2, . . . , 3599, 3600, de valószínűleg ez a diszkrét modell már
több és kényelmetlenebb számolással jár, mint a folytonos, és az eredmény
sem lesz sokatmondóbb.

3.4.1. Valószínűségi változók függetlensége


Két valószínűségi változó függetlenségét legegyszerűbb az események füg-
getlenségéből származtatni. Azt mondjuk, hogy az X és Y valószínűségi
változók függetlenek, ha az X-szel megfogalmazott bármely ese-
mény független az Y -nal megfogalmazható bármely eseménytől.
Ekkor például az az esemény, hogy az X húsznál kisebb, független attól,
68 Reiczigel – Harnos – Solymosi: Biostatisztika

hogy az Y 5 és 10 közé esik. Emlékeztetünk rá, hogy két eseményt, A-t és


B-t akkor neveztünk függetlennek (56. oldal), ha P (A és B) = P (A) · P (B).
Ezzel az előbbi két esemény függetlensége így írható:

P (X < 20 és 5 ≤ Y ≤ 10) = P (X < 20) · P (5 ≤ Y ≤ 10).

A változók függetlenségének ez a definíciója összhangban van azzal, hogy


két változót akkor nevezünk függetlennek, ha az egyik változó megfigye-
lése a másik változóra nézve nem szolgáltat információt (vö. 115.
oldal). Akárhová is esik az X megfigyelt értéke, ez az Y értékeinek (illetve
értéktartományokba esésének) valószínűségét nem befolyásolja.
A szokásos matematikai definíció a két változó együttes eloszlásával, illetve folyto-
nos esetben az együttes sűrűségfüggvénnyel operál, de mi terjedelmi okokból ezeket a
definíciókat elhagyjuk.
Több valószínűségi változó függetlensége már sokkal bonyolultabb kérdés: két változó
függetlenségének definíciója többféleképpen is általánosítható több változóra. A legfon-
tosabb két fogalom a teljes függetlenség és a feltételes függetlenség. Az érdeklődő olvasó
valószínűségszámítás tankönyvekben tájékozódhat ezekről (Feller & Rejtő 1978; Rényi
1973; Solt 2006).

3.5. A statisztikában leggyakrabban használt


eloszlások
A gyakran használt eloszlástípusok külön nevet is kaptak. Gyakoriságok
(= darabszámok) modellezésére használják többek között a hipergeometri-
kus, a binomiális, a Poisson- és a negatív binomiális eloszlást. Ezek mind
diszkrét eloszlások (diszkrét változó eloszlását diszkrét eloszlásnak nevez-
zük), lehetséges értékeik nemnegatív egész számok. A nevek nem egy-egy
eloszlást, hanem egy-egy típust vagy családot takarnak. Mindegyik család
végtelen sok eloszlást tartalmaz, a családon belül az egyes eloszlásokat egy
vagy több paraméter azonosítja. A folytonos eloszlások közül (folytonos vál-
tozó eloszlását folytonos eloszlásnak nevezzük) a legfontosabb a normális
eloszlás. A statisztikában ezen kívül gyakran szükség van a Student-féle t-,
a khi-négyzet- (χ2 ) és az F -eloszlásra.

3.5.1. A hipergeometrikus és a binomiális eloszlás


A hipergeometrikus és a binomiális eloszlást akkor használjuk, ha a kérdés
„n-ből hány. . . ?”, „n-ből hányszor. . . ?”, például „tíz találomra kiválasztott
ember közül hány balkezes?” vagy „húsz dobásból hányszor dobok fejet?”.
3.5. A statisztikában leggyakrabban használt eloszlások 69

A lehetséges értékek mindkét eloszlásnál a 0-tól n-ig terjedő egész számok,


de a valószínűségek különbözőek.
Hipergeometrikus eloszlást (hypergeometric distribution) haszná-
lunk akkor, amikor a mintavétel véges populációból visszatevés
nélkül történik, binomiális eloszlást (binomial distribution) pedig ak-
kor, ha véges populációból visszatevéssel, vagy ha végtelen popu-
lációból – ekkor mindegy, hogy visszatevéssel vagy anélkül (vö. 26. oldal).

A hipergeometrikus eloszlás

A hipergeometrikus eloszlásnak három paramétere van: N, K és n. A para-


méterek jelentését egy példával szemléltetjük.

3.4. példa. Balkezesek száma – hipergeometrikus eloszlás


Tegyük fel, hogy van egy N = 120 fős populáció, amelyben K = 15 balkezes van!
Válasszunk ki visszatevés nélkül egy n = 10 fős véletlen mintát, és számoljuk meg,
hány balkezes van közöttük!
A balkezesek száma a tíz fős mintában N = 120, K = 15, n = 10 paraméterű hiper-
geometrikus eloszlású valószínűségi változó, lehetséges értékei a nullától tízig terjedő
egész számok. Az egyes értékekhez tartozó valószínűségek az alábbi táblázatban, a
valószínűségi függvény pedig a 3.6. (a) ábrán látható.

Érték 0 1 2 3 4 5 6 ...
Valósz. 0.2485 0.3884 0.2522 0.0892 0.0189 0.0025 0.0002 ...

A 6-nál nagyobb értékekhez tartozó valószínűségek azért nem szerepelnek a táblázatban,


mert olyan kicsik, hogy négy tizedesjegy pontossággal már nullával egyenlők.

A hipergeometrikus eloszlás valószínűségeit kézzel a


! !
K N −K
k n−k
P (X = k) = !
N
n

képlettel számíthatjuk ki, ahol X a valószínűségi változót, k pedig a 0 és n


közötti számok valamelyikét jelöli. A képlet – bár bonyolultnak látszik – ért-
hető: ahhoz, hogy egy n elemű mintában k balkezes legyen, k személyt a K
balkezes közül, (n − k)-t pedig az (N − K) jobbkezes közül kell kiválasztani.
N
A nevezőben az összes lehetséges n elemű minták száma, n áll.
70 Reiczigel – Harnos – Solymosi: Biostatisztika

(a)
0.4

0.3

0.2

0.1

0.0

0 2 4 6 8 10

Érték

(b)
0.25
0.20
0.15
0.10
0.05
0.00

0 2 4 6 8 10

Érték

(c)

0.30
0.25
0.20
0.15
0.10
0.05
0.00

0 2 4 6 8 10

Érték

3.6. ábra. Három hipergeometrikus eloszlás valószínűségi függvénye: N = 120, K = 15


és n = 10 (a); N = 120, K = 60 és n = 10 (b); N = 120, K = 90 és n = 10 (c). (Az
elsővel modelleztük a balkezesek számát tízelemű, visszatevés nélkül vett mintában egy
olyan 120 fős populációból, amelyben a balkezesek száma 15)
3.5. A statisztikában leggyakrabban használt eloszlások 71

Természetesen azt is figyelembe kell venni, hogy a mintába – visszatevés nélküli min-
tavételről lévén szó – nem kerülhet több balkezes, mint ahány a populációban van (ez a
jobbkezesekre is igaz). Ezt célozza az a megállapodás, hogy ha i < j, akkor ji = 0.

Az R-ben a valószínűségeket a dhyper() függvénnyel számolhatjuk ki. A


függvény paraméterezése és a paraméterek jelölése eltér a valószínűségszámí-
tásban megszokottól. Az R-es paraméterezés megértéséhez segítségképpen
nézzük meg, hogy a fenti példabeli valószínűségeket hogyan kaphatjuk meg
az R programmal!

3.5. példa. Balkezesek száma – hipergeometrikus eloszlás, dhyper() függvény


A fenti példánál maradva, a dhyper() függvénynek a következő paramétereket kell
megadnunk: m = 15 a balkezesek száma, n = 120 − 15 = 105 a jobbkezesek száma,
k = 10 a mintanagyság. Az első paraméter, x az a darabszám, amelyhez tartozó va-
lószínűségre kíváncsiak vagyunk. Ez lehet egy több értékből álló vektor is, és akkor a
program mindegyiknek kiszámítja a valószínűségét. Most az összes lehetséges értékhez
(0-tól 10-ig) szeretnénk megkapni a valószínűségeket, ezért a 0:10 vektort adjuk meg
első paraméterként.
> dhyper(x = 0:10, m = 15, n = 105, k = 10)

[1] 2.4855e-01 3.8836e-01 2.5223e-01 8.9225e-02 1.8926e-02


[6] 2.4983e-03 2.0613e-04 1.0393e-05 3.0271e-07 4.5277e-09
[11] 2.5873e-11

Gyakorlásképpen kézzel is számoljuk ki mondjuk annak a valószínűségét, hogy a tízelemű


mintába három balkezes kerül!
  
15 105 15 · 14 · 13 105 · 104 · . . . · 100 · 99
3 7 ·
P (X = 3) =   = 1·2·3 1 · 2 · ... · 6 · 7 = 0.089.
120 120 · 119 · . . . · 112 · 111
10 1 · 2 · . . . · 9 · 10

A hipergeometrikus eloszlás valószínűségi függvényét néhány további N ,


K, n értékre a 3.6. ábrán láthatjuk. Figyeljük meg, hogy a hipergeometrikus
eloszlás 50%-os populációbeli arány esetén szimmetrikus, 50%-nál kisebb
esetén jobbra, nagyobb esetén pedig balra ferde! Azt is észrevehetjük, hogy
a valószínűség éppen a populációbeli aránynak megfelelő mintabeli arány,
K/N (a példában 15/120 = 0.125 = 12.5%) közelében lesz maximális (azaz
a mintabeli arány többé-kevésbé a populációbeli arányt tükrözi). Jegyezzük
meg, hogy az N, K, n paraméterű hipergeometrikus változó várható értéke
E(X) = n · K/N , azaz a mintaelemszám szorozva a populációbeli aránnyal,
ami a jelen esetben 10 · 15/120 = 10 · 0.125 = 1.25!
72 Reiczigel – Harnos – Solymosi: Biostatisztika

A binomiális eloszlás

A binomiális eloszlásnak két paramétere van: n és p. Jelentésüket megint


csak egy példával szemléltetjük.

3.6. példa. Balkezesek száma – binomiális eloszlás


Tegyük fel, hogy most egy olyan populációnk van, amelyben a balkezesek aránya
p = 0.08 azaz 8%! Válasszunk ki visszatevéssel n = 10 főt, és számoljuk meg, hány
balkezest találunk közöttük! A balkezesek száma a tíz fős mintában n = 10, p = 0.08 pa-
raméterű binomiális eloszlású valószínűségi változó, lehetséges értékei a 0-tól n = 10-ig
terjedő egész számok. Az egyes értékekhez tartozó valószínűségek az alábbi táblázatban,
a valószínűségi függvény pedig a 3.7. (a) ábrán látható.

Érték 0 1 2 3 4 5 ...
Valósz. 0.4344 0.3777 0.1478 0.0343 0.0052 0.0005 ...

Az 5-nél nagyobb értékekhez tartozó valószínűségek már nagyon kicsik, négy tizedes-
jegyre nullák, ezért elhagytuk őket a táblázatból.

Figyeljük meg, hogy most – mivel visszatevéses mintavételről van szó –


elegendő azt ismerni, hogy mekkora a balkezesek aránya a populációban, az
nem számít, hogy ez az arány mekkora létszámokból adódik ki, vagyis hogy
hogy hány fős a populáció, és abból hányan balkezesek. Így a binomiális
eloszlásnak eggyel kevesebb paramétere van, mint a hipergeometrikusnak.
A binomiális eloszlás valószínűségeit kézzel a
!
n k
P (X = k) = p (1 − p)n−k
k

képlettel, R-ben pedig a dbinom() függvénnyel számíthatjuk ki. A képletben


X a valószínűségi változót, k pedig a 0 és n közötti számok valamelyikét
jelöli. A dbinom() függvényben a paraméterek neve: size a mintanagy-
ság (a fenti n) és prob a populációbeli valószínűség (a fenti p). Hasonlóan a
dhyper() függvényhez, az első paraméter, x itt is az a darabszám, amelyhez
tartozó valószínűségre kíváncsiak vagyunk. Ha egyszerre több érték valószí-
nűségét akarjuk kiszámolni, megadhatunk vektort is. Illusztrációként most
is kiszámoljuk az összes lehetséges értékhez (0-tól 10-ig) tartozó valószínű-
séget.
3.5. A statisztikában leggyakrabban használt eloszlások 73

(a)

0.4

0.3

0.2

0.1

0.0

0 2 4 6 8 10

Érték

(b)
0.25
0.20
0.15
0.10
0.05
0.00

0 2 4 6 8 10

Érték

(c)

0.25
0.20
0.15
0.10
0.05
0.00

0 2 4 6 8 10

Érték

3.7. ábra. Három binomiális eloszlás valószínűségi függvénye: n = 10, p = 0.08 (a);
n = 10, p = 0.5 (b); n = 10, p = 0.75 (c). (Az elsővel modelleztük a balkezesek számát
tízelemű, visszatevéssel vett mintában egy olyan populációból, amelyben a balkezesek
aránya 8%)
74 Reiczigel – Harnos – Solymosi: Biostatisztika

3.7. példa. Balkezesek száma – binomiális eloszlás, dbinom() függvény


> dbinom(0:10, size = 10, prob = 0.08)

[1] 4.344e-01 3.777e-01 1.478e-01 3.427e-02 5.215e-03 5.442e-04


[6] 3.944e-05 1.960e-06 6.390e-08 1.235e-09 1.074e-11

Gyakorlásképpen itt is számoljunk ki kézzel egy valószínűséget, mondjuk annak a


valószínűségét, hogy a visszatevéssel vett tízelemű mintába két balkezes kerül!
 
10 10 · 9
P (X = 2) = · 0.082 · 0.928 = · 0.0064 · 0.5132 = 0.1478.
2 1·2

Hasonlóan a hipergeometrikus eloszláshoz, a binomiális eloszlás is egy-


csúcsú, 50%-os populációbeli arány esetén szimmetrikus, egyébként ferde
(lásd 3.7. ábra). A valószínűség itt is a populációbeli aránynak megfelelő
mintabeli arány közelében lesz maximális, és a várható érték is – ugyanúgy
mint a hipergeometrikus eloszlásnál – a mintaelemszám szorozva a populáci-
óbeli aránnyal, vagyis egy n, p paraméterű binomiális változóra E(X) = np.
A binomiális eloszlást visszatevés nélküli mintavétel esetén a hipergeo-
metrikus eloszlás közelítésére is szokták használni, mert ha a minta kicsi
a populációhoz képest, akkor a két eloszlás nem nagyon tér el egymástól
(vö. 26. oldal), és nagy populációk esetén könnyebb a binomiális eloszlással
számolni. A konvencionális határ, amitől a közelítést már megengedhető-
nek tekintik, ha a minta kisebb a populáció 5%-ánál (a legtöbb gyakorlati
esetben ez teljesül). Az alábbi példa a két eloszlás hasonlóságát szemlélteti
abban az esetben, ha egy 200 fős populációból veszünk 10 elemű mintát.

3.8. példa. Hipergeometrikus eloszlás közelítése binomiálissal


Egy olyan 200 fős populációból választunk visszatevés nélkül, illetve visszatevéssel 10
elemű mintát, amelyben a vizsgált tulajdonság 20 egyedben, vagyis a populáció 10%-
ában fordul elő. A vizsgált tulajdonsággal rendelkezők száma a mintában visszatevés
nélküli mintavétel esetén N = 200, K = 20 és n = 10 paraméterű hipergeometrikus,
visszatevéses mintavétel esetén pedig n = 10, p = 0.1 paraméterű binomiális eloszlást
követ.
A valószínűségek (a 6-nál nagyobb valószínűségeket azért nem írtuk ki, mert négy tize-
desre már mind nullák):
Érték 0 1 2 3 4 5 6
Val. (hipg.) 0.3398 0.3974 0.1975 0.0548 0.0094 0.0010 0.0001
Val. (bin.) 0.3487 0.3874 0.1937 0.0574 0.1116 0.0015 0.0001

A táblázatban látható valószínűségeket a dhyper(0:10, m = 20, n = 180, k = 10),


illetve a dbinom(0:10, size = 10, prob = 0.1) R-parancsok segítségével kaptuk.
3.5. A statisztikában leggyakrabban használt eloszlások 75

A Poisson- és a negatív binomiális eloszlást akkor használjuk, ha a kérdés


„hány. . . ?”, „hányszor. . . ?”, de nem előre rögzített számú n megfigyelésből.
Ilyenek például „egy éjszakai ügyelet alatt hány beteg érkezik?”, „hányszor
kell kockával dobni az első hatosig?”, „hány bolhát találunk egy kutyán?”
stb. Ezek is diszkrét eloszlások, lehetséges értékeik szintén nemnegatív egé-
szek, de elvileg felső korlát nélkül (gyakorlatilag persze a valószínűségek
nagy számokra már közel nullák). Kettőjük közül csak a Poisson-eloszlásról
írunk részletesen.

3.5.2. A Poisson-eloszlás
A Poisson-eloszlást olyankor használhatjuk valószínűségi változók modelle-
zésére, ha gyakoriságot számolunk egy adott időtartamban, területen, tér-
részben, anyagmennyiségben stb. Példák időtartamokkal: telefonhívások, ri-
asztások, balesetek száma stb. Példák területtel: sejtszámok egy mikroszkóp
tárgylemezén, növények vagy állatok száma egy területen (pl. fotón) stb.
Példák anyagmennyiséggel: mikrobák száma 1 dl vízben, földigiliszták szá-
ma 1 köbméter talajban, borsószemek száma egy adag borsólevesben stb.
A Poisson-eloszlásnak egyetlen paramétere van, a vizsgált jelenségre jel-
lemző átlagos gyakoriság, amelyet λ-val (lambda, görög betű) szokás jelölni.
Ha a jelenségre igaz a következő két feltétel, akkor a változó eloszlása
a Poisson-eloszlással jól modellezhető, azaz a Poisson-eloszlásból számolt
valószínűségek a megfigyelt gyakoriságokkal jó egyezést mutatnak.
1. Diszjunkt (= nem átfedő) időintervallumokban, területrészeken, anyag-
mennyiségekben a gyakoriságok egymástól függetlenek, azaz például
abból, hogy az egyikben a szokásosnál nagyobb a gyakoriság, nem
vonhatunk le semmilyen következtetést a másikra nézve.
2. Ha diszjunkt időintervallumokat, területrészeket, anyagmennyiségeket
egyesítünk, akkor az egyesítésükhöz tartozó átlagos gyakoriság a ré-
szekhez tartozó átlagos gyakoriságok összege lesz.
A második feltételből az is következik, hogy ha – mondjuk időbeli jelen-
ségre gondolva – a percenkénti átlagos gyakoriság λ, akkor a kétpercenkénti
2λ, az óránkénti 60λ stb.
A Poisson-eloszlás nevét Simeon Denis Poisson (1781–1840) francia ma-
tematikusról kapta, tehát semmi köze a halakhoz (franciául, a mérgekhez
pedig még kevésbé). A lehetséges értékek a nemnegatív számok, és bár elmé-
letileg mindegyiknek pozitív valószínűsége van, a nagy értékek valószínűsége
már gyakorlatilag elhanyagolhatóan kicsi.
76 Reiczigel – Harnos – Solymosi: Biostatisztika

A valószínűségeket kézzel a

λk −λ
P (X = k) = e
k!
képlettel, az R-ben pedig a dpois() függvénnyel számolhatjuk ki. A kép-
letben X most is a valószínűségi változót, k pedig a 0, 1, 2, 3, . . . értékek va-
lamelyikét jelöli. A függvényben az eloszlás paraméterének a neve lambda,
és ugyanúgy, mint a dhyper() és a dbinom() függvényekkel, ezzel is kiszá-
míthatjuk egyszerre több érték valószínűségét.

3.9. példa. Percenkénti hívásszámok a mentőknél – Poisson-eloszlás


Tegyük fel, hogy egy városban a mentőkhöz átlagosan kétpercenként fut be hívás! Ha
a percenkénti hívásszámot a Poisson-eloszlással akarjuk modellezni, akkor az eloszlás
paramétere a percenkénti átlagos hívásszám lesz, amely esetünkben – a második felté-
tellel összhangban – 0.5. Jegyezzük meg, hogy bár a változó értékei csak egész számok
lehetnek, az átlagos hívásszámnak nem kell egész számnak lennie! Tehát a percenkénti
hívásszám a λ = 0.5 paraméterű Poisson-eloszlással modellezhető. A modell a következő
valószínűségeket szolgáltatja:

Érték 0 1 2 3 4 5 6 ...
Valósz. 0.6065 0.3033 0.0758 0.0126 0.0016 0.0002 0.0000 ...

Látjuk, hogy a modellben – bár elvileg bármilyen nagy számnak is nullánál nagyobb a
valószínűsége – percenként hat vagy annál több hívás gyakorlatilag már elhanyagolha-
tóan csekély valószínűségű.

Az eloszlás valószínűségi függvényét a 3.8. (a) ábrán láthatjuk. Az ábrán összehasonlí-


tásképpen két további λ-hoz tartozó Poisson-eloszlást is láthatunk. Figyeljük meg, hogy
az eloszlás egycsúcsú, csúcsa (módusza) a λ körül van, és minél nagyobb a λ, annál
kevésbé ferde az eloszlás!

Gyakorlásképpen számoljuk ki kézzel is annak a valószínűségét, hogy egy találomra


kiválasztott egyperces intervallumban a mentőkhöz három hívás fut be!
0.53 −0.5 0.125
P (X = 3) = e = 0.607 = 0.013.
3·2·1 6
Ugyanez R-ben:
> dpois(x = 3, lambda = 0.5)

[1] 0.012636
3.5. A statisztikában leggyakrabban használt eloszlások 77

(a)
0.6
0.5
0.4
0.3
0.2
0.1
0.0

0 5 10 15 20

Gyakoriság

(b)
0.25
0.20
0.15
0.10
0.05
0.00

0 5 10 15 20

Gyakoriság

(c)
0.12
0.10
0.08
0.06
0.04
0.02
0.00

0 5 10 15 20

Gyakoriság

3.8. ábra. Három Poisson-eloszlás valószínűségi függvénye: λ = 0.5 (a); λ = 2.5 (b); és
λ = 10 (c). (Az elsőt használtuk a percenkénti hívásszám modellezésére a mentőknél,
amikor átlagosan kétpercenként érkezett hívás)
78 Reiczigel – Harnos – Solymosi: Biostatisztika

A Poisson-eloszlást a binomiális eloszlás közelítésére is szokták használni,


mert nagy n és p esetén a binomiálissal már nehéz számolni. Mivel az n, p
paraméterű binomiálisnál az átlagos gyakoriság vagy várható érték np (120
kockadobásból átlagosan 120 · 1/6 = 20 hatost várunk), az n, p paraméterű
binomiálist a λ = np paraméterű Poissonnal szokták közelíteni. A gyakor-
latban a közelítést csak kézi számításokhoz (statisztika dolgozat) vagy 1000
feletti n-ekre használjuk, amikor a binomiálissal való számolás már számí-
tógéppel is különleges programokat igényel. Megjegyezzük, hogy nagy λ-ra
a Poisson-eloszlás a normális eloszlással (lásd a következő pontban) közelít-
hető. Ezzel összhangban, ha egy olyan binomiálisunk van, ahol nemcsak az
n, hanem az np is nagy, akkor azt is közelíthetjük normális eloszlással.
p
Az n, p paraméterű binomiálist a µ = np, σ = np(1 − p) paraméterű normálissal,

a λ paraméterű Poissont a µ = λ, σ = λ paraméterű normálissal közelítjük. Például
egy n = 200, p = 0.2 paraméterű binomiálist közelíthetünk egy λ = 40 paraméterű
Poissonnal, vagy egy µ = 40, σ = 32 paraméterű normálissal. Egy λ = 50 paraméterű
Poisson közelítésére pedig egy µ = 50, σ = 7.07 paraméterű normálist használhatunk. A
normális eloszlás µ, σ paramétereinek jelentését lásd a következő pontban.

3.5.3. A normális eloszlás


A leggyakrabban használt folytonos eloszlás a normális eloszlás vagy
Gauss-eloszlás (normal distribution, Gaussian distribution). Olyan mért
értékek modellezésére használják, ahol az értékek egy középérték közelében
a legvalószínűbbek, a középértéktől távolodva mindkét irányban szimmet-
rikusan csökken az értékek valószínűsége. Két paramétere az átlag vagy
várható érték (µ) és a szórás (σ).
A matematikai statisztikában szokásos paraméterezésben a paraméterek a várható
érték (µ) és a variancia (σ 2 ). Mi ebben a könyvben nem jutunk olyan messzire a statisz-
tikában, hogy a variancia helyett szórással való paraméterezés hátrányaitól szenvednünk
kellene, és így összhangban leszünk az R-es paraméterezéssel.

Sűrűségfüggvénye az úgynevezett haranggörbe vagy Gauss-görbe (3.9.


ábra). Azt a normális eloszlást, amelyiknek átlaga µ = 0 és szórása σ = 1,
standard normális eloszlásnak (standard normal distribution) nevezik
(3.10. ábra).
3.5. A statisztikában leggyakrabban használt eloszlások 79

0.4

0.3 N(0,1)

0.2
N(2,2)
0.1 N(0,3)

0.0

−10 −5 0 5 10

Érték

3.9. ábra. Különböző átlagú és szórású normális eloszlások sűrűségfüggvényei. Az


N(0,1) jelentése: normális eloszlás µ = 0 (átlag) és σ = 1 (szórás) paraméterekkel. A
µ a sűrűségfüggvény csúcsának a helyzetét mondja meg (hogy hol a legvalószínűbbek
az értékek), a σ pedig azt, hogy a sűrűségfüggvény mennyire koncentrálódik az átlag
köré (minél kisebb a szórás, annál koncentráltabb az eloszlás)

(a) (b)
0.4 1.0

0.3 0.8
0.6
0.2
0.4
0.1 0.2
0.0 0.0

−4 −2 0 2 4 −4 −2 0 2 4

Érték Érték

3.10. ábra. A µ = 0, σ = 1 paraméterű normális eloszlás (az úgynevezett standard


normális eloszlás) sűrűségfüggvénye (a) és eloszlásfüggvénye (b)

A normális eloszlás fontos tulajdonsága, hogy normális eloszlású változók


összege, különbsége és számszorosa is normális eloszlást követ. Nevezetesen,
ha az X1 változó µ1 átlagú és σ1 szórású, X2 pedig µ2 átlagú és σ2 szórású
normális eloszlást követ, akkor
80 Reiczigel – Harnos – Solymosi: Biostatisztika
q
• X1 + X2 eloszlása is normális µ = µ1 + µ2 átlaggal és σ = σ12 + σ22
szórással; q
• X1 − X2 eloszlása is normális µ = µ1 − µ2 átlaggal és σ = σ12 + σ22
szórással;
• cX1 eloszlása is normális cµ1 átlaggal és |c|σ1 szórással.
Tehát az átlagok egyszerűen összeadódnak, kivonódnak vagy szorzódnak, a
szórás azonban bonyolultabban adódik. (Vegyük észre, hogy a különbségnél
is össze kell adni a szórások négyzetét, a számmal szorzásnál pedig a szám
abszolút értékével kell szorozni!)
A fentiekből az is következik, hogy k darab azonos eloszlású (µ átlagú és σ
szórású) normális változó átlaga is normális eloszlású, mégpedig ugyancsak

µ átlaggal, de σ/ n szórással.

3.5.4. További folytonos eloszlások


A statisztikában fontos folytonos eloszlások még a Student-féle t-eloszlás
(Student’s t distribution), a khi-négyzet-eloszlás (chi-square distribution) és
az F -eloszlás (F distribution).
Nekünk az induktív statisztában – becsléseknél és hipotézisvizsgálatok-
nál – lesz szükségünk rájuk (az 5. fejezettől kezdve). Ezek is mind csalá-
dok, a t-eloszlásnak és a khi-négyzet- (χ2 ) eloszlásnak egy-egy paramétere
van, amelyet szabadsági foknak (degrees of freedom, df) neveznek. Az F -
eloszlásnak két paramétere van, és mindkettőt szabadsági foknak nevezik
(tehát az F -eloszlásnak két szabadsági foka van).
A t-eloszlás 0-ra szimmetrikus eloszlás, sűrűségfüggvénye a standard nor-
mális eloszlás haranggörbéjéhez hasonló alakú (minél nagyobb a szabadsági
foka, annál inkább). A khi-négyzet- és az F -eloszlás jobbra ferde eloszlá-
sok, a szabadsági fokoktól függően eltérő mértékben. Sajnos ezen eloszlások
rövid ismertetése is meghaladná e könyv kereteit.
A R-ben ezeknek az eloszlásoknak a sűrűség-, és eloszlásfüggvényei is
rendelkezésre állnak, a sűrűségfüggvények:
dnorm(), dt(), dchisq(), df();
az eloszlásfüggvények:
pnorm(), pt(), pchisq(), pf();
az eloszlásfüggvények inverz függvényei pedig:
qnorm(), qt(), qchisq(), qf().
A statisztikai számításokhoz általában az eloszlásfüggvényekre és inver-
zeikre van szükség.
Normális, Student-t-, khi-négyzet- és F -eloszlású véletlen számok generálására hasz-
nálhatók a függvénycsalád „r” betűvel (mint random = véletlen) kezdődő nevű tagjai:
3.5. A statisztikában leggyakrabban használt eloszlások 81

rnorm(), rt(), rchisq(), rf(). A használatukkal kapcsolatos részleteket lásd az R súgó-


jában.

Az eloszlásfüggvény azt mondja meg, hogy az X valószínűségi változó


milyen valószínűséggel vesz fel egy adott x értéknél kisebb értékeket, azaz
F (x) = P (X < x) (vö. 3.10. (b) ábra), az inverzével pedig egy adott p való-
színűséghez kereshetjük meg azt az x úgynevezett kritikus értéket, amely-
nél kisebb vagy nagyobb értékek össz-valószínűsége éppen p, azaz amelyre
F (x) = p vagy F (x) = 1 − p.
Használatukra néhány példa:

3.10. példa. Számolás eloszlásfüggvényekkel


Számítsuk ki, hogy egy µ = 12 várható értékű és σ = 2 szórású normális eloszlású
változó mekkora valószínűséggel vesz fel 10-nél kisebb értéket!
> pnorm(10, mean = 12, sd = 2)

[1] 0.15866

Ugyanaz a µ = 12 várható értékű és σ = 2 szórású normális eloszlású változó mekkora


valószínűséggel vesz fel 15-nél nagyobb értéket?
> 1 - pnorm(15, mean = 12, sd = 2)

[1] 0.066807

Jegyezzük meg, hogy mivel egy folytonos változónál minden egyes érték valószínűsége
0, nincs különbség a „nagyobb” és a „nagyobb vagy egyenlő” között!
A fenti valószínűségek kapcsolatát a változó sűrűség-, illetve eloszlásfüggvényével a 3.11.
ábra szemlélteti.
Egy standard normális eloszlású változó mekkora valószínűséggel vesz fel 3-nál nagyobb
értéket?
> 1 - pnorm(3)

[1] 0.0013499

Standard normális eloszlás esetén nem kell kiírnunk, hogy mean = 0, sd = 1, mert ez
az alapértelmezés.
Egy df = 10 szabadsági fokú t-eloszlású változóhoz melyik érték az, amelynél kisebb
értékek össz-valószínűsége 5%? (Ez az egyik oldali 5%-os kritikus érték.)
> qt(0.05, df = 10)

[1] -1.8125

Egy df = 10 szabadsági fokú t-eloszlású változóhoz melyik érték az, amelynél nagyobb
értékek össz-valószínűsége 5%? (Ez a másik oldali 5%-os kritikus érték.)
> qt(0.95, df = 10)
82 Reiczigel – Harnos – Solymosi: Biostatisztika

[1] 1.8125

A t-eloszlás – a standard normálishoz hasonlóan – a 0-ra szimmetrikus, ezért a fenti két


kritikus érték egymásnak ellentettje (−1-szerese).
Egy standard normális eloszlású változóhoz melyik az a két – 0-ra szimmetrikusan el-
helyezkedő – érték, amelynél nagyobb és kisebb értékek össz-valószínűsége együttesen
5%? (Ez az úgynevezett kétoldali 5%-os kritikus érték.)
> qnorm(0.025)

[1] -1.9600

> qnorm(0.975)

[1] 1.9600

Az 1.96 értéket érdemes megjegyezni, a későbbiekben még sokszor elő fog kerülni.

A számítógépek elterjedése előtt a számításokhoz szükséges kritikus ér-


tékeket úgynevezett eloszlástáblázatokból kellett kiolvasni. Ilyen eloszlás-
táblázatokat a függelékben mi is bemutatunk (statisztika dolgozatokhoz
szükség lehet rájuk).
Azt, hogy a valószínűségi változókkal, illetve az eloszlásokkal valós jelen-
ségeket modellezünk, az angol szóhasználat azzal is hangsúlyozza, hogy az
eloszlás szinonímájaként a modell kifejezést használja, mint például bino-
miális modell (binomial model), Poisson-modell (Poisson model) stb.

3.6. A valószínűségszámítás és a statisztika


kapcsolata
Sokszor emlegetett tény, hogy a statisztika felhasználja a valószínűségszá-
mítást, de viszonyuk a bevezető kurzusok során nem mindig tisztázódik
kielégítően. Nagyon röviden, egyetlen példán keresztül szeretnénk érzékel-
tetni, hogy lényegében ugyanaz a kérdés hogy fest a valószínűségszámítás,
és hogy a statisztika szemszögéből nézve.
Egy tipikus valószínűségszámítási kérdésfeltevés: „Ha egy betegség pre-
valenciája (= előfordulási gyakorisága) a populációban 20%, akkor mennyi
annak a valószínűsége, hogy 50 véletlenszerűen választott egyed között négy
beteget találunk?”
Ez a valószínűség a binomiális eloszlással számolható ki: annak a va-
lószínűségére vagyunk kíváncsiak, hogy egy n = 50, p = 0.2 paraméterű
binomiális eloszlású változó éppen a 4 értéket veszi fel. Az R-rel számolva:
3.6. A valószínűségszámítás és a statisztika kapcsolata 83

(a)
0.20

0.15

0.10

0.05 0.1587 0.0668

0.00

10 12 15

Érték

(b)
1
0.9332
1−0.9332=0.0668

0.1587

10 12 15

Érték

3.11. ábra. A 3.10. példában a µ = 12, σ = 2 paraméterű normális eloszlásra kiszámolt


valószínűségek ábrázolása a normális eloszlás sűrűségfüggvénye (a) és eloszlásfüggvénye
(b) segítségével
84 Reiczigel – Harnos – Solymosi: Biostatisztika
Annak a valószínűsége, hogy egy 50 elemű
0.20

0.15
mintában 4 beteg van

0.10

0.05

0.00
0.00

0.05

0.10

0.15

0.20

0.25

0.30
Betegek aránya a populációban

3.12. ábra. Melyik populáció az, amelyikből a legnagyobb valószínűséggel kapnánk a


ténylegesen megfigyelt mintát? (A maximum likelihood módszer alapgondolata)

> dbinom(4, size = 50, prob = 0.2)

[1] 0.012840

Az induktív statisztika tipikus kérdésfeltevése: „Ha 50 véletlenszerűen


választott egyed között négy beteget találunk, akkor mit állíthatunk a be-
tegség populációbeli prevalenciájáról?”
A döntő különbség az, hogy a valószínűségszámításban a populáció tu-
lajdonságait ismertnek feltételezve kérdezzük, hogy milyen valószínűséggel
lesz egy véletlen minta ilyen vagy amolyan, míg a statisztikában a populá-
ció ismeretlen, csak a mintát ismerjük, és ebből próbálunk következtetni a
populáció tulajdonságaira. Kicsit általánosabban fogalmazva, a valószínű-
ségszámításban a kérdés mindig az, hogy egy ismertnek feltétele-
zett világban hogyan zajlanak a történések, a statisztikában pedig
megfigyelünk bizonyos történéseket, és azt próbáljuk kideríteni,
milyen is az a világ, amelyben ezek a történések végbemennek.
Vagyis a valószínűségszámítás elméleti, míg a statisztika empirikus tudo-
mány.
Ahogyan a statisztika felhasználja a valószínűségszámítást, az a hétköz-
napi gondolkodás számára nem mindig a legtermészetesebb. A fenti kér-
déssel kapcsolatban például így: „Az összes elképzelhető populáció közül
melyikről a leghihetőbb, hogy pont egy olyan 50 elemű minta jön ki belő-
le, amelyet valóban kaptunk, vagyis amelyben 4 beteg van?” Ha minden
3.6. A valószínűségszámítás és a statisztika kapcsolata 85

lehetséges populációbeli prevalenciára a binomiális eloszlás segítségével ki-


számoljuk annak a valószínűségét, hogy éppen egy ilyen minta jön ki belőle,
az eredményekből a 3.12. ábrán látható kép alakul ki. Erről leolvasható,
hogy a legnagyobb valószínűséggel egy olyan populációból kerül ki ilyen
minta, amelyikben a prevalencia 8%. Tehát a megfigyelt minta alapján azt
tartjuk leghihetőbbnek, hogy az ismeretlen populációs prevalencia 8%. Ha
a Kedves Olvasó ezt a gondolatmenetet nem érzi haszontalan őrültségnek,
ha úgy érzi, hogy „lehet benne valami”, akkor van érzéke a statisztikai gon-
dolkodásmódhoz. (De azért a többiek se adják fel ilyen hamar!) A fenti
gondolatmenet egyébként az ismeretlen populációs paraméterek meghatá-
rozására szolgáló módszerek között az egyik legjobbnak tartott módszer, az
úgynevezett maximum likelihood (ML) módszer alapelve (további részleteit
lásd az 5.3.2. fejezetben).
4. Leíró statisztika
Mint már említettük a 2.2. fejezetben, a leíró statisztika célja az adatokban
rejlő információ minél tömörebb és szemléletesebb kifejezése, eszközei pedig
a különféle táblázatok, diagramok és statisztikai mérőszámok. Ezek közül a
legelterjedtebbeket vesszük most sorra.
Újra hangsúlyozni szeretnénk, hogy a leíró statisztika módszereinek az
induktív statisztikán belül is van létjogosultsága, hiszen az elemzéshez hasz-
nált eljárások mindegyikének többé-kevésbé szigorú alkalmazhatósági felté-
telei vannak (még a nemparaméteres módszereknek is!), amelyeket a lelki-
ismeretes kutató nem mulaszt el ellenőrizni. Csak néhány kiragadott példa:
a t-próbánál (195. oldal) és a varianciaelemzésnél (313. oldal) az eloszlás
normalitása, illetve a szórások egyenlősége, a Wilcoxon előjeles rangtesztnél
(231. oldal) az eloszlás szimmetrikus volta, a Mann–Whitney próbánál (235.
oldal) az eloszlások alakjának azonossága stb. Nem sokat ér az az elemzés,
amely hibás előfeltevéseken alapul, az alkalmazhatósági feltételek ellenőrzé-
sére pedig legtöbbször a leíró statisztika módszereire is szükség van.
Egy meglepő dolog: hétköznapi ésszel az ember azt gondolná, hogy az alkalmazható-
sági feltételeket mindig a módszer alkalmazása előtt kell megvizsgálni, de ez nem mindig
lehetséges ebben a logikus sorrendben. Például a varianciaelemzésnél vagy a regressziószá-
mításnál el kell végeznünk az elemzést ahhoz, hogy a reziduumokat megkapjuk, csak utána
tudjuk megvizsgálni, hogy a reziduumok normális eloszlást követnek-e (9.10. fejezet). De
ez egyáltalán nem baj, csak első látásra tűnik kissé furcsának.

Másrészt a leíró statisztikában használt mérőszámokat az induktív sta-


tisztikában is változatlan formában – csak más szerepben – használjuk. Ek-
kor egy, a mintából számolt mérőszámra úgy tekintünk, mint a populációbeli
megfelelőjének a becslésére (lásd a becslésről szóló 5. fejezetet).

4.1. Táblázatok és ábrák


A táblázatok az adatok megfelelő csoportosítása és rendezése révén, a di-
agramok pedig a vizuális megjelenítés információgazdagsága miatt sokkal
kifejezőbbek, mint az egyszerű szöveges leírás. Ezért a táblázatok és ábrák

87
88 Reiczigel – Harnos – Solymosi: Biostatisztika

nélkülözhetetlenek a lényeges összefüggések szemléletessé és érthetővé téte-


léhez. Fontos, hogy olyan diagramot válasszunk, amely valóban az adatok
közölni kívánt aspektusát jeleníti meg, illetve hangsúlyozza. A diagram meg-
választásában nagy szerepet játszik az ábrázolandó adatok típusa, mérési
skálája is.

4.1.1. Egy változó ábrázolása


Nominális vagy ordinális skálájú adatok (faktorok)

Nominális vagy ordinális adatok – faktorok – ábrázolásának legtermészete-


sebb módja az egyes kategóriák gyakoriságának megadása gyakoriságtáblá-
zat vagy oszlopdiagram formájában. Mindkettő lehet relatív, amely a meg-
figyelések darabszáma helyett a százalékos megoszlásukat mutatja.

4.1. példa. Kocák alomszáma – gyakoriságtáblázat és oszlopdiagram


Anyakocák szaporaságát (születési alomszám) vizsgálták egy tenyészetben. Az egyes
alomszám értékek gyakoriságát és relatív gyakoriságát tartalmazza a következő gyako-
riságtáblázat:

alomszám születéskor gyakoriság (db) rel.gyak. %


6 3 0.029 2.9
7 7 0.067 6.7
8 12 0.114 11.4
9 20 0.190 19.0
10 31 0.295 29.5
11 17 0.162 16.2
12 8 0.076 7.6
13 5 0.048 4.8
14 2 0.019 1.9
összesen: 105 1.000 100.0

A táblázatból készített oszlopdiagramok a 4.1. ábrán láthatóak.

Ha a változó ordinális skálájú, azaz a kategóriák rendezettek, akkor ké-


szíthetünk kumulatív táblázatot vagy diagramot is. Ez azt jelenti, hogy egy
kategóriához nem az adott kategória gyakoriságát jelenítjük meg, hanem
azt a kumulált (halmozott) gyakoriságot, amely az összes, a rendezésben
őt megelőző kategóriát is magában foglalja (vö. 35. oldal). Így az utol-
só kategória kumulált gyakorisága éppen a mintanagysággal lesz egyenlő.
Kombinálhatjuk is ezt a két módszert, azaz készíthetünk relatív kumulatív
4.1. Táblázatok és ábrák 89

(a) (b)
30 0.30

Relatív gyakoriság
0.25
Gyakoriság (db)

25
20 0.20
15 0.15
10 0.10
5 0.05
0 0.00
6 8 10 12 14 6 8 10 12 14

Alomszám Alomszám

4.1. ábra. Anyakocák szaporaságának oszlopdiagramjai darabszámmal (a), illetve re-


latív gyakorisággal (b). Figyeljük meg, hogy a két oszlopdiagram egyforma, csak az y
tengely skálázása különböző!

(a) (b)
10 0.35
Relatív gyakoriság

0.30
8
Gyakoriság

0.25
6 0.20
4 0.15
0.10
2
0.05
0 0.00
1 2 3 4 5 6 1 2 3 4 5 6

Inszeminálások száma Inszeminálások száma

(c) (d)
30 1.0
Relatív gyakoriság

25
0.8
Gyakoriság

20
0.6
15
10 0.4

5 0.2
0 0.0
1 2 3 4 5 6 1 2 3 4 5 6

Inszeminálások száma Inszeminálások száma

4.2. ábra. Tehenek megtermékenyüléséhez szükséges inszeminálások számának osz-


lopdiagramja (a), a relatív gyakoriságok oszlopdiagramja (b), a kumulált gyakoriságok
oszlopdiagramja (c), a relatív kumulált gyakoriságok oszlopdiagramja (d)
90 Reiczigel – Harnos – Solymosi: Biostatisztika

táblázatot vagy diagramot is: ekkor a kategóriákhoz a halmozott százalékos


gyakoriságok tartoznak, az utolsóhoz 100% (4.2. ábra).

4.2. példa. Inszeminálások száma – gyakoriságtáblázatok és diagramok


Tehenek megtermékenyüléséhez szükséges inszeminálások száma egy állományban (gya-
koriságok):
1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 5, 5, 6
Gyakoriságtáblázat készítése a table() függvénnyel, ha az adatokat az inszem R-
objektum tartalmazza:
> inszem=c(rep(1,7),rep(2,9),rep(3,5),rep(4,3),rep(5,2),rep(6,1))
> table(inszem)

inszem
1 2 3 4 5 6
7 9 5 3 2 1

Relatív gyakoriságok kiszámítása a gyakoriságokból a prop.table() függvénnyel:


> prop.table(table(inszem))

inszem
1 2 3 4 5 6
0.25925926 0.33333333 0.18518519 0.11111111 0.07407407 0.03703704

Figyeljük meg, hogy a prop.table() függvénybe egyszerűen beletettük a


table(inszem) függvényt. Ez azt eredményezi, hogy az R a belső table(inszem)
függvény eredményére fogja alkalmazni a külső, prop.table() függvényt. Így R-ben
nagyon röviden leírhatunk bonyolult dolgokat (kérdés persze, hogy pár hét vagy hónap
múlva emlékszünk-e még rá, hogy mit is csináltunk – ha ez is fontos, akkor célszerűbb
lemondani a tömörségről).

A kumulatív gyakoriságok (jelentésük: legfeljebb ennyi inszeminálásra volt szükség a


vemhesülésig) a cumsum() függvénnyel:
> cumsum(table(inszem))

1 2 3 4 5 6
7 16 21 24 26 27

Végül a relatív kumulált gyakoriságok, mindhárom fenti függvényt egymásba ágyazva:


> cumsum(prop.table(table(inszem)))

1 2 3 4 5 6
0.2592593 0.5925926 0.7777778 0.8888889 0.9629630 1.0000000

A táblázatoknak megfelelő diagramokat lásd a 4.2. ábrán.


4.1. Táblázatok és ábrák 91

nyest

macska

kutya

szarvasmarha

vörös róka

4.3. ábra. Hazánkban 1992-ben diagnosztizált veszettség esetek fajonkénti megoszlása

2 ● ● ●
●●●
●●
●●●● ●●●● ●●
●●● ●
Csoport

1 ● ●● ●
● ●●
●●●●

●●
●●●
●● ● ●● ● ● ●

0.15 0.20 0.25 0.30 0.35 0.40

Bábtömeg (g)

4.4. ábra. Pontábra két csoporttal. Kétféle táplálékellátottságú lepkebábok tömege

Ha a kategóriák megoszlását szeretnénk ábrázolni, akkor a kördiagram


is jó választás (4.3. ábra).

Számszerű (intervallum- vagy abszolút skálájú) adatok

Ha csak 20–30 értékét kell ábrázolni, akkor a 4.4. ábrán látható pontdiag-
ramot kézzel is könnyűszerrel elkészíthetjük.
92 Reiczigel – Harnos – Solymosi: Biostatisztika

(a)

2 ● ●
●●●●
●●
●●
●●
●●
●●

●●

●●

●●●
●●

●●
●●

●●●


●●

●●
●●

●●

●●

●●
●●

●●


●●
●●
●●

●●

●●


●●

●●

●●

●●
●●

●●
●●

●●
●●
●●●●

● ●
●●
●●
●●
●●● ●●● ●
Csoport

1 ● ● ●
● ●● ●●●●
●●●●●

●●●
●●
●●
●●


●●●
●●

●●

●●
●●

●●
●●

●●
●●

●●
●●


●●
●●

●●●



●●●

●●
●●

●●●

●●
●●●
●●●
● ● ●

150 160 170 180 190 200

Testmagasság (cm)

(b)

40
Gyakoriság

30

20

10

150 160 170 180 190 200

Testmagasság (cm)

(c)

40
Gyakoriság

30

20

10

150 160 170 180 190 200

Testmagasság (cm)

4.5. ábra. Nagyobb adathalmazra a pontábra (a) már semmitmondóvá válik, ilyenkor
a hisztogramok (b), (c) kifejezőbbek. Az ábra az egyetemista populációból vett két 400
elemű mintából készült, az ábrázolt változó a testmagasság (cm)
4.1. Táblázatok és ábrák 93

(a) (b)
0.07 0.07
0.06 0.06
0.05 0.05
0.04 0.04

űű
0.03 0.03
űű

0.02 0.02
0.01 0.01
0.00 0.00

150 160 170 180 190 200 150 160 170 180 190 200

Testmagasság (cm) Testmagasság (cm)


4.6. ábra. Azonos és változó oszlopszélességű hisztogramok
Ha nagyobb adatmennyiséggel dolgozunk, akkor az egyedi értékek ábrá-
zolása félrevezető lehet, mivel sok – közel azonos értéknek megfelelő – pont
az ábrán egymásra kerül, nem látszik, hol vannak kevesebben, hol többen
(4.5. (a) ábrák). Ezért ilyenkor jobb a hisztogram: (histogram) ehhez a
változó értéktartományát részekre osztjuk, és az egyes részek –
osztályok (cell, bin) – gyakoriságait ábrázoljuk megfelelő magassá-
gú oszlopokkal (4.5. (b) és (c) ábrák).
Többféle hisztogramot szoktak készíteni, a klasszikus megoldás megenge-
di, hogy az egyes osztályok szélessége különböző legyen (4.6. ábra). Ilyenkor
az ábra úgy készül, hogy az oszlopok területe arányos a gyakorisággal. Ilyet
ma már ritkán látunk, mert a legtöbb számítógépes programmal csak olyan
hisztogramot lehet készíteni, ahol az osztályok egyenlő szélességűek: ekkor
az oszlopoknak nemcsak a területe, hanem a magassága is arányos a gyako-
riságokkal. Ha nem fontos a grafikus ábrázolás, akkor az osztályhatárokat
és a gyakoriságokat egyszerűen táblázatos formában is megadhat-
juk – az információtartalma ugyanaz, csak nem olyan szemléletes – ezt
gyakoriságtáblázatnak (frequency table) nevezzük.
Ugyanúgy, mint az oszlopdiagram, a hisztogram is lehet relatív vagy
kumulatív (vagy mindkettő). Előbbi esetben az összterület vagy a magas-
ságok összege 1 (vagy 100%), utóbbinál egy osztály területe vagy magassága
nem az adott osztály gyakoriságával arányos, hanem a kumulált (halmozott)
gyakoriságával.
Folytonos változóknak a valószínűségszámításban értelmeztük sűrűség-,
illetve eloszlásfüggvényét (vö. 63. oldal). A hisztogram egy konstans szorzó-
tól eltekintve a sűrűségfüggvénynek felel meg (illetve ha mintából készül, ak-
kor a sűrűségfüggvény becslésének, az ún. tapasztalati sűrűségfüggvénynek),
a kumulatív hisztogram pedig az eloszlásfüggvénynek (mintából számolva
szintén becslés, ekkor tapasztalati eloszlásfüggvény a neve).
94 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)

0.06 0.06
0.05 0.05
0.04 0.04
0.03 0.03

űű
űű

0.02 0.02
0.01 0.01
0.00 0.00

160 170 180 190 200 160 170 180 190 200

Testmagasság (cm) Testmagasság (cm)

4.7. ábra. Hisztogram és simított hisztogram, az x tengely mentén az egyedi értékeket


is ábrázolva a rug() függvénnyel

Az R-ben hisztogramot a hist() függvénnyel készíthetünk. Meg kell


adni azt a változót, ami az adatokat tartalmazza, és opcionálisan az osz-
tályhatárokat. (Az osztályok megadására más módszerek is vannak, lásd
az R súgóját.) Az osztályszélességek lehetnek különbözők is. A 4.6. ábrán
az egyetemista férfiak testmagasságának hisztogramjait láthatjuk, az alábbi
példa a (b) hisztogram elkészítését mutatja.

> hist(pop$magas, main = '',xlab = "Testmagasság (cm)",xlim = c(150, 200),


+ ylab = "Sűrűség", freq = F, ylim = c(0, 0.07))
> hist(pop$magas, breaks = c(155, 165, 170, 180, 185, 190, 200),
+ xlim = c(150, 200), main = '', xlab = "Testmagasság (cm)",
+ ylab = "Sűrűség", ylim = c(0, 0.07))

Jegyezzük meg, hogy – ha másként nem rendelkezünk – egy osztályhatár-


ral megegyező érték mindig a határ bal oldalán lévő osztályba kerül! Például
a breaks = c(1, 2, 3, 4) vektor három osztályt definiál: „1-2”, „2-3”,
„3-4”; ha most egy érték éppen 2, akkor az az „1-2” osztályba lesz sorolva
és nem a „2-3”-ba. Ha fordítva szeretnénk, a right = F paraméter meg-
adásával tehetjük. Ha hisztogramot közlünk, ne mulasszuk el vagy az ábra
aláírásában vagy a jelmagyarázatban megmondani, hogy a határokon lévő
értékeket melyik oldali osztályhoz számítottuk (és egy hisztogramon belül
ez mindig egységes legyen)!
Lehetőség van simított hisztogram készítésére is, ami sokszor informa-
tívabb, mint a hagyományos. Ha azt szeretnénk, hogy az egyedi értékek is
megjelenjenek az ábrán, ezt a hisztogram elkészítése után a rug() függ-
vénnyel tehetjük meg, amely az ábrát kiegészíti az egyes értékeket jelölő
vonalkákkal (4.7. ábra). A rug() működik mind hagyományos, mind simí-
tott hisztogrammal.
4.1. Táblázatok és ábrák 95

(a) (b) (c)

40 40 40
Gyakoriság

Gyakoriság

Gyakoriság
30 30 30
20 20 20
10 10 10
0 0 0

150 170 190 150 170 190 150 170 190

Testmagasság (cm) Testmagasság (cm) Testmagasság (cm)


4.8. ábra. A hisztogramok ugyanazokat az adatokat (egyetemisták testmagassága)
ábrázolják, csupán az osztályok száma különböző
> hist(pop$magas[1:60], xlab = "Testmagasság (cm)", ylab = "Sűrűség",
+ main = "", freq = F)
> rug(pop$magas[1:60])
> plot(density(pop$magas[1:60]), xlab = "Testmagasság (cm)",
+ ylab = "Sűrűség", main = "")
> rug(pop$magas[1:60])

Ha ugyanarról a változóról több csoportban (pl. korcsoportonként) szeret-


nénk hisztogramot készíteni, akkor az összehasonlíthatóság kedvéért cél-
szerű, ha a hisztogramokon az x tengely skálázása és a csoporthatárok
azonosak. Ezt R-ben könnyen megtehetjük az úgynevezett Trellis grafikák
segítségével: a megfelelő R-függvényeket a lattice és a grid könyvtárak
tartalmazzák (Sarkar 2008).
Gyakran felvetődik a kérdés, hogy mi a különbség a hisztogram és az
oszlopdiagram között. A válasz az, hogy az oszlopdiagram oszlopai az egyes
értékek gyakoriságát ábrázolják, míg a hisztogram osztálygyakoriságokat.
Nominális változóval csak oszlopdiagramot készíthetünk: itt „tól–ig” hatá-
roknak – rendezés hiányában – nincs is értelme. Ordinális változóval szintén
csak oszlopdiagramot készíthetünk, bár itt már összevonhatunk kategóriá-
kat, de ezzel csak újabb kategóriákat definiálunk. Diszkrét számszerű válto-
zóval leggyakrabban szintén csak oszlopdiagramot szokás készíteni, bár ha
nagyon sok értéke van, és ezek sűrűn helyezkednek el, akkor áttekinthetőbb
lesz a kép, ha osztályokat képezünk belőlük. Folytonos változóval pedig csak
hisztogramot érdemes készíteni.
Hisztogramnál nem mindig könnyű eldönteni, hogy hány osztályt ké-
szítsünk, és hol legyenek az osztályhatárok. Ha túl kevés osztály van, a
hisztogram durva, darabos, nem mutat jól. Ha pedig túl sok – úgy értve,
hogy a mintanagysághoz képest túl sok, tehát ha egy osztályba túl kevés
megfigyelés esik – akkor a hisztogram oszlopai nem rajzolnak ki jól értel-
mezhető mintázatot (4.8. ábra). Ebből az is következik, hogy kis mintára
96 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)

0.35 0.35
Bábtömeg (g)

Bábtömeg (g)
0.30 0.30
● ● ●
0.25 0.25

0.20 0.20

0.15 0.15

hűtött meleg szobahő hűtött meleg szobahő

Hőmérsékleti kezelés Hőmérsékleti kezelés

4.9. ábra. Boxplot (a) és hegedűábra (b) 3 csoportra

nem is érdemes hisztogramot készíteni, informatívabb a fejezet elején emlí-


tett pontdiagram (91. oldal). Hacsak lehet, használjunk természetes, szak-
mailag indokolható osztályhatárokat, így az eredmények interpretációja is
könnyebb, és elkerülhetjük azt a vádat is, hogy manipuláltuk az adatokat!
Nem rossz az a stratégia, hogy kezdetben mindent rábízunk az R prog-
ramra, aztán az eredményt látva eldöntjük, hogy megfelel-e – tudjuk-e ér-
telmezni a mintázatot, illetve elég kifejező-e –, és ha nem, módosítunk rajta.
Sokszor – különösen nagy adathalmazok esetén – arra is szükség lehet,
hogy ne magukat az adatokat, hanem egyes, az adatokból számolt statisz-
tikákat ábrázoljunk grafikusan. Az egyik legnépszerűbb ilyen ábrázolás a
boxplot (vagy box-and-whisker plot), amely a (kiugró értékek elhagyá-
sa utáni) minimumot és maximumot, a kvartiliseket és a mediánt
ábrázolja (a mutatók leírását lásd a 4.2.1. fejezetben). Azért praktikus,
mert az adatok középértéke és szóródása mellett az eloszlás szimmetrikus
voltát vagy ferdeséget is jól kivehetően mutatja (4.9. (a) ábra). Több csoport
összehasonlítására is kiválóan alkalmas.
A boxplot továbbfejlesztett változata az úgynevezett hegedűábra (vio-
lin plot) (4.9. (b) ábra), amely egy boxplot és egy tükrözött simított
hisztogram kombinációja. A fehér négyzet jelöli a mediánt, a fekete vas-
tag vonal pedig a középső 50%-nyi adatot.

> with(lepke, boxplot(BABTOMEG ~ HOM, xlab = "Hőmérsékleti kezelés",


+ ylab = "Bábtömeg (g)", names = c("hűtött", "meleg", "szobahő")))
> library(vioplot)
> with(lepke, vioplot(BABTOMEG[HOM == "hutott"], BABTOMEG[HOM ==
+ "melegitett"], BABTOMEG[HOM == "szobahom"], col = "white",
+ names = c("hűtött", "meleg", "szobahő")))
> title(ylab = "Bábtömeg (g)", xlab = "Hőmérsékleti kezelés")
4.1. Táblázatok és ábrák 97

(a) (b)

4.10. ábra. Lepke bábtömegek átlaga és szórása a különböző kezelések esetén

Normális eloszlású változó több csoportban történő összehasonlítására –


ha nem az alapadatokat, hanem statisztikákat akarunk ábrázolni – az át-
lagok és a szórások ábrázolása a legelterjedtebb, akár táblázatos formában,
akár grafikusan (a mutatók leírását lásd a 4.2.1. fejezetben). Táblázatban
az átlag ± szórás vagy az átlag (szórás) forma a megszokott, a szokásos
diagram a 4.10 (a). ábrán látható és a sciplot könyvtár lineplot.CI()
függvényével valósítható meg (Morales et al. 2017). Elterjedt, de nem iga-
zán javasolt megoldás még az átlagok és szórások ábrázolására a 4.10 (b).
ábra (sciplot könyvtár bargraph.CI() függvény). Az egyértelműség ked-
véért a táblázat fejlécében vagy a diagram aláírásában mindig adjuk meg,
hogy a ± után vagy a zárójelben a szórást adtuk meg. (Erre azért van szük-
ség, mert néhányan – okkal vagy ok nélkül – eltérnek ettől a konvenciótól.
Ok lehet az eltérésre, hogy a változó nem normális, és ezért a szórás he-
lyett inkább másik szóródási mutatót használunk, de erre feltétlenül fel kell
hívnunk hallgatóink vagy olvasóink figyelmét.)
> library(sciplot)
> lineplot.CI(KEZELES, BABTOMEG, data = lepke,
+ ylab = "Bábtömeg (g; átlag ± SD)", xlab = "Kezelés",
+ ylim = c(0.15,0.35), type = "p",
+ fun = function(x) mean(x, na.rm = TRUE),
+ ci.fun = function(x) c(mean(x, na.rm = TRUE)- sd(x),
+ mean(x, na.rm = TRUE)+ sd(x)))
> bargraph.CI(KEZELES, BABTOMEG, data = lepke,
+ ylab = "Bábtömeg (g; átlag ± SD)",
+ xlab = "Kezelés", col = "black", angle = 45,
+ fun = function(x) mean(x, na.rm = TRUE),
+ ci.fun = function(x) c(mean(x, na.rm = TRUE)-sd(x),
+ mean(x, na.rm = TRUE) + sd(x)),
+ ylim = c(0,0.4), density = c(0,10,20,30,40,50))
98 Reiczigel – Harnos – Solymosi: Biostatisztika

4.1.2. Két változó együttesének ábrázolása


Két faktor (nominális vagy ordinális skálájú adat) együttes ábrázolása
Két faktor közötti összefüggés tömör formában való közlésére való a ke-
reszttábla vagy kontingencia-tábla (contingency table), ami voltaképpen
egy kétdimenziós gyakoriságtáblázat.

4.3. példa. Kontingencia tábla


Nézzük meg, hogy hogyan alakultak az elsőéves hallgatók matematika és biológia osz-
tályzatai:
> table(pop$matek, pop$biol)

1 2 3 4 5
1 121 55 56 0 0
2 80 38 43 37 0
3 42 29 40 32 45
4 0 43 39 40 69
5 0 0 40 35 116

A relatív gyakoriságok táblázatát a prop.table() függvénnyel készíthetjük el. Figyeljük


meg, hogy a prop.table() függvényt a table() függvény eredményére kell alkalmaz-
nunk!
> prop.table(table(pop$matek, pop$biol))

1 2 3 4 5
1 0.121 0.055 0.056 0.000 0.000
2 0.080 0.038 0.043 0.037 0.000
3 0.042 0.029 0.040 0.032 0.045
4 0.000 0.043 0.039 0.040 0.069
5 0.000 0.000 0.040 0.035 0.116

Ugyanezt grafikusan mozaikábrával (4.11. ábra) is szemléltethetjük. Az ábra úgy készül,


hogy először az első változó szerint (matek) veszi az összes gyakoriságot (az összes
matematika 1-est, 2-est,..., 5-öst kapottak számát, amelyek itt 232, 198, 188, 191,
191), és ezeknek arányában állapítja meg vízszintes irányban a téglalapok szélességét.
Az egyes oszlopokon belül a másik változó (biol) értékeinek megoszlása szerint állítja
be a téglalapok magasságát. Azaz például az 1-es matematika jegy esetén a biológia
jegyek megoszlása: 121, 55, 56, 0, 0, vagy relatív gyakoriságokkal: 0.52, 0.24, 0.24,
0.00, 0.00.
> mosaicplot(table(pop$matek, pop$biol), xlab = "Matematika jegyek",
+ ylab = "Biológia jegyek", main = "")
4.1. Táblázatok és ábrák 99

1 2 3 4 5

1
Biológia jegyek

2
3
54

Matematika jegyek
4.11. ábra. Mozaikábra

Két számszerű változó együttes ábrázolása

Ha két számszerű változó közötti összefüggést szeretnénk ábrázolni, akkor


a legegyszerűbb diagram a szórásdiagram (pontfelhő, pontdiagram,
x-y diagram) (scatter plot, scatter diagram, x-y plot). A pontfelhő minden
pontja egy megfigyelési egységnek felel meg, a két mért érték a pont x és y
koordinátája. Természetesen ez az ábra csak akkor készíthető el, ha mindkét
változót ugyanazokon a megfigyelési egységeken (ugyanazon a mintán) mér-
tük. Színes pontokkal vagy többféle jellel több csoportot is ábrázolhatunk
ugyanabban a koordináta-rendszerben.
100 Reiczigel – Harnos – Solymosi: Biostatisztika

4.4. példa. Regressziós kurzus hallgatóinak adatai – szórásdiagramok


Egy regressziós kurzuson megkértük a hallgatóinkat – összesen 21-et –, hogy írják fel egy
papírra a következő adataikat: nem, magasság, testtömeg, születési hossz, születéskori
testtömeg, szemszín és cipőméret. Az ezekből készített adattáblázat első 5 sora:
> regr.kurz[1:5, ]

NEM MAGASSAG TOMEG SZULHOSSZ SZULTOMEG SZEMSZIN CIPOMERET


1 no 168 52 55 3580 barna 37
2 no 172 65 55 4950 kek 40
3 no 167 63 57 4000 barna 38
4 no 168 56 56 3000 barna 39
5 no 162 52 49 2500 barna 36

A 4.12. ábrán a magasság-születési hossz (MAGASSAG ~ SZULHOSSZ) szórásdiagramot


látjuk. A nőket és férfiakat más-más szimbólum jelöli (ezt a pch paraméterrel állítottuk
be, a jelmagyarázatot pedig a legend() függvénnyel helyeztük rá az ábrára).
> with(regr.kurz, plot(MAGASSAG ~ SZULHOSSZ, pch = as.numeric(NEM),
+ main = "", xlab = "Születési hossz (cm)", ylab = "Magasság (cm)"))
> with(regr.kurz, legend(50, 190, pch = 1:2, legend = c("férfi",
+ "nő"), bty = "n"))
Ha ugyanarra a változópárra több csoportban szeretnénk szórásdiagramot készíteni,
akkor a coplot() függvényt használhatjuk. A 4.13. ábra e függvény segítségével a
magasság és születési hossz összefüggését külön-külön ábrázolja férfiakra és nőkre. Az
ábrát csoportonkénti vagy feltételes szórásdiagramnak nevezhetjük.
> with(regr.kurz, coplot(MAGASSAG ~ SZULHOSSZ | NEM, main = "",
+ xlab = c("Születési hossz (cm)", "Nem"), ylab = "Magasság (cm)"))
Több változópár szórásdiagramját egyszerre készíthetjük el a pairs() függvény segít-
ségével. A függvény argumentuma egy táblázat, amelynek összes oszloppárjáról egy
szórásdiagram mátrixot készít (4.1. ábra). Figyeljük meg, hogy az adatmátrix oszlopai-
nak sorszámait adjuk meg egy vektorban (2:5), így a regr.kurz adatmátrix másodiktól
ötödikig terjedő oszlopainak megfelelő változók szerepelnek az ábrán.
> pairs(regr.kurz[, 2:5])

Egy faktor és egy folytonos változó együttes ábrázolása

Mivel a faktor néhány kategóriát definiál, ez ugyanaz az eset, mint amikor


egy változót vizsgálunk több csoportban. Ezért ugyanazokat a diagramokat
használhatjuk, úgymint a pontábrát, a boxplotot vagy az átlagok grafikon-
ját. Utóbbi kettő már nem a nyers adatokat ábrázolja, hanem egyes belőlük
számolt statisztikákat.
4.1. Táblázatok és ábrák 101

190 ●

● férfi
185 nő
● ●
Magasság (cm)

180 ●

175

170

165

160

50 52 54 56 58 60 62

Születési hossz (cm)

4.12. ábra. Szórásdiagram két csoportra (a regressziós kurzus résztvevőinek adatai)

Nem

no

ferfi

50 52 54 56 58 60 62
190



Magasság (cm)

● ●
180


● ● ●
170


● ●
● ●


● ●

160

50 52 54 56 58 60 62

Születési hossz (cm)

4.13. ábra. Feltételes szórásdiagram két csoportra. (magasság-születési hossz szórás-


diagramok férfiak és nők esetén, az adatok ugyanazok, mint a 4.12. ábrán)
102 Reiczigel – Harnos – Solymosi: Biostatisztika

50 70 90 2500 4000

● ● ● ● ● ● 190
● ● ● ● ●

185
● ● ● 180
MAGASSAG ● ●
●●● ● ● ● ● ● ●● ●
175
● ● ● ●● ●

●● ●
● ●
●●●

● ● ●
170
● ● ●
●● ● ● ●

165
● ● ●
● ● ● 160
● ● ●
100
90 ● ● ●
● ● ●
80 ● ● ● ● ●●

TOMEG ●
● ● ●●
70 ● ● ●
● ● ●
●●
● ● ● ● ● ● ●● ● ●
60 ● ●●● ● ●
● ● ● ● ● ●●
● ●
●● ● ● ●● ● ●
50

● ●


● 62
● ● ● 60

● ●


● ● ●

58
● ●●
● ● ●
● ●●
● ●
● ●
● SZULHOSSZ ● ●● ●
● ●
56
54
●● ●● ●●
● ● ● ● ● ●●
● 52

●●

● ● ● ●

50

5000 ● ● ●

4500 ● ● ●
● ● ● ●●● ●
4000 ● ●●

●●
● ● ● ● ●
SZULTOMEG
●● ●● ● ●●● ● ● ●
● ●●
3500 ●
● ● ●
3000 ● ●● ● ● ●●● ● ●
● ●

2500 ● ● ●● ●●

160 175 190 50 54 58 62

4.14. ábra. Szórásdiagram mátrix (a regressziós kurzus résztvevőinek adatai)

(a) (b) (c)


Testmagasság (cm)

190 ● 190
Testmagasság (cm)

Testmagasság (cm)

● 190
185 ●
185 185
átlag±SD

180 ● 180 180 ●

175 ●
175 175
● ●
170 ●

170 170 ●
● ●
165 ●
165 165

160 ● 160 160

férfi nő férfi nő férfi nő

Nem Nem Nem

4.15. ábra. Pontábra (a), boxplot (b) és az átlag ± szórások ábrája (c) (a regressziós
kurzus résztvevőinek adatai)
4.2. Mérőszámok, statisztikák 103

4.5. példa. Regressziós kurzus hallgatóinak adatai – boxplot és átlag ± szórás


A MAGASSAG változó a két nem szerinti csoportban a 4.15. ábrán látható.
> with(regr.kurz, stripchart(MAGASSAG ~ NEM, xlab = "Nem",
+ ylab = "Testmagasság (cm)", vertical = T, pch = 1,
+ group.names = c("férfi", "nő "), at = c(1.2, 1.8)))

> with(regr.kurz, boxplot(MAGASSAG ~ NEM, xlab = "Nem",


+ ylab = "Testmagasság (cm)", names = c("férfi", "nő ")))

> library(sciplot)
> lineplot.CI(NEM, MAGASSAG, data = regr.kurz,
+ ylab = "Testmagasság (cm) átlag ± SD", xlab = "Nem",
+ ylim = c(160,190), type = "p", xaxt = "n",
+ fun = function(x) mean(x, na.rm = TRUE),
+ ci.fun = function(x) c(mean(x, na.rm = TRUE)- sd(x),
+ mean(x, na.rm = TRUE) + sd(x)))
>axis(1, at = 1:2,labels = c("férfi","nő "))

4.2. Mérőszámok, statisztikák


Statisztikai mérőszámokat vagy röviden csak statisztikákat (statistic)
akkor használunk, amikor egy-két sokatmondó számmal szeretnénk jelle-
mezni egy – esetleg több száz vagy több ezer értékből álló – adatsort vagy
adathalmazt. Az adathalmaz vagy egy teljes populáció adatait tartalmazza,
vagy egy – véges vagy végtelen populációból vett – mintáét. A követke-
zőkben, ha véges populációra gondolunk, az elemszámát N -nel, ha min-
tára gondolunk, annak az elemszámát n-nel jelöljük. Végtelen populációra
mindegyik mérőszám definíciója bonyolultabb, de a jelentésük lényegében
ugyanaz, mint véges populáció esetén.
Ezeket a definíciókat elhagyjuk, számos valószínűségszámítás vagy mate-
matikai statisztika tankönyvben megtalálhatók (például Rényi (1973) vagy
Feller & Rejtő (1978)).
A mérőszámok elnevezésében jelzőkkel szokás utalni arra, hogy popu-
lációból vagy mintából számoltuk őket. A mintából számolt statisztikát a
„tapasztalati”, „empirikus”, „minta-” jelzőkkel illethetjük, míg a populáció-
ból számoltakat az „elméleti” vagy „populációs” jelzőkkel. Egyes mutatókra
külön elnevezés is van, például a valószínűségszámításban a populációátla-
got végtelen populációra „várható érték”-nek nevezik (és ekkor az „átlag”
csak úgy, bármiféle jelző nélkül a mintaátlagot jelenti).
104 Reiczigel – Harnos – Solymosi: Biostatisztika

Megjegyezzük, hogy a matematikai statisztikában „statisztika” alatt kizárólag a min-


tából számolt értékeket értik. Igaz, ott szó sincs populációról, ott csak valószínűségi vál-
tozók vannak (vö. 3.4. fejezet).

Fontos kérdés a mérőszámok használatával kapcsolatban, hogy az ered-


mények közlésekor milyen pontossággal adjuk meg őket. Gyakori hiba, hogy
a számítógépes program eredményeit egyszerűen kimásolva az outputból,
az eredményeket értelmetlenül sok tizedesjeggyel adják meg, mint például:
„A kísérletben résztvevők életkora 34.1251 ± 3.2491 év volt”,
ami az eredmények olvasását megnehezíti, és a szerző felületességét sejte-
ti. Ne felejtsük el, hogy a statisztika célja az eredmények emészthető formá-
ban való tálalása, ezért mindig gondoljuk meg, hogy az eredményben
hány tizedesjegy hordoz releváns információt, és annál többet ne
adjunk meg! Ugyancsak gondoljuk meg azt is, hogy az alapadatokat mi-
lyen pontosságú mérésekből kaptuk, ugyanis annak sincs értelme, hogy a
mérési pontosságnál sokkal több tizedest adjunk meg! A fenti példában az
életkort minden bizonnyal év pontossággal mérték, így az átlag közlésénél
legfeljebb 1 tizedesjegynek van értelme.

4.2.1. Egy változó jellemzése


Statisztikai mérőszámok használatának elsősorban kvantitatív változókkal
kapcsolatban van értelme. Kvalitatív változókkal kapcsolatban legfeljebb
csak a kategóriák gyakoriságait adhatjuk meg, illetve megnevezhetjük a leg-
gyakrabban előforduló kategóriát.
A számszerű adatokban megmutatkozó központi tendenciát –
azt, hogy hol van az eloszlás közepe – az úgynevezett helyzeti
mutatók vagy középértékek (location measures, measures of location)
fejezik ki. Ilyenek az átlag (mean), a medián (median), a módusz (mo-
de). A központi tendenciától való eltérések mértékét a szóródási
mutatók (measures of spread, measures of scale) fejezik ki. A szóródási
mutatók a változó variabilitását, változékonyságát, véletlen ingadozásának
mértékét számszerűsítik. Ilyenek a mintaterjedelem (range), az interkvarti-
lis terjedelem (interquartile range, IQR), a variancia (variance) és a szórás
(standard deviation, SD).
Például egy gépkocsiról olvastuk, hogy „. . . átlagos fogyasztása városban
7.2 liter/100 km. A fogyasztás eléggé egyenletes, nem nagyon függ a forgalmi
körülményektől, 33 városi tesztvezetés során 6.9 és 7.6 liter közötti értékeket
mértünk, vagyis a legnagyobb és a legkisebb fogyasztás közötti különbség
mindössze 0.7 liter, vagyis az átlagos fogyasztásnak kevesebb, mint 10%-a
volt.” Itt a 7.2 liter/100 km megadja a jellemző vagy közepes fogyasztást
4.2. Mérőszámok, statisztikák 105

(helyzeti mutató), a továbbiakban pedig a fogyasztás ingadozásáról kapunk


különböző információkat (szóródási mutatók).

Helyzeti mutatók

Az átlag az értékek számtani közepe. Ennek megfelelően a populációátlag


(population mean) a populációbeli, a mintaátlag (sample mean) pedig
a mintabeli értékek számtani közepe. A populációátlagot gyakran µ-
vel („mü” görög betű), a mintaátlagot pedig x̄-sal (olvasd „x vonás” vagy
„x átlag”) jelöljük. Ha az értékeket xk jelöli, akkor
PN Pn
k=1 xk k=1 xk
µ= , x̄ = .
N n
(Figyelem, ha ugyanaz az érték többször előfordul, akkor azt annyiszor
kell számolni!)

4.6. példa. Átlagszámítás


Ha a mintánk az 1, 5, 8, 12, 17, 20 számokból áll, akkor a mintaátlag:
(1 + 5 + 8 + 12 + 17 + 20)/6 = 10.5. R-ben az átlagot a mean() függvénnyel
számoljuk.
> minta = c(1, 5, 8, 12, 17, 20)
> mean(minta)

[1] 10.5

Az átlagra szemléletesen gondolhatunk úgy, mint a megfigyelt értékek


„súlypontjára”.
Ha olyan megfigyelésekből kell átlagot számolnunk, amelyek nem egyen-
értékűek – például olyan méréseket kell átlagolnunk, amelyek pontossága
eltérő, vagy eltérő méretű csoportokból számolt mérőszámokat (pl. csoport-
átlagokat) kell átlagolnunk –, akkor az a célszerű, hogy a pontosabb meg-
figyeléseket, illetve a nagyobb csoportokat reprezentáló értékeket nagyobb
súllyal vegyük figyelembe. Ekkor használhatjuk a súlyozott átlagot, amely-
nek képlete, ha az értékeket xk , a hozzájuk tartozó súlyokat pedig wk jelöli:
PN Pn
k=1 xk wk k=1 xk wk
µ= PN , x̄ = P n .
k=1 wk k=1 wk

A megfelelő súlyok megállapítására nincs általános szabály. Ha különböző


méretű csoportok átlagaiból kell átlagot számolnunk, akkor a csoportméret-
tel szokás súlyozni: így a súlyozott átlag ugyanazt adja, mintha az összes
106 Reiczigel – Harnos – Solymosi: Biostatisztika

csoportot egyesítenénk, és úgy számolnánk átlagot. Ha különböző pontossá-


gú mérési eredményeket kell átlagolnunk, akkor az egyes mérési eredmények
varianciájának reciprokával szokás súlyozni. Egyéb esetekben más, egyedi
megfontolásokra van szükség a legmegfelelőbb súlyok megválasztásához.

4.7. példa. Súlyozott átlag kiszámítása


Számítsuk ki a megyei tejtermelési átlagot, ha a megye egyes gazdaságaiban a tejter-
melési átlagok a következők!

gazdaság egyedszám átlagos tejtermelés (kg)


1 300 4500
2 250 6000
3 500 5500
4 400 4000
5 550 5000

Pn
xk wk
x̄ = Pk=1
n
k=1
wk
300 · 4500 + 250 · 6000 + 500 · 5500 + 400 · 4000 + 550 · 5000
=
300 + 250 + 500 + 400 + 550
= 4975.

R-rel:
> egyedszam = c(300, 250, 500, 400, 550)
> tejterm = c(4500, 6000, 5500, 4000, 5000)
> weighted.mean(tejterm, egyedszam)

[1] 4975

A mediánhoz (median) az értékeket nagyság szerint sorba ren-


dezzük (mindegyiket annyiszor véve, ahányszor előfordul!), majd
megkeressük a sorban középen álló értéket – ez lesz a medián. Ha
a populáció vagy minta elemszáma páros, akkor persze nincs középső érték,
ekkor a két középső érték számtani közepét tekintjük mediánnak. A 4.16.
ábra két – egy páros és egy páratlan elemszámú – minta mediánját szemlél-
teti, a mintákat a számegyenesen ábrázolva. Szimmetrikus eloszlásokra az
átlag és a medián egybeesik, jobbra ferde eloszlásokra az átlag általában (de
nem mindig!) a mediántól jobbra, balra ferde eloszlásokra tőle balra esik.
A módusz (mode) a populációban vagy mintában a legtöbbször
előforduló, leggyakoribb érték. Ha két vagy több ilyen érték van („holt-
verseny”), akkor azt mondjuk, hogy az eloszlás bimodális vagy multimodá-
4.2. Mérőszámok, statisztikák 107
medián

medián

4.16. ábra. Egy kilenc- és egy tízelemű minta mediánja, az értékeket a számegyenesen
ábrázolva

lis (egy módusz esetén unimodálisnak nevezzük). Ilyenkor érdemes arra is


gondolnunk, hogy – mivel a populáció vagy minta nem homogén – talán
célszerűbb lenne egyes részeit külön-külön vizsgálni. Multimodális eloszlást
általában nem szoktunk a móduszaival jellemezni.
Folytonos valószínűségi változóra a módusz definíciója más: a sűrűségfüggvény bármely
lokális maximumhelyét módusznak nevezzük. Ebben az esetben tehát ahhoz, hogy egy
eloszlás bi- vagy multimodális legyen, nincs szükség holtversenyre.

A mintaátlag sajnos nagyon érzékeny a mintában előforduló szélsőséges


értékekre. Gyakran egy-egy adathiba, például egy tizedespont elcsúszása az
átlagot katasztrofálisan „el tudja húzni”. Úgy is szokták ezt fogalmazni, hogy
szerencsétlen módon az átlagot sokkal jobban befolyásolják a szélsőséges,
mint a tipikus megfigyelések. Sokan azért szeretik jobban a mediánt, mert
az ilyen torzító hatásokkal szemben ellenállóbb, azaz robusztus (vö. 2.4.5.
fejezet).
Ha az a gyanúnk, hogy az adatok között előfordulnak szélsőséges, kiugró
értékek, amelyeknek szeretnénk megszüntetni az átlagra gyakorolt torzító
hatását, akkor használhatjuk a trimmelt (csonkított vagy nyesett) átlagot
(vö. 2.4.5. fejezet). A trimmelt átlag (trimmed mean) úgy készül, hogy
az átlagszámítás előtt a mintából elhagyjuk a legkisebb és a leg-
nagyobb értékeket, például 5-5%-os trimmelt átlag esetén az alsó és felső
5%-ot. Megjegyezzük, hogy az 5-5%-os trimmelést egyes helyeken 5%-osnak,
másutt 10%-osnak nevezik, mi ezért döntöttünk a fenti, egyértelmű írásmód
mellett. Egyes szerzők az elhagyott értékek darabszámát adják meg száza-
lék helyett. Az sem egységes az irodalomban, hogy felfelé vagy lefelé kell-e
kerekíteni az elhagyandó értékek számát, ha az nem egész szám, de ez nem
is lényeges, nyugodtan eljárhatunk a szokásos kerekítési szabályok szerint.
108 Reiczigel – Harnos – Solymosi: Biostatisztika

4.8. példa. Trimmelt átlag kiszámítása


A következő adatokat mértük egy kísérlet során:
1.2, 1.7, 1.2, 1.4, 1.6, 1.5, 1.1, 20.1, 1.3, 2.0, 0.9, 1.6
A nyolcadik mérés – valószínűleg elütés – kiugró érték, amely a mintaátlagot eléggé
eltorzíthatja.
Az adatok átlaga és a 10-10%-os trimmelt átlag:
> minta = c(1.2, 1.7, 1.2, 1.4, 1.6, 1.5, 1.1,
+ 20.1, 1.3, 2, 0.9, 1.6)
> mean(minta)

[1] 2.966667

> mean(minta, trim = 0.1)

[1] 1.46

A trim argumentummal adhatjuk meg, hogy mekkora hányadát hagyjuk el az adatoknak


(alulról is és felülről is ekkora hányad marad ki). A példában 12 mérésünk volt, így
0.1 · 12 = 1.2, ami (kerekítve) 1-1 érték elhagyását jelenti.

Csak a matematikai érdekesség kedvéért jegyezzük meg, hogy a medián


tekinthető közel 50-50%-os trimmelt átlagnak.
Jobbra ferde eloszlásokra gyakran számolnak geometriai átlagot, azaz mértani közepet
(geometric mean), amely úgy is felfogható, mint a logaritmus-transzformált adatok átla-
gának a visszatranszformáltja. Ezért a geometriai átlagnak pontosan akkor van értelme,
amikor a logaritmus-transzformált adatoknak, illetve azok átlagának. Az x1 , x2 , . . . , xn
értékekből számolt mértani közép:
√ ln x1 +ln x2 +...+ln xn
n
x1 · x2 · . . . · xn = e n .

Érdekességként megemlítjük, hogy ha a logaritmus-transzformáció az eloszlást szim-


metrikussá teszi, akkor a geometriai átlag egybeesik a mediánnal. Ugyanis ekkor a transz-
formált adatok átlaga egyenlő a mediánjukkal, és a medián – lévén a monoton transzfor-
mációkat követő mérőszám a visszatranszformálás után az eredeti adatok mediánjával
lesz egyenlő.

Szóródási mutatók

A szóródási mutatók közül a terjedelem (range) a legegyszerűbb: a minta


vagy populáció minimuma és maximuma közötti különbség. Inkább
csak mintára szokták használni („mintaterjedelem”), bár véges populációra
ugyanúgy értelmes. Minél nagyobb a terjedelem, annál szélesebb a tarto-
mány, amelyben az értékek elhelyezkednek. Ha a terjedelem 0, akkor csak
4.2. Mérőszámok, statisztikák 109

alsó kvartilis felső kvartilis

interkvartilis terjedelem (IQR)

4.17. ábra. Egy 18 elemű minta kvartilisei és interkvartilis terjedelme. A pontos negye-
delés nem lehetséges, az alsó kvartilis az R alapértelmezett eljárásával valahol az ötödik
és hatodik, a felső kvartilis valahol a tizenharmadik és tizennegyedik érték között van

egyetlen érték létezik, a populáció vagy minta teljesen homogén (egyáltalán


nincs véletlen ingadozás). A mintaterjedelmet (minimum és maximum) az
R-ben a range() függvénnyel számolhatjuk.
Az interkvartilis terjedelemhez először a kvartiliseket kell definiálni. Az
alsó kvartilis (lower quartile) a nagyság szerint sorba rendezett értéke-
ket 1/4 : 3/4 arányban osztja, a felső kvartilis (upper quartile) pedig
3/4 : 1/4 arányban (lásd a 4.17. ábrán). Kiszámításukra – mivel véges po-
pulációra vagy mintára a pontos negyedelés nem mindig végezhető el – több
módszer is létezik. Az R-ben nincs külön kvartilis függvény, a kvartiliseket
az általánosabb quantile() függvénnyel (lásd 114. oldal) számolhatjuk a
probs = c(0.25, 0.75) paraméter megadásával. A választható számítási
módszerek leírását lásd a quantile() függvény leírásában (a gyakorlatban
nyugodtan használhatjuk mindig az alapértelmezett módszert).
Az alsó és felső kvartilis különbsége az interkvartilis terjedelem (in-
terquartile range, IQR) (lásd a 4.17. ábrán). Az IQR logikájában hasonló a
terjedelemhez, de előnye, hogy nem kizárólag a két legszélső értéktől függ.
Viszont abból, hogy az IQR 0, nem következik, hogy az összes érték egyenlő.
Az R-ben az IQR() függvény eredménye az alsó és felső kvartilis.
A variancia az értékek átlagtól való eltérésére alapozva számszerűsíti a
szóródást. Legegyszerűbb megérteni véges populáció esetén, méghozzá há-
rom egymásra épülő fogalom segítségével. Tegyük fel tehát, hogy van egy
N egyedből álló populációnk, amelyben egy ismérv vagy változó (legyen
megint a testmagasság) értékei x1 , x2 , . . . , xN . Jelöljük a populációátlagot
most is a szokásos módon µ-vel.
1. Először definiáljuk egy xk érték eltérését az átlagtól, µ-től (deviati-
on from the mean): (xk − µ). Ez természetes, ezt mindenki magától is így
definiálná. Csak annyit jegyezzünk meg, hogy az eltérés lehet negatív is; a
negatív eltérés azt jelenti, hogy az érték az átlag alatt van.
2. Hasonlóan, egy xk érték négyzetes eltérése az átlagtól, µ-től (squared
deviation from the mean) (xk − µ)2 . Ez is természetes, csak az a kérdés,
110 Reiczigel – Harnos – Solymosi: Biostatisztika

mi a jó abban, ha a négyzetes eltérésekkel dolgozunk. Igazából ennek tör-


téneti okai vannak, számolhatnánk az abszolút eltéréssel, |xk − µ|-kel is,
sőt ennek még bizonyos előnyei is lennének a négyzetes eltéréssel szemben.
De annak idején, amikor a statisztikát kitalálták, sok dolgot könnyebb volt
kiszámolni négyzettel, mint abszolút értékkel lett volna, ezért a klasszikus
statisztikában ez lett a standard.
3. Ha minden értéknek kiszámoljuk a négyzetes eltérését az átlagérték-
től, akkor a populációt jellemezhetjük ezek átlagával: ez a variancia (vari-
ance). Tehát a variancia az átlagtól való négyzetes eltérések átlaga:
PN
2 k=1 (xk − µ)2
σ = .
N
A variancia is – mint az előző szóródási mutatók – annál nagyobb, minél
szórtabbak az értékek, minél inkább hajlamosak messze esni az átlagérték-
től. A variancia 0 volta is azt jelenti, hogy a populáció teljesen homogén,
szóródás egyáltalán nincsen, csak egyetlen érték fordul elő az egész populá-
cióban.

4.9. példa. Variancia kiszámítása


A gyakorlás kedvéért számítsuk ki a varianciát egy kis, mindössze 6 értékből álló popu-
lációra! Az értékek: 3, 8, 5, 2, 4, 2.
A populációátlag: (3 + 8 + 5 + 2 + 4 + 2)/6 = 24/6 = 4.

A variancia:
P6
(xk − 4)2
σ2 = k=1
6
(3 − 4)2 + (8 − 4)2 + (5 − 4)2 + (2 − 4)2 + (4 − 4)2 + (2 − 4)2
=
6
1 + 16 + 1 + 4 + 0 + 4 26
= = = 4.33.
6 6


A szórás: 4.33 = 2.08.

Van azonban a varianciával egy bosszantó kis gond. Tegyük fel, hogy
a szóban forgó változó a testmagasság, amelyet mondjuk cm-ben mérünk.
Ekkor az előzőekben ismertetett valamennyi helyzeti és szóródási mutató
mértékegysége szintén cm, de a variancia – lévén négyzetes eltérések átla-
ga – cm2 -ben adódik. Ettől a kényelmetlenségtől megszabadulhatunk, ha a
variancia négyzetgyökét használjuk szóródási mutatóként, mert ennek mér-
tékegysége már azonos a mért értékekével: ez a mutató a szórás (standard
4.2. Mérőszámok, statisztikák 111

deviation, SD). A szórás képlete tehát:


s
√ PN
− µ)2
k=1 (xk
σ= σ2 = .
N
R-ben a varianciát a var(), a szórást az sd() függvénnyel számolhatjuk.
Megjegyezzük, hogy a varianciát magyarul szórásnégyzetnek is neve-
zik, de mi inkább a variancia elnevezést használjuk. Végtelen populációra
(valószínűségi változóra) a definíció bonyolultabb, el is hagyjuk. Ha a va-
rianciát nem teljes populációból, hanem egy n elemű mintából számoljuk,
akkor két eset van: vagy ismerjük a populációátlagot (a µ-t) vagy nem. Ha
ismerjük – ez a ritkább eset –, akkor a varianciát szóról szóra ugyanúgy
számoljuk, mint a populációból:
Pn
2 k=1 (xk − µ)2
s = .
n
Ha viszont nem, akkor a képlet egy kissé módosul:
Pn
− x̄)2
k=1 (xk
s2 = ,
n−1
ahol x̄ a mintaátlagot jelöli.
√ A szórás most is – mindkét esetben – a varian-
2
cia négyzetgyöke, s = s . Nem magától értetődő, hogy az utóbbi esetben
miért (n − 1)-gyel osztunk, hiszen most is n darab négyzetes eltérés át-
lagát akarjuk kiszámítani. A józan ész számára természetesebbnek tűnne
n-nel osztani. Valójában így is, úgy is lehet a varianciát számolni, bizonyos
szempontból egyik megoldás a jobb, más szempontból meg a másik. Előbbit
korrigálatlan, utóbbit pedig – amikor (n − 1)-gyel osztunk – korrigált
tapasztalati varianciának, illetve szórásnak hívják. Mivel a klasszikus
statisztikában a korrigált terjedt el – az R is ezt számolja –, úgy döntöttünk,
hogy hétköznapi használatra mi is ezt ajánljuk. (Különbségükről lásd még
az 5.2. fejezetet.)
A variancia és a szórás az átlaghoz hasonlóan – de a négyzetre emelés mi-
att még fokozottabb mértékben – érzékenyek a szélsőséges megfigyelésekre,
egy-egy kiugró érték drámai hatással lehet az értékükre. Ezért manapság
egyre jobban terjed a négyzetre emelés helyett abszolút értékkel számolt
úgynevezett átlagos abszolút eltérés (mean absolute deviation, MAD),
amelyet kevésbé tud „megbolondítani” egy-két kiugró érték. Ez a mutató
az átlagtól való abszolút eltérések átlaga:
Pn
k=1 |xk − µ|
M AD = .
n
112 Reiczigel – Harnos – Solymosi: Biostatisztika

Sajnos ugyanaz a MAD betűszó jelöli a medián abszolút eltérést (medi-


an absolut deviation) is, ami egy, az előzőhöz filozófiájában és jelentésében
is nagyon hasonló mutató:

M AD = median(|xk − xmed |),

ahol xmed a változó mediánját jelöli. Ez tehát a mediántól való abszo-


lút eltérések mediánja, amely még kevésbé érzékeny a kiugró értékekre.
Szerencsétlen, hogy a két rövidítés azonos, ezért inkább mindig írjuk ki a
teljes nevüket a félreértések elkerülése végett! Az R-ben a mad() függvény
alapértelmezésben a medián abszolút eltérést számolja.

4.10. példa. Medián abszolút eltérés (MAD) kiszámítása


Számoljuk ki a medián abszolút eltérést az alábbi mintára: 2, 3, 1, 4, 5, 10!
A minta mediánja 3.5, az értékek ettől való abszolút eltérései: 1.5, 0.5, 2.5, 0.5, 1.5,
6.5, az eltérések mediánja 1.5.
Ugyanez R-rel:
> minta = c(2, 3, 1, 4, 5, 10)
> mad(minta, constant = 1)

[1] 1.5

A constant szerepéről lásd az R súgóját.

Ha olyan szóródási mutatóra van szükségünk, amely azt fejezi ki, hogy
mekkora a megfigyelt értékek véletlen ingadozások miatti bizonytalansá-
ga, akkor a szórás önmagában nem túl informatív. Nem mindegy például,
hogy egy olyan változónak 10 a szórása, amely 50 körüli értékeket vesz fel,
vagy egy olyannak, amelyik 5000 körülieket. Előbbi véletlen ingadozását
jelentősnek érezzük, utóbbiét pedig elhanyagolhatónak, az értékek különbö-
ző nagyságrendje miatt. Ha ilyen értelemben van szükségünk egy szóródási
mutatóra, akkor a relatív szórást vagy más néven variációs együtthatót
(coefficient of variation, CV) használhatjuk. Definíciója a szórás osztva
az átlaggal, populációra és mintára is azonos módon számoljuk, gyakran
százalékban szokták megadni. Képlete, példának okáért mintára és száza-
lékban:
s
CV = 100 %.

4.2. Mérőszámok, statisztikák 113

4.11. példa. Szarvasmarhák testtömege – szórás és relatív szórás


Vizsgáljuk meg, hogy hízlalás közben hogyan változott a szarvasmarha-állomány test-
tömegének szórása, illetve relatív szórása (CV%)!

átlag szórás CV %
születéskori testtömeg 50 kg 5 kg 10
választási testtömeg 150 kg 18 kg 12
hízlalási testtömeg 500 kg 75 kg 15

A relatív szórások kiszámítása:


> atlag = c(50, 150, 500)
> szoras = c(5, 18, 75)
> (cv = szoras/atlag * 100)

[1] 10 12 15

Ne használjuk a variációs együtthatót akkor, ha a vizsgált változó negatív


értékeket is felvehet! Ekkor ugyanis az átlag már nem jellemzi jól az „értékek
nagyságrendjét”, nagy értékekből is kiadódhat akár 0 körüli átlag is.

Egy változó jellemzése több számmal

Ha az eloszlást két számmal – egy helyzeti és egy szóródási mutatóval –


kívánjuk jellemezni, leggyakrabban az átlagot és a szórást adjuk meg. Pél-
dául „. . . 125 elemű mintából a testtömeg átlaga 56 kg-nak, szórása 3 kg-nak
adódott”. A közlés rövid formája: „a testtömeg 56 ± 3 kg volt (n = 125)”.
Az átlag és szórás nem informatív akkor, ha az eloszlás ferde, nem szim-
metrikus. Egyrészt formálisan is zavaró a ±, amikor az eloszlás ferde, tehát
az átlagtól egyik irányban nagyobb eltérés a jellemző, mint a másikban.
Másrészt ilyenkor a szórás inflálódik, nagyobbnak mutatkozik a „kelleténél”.
Tipikus példa erre, amikor valószínűség becsléséről van szó, és a becslést így
adják meg: „a betegség valószínűsége a vizsgált populációban 0.03 ± 0.09”.
Ez bután néz ki, mert tudjuk, hogy a negatív valószínűségek értelmetlenek.
A medián mellé szóródási mutatóként a szórás helyett inkább a minta-
terjedelmet vagy az IQR-t szokás megadni. Ilyenkor nincs rövid alak, meg
kell mondani, mi micsoda. Például „. . . 125 elemű mintából a testtömeg me-
diánja 57 kg-nak adódott (IQR = 6 kg)”.
Ha további engedményt teszünk, és több számot is megengedünk az adat-
halmaz jellemzésére – és ez gyakran bölcs gondolkodásra vall –, akkor alkal-
mazhatjuk az úgynevezett „öt pontos jellemzést”, azaz a minimumot, alsó
114 Reiczigel – Harnos – Solymosi: Biostatisztika

kvartilist, mediánt, felső kvartilist, maximumot. Ezeket R-ben a summary()


függvénnyel kaphatjuk meg. Grafikus ábrázolásuk a boxplot (4.9. ábra),
amelyet R-ben a boxplot() függvénnyel készíthetünk.
Sem az átlagjövedelem, sem a jövedelem mediánja nem mond semmit
arról, hogy mennyiből kell megélnie a lakosság legszegényebb 20%-ának,
sem arról, hogy mennyit költhet a felső 10%. Ha ezeket akarjuk kifejez-
ni, akkor a kvartilisek mintájára definiált percentilisekkel vagy kvanti-
lisekkel tehetjük (percentiles, quantiles). A 20%-os percentilis, vagy más
néven a 0.2-kvantilis meghatározásához tehát az értékeket nagyság szerint
sorba rendezzük (mindegyiket annyiszor véve, ahányszor előfordul), majd
megkeressük azt az értéket, amelyik a populáció vagy minta 20%-ánál van.
Mivel véges populáció vagy minta esetén a 20% általában nem egész szám,
a keresett kvantilis általában nem adódik ki vitathatatlan egyértelműséggel,
számítására több különböző módszer létezik, amelyek mindegyike valami-
lyen szempont szerint jobb, mint a többiek, de hogy melyik szempont a leg-
jobb, azt nem lehet általánosságban megmondani. Az R-ben a quantile()
függvénnyel elérhető 9 módszer áttekintését lásd az R súgójában, illetve az
ott megadott cikkben. (De bízvást állíthatjuk, hogy nem azon fog múlni
egy kutatás sikere, hogy ezek közül melyiket használjuk.) Mondhatnánk (de
nem szoktuk), hogy a minimum a 0-kvantilis, a maximum az 1-kvantilis, a
medián a 0.5-kvantilis, az alsó kvartilis a 0.25-kvantilis. Ha megadjuk a mi-
nimumot, a 0.1-, 0.2-, . . . , 0.9-kvantiliseket és a maximumot, akkor ez már
nagyon finom, részletes képet fest a változó eloszlásáról. Tulajdonképpen egy
10 osztállyal készült gyakoriságtáblázatnak vagy hisztogramnak (93. oldal)
felel meg.

4.12. példa. Elsőéves hallgatók testmagassága – kvartilisek, percentilisek


> quantile(pop$magas)

0% 25% 50% 75% 100%


158 174 178 182 197

Az alsó és felső 10-10%-nak megfelelő percentilisek:


> quantile(pop$magas, probs = c(0.1, 0.9))

10% 90%
170 186
4.2. Mérőszámok, statisztikák 115

4.2.2. Két változó közötti összefüggés jellemzése


Mindenekelőtt azt kell tisztázni, hogy mit értünk a statisztikában két vál-
tozó összefüggésén, illetve függetlenségén. Ez ugyanis kissé eltér e fogalmak
hétköznapi értelmezésétől. Hétköznapi értelemben akkor mondjuk, hogy két
dolog független, ha sem logikai, sem oksági, sem egyéb összefüggés nincs kö-
zöttük semmilyen körülmények között. Statisztikai értelemben akkor mond-
juk, hogy függetlenek (independent), ha az adott populációban az
egyik változó megfigyelése nem ad információt a másik eloszlásá-
ról, azaz arról, hogy a másik mely értékeinek mekkora a valószí-
nűsége. Tehát lehet, hogy két változó valamely populációban – mondjuk
a 6–10 éves gyermekek körében – független, de egy másikban – mondjuk
a 14–18 évesek korosztályában – már nem. Hétköznapi értelemben ilyenkor
már nem neveznénk függetlennek őket.
Hadd illusztráljuk egy példával is a különbséget! Mondjuk, felmérést vég-
zünk, hogy kiderítsük, mennyire függ egy matematika zárthelyi dolgozat
sikere a felkészülésre fordított idő hosszától. A teljes 100 fős évfolyam-
tól megkérdezzük, hány órát készült a dolgozatra. A lehetséges válaszok:
A = legfeljebb 3 órát, B = több mint 3, de legfeljebb 6 órát, C = több
mint 6, de legfeljebb 9 órát, D = több mint 9 órát. Az eredmény kétfé-
le lehet: megfelelt, illetve nem felelt meg. Tehát most mindkét változónk
faktor (ne feledkezzünk el róla, hogy a mérés módja mindig rajtunk múlik,
most a mondandónkhoz ezt találtuk legalkalmasabbnak). Tegyük fel, hogy
a felmérés eredménye az alábbi 2 × 4-es táblázatban foglalható össze:

Felkészülési idő A B C D
Megfelelt 6 21 30 18
Nem felelt meg 2 7 10 6

Látjuk, hogy mind a négy csoportban a hallgatók háromnegyede írt si-


keres dolgozatot. Tehát attól, hogy tudjuk, melyik csoportban van valaki,
nem tudunk jobban tippelni arra, vajon sikerült-e a dolgozata. Ez a sta-
tisztikai függetlenség lényege: az eredmény eloszlása (75% megfelelt, 25%
nem) mind a négy csoportban ugyanaz, vagyis nem függ a felkészülési idő-
től (vö. események függetlenségével, 56. oldal, illetve valószínűségi változók
függetlenségével, 67. oldal).
Két változó függetlensége szimmetrikus viszony: a függetlenséget úgy is
fogalmazhattuk volna, hogy a felkészülési idő eloszlása az eredmény szerinti
mindkét csoportban ugyanaz: 8%, 28%, 40%, 24%. Természetesen a statisz-
tikai függetlenség nem jelenti azt, hogy egy diáknak attól függetlenül, hogy
116 Reiczigel – Harnos – Solymosi: Biostatisztika

hány órát tanul, ugyanakkora esélye lenne, hogy sikerrel megírja a dolgoza-
tot (amit függetlenség alatt hétköznapi értelemben értenénk). Valószínűleg
inkább azt jelzi, hogy a szóban forgó évfolyamon mindenki annyi órát igye-
kezett tanulni, amennyivel már jó esélye lesz arra, hogy átmegy, de ennél
többet senki sem tartott érdemesnek, hiszen az értékelés úgyis csak „meg-
felelt – nem felelt meg”. A jobbak már kevesebb tanulással elérték ezt az
állapotot, a gyengébbeknek több idő kellett hozzá. Ha nem felmérést végez-
tünk volna, hanem kísérletet, mondjuk úgy, hogy előre kisorsoltuk volna,
melyik diák hány órát készüljön a dolgozatra, akkor valószínűleg megkap-
tuk volna a várt pozitív összefüggést a felkészülési idő és az eredményesség
között. Ha a kísérletet egy másik populációval (egy másik évfolyammal)
megismételtük volna, lehet, hogy ott már nem találtuk volna függetlennek
a változókat. Az is lehet, hogy ha az eredményt nem a „megfelelt – nem
felelt meg” skálán mérjük (vagy ha a felkészülési időt mérjük más skálán),
akkor sem találtuk volna őket függetlennek.
Tehát statisztikai függetlenséget vagy összefüggést mindig az adott po-
pulációban, az adott módon mért változók között – mondhatjuk úgy is,
hogy egy adatmátrix két oszlopa, vagyis végül is mindig két számsor között
– vizsgálunk.
Fontos látnunk, hogy két változó között fennálló statisztikai
összefüggés nem bizonyítja azt, hogy oksági kapcsolat lenne kö-
zöttük! Sok szellemes példát találtak már ki ennek illusztrálására. Egyik
ilyen a tűzesetekhez kivonult tűzoltók száma és a keletkezett anyagi kár
nagysága közötti jól dokumentált pozitív összefüggés, másik klasszikus pél-
da az egyes településeken fészkelő gólyák száma és a népszaporulat közötti,
szintén pozitív összefüggés. Mint a fenti példák is mutatják, lehet, hogy az
összefüggés egy közös okra vezethető vissza (a tűz nagysága, illetve vidék-
város). Hasonlóan, ha két változó statisztikailag független, az nem jelenti
azt, hogy valóban „semmi közük egymáshoz”, lehet, hogy egy harmadik vál-
tozó hatása teszi, hogy a közöttük lévő kapcsolat rejtve marad. A látszóla-
gos összefüggést keltő, illetve azt elrejtő változók az úgynevezett
zavaró változók (confounder), amelyek hatását néha csak nagyon kifino-
mult kísérlettervezési megoldásokkal lehet kiküszöbölni (és csak akkor, ha
már van egy „gyanúsítottunk”).
Ha két változó nem független, megkérdezhetjük, hogy milyen szoros az
összefüggés közöttük, mennyire függ egyik a másiktól. Ésszerű gondolat,
hogy az összefüggés annál szorosabb, minél több információt hordoz egyik
változó a másikról. Vegyük észre, hogy ez már nem szimmetrikus viszony,
például ha az életkor és a belőle képzett korcsoport változó viszonyát tekint-
jük, az életkor minden információt tartalmaz a korcsoportról, de fordítva ez
4.2. Mérőszámok, statisztikák 117

már nem igaz. Egyesek szerint az összefüggés akkor a lehető legszorosabb, ha


valamelyik változó ismeretében a másik már teljes bizonyossággal tudható,
míg mások azt nevezik a lehető legszorosabb összefüggésnek, ha bármelyikük
ismeretében a másik már teljes bizonyossággal tudható. A fenti életkor és
korcsoport változók összefüggése az előbbi értelemben a lehető legszorosabb,
az utóbbiban viszont nem, hiszen a korcsoport ismeretében az életkor nem
tudható teljes bizonyossággal. Mindkét értelmezésnek van létjogosultsága,
a körülményektől függően akár egyik, akár másik lehet előnyösebb.
Az összefüggésre az asszociáció és korreláció szakkifejezéseket használ-
hatjuk, de vigyázzunk, ezek nem szinonímák, az asszociáció az általános
fogalom, míg a korreláció egy speciális fajta összefüggést jelöl. Tehát két
változó közötti asszociáció (association) azt jelenti, hogy a változók
nem függetlenek: az egyik változó megfigyelése által a másikról
is szerezhetünk információt. A korreláció (correlation) olyan speciá-
lis összefüggés, amely csak akkor értelmezhető, ha mindkét változó
értékeinek van természetes rendezése (azaz mindkettőjüknek legalább
ordinális skálájúnak kell lennie). Nominális változók között tehát csak asszo-
ciációról beszélhetünk. A korreláció lehet pozitív – ha az egyik változó na-
gyobb értékei a másiknak is inkább a nagyobb értékeivel járnak együtt,
vagy negatív – ha az egyik változó nagyobb értékei a másiknak inkább a ki-
sebb értékeivel járnak együtt. A korreláció tehát monoton kapcsolatot
jelent a két változó között.
Az asszociáció vagy korreláció erősségének mérésére számos asszociációs,
illetve korrelációs együttható áll rendelkezésünkre. Mivel a kapcsolat két
változó között nagyon sokféle lehet, óva intjük a Kedves Olvasót attól, hogy
válasszon magának egy „kedvenc” együtthatót, és mindig csak azt hasz-
nálja, mert az egyes mérőszámok a különböző fajta kapcsolatokra eltérő
mértékben érzékenyek. Inkább azt ajánljuk, hogy minden egyes alkalommal
ábrázolja grafikusan a két változó kapcsolatát (lásd 4.1.2. fejezet), és annak
alapján döntse el, hogy az adott fajtájú kapcsolatot melyik mérőszámmal
lehet a legjobban kifejezni. Önmagában semelyik együttható sem ér fel egy
ilyen ábra információgazdagságával.
Az asszociációs mérőszámok általában 0 és 1 közötti, a korrelációs mé-
rőszámok −1 és 1 közötti értékeket adnak. Az asszociációnál az 1 jelenti
az elképzelhető legszorosabb összefüggést, a korrelációnál pedig a −1 a leg-
szorosabb negatív, míg az 1 a legszorosabb pozitív összefüggést. A 0 érték
jelentése mindkét esetben az, hogy a változók között nem áll fenn a feltéte-
lezett típusú összefüggés. Azt nem állíthatjuk, hogy a 0 a változók függet-
lenséget jelenti, mert sok mérőszám csak egy bizonyos fajta összefüggésre
érzékeny: ekkor a 0 csak azt jelenti, hogy olyan összefüggés nincsen. (Azért
118 Reiczigel – Harnos – Solymosi: Biostatisztika

a jó mérőszámok a változók függetlensége esetén 0-t adnak, csak fordítva


nem lehetünk biztosak a dologban.)
Könyvünkben két asszociációs és három korrelációs együtthatót ismer-
tetünk. Az asszociációs együtthatókat (Goodman és Kruskal-féle lambda,
Cramer-féle V ) az alábbiakban, a korrelációs együtthatókat pedig (Pearson,
Spearman, Kendall-féle tau) a 8. fejezetben.

4.2.3. Asszociációs mértékek


Mindkét ismertetendő asszociációs együttható két nominális változó, X és
Y közötti asszociáció mérésére alkalmas. Legyen mondjuk X a hajszín, Y
pedig a szemszín, és tegyük fel, hogy egy populáció vagy minta minden egyes
egyedén ismerjük mindkét változót: ekkor az együtthatók az X és Y közötti
összefüggés szorosságát egy 0 és 1 közötti számmal fejezik ki. A mutatókat
mintából is ugyanúgy számoljuk, mint populációból. A mintából számolt
értéket úgy tekintjük, mint a populációbeli érték egy becslését (vö. plug-in
becslés, 139. oldal).
Figyeljük meg, hogy a két ismertetett mérőszám teljesen más logikán
alapul (és rajtuk kívül még más megközelítések is vannak)!

A) Goodman–Kruskal-féle lambda (λ)

Ez az együttható a relatív hibacsökkenésen alapuló mértékek (proportio-


nal reduction of error, PRE) családjába tartozik. Ez azt jelenti, hogy két
változó (X és Y ) közötti összefüggés szorosságát annak alapján
számszerűsíti, hogy mennyivel csökkenti az Y -ra vonatkozó téve-
dési valószínűséget az X ismerete. Tehát ha tudjuk valakinek a hajszí-
nét, mennyivel tudjuk jobban eltalálni az illető szemszínét: hány százalékkal
csökken ettől a szemszínre vonatkozó tévedési valószínűség.

4.13. példa. Hajszín és szemszín – Goodman–Kruskal-féle lambda


Tegyük fel, hogy egy 200 fős mintában a szemszín és hajszín megoszlása a következő:

Kék Zöld Barna Fekete Összesen


Szőke 10 18 14 2 44
Barna 8 16 22 30 76
Fekete 6 14 44 16 80
Összesen 24 48 80 48 200

Ha a hajszín ismerete nélkül kell kitalálnunk a szemszínt, akkor legjobb a barnára tippel-
nünk, mert abból van a legtöbb: ekkor a találati arány 40%, azaz a tévedési valószínűség
4.2. Mérőszámok, statisztikák 119

60%. Ha a hajszín ismeretében találgatunk, akkor is mindig arra a szemszínre tippelünk,


amelyikből – az adott hajszín mellett – a legtöbb van, vagyis szőkéknél zöld szemre,
barnáknál feketére, feketéknél pedig barnára tippelve érjük el a legjobb találati arányt,
ami így (18 + 30 + 44)/200 = 46%, vagyis a tévedési valószínűség 54%.

A lambda azt méri, hogy mekkora a tévedési valószínűség relatív csökkenése. A 0.6-ról
0.54-ra való csökkenés mértéke 0.06, ami a 0.6-nak 10%-a, a lambda értéke tehát 0.1.

Vegyük észre, hogy a lambda nem szimmetrikus: a szemszín ismerete nem


ugyanolyan mértékben csökkenti a hajszínre vonatkozó tévedési valószínű-
séget, mint a hajszín ismerete a szemszínre vonatkozót! Ezért, ha lambdát
közlünk, ne felejtsük el megmondani, hogy melyikről van szó! Használhat-
juk a λY |X vagy a λ(Y |X) jelölést: ezek az Y -ra vonatkozó hibacsökkenést
jelentik az X ismeretében. Most a λ(szemszín|hajszín)-t számoltuk. A Ked-
ves Olvasó gyakorlásképpen kiszámolhatja a λ(hajszín|szemszín)-t. A helyes
eredmény 0.183, jóval nagyobb, mint az előző (ami nem olyan meglepő, hi-
szen a szemszínnek négy kategóriája van, a hajszínnek pedig csak három,
és egy részletesebb csoportosítás várhatóan több információt tud adni egy
kevésbé részletesről, mint fordítva).
Szimmetrikus mutatót úgy szoktak készíteni belőle (vigyázat, ez nem
mindig értelmes dolog!), hogy mindkét irányban kiszámolják, és a két érték
átlagát veszik.

B) Cramer-féle V (Cramer’s V )

Ez az asszociációs együttható azt méri, hogy a megfigyelt gyakori-


ságok táblázata mennyire tér el a függetlenség esetén várható
gyakoriságok táblázatától. A függetlenség esetén várható gyakoriságo-
kat minden cellára az események függetlenségére vonatkozó P (A és B) =
P (A) · P (B) szabálynak megfelelően számoljuk. Jelöljük a hajszín változót
H-val, a szemszínt pedig S-sel! Ha ezek függetlenek, akkor például

P (H = szőke és S = barna) = P (H = szőke) · P (S = barna) =

44 80
= · = 0.088,
200 200

ahonnan a függetlenség esetén várt gyakoriság a 200 fős mintában


200 · 0.088 = 17.6. A függetlenség mellett várható cellagyakoriságokat a
többi cellára is hasonlóan számolhatjuk. Ha meg akarunk fogalmazni egy
120 Reiczigel – Harnos – Solymosi: Biostatisztika

„számolási szabályt”, akkor azt mondhatjuk, hogy a cella sorának sorössze-


gét megszorozzuk az oszlopának az oszlopösszegével, majd elosztjuk a min-
taelemszámmal (vö. a khi-négyzet próbával, 215. oldal). Az előbbi cellára:
44 · 80/200 = 1760/200 = 17.6.
Az eltérést a függetlenség mellett várható és a ténylegesen megfigyelt
gyakoriságok között mindegyik cellára úgy mérjük, hogy a különbségük
négyzetét elosztjuk a várható gyakorisággal. A várható gyakorisággal va-
ló osztásban az az elv tükröződik, hogy ugyanakkora különbség nagyobb
számok között kevesebbnek számít, vagyis például az 5 különbség kevesebb-
nek számít az 500 és az 505 között, mint a 10 és a 15 között. A (H = szőke,
S = barna) cellára az így számolt eltérés:

(17.6 − 14)2 3.62


= = 0.736.
17.6 17.6
A Cramer-féle V -t úgy kapjuk, hogy ezeket az eltéréseket minden cellára
összeadjuk, és az összeget elosztjuk a mintaelemszámmal (a teljes táblázat
összesenjével), majd a sorok és oszlopok száma közül a kisebbik mínusz 1-
gyel (ezzel érjük el azt, hogy a Cramer-féle V értéke mindig 0 és 1 közé
essék). A példabeli várható gyakoriságokat és az eltéréseket mutatják az
alábbi táblázatok. A várható gyakoriságok:

Kék Zöld Barna Fekete Összesen


Szőke 5.28 10.56 17.60 10.56 44
Barna 9.12 18.24 30.40 18.24 76
Fekete 9.60 19.20 32.00 19.20 80
Összesen 24 48 80 48 200

Az eltérések:

Kék Zöld Barna Fekete


Szőke 4.22 5.24 0.74 6.94
Barna 0.14 0.28 2.32 7.58
Fekete 1.36 1.40 4.50 0.54

Az eltérések összege 35.52, ahonnan


35.52
V = = 0.0888.
200 · 2
Ez a mérőszám – mivel a függetlenség szimmetrikus tulajdonság – szimmet-
rikus.
4.2. Mérőszámok, statisztikák 121

4.2.4. Adattranszformációk hatása a statisztikai mérőszámokra


Az adatok transzformálására gyakran mértékegységváltás miatt van szük-
ség. Például milliméterről centiméterre való áttéréskor nagyon bosszantó
lenne, ha a mintából számolt valamennyi statisztikai mérőszámot – átla-
got, mediánt, szórást stb. – újra kellene számolnunk. Ilyenkor joggal vár-
juk el, hogy a mérőszámok is a mértékegységváltás szokásos kép-
letével átszámíthatóak legyenek. Az ilyen tulajdonságú mérőszámokat
transzformáció-követőnek (transformation respective) nevezzük. A mér-
tékegységváltás leggyakrabban lineáris transzformáció (például a mm-cm
váltáskor y = 10x, x = y/10, Celsius–Fahrenheit váltáskor y = 1.8x + 32,
x = (y −32)/1.8). Szerencsére a lineáris transzformációkat a legtöbb helyze-
ti mutató követi. A nem lineáris, de monoton transzformációkat (hatvány,
logaritmus, gyök, exponenciális, rang) az átlag már nem követi (ezt tehát
a transzformált adatokból újra kell számolni!), de a módusz, a medián és a
kvantilisek igen.

4.14. példa. Transzformáció-követő statisztikák


Nézzük meg, hogy a következő egyszerű példában hogyan alakulnak a felsorolt statisz-
tikák értékei egy lineáris és egy nemlineáris transzformáció esetén!

értékek medián átlag szórás variancia


x 3, 2, 5, 6, 4 4 4 1.58 2.5
2·x + 3 9, 7, 13, 15, 11 11 11 3.16 10

x 1.73, 1.41, 2.24, 2.45, 2.00 2 1.97 0.41 0.17

Az is lehet, hogy egy mérőszámot nemhogy újraszámolni nem kell egy


transzformáció után, hanem még átszámítani sem, mert a transzformált
adatokra is pont ugyanannyi lesz az értéke, mint az eredeti adatokra. Ekkor
azt mondjuk, hogy a mérőszám arra a transzformációra invariáns. A lineá-
ris transzformációkra invariáns mérőszám például a Pearson-féle korrelációs
együttható (lásd a 8. fejezetben). A monoton transzformációkra invariáns
az összes olyan mérőszám, amelyet a rangokból számolunk, mint például a
Spearman-féle rangkorrelációs együttható (lásd 247. oldal).
122 Reiczigel – Harnos – Solymosi: Biostatisztika

4.15. példa. Transzformáció-invariáns statisztikák


A példa azt illusztrálja, hogy a lineáris transzformációra mind a Pearson-féle korre-
lációs együttható, mind a Spearman-féle rangkorrelációs együttható invariáns, de a
négyzetgyök-transzformációra már csak a Spearman-féle rangkorrelációs együttható. Le-
gyen a két változó:
> V1 = c(1, 3, 2, 4, 5, 3, 8)
> V2 = c(4, 5, 6, 7, 7, 5, 11)
Alkalmazzuk a változókra az y = 2x + 3 lineáris transzformációt, valamint a
négyzetgyök-transzformációt!
> (V1.lintr = 2 * V1 + 3)

[1] 5 9 7 11 13 9 19

> (V2.lintr = 2 * V2 + 3)

[1] 11 13 15 17 17 13 25

> (V1.gyok = sqrt(V1))

[1] 1.000000 1.732051 1.414214 2.000000 2.236068 1.732051 2.828427

> (V2.gyok = sqrt(V2))

[1] 2.000000 2.236068 2.449490 2.645751 2.645751 2.236068 3.316625

A Pearson-féle korrelációs együttható az eredeti és a transzformált változók között:


> cor(V1, V2)

[1] 0.945711

> cor(V1.lintr, V2.lintr)

[1] 0.945711

> cor(V1.gyok, V2.gyok)

[1] 0.918538

A Spearman-féle rangkorrelációs együttható:


> cor(V1, V2, method = "spearman")

[1] 0.880771

> cor(V1.lintr, V2.lintr, method = "spearman")

[1] 0.880771

> cor(V1.gyok, V2.gyok, method = "spearman")

[1] 0.880771
5. Becslés
Emlékezzünk vissza a populáció és a minta viszonyára, és főleg arra a tényre,
hogy bár a kutatót mindig a populáció tulajdonságai érdeklik, különféle
okok miatt általában csak a minta vizsgálatára van módja, a populáció
legnagyobb része rejtve marad előtte.
Tehát amikor egy mintából átlagot számolunk, általában nem azért tesz-
szük, mert ennek a konkrét mintának az átlagára vagyunk kíváncsiak, hiszen
esetleges, hogy éppen ezt a mintát kaptuk – gondoljunk arra, hogy véletlen
mintával dolgozunk –, hanem azért, mert ezzel annak a populációnak az
átlagáról szerezhetünk több-kevesebb információt, amelyből a minta szár-
mazik. (A populációt most is értsük tágabb értelemben, azaz értsük bele
azt az absztrakt „végtelen populációt” is, amelyet a valószínűségi változó
fogalmával modellezünk.)

5.1. példa. Elsőéves hallgatók testmagassága – a populációátlag becslése


Kíváncsiak vagyunk az elsőéves egyetemista férfiak átlagos testmagasságára. Jegyezzük
meg, hogy mivel ez egy véges populáció, ha elegendő pénzünk lenne rá, a beiratkozás-
kor valamennyiüket megmérhetnénk, és akkor nem lenne szükség a paraméter (most a
populációátlag) mintából való becslésére! Tegyük fel azonban – mert ez a tipikus –,
hogy erre nincs módunk! Ezért veszünk egy 300 fős véletlen mintát az elsőéves ma-
gyar egyetemista férfiak populációjából, megmérjük őket, majd a 300 testmagasságból
átlagot számolunk. Ez lesz a becslés a populációbeli átlagos testmagasságra.

Itt rögtön több kérdés is felmerül:


1. Miért pont 300 fős mintát veszünk? (Ez a megkívánt pontosságú becs-
léshez szükséges mintanagyság kérdése, lásd az 5.6. fejezetben.)
2. Hogyan választjuk ki a 300 egyetemistát a populációból? (Ez a min-
taválasztás vagy más szóval mintavétel kérdése, amely általában nem
könnyű, hiszen a populáció lehet területileg kiterjedt, az sem biztos,
hogy homogén stb.)

123
124 Reiczigel – Harnos – Solymosi: Biostatisztika

3. Miért pont a mintaátlaggal becsüljük a populációs átlagot? (Ez a becs-


lési eljárás kérdése. Látni fogjuk, hogy nem a mintaátlag az egyetlen
lehetőség, arra pedig, hogy melyik módszer a legjobb, nincs általáno-
san érvényes válasz, az mindig a körülményektől függ.)

5.1. Alapfogalmak
Becslésnek (estimation) nevezzük valamely, a populációra jellemző
mennyiség vagy hatás mintából történő meghatározását. A magyar-
ban a becslés szó nemcsak ezt a tevékenységet, hanem magát a becslésként
kapott értéket (estimate) is jelenti, sőt még azt az eljárást vagy képletet
is, amellyel a mintából kiszámolható a becslés (estimator). Ez utóbbira a
magyarban a becslő függvény kifejezést is használják.

5.1.1. Pontbecslés
Pontbecslés (point estimation, point estimate) esetén az eredmény egy szám.
Mivel egy véletlen mintából számítjuk, ez a szám a véletlentől is függ (va-
lószínűségi változó), azaz ismételt mintavétel esetén más és más értékeket
kaphatunk (5.1. ábra). Ha a becslést – legalábbis képzeletben – az összes le-
hetséges mintára kiszámoljuk, a becslés eloszlását kapjuk, amelyből átlagot,
szórást stb. számolhatunk.
A becslés pontosságának jellemzésére a becsült érték mellett a
becslés szórását is meg szokás adni, amelyet történeti okokból nem
szórásnak, hanem standard hibának (standard error) (SE) nevezünk.
A gyakorlatban persze ezt is a ténylegesen rendelkezésünkre álló egyetlen
mintából kell megbecsülnünk.
Vegyünk egy egyszerű példát, mondjuk az átlagos testmagasság becslését
a fenti egyetemista populációban! A valószínűségszámításból tudható, hogy
ha x1 , x2 , . . . , xn egy n elemű független minta egy SD = σ szórású válto-

zóra, akkor a mintaátlag szórása SE = σ/ n. A testmagasság szórása a
fenti populációban SD = 6.3 cm. Ha ebből√a populációból tízelemű mintát
veszünk, akkor a mintaátlag szórása = 6.3/ √10 = 1.99 cm, 50 elemű mintá-
ból számolt átlag szórása pedig SE = 6.3/ 50 = 0.89 cm lesz. (Jegyezzük
meg, hogy véges populációra ez az összefüggés csak közelítőleg érvényes, de
ezzel most ne törődjünk!) Ügyeljünk rá, hogy ne keverjük össze a változó
szórását (SD) és a mintaátlag szórását, vagyis standard hibáját (SE).
Már láttuk a leíró statisztikáknál, hogy az R-ben a mintaátlag kiszámí-
tására a mean(), a szórás kiszámítására pedig az sd() függvény szolgál. A
mintaátlag standard hibájának becslését a fenti képlet szerint úgy kapjuk,
5.1. Alapfogalmak 125

a ● ● ● ● ●● ●● ● ●

b ●
● ●● ● ● ● ●
●●

175 176 177 178 179 180 181

Testmagasság (cm)

5.1. ábra. A mintaátlagok ingadozása ismételt mintavétel esetén. Tíz húszelemű (a) és
tíz százelemű (b) véletlen minta átlaga egy olyan (elképzelt) egyetemista populációból,
amelyben a testmagasság populációs átlaga 178 cm (függőleges vonal). Figyeljük meg,
hogy a nagyobb mintákból számolt átlagok kisebb ingadozást mutatnak, közelebb esnek
a populációátlaghoz (a két fekete négyzet a tíz-tíz mintaátlag átlagát jelöli)!

hogy a mintabeli szórást osztjuk a mintaelemszám négyzetgyökével. Négy-


zetgyökvonásra az sqrt() függvényt használhatjuk (square root = négy-
zetgyök). Lássuk ezt egy, a populációból vett véletlen mintával, amelyet a
minta nevű változó tartalmaz! Az na.rm = T és a na.omit() a hiányzó
értékek kezeléséről gondoskodnak (vö. 2.4.4. fejezet, 45. oldal).
> mean(minta, na.rm = T)

[1] 178.0350

> s = sd(minta, na.rm = T)


> (n = length(na.omit(minta)))

[1] 300

> (SE = s/sqrt(n))

[1] 0.3649871

Az eredményközlés szokásos módja: „Az elsőéves egyetemista férfiak át-


lagos testmagassága a vizsgálat szerint 178.0 cm (n = 300, SE = 0.36 cm).”
Ha úgy tetszik, az átlag standard hibája helyett megadhatjuk a testmagas-
ság populációbeli szórását is, csak az a lényeg, hogy egyértelművé tegyük,
mit közlünk. Tehát írhatjuk azt is, hogy „Az átlagos testmagasság 178 cm
(n = 300, SD = 6.32 cm)”.
126 Reiczigel – Harnos – Solymosi: Biostatisztika

0.5

0.4

0.3 n = 50
űű

0.2

0.1 n = 10
n=1
0.0

160 170 180 190 200

Testmagasság (cm)

5.2. ábra. Különböző elemszámú véletlen mintákból számolt átlagos testmagasságok


sűrűségfüggvénye (n = 1-re a testmagasság populációbeli sűrűségfüggvényét kapjuk)

Gyakran találkozhatunk „a testmagasság 178 ± 6.32 cm” formával is: itt


a ± előtt az átlag, utána pedig kötelezően a szórás (SD) áll. Itt standard
hibát csak úgy adhatunk meg, hogy ha kiírjuk, hogy SE, például így: „a
testmagasság 178 cm (SE = 0.36 cm)”, vagy így: „a testmagasság 178 ±
0.36 cm (SE)”. A legbiztosabb persze, ha az SD-t is mindig kiírjuk: „a
testmagasság 178 ± 6.32 cm (SD)”.
Az 5.2. ábrán különböző elemszámú minták átlagának sűrűségfüggvé-
nyét láthatjuk. (A mintaátlag sűrűségfüggvényére gondolhatunk úgy, hogy
az összes lehetséges n elemű mintából átlagot számoltunk, és ezekből az
átlagokból relatív hisztogramot készítettünk.)

5.1.2. Intervallumbecslés
Az intervallumbecslés vagy konfidencia-intervallum (interval estimation, in-
terval estimate, confidence interval) egy értéktartomány, amely a be-
csülendő paramétert előre rögzített (szokásosan 90, 95 vagy 99%) va-
lószínűséggel tartalmazza. A szóban forgó valószínűség a megbízható-
sági szint vagy konfidenciaszint (confidence level).
5.1. Alapfogalmak 127

A populációátlagra (várható értékre) az R gmodels könyvtárában (War-


nes et al. 2018) lévő ci() függvénnyel kaphatunk konfidencia-intervallumot
(alapértelmezés: 95%-os). Például az előző mintára (egyetemisták testma-
gassága):

> library(gmodels)
> ci(minta)

Estimate CI lower CI upper Std. Error


178.0349657 177.3166967 178.7532346 0.3649871

A függvény pontbecslést (Estimate) és standard hibát (Std. Error) is


számol, a CI lower és CI upper pedig a konfidencia-intervallum alsó, illetve
felső határa.
Ha intervallumbecslést számoltunk, azt így szokás közölni: „Az elsőéves
egyetemista férfiak átlagos testmagasságára n = 300 elemű mintából a
(177.3 cm, 178.8 cm) 95%-os konfidencia-intervallum adódott.”
A „pontbecslés” és „intervallumbecslés” elnevezéseket a számok szám-
egyenesen való ábrázolása magyarázza (5.3. ábra).

pontbecslés

177.3 178.0 178.8

95%-os konfidencia-intervallum

5.3. ábra. Pontbecslés és 95%-os konfidencia-intervallum a fenti mintából a testma-


gasság populációbeli átlagára

Vigyázzunk a konfidencia-intervallum definíciójának „egy értéktarto-


mány, amely a becsülendő paramétert 95% valószínűséggel tartalmazza”
az értelmezésével! Tartsuk szem előtt, hogy az intervallum végpontjait
számoljuk a mintából, tehát ezek függnek – a mintán keresztül
– a véletlentől, míg a becsülendő paraméter egy rögzített érték,
amely nem függ a véletlentől! Tehát azt, hogy a tartalmazás valószínű-
sége 95%, úgy kell érteni, hogy ha sok mintát veszünk, és sokszor számolunk
konfidencia-intervallumot, akkor az esetek 95%-ában olyan intervallumokat
kapunk, amelyek tartalmazzák a becsülendő paramétert. Egy kicsivel job-
ban tükrözi ezt a helyzetet az a szóhasználat, hogy „egy értéktartomány,
amely a becsülendő paramétert 95% valószínűséggel lefedi” (cover).
128 Reiczigel – Harnos – Solymosi: Biostatisztika

30

25
Minta sorszáma

20

15

10

0
177.0 177.5 178.0 178.5 179.0

Paraméter és konfidencia−intervallumok
5.4. ábra. Harminc különböző 300 elemű véletlen mintából számított 95%-os
konfidencia-intervallum az átlagos testmagasságra. A függőleges vonal a populáció-
átlag (µ = 178 cm, σ = 6 cm)

Ha – mint az leggyakrabban lenni szokott – az egyetlen mintánkból


számolunk konfidencia-intervallumot, akkor ezzel az egyedi intervallummal
kapcsolatban valószínűségi kijelentésnek már nincs helye. Persze azért bí-
zunk benne (confidence), hogy lefedi a paramétert, hiszen tudjuk, hogy a
„selejtarány” csak 5% (5.4. ábra).
Ezért a konfidencia-intervallum közlésénél kerüljük az alábbi szóhaszná-
latot: „Az elsőéves egyetemista férfiak átlagos testmagassága a vizsgálat
szerint 95% valószínűséggel 177.3 és 178.8 cm közé esik”, mivel itt már egy
konkrét értéktartomány szerepel, amelyre a 95%-os valószínűség nem vonat-
koztatható. Az angol szóhasználatnak „with 95% confidence” (és nem „with
95% probability”!) a „95% megbízhatósággal” lenne a magyar megfelelője.
Ha gördülékenyebb megfogalmazás nem jut eszünkbe, használjuk ezt!
Ha tudunk, mindig adjunk meg konfidencia-intervallumot is!
Nemcsak azért, mert szemléletesebb, hanem azért is, mert ha a becslés mint
valószínűségi változó nem normális eloszlású – és ez nem is olyan ritka, pél-
dául variancia, relatív kockázat, esélyhányados becslésénél ez a helyzet –,
akkor a standard hiba félrevezető lehet. Míg a konfidencia-intervallum kife-
jezheti az eloszlás ferdeségét úgy, hogy a két végpontja nem szimmetrikusan
helyezkedik el a pontbecslés körül (5.5. ábra), addig a standard hiba – egyet-
len szám lévén – erre nem képes.
Ha mind a pontbecslést, mind az intervallumbecslést megadjuk, így kö-
zöljük: „Az elsőéves egyetemista férfiak átlagos testmagassága a vizsgálat
szerint 178 cm (n = 300, 95%-os konfidencia-intervallum: (177.3 cm, 178.8
5.1. Alapfogalmak 129

cm).” Ilyenkor a pontbecslés standard hibáját nem szokás megadni, mert


a konfidencia-intervallum pótolja, sőt szemléletesebben fejezi ki a becslés
pontosságát.
3.71

0.35 188.7
5.5. ábra. Pontbecslés és konfidencia-intervallum az esélyhányadosra ugyanabból a
mintából (az ábra csak illusztráció, nem kapcsolódik egyik ismertetett példához sem).
A pontbecslés OR = 3.71, a 95%-os konfidencia-intervallum pedig: (0.35, 188.7). Fi-
gyeljük meg, hogy a végpontok nem a pontbecslésre szimmetrikusan helyezkednek el!

5.1.3. Matematikai formalizmus


Jelölje w a becsülendő paramétert, x1 , x2 , . . . , xn pedig a mintát. A w pont-
becslését ŵ-pal (olvasd: w kalap) jelöljük. Minthogy a ŵ becslést a mintából
számítjuk ki, matematikailag egy függvény segítségével írható le:
ŵ = f (x1 , x2 , . . . , xn ).
Említettük, hogy ŵ valószínűségi változó, így van eloszlása, várható ér-
téke, varianciája stb., amelyeket a szokásos módon jelölünk: E(ŵ), var(ŵ)
stb. Ismét hangsúlyozzuk, hogy a szórást ebben az esetben standard hibának
nevezzük, és SE(ŵ)-pal vagy SEŵ -pal jelöljük. Ha a ŵ becslés történetesen
a mintaátlag, akkor SE(x̄) vagy SEx̄ helyett írhatunk egyszerűen SE-t is.
Egy intervallumbecslés w-re a mintából számított két érték, amelyek
az intervallum két végpontját adják meg. Jelölje az intervallum alsó vé-
gét wa , a felsőt pedig wf ! Ezeket formálisan két függvénnyel írhatjuk le:
wa = f1 (x1 , x2 , . . . , xn ), illetve wf = f2 (x1 , x2 , . . . , xn ). Ha a konfidencia-
szint 95%, akkor teljesülnie kell rájuk a következő összefüggésnek:
P (wa ≤ w ≤ wf ) = 0.95,
azaz 95% annak a valószínűsége, hogy wa és wf közrefogják a valódi para-
métert, w-t. A konfidenciaszintet (1 − α)-val szokták jelölni, ahol az
α-t hiba-valószínűségnek (error rate) nevezik, mivel α annak a valószínű-
sége, hogy a kapott konfidencia-intervallum nem tartalmazza a w-t. 95%-os
konfidenciaszint tehát α = 0.05 hiba-valószínűségnek felel meg (5.6. ábra).
Általában (de nem mindig) szimmetrikus konfidencia-intervallumot ke-
resünk, azaz olyat, amelynél az α valószínűség egyenlően oszlik meg a két
lehetséges hiba, w < wa és wf < w között, formálisan:
P (w < wa ) = P (wf < w) = α/2
(lásd 5.7. (a) ábra).
130 Reiczigel – Harnos – Solymosi: Biostatisztika

(a)

(b)

(c)

5.6. ábra. A konfidencia-intervallum tartalmazza a paramétert (a), a paramétertől


teljes egészében jobbra (b), illetve balra (c) helyezkedik el. (1 − α) szintű konfidencia-
intervallum esetén az (a) helyzet (1 − α), a másik kettő együtt összesen α valószínű-
séggel fordul elő. w jelöli a vizsgált paramétert

(a)
2.5% 95% 2.5%
(b)
0.5% 95% 4.5%
(c)
0% 95% 5%
(d)
5% 95% 0%

5.7. ábra. Egy 95%-os konfidencia-intervallum lehet kétoldali szimmetrikus (a); kétol-
dali nem szimmetrikus (b); vagy egyoldali (c), (d)

Néha azonban egyoldali konfidencia-intervallumot használunk. Erre


akkor van szükség, ha az a kérdés, hogy valami legalább vagy legfeljebb
mekkora. Ilyenek például „95% megbízhatósági szint mellett állíthatjuk,
hogy az átlagos túlélési idő legalább 12 év” vagy „A hőmérséklet varian-
ciája legfeljebb 2.4 °C (megbízhatósági szint 90%)”. Formálisan az egyoldali
konfidencia-intervallum egyik irányban a végtelenbe nyúlik, azaz (wa , ∞)
vagy (−∞, wf ) alakú. Egyoldali intervallum esetén

P (−∞ < w ≤ wf ) = P (w ≤ wf ) = 1 − α

(lásd 5.7. (c) ábra), illetve

P (wa ≤ w < ∞) = P (wa ≤ w) = 1 − α

(lásd 5.7. (d) ábra).


5.1. Alapfogalmak 131

Előfordulhat, hogy egyoldali intervallumra van szükségünk, de a prog-


ram, amit használunk, csak kétoldalit hajlandó készíteni, vagy fordítva.
Ilyen esetekben segít az alábbi két szabály:
• Ha (wa , wf ) kétoldali szimmetrikus (1 − α) szintű intervallum, akkor
(−∞, wf ), illetve (wa , ∞) egyoldali (1 − α/2) szintű intervallumok.
Így egy 90%-os szimmetrikus kétoldaliból két 95%-os egyoldalit tu-
dunk csinálni. (Ne felejtsük el, hogy ez csak szimmetrikus kétoldalival
működik!)
• Ha (−∞, wf ) és (wa , ∞) egyoldali (1 − α) szintű intervallumok, akkor
(wa , wf ) kétoldali szimmetrikus (1 − 2α) szintű intervallum. Így két
95%-os egyoldaliból egy 90%-os kétoldalit kapunk.

5.2. példa. Egyoldali konfidencia-intervallum készítése kétoldaliból


Megmutatjuk, hogyan készíthetünk a már ismert ci() függvény (127. oldal) és a fenti
első szabály segítségével egyoldali 95%-os intervallumokat az átlagos testmagasságra.
Ugyanazt a mintát használjuk most is, mint akkor. A ci() függvénnyel készítünk egy
90%-os kétoldali intervallumot:
> library(gmodels)
> ci(minta, confidence = 0.9)

Estimate CI lower CI upper Std. Error


178.0349657 177.4327494 178.6371819 0.3649871

Az ebből adódó két egyoldali 95%-os intervallum: (−∞, 178.6) és (177.4, ∞).

5.1.4. A mintaátlag néhány fontos tulajdonsága


A leggyakrabban használt becslő függvény a mintaátlag, a populációs átla-
got becsüljük vele. Néhány tulajdonságát érdemes megjegyezni:
1. Várható értéke a populációs átlag (értsd: ha az összes lehetséges min-
tára kiszámolnánk az átlagot, majd ezek átlagát vennénk, akkor a
populációs átlagot kapnánk, vö. 124. oldal).
2. Standard hibája (azaz szórása) a változó populációbeli szórása oszt-
va a mintanagyság gyökével (vö. 124. oldal). Ebből következik, hogy
a mintaelemszám növelésével „egyre pontosabb” lesz (5.8. ábra), sőt
tetszőlegesen pontossá tehető (ha a mintaelemszámot minden határon
túl növeljük, a standard hiba 0-hoz tart).
3. Aszimptotikusan normális (a mintaátlag eloszlása a mintaelemszám
növelésével – a vizsgált változó eloszlásától függetlenül – a normális
eloszláshoz tart (5.8. ábra)). A gyakorlati esetek többségében n ≥ 30
esetén már jó közelítéssel feltételezhetjük a mintaátlag normalitását.
132 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)
5000 5000

4000 4000
Gyakoriság

Gyakoriság
3000 3000

2000 2000

1000 1000

0 0

0 2 4 6 8 10 0 2 4 6 8 10

Átlag Átlag
(c) (d)
5000 5000

4000 4000
Gyakoriság

Gyakoriság
3000 3000

2000 2000

1000 1000

0 0

0 2 4 6 8 10 0 2 4 6 8 10

Átlag Átlag

5.8. ábra. Jobbra ferde eloszlásból generált egyelemű (a), tízelemű (b), 50 elemű (c) és
200 elemű (d) minták átlagainak hisztogramjai. Figyeljük meg, hogy a mintaelemszám
növelésével a mintaátlag eloszlása egyre kevésbé ferde, a szórása pedig egyre kisebb!
(A hisztogramok mind a négy esetben 10000 véletlen mintából készültek.)

5.1.5. Becslés pontossága


Egy pontbecslés hibáján a becslés (ŵ) és a becsülendő paraméter
(w) közötti eltérést, azaz (ŵ − w)-t értjük. Bár ugyanilyen természe-
tes lenne a relatív hiba, (ŵ − w)/w is, a továbbiakban csak az előbbivel
foglalkozunk.

5.3. példa. Elsőéves hallgatók testmagassága – pontbecslés hibája


Az elsőéves egyetemista férfiak testmagassága példában a testmagasság populációs át-
laga 178 cm, a mintaátlag pedig 178.03 cm, így ebben az esetben:
A pontbecslés hibája: 178.03 − 178 = 0.03 cm.
A relatív hiba: (178.03 − 178)/178 = 0.0002 = 0.02%. Ekkora mintából tehát a
testmagasság populációs átlaga már nagyon pontosan becsülhető. Általában ennél lé-
nyegesen kisebb pontosság – azaz kisebb mintaelemszám – is elegendő lenne. (Az adott
pontossághoz szükséges mintaelemszám meghatározásáról ld. az 5.6. fejezetet.)
5.1. Alapfogalmak 133

Ugyanúgy, mint a becslés maga, a hiba is valószínűségi változó, min-


táról mintára változik, ezért a becslés pontosságát a hiba eloszlásával, il-
letve annak valamely jellemzőjével (átlag, szórás stb.) számszerűsíthetjük.
A klasszikus mutató az átlagos négyzetes eltérés (mean squared error,
M SE) vagy annak négyzetgyöke (root mean squared error, RM SE).:

M SE = E[(ŵ − w)2 ] , RM SE = M SE,

ahol az E(X) az X változó várható értékét, azaz átlagértékét jelöli. Az átla-


gos négyzetes eltérésre gondolhatunk úgy, hogy az összes lehetséges mintára
kiszámoljuk a becslést, vesszük a valódi értéktől való eltérésének négyzetét,
(ŵ − w)2 -t, majd e négyzetes eltérésekből átlagot számolunk: ez az M SE.
Minél kisebb az átlagos négyzetes eltérés, annál pontosabb a becslés. A
legpontosabb akkor, ha M SE = 0, ez azt jelenti, hogy a becslés hibája 1
valószínűséggel 0, vagyis a becslés 1 valószínűséggel (azaz véges populációra
biztosan) megegyezik a becsülendő értékkel. A legjobbnak azt a pontbecs-
lést tekinthetjük, amelyiknek az összes lehetséges becslés között legkisebb a
M SE-je (ha egyáltalán létezik ilyen).
Újabban az M SE helyett előszeretettel használják az átlagos abszolút eltérést (me-
an absolute deviation, M AD), amelyet a leíró statisztikák között már említettünk (112.
oldal). A pontosság ezzel kifejezve:

M AD = E(|ŵ − w|).

A pontosság M SE-vel és M AD-dal való számszerűsítése két különböző nézőpontot


tükröz. Ha ugyanarra a paraméterre két becslésünk van, előfordulhat, hogy M SE-vel
mérve egyik a pontosabb, M AD-dal mérve pedig a másik.

Egy becslés pontossága valójában két, egymástól logikailag független té-


nyező eredője. Egyik a véletlen hiba vagy véletlen ingadozás (random er-
ror), a másik a tendenciózus hiba vagy torzítás (bias). Akkor a legjobb a
becslés, ha mindkettő kicsi. Az 5.9. ábra a lehetséges variációkat szemlélteti.
A becslés véletlen hibájának klasszikus mértéke a becslés standard hibá-
ja, torzítását pedig a becslés várható értékének a becsülendő paramétertől
való eltérésével mérjük:
q q
SE(ŵ) = var(ŵ) = E[ŵ − E(w)]2 ,

bias(ŵ) = E(ŵ − w) = E(ŵ) − w.


Egyszerű algebrai átalakítással belátható, hogy az átlagos négyzetes eltérés előáll a
standard hiba és a torzítás négyzetösszegeként:

E[(ŵ − w)2 ] = E([ŵ − E(ŵ)]2 ) + (E(ŵ) − w)2 = SE 2 (ŵ) + bias2 (ŵ).


134 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)

(c) (d)

5.9. ábra. Pontosság, szórás és torzítás, becslés helyett lövésekkel szemléltetve. A


becsülendő paraméternek (a valódi értéknek) a céltábla középpontja felel meg. Egy
becslés lehet kis szórású és torzítatlan (a), torzítatlan, de nagy szórású (b), kis szórású,
de torzított (c), nagy szórású és torzított (d). Pontosnak csak az elsőt nevezhetjük, de
a pontatlanokról is jó tudni, hogy melyik típusba tartoznak

Korábban azt mondtuk (124. oldal), hogy a becslés pontosságát a standard hibájával
szokás jellemezni. Figyeljük meg, hogy ha a torzítás 0, akkor M SE = SE 2 , illetve
RM SE = SE, azaz ilyenkor a standard hiba valóban jól jellemzi a pontosságot!

Az angolban a pontosságra két szót használnak: míg az accuracy a be-


csülendő paramétertől (a valódi értéktől) való eltérésre utal (ezt méri az
M SE, RM SE), addig a precision a véletlen hibára (ezt méri a var, SE).
A magyarban legjobb, ha mindig megmondjuk, hogy melyik mutatóval mér-
hető pontosságra gondolunk. Ettől eltekintve a terminológia angolul nem
egységes (repeatability = ismételhetőség, reliability = megbízhatóság stb.),
ezért a félreértések elkerülése végett angol nyelvű közleményben is érdemes
egyértelműen körülírni, hogy miről beszélünk.
Mind az átlagos négyzetes eltérésben, mind a torzításban szerepel az
ismeretlen becsülendő mennyiség, w is, ezért ezek mintából való becsléséhez
(hiszen csak egy mintánk van) néha nagy ravaszságra van szükség.
Ha egy becslést úgy módosítunk, hogy csökkenjen a torzítása, előfordul-
hat, hogy megnő a standard hibája, és e két változás eredőjeként az átlagos
négyzetes eltérés nőhet is, csökkenhet is. Mindig a konkrét körülmények fi-
5.2. Pontbecslések jósága 135

gyelembevételével kell eldönteni, hogy mi a fontosabb, a torzítatlanság, a


lehetőleg minél kisebb standard hiba, vagy a lehetőleg minél kisebb átlagos
négyzetes eltérés.
Intervallumbecslés pontossága alatt az intervallum hosszának és a kon-
fidencia-szintnek az együttesét értjük. Mivel az intervallum hossza is való-
színűségi változó (a végpontjait véletlen mintából számoljuk), az interval-
lum hosszát az összhosszal vagy az átlagos hosszal szokás jellemezni. (Kép-
zelhetjük úgy, hogy az összes lehetséges mintára elkészítjük a konfidencia-
intervallumot, mindegyiknek megmérjük a hosszát, és ezeknek a hosszaknak
az összegét vagy átlagát vesszük.)
Tovább bonyolítja a dolgot, hogy nem mindig sikerül egzakt intervallumot készíteni,
így egy 95%-osnak szánt intervallum szintje lehet a névlegesnél nagyobb vagy kisebb is,
ráadásul a tényleges szint függhet a becsülendő paraméter értékétől is. A szokásos hoz-
záállás ilyenkor az, hogy a „legrosszabb esetet” vesszük figyelembe, azaz a paraméternek
azt az értékét, amelyre a tényleges szint minimális. Ezt a szintet az intervallum minimá-
lis lefedési valószínűségének nevezzük (minimum coverage probability). Egy korrekt vagy
érvényes (valid) 95%-os intervallumnál (egyesek már ezt is egzaktnak nevezik, de mi szí-
vesebben használjuk az egzakt kifejezést arra az esetre, amikor a tényleges szint mindig
megegyezik a nominálissal), a minimális lefedési valószínűség 95%. A jó intervallum olyan,
hogy a tényleges szint mindig eléri a nominálist, de lehetőleg nem nagyon megy túl rajta.

5.2. Pontbecslések jósága


A fejezet elején felmerült az a kérdés, hogy a populációs átlag becslésére
miért éppen a mintaátlagot használjuk, milyen értelemben „jó” ez a becs-
lés. Vagy mikor érdemes inkább a csonkított (trimmelt) átlagot használni,
milyen feltételek mellett lesz ez „jobb”, mint a szokásos átlag? Láttuk azt
is, hogy a variancia becslésének két változata is van, a korrigálatlan és a
korrigált. Milyen kritériumok alapján mondhatjuk, hogy a korrigált jobb?
Egyáltalán hogyan vették észre, hogy a másik korrekcióra szorul?
Hogy ezzel egyáltalán foglalkozni tudjunk, tisztáznunk kell, hogy mit
értünk egy becslés „jóságán”. Ne reménykedjünk, hogy ezt egyértelműen
meg tudjuk fogalmazni, sokféle kritérium létezik, és ki ezt, ki amazt tartja
fontosabbnak. A választás többek között attól is függ, hogy milyen konkrét
alkalmazásról van szó, mekkora mintánk van, mit tudunk a vizsgált változó
eloszlásáról stb. Lássunk kettőt a legelterjedtebb kritériumok közül!

5.2.1. Torzítatlanság
Intuitíve egy becsléstől elvárjuk, hogy értéke a becsülendő paraméter közelé-
ben legyen, ne „lőjön mellé”, azaz ha a becslést az összes lehetséges véletlen
136 Reiczigel – Harnos – Solymosi: Biostatisztika

mintából kiszámítjuk, a kapott értékek a becsülendő paraméter körül sű-


rűsödjenek. Ha a becslések tendenciózusan a becsülendő paraméter alatt
vagy fölötte halmozódnak, akkor azt mondjuk, hogy a becslés torzított (vö.
a torzításról korábban írottakkal, 133. oldal, illetve 5.9. ábra).
Ezt az intuitív követelményt többféleképpen is pontosíthatjuk, a szoká-
sos pontosítás az, hogy az „ott halmozódás”-t úgy értjük, hogy a becslés
várható értéke (szemléletesen: az összes lehetséges mintából számolt becs-
lések átlaga) épp a becsülendő paramétert adja. (Pontosíthatnánk például
úgy is, hogy a becslések mediánja adja épp a becsülendő paramétert – ez
is működik, medián-torzítatlanságnak nevezik, de mi maradunk a klasszikus
fogalomnál.)
Egy becslést torzítatlannak (unbiased) nevezünk, ha a torzítása
0, azaz ha várható értéke a becsülendő paraméter. Formálisan: ŵ
torzítatlan becslése a w paraméternek, ha bias(ŵ) = E(ŵ) − w = 0, azaz ha
E(ŵ) = w. Ezzel összhangban, egy becslés torzított (biased), ha várha-
tó értéke eltér a becsülendő paramétertől. A becslés felfelé, illetve
lefelé torzított, ha várható értéke nagyobb, illetve kisebb, mint a
becsülendő populációs paraméter.

5.4. példa. Torzítatlan és torzított becslések


Az egyszerűség kedvéért nézzünk egy hat értékből (1, 2, 3, 4, 5, 6) álló populációt, és
a belőle vett összes lehetséges – összesen 63 = 20 darab – 3 elemű mintát! Az alábbi

táblázat minden sora egy-egy mintát, illetve annak minimumát, maximumát és átlagát
tartalmazza. A táblázat végén a mintákból számolt minimumok, maximumok és átlagok
átlagát is megadjuk. Ezeket összehasonlítva a populáció minimumával, maximumával és
átlagával kiderül, hogy a szóban forgó becslések torzítatlanok-e. A populációs minimum
1, a maximum 6, az átlag pedig 3.5.

minta min max átlag


2, 3, 4 2 4 3.00
2, 3, 5 2 5 3.33
2, 3, 6 2 6 3.67
2, 4, 5 2 5 3.67
2, 4, 6 2 6 4.00
2, 5, 6 2 6 4.33
3, 4, 5 3 5 4.00
3, 4, 6 3 6 4.33
3, 5, 6 3 6 4.67
4, 5, 6 4 6 5.00
átlag 1.75 5.25 3.50
5.2. Pontbecslések jósága 137

A minta minimuma felfelé, maximuma pedig lefelé torzított becslése a populációbeli


minimumnak, illetve maximumnak. Ez azt jelenti, hogy a mintaminimum tendenció-
zusan felülbecsüli, a maximum pedig alábecsüli a megfelelő populációbeli jellemzőt. A
minimum torzítása 1.75 − 1 = 0.75, a maximumé pedig 5.25 − 6 = −0.75. A minimum
és maximum torzítottsága általánosságban is nyilvánvaló, hiszen sok olyan minta van,
amelynek minimuma határozottan nagyobb a populációs minimumnál, olyan viszont
nincsen, amelynek kisebb lenne, és hasonló állítás igaz a maximumra is.
A mintaátlag torzítatlan becslése a populációátlagnak, azaz E(X̄) = E(X) = 3.5. Ez
is mindig így van, nemcsak ebben a példában, amint azt az alábbi számolás bizonyítja:

X1 + X2 + . . . + Xn
 
E(X̄) = E
n
E(X) + E(X) + . . . + E(X) nE(X)
= = = E(X).
n n

Előfordulhat, hogy egy paraméterre nem tudunk torzítatlan becslést ad-


ni, de olyat igen, amelynek torzítása a mintanagyság növekedésével egyre
kisebb lesz, és nagy mintákra már jelentéktelenné válik, sőt a mintaelem-
szám növelésével tetszőlegesen kicsivé tehető.
Egy becslés aszimptotikusan torzítatlan (asymptotically unbiased),
ha torzítása a mintanagyság növelésével tetszőlegesen kicsivé vá-
lik, azaz 0-hoz tart, ha a mintanagyság végtelenhez tart.
Formálisan: ŵn = ŵ(x1 , x2 , . . . , xn ) aszimptotikusan torzítatlan becslése
w-nek, ha

n → ∞ ⇒ bias(ŵn ) → 0, vagy másképpen, n → ∞ ⇒ E(ŵn ) → w.

A statisztikában egy tulajdonságra általában is akkor mondjuk, hogy


„aszimptotikus”, ha nagyon nagy mintákra (pontosabban, ha n → ∞) tel-
jesül.
Mind a minta maximuma, mind pedig minimuma aszimptotikusan torzí-
tatlan becslések: ha a mintaelemszámot növeljük, a torzítás egyre csökken,
sőt az is bizonyítható, hogy ha a mintaelemszám végtelenhez tart, akkor a
torzítás tetszőlegesen kicsivé válik, nullához tart. Ezt illusztrálja a 5.10. áb-
ra. A variancia korrigálatlan becslése is aszimptotikusan torzítatlan (5.11.
ábra). (Az állítások matematikai bizonyításait elhagyjuk.) A variancia kor-
rigálatlan és korrigált becslésének a viszonya azért érdekes, mert a korrigált
becslés torzítatlan ugyan, de ennek nagyobb standard hibával fizeti meg az
árát, olyannyira, hogy még az átlagos négyzetes eltérése is nagyobb, mint
a korrigálatlannak. Ennek ellenére a gyakorlatban mégis a korrigált varian-
ciabecslés használata terjedt el.
138 Reiczigel – Harnos – Solymosi: Biostatisztika

● ● ● ● ●
● ● ● ● ● ●

195 ●
● ●
● ● ●



● ● ●

Minta maximuma


● ● ●
● ● ●
● ● ●
● ●
● ● ● ●
● ● ●
190 ●
● ●

● ●




● ●
● ●
● ●
● ●


● ● ●
● ●

● ●

185 ●

● ●


180

10 20 40 80 160 320 640

Minta mérete

5.10. ábra. A testmagasság maximuma az egyetemista populációból vett különböző


méretű véletlen mintákban (minden mintamérethez 20-20 véletlen minta maximumát
ábrázoltuk). A populáció maximuma 197 cm (vízszintes vonal). Látható, hogy a maxi-
mum nagy mintákra is lefelé torzít, de minél nagyobb a minta, annál kisebb a torzítás


● ●
Minta korrigálatlan varianciája

60 ●


50 ●

● ● ●

● ● ●
● ●
● ● ●
40 ●
● ●








● ●


● ● ● ●
● ●
● ● ● ● ●
● ●

● ●
● ● ●
● ●

● ● ●
● ● ●
● ●

● ● ● ● ●
● ●
30 ●





● ●

● ● ●
● ●



20 ●



10 20 40 80 160 320 640

Minta mérete

5.11. ábra. A minta korrigálatlan varianciája is lefelé torzított becslése a populációs


varianciának, de torzítása sokkal kisebb, mint a maximumé, alig észrevehető. A po-
pulációs variancia 35.6 (vízszintes vonal). Itt is minden mintamérethez 20-20 véletlen
minta varianciáját ábrázoltuk
5.3. Eljárások pontbecslések készítésére 139

5.2.2. Konzisztencia
A becslésektől általában azt is elvárjuk, hogy a mintanagyság növelésével
pontosságuk javuljon, azaz a becslés a becsülendő paraméterhez egyre köze-
lebb kerüljön. Még az is ésszerű elvárás, hogy a mintanagyság növelésével a
becslés bármely előírt pontosságot elérhessen. Ezt fogalmazhatjuk például
úgy, hogy a becslés átlagos négyzetes eltérése 0-hoz tartson, ha a minta-
nagyság végtelenhez tart. Az M SE 2 = SE 2 + bias2 összefüggés miatt ezzel
ekvivalens megfogalmazás, hogy a becslés legyen aszimptotikusan torzítat-
lan, és standard hibája is 0-hoz tartson.
Egy másik lehetséges megfogalmazás a konzisztencia, amely azt követeli
meg, hogy a mintanagyság növelésével a becslés és a becsülendő paramé-
ter közötti „nagy” eltérések előfordulásának valószínűsége 0-hoz tartson.
„Nagy” eltérésen itt egy ε küszöbértéket meghaladó eltérést értünk, amely
küszöböt természetesen tetszőlegesen megválaszthatunk. A w paraméter-
nek ŵn = ŵ(x1 , x2 , . . . , xn ) konzisztens becslése, ha bármely tetsző-
leges ε > 0 küszöbérték mellett

n→∞ ⇒ P (|ŵn − w| ≥ ε) → 0.

Bizonyítható, hogy minden olyan aszimptotikusan torzítatlan becslés,


amelynek standard hibája 0-hoz tart, amikor a mintaelemszám végtelenhez
tart, konzisztens.
A konzisztencia amolyan minimálkövetelmény egy becsléssel szemben.
Ha ezt sem teljesíti, nem tekintjük jó becslésnek.

5.3. Eljárások pontbecslések készítésére


A sok közül csak két becslési módszert ismertetünk. Később majd még
eggyel, a legkisebb négyzetes becsléssel fogunk találkozni a regressziószá-
mításnál.

5.3.1. Behelyettesítéses becslés (plug-in estimate)


A legegyszerűbb becslési elv. Lényege, hogy pontosan ugyanazt számoljuk
a mintából, amit a populációból számolnánk, ha az egész populáció ada-
tai a kezünkben lennének. Mondhatni, úgy teszünk, mintha azt hinnénk,
nem csupán egy minta, hanem az egész populáció van előttünk. Nagyon
sok szokásos becslés ilyen, például a populációátlagnak a mintaátlaggal, a
populációs maximumnak a mintamaximummal, a valószínűségnek a rela-
tív gyakorisággal való becslése, de nem ilyen a populációs varianciának a
140 Reiczigel – Harnos – Solymosi: Biostatisztika

korrigált tapasztalati varianciával való becslése (mert az egyikben n-nel, a


másikban (n − 1)-gyel osztunk, a képleteket lásd a 110. és a 111. oldalon).
A behelyettesítéses (plug-in) becslések egyszerűségük ellenére általában
nem rosszak, de azért sokszor lehet rajtuk javítani. Intuitíve az is világos,
hogy a plug-in becslés konzisztens, azaz a mintaelemszám növelésével egyre
közelebb kerül a becsülendő paraméterhez.

5.3.2. Maximum likelihood (ML) becslés


A statisztikusok legkedveltebb becslési elve, főként aszimptotikus jó tulaj-
donságai miatt. Lényege az, hogy a becsülendő populációs jellemzőnek azt az
értékét választjuk becslésnek, amely mellett a ténylegesen megfigyelt minta
a legvalószínűbb. Ebből következik, hogy csak olyan problémáknál használ-
ható, amikor a becsülendő jellemző minden egyes értéke mellett ki tudjuk
számítani a megfigyelt minta valószínűségét, azaz a ML becslés csak pa-
raméteres problémák esetén alkalmazható (vö. 6.3.4. fejezet). Az elvre egy
példát már láttunk a 3.6. fejezetben.
Formálisan, ha a becsülendő paramétert w, a megfigyelt mintát x1 , . . . , xn jelöli, ak-
kor a ML becslés az L(w) = Pw (x1 , . . . , xn ) függvény maximumának megkeresését jelenti.
Gyakran L(w) helyett a logaritmusát, l(w) = ln(L(w))-t használják, amely – a logaritmus-
függvény monotonitása miatt – ugyanarra a w-re éri el maximumát, amelyikre az L(w).
Az L(w)-t likelihood függvénynek, a l(w)-t log-likelihood függvénynek nevezik. A ML becs-
lést a statisztikusok azért szeretik annyira, mert elég általános feltételek mellett (bár
nem mindig, de nagyon sok, a gyakorlat számára fontos esetben) aszimptotikusan torzí-
tatlan, aszimptotikusan normális és aszimptotikusan minimális standard hibájú becslést
szolgáltat.

5.5. példa. Fészekodúk – ML becslés


Madárvédelmi program keretében 600 mesterséges fészekodút helyeztek ki. Később sze-
rették volna megbecsülni, mekkora hányadukba költöztek be madarak (jelöljük ezt az
ismeretlen hányadot h-val). Ezért 30 odút megvizsgáltak, amelyek közül 18-at találtak
lakottnak. A keresett hányad ML becslése a fentiek szerint az a h érték lesz, amely
mellett a megfigyelt „30-as mintából 18” a legvalószínűbb.

Oldjuk meg a feladatot próbálgatással (vannak hatékonyabb módszerek is, de azokat a


Kedves Olvasónak nem feltétlenül kell ismernie, elég, ha a statisztikai programok tud-
ják)! Nézzük meg tehát, hogy egyes h értékekre mekkora a valószínűsége, hogy a 30
megvizsgált odúból éppen 18 lesz lakott! Az alábbi táblázatban látható valószínűsége-
ket az n = 30, p = h paraméterű binomiális eloszlásból számoltuk, az ismeretlen h-t –
azért, hogy a táblázat ne legyen túl terjedelmes – csak 0.05-ös lépésenként változtatva
0 és 1 között. (Jegyezzük meg, hogy mivel az odúk mintavételezésére minden bizonnyal
a visszatevés nélküli mintavételt használták, valójában a hipergeometrikus eloszlással
kellene dolgoznunk, de közelítésként a binomiális is megteszi!)
5.3. Eljárások pontbecslések készítésére 141

A számításokat az R-rel végeztük, a

dbinom(18, size = 30, prob = seq(0, 1, 0.05))

paranccsal. (A seq() függvényt a 0, 0.05, . . . , 0.95, 1 számtani sorozat előállítására


használtuk, a részleteket lásd az R súgójában.)

h p(k = 18) h p(k = 18)


0.0 0 0.55 0.1265
0.05 1.78e-16 0.6 0.1474
0.1 2.44e-11 0.65 0.1254
0.15 1.82e-08 0.7 0.0749
0.2 1.56e-06 0.75 0.0291
0.25 3.99e-05 0.8 0.0064
0.3 0.0005 0.85 0.0006
0.35 0.0031 0.9 1.30e-05
0.4 0.0129 0.95 8.39e-09
0.45 0.0379 1.0 0
0.5 0.0806

A táblázatból azt lehet kiolvasni, hogy a megfigyelt „30-ból 18” esemény h = 0.6
mellett a legvalószínűbb, tehát az ismeretlen beköltözési hányad ML becslése ĥ = 0.6.
Jegyezzük meg, hogy ebben a példában a plug-in becslés is ugyanezt az eredményt
adta volna (de nem is mondtuk, hogy a különböző becslési elvek mindig különböző
eredményre vezetnek)!
Kérdés persze, hogy a 30-as mintaelemszám milyen pontosságú becslést tesz lehetővé,
de ez most a példa szempontjából nem fontos. Adott pontosság eléréséhez szükséges
mintaelemszám meghatározásával később még foglalkozunk (lásd az 5.6. fejezetben).

Aki tud számolni a binomiális eloszlással, tudja, hogy ha feltesszük, hogy az elfog-
lalt odúk száma n = 30, p = h paraméterű binomiális eloszlást követ, akkor annak a
valószínűsége, hogy éppen 18 elfoglalt odút találunk:
 
30 18
L(h) = h (1 − h)12 .
18

Ez az úgynevezett likelihood-függvény, amely a megfigyelt minta valószínűségét adja a


feltételezett h paraméter függvényében. Ezt kell tehát maximalizálni, hogy megkapjuk a
paraméter ML becslését, azaz deriválni kell h szerint, a deriváltat 0-val egyenlővé tenni,
az egyenletet megoldani stb.
142 Reiczigel – Harnos – Solymosi: Biostatisztika

5.4. Eljárások konfidencia-intervallumok


szerkesztésére
A leggyakrabban használt klasszikus konfidencia-intervallumok képletét az
A függelékben gyűjtöttük össze. Bár a számítógépes programok elterjedése
óta ezeket a képleteket az átlag felhasználó már nem használja – inkább csak
történeti és didaktikai szempontból érdekesek – mégsem akartuk kihagyni
őket, mert sok bevezető statisztika kurzus anyagában szerepelnek. Ezek a
konfidencia-intervallumok mind ugyanazon az általános elven alapulnak: ke-
resünk egy, a becsülendő w paramétertől és az x1 , x2 , . . . , xn mintától függő
olyan
f (w, x1 , x2 , . . . , xn )

mennyiséget, amelynek eloszlását valószínűségszámítási eszközökkel meg


tudjuk határozni (az is lehet, hogy csak közelítőleg, esetleg csak számítógé-
pes szimulációval). Ennek az eloszlásnak vesszük a k1 , k2 kritikus értékeit
(vö. 3.5.4. fejezet) úgy, hogy

P (k1 ≤ f (w, x1 , x2 , . . . , xn ) ≤ k2 ) = 1 − α

teljesüljön (a kritikus értékeket választhatjuk akár szimmetrikusan, akár


csak az egyik oldalon), majd a zárójelben álló mindkét egyenlőtlenségből
kifejezzük w-t, és máris egy w-re vonatkozó (1 − α) szintű konfidencia-
intervallumot kapunk:

P (. . . ≤ w ≤ . . .) = 1 − α.

Ha az f (w, x1 , x2 , . . . , xn ) eloszlását csak aszimptotikusan vagy közelítő-


leg tudjuk meghatározni, akkor a konfidencia-intervallum is csak közelítőleg
lesz (1 − α) szintű.

5.6. példa. Konfidencia-intervallum a populációátlagra normális eloszlás esetén


A valószínűségszámításból tudjuk, hogy ha az x̄ egy µ átlagú (várható értékű) és σ
szórású normális eloszlásból vett n elemű minta átlaga, akkor σ/ √ eloszlása standard
x̄−µ
n
normális (vö. 2.4.3. fejezet). Tudjuk azt is, hogy egy standard normális eloszlású vál-
tozó értékei 95% valószínűséggel −1.96 és 1.96 közé esnek (vö. 81. oldal). Tehát 95%
valószínűséggel
x̄ − µ
−1.96 ≤ σ ≤ 1.96

n

teljesül.
5.4. Eljárások konfidencia-intervallumok szerkesztésére 143

Ebből algebrai átalakításokkal a következőket kapjuk:

σ σ
−1.96 √ ≤ x̄ − µ ≤ 1.96 √ ,
n n
σ σ
x̄ − 1.96 √ ≤ µ ≤ x̄ + 1.96 √ ,
n n

és ezzel kész a 95%-os konfidencia-intervallum µ-re feltéve, hogy a változó szórását,


σ-t valahonnan ismerjük.
Ha nem 95%-os, hanem 90%-os konfidencia-intervallumot akarunk, akkor az 1.96 he-
lyett az 1.645 konstanssal dolgozzunk (mert egy standard normális eloszlású változó
értéke 90% valószínűséggel −1.645 és 1.645 közé esik). Más valószínűségekhez tartozó
konstansokat, az úgynevezett kritikus értékeket a standard normális eloszlás tábláza-
tának segítségével találhatunk (81. oldal). Az R-ben erre a célra a qnorm() függvényt
használhatjuk. Kétoldali intervallum és (1 − α) megbízhatósági szint esetén a qnorm()
függvény argumentuma (1 − α/2) kell, hogy legyen. Például 99%-hoz qnorm(0.995),
azaz 2.576 tartozik (vö. 3.10. példa).

Pivotnak nevezzük a becsülendő paraméternek és a mintának


egy olyan
f (w, x1 , x2 , . . . , xn )
függvényét, amelynek eloszlása nem függ a paramétertől.
Az f (w, x1 , x2 , . . . , xn )-t aszimptotikus pivotnak nevezzük akkor, ha el-
oszlása csak nagy mintákra (pontosabban, ha n → ∞) független a para-
métertől. Egyes esetekben az is előfordulhat, hogy csak „közelítő pivot”-ot
sikerül találnunk, amelynek eloszlása csak kevéssé függ a paramétertől, de
a semminél jobb az is, közelítőleg érvényes konfidencia-intervallumot kap-
hatunk belőle. Példák:
x̄−µ
√ statisztika pivot, mert eloszlása a µ para-
1. Az előző példabeli σ/ n
méter értékétől függetlenül mindig standard normális, ezért tudtunk
segítségével konfidencia-intervallumot készíteni a µ-re.
2. Ha a vizsgált változóról nem tesszük fel a normalitást, akkor a fenti
mennyiség aszimptotikus pivot, mert aszimptotikus eloszlása standard
normális (ez azt jelenti, hogy a mintaelemszám növelésével eloszlása
egyre jobban megközelíti a standard normálist, ezért nagy mintákra
már standard normálisnak tekinthető).
3. Bizonyítható, hogy ha a statisztikát úgy módosítjuk, hogy a σ helyére
x̄−µ
a mintából becsült szórást, s-t írjuk, az így kapott s/ √ szintén pivot
n
lesz, eloszlása (n − 1) szabadsági fokú Student-féle t-eloszlás. Ezzel
tudunk konfidencia-intervallumot szerkeszteni µ-re, ha a σ-t nem is-
144 Reiczigel – Harnos – Solymosi: Biostatisztika

merjük. A t-eloszlás kritikus értékeit a t-táblázatból olvashatjuk ki,


vagy R-ben a qt() függvénnyel számolhatjuk (vö. 81. oldal).
4. Legyen s2 a korrigált tapasztalati variancia egy n elemű mintából egy
µ várható értékű és σ szórású normális eloszlású változóra. Bizonyít-
2
ható, hogy az (n−1)s
σ2
statisztika pivot a σ 2 paraméterre, eloszlása
(n − 1) szabadsági fokú khi-négyzet eloszlás. A kritikus értékeket a
khi-négyzet táblázat vagy R-ben a qchisq() függvény segítségével
határozhatjuk meg. Ezzel szerkeszthetünk konfidencia-intervallumot
a varianciára (lásd az A függelékben).
Könnyen találunk pivotot, ha a becsülendő w paraméterre van egy tor-
zítatlan, normális eloszlású ŵ pontbecslésünk, amelynek még a standard
hibáját is ismerjük, vagy ki tudjuk számolni. Ekkor ugyanis a

ŵ − w
SE(ŵ)

statisztika eloszlása standard normális. Ez a helyzet például, amikor nor-


mális eloszlású változó átlagát (várható értékét) becsüljük a mintaátlaggal
(fenti 1. és 2. példa), vagy két ilyen átlag különbségét a mintaátlagok kü-
lönbségével.
A konfidencia-intervallumot ekkor a

ŵ ± zkrit · SE(ŵ)

képlettel számolhatjuk, ahol zkrit a normális eloszlás kívánt megbízhatósá-


gi szinthez tartozó kritikus értéke. A leggyakoribb a 95%-os intervallum:
ŵ ± 1.96 · SE(ŵ). A bizonyítás ugyanúgy megy, mint az átlagra (142. ol-
dal).
Ha az SE-t ugyanabból a mintából becsüljük, amelyikből a ŵ-t kaptuk,
akkor a zkrit helyett a Student-féle t-eloszlás megfelelő kritikus értékét kell
használni. (Ezt higgyük el bizonyítás nélkül!) A t-eloszlás szabadsági foka
a mintanagyság mínusz az SE becsléséhez felhasznált, ugyanabból a min-
tából becsült paraméterek száma. Az átlag standard hibájának becsléséhez
egyetlen, a mintából becsült paramétert használunk fel, a mintaátlagot, ez
esetben tehát a szabadsági fok (n − 1).
Aszimptotikusan, illetve közelítő érvénnyel akkor is szokták használni ezt
a képletet, ha
• a pontbecslés csak aszimptotikusan torzítatlan,
• csak aszimptotikusan vagy csak közelítőleg normális eloszlású,
• az SE-re csak közelítő becslést ismerünk.
5.5. Több paraméter szimultán becslése 145

Tipikus eset, amikor binomiális vagy Poisson-eloszlású változókkal dolgo-


zunk, és eloszlásukat normálissal közelítjük, vagy amikor nagy minta esetén
a mintaátlag eloszlását normálisnak tekintjük akkor is, ha a vizsgált változó
nem normális eloszlású.
Konfidencia-intervallumot teszt-inverzióval is lehet készíteni, ha a becsül-
ni kívánt paraméterre van egy statisztikai próbánk (lásd a 6.3.2. fejezetben).

5.5. Több paraméter szimultán becslése


Gyakori eset, hogy ugyanabból a mintából több ismeretlen paramétert kell
megbecsülnünk, legtöbbször az átlagot és a szórást, vagy – ha boxplotot
készítünk – a mediánt és a két kvartilist, vagy egy klinikai kísérletben a
klinikai tüneteket mutatók mellett a szeropozitívak arányát is, és még foly-
tathatnánk a sort. Ilyen esetekben előfordulhat, hogy két paraméterre adott
becslés nem független egymástól: ha – legalábbis képzeletben – sokszor is-
mételjük a mintavételt, például azt tapasztaljuk, hogy az olyan mintáknak,
amelyeknek nagy a mediánja, általában a felső kvartilise is nagy lesz. Ha-
sonló a helyzet a klinikai tüneteket mutatók és a szeropozitívak mintabeli
arányával is. Általánosan úgy fogalmazhatunk, hogy ugyanabból a min-
tából készült két becslés nem független, ha az egyik becslés is-
merete információt szolgáltat a másikra nézve. Konkrétan: másképp
fogadnánk arra, hogy mekkora lesz ugyanabból a mintából a felső kvarti-
lis becslése, amikor a medián becslése 175 cm, mint amikor 180 cm (5.12.
ábra).
Ha több paraméterre adunk pontbecslést, a pontosság jellemzéséhez azt
is tudni kell, hogy a becslések között mennyire erős az összefüggés, amit
legegyszerűbben a becslések közötti korrelációval mérhetünk. Ezért több
paraméternek ugyanabból a mintából való becslésekor az egyes
becslések standard hibája mellett a páronkénti korrelációjukat is
meg szokás adni.
Ne felejtsük el, hogy abból, hogy a két becslés közötti korreláció 0, általánosságban
nem következik a becslések függetlensége! Viszont ha a becslések normális eloszlásúak,
akkor igen, és mivel sok becslés nagy mintára közelítőleg normális eloszlást követ (példá-
ul a maximum likelihood becslések ilyenek), ezeknél a korrelálatlanság nagy mintára jó
közelítéssel megfelel a függetlenségnek.
A regressziószámításban (9. fejezet) tipikus, hogy egy mintából több paramétert be-
csülünk. Mivel a becslések általában nem függetlenek, de a szokásos feltételek mellett
(lásd ott) normális eloszlást követnek, ha nemcsak a szórásukat, hanem a páronkénti kor-
relációikat is megadjuk, akkor már nagyjából mindent tudunk róluk. Más – bonyolultabb
146 Reiczigel – Harnos – Solymosi: Biostatisztika

5.12. ábra. Az egyetemista populációból vett 20 elemű mintákban a testmagasság


(cm) mediánjának és felső kvartilisének szórásdiagramja. Az ábrán minden pont egy
véletlen mintát ábrázol, az x tengelyen a minta mediánjával, az y tengelyen pedig a
felső kvartilis értékével. Látható, hogy a két becslés nem független egymástól: az ábra
határozott pozitív összefüggést jelez közöttük

– modelleknél is ugyanez a helyzet: általában több paramétert becslünk ML módszerrel,


tehát a paraméterbecslések együttes eloszlása nagy mintákra közelítőleg normális, így a
becslés pontosságának jellemzéséhez, illetve konfidencia-tartományok konstrukciójához a
becslések szórása mellett korrelációikat is ismernünk kell.

Ha intervallumbecslést szeretnénk adni két paraméterre, akkor megtehet-


jük külön-külön is, de – éppen azért, mert a becslések nem biztos, hogy füg-
getlenek – okosabb, ha egy olyan kétdimenziós halmazt keresünk, amely az
ismeretlen paraméterpárt mondjuk 95% valószínűséggel tartalmazza. Több
paraméter becslésénél kereshetünk egy ugyanilyen tulajdonságú többdimen-
ziós halmazt. Ezeket konfidencia-tartománynak (confidence region, con-
fidence set) nevezzük. Egy példa erre, amikor egy normális eloszlású változó
várható értékére és varianciájára kell ugyanabból a mintából becslést ad-
nunk: ekkor készíthetünk egy kétdimenziós konfidencia-tartományt az 5.13.
ábra szerint.
Ha a szóban forgó paraméterbecslések együttes eloszlása normális – ez
a helyzet például a regressziószámításban –, akkor a konfidencia-tartomány
két dimenzióban ellipszis, több dimenzióban ellipszoid lesz.
5.6. A szükséges mintaelemszám meghatározása becsléshez 147

variancia

konfidencia-tartomány
minta- a (µ,σ 2 ) paraméterpárra
variancia (σ 2 )

mintaátlag (µ) átlag

5.13. ábra. Kétdimenziós konfidenciatartomány egy normális eloszlású változó várható


értékére (= átlagára) és varianciájára.

5.6. A szükséges mintaelemszám meghatározása


becsléshez
Becslési feladatoknál általában van elképzelésünk arról, hogy milyen pontos
becslésre van szükségünk. Minél pontosabban akarunk becsülni, annál na-
gyobb mintával kell dolgoznunk. Korábban említettük azonban (25. oldal),
hogy túl nagy mintával dolgozni pazarlás, és nem is etikus. Tehát a minta-
elemszámnak körülbelül akkorának kell lennie, amellyel már éppen elérjük a
kívánt pontosságot. Vagyis, amit röviden csak „mintaelemszám-becslésnek”
vagy „a szükséges mintaelemszám meghatározásának” nevezünk, az kifejtve
„a kívánt pontosság eléréséhez minimálisan szükséges mintaelem-
szám meghatározása”.
Pontbecslés pontosságát a standard hibájával mérjük, ezért pontbecs-
lésnél a kérdés úgy merül fel, hogy „mekkora mintával kell dolgoznunk,
hogy a becslés standard hibája . . . körüli legyen”. Intervallumbecslés pon-
tossága a konfidenciaszinttel és az intervallum hosszával jellemezhető, itt
tehát a tipikus kérdés: „mekkora mintával kell dolgoznunk, hogy a 95%-os
konfidencia-intervallum hosszúsága . . . körüli legyen”.
Az, hogy mekkora mintára van szükség, függ az alkalmazandó modell-
től és statisztikai módszertől (hatékonyabb eljárás kisebb mintával nyújtja
ugyanazt a pontosságot). Ezért kell már a vizsgálat előtt, a tervezéskor
azt is eldönteni, hogy milyen statisztikai eljárással fogjuk az adatokat kiér-
tékelni. Ha több elemzési módszer közül csak később – egyelőre ismeretlen
tényezők alapján – kívánunk választani, akkor a szükséges mintaelemszámot
mindegyikre meg kell határoznunk, és a legrosszabb esettel kell számolnunk,
148 Reiczigel – Harnos – Solymosi: Biostatisztika

azaz a legnagyobb mintaelemszámmal végezni a kísérletet. Sajnos a legtöbb


esetben a szükséges mintaelemszám függ a populáció más ismeretlen para-
métereitől is. Például a populációátlag becslésének standard hibája függ a
populációbeli szórástól is. Ha nem ismerjük a szórást, akkor vagy az iroda-
lomból, vagy szakértői véleményekből, vagy egy kis előkísérletből meg kell
becsülni, különben nem tudjuk elvégezni a számítást.
Mivel a mintaelemszám meghatározása függ a modelltől is és az alkal-
mazandó elemzési eljárástól is, több száz kötetnyi anyag foglalkozik ezzel.
Itt most csak az elveket szeretnénk illusztrálni két egyszerű példával, hogy
a Kedves Olvasó képet kapjon a módszer lényegéről. A gyakorlatban legcél-
szerűbb egy számítógépes program beszerzése (sok van, köztük ingyenesek
is), amely a szükséges adatok megadása után elvégzi a számításokat.

5.7. példa. Mintaelemszám meghatározása


Az átlagos alomtömeget szeretnénk becsülni egy sertéstenyésztő telepen. Számítsuk
ki, mekkora mintával kell dolgoznunk ahhoz, hogy a becslés standard hibája 0.2 kg
körüli legyen! Tegyük fel, hogy az átlagos alomtömeget a szokásos módon, egy n elemű
véletlen minta átlagával kívánjuk becsülni. Ismeretes, hogy a mintaátlag standard hibája

a populációbeli szórás osztva a mintaelemszám gyökével, azaz SE(x̄) = σ/ n. Azt
szeretnénk, hogy ez 0.2 kg körüli legyen, vagyis az n-et úgy szeretnénk megválasztani,
hogy
σ
√ ≈ 0.2
n
teljesüljön. Ebből n-et kifejezve azt kapjuk, hogy
σ 2
 
≈ n.
0.2
Látjuk, hogy a kívánt pontosság eléréséhez szükséges mintaelemszám attól függ, mek-
kora az alomtömeg szórása, erre tehát egy előzetes becslés kell, különben nem tudunk
mintaelemszámot számolni. Irodalmi adatok, korábbi eredmények általában jó alapot
adnak erre – ha kétségeink vannak, dolgozhatunk némi ráhagyással. Ha korábbi adatok
alapján az alomtömeg valószínűsíthető szórása 2.5 kg, akkor a fenti képlettel a szükséges
mintaelemszám 157-nek adódik.

5.8. példa. Mintaelemszám meghatározása – prevalencia-becsléséhez


95%-os konfidencia-intervallumot szeretnénk adni a magas vérnyomás prevalenciájára
(populációbeli előfordulási arányára). Számítsuk ki, mekkora minta szükséges ahhoz,
hogy az intervallum hossza 0.1 körüli legyen!
Tegyük fel, hogy a konfidencia-intervallumot a legegyszerűbb eljárással, a Wald-féle
módszerrel (lásd 403. oldal) tervezzük elkészíteni! Hangsúlyozzuk, hogy csak a számítás
egyszerűsége kedvéért választottuk ezt a bizonyítottan rossz módszert, a gyakorlatban
ne ezt használjuk! A 95%-os Wald-féle intervallum képlete:
5.6. A szükséges mintaelemszám meghatározása becsléshez 149

r r !
p̂(1 − p̂) p̂(1 − p̂)
p̂ − 1.96 · , p̂ + 1.96 · ,
n n
ahol p̂ a mintabeli arányt, n pedig a mintaelemszámot jelöli. Az intervallum hossza
a két végpont közötti különbség, azaz a gyök alatti kifejezés szorozva 3.92-vel. Azt
szeretnénk, hogy ez 0.1 körül legyen, azaz
r
p̂(1 − p̂)
3.92 ≈ 0.1.
n
Ha ebből n-et kifejezzük, a következőt kapjuk:
3.92 2
 
p̂(1 − p̂) ≈ n.
0.1
Látjuk, hogy a szükséges mintaelemszám függ az egyelőre ismeretlen p̂-tól is, ezért p̂-ra
egy előzetes becslést kell adnunk akár az irodalomból, akár korábbi tapasztalatainkból.
Ha például p̂ = 0.3 körüli értékre számítunk, akkor a szükséges mintaelemszám 323. Ha
ilyen becslést nem tudunk adni, akkor felkészülhetünk a mintaelemszám szempontjából
legrosszabb esetre, ami jelen esetben a p̂ = 0.5, ekkor a mintaelemszámra 385 adódik.

Mindig – legyen szó akár átlagértékről, akár populációbeli részarányról,


vagy bármi másról – ugyanígy, a szóban forgó statisztika standard hibá-
jának vagy az alkalmazni kívánt konfidencia-intervallumnak a képletéből
kiindulva, majd abból n-et kifejezve határozhatjuk meg a szükséges minta-
elemszámot. És számíthatunk rá, hogy mindig lesz olyan paraméter (néha
több is), amelyre előzetes becslést kell adni (mint a fentiekben a σ-ra vagy
a p̂-ra), mert tőlük is függ a becslés standard hibája vagy az intervallum
hossza.
6. Hipotézisvizsgálat
A statisztikai hipotézisvizsgálat – más néven próba, teszt vagy szignifikan-
ciavizsgálat (test, hypothesis test, statistical test, significance test) – az in-
duktív statisztika egyik legfontosabb feladata (vö. 27. oldal). Segítségével
eldöntendő kérdésekre keresünk „igen/nem” válaszokat. A leggyakoribb kér-
dések: „Különbözik-e. . . ?”, „Összefügg-e. . . ?”, „Hat-e. . . ?”.

6.1. példa. Tipikus kérdésfeltevések hipotézisvizsgálatnál


1. Különbözik-e a bika- és az üszőborjak átlagos születéskori testtömege?
2. Csökkenti-e egy bizonyos gyógyszer az asztmás rohamok gyakoriságát?
3. Van-e összefüggés a testtömeg-index (BMI) és az intelligenciahányados (IQ) között?
4. Különbözik-e egy faj ivararánya aszerint, hogy az élőhely táplálékban gazdag vagy
szegény?
5. Növeli-e a hízók súlygyarapodását az új takarmánykiegészítő szer?

Fontos észben tartani, hogy a kérdés mindig egy statisztikai populáció-


ra vonatkozik, de a választ sohasem a teljes populáció, hanem csupán egy
minta vizsgálata alapján kell megadnunk. Ezért a válasz helyességében so-
hasem lehetünk száz százalékig biztosak, a tévedés valószínűségét azonban
igyekszünk alacsony szinten tartani.
A hipotézisvizsgálat gondolatmenete és technikája is meglehetősen bo-
nyolult. Először meg kell fogalmazni egy úgynevezett nullhipotézist és egy
ellenhipotézist, majd ki kell választani a megfelelő statisztikai próbát, ellen-
őrizni, hogy teljesülnek-e a próba alkalmazhatósági feltételei, végrehajtani
a próbát (akár papíron számolva, akár számítógépes programmal), végül ér-
telmezni a kapott eredményt. Tapasztalataink szerint a bevezető statisztika
kurzusokon résztvevő diákok számára a hipotézisvizsgálatokkal kapcsolat-
ban a legtöbb nehézséget okozó kérdések a következők:
• Egyáltalán mi szükség van a statisztikai hipotézisvizsgálatra, miért
nem csak a „szemmel látható tények” számítanak?
• Miért van szükség nullhipotézisre és ellenhipotézisre, és miért nem
mindegy, hogy melyik melyik? Például ha az a kérdés, hogy „különbö-

151
152 Reiczigel – Harnos – Solymosi: Biostatisztika

zik-e”, akkor melyik legyen a vizsgált hipotézis, a „különbözik” vagy


a „nem különbözik”?
• Miért kell a mintából olyan bonyolult statisztikákat számolni?
• Miért kell megtanulni annak a sok táblázatnak – Student-t, F , khi-
négyzet stb. – a használatát, amelyekkel később, amikor majd számí-
tógépes programokat használunk, sohasem találkozunk újra?
• Miért van olyan sokféle teszt ugyanarra a kérdésre (például arra, hogy
van-e hatása egy kezelésnek), és minek alapján válasszunk közülük?
• Hogyan lehetséges az, hogy az egyes próbák alkalmazhatósági feltéte-
lei az irodalomban nem egységesek, ugyanazt a tesztet egyik helyen
n = 30-as, máshol n = 50-es, megint máshol n = 100-as mintaelem-
számtól tartják érvényesnek?
Ebben a fejezetben ezeket a kérdéseket próbáljuk meg érthetően meg-
válaszolni. De a válaszok minden igyekezetünk ellenére néhol bonyolultak
lesznek, megértésükhöz az olvasó erőfeszítésére is szükség lesz. Tehát Kedves
Olvasó, készüljön fel a küzdelemre!
Mindenekelőtt nézzünk meg közelebbről egy példát, hogy jobban el tud-
juk képzelni, mire való a statisztikai hipotézisvizsgálat és mi az, amit nem
várhatunk tőle.

6.2. példa. Égési sérülések kezelése


Tegyük fel, hogy égési sérülések kezelésére van egy új eljárásunk, amelytől a hagyomá-
nyos kezelésnél gyorsabb gyógyulást várunk! Hogy bizonyítani tudjuk, hogy az új kezelés
valóban jobb, kísérletet végzünk húsz-húsz beteggel, akiket véletlenszerűen sorolunk be
valamelyik kezelési csoportba (kontrollált randomizált kísérlet). Az eredmények bíztató-
ak: az új kezelést kapott betegek gyógyulási ideje átlagosan hat nappal rövidebb, mint
a hagyományosan kezelteké. De vajon levonhatjuk-e ebből azt a következtetést, hogy
az új kezelés jobb? Nem lehet-e ez a reményteljes eredmény csupán a véletlen játéka?
Végül is csak húsz-húsz beteg adatairól van szó, másik húsz-húsz beteggel valószínűleg
más eredményt kapnánk.

A statisztikai hipotézisvizsgálat a „vajon nem véletlen-e” kérdés eldön-


tésére alkalmas. Azt azonban, hogy a kapott eredmény „bíztató”-e, hogy a
tapasztalt különbség vagy hatás szakmailag jelentős-e, nem tudja megmon-
dani; azt mindig a kutatónak kell eldöntenie. Amikor egy statisztikai próba
azt mondja, hogy a különbség az új és a hagyományos kezelés között „szig-
nifikáns”, az azt jelenti, hogy túlmegy azon a mértéken, ami egyszerűen a
véletlen számlájára lenne írható, de ebből nem következik, hogy szakmailag
is érdekes, hasznos vagy figyelemre méltó lenne. A félreértések elkerülése
végett az utóbbira inkább a „releváns” kifejezést szokás használni.
6.1. A statisztikai hipotézisvizsgálat alapgondolata 153

Nagy mintaelemszámokkal olyan kis különbségek, hatások vagy olyan gyenge össze-
függések is szignifikánsnak bizonyulhatnak, amelyek szakmailag irrelevánsak. A túl nagy
minta gazdaságossági és etikai szempontok miatt is kerülendő. A szükséges mintaelem-
szám meghatározásának egyik célja, hogy a minta ne legyen nagyobb, mint amekkora a
szakmailag releváns hatások kimutatásához szükséges (vö. az 5.6. fejezettel).

Figyelemre érdemes eredmény az, ami szakmailag releváns, és


emellett az is nagy bizonyossággal állítható róla, hogy nem csu-
pán a véletlen játéka, azaz statisztikailag is szignifikáns. Ha egy ered-
mény szakmailag nem releváns, akkor semmi értelme megvizsgálni, hogy
statisztikailag szignifikáns-e. Ezért az eredményeket előbb mindig szakmai
szemmel kell megnézni, és csak ha szakmailag érdekesek, akkor következhet
statisztikai vizsgálatuk.
Mivel a szakmai relevancia a statisztikai szignifikanciából nem követke-
zik, a jobb folyóiratok megkövetelik, hogy az eredményközlésben a hatás-
nagyságok (effect size) becsült értékei is ott legyenek, sőt lehetőleg konfiden-
cia-intervallumaikkal együtt. A hatásnagyság a kísérlet céljától és a kísérleti
elrendezéstől függően sokféleképpen számszerűsíthető. Az egyik legegysze-
rűbb eset, amikor a hatást a kísérleti és a kontrollcsoportok átlagai közötti
különbséggel fejezik ki.
Ha egy kísérletünk eredménye szakmailag releváns, de statisztikailag nem
szignifikáns, akkor arra gondolhatunk, hogy (1) kicsi volt a vizsgált minta,
(2) nem tudtunk elég pontosan mérni, (3) túl nagy a biológiai variabilitás,
(4) nem elég érzékeny az elemzésre használt statisztikai eljárás, vagy nem
teljesülnek az alkalmazhatósági feltételei (lehet, hogy van a problémához
jobban illő eljárás, amellyel az eredmény már statisztikailag is szignifikáns-
nak bizonyulna).

6.1. A statisztikai hipotézisvizsgálat


alapgondolata
Ebben a részben a hipotézisvizsgálat alapelvét és logikáját szeretnénk kö-
zelebb hozni az olvasóhoz; megmutatni, hogy ez a logika, bár bonyolult, a
hétköznapi észnek nem mond ellent, hasonló gondolatmeneteket az élet más
területein elfogadunk, sőt használunk és természetesnek tartunk. Egyelőre
csak az elvi kérdésekkel foglalkozunk, a technikai részleteket majd a 6.2.
részben fogjuk ismertetni.
154 Reiczigel – Harnos – Solymosi: Biostatisztika

6.1.1. Az indirekt bizonyítás


A statisztikai hipotézisvizsgálat logikája a középiskolából remélhetőleg is-
mert indirekt bizonyításéhoz hasonló. Maga az elv klasszikus, sokaknak bi-
zonyára latin neve cseng ismerősebben: reductio ad absurdum. Az indirekt
következtetés a hipotézisvizsgálatra alkalmazva: tudjuk, hogy ha a H hipo-
tézis igaz lenne, az E esemény bekövetkezése lehetetlen volna. E bekövet-
kezett, tehát a H hipotézis nem igaz.

6.3. példa. Urna 100 golyóval – hipotézis: mind fehér


Egy urnában 100 golyó van, mindegyikük vagy piros, vagy fehér.
Legyen az a hipotézisünk, hogy mind fehér (H)!
Tegyük fel, hogy húzunk egy golyót, és az piros (E)! Ekkor teljes bizonyossággal állít-
hatjuk, hogy a hipotézisünk nem igaz.

Ezzel analóg a statisztikai hipotézisvizsgálat alapgondolata: tudjuk, hogy


ha a H hipotézis igaz lenne, az E esemény bekövetkezésének valószínűsége
igen csekély volna. E bekövetkezett, tehát a H hipotézist elvetjük.

6.4. példa. Urna 100 golyóval – hipotézis: 1 piros és 99 fehér


Az urnában, ugyanúgy mint az előbb, most is 100 golyó van, ugyancsak pirosak vagy
fehérek.
Legyen most a hipotézisünk az, hogy az urnában 1 piros és 99 fehér golyó van (H)!
Tegyük fel, hogy ötször húzunk egymás után visszatevéssel, és mind az ötször piros jön
ki (E)! Bár most teljes bizonyossággal nem állíthatjuk, hogy a hipotézisünk nem igaz,
mégis elvetjük – és ebben minden bizonnyal a Kedves Olvasó is egyetért velünk. Miért?
Mert feltéve, hogy a hipotézis igaz, ennek a megfigyelésnek a valószínűsége nagyon cse-
kély, nevezetesen 0.015 = 0.000 000 000 1, azaz egy a tízmilliárdhoz, nagyságrendekkel
kisebb, mint egy lottóötös esélye. Vagyis nyugodtan elvethetjük, igen csekély (gyakor-
latilag nulla) annak a valószínűsége, hogy a H hipotézis igaz, és mégis egymás után
ötször piros jön ki.

• A statisztikának ezen a ponton van szüksége a valószínűségszámításra:


ki kell tudnunk számolni valahogyan, hogy mekkora az E esemény
bekövetkezésének valószínűsége a H hipotézis igazsága esetén.
• Mivel az „igen csekély valószínűségű” esemény nem lehetetlen, sta-
tisztikai döntés esetén mindig számolnunk kell azzal, hogy döntésünk
esetleg téves. (Jegyezzük meg, hogy a döntés kétféleképpen is lehet
téves: elképzelhető, hogy a hipotézisünk igaz, mégis elvetjük, és az is
6.1. A statisztikai hipotézisvizsgálat alapgondolata 155

előfordulhat, hogy a hipotézisünk nem igaz, mégsem vetjük el! Ter-


mészetesen mindkét fajta tévedés valószínűségét igyekszünk lehetőleg
alacsonyan tartani.)

6.1.2. A tudomány fejlődése


A statisztikai hipotézisvizsgálatok alapelve közeli rokonságban van Karl
Poppernek (1902–1994) a tudomány fejlődését magyarázó úgynevezett fal-
sifikációs elméletével is (Popper et al. 1997). Eszerint a tudományos ku-
tatás egyre újabb elméletek és egyre kifinomultabb megfigyelések láncola-
ta. Az ember fáradhatatlanul elméleteket alkot, hogy megfigyeléseit egyre
pontosabban tudja magyarázni, és állandóan megfigyeléseket végez, hogy
elméleteit próbára tegye, azaz igazolja, cáfolja vagy pontosítsa. Az elmé-
lettel összhangban lévő megfigyelések erősítik azt, de soha nem lehetünk
benne biztosak, nem bukkan-e fel majd egy későbbi kísérletben az elmélet-
nek ellentmondó tény. Ezért a kutatók az érvényes elméletekre csak mint
„jelenleg érvényben lévő elméletekre” gondolnak. És valóban, az a tipikus,
hogy előbb-utóbb történnek olyan megfigyelések, amelyek ellentmondanak
az éppen érvényben lévő elméletnek.
Az uralkodó tudományos álláspont mellett mindig vannak alternatív el-
képzelések, új elméletek, amelyek arra várnak, hogy a jelenleg érvényes el-
mélet helyébe lépjenek. Kisebb ellentmondások miatt a „jelen tudományos
álláspont” általában nem szokott megdőlni (a tudomány konzervatív, igyek-
szik elkerülni a meggondolatlan csapongást, inkább a „lassan járj, tovább
érsz” elvét követi), de az elméletnek ellentmondó megfigyelések halmozódá-
sa végül is az elmélet bukásához, pontosabban valamelyik alternatív elmé-
lettel való felváltásához vezet. (Itt a „bukást” nem elmarasztaló értelemben
használjuk, a newtoni mechanika korántsem vált értéktelenné azért, mert a
relativitáselmélet megjelent a színen.)
Karl Popper ezt úgy fogalmazta meg, hogy a tudomány fejlődésének
lényege éppen abban áll, hogy különféle elméleteket megcáfol és újakkal he-
lyettesít, majd azokat is megcáfolja és újabbakkal helyettesíti és így tovább.
Egy elméletet a vele összhangban lévő tények, megfigyelések támogatnak
ugyan, de soha nem bizonyíthatják. Tehát csak falsifikáció (= cáfolat) le-
hetséges, verifikáció (= igazolás) nem. Természetesen az olyan elméletekben
jobban megbízunk, amelyek nagyon sok megfigyeléssel összhangban vannak,
de soha nem állíthatjuk róluk teljes bizonyossággal, hogy igazak.
Látni fogjuk, hogy a statisztikai hipotézisvizsgálatnak is ugyanez a
logikája.
156 Reiczigel – Harnos – Solymosi: Biostatisztika

6.1.3. Null- és alternatív hipotézis


Talán a Kedves Olvasónak is volt már szerencséje valami újat felfedezni,
amivel gazdagíthatta az emberiség tudáskincsét (vagy ha még túl fiatal ah-
hoz, hogy alkalma lett volna rá, bizonyára már ábrándozott róla). Ilyenkor
az embernek meg kell győznie a többieket, hogy szakítsanak a dologról eddig
vallott nézeteikkel, és tegyék magukévá az új elméletet vagy magyarázatot.
Erre csak akkor van remény, ha olyan tényeket (megfigyeléseket vagy kísérle-
ti eredményeket) tárunk eléjük, amelyek a régi elmélettel nem vagy rosszul,
az újjal viszont jól magyarázhatók.
Vegyük számba a szereplőket: egy régi elmélet, a „jelen tudományos ál-
láspont”, amelyet távozásra kényszerítenek; egy új elmélet, amely a régi
helyére lép; a tények, amelyek a réginek ellentmondanak, az újjal pedig
összhangban vannak!
Pontosan ez a szereposztás a statisztikai próbáknál is: a nullhipotézis
(null hypothesis) játssza a régi, az ellenhipotézis vagy alternatív hipo-
tézis (alternative hypothesis) pedig az új elmélet szerepét, és egy megfigyelt
minta alapján döntünk arról, hogy a nullhipotézis maradhat-e, vagy mennie
kell. Ugyanúgy mint az ökölvívásban, a „kihívónak” itt is egyértelműen le
kell győznie a „címvédőt”: ha a minta mindkét hipotézissel összeegyeztethe-
tő, akkor a régi elmélet marad érvényben. A statisztikai hipotézisvizsgálat
lehetséges kimenetelei tehát: vagy megtartjuk a nullhipotézist, vagy
elvetjük (reject), és ezzel helyére állítjuk az ellenhipotézist, mint ettől kezd-
ve „jelenleg érvényben lévő hipotézist”. Ezzel a mostani ellenhipotézisünk
lesz a „címvédő”: a legközelebbi hipotézisvizsgálatban már ő játszhatja a
nullhipotézis szerepét.
A nullhipotézist H0 -lal, az ellenhipotézist pedig H1 -gyel vagy Ha -val
jelöljük.
Tehát, Kedves Olvasó, ha új felfedezéssel áll elő, és azt statisztikai pró-
bával akarja bizonyítani, akkor az új felfedezést tegye meg H1 -nek, H0 -nak
pedig azt a jelenleg érvényes elméletet, amit új elméletével épp kiütni készül
a nyeregből! Ha egy vizsgálattal (kísérlettel vagy felméréssel) sikerül olyan
eredményt produkálnia, amely döntően ellentmond a H0 -nak a H1 javára,
akkor komoly reménye van arra, hogy a továbbiakban az Ön új elmélete lesz
a „jelen tudományos álláspont” a kérdésről. Azt, hogy „döntően ellentmond
a H0 -nak a H1 javára”, úgy értjük, hogy H0 igazsága esetén a megfigyelés
nagyon valószínűtlen, míg H1 igazsága esetén nem annyira.
Hát ezért nem mindegy, hogy egy statisztikai hipotézisvizsgálatnál me-
lyik hipotézist tesszük meg H0 -nak és melyiket H1 -nek. Az esetek túlnyomó
többségében egyébként a „felfedezések” olyan jellegűek, hogy valami össze-
6.1. A statisztikai hipotézisvizsgálat alapgondolata 157

függ valamivel, valami hat valamire, valami különbözik valamitől. Ezek-


ben az esetekben a nullhipotézis szükségképpen az, hogy nincs összefüggés,
nincs hatás, nincs különbség stb. Sokan innen is eredeztetik a nullhipoté-
zis elnevezést: az összefüggés erőssége, a hatás nagysága vagy a különbség
egyenlő nullával. Vannak azonban kivételek: ilyenek például az ekvivalencia-
vizsgálatok, ahol a bizonyítandó állítás az, hogy két kezelés, például két
gyógyszer hatása azonos, tehát ez kell, hogy legyen az ellenhipotézis, és
azt kell nullhipotézisnek vennünk, hogy a kezelések nem ekvivalensek, azaz
különböznek. (Ezért olyan szokatlan az ekvivalencia-kísérletek statisztikai
kiértékelése.)
A gyakorlati esetek többségében a hipotézisek természetes nyelven törté-
nő, informális megfogalmazása a statisztikai hipotézisvizsgálathoz túl álta-
lános, további pontosításra szorul. Az, hogy egy kezelés hat egy változóra,
mondjuk növeli azt, sokféleképpen pontosítható.

6.5. példa. Allergia kezelése


Az allergia kezelésére kifejlesztett új gyógyszerrel reményeink szerint hosszabb tünet-
mentes időszakot lehet elérni, mint a hagyományos gyógyszerrel. Az ellenhipotézis ter-
mészetes nyelven megfogalmazva: a kísérleti szerrel kezelteknél a kezelés utáni tünet-
mentes időszak hosszabb, mint a hagyományos kezelés esetén.
Ezt azonban többféleképpen is pontosíthatjuk:
1. a kísérleti szerrel kezelteknél a kezelés utáni tünetmentes időszak hosszának átlaga
nagyobb, mint a hagyományos kezelés esetén;
2. a kísérleti szerrel kezelteknél a kezelés utáni tünetmentes időszak hosszának mediánja
nagyobb, mint a hagyományos kezelés esetén;
3. a kísérleti szerrel kezelteknél gyakrabban tapasztalható legalább négy hetes tünet-
mentes időszak a kezelés után, mint a hagyományos kezelés esetén;
és még sorolhatnánk.
A hipotézis mindhárom pontosítása tesztelhető, de mindegyikhez más statisztikai pró-
bát kell használnunk. Az elsőre – amikor két átlagot kell összehasonlítani – a kétmin-
tás Student-féle t-próba különböző variánsai használhatók (lásd a 7.1.2. fejezetben).
A másodikra – a mediánok összehasonlítására – a Mood-féle mediánpróba alkalmas
(lásd 7.5.2. fejezet). A harmadikra – amikor két valószínűséget hasonlítunk össze – khi-
négyzet-próbát vagy Fisher-féle egzakt próbát használhatunk (attól függően, hogy hogy
vélekedünk az alkalmazhatósági feltételeik teljesüléséről; lásd a 7.3. fejezetben).

A hipotézisek pontosítása nem pusztán szőrszálhasogatás: elképzelhető,


hogy a kezelt csoportban a tünetmentes időszak átlaga hosszabb, mediánja
azonban rövidebb, mint a másik csoportban (vagy fordítva). Tehát lehet,
hogy a kísérleti szer az átlagos hosszal mérve hatékonyabb, ugyanakkor a
medián hosszal mérve kevésbé hatékony mint a hagyományos kezelés. Egy
158 Reiczigel – Harnos – Solymosi: Biostatisztika

A ●● ●●●● ● ● ● ●

B ● ● ●● ●● ● ● ● ●

0 10 20 30 40 50 60

6.1. ábra. Tünetmentes napok száma a kezelés után (A = kezelt, B = kontroll, a


háromszög az átlagot, négyzet a mediánt jelöli)

példát is mutatunk erre a 6.1. ábrán. A kezelt csoportban a tünetmentes


időszak hosszának átlaga 29.5, mediánja 20.5 nap, míg a kontrollcsoportban
az átlag 22.7, a medián 25.5 nap.
Mivel mind az átlagok közötti 6.8 nap, mind a mediánok közötti – ellenke-
ző irányú – 5 nap különbség szakmailag releváns lehet, korántsem mindegy,
hogy az összehasonlítást az átlagokra vagy a mediánokra alapozzuk. Ha
nem csupán egy-egy statisztikai mutatót, hanem a két mintázatot (elosz-
lást) hasonlítjuk össze, akkor az a benyomásunk, hogy az átlagoknak hihe-
tünk inkább, a mediánok közötti különbség esetlegesnek tűnik. A legalább
négyhetes tünetmentes időszakot elérők aránya mindkét mintában azonos,
40%. Megjegyezzük, hogy bár ezekkel a kis mintákkal sem az átlagok, sem a
mediánok közötti különbség nem szignifikáns, nagyobb mintákkal könnyen
kaphatunk szignifikáns ellentétes irányú különbségeket is. Sőt, ilyen ellent-
mondásos viszony populációk között is fennállhat. A magyarázat egyszerű:
a különböző mutatók más nézőpontot képviselnek, a populációk közötti vi-
szony más-más oldalát tükrözik.
Az átlag és a medián nézőpontja közötti különbség röviden az, hogy míg
a medián nem függ az eloszlás elnyúló széleitől, az átlag igen. A következő
példa rávilágít, hogyan történhet meg, hogy két minta átlaga és mediánja
ellentétes viszonyt mutatnak. Tegyük fel, hogy van két tíz-tíz fős populáci-
ónk, és legyen mondjuk az A populáció mediánja nagyobb, mint a B-é! Ha
megnöveljük a B-beli legnagyobb értéket, akkor a mediánok változatlanok
maradnak, de a B populáció átlaga növekszik. Így a B átlagát olyan nagyra
növelhetjük, amilyenre csak akarjuk – akár az A átlaga fölé is.
6.1. A statisztikai hipotézisvizsgálat alapgondolata 159

6.1. táblázat. A hipotézisvizsgálat lehetséges kimenetelei; az első- és másodfajú hiba


fogalma

Döntés
H0 -t megtartjuk H0 -t elvetjük
H0 igaz helyes döntés elsőfajú hiba
(tévesen elvetjük a H0 -t)
(álpozitív eredmény)
Valóság
H1 igaz másodfajú hiba helyes döntés
(tévesen megtartjuk a H0 -t)
(álnegatív eredmény)

Mindig valamilyen szakmai szempont alapján kell eldönteni, hogy egy


összehasonlítást melyik mérőszámra alapozunk. Helytelen az a – sajnos gya-
kori – gondolkodásmód, hogy „mivel az adatok nem voltak normális eloszlá-
súak, nem Student-féle t-próbát, hanem Mann–Whitney-féle U -próbát hasz-
náltunk a két minta összehasonlítására”. Ez már azzal vetekszik, hogy „mivel
a szívműtét elvégzését a beteg általános állapota nem tette lehetővé, vakbél-
műtétet hajtottunk végre rajta”. Vegyük észre, hogy ha az átlagok közötti
különbség érdekel, akkor a mediánok vagy egyéb mutatók összehasonlítása
csupán pótcselekvés, hiszen – mint fentebb láttuk – a két mutató akár el-
lentétes viszonyt is jelezhet a két minta között! Az előbbi, 6.5. példában az
átlag a természetesebb mutató, főleg ha nem egyedi, hanem populáció szin-
ten gondolkodunk: ha egy kezelés átlagosan 29.5 nap tünetmentes időszakot
biztosít, akkor 100 kezeléstől átlagosan valamivel több mint 8 emberévnyi
tünetmentes időszakot várhatunk, ugyanakkor a hagyományos szerrel 100
kezelésre csupán 6.2 emberévvel számolhatunk. A mediánnal ilyen számítást
nem végezhetnénk.

6.1.4. Döntés a nullhipotézisről


Ha hipotézisvizsgálatot végzünk, mindig a nullhipotézisről döntünk – meg-
tartjuk vagy elvetjük. Említettük, hogy a döntés helyességében sohasem le-
hetünk biztosak, mivel a döntés mindig csak egy minta vizsgálatán alapul.
Helytelen döntést kétféleképpen hozhatunk: ha elvetjük a null-
hipotézist, amikor az igaz, vagy ha megtartjuk a nullhipotézist,
amikor az ellenhipotézis igaz. Előbbi az első fajta vagy elsőfajú
hiba (Type I error, alpha error), utóbbi pedig a második fajta vagy
másodfajú hiba (Type II error, beta error). Jelentésüket a 6.1. táblázat
foglalja össze.
160 Reiczigel – Harnos – Solymosi: Biostatisztika

A döntést úgy szeretnénk meghozni, hogy mind a két fajta hiba való-
színűsége alacsony maradjon. Az elsőfajú hiba valószínűségét (Type I error
rate, alpha error rate) α-val, a másodfajú hibáét β-val jelöljük. Az „ala-
csony szinten tartás” szokásosan α ≤ 5%-ot, illetve β ≤ 20%-ot jelent. Az,
hogy a másodfajú hibával szemben általában elnézőbbek vagyunk, egybe-
vág a tudomány konzervativizmusával, a „lassan járj, tovább érsz” elvével
(vö. 6.1.2. fejezet).
Ha a döntési szabályt úgy változtatjuk meg, hogy az α csökkenjen, akkor
– feltéve, hogy minden más változatlan – a β növekedni fog, és viszont. Ha
egyidejűleg mindkét hiba valószínűségét csökkenteni szeretnénk, akkor ezt
vagy egy hatékonyabb statisztikai próba alkalmazásával, vagy – és legtöbb-
ször ez a könnyebb – a mintaelemszám növelésével tehetjük meg. (Egy jó
teszttől elvárjuk, hogy ha a mintaelemszám végtelenhez tart, akkor mindkét
fajta hiba valószínűsége nullához tartson).
A H0 -ról való döntésnek technikailag két útja van: az egyik az úgyneve-
zett p-értéken keresztül vezet, a másikhoz a p-érték fogalmára nincs szükség.
A bevezető statisztika kurzusokon általában az utóbbit tanítják, mert a kézi
számoláshoz (dolgozat-példák!) az a praktikusabb. Aki viszont számítógépes
programot használ, annak feltétlenül tisztában kell lennie a p-érték jelenté-
sével – ha kiszámításának részleteivel nem is –, mert a programok általában
ezt közlik. Ezért mi is erre helyezzük a hangsúlyt, de azért a másik mód-
szert is ismertetjük (6.2.3. fejezet), hogy könyvünket a klasszikus bevezető
kurzusok hallgatói is haszonnal forgathassák.
A p-érték értelmezéséhez induljunk ki abból, hogy a nullhipotézist akkor
vetjük el (vö. 6.1.1. fejezet),
• ha a megfigyelésünk (mintánk) ellentmond a H0 -nak az ellenhipotézis
javára,
• és ha a H0 -nak a puszta véletlen folytán ennyire ellentmondó megfi-
gyelés (minta) csak kevéssé valószínű.
Ez utóbbihoz hasznos segítség a p-érték (p-value): annak a valószí-
nűsége, hogy a H0 fennállása esetén a véletlen játéka a H0 -nak
legalább annyira ellentmondó mintát produkál, mint a ténylege-
sen megfigyelt minta.
A p-érték tehát egy mérőszám arra, hogy a megfigyelt minta mennyire
erős bizonyíték (strong evidence) a H0 ellen, a H1 javára.
Ha egy mintából számított p-érték 0.333, akkor ez a minta nem meggyőző
bizonyíték a H0 ellen. Ennyire ugyanis minden harmadik minta akkor is
ellentmond a H0 -nak, amikor H0 igaz. De ha a p-érték mondjuk 0.001,
akkor már erősen kételkedünk a H0 -ban, hiszen ha igaz lenne, akkor csak
minden ezredik minta szólna ennyire ellene.
6.1. A statisztikai hipotézisvizsgálat alapgondolata 161

Akkor mondjuk, hogy egy mintában megfigyelt tulajdonság (különbség,


összefüggés stb.) statisztikailag szignifikáns, ha túlmegy azon a mér-
téken, amit még nyugodt lélekkel a véletlen számlájára írhatnánk. Egy
szignifikáns eredmény arra enged következtetni, hogy a mintá-
ban megfigyelt különbség, összefüggés stb. nemcsak a mintában,
hanem a populációban is fennáll. A p-érték definíciójából következik,
hogy azok az eredmények szignifikánsak, amelyekhez kis p-érték tartozik.
Hagyományosan a határ 5%, azaz ha p ≤ 0.05, akkor szokás azt mondani,
hogy az eredmény szignifikáns. Ezt a határt (az előírt elsőfajú hiba szintjét)
nevezzük szignifikanciaszintnek (significance level). Ha ezt a szabályt
követjük, vagyis a H0 -t akkor vetjük el, ha p ≤ 0.05, akkor a döntésünk el-
sőfajú hibájának valószínűsége 5% lesz: az igaz nullhipotézisek 5%-át fogjuk
tévesen elvetni. De el is szabad térni az 5%-tól: egyes területeken az 1%-os
határ a szokásos. Hogy semmiképp ne legyen félreérthető, fogalmazhatunk
úgy is, hogy „az eredmény 5%-os szinten szignifikáns”.

6.6. példa. Sertések hizlalása – hipotézisvizsgálatok


Egy kísérletben sertések hizlalásához új táplálék-kiegészítőt próbáltak ki. Húsz állat
kapta a táplálék-kiegészítőt, átlagos testtömeg-növekedésüket húsz kontroll állatéval
hasonlították össze. A kérdés az volt, hogy nagyobb-e a testtömeg növekedése a kísérleti
csoportban. A hipotéziseket az átlagos testtömeg-növekedéssel fogalmazták meg.
H0 : a testtömeg-növekedés átlaga a két csoportban azonos,
H1 : a testtömeg-növekedés átlaga a táplálék-kiegészítővel kezelt csoportban nagyobb.
Az átlagok összehasonlítását R-rel, a t-próba Welch-féle változatával végezték, amely
nem követeli meg a két csoportban a varianciák egyenlőségét. A próba részleteiről lásd
a 7.1.2. fejezetet; most csak annyit szeretnénk bemutatni, hogyan döntünk a H0 -ról
a p-érték alapján egy R-es elemzésben. A két csoportban mért testtömeg-növekedés
értékeket a tt.kiserleti és a tt.hagyomanyos változók tartalmazzák.
A megfelelő R-kód és output:
> t.test(tt.kiserleti, tt.hagyomanyos, alternative = "greater")

Welch Two Sample t-test

data: tt.kiserleti and tt.hagyomanyos


t = 2.3834, df = 37.223, p-value = 0.01118
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
3.025102 Inf
sample estimates:
mean of x mean of y
84.6067 74.2559
162 Reiczigel – Harnos – Solymosi: Biostatisztika

A p-érték 0.01118, azaz a különbség a csoportok között szignifikáns, a táplálék-


kiegészítő hatásosságát a kísérlet bizonyította. Az output a két átlagot is közli, amiből
a minták között tapasztalt különbség – a hatásnagyság – is kiszámolható 84.6 − 74.3 =
10.3 kg. Sőt, az R konfidencia-intervallumot is közöl a különbségre: 95%-os megbízha-
tósággal állíthatjuk, hogy a valódi (a populációbeli) különbség legalább 3.0 kg.
Figyeljük meg az R-függvényben az ellenhipotézis megadására szolgáló alternative =
"greater" részt! Itt a greater helyett szerepelhet még a less vagy a two.sided.
Jelentésük: az ellenhipotézis az, hogy az első minta átlaga nagyobb, kisebb, illetve egy-
szerűen csak nem egyenlő a második mintáéval (vö. 6.2.1. fejezet).

Sir Ronald Aymler Fisher (1890–1962), aki a szignifikanciavizsgálatot és


a p-értéket „feltalálta”, nem akart merev határt vonni a „szignifikáns” és
„nem szignifikáns” eredmények közé (Fisher 1925). Ő inkább úgy tartotta,
hogy a p-érték csupán jelzi a kutató számára, hogy mennyire bízhat meg a
szóban forgó eredményben, és végső soron mindig a kutatónak kell eldönte-
nie – a kapott p-értéket korábbi tapasztalataival, intuíciójával összevetve –,
hogy megtartsa-e vagy elvesse a nullhipotézist. Egyik munkájában azt aján-
lotta, hogy az 5% alatti p-értékekre már érdemes figyelmet fordítani. Később
Fisher eredeti szándékától eltérően – elsősorban Karl Pearson (1857–1936)
és Jerzy Neyman (1894–1981) munkássága nyomán, akik azt tűzték ki célul,
hogy a hipotézisvizsgálatot függetlenítsék a kutatók szubjektív véleményé-
től – az 5%-os határ rögzült, sőt az idő múlásával misztifikálódott. Az utóbbi
évtizedekben azonban ezt a valójában önkényes határt egyre többen kriti-
zálták. Először is azért, mert az 5%-os hibahatár túl magas: a hétköznapi
életben a meggyőző p-értékek tartománya több vizsgálat szerint – bár a do-
log erősen szubjektív – valahol 0.001 körül kezdődik. Másodszor azért, mert
a p = 0.0499 és a p = 0.0501 között a különbség gyakorlatilag nulla. Ezért
a legtöbb folyóiratnál követelménnyé vált, hogy a dolgozatokban a pontos
p-értékeknek kell szerepelnie, nem elegendő csupán a „szignifikáns” megje-
lölés. Így az olvasó láthatja, hogy a „szignifikáns” vajon p = 0.049-et vagy
p = 0.001-et takar-e.
Fontos tudni, hogy ha egy statisztikai program a p-értékre nullát ír ki,
az soha nem valódi nullát jelent, hanem egy olyan kis értéket, amely az
adott kiírási pontossággal már nem jeleníthető meg. Például a p = 0.0000
olyan kicsit, amelynek első négy tizedesjegye 0. Ilyenkor az eredményköz-
lés szokásos formája p < 0.0001, vagyis a „p =” helyett „p <”, az utolsó
nulla helyett pedig egyes áll. Ebből a dolgozat olvasója tudni fogja, hogy a
program csupa 0-t írt ki, sőt azt is, hogy hány tizedesjegyre.
6.2. A hipotézisvizsgálat technikai kérdései 163

Az eredményközléskor a p-értéket általában zárójelben adjuk meg, szo-


kásosan 3 vagy 4 tizedesjegy pontossággal. Hacsak dolgozatunk „Anyag és
módszer” vagy „Módszerek” fejezete alapján nem teljesen egyértelmű, hogy
melyik kérdésre milyen statisztikai próbát alkalmaztunk, nevezzük meg a
tesztet is, amellyel a p-értéket kaptuk. A következő példák a fejezet ele-
jén felsorolt tipikus kérdésfeltevésekre mutatnak lehetséges eredményközlési
változatokat. Természetesen a mért eredményeket (súlyt, gyakoriságot, ivar-
arányt stb.) is meg kell adni valahol, táblázatban, ábrán vagy a szövegben.

6.7. példa. Tipikus kérdésfeltevések hipotézisvizsgálatnál – válasz-minták


1. A bika- és üszőborjak átlagos születéskori testtömege között kétmintás t-próbával
nem találtunk szignifikáns különbséget (p = 0.1708). Ha nagyon tömören akarunk
fogalmazni, az eredményeket is belefoglalhatjuk:
A bika- és üszőborjak átlagos születéskori testtömege között kétmintás t-próbával
nem találtunk szignifikáns különbséget (bikák 39.3 ± 5.6, üszők 36.7 ± 4.7 kg ± SD,
p = 0.1708).
2. A szer alkalmazásával az asztmás rohamok gyakorisága szignifikánsan csökkenthető
(Fisher-féle egzakt próba, p = 0.0288).
3. A testtömegindex és az IQ között az összefüggés nem bizonyult szignifikánsnak
(Pearson-féle korrelációs együttható = 0.09, p = 0.7471).
4. A táplálékban gazdag, illetve szegény élőhelyeken megfigyelt ivararányokat khi-
négyzet-próbával összehasonlítva azt találtuk, hogy nem térnek el szignifikánsan
egymástól (p = 0.0976).
5. Az új takarmány-kiegészítővel kezelt állatok súlygyarapodása szignifikánsan megha-
ladta a kontroll állatokét (kétmintás t-próba: p < 0.0001).

Itt kell azt is megemlíteni, hogy – mivel a sikert mindig egy új felfedezés
jelenti – a kutatók szívesebben közölnek, az olvasók szívesebben olvasnak,
így a lapok szívesebben publikálnak szignifikáns eredményeket, ezért az iro-
dalomban ezek túl vannak reprezentálva. Ez az úgynevezett publikációs tor-
zítás (publication bias). Ebből az is következik, hogy a folyóiratokban közölt
„felfedezések” nem kis része a véletlen folyománya, álpozitív eredmény, első-
fajú hiba. (Vigyázat, első pillantásra az ember azt gondolhatná, hogy csak
öt százalékuk, de ez nem így van, ennél lehet sokkal több is!)

6.2. A hipotézisvizsgálat technikai kérdései


Az alábbiakban a statisztikai hipotézisvizsgálat technikai kérdéseiről lesz
szó, arról, hogy hogyan határozhatjuk meg a p-értéket. Aki számítógépes
programot használ, annak ezek az ismeretek nem létfontosságúak, hiszen a
p-érték számítását a programok a felhasználó beavatkozása nélkül elvégzik.
164 Reiczigel – Harnos – Solymosi: Biostatisztika

A számítógépes programok felhasználóinak csak a következőket kell tud-


niuk:
• Milyen hipotézisvizsgálathoz, illetve kérdésfeltevéshez melyik próba
való (pl. két átlag összehasonlítására Student-féle t-próba, két szórás
összehasonlítására F -próba stb.).
• A programban hogyan kell aktiválni a kiválasztott próbát, és ehhez
milyen paramétereket kell megadni (pl. R-ben a Student-féle t-próbát
a t.test() függvény hajtja végre, az F -próbát a var.test() függ-
vény; a paraméterekkel kapcsolatban lásd az R súgóját).
• A próbának mi a null- és az ellenhipotézise (hogy tudjuk, hogy a
kapott p-érték alapján mely hipotézist tartjuk meg vagy utasítjuk el,
és milyen alternatíva ellenében).
• Az adatoknak milyen formában kell rendelkezésre állniuk.
• A próbának milyen alkalmazhatósági feltételei vannak, és azok telje-
sülését hogyan lehet ellenőrizni.
A bevezető statisztika kurzusok hallgatóinak a dolgozatfeladatok megol-
dásához a számításokkal kapcsolatos részletek (próbastatisztika, nullelosz-
lás) ismeretére is szükségük van. Úgy gondoljuk azonban, hogy az alábbi
ismeretek a statisztika logikájának jobb megértése szempontjából azok szá-
mára is hasznosak lehetnek, akik kizárólag számítógépes programmal szá-
molnak.

6.2.1. Próbastatisztika
Ahhoz, hogy egy adott mintához meghatározhassuk a p-értéket, tudnunk
kell, hogy mely minták mondanak ellent annyira vagy jobban a H0 -nak
a H1 javára, mint a megfigyelt minta. Ehhez valójában mindegyik mintát
mindegyikkel össze kell tudnunk hasonlítani ebből a szempontból. Megol-
dás lenne erre, ha az összes lehetséges mintát sorba állítanánk aszerint,
hogy milyen mértékben mondanak ellent a H0 -nak. De ez már kis létszá-
mú populáció és kis minta esetén is meglehetősen nehéz, egyrészt a minták
nagy száma miatt, másrészt mert „szemre” nem mindig könnyű eldönteni,
hogy két minta közül melyik mond inkább ellent a vizsgált hipotézisnek. A
próbastatisztika egy segédeszköz ahhoz, hogy a mintákat rendezni tudjuk
aszerint, hogy mennyire mondanak ellent a nullhipotézisnek.
6.2. A hipotézisvizsgálat technikai kérdései 165

6.8. példa. Szabályos-e az érme


Tegyük fel, hogy egy pénzérme szabályosságáról ötven dobás alapján akarunk dönte-
ni. Az érmén nem látszik sérülés, ezért a szabályosságot tesszük meg nullhipotézisnek,
mert eddigi tapasztalataink szerint a sértetlen pénzérméken a fej és írás valószínűsége
általában 50-50%.
Ebben a kísérletben az összes lehetséges minták száma 250 = 1 125 899 906 842 624,
azaz több mint ezer billió.
Ráadásul azt sem könnyü megmondani, hogy két minta közül melyik mond jobban ellent
a H0 -nak. Nézzük például ezeket a mintákat (F a fejet, I az írást jelenti):
1. minta: IFFFFIFFIFIIFIFIIFFFFIIFFIFIIFFIFIIFIFIIFIIIIIIFII
2. minta: IIIFFIFIFIIFFIFIIIIIFFFIFIFFFFFIFIFFIIIFIFFIFIIIFI
A természetes józan ész azt sugallja, hogy ha két minta csak a fejek és írások sorrend-
jében különbözik, akkor ugyanannyira mondanak ellent a szabályosság hipotézisének:
tehát elegendő összeszámolni, hogy melyik mintában hány fej és hány írás van, és ame-
lyik jobban eltér a legszabályosabbnak tekinthető 25-25-től, az mond inkább ellent a
H0 -nak.
Az eredmény: 1. minta – 23 fej, 27 írás, 2. minta – 24 fej, 26 írás, tehát az 1. minta
mond ellent inkább – de nem sokkal, épp csak egy hajszálnyival – a szabályosságnak.

Ez esetben tehát elegendő a fejek számát ismerni, ez a döntéshez szük-


séges összes információt tartalmazza, a sorrend a pénz szabályosságára néz-
ve nem hordoz információt. A fenti okoskodás általánosságban is érvényes.
Ha találunk egy olyan, a mintából kiszámítható mutatót, amely jól
tükrözi a minták H0 -hoz való viszonyát, akkor a döntéshez nem kell
vesződnünk a minták sorba rakásával, a mutató értéke automatikusan sorba
állítja őket. Az ilyen mutatót próbastatisztikának, teszt-statisztikának
vagy egyszerűen csak statisztikának (statistic, test statistic) nevez-
zük. Lényegében minden ismert próba így működik, vagyis egy ügyesen
megválasztott statisztikán alapul.
Ha szerencsénk van, sikerül olyan statisztikát találnunk, amely – mint a példabeli – a
mintában rejlő összes információt tartalmazza, amelyre a döntéshez szükség van. Az ilyent
elégséges statisztikának nevezzük, mert a döntéshez elegendő e statisztika ismerete anélkül,
hogy magát a mintát látnunk kellene. Sajnos nem minden statisztikai problémához létezik
elégséges statisztika.

A jó próbastatisztikának érzékenynek kell lennie a H0 és a H1 közötti


különbségre, vagyis a statisztika H0 és H1 melletti eloszlásának minél inkább
különböznie kell. Emellett ismernünk kell a statisztika eloszlását a H0
mellett: ezt nulleloszlásnak (null distribution) nevezzük, és a p-érték
meghatározásához van rá szükség.
166 Reiczigel – Harnos – Solymosi: Biostatisztika

(a)

a statisztika H0 -lal legjobban


összeegyeztethető értékei

0 1 2 3 4 5 ... 23 24 25 26 27 . . . 46 47 48 49 50

a statisztika H0 -nak legjobban


ellentmondó értékei (a H1 javára)

(b)

a statisztika H0 -lal legjobban


összeegyeztethető értékei

-25 -24 -23 -22 -21 -20 . . . -2 -1 0 1 2 . . . 21 22 23 24 25

a statisztika H0 -nak legjobban


ellentmondó értékei (a H1 javára)

(c)
a statisztika H0 -lal legjobban a statisztika H0 -nak legjobban
összeegyeztethető értéke ellentmondó értéke (a H1 javára)

0 2 4 ... . . . 46 48 50

6.2. ábra. Pénz szabályosságának vizsgálata: a H0 a szabályosság, a H1 a nem-


szabályosság. A próbastatisztika a fejek száma 50 dobásból (a); a fejek száma mínusz
25 (b); a fejek és írások számának különbsége, a nagyobból vonva ki a kisebbet (c)

Ha a próba erejét is szeretnénk meghatározni (lásd 6.2.5. fejezet), akkor a statisztika


H1 melletti eloszlását is ismernünk kell.

Az előbbi példában a statisztika a fejek száma volt. (Lehetett volna az


írások száma is, ez a szimmetria miatt szemmel láthatóan ugyanarra az
eredményre vezetne.) A statisztika H0 -nak legkevésbé ellentmondó értéke a
25, H0 -nak legjobban ellentmondó értékei pedig a 0 és az 50: e kettő azonos
mértékben mond ellent H0 -nak. Ugyancsak azonos mértékben mond ellent
H0 -nak az 1 és a 49, a 2 és a 48, a 3 és a 47 stb. (6.2. (a) ábra).
6.2. A hipotézisvizsgálat technikai kérdései 167

6.2. táblázat. Példák szimmetrikus és határozott irányú kérdésfeltevésekre

Szimmetrikus Határozott irányú


Két kezelés hatása megegyezik-e A kísérleti kezelés hatása
vagy különböznek? nagyobb-e, mint a standard
kezelésé?
Egy mennyiség eltér-e egy Egy mennyiség meghalad-e egy
bizonyos értéktől? bizonyos értéket?
Változik-e egy bizonyos mennyiség Csökken-e egy bizonyos mennyiség
az idő múlásával? az idő múlásával?

Sok ismert statisztika olyan, hogy a 0 körüli értékek szólnak a H0 mellett,


és minél messzebb van az érték a 0-tól, annál jobban ellentmond a minta a
H0 -nak. Ha mi is erre vágyunk, ezt könnyen elérhetjük, ha már van egy jó
statisztikánk: egy konstans hozzáadásával vagy kivonásával ilyenné tehet-
jük. Vegyük a fejek száma helyett a „fejek száma mínusz 25”-öt, és máris
ilyen lesz a statisztikánk: lehetséges értékei a −25 és +25 közötti egészek, a
0 körüli értékek szólnak a H0 mellett, az értékkészlet két vége pedig ellene
(6.2. (b) ábra)!
Ha összehasonlítjuk a 6.2. ábra (a), (b) és (c) részét, azt látjuk, hogy
az első kettőn a statisztika értékkészletének közepén vannak a H0 -lal össze-
egyeztethető és két szélén a H0 -nak ellentmondó, H1 mellett szóló értékek,
míg a harmadikon az értékkészlet egyik végén foglalnak helyet a H0 , má-
sik végén a H1 mellett szóló értékek. Az előbbi elrendeződést kétoldali
ellenhipotézisnek vagy kétoldali próbának (two-sided alternative, two-
tailed test) nevezzük, míg az utóbbi az egyoldali ellenhipotézis vagy egy-
oldali próba (one-sided alternative, one-tailed test).
Már maga a kérdésfeltevés is lehet szimmetrikus, vagy lehet meghatáro-
zott irányú (amikor csak az egyik irányú különbség, hatás vagy összefüggés
érdekel) (6.2. táblázat). De hogy a próba végül is egy- vagy kétoldali lesz-e,
az nemcsak a kérdésfeltevésen, hanem a statisztika megválasztásán is múlik.
Mint a pénzfeldobásos kísérlettel kapcsolatban láttuk, ugyanarra a kérdésre
más próbastatisztikát használva egyszer egyoldali, másszor kétoldali tesztet
kaptunk (6.2. ábra).
Az R-ben azt, hogy egy bizonyos próbát egy- vagy kétoldali ellenhipoté-
zissel szeretnénk-e elvégezni, a tesztet végrehajtó R-függvény alternative
paraméterében adhatjuk meg (lásd „sertések hizlalása” példa, 161. oldal).
168 Reiczigel – Harnos – Solymosi: Biostatisztika

6.2.2. A p-érték meghatározása


Láttuk, hogy a p-érték egy valószínűség: annak a valószínűsége, hogy a H0
fennállása esetén a puszta véletlen folytán a H0 -nak legalább annyira ellent-
mondó mintát kapunk, mint a ténylegesen megfigyelt minta. Tehát a p-érték
meghatározása egy valószínűségszámítási feladat (vö. 3.6. fejezet). Ha a pró-
ba egy statisztikán alapul (gyakorlatilag mindig ez a helyzet), akkor ehhez
ismernünk kell a statisztika nulleloszlását (a nulleloszlás definícióját lásd
a 165. oldalon). Ha a nulleloszlást sikerül meghatároznunk, akkor meg kell
néznünk, hogy mekkora azon értékek össz-valószínűsége, amelyek a megfi-
gyeltnél jobban ellentmondanak a H0 -nak a H1 javára. Ez a valószínűség
adja a p-értéket.
Maradjunk az előző példánál!

6.9. példa. Szabályos-e az érme – p-érték


Tegyük fel, hogy az 50 dobásból 9-szer kaptunk fejet és 41-szer írást! Ez már azért
gyanús, nem? Elég szélsőséges a 25-25-höz képest. Vagy még belefér a véletlen inga-
dozásba? Vajon milyen valószínűséggel produkál ennyire szélsőséges mintát a véletlen,
feltéve hogy az érme szabályos? Ezt fejezi ki a p-érték, és ezt szeretnénk most – a
valószínűségszámítás segítségével – kiszámolni.
Mindenekelőtt egy alkalmas próbastatisztika segítségével állítsuk sorba az összes le-
hetséges mintát aszerint, hogy mennyire mondanak ellent a H0 -nak. A statisztika le-
gyen most is a fejek száma: lehetséges értékei a 0 és 50 közötti egész számok. Szá-
moljuk ki, hogy a statisztika egyes értékeinek mekkora a valószínűsége a H0 igaz-
sága esetén: a valószínűségeket az n = 50, p = 0.5 paraméterű binomiális el-
oszlás (vö. 3.5. fejezet) segítségével határozhatjuk meg! (R-rel a valószínűségeket a
dbinom(0:50, size = 50, prob = 0.5) paranccsal számolhatjuk ki.)
A valószínűségek az alábbi táblázatban láthatók (helytakarékosságból nem írtuk ki mind
az 51-et). Mivel a valószínűségek nagyon kicsik, normálalakban írtuk fel őket. Emlékez-
tetőül: 8.88e-16 = 8.88 · 10−16 = 0.00000000000000888.

Fejek száma: 0 1 2 3 4 5
Valószínűség: 8.88e-16 4.44e-14 1.09e-12 1.74e-11 2.05e-10 1.88e-09

Fejek száma: 6 7 8 9 10 11
Valószínűség: 1.41e-08 8.87e-08 4.77e-07 2.23e-06 9.12e-06 3.32e-05

A valószínűségek grafikus ábrázolása a 6.3. ábrán látható, melyen megjelöltük a sta-


tisztikának azokat az értékeit, amelyek annyira vagy jobban ellentmondanak a H0 -nak,
mint a ténylegesen megfigyelt 9 fej: ezek a 0 és 9, valamint a 41 és 50 közötti értékek.
Ezek alapján a p-értéket úgy számolhatjuk ki, hogy összeadjuk ezen értékek H0 mel-
letti valószínűségeit: az összeg p = 5.61−6 = 0.00000561. Ha a H0 igaz, ilyen csekély
valószínűséggel fordul elő a H0 -nak a megfigyeltnél extrémebben vagy ugyanannyira
ellentmondó minta: ennek alapján nyugodtan elvethetjük az érme szabályosságának
hipotézisét.
6.2. A hipotézisvizsgálat technikai kérdései 169

0 9 10 25 40 41 50

a H0 -nak a megfigyelttel azonos mértékben


vagy jobban ellentmondó értékek tartománya

6.3. ábra. A fejek számának eloszlása 50 dobásból szabályos pénz esetén (az oszlo-
pok magassága az érték valószínűségével arányos). Megjelöltük azokat az értékeket,
amelyek annyira vagy jobban ellentmondanak a szabályosság hipotézisének, mint a
ténylegesen megfigyelt 9 fej

A binomiális eloszlás valószínűségeinek kiszámítása n = 50-re gépi se-


gítség nélkül órákig eltartana. Ezért annak idején, amikor még nem volt
számítógép, az ilyen p-értékeket közelítő számítások segítségével határozták
meg. A binomiális eloszlás, ha az n elég nagy, és a p sem
p túl kicsi (mondjuk,
ha np ≥ 10), elég jól közelíthető egy µ = np, σ = np(1 − p) paraméte-
rű normális eloszlással. A fenti példában np = 25 volt, tehát a normálissal
való közelítés (µ = 25 és σ = 3.536-tal) már elfogadható volna. (Közelítő p-
értékként így 0.0000116-ot kapnánk.) Természetesen az, hogy egy közelítés
mikor „elég jó”, az szubjektív megítélés dolga. Ez pedig szakterületenként
különbözhet, más lehet a pszichológiában, más a geológiában, így aztán az
egyes szakterületek művelőinek szóló irodalomban gyakran eltérő ajánláso-
kat találunk.
Ma már, hála a számítógépeknek, sok olyan feladatot megoldhatunk kö-
zelítő formulák nélkül, amelyekre 30–40 évvel ezelőtt még csak közelítő meg-
oldás létezett. Ha egy próbánál a nulleloszlást, illetve a nulleloszlásból a
p-értéket pontosan, közelítő formulák felhasználása nélkül hatá-
rozzuk meg, akkor azt mondjuk, hogy a próba egzakt (exact).
Ha olyan közelítő formulával dolgozunk, amely nagy mintákra
garantál jó közelítést, akkor nagymintás (large sample) vagy aszimp-
totikus (asymptotic) próbáról beszélünk.
170 Reiczigel – Harnos – Solymosi: Biostatisztika

űű
a H 0 fennállása esetén

p−érték:
ű
ő
nagyobb (a H 0 fennállása esetén)

a teszt−statisztika megfigyelt értéke a statisztika azon értékei, amelyek a H 0−nak


a megfigyeltnél jobban ellentmondanak

6.4. ábra. A p-érték normális nulleloszlás és egyoldali ellenhipotézis esetén

Az „aszimptotikus” kifejezés egy kicsivel többet jelent: azt, hogy a min-


taelemszám növelésével a közelítés tetszőlegesen pontossá tehető. Sok olyan
statisztika van, amelynek nulleloszlása növekvő mintaelemszám mellett egy-
re jobban közelíti a normális eloszlást. Ezeknél a nulleloszlás nagy mintákra
jó közelítéssel normálisnak tekinthető, ami praktikusan azt jelenti, hogy a
p-érték közelítő meghatározásához ekkor használhatjuk a normális eloszlást
(413. oldal).
A 6.4. ábra szintén a p-értéket szemlélteti abban az esetben, amikor a
statisztika eloszlása normális (vagy normálissal közelíthető). Látható a pár-
huzam az előzővel, amikor a nulleloszlás egy diszkrét eloszlás (binomiális)
volt. Az eloszlásokon kívül különbség az is, hogy ezen az ábrán az ellenhi-
potézis egyoldali.

6.2.3. Döntés a H 0 -ról p-érték nélkül


Statisztikai próbát p-érték nélkül is végezhetünk. Először is rögzítünk egy
még megengedhető tévedési valószínűséget, nevezetesen az elsőfajú hiba va-
lószínűségét, α-t (azaz annak a valószínűségét, hogy a H0 -t elvetjük, pedig
igaz). A gyakorlatban ez általában 5%. Ezután a teszt-statisztika érték-
készletét két részre osztjuk, az úgynevezett elfogadási tartományra (ac-
ceptance region), és az elutasítási vagy kritikus tartományra (rejection
region, critical region). Ha a próbastatisztika mintából számított értéke az
előbbibe esik, a H0 -t megtartjuk, ha pedig az utóbbiba, akkor elvetjük. Ha
a felosztást úgy végezzük, hogy a nullhipotézis fennállása esetén a kritikus
6.2. A hipotézisvizsgálat technikai kérdései 171

0 17 18 32 33 50

6.5. ábra. Elfogadási és elutasítási tartomány a pénzérme szabályosságának vizsgá-


latakor. Ha a fejek száma 18 és 32 közé esik, a H0 -t – az érme szabályosságát –
megtartjuk, ha pedig valamelyik szélső tartományba esik, elvetjük. E döntés elsőfajú
hibájának valószínűsége, azaz a kritikus (= elutasítási) tartomány valószínűsége a H0
fennállása esetén, 3.28%. (Az oszlopok magassága az egyes értékek valószínűségével
arányos)

tartomány valószínűsége éppen α, az elfogadási tartomány valószínűsége pe-


dig (1 − α) legyen, akkor a H0 téves elutasításának valószínűsége – azaz az
elsőfajú hiba valószínűsége – éppen α.

6.10. példa. Szabályos-e az érme - kritikus tartomány


Ha a pénzérme szabályosságáról 50 dobás alapján úgy akarunk dönteni, hogy az elsőfajú
hiba valószínűsége legfeljebb 5% legyen, ezt a 6.5. ábrán látható elfogadási és elutasítási
tartomány segítségével tehetjük. A szabályosság hipotézise mellett e tartományok való-
színűsége 0.9672, illetve 0.0328. Ebben a példában a nulleloszlás diszkrét volta miatt a
tartományokat nem tudjuk úgy megállapítani, hogy az elsőfajú hiba valószínűsége pon-
tosan 5% legyen. Ha a kritikus tartományt mindkét oldalon egy-egy ponttal bővítenénk,
akkor az elsőfajú hiba valószínűsége már 5% fölé, 0.0649-re emelkedne.

Az elfogadási és elutasítási tartományokat határoló értékek az úgyne-


vezett kritikus értékek (critical values). Az előző példában – lévén az
alternatíva kétoldali – két kritikus érték van, a 17 és a 33. Mivel itt a kri-
tikus tartomány is és a nulleloszlás is szimmetrikus, a kritikus tartomány
mindkét felének azonos a valószínűsége, ezért a kritikus tartomány való-
színűsége megkapható úgy, hogy az egyik felének a valószínűségét kettővel
szorozzuk.
A kritikus értékek valójában a nulleloszlás kvantilisei. A számítógépek
elterjedése előtti időben a különféle próbák nulleloszlásának 5%-os, 2.5%-
172 Reiczigel – Harnos – Solymosi: Biostatisztika

os, 1%-os stb. kritikus értékeit táblázatokba foglalták (ezek az úgynevezett


eloszlástáblázatok vastag köteteket töltöttek meg!), és a hipotézisvizsgála-
tokhoz ezeket a táblázatokat használták. Mutatóba néhány eloszlástábláza-
tot mi is közlünk a függelékben (409. oldal). Megjegyezzük, hogy a kritikus
érték a hipotézisvizsgálatban is ugyanazt jelenti, amit a valószínűségszámí-
tásban értettünk rajta (81. oldal).

6.11. példa. A standard normális eloszlás kritikus értékei


A standard normális eloszlás 5%-os elsőfajú hibához tartozó kritikus értéke egyoldali
ellenhipotézis esetén 1.645. Kétoldali ellenhipotézis esetén a két kritikus érték −1.96 és
1.96. A kritikus értékek jelentése a 6.6. ábráról leolvasható.
A normális eloszlás sűrűségfüggvényének szimmetriája miatt a kétoldali kritikus tar-
tomány két felének azonos a valószínűsége, 2.5-2.5%. Ezért az 1.96 egyben egyoldali
2.5%-os kritikus érték is.
Egy eloszlás kritikus értékeit az eloszlásfüggvénye inverzének segítségével számolhatjuk
ki. Az R-ben a normális eloszlás eloszlásfüggvényének inverze a qnorm() függvény (vö.
81. oldal). A normális eloszlás 5%-os egyoldali kritikus értékét a qnorm(0.95), a kétol-
dali kritikus értékeket pedig a qnorm(0.025) és a qnorm(0.975) szolgáltatja. Ugyanez
1%-osra qnorm(0.99), illetve qnorm(0.005) és qnorm(0.995).

Kétoldali kritikus tartományt általában is szimmetrikusra készítenek,


vagyis úgy, hogy mindkét oldalon azonos legyen a hiba-valószínűség. Ezért
általában is igaz, hogy az α elsőfajú hibához tartozó kétoldali kritikus érték
megegyezik az α/2 elsőfajú hibához tartozó egyoldalival.
Egyoldali esetben a statisztika értékét csak akkor kell összehasonlítani a
nulleloszlás kritikus értékével, ha az érték a H1 irányába esik; ha az ellenkező
irányba, akkor a statisztika értékétől függetlenül mindenképpen megtartjuk
a H0 -t. Kétoldali ellenhipotézis esetén bármelyik irányú eltérés elutasításra
vezethet, ha elég nagy. Ekkor ahhoz, hogy összességében 5% (illetve α)
legyen a hiba-valószínűség, mindkét oldalra 2.5%-nak (illetve α/2-nek) kell
esnie. Ez magyarázza az egyoldali és kétoldali kritikus értékek közötti fenti
összefüggést.
A bevezető statisztika kurzusok dolgozatfeladatait többnyire ezzel a mód-
szerrel, eloszlás-táblázatokból kiolvasott kritikus értékek segítségével kell
megoldani. A számítógépek kora előtt a kutatók is így számoltak. Az el-
járás egyszerű, hiszen a próbastatisztika mintából számított értékét csak
össze kell hasonlítani a táblázatban szereplő kritikus értékkel, és máris lát-
juk, hogy az eredmény szignifikáns-e a választott – például 5%-os – szinten.
Igaz, ennél pontosabban már nem lehet látni, hogy mennyire.
6.2. A hipotézisvizsgálat technikai kérdései 173

(a)

űű
a H 0 fennállása esetén

1.645
5%−os egyoldali
kritikus tartomány

(b)

űű
a H 0 fennállása esetén

−1.96 1.96

2.5% 2.5%

5%−os kétoldali
kritikus tartomány

6.6. ábra. Az 5%-os kritikus értékek jelentése normális nulleloszlás és egyoldali (a),
illetve kétoldali (b) ellenhipotézis esetén

Ma már a számítógépes programok egyenesen a p-értéket közlik, aminek


az az előnye is megvan, hogy az aktuális helyzetet pontosabban kifejezi, mint
ha csak egy előre rögzített, konvencionális szinten hoznánk meg a döntést.
Ha például a p-érték 0.011, akkor nemcsak azt tudjuk, hogy 5%-os szin-
ten szignifikáns, de 1%-os szinten már nem, hanem azt is látjuk rajta, hogy
sokkal közelebb van az 1%-hoz, mint az 5%-hoz. A 6.7. ábra szemlélteti
a kapcsolatot a fenti fix 5%-os szintű döntés, és a p-értéken alapuló dön-
174 Reiczigel – Harnos – Solymosi: Biostatisztika

űű
a H 0 fennállása esetén
a statisztika megfigyelt értéke

a megfigyelt értéknél jobban a H 0 ellen szóló


ű
a H 0 fennállása esetén a p−érték)

5%−os kritikus tartomány


ű H 0 fennállása esetén 5%)
5%−os kritikus érték

6.7. ábra. Az p-értéken alapuló és a kritikus tartomány megállapításával történő döntés


kapcsolata

tés között. Látható, hogy fenti döntés ekvivalens azzal a p-értéken alapuló
döntéssel, hogy „megtartjuk H0 -t, ha p ≤ 0.05, és elvetjük, ha p > 0.05”.
Ugyanis, ha a statisztika mintából számított értéke a kritikus tartományba
esik, akkor a p-értéket szolgáltató tartomány teljes egészében benne van a
kritikus tartományban, így valószínűsége legfeljebb 5%. Hasonlóképpen, ha
a statisztika mintából számított értéke nincs benne a kritikus tartomány-
ban (a megfelelő ábrát a Kedves Olvasó is elkészítheti), akkor a p-értéket
szolgáltató tartomány tartalmazza teljes egészében a kritikus tartományt,
így a p-értéknek legalább 5%-nak kell lennie.

6.2.4. Egyszerű és összetett hipotézisek


Egyszerű hipotézisnek (simple hypothesis) nevezzük az olyan hipo-
tézist, amelyet feltételezve a vizsgált változó(k) eloszlása egyértel-
műen meghatározott. Például „a testtömeg normális eloszlású µ = 81 kg
átlaggal és σ = 6 kg szórással”.
Összetett hipotézis (composite hypothesis) az olyan, amelyik több
egyszerű hipotézis egyesítésével, azaz „vagy”-gyal való összekap-
csolásával áll elő. Az összetett hipotézist alkotó egyszerű hipotéziseket a
továbbiakban az összetett hipotézis elemeinek nevezzük. Például „a test-
tömeg normális eloszlású µ = 81 kg átlaggal, ismeretlen szórással”. Ez az
összetett hipotézis végtelen sok egyszerű hipotézis egyesítése: elemei a 81 kg
átlagú normális eloszlások az összes elképzelhető szórással (ami még akkor
6.2. A hipotézisvizsgálat technikai kérdései 175

is végtelen sok eloszlás, ha a lehetséges szórásra megszabunk egy felső kor-


látot).
Összetett hipotézis esetén az lehet a gond, hogy a próbához kiválasztott
teszt-statisztika eloszlása nem határozható meg egyértelműen: a statisztika
eloszlása más és más lehet az összetett hipotézis különböző elemei mellett.

6.12. példa. Kék szeműek aránya – egyszerű és összetett hipotézisek


Legyen a hipotézisünk az, hogy egy populációban a kék szeműek aránya 10%! Vegyünk
a populációból egy tízelemű véletlen mintát, és teszteljük a hipotézist ennek alapján.
Próbastatisztikának válasszuk a kék szeműek számát a mintában. Láttuk, hogy a hipo-
tézis fennállása esetén ez a statisztika n = 10, p = 0.10 paraméterű binomiális eloszlást
követ, ez tehát egy egyszerű hipotézis. A statisztika eloszlását a 6.3. táblázat első so-
rában láthatjuk.

Az viszont, hogy a populációban a kék szeműek aránya legfeljebb 10%, már összetett
hipotézis: végtelen sok egyszerű hipotézis egyesítése, mint például H00 : a kék szeműek
aránya 1%, H000 : a kék szeműek aránya 4%, H0000 : a kék szeműek aránya 9% stb. Ezt a
hipotézist feltételezve a statisztika eloszlása nem egyértelmű, a hipotézis egyes elemei
esetén különböző eloszlásokat kapunk. A felsorolt három hipotézis melletti eloszlásokat
a 6.3. táblázat 2–4. soraiban találjuk.

6.3. táblázat. Kék szeműek száma tízelemű mintában a binomiális eloszlással model-
lezve, a populációbeli arányra (p) vonatkozó különböző hipotézisek mellett. A hatnál
nagyobb értékek valószínűségét azért nem szerepeltetjük, mert ezek mind a négy hipo-
tézis mellett négy tizedesjegyre nullák (0.0000) voltak

Kék szeműek száma a mintában


0 1 2 3 4 5 6 ...
Hipotézis
H0 : p = 0.10 0.3487 0.3874 0.1937 0.0574 0.0112 0.0015 0.0001 ...
H00 : p = 0.01 0.9044 0.0914 0.0042 0.0001 0.0000 0.0000 0.0000 ...
H000 : p = 0.04 0.6648 0.2770 0.0519 0.0058 0.0004 0.0000 0.0000 ...
H0000 : p = 0.09 0.3894 0.3851 0.1714 0.0452 0.0078 0.0009 0.0001 ...

Hasonlóképpen az is összetett hipotézis, hogy a kék szeműek aránya nem


10%, és az is, hogy több, mint 10%. Tehát, amikor kétoldali próbát végzünk
a H0 : p = 0.10, H1 : p 6= 0.10 hipotézisekkel, akkor a nullhipotézis egysze-
rű, az ellenhipotézis összetett. Amikor viszont egyoldali a próba, mondjuk
H0 : p ≤ 0.10, H1 : p > 0.10, akkor mindkét hipotézisünk összetett.
Az eddigiekben mindig csak olyan példákkal foglalkoztunk, amikor a null-
hipotézis egyszerű hipotézis volt, így a statisztika nulleloszlása és belőle a
176 Reiczigel – Harnos – Solymosi: Biostatisztika

p-érték egyértelműen meghatározható volt. Ha a H0 összetett, akkor minden


egyes eleméhez más-más nulleloszlás tartozhat. Kérdés, melyikből számoljuk
ekkor a p-értéket.
A szokásos megoldás az, hogy a H0 minden elemére kiszámoljuk a hozzá
tartozó nulleloszlást és az abból adódó p-értéket, majd vesszük a H1 szem-
pontjából „legrosszabb esetet”, vagyis a legnagyobb p-értéket. Ebben az a
logika, hogy ha a minta egy összetett H0 -nak akárcsak egy elemével
is jól összeegyeztethető, akkor már nem tekinthető bizonyítéknak
a H0 ellen. Vagy másképp fogalmazva, bármely minta csak annyira erős
bizonyíték egy összetett hipotézis ellen, amennyire azon eleme ellen, ame-
lyikkel legjobban összeegyeztethető.
Ha a H0 -nak végtelen sok eleme van, akkor a legnagyobb p-érték megkeresése némi
matematikai ügyeskedést igényel. Sőt, ilyenkor az is előfordulhat, hogy a p-értékek között
nincs legnagyobb: ekkor az úgynevezett felső határukat vesszük, azaz a legkisebb olyan
számot, amelyik mindegyiküknél nagyobb.

6.13. példa. Kék szeműek aránya – p-érték összetett hipotézis esetén


Vizsgáljuk most a H0 : p ≤ 0.10 nullhipotézist a H1 : p > 0.10 ellenében tízelemű
minta alapján! Tegyük fel, hogy a megfigyelt mintában hárman voltak kék szeműek, és
határozzuk meg az ehhez a mintához tartozó p-értéket a fentiek szerint!

Nyilvánvaló, hogy egy minta a H0 -nak annál inkább mond ellent a H1 javára, minél
több benne a kék szemű. Tehát a p-érték kiszámításához egyszerűen össze kell adni a
6.3. táblázat megfelelő sorában a 3, 4, 5 stb. értékekhez tartozó valószínűségeket. Így
a p-értékek az összetett H0 egyes elemeihez: a H00 -höz 0.0001, a H000 -höz 0.0062, a
H0000 -höz 0.0540. Ezekből a számokból – némi fantáziával, hiszen a H0 -nak csak három
elemét néztük meg – kiolvasható, hogy minél nagyobb a hipotézisben szereplő hipoteti-
kus valószínűség, annál nagyobb lesz a p-érték. Ebből az következik, hogy a legnagyobb
p-érték a H0 : p = 0.10 egyszerű hipotézisre adódik, számszerűen 0.0702, és a fentiek
szerint ezt tekintjük az összetett hipotézishez tartozó p-értéknek is.
Ha a Kedves Olvasó az összetett hipotézis további elemeire is szeretné látni a p-
értékeket, az R-ben a statisztika eloszlását a
dbinom(0:10, size = 10, prob = POPARÁNY)
paranccsal kapja meg, a POPARÁNY helyére írva a hipotetikus populációs arányt. A p-
érték pedig ebből a 3, 4, . . . , 10 értékekhez tartozó valószínűségek összegzésével adódik:

sum(dbinom(3:10, size = 10, prob = POPARÁNY)).

Egy kis hiszékenységgel az is elhihető, hogy egy összetett hipotézis „leg-


rosszabb esetnek” megfelelő elemét általában is a H0 és H1 határán találjuk.
Ez magyarázza azt, hogy az egyoldali tesztek hipotéziseit mindig úgy írják
6.2. A hipotézisvizsgálat technikai kérdései 177

fel, hogy a H0 -ban egyenlőséget írnak egyenlőtlenség helyett, így a hipoté-


ziseinket természetesebben tükröző

H0 : p ≤ 0.10, H1 : p > 0.10

helyett az irodalomban mindig csak a

H0 : p = 0.10, H1 : p > 0.10

felírással találkozhatunk.

6.2.5. Próba ereje


Említettük, hogy statisztikai hipotézisvizsgálat esetén mindig fennáll a té-
ves döntés lehetősége. Emlékeztetünk rá, hogy a H0 téves elvetését elsőfajú,
téves megtartását pedig másodfajú hibának neveztük (6.1.4. fejezet), és e hi-
bák valószínűségét α-val, illetve β-val jelöltük.
Egy próba erejének (power) az (1 − β) valószínűséget nevezzük.
Az erő tehát annak a valószínűsége, hogy a H1 fennállása esetén a
H0 -t – helyesen – elvetjük. Másképp fogalmazva: az erő a helyes döntés
valószínűsége a H1 igazsága esetén. Minél erősebb egy próba, annál kisebb a
másodfajú hiba valószínűsége – mondhatjuk, annál érzékenyebb a tesztünk
a H1 -re. (Azok számára, akik jártasak a diagnosztikai tesztek területén:
a statisztikai próba ereje a diagnosztikai teszt szenzitivitásának felel meg.)
A próbák erejét – ha mód van rá – igyekszünk legalább 80–90%-on tartani.
Természetesen egy próba ereje attól is függ, hogy a próbát mekkora meg-
engedhető α mellett végezzük. Az 5%-os elsőfajú hiba melletti erő nagyobb,
mint az 1%-os elsőfajú hiba melletti, ha minden más körülmény változatlan.
Mivel a H1 általában összetett hipotézis, a próbák ereje eltérő a H1 -et
alkotó különböző egyszerű hipotézisek esetén.

6.14. példa. Szabályos-e az érme – próba ereje


Nézzük meg, hogy a pénzérme szabályosságára vonatkozó tesztünknek (171. oldal)
mekkora az ereje az ellenhipotézis három elemére, mégpedig a H10 : p = 0.4-re, a
H100 : p = 0.7-re és a H1000 : p = 0.25-re! A kritikus tartományt ott úgy konstruáltuk,
hogy a döntés elsőfajú hibája 5% alatt maradjon: a kritikus tartomány a 0-tól 17-ig,
illetve a 33-tól 50-ig terjedő értékekből állt (kétoldali), az elsőfajú hiba valószínűsége
0.0328 volt.
178 Reiczigel – Harnos – Solymosi: Biostatisztika

Vegyük észre, hogy az erő, vagyis a helyes döntés valószínűsége H1 fennállása esetén
nem más, mint a kritikus tartomány valószínűsége a H1 mellett! Ezt most a H1 -nek
megfelelő binomiális eloszlásból számolhatjuk. Az erő H10 mellett 0.2371, H100 mellett
0.7822, H1000 mellett pedig 0.9449.
Sejthető volt, hogy minél szabálytalanabb az érme (minél jobban eltér a fej valószínűsé-
ge – akár felfelé, akár lefelé – az 50%-tól), annál erősebb lesz a teszt, annál biztosabban
észreveszi az érme szabálytalanságát.
A statisztika (a fejek száma) eloszlását a 6.8. ábra szemlélteti a különböző ellenhipotézi-
sek mellett. Az ábra a próba erejét mutatja a pénzérme szabályosságának vizsgálatakor
3.28%-os elsőfajú hiba mellett, három különböző ellenhipotézis esetén. Az elfogadási
és elutasítási tartomány ugyanaz, mint a 6.5. ábrán, de a tartományok valószínűsége –
így a próba ereje is – az ellenhipotézistől függően változik. Az erő a kritikus (= elutasí-
tási) tartomány értékeinek összvalószínűsége (az oszlopok magassága az egyes értékek
valószínűségével arányos).

Összetett ellenhipotézis esetén – ugyanúgy mint a p-értéknél – a szoká-


sos eljárás az, hogy a „legrosszabb esetben” érvényes erőt tekintjük erőnek,
azaz a H1 összes elemére kiszámoljuk a próba erejét, és vesszük ezek kö-
zül a legkisebbet (vagy ha nincs közöttük legkisebb, akkor az úgynevezett
alsó határukat, azaz a legnagyobb olyan számot, amelyik mindegyiküknél
kisebb.)
A gyakorlati esetek többségében azonban ennek a definíciónak nem sok
értelme van, mivel a legkisebb erőt általában a H1 valamely olyan eleme
mellett kapjuk, amely szakmailag már irreleváns különbségnek vagy hatás-
nak felel meg, tehát amelynek kimutatására szakmailag már nincs is szükség.
Több gyakorlati haszna van annak, ha a teszt erejét a H1 -nek arra az elemére
határozzuk meg, amely a legkisebb szakmailag még releváns különbségnek
vagy hatásnak felel meg. Ha a különbség vagy hatás ennél nagyobb, akkor
a próba ereje is nagyobb lesz. Ezt szemlélteti a 6.9. ábra.
Az R-ben több teszthez is van olyan függvény, amellyel erőt számolha-
tunk. A következő példában az elemzésre a kétmintás t-próbát alkalmazzuk
(részleteit lásd a 7.1.2. fejezetben, de a példa megértéséhez nem szükségesek)
a t.test() R-függvénnyel , az erőszámításra pedig az ehhez a teszthez tar-
tozó power.t.test() függvényt használjuk. A power.t.test() függvényt
nemcsak erőszámításra, hanem mintaelemszám-becslésre is használhatjuk
(186. oldal).
6.2. A hipotézisvizsgálat technikai kérdései 179

(a)

H1 : p = 0.4

0 17 18 32 33 50

(b)

H1 : p = 0.7

0 17 18 32 33 50

(c)

H1 : p = 0.25

0 17 18 32 33 50

6.8. ábra. A próba ereje pénzérme szabályosságának vizsgálatakor 3.28%-os elsőfajú


hiba mellett, három különböző ellenhipotézis esetén
180 Reiczigel – Harnos – Solymosi: Biostatisztika

a statisztika
sűrűségfüggvénye
H0 mellett
5%-os kritikus érték

95% 5%
kritikus tartomány
(valószı́nűsége H0 mellett 5%)

a statisztika sűrűségfüggvénye
H1 mellett

β 1−β

legkisebb szakmailag releváns


különbség vagy hatás
a statisztika sűrűségfüggvénye
H1 mellett

β 1−β

nagyobb különbség,
nagyobb erő (kisebb β)

6.9. ábra. Egy teszt erejét a legkisebb kimutatandó – azaz szakmailag releváns –
különbség vagy hatás mellett szokás meghatározni. Ennél kisebb különbség kimutatása
nem értelmes, ha pedig ennél nagyobb a különbség, akkor a teszt ereje is nagyobb

6.15. példa. Tehenek tejhozama – próba ereje


Takarmánykiegészítő hatását vizsgálták tejelő tehenek tejhozamára. A kísérletet
10-10 azonos laktációs stádiumban lévő állattal végezték, az állatokat véletlenszerűen
besorolva a kísérleti, illetve a kontrollcsoportba. A két csoport átlagos napi tejtermelése
19.3 ± 1.3 l/tehén/nap (kísérleti), 18.5 ± 1.2 l/tehén/nap (kontroll) volt. A különbség
kétmintás t-próbával vizsgálva nem bizonyult szignifikánsnak (p = 0.0829). Felmerül
azonban a kérdés, hogy ilyen kis mintaelemszám mellett elég nagy-e a próba ereje,
azaz elég alacsony-e a másodfajú hiba valószínűsége.
Tudjuk, hogy a próba ereje az ellenhipotézistől is függ, kérdés, hogy a jelen esetben
mekkora a legkisebb még kimutatandó (szakmailag releváns) különbség. Költség/haszon
számítás alapján 1.9 l/tehén/nap különbséget már nem lenne jó elszalasztani, tehát
ekkora különbségre számoljuk ki a teszt erejét.
Feltételezve, hogy a szórás 1.3 l/tehén/nap, az erő 93.3%-nak adódik, tehát ha a valódi
különbség 1.9 l/tehén/nap lenne, akkor azt csupán 6.7% valószínűséggel szalasztanánk
el. Nyugodtan elfogadhatjuk tehát a kapott negatív eredményt.
6.2. A hipotézisvizsgálat technikai kérdései 181

Csak a tanulság kedvéért számoljuk ki az erőt egy kisebb, mondjuk 1.5 l/tehén/nap
valódi különbségre is! Az jön ki, hogy ekkora különbségre a teszt ereje már csak 79.9%,
vagyis a teszt az 1.5 l/tehén/nap különbséget már több mint 20% valószínűséggel „nem
veszi észre”.
Az adatok és a számítások R-ben (ki a kísérleti és ko a kontrollcsoport, a t.test()
függvény végzi a tesztet, a power.t.test() függvény számolja az erőt):
> ki = c(19.3, 20.6, 21.7, 17.8, 20.0, 18.0, 17.6, 19.8, 18.9, 19.5)
> ko = c(19.0, 18.1, 20.4, 18.1, 20.0, 17.6, 18.3, 16.8, 19.6, 17.2)
> t.test(ki, ko, alternative = "greater")

Welch Two Sample t-test

data: ki and ko
t = 1.4449, df = 17.897, p-value = 0.08289
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
-0.1624280 Inf
sample estimates:
mean of x mean of y
19.32 18.51

> power.t.test(delta = 1.9, sd = 1.3, sig.level = .05,


+ type = "two.sample", alternative = "one.sided", n = 10)

Two-sample t test power calculation

n = 10
delta = 1.9
sd = 1.3
sig.level = 0.05
power = 0.9327725
alternative = one.sided

NOTE: n is number in *each* group

> power.t.test(delta = 1.5, sd = 1.3, sig.level = .05,


+ type = "two.sample", alternative = "one.sided", n = 10)

Two-sample t test power calculation

n = 10
delta = 1.5
sd = 1.3
sig.level = 0.05
power = 0.7985234
alternative = one.sided

NOTE: n is number in *each* group


182 Reiczigel – Harnos – Solymosi: Biostatisztika

6.3. További témák


6.3.1. Többszörös összehasonlítások (multiple comparisons)
A legtöbb vizsgálatban a megfigyelési egységeken több változót mérünk,
és ilyenkor, ha két csoportot hasonlítunk össze, csábító az összes változó
szempontjából összehasonlítani őket, „nehogy elszalasszunk valamit”. Ezzel
csak az a probléma, hogy ha az elsőfajú hiba valószínűségére min-
den egyes összehasonlításban 5%-os határt szabunk, akkor annak
a valószínűsége, hogy legalább egy összehasonlításnál elsőfajú hi-
bát követünk el, alaposan megemelkedhet (alpha inflation). És mivel
gyakran az a helyzet, hogy ha a két populáció között bármilyen szempontból
különbséget találunk, akkor levonjuk a következtetést, hogy „a két populáció
szignifikánsan különbözik”, ennek a végkövetkeztetésnek az elsőfajú hibája
5%-nál lényegesen nagyobb valószínűségű lehet. Hogy mennyire, az két do-
logtól függ: hogy hány összehasonlítást végzünk, és hogy ezek eredménye
mennyire korrelált.
Hogy mindig világos legyen, melyik alfáról beszélünk, jelzővel is meg
szokták különböztetni őket, így:
• összehasonlításonkénti alfa (comparisonwise alpha, per comparison
alpha), amelyet a továbbiakban αC -vel jelölünk;
• az egész vizsgálatra vonatkozó alfa (experimentwise alpha, familywise
alpha), a továbbiakban αE .
Ha az egyes összehasonlítások eredménye egymástól független, akkor
könnyű kiszámítani, mekkora lesz az egész vizsgálatra vonatkozó αE az
összehasonlításonkénti αC függvényében. Tegyük fel, hogy n összehason-
lítást végzünk, és az elsőfajú hiba valószínűsége mindegyiknél egymástól
függetlenül αC ! Nyilvánvaló, hogy annak a valószínűsége, hogy nem köve-
tünk el elsőfajú hibát, összehasonlításonként (1−αC ) (ellentett események).
Ekkor annak a valószínűsége, hogy az n közül egyszer sem fordul elő elsőfajú
hiba, a független események valószínűségére vonatkozó „szorzási szabállyal”
(56. oldal) (1 − αC )n , ahonnan annak a valószínűsége, hogy legalább egyszer
előfordul (ez az előzőnek ellentett eseménye), αE = 1 − (1 − αC )n .

6.16. példa. Többszörös összehasonlítások – az elsőfajú hiba megnövekedése


Ha mondjuk 15 összehasonlítást végzünk egyenként 5%-os hiba-valószínűség mellett,
akkor annak a valószínűsége, hogy a tizenötből legalább egyszer elkövetünk elsőfajú
hibát,
1 − (1 − 0.05)15 = 1 − 0.9515 = 1 − 0.463 = 0.537,
azaz több mint 50%.
6.3. További témák 183

Hasonló számolással azt kapjuk, hogy 45 összehasonlításnál már 90%-nál is nagyobb az


elsőfajú hiba egész vizsgálatra vonatkozó valószínűsége.
Játsszunk el a gondolattal, milyen könnyen „bebizonyíthatnánk” így akár azt is, hogy
nem mindegy, hogy valaki hétfőn vagy kedden született! Ehhez csak ki kell választanunk
elég sok hétfőn és kedden született embert – mondjuk ezret-ezret, nehogy valaki sze-
münkre hányhassa, hogy túl kis mintával dolgoztunk –, majd meg kell mérnünk minél
több adatukat (több százat sem gond, csupán testméretekből is van ennyi). Ezután már
csak a számítógépet kell dolgoztatnunk, és nagy valószínűséggel lesz néhány szignifi-
káns különbség a két csoport között.
Ennek a „szignifikanciavadászatnak” persze semmi haszna, de mégis – a publikációs
kényszer miatt, no meg azért, mert a lapok szívesebben közölnek szignifikáns eredmé-
nyeket – vannak, akik ezt csinálják.
A ravasz csaló persze nem árulja el, hogy a néhány szignifikáns különbséghez több
száz próbát kellett elvégeznie, hanem valami tetszetős magyarázattal áll elő, hogy miért
éppen ezeket a dolgokat mérte meg. Még szerencse, hogy ha mások is megismétlik a
vizsgálatot, nagy valószínűséggel kiderül a csalás!

Ha az egyes összehasonlítások eredménye egymástól nem független – és


általában ez a helyzet –, akkor csak annyit állíthatunk az összehasonlításon-
kénti és az egész vizsgálatra vonatkozó hiba-valószínűségek közötti összefüg-
gésről, hogy
αC ≤ αE ≤ n αC ,

ahol n az összehasonlítások száma.


Ezért, ha az egész vizsgálatra vonatkozó αE -t szeretnénk legfeljebb 5%-
os szinten tartani, akkor az αC -t kisebbre kell vennünk, mégpedig – a fenti
képlet szerint – ehhez αC = 0.05/n kell, hogy teljesüljön. Ez az úgyneve-
zett Bonferroni-féle korrekció: n összehasonlítás esetén csak azokat
az eredményeket tekintjük szignifikánsnak, amelyekhez tartozó p-
érték 0.05/n-nél kisebb. Sajnos – különösen ha sok összehasonlítást te-
szünk – a Bonferroni-korrekció használata a valódi különbségek kimutatását
is megnehezíti (csökkenti a teszt érzékenységét, erejét). Holm továbbfejlesz-
tette a módszert, ez a Bonferroni–Holm eljárás, azóta mindenki ezt használ-
ja az eredeti Bonferroni-féle helyett. De ezeken kívül is léteznek korrekciós
eljárások.
A manapság egyre terjedő FDR (False Discovery Rate) módszer népsze-
rűsége azzal magyarázható, hogy érzékenyebb, mint a többi eljárás, kisebb
különbségeket is szignifikánsnak találhatunk vele. Valójában ezt az érzé-
kenységnövekedést csupán azzal éri el, hogy nem tartja az egész vizsgálatra
vonatkozó alfát 5% alatt, hanem csak átlagosan 5%-os szinten. Ez azt je-
lenti, hogy e módszerrel várhatóan többször kapunk fals pozitív eredményt,
184 Reiczigel – Harnos – Solymosi: Biostatisztika

mint a többivel (vagyis a másodfajú hiba valószínűségét úgy csökkenti, hogy


közben megnövekszik az elsőfajú hiba valószínűsége).
Az R-ben a p.adjust() függvénnyel végezhetünk ilyen korrekciókat (vö.
378. oldal): a választható eljárásokról lásd az R súgóját. Általános esetben
a Bonferroni-Holm módszert javasoljuk (a Hochberg- és a Hommel-féle el-
járások csak bizonyos feltételek mellett használhatók). Mivel a p.adjust()
függvény közvetlenül a p-értékekkel operál, megvan az az előnye, hogy bár-
honnan származó p-értékeket beadhatunk neki, és visszaadja az azokból
számított korrigált p-értékeket.

6.17. példa. Korrekciók R-ben – többszörös tesztelés

> p.adjust(c(.01,.02,.03), method = "bonf")

[1] 0.03 0.06 0.09

> p.adjust(c(.01,.02,.03), method = "holm")

[1] 0.03 0.04 0.04

> p.adjust(c(.01,.02,.03), method = "fdr")

[1] 0.03 0.03 0.03

Többszörös összehasonlításokról szó lesz még a varianciaelemzéssel és a


lineáris modellekkel kapcsolatban is (lásd a 10. és a 11.10. fejezeteket).
Végül egy fontos figyelmeztetés: ne essünk át a ló túlsó oldalára sem! Ha
egy vizsgálatban több tesztet végzünk ugyan, de ezek eredményét nem kap-
csoljuk össze, nem építjük bele egy közös végkövetkeztetésbe, akkor semmi
szükség a korrekcióra!

6.3.2. Tesztek és konfidencia-intervallumok


A tesztek és konfidencia-intervallumok között szoros a kapcsolat: ha egy po-
pulációs jellemzőre tudunk konfidencia-intervallumot készíteni, akkor annak
alapján tesztelni is tudjuk, és viszont.
Ez nem is meglepő, ha belegondolunk, hogy
• amikor egy mintából konfidencia-intervallumot szerkesztünk egy po-
pulációs jellemzőre, akkor a mintához megkeressük a jellemzőnek azo-
kat az értékeit, amelyeknek a minta nem mond túlságosan ellent;
• amikor pedig tesztet végzünk, akkor a jellemző egy hipotetikus értéké-
hez keressük meg azokat a mintákat, amelyek annak nem mondanak
túlságosan ellent.
6.3. További témák 185

Ebben az értelemben a tesztelés és a konfidencia-intervallum szerkesztés


egymásnak inverz műveletei: az egyiknél egy mintához keressük a populációs
jellemző vele legjobban összhangban lévő értékeit, a másiknál pedig egy
hipotetikus értékhez keressük a vele legjobban összhangban lévő mintákat.
Először lássuk, hogyan kell konfidencia-intervallum segítségével tesztet
végezni! Az egyszerűség kedvéért gondoljunk a populációátlagra, de más
jellemzővel is ugyanígy megy a dolog! Jelöljük µ-vel az ismeretlen populá-
cióátlagot, és tegyük fel, hogy a H0 : µ = 10 hipotézist akarjuk tesztelni
a H1 : µ 6= 10 ellenében egy minta alapján, 5%-os elsőfajú hiba mellett!
A megoldás: készítsünk a mintából egy 95%-os konfidencia-intervallumot
a µ-re, és ha az tartalmazza a hipotetikus értéket – jelen esetben a 10-et
– akkor fogadjuk el a H0 -t, ha pedig nem, akkor vessük el. Ha a próba
elsőfajú hibáját α szinten akarjuk tartani, akkor (1 − α) szintű konfidencia-
intervallumot, ha egyoldali próbára van szükségünk, akkor egyoldali inter-
vallumot kell használnunk.
A másik irányban abból indulunk ki, hogy van egy 5%-os tesztünk a jel-
lemzőre, ami legyen most is az átlag, és legyen most is kétoldali a teszt, tehát
a hipotézisek H0 : µ = µ0 , H1 : µ 6= µ0 . Végezzük el a próbát az összes le-
hetséges hipotetikus µ0 -ra, és vegyük azoknak a µ0 -oknak a halmazát, ame-
lyekre a H0 -t nem vetettük el! Ezzel egy 95%-os konfidencia-intervallumot
kapunk a µ-re. Ezt a módszert „teszt-inverziónak” nevezik.
Egyes jellemzőkre ez nem lesz intervallum, lehetnek benne „lyukak”, de a módszer a
legtöbb gyakorlatilag fontos esetben működik. (De ha vannak is benne lyukak, azokat a
részeket is hozzávéve a halmazhoz intervallummá tehetjük.)

6.3.3. A szükséges mintaelemszám meghatározása


A becslésekkel kapcsolatban már szó volt arról (lásd 5.6. fejezet), hogy a
szükséges mintaelemszám a kívánt pontosság eléréséhez minimálisan szük-
séges mintaelemszámot jelenti. Kérdés, hogy próbákkal kapcsolatban mit
értsünk a „kívánt pontosság” alatt. Intuitíve egy próbát annál pontosabb-
nak tekintünk, minél ritkábban vezet téves döntésre, azaz minél kisebbek
az α és β hiba-valószínűségek. (A minél kisebb β helyett mondhatjuk azt is,
hogy minél nagyobb a teszt ereje.) Korábban azt is láttuk, hogy – mivel az
ellenhipotézis általában összetett – a β függ attól, hogy az ellenhipotézis-
nek melyik eleme igaz, és hogy az erőt az ellenhipotézisnek arra az elemére
érdemes kiszámolni, amely még szakmailag releváns különbséget (hatást,
összefüggést) tükröz.
Ugyanúgy mint a becslésnél, a szükséges mintaelemszám többnyire függ
a populáció más, ismeretlen paramétereitől is: populációátlagra vonatkozó
próbáknál például a vizsgált változó populációbeli szórásától. Valahogyan –
186 Reiczigel – Harnos – Solymosi: Biostatisztika

irodalomból, előkísérletből – az összes ilyen paramétert meg kell becsülni,


különben nem tudunk szükséges mintaelemszámot számolni.
Összefoglalva, a mintaelemszám-becsléshez szükséges adatok:
• az elsőfajú hiba még megengedett szintje, α;
• a legkisebb, szakmailag még releváns különbség (hatás, összefüggés);
• az erre a különbségre vonatkozóan a próbától elvárt erő (vagy a β);
• továbbá mindazok a paraméterek, amelyektől az adott próbánál az α
és a β függ (szórások, populációs arányok stb.).
És itt is már a vizsgálat tervezésekor el kell dönteni, hogy milyen próbát
fogunk alkalmazni, mert ettől is függ a szükséges mintaelemszám. Figyeljünk
arra is, hogy egy- vagy kétoldali próbát kívánunk-e alkalmazni, mert ez is
befolyással van a szükséges mintaelemszámra!
Az R-ben a valószínűségekre vonatkozó hipotéziseket tesztelő prop.test()
függvényhez a mintaelemszám-becslést a power.prop.test() függvénnyel
végezhetjük. Az átlagokra vonatkozó vizsgálatokhoz – t-próbához és varian-
cia-elemzéshez – a power.t.test() és a power.anova.test() függvények-
kel számolhatunk mintaelemszámot. (Bonyolultabb elemzésekhez érdemes
az interneten keresni mintaelemszám-becslést végző R-függvényt vagy más
programot, jó esély van rá, hogy találunk!)
Mindhárom említett függvény úgy működik, hogy a próba fent felsorolt
adataiból mintaelemszámot számolnak, ha pedig a mintaelemszámot adjuk
meg, akkor a próba erejét számolják ki (vö. a 6.15. példával, 180. oldal).
A függvények használatának további részleteiről lásd az R súgóját. Itt csak
egy példát mutatunk a power.prop.test() függvénnyel.

6.18. példa. Mastitis kezelése – mintaelemszám-becslés


Szarvasmarhák tőgy-gyulladásának kezeléséhez egy kiegészítő kezelést szeretnénk tesz-
telni. Az adjuváns kezeléstől azt várjuk, hogy a 75% körüli gyógyulási arányt 80% kö-
rülire növeli. Kérdés, hogy 5%-os elsőfajú hiba mellett 90%-os erő eléréséhez mekkora
mintaelemszám szükséges.
A megoldás a power.prop.test() függvénnyel:
> power.prop.test(p1 = 0.75, p2 = 0.80, sig.level = 0.05, power = 0.9,
+ alternative = "one.sided")
Two-sample comparison of proportions power calculation

n = 1192.781
p1 = 0.75
p2 = 0.8
sig.level = 0.05
power = 0.9
alternative = one.sided
NOTE: n is number in *each* group
6.3. További témák 187

Látjuk, hogy a helyzet eléggé reménytelen: ekkora várt különbség ilyen szintű és erejű
kimutatásához csoportonként 1200–1300 körüli beteglétszámra lenne szükség, az elő-
re nem látható kiesések miatt ugyanis érdemes némi ráhagyással dolgozni. Azt, hogy
mennyivel, azt az adott területet ismerő szakembernek kell megbecsülnie. A kísérlet így
minden valószínűség szerint túl költséges lenne, és túl hosszú ideig is tartana. De ha
csak úgy mintaelemszám-becslés nélkül belevágnánk, mondjuk 100-100 állattal, akkor
(számolja ki a Kedves Olvasó is!) az erő mindössze 21% lenne! Ez pedig azt jelenti,
hogy a kísérlet csaknem 80% valószínűséggel akkor is negatív eredménnyel zárulna, ha
a kezelés valóban hozná a tőle elvárt hatást.

6.3.4. Paraméteres és nemparaméteres eljárások


A hétköznapi szóhasználatban elterjedt, hogy a paraméteres (parametric)
eljárások azok az eljárások, amelyek feltételezik, hogy a vizsgált változó(k)
normális eloszlású(ak). A kifejezést a statisztikusok tágabb értelemben hasz-
nálják: olyan eljárások, amelyek csak egy bizonyos fajta eloszlás esetén
működnek helyesen (csak normálisra vagy csak exponenciálisra vagy csak
binomiálisra stb.). Ezzel szemben a nemparaméteres (nonparametric) el-
járások a vizsgált változó(k) eloszlásától többé-kevésbé függetle-
nül alkalmazhatók. Ezért ezeket a módszereket eloszlásfüggetlen vagy
eloszlásmentes (distribution-free) módszereknek is nevezik.
Illusztrációként nézzünk egy gyakran használt paraméteres próbát, az
egymintás Student-féle t-próbát (leírását lásd a 195. oldalon). Matematikai-
lag bizonyítható, hogy amennyiben a vizsgált X változó eloszlása normális,
akkor a
x̄ − µ
t= √
s/ n
statisztika – ahol x̄ a mintaátlagot, µ az X várható értékét, s a mintából
becsült szórást, n pedig a mintaelemszámot jelöli – (n − 1) szabadsági fokú
Student-féle t-eloszlást követ, tehát a szignifikancia (a p-érték) meghatá-
rozását erre az eloszlásra alapozhatjuk. Ha azonban az X nem normális
eloszlású, akkor a fenti statisztika sem lesz t-eloszlású, ezért az abból szá-
molt p-érték téves lesz, és végül is döntésünk hiba-valószínűsége (akár az
elsőfajú, akár a másodfajú) a névlegestől jelentősen eltérhet.
Az eloszlásfüggetlen eljárásokban vagy olyan ügyesen megválasztott pró-
bastatisztikát használnak, hogy annak eloszlása már ne függjön a vizsgált
változó eloszlásától, vagy a számítások előtt a vizsgált változót transzformál-
ják, például a mért értékekről rangokra térnek át, így a további számítások
már nyilvánvalóan függetlenek lesznek az eredeti eloszlástól. Vigyázzunk,
188 Reiczigel – Harnos – Solymosi: Biostatisztika

nehogy félrevezessen az elnevezés, ne higgyük, hogy az eloszlásfügget-


len eljárások mindig használhatók, alkalmazásuk semmilyen felté-
telhez nincs kötve! Természetesen ezek a módszerek sem működnek bár-
mely eloszlásra, csak eloszlásoknak egy viszonylag tágabb körére, és nekik
is vannak alkalmazhatósági feltételeik, amelyeket ellenőriznünk kell. Hogy
csak egy példát mondjunk, a Wilcoxon-féle előjeles rangpróba (leírását lásd
a 231. oldalon) alkalmazhatóságához a vizsgált változó eloszlásának szim-
metrikusnak kell lennie.
Itt is érvényes a „valamit valamiért” elve: ha tudjuk, hogy egy paraméte-
res eljárás feltételei teljesülnek, akkor jobb, ha azt használjuk, mert ilyenkor
hatékonyabb, mint a neki megfelelő nemparaméteres eljárás. (Hatékonyság
alatt érthetjük a következőt: két próba közül az a hatékonyabb, amelyiknek
ugyanazokkal a változókkal dolgozva ugyanakkora első- és másodfajú hiba-
valószínűséghez kisebb minta elegendő.) Ha viszont nem vagyunk biztosak
a feltételek teljesülésében, akkor jobb, ha nemparaméteres próbát haszná-
lunk, mert a feltételek nem-teljesülése esetén a paraméteres eljárás hiba-
valószínűségei a névlegesnél sokkal nagyobbak lehetnek. Figyelem! Ha a
kiválasztott nemparaméteres próba feltételei sem teljesülnek, akkor
annak alkalmazásától sem várhatunk megbízhatóbb eredményt!
A nemparaméteres módszerekkel kapcsolatban több félreértésre is fel kell
hívnunk a figyelmet. Sokan azt gondolják, hogy mindegyik paraméteres pró-
bának megvan a maga nemparaméteres megfelelője, amelyik ugyanazt a
nullhipotézist és alternatívát teszteli, csak éppen nem követel az eloszlá-
sokra vonatkozó feltevéseket. Gyakori vélekedés például, hogy a kétmintás
t-próbának a Mann–Whitney-próba a nemparaméteres megfelelője. (Néha
azzal kiegészítve, hogy a Mann–Whitney-próba nem az átlagokat, hanem a
mediánokat hasonlítja össze.) Sajnos azonban az az igazság, hogy a Mann–
Whitney-próbáról csak meglehetősen szigorú feltételek mellett állíthatjuk,
hogy az átlagokra vagy a mediánokra vonatkozó hipotéziseket vizsgál. Több
ilyen feltétel is van, talán a legismertebb az úgynevezett „shift-modell” (shift
= eltolás), amely azt tételezi fel, hogy az összehasonlítandó eloszlások azo-
nos alakúak, legfeljebb csak egy eltolásban különböznek (6.10. ábra). Ebben
a modellben a nullhipotézis az, hogy az eltolás 0, vagyis a két eloszlás azonos.
Az ellenhipotézis lehet egy- vagy kétoldali: előbbinél csak az egyik irányú
eltolás esetén utasítjuk el a H0 -t, utóbbinál bármelyiknél. Eltolást feltéte-
lezve az átlagok is és a mediánok is ugyanannyival különböznek (az eltolás
mértékével), tehát ebben a modellben a hipotéziseket mindegy, hogy az át-
laggal vagy a mediánnal fogalmazzuk-e meg. Általánosságban viszont nem
állíthatjuk, hogy a Mann–Whitney-próba a két átlagot, vagy akár a két
mediánt hasonlítaná össze.
6.3. További témák 189

6.10. ábra. Két azonos alakú sűrűségfüggvény, egyik a másikból d-vel való eltolással
adódik

Sajnos ugyanez a helyzet a legtöbb „paraméteres próba és nemparamé-


teres megfelelője” esetén: mások a hipotézisek, tehát gondolkodás nélkül
nem használhatjuk egyiket a másik helyett (vö. 6.1.3. fejezet). Mielőtt el-
döntenénk, hogy melyik nemparaméteres próbát fogjuk használ-
ni, gondoljuk végig, hogy teljesülnek-e a feltételei, és hogy azok
a hipotézisek, amelyeket az a teszt vizsgál, szakmai céljainknak
megfelelnek-e!
Egy másik gyakori félreértés, hogy a nemparaméteres módszerek azo-
nosak a rangokon alapuló módszerekkel. Valójában a rangmódszerek csak
egy kis szeletét alkotják a nemparaméteres módszereknek. Például az egyik
legegyszerűbb nemparaméteres próba, az előjelpróba (lásd 227. oldal) sem
rangokon alapul.
További félreértés, hogy a nemparaméteres és a robusztus vagy rezisz-
tens (robust, resistent) módszerek azonosak lennének. Az igazság az, hogy
a robusztus módszerek általában paraméteresek, feltételeznek egy bizonyos
eloszlást, de megvan az a jó tulajdonságuk, hogy akkor is helyesen működ-
nek, ha a vizsgált változó néhány százaléknyi „szemetet” – hibás, valójában
nem a vizsgált eloszlásból való megfigyelést, kiugró értéket – is tartalmaz.
Például a trimmelt átlag ilyen (lásd 107. oldal).
Megjegyezzük, hogy nemcsak tesztek lehetnek nemparaméteresek, hanem
konfidencia-intervallumok is. Példa erre a mediánra vonatkozó konfidencia-
intervallum. A módszer nagyon egyszerű és tanulságos, ezért röviden ismer-
tetjük.
190 Reiczigel – Harnos – Solymosi: Biostatisztika

Konfidencia-intervallum a mediánra

Tételezzük fel, hogy egy n elemű független mintánk van egy folytonos válto-
zóra. Rendezzük sorba a minta elemeit nagyság szerint, jelölje a rendezett
minta elemeit x∗1 , x∗2 ,. . . , x∗n . A konfidencia-intervallum konstrukciója na-
gyon egyszerű: a rendezett minta bármely két eleme közötti intervallumot
kiválasztva egy, a mediánra vonatkozó konfidencia-intervallumot kapunk.
Az i-edik és a j-edik közötti (x∗i , x∗j ) intervallum megbízhatósági szintje
j−1
X j−1
X i−1
X
pi + pi+1 + ... + pj−1 = pk = pk − pk ,
k=i k=0 k=0

ahol a pk valószínűségek az n, p paraméterű binomiális eloszlás valószínűsé-


gei, ahol n a mintaelemszám és, p = 0.5. A két szumma különbségeként való
felírás előnye, hogy az R-ben a pbinom() függvény éppen az ilyen szummá-
kat – az eloszlásfüggvényt – számolja (lásd a példában).
A megbízhatósági szint számításának magyarázata: az, hogy a medián az xi és az
xi+1 közé esik, azt jelenti, hogy az n megfigyelt érték közül i érték kisebb a mediánnál.
Ennek valószínűsége azért számolható az említett binomiális eloszlásból, mert – független
mintaelemeket feltételezve – minden egyes érték egymástól függetlenül 1/2 valószínűséggel
kisebb a mediánnál.

Jó stratégia a lehető legszélesebb intervallummal, (x∗1 , x∗n )-gal indulni,


és ezt – pontról pontra befelé lépegetve – addig szűkíteni, amíg a megbíz-
hatósági szint felülről a lehető legjobban megközelíti a megcélzott szintet,
például a 95%-ot. Mivel a megbízhatósági szint egy-egy beljebb lépéssel
nem folytonosan változik, általában nem lehet pontosan 90%-os vagy 95%-
os intervallumot készíteni, de ez nem baj, az eredményközlésben ilyenkor a
ténylegesen elért szintet közöljük. Ha túl kicsi a minta, akkor az is előfor-
dulhat, hogy már a kiinduló intervallum, (x∗1 , x∗n ) sem éri el a kívánt szintet,
ekkor sajnos nincs mit tenni.

6.19. példa. Elléstől az ovulációig eltelt idő – konfidencia-intervallum a mediánra


Egy vizsgálatban az elléstől az első ovulációig eltelt napok számát elemezték. Az alábbi
adatok első ellésű kancákon megfigyelt értékek (n = 24).
8 10 10 10 11 11 11 12 12 12 13 14 14 14 15 16 19 24 24 30 35 85 103 111

Az értékeket nagyság szerint rendeztük, azaz


x∗1 = 8, x∗2 = 10, . . . , x∗23 = 103, x∗24 = 111.
A minta mediánja (x∗12 +x∗13 )/2 = (14+14)/2 = 14. A lehető legszélesebb konfidencia-
intervallum a legkisebbtől a legnagyobb értékig terjed: (8, 111). Ennek megbízhatósági
szintje az n = 24, p = 0.5 paraméterű binomiális eloszlásból
6.3. További témák 191

23 0
X X
p1 + p2 + . . . + p23 = pk − pk .
k=0 k=0

Mivel ehhez a binomiálishoz nincsen táblázatunk, az R-rel számolunk:


> pbinom(23, size = 24, prob = 0.5) - pbinom(0, size = 24, prob = 0.5)

[1] 0.9999999

Látjuk, hogy ez az intervallum gyakorlatilag biztosan tartalmazza a valódi ismeretlen


mediánt (azt az időtartamot, amelyen belül az első ellésű kancák fele ovulál az ellés
után). De ez az intervallum hiába megbízható, annyira széles, hogy a gyakorlatban
semmire nem jó. Ha mondjuk 90%-os intervallumot szeretnénk, akkor a fenti interval-
lumot addig szűkítjük, amíg csak tehetjük anélkül, hogy a megbízhatósági szint 90%
alá kerülne: így eljutunk a (12, 19) intervallumhoz. Valójában juthatnánk másikhoz is,
mert a konfidencia-intervallumok általában nincsenek egyértelműen meghatározva, csak
ha további kikötéseket is teszünk, például, hogy legyen szimmetrikus, vagy a lehető leg-
rövidebb stb. (vö. 5.7. ábra).
A (12, 19) intervallum megbízhatósági szintjének meghatározásához azt kell figyelembe
venni, hogy a 12 a nyolcadik, a 19 pedig a 17-edik a rendezett mintában. Jegyezzük
meg, hogy ha több azonos érték van – ebben a példában a 12 ilyen –, akkor mindig a
legszélsőnek a sorszámát kell használnunk (az intervallum baloldali végpontja esetén a
bal szélsőét, jobboldali végpontja esetén pedig a jobb szélsőét)! A megbízhatósági szint
ennek alapján
p8 + p9 + . . . + p16 .
> pbinom(16, size = 24, prob = 0.5) - pbinom(7, size = 24, prob = 0.5)

0.9360853

Tehát a (12, 19) intervallum megbízhatósági szintje 93.6%.

Egy megjegyzés a terminológiáról. Az „eloszlásfüggetlen” kifejezés a fentiek alapján


kétségkívül találó és érthető. De honnan ered a „nemparaméteres” elnevezés? Bevezető
statisztika kurzusokon a leggyakoribb magyarázat a következő: „a paraméteres módszerek-
kel az eloszlás paramétereire (átlagra, szórásra stb.) vonatkozó vizsgálatokat végezhetünk,
míg a nemparaméteres módszerek az egész eloszlást vizsgálják (illeszkedésvizsgálat, füg-
getlenségvizsgálat stb.), nem annak egyes paramétereit”. Később az ember meglepődik,
hogy akkor a mediánra vonatkozó vizsgálatok vajon miért számítanak mégis nemparamé-
teresnek. Hogy ezt tisztázhassuk, be kell vezetnünk az „eloszlás paramétere” fogalmát.
Emlékezzünk vissza, hogy a névvel nevezett eloszlások, például a „binomiális eloszlás”
vagy a „normális eloszlás” alatt mindig egy eloszlástípust vagy -családot értünk, amelybe
végtelen sok eloszlás tartozik úgy, hogy a „családtagokat” a családon belül néhány érték
(a binomiálisnál az n és a p, a normálisnál a µ és a σ) már egyértelműen azonosítja! Ezek
az értékek az eloszlás paraméterei.
Például a normális eloszlások családjában elegendő tudni valakiről a µ-jét és a σ-ját, és
már pontosan tudjuk, „kivel” állunk szemben: ezért bármely vizsgálat szorítkozhat csupán
e két paraméterre. Ha becslésről van szó, elegendő megbecsülni a µ-t és a σ-t, ha pedig
tesztelni akarunk, akkor elegendő a µ-re vagy a σ-ra vonatkozó hipotéziseket vizsgálni.
192 Reiczigel – Harnos – Solymosi: Biostatisztika

Ilyen értelemben az összes folytonos eloszlás – mint család – nem paraméteres: a családta-
gok nem azonosíthatók egyértelműen néhány érték segítségével. (Lazán fogalmazva: ez a
család túl népes ahhoz, hogy tagjait véges sok számmal egyértelműen jellemezhetnénk.) A
fenti értelemben tehát ebben a családban sem az átlag, sem a medián nem paraméterek,
mivel nem azonosítják egyértelműen a család tagjait, bár a szó hétköznapi értelmében
paraméternek neveznénk őket. Ezért az olyan módszereket, amelyeket ebben a családban
való vizsgálódásra dolgoztak ki, nem nevezzük paraméteresnek, vonatkozzanak akár a
medián, akár az átlag vizsgálatára.
7. Gyakran használt statisztikai
próbák
Ebben a fejezetben sorra vesszük a legismertebb statisztikai próbákat. Egy-
részt azokat, amelyeket az adatelemzésben rutinszerűen, szinte nap mint
nap alkalmazunk, másrészt azokat, amelyeket annak ellenére, hogy a gya-
korlatban már nem használunk, a fogalmak jobb megértése érdekében, a
tanulság kedvéért mégis minden bevezető statisztika kurzuson ismertetünk.
Mindegyik próbához egy mondatban leírjuk a vizsgálat célját, megadjuk
a null- és ellenhipotézist, valamint a próba alkalmazhatósági feltételeit. Eze-
ket mind az R-rel dolgozni kívánó kutatóknak, mind a bevezető statisztika
kurzusok hallgatóinak ismerniük kell.
Ezután megadjuk a próbát végrehajtó R-függvényt és/vagy a próba-
statisztika képletét és nulleloszlását. Utóbbiakra elsősorban azoknak van
szükségük, akik a statisztika dolgozatra szeretnének felkészülni a könyvből,
ezért ezeket elhagyjuk azoknál a próbáknál, amelyek nem szerepelnek a be-
vezető kurzusok anyagában. Ha valakit a képlet mégis érdekelne, vagy a
teszt mögötti elméletre kíváncsi, akkor nézze meg az R-függvény leírását
(help(függvénynév) vagy ?függvénynév), abban mindig talál hivatkozást
olyan cikkre vagy könyvre, amelyből az elmélet megismerhető. Az eloszlás-
táblázatok rejtelmeibe sem kívánjuk bevezetni az olvasót, de egy-egy pél-
dában azért ezekre is kitérünk, és a leggyakrabban használt táblázatokat a
függelékben közöljük.
Megjegyezzük, hogy a próbák elnevezése nem mindig egyértelmű: egy
tesztnek több neve is lehet, és különböző teszteknek is lehet azonos neve.
Ennek egyik oka, hogy a próbák neve általában vagy megalkotójuk, vagy a
nulleloszlás nevéből származik (Kolmogorov–Szmirnov-próba, khi-négyzet-
próba). Mivel ugyanahhoz a személyhez és ugyanahhoz a nulleloszláshoz
is több próba tartozhat, olykor nem könnyű kitalálni, hogy adott esetben
melyikről van szó.

193
194 Reiczigel – Harnos – Solymosi: Biostatisztika

Az alábbiakban a próbákat a vizsgálat jellege szerint csoportosítjuk: át-


lagok, szórások, mediánok, eloszlások és valószínűségek vizsgálata. Amelyik
problémára több elterjedt teszt is létezik, ott mindegyiket ismertetjük.
A gyakorlatban a próbák alkalmazhatósági feltételeinek teljesülését (nor-
mális eloszlás stb.) általában grafikus módszerekkel szokás ellenőrizni, amire
az R grafikus lehetőségei igen alkalmasak.

7.1. Várható értékekre (populációátlagokra)


vonatkozó próbák
7.1.1. Egy várható érték
Egy ismeretlen várható értéket vagy populációátlagot (µ) hasonlítunk össze
egy hipotetikus értékkel (µ0 ).
Nullhipotézis: H0 : µ = µ0 , ahol µ az ismeretlen várható érték (populá-
cióátlag), µ0 pedig a hipotetikus érték.
Ellenhipotézis:
• H1 : µ 6= µ0 (kétoldali ellenhipotézis), vagy
• H1 : µ < µ0 vagy H1 : µ > µ0 (egyoldali ellenhipotézisek).

A) Egymintás z-próba (one-sample z-test)

Feltétel: Normális eloszlású változó ismert (értsd: nem a vizsgált mintá-


ból becsült) szórással.
R-függvény: z.test() a TeachingDemos könyvtárból (Snow 2016).
Statisztika:
x̄ − µ0
z= √ ,
σ/ n
ahol x̄ a mintaátlag, σ a populáció ismert szórása, n a minta elemszáma.
Nulleloszlás: Standard normális.
Megjegyzések:
1. A z-próbát sokhelyütt u-próbának nevezik.
2. Ha nagy a minta (n ≥ 30), akkor közelítőleg érvényes a próba akkor is,
ha a vizsgált változó nem normális eloszlású (persze a közelítés jósága
attól függ, hogy a változó eloszlása mennyire tér el a normálistól: minél
inkább, annál nagyobb minta kell a jó közelítéshez).
7.1. Várható értékekre (populációátlagokra) vonatkozó próbák 195

3. A gyakorlatban a z-próbát nemigen használjuk, mert ritka az olyan eset,


amikor a szórást nem a mintából becsüljük, hanem valahonnan máshon-
nan tudjuk. Használata ezért inkább csak a bevezető statisztika kurzu-
sokra korlátozódik (ez magyarázza, hogy az R-ben is a TeachingDemos
könyvtárban található).

B) Egymintás Student-féle t-próba (one-sample Student’s t-test)

Feltétel: Normális eloszlású változó, ismeretlen szórással.


R-függvény: t.test().
Statisztika:
x̄ − µ0
t= √ ,
s/ n
ahol s a mintából számolt (tapasztalati) szórás.
Nulleloszlás: Student-féle t-eloszlás (n − 1) szabadsági fokkal.
Megjegyzések:
1. Látható, hogy a z- és a t-próba csak abban különbözik, hogy a szórást
a mintából becsüljük-e, és hogy a kritikus értékeket a normális vagy a
t-eloszlásból kapjuk-e.
2. Nagy mintára (n > 50) a szórás már elég pontosan becsülhető, és a t-
eloszlás kritikus értékei sem térnek el lényegesen a normális eloszlásétól,
ezért ekkor mintából becsült szórások esetén sem számít hibának a z-
próba használata (ez csak a statisztika dolgozatra vonatkozik, amikor
papíron kell számolnunk, egyébként inkább a t-próbát használjuk).

7.1. példa. Vizsgapontszámok – egymintás z- és t-próbák


Új módszerrel való oktatásra áttérve az első vizsganapon vizsgázók (63 fő) eredményé-
nek átlaga 59.2, szórása 11.5 pont volt. A régi oktatási módszer mellett a vizsgapont-
számok többéves tapasztalatok szerint közelítőleg normális eloszlásúak voltak 54.1 pont
átlaggal és 14.1 pont szórással.
Bizonyítják-e ezek az adatok, hogy az új módszer eredményesebb? Döntsünk α = 0.01
szinten (azaz 1% elsőfajú hibával)!
A „többéves tapasztalatok szerint” mintaelemszám megadása nélkül azt jelenti, hogy
nem egy konkrét minta, hanem nagyon sok korábbi vizsgázó adatairól van szó. Ezért
a korábban érvényes átlagot és szórást ismert értékeknek tekintjük, amelyekhez a mos-
tani 63 fős minta eredményeit hasonlítani szeretnénk, azaz egymintás próbát végzünk.
(Mintaelemszám hiányában kétmintás próbát nem is tudnánk végezni.)
Kérdés, hogy a korábbi évek 14.1 pontos szórásával számoljunk-e mint ismert szórás-
sal – ekkor z-próbát végezhetünk –, vagy a mostani mintából számított 11.5 pontos
196 Reiczigel – Harnos – Solymosi: Biostatisztika

szórással – ekkor t-próbát kell végeznünk. A z-próba alkalmazásához az ad jó alapot,


hogy a korábbi évek szórása sokkal több megfigyelés adataiból származik. Ráadásul még
az az előnye is megvan, hogy nagyobb, mint a jelen mintabeli szórás, tehát a döntés
elsőfajú hibájának a valószínűsége így kisebb lesz. Igaz, a másodfajú hiba valószínűsége
meg nagyobb lesz, de mi – ahogy ez általában is szokás – elsősorban az α-t szeretnénk
kordában tartani.

A gyakorlás kedvéért mind a két próbát végigszámoljuk.


Először lássuk a z-próbát! A próbastatisztika:
59.2 − 54.1 5.1 5.1
√ = = = 2.87.
14.1/ 63 14.1/7.94 1.78
A normális eloszlás 1%-os kritikus értéke 2.326, ennél a statisztika nagyobb, tehát a
nullhipotézist 1% elsőfajú hiba mellett elvethetjük.
A normális eloszlás táblázatából a p-értéket is kiolvashatjuk: p = 1 − 0.9979 = 0.0021.

Ha t-próbát alkalmazunk, akkor a mintából becsült szórást használjuk. A statisztika:


59.2 − 54.1 5.1 5.1
√ = = = 3.52.
11.5/ 63 11.5/7.94 1.45
Ezt az értéket a 62 szabadsági fokú t-eloszlás 1%-os kritikus értékéhez kell hasonlíta-
nunk. Mivel a táblázatunk nem elég részletes, közelítésként használjuk a 60 szabadsági
fokú t-eloszlást. A kritikus érték 2.390, aminél a statisztikánk nagyobb, tehát elvetjük
a nullhipotézist. A t-eloszlás táblázatából p-értéket nem tudunk számolni.

7.1.2. Két várható érték, független minták


Két ismeretlen várható értéket (µ1 és µ2 ) hasonlítunk össze egymással a
két populációból vett két független minta alapján. A „két független minta”
azt jelenti, hogy a két minta kiválasztása egymástól függetlenül történt (vö.
párosított minták, 7.1.3. fejezet).
Nullhipotézis: H0 : µ1 = µ2 .
Ellenhipotézis:
• H1 : µ1 6= µ2 (kétoldali ellenhipotézis), vagy
• H1 : µ1 < µ2 vagy H1 : µ1 > µ2 (egyoldali ellenhipotézisek).
Megjegyzés: Az alábbi módszerek valójában nem csak az átlagok egyen-
lőségének vizsgálatára használhatók. A nullhipotézis lehet az is, hogy a két
átlag közötti különbség egy adott hipotetikus értékkel (d) egyenlő, azaz
H0 : µ1 − µ2 = d. Ilyenkor természetesen az ellenhipotézis is értelemszerűen
módosul. Az alkalmazásokban mégis leggyakrabban a különbség 0 voltát,
azaz az átlagok egyenlőségét szokták tesztelni.
7.1. Várható értékekre (populációátlagokra) vonatkozó próbák 197

A) Kétmintás z-próba (two-sample z-test)

Feltétel: Normális eloszlású változók ismert szórásokkal.


Statisztika:
x̄1 − x̄2
z=s ,
σ12 σ22
+
n1 n2

ahol x̄1 , x̄2 a két mintaátlag, σ1 , σ2 a két ismert (értsd: nem ezekből a
mintákból becsült) szórás, n1 , n2 a minták elemszáma.
Nulleloszlás: Standard normális.
Megjegyzés: Közelítőleg használható akkor is, ha a változók eloszlása nem
normális, feltéve, hogy a minták legalább 30-30 eleműek.

B) Kétmintás t-próba (two-sample Student’s t-test)

Feltétel: Normális eloszlású változók, a szórások ismeretlenek, de tudjuk


(vagy feltételezzük), hogy egyenlők. Ezért úgy is nevezik, hogy „t-próba
egyenlő varianciák esetére” (t-test for equal variances).
Ha nem tudjuk, hogy mit gondoljunk a szórások egyenlőségéről, alkalmaz-
zunk inkább Welch-próbát (lásd alább). Elméletileg nem megalapozott az a
– sok kritika ellenére is eléggé elterjedt – megoldás, hogy a szórások egyen-
lőségét statisztikai próbával (például F -próbával) teszteljük, és annak ered-
ménye szerint alkalmazzuk vagy ezt a próbát, vagy a Welch-próbát.
R-függvény: t.test() a var.equal = T paraméter megadásával.
Statisztika:
x̄1 − x̄2
t= s ,
s2 s2
+
n1 n2

ahol s2 a közös variancia becslése a mintánkénti szórásokból:

(n1 − 1)s21 + (n2 − 1)s22


s2 = ,
n1 + n 2 − 2

x̄1 , x̄2 a két mintaátlag, s1 , s2 a két minta szórása, n1 , n2 a minták elem-


száma.
Nulleloszlás: Student-féle t-eloszlás (n1 + n2 − 2) szabadsági fokkal.
198 Reiczigel – Harnos – Solymosi: Biostatisztika

C) Welch-próba (Welch test)

Feltételek: Normális eloszlású változók, a szórások ismeretlenek, és nem


feltétlenül egyenlők. Ezért úgy is nevezik, hogy „t-próba nem egyenlő vari-
anciák esetére” (t-test for unequal variances).
R-függvény: t.test().
Statisztika:
x̄1 − x̄2
tW = s ,
s21 s22
+
n1 n2
ahol x̄1 , x̄2 a két mintaátlag, s1 , s2 a két minta szórása, n1 , n2 a minták
elemszáma.
Nulleloszlás: Közelítőleg Student-féle t-eloszlás nW szabadsági fokkal,
ahol !2  !
s21 s22 s41 s42
nW = + + .
n1 n2 n21 (n1 − 1) n22 (n2 − 1)
A kritikus érték táblázatból való kikereséséhez az nW -t kerekíteni kell,
mivel a táblázat csak egész szabadsági fokokat tartalmaz.
Megjegyzés: Bár a Welch-próba csak közelítőleg érvényes, sok vizsgálat
szerint megfelelően pontos és hatékony, ezért alkalmazása általánosan elfo-
gadott.

7.2. példa. Bikák és üszők születéskori testtömege – kétmintás t-próba


Bizonyítják-e az alábbi minták, hogy a bikaborjak átlagos születéskori testtöme-
ge nagyobb, mint az üszőké?

Bika (kg): 46 32 23 32 33 48 32
Üsző (kg): 27 37 35 41 35 34 43 38 40

Lévén a minták kicsik és a szórások ismeretlenek – a dolgozat-feladatokban ez onnan


derül ki, hogy nincsenek megadva – a t-próba valamelyik változatát kell elvégeznünk.
Mivel a feladat szövegében semmi nem utal arra, hogy feltételezhetnénk a szórások
egyenlőségét, Welch-próbát végzünk.
Először is kiszámoljuk az átlagokat és a szórásokat: bikák 39.3 ± 5.62 kg, üszők 36.7 ±
4.72 kg. Ebből a próbastatisztika értéke:
39.3 − 36.7 2.6
tW = p = = 0.985.
2 2
5.62 /7 + 4.72 /9 2.64
7.1. Várható értékekre (populációátlagokra) vonatkozó próbák 199

A szabadsági fok a fenti képlet szerint:


 2   
5.622 4.722 5.624 4.724
nW = + + 2 = 11.74.
7 9 7 ·6
2 9 ·8

Az ellenhipotézis egyoldali, és a mintaátlagok viszonya az ellenhipotézist támogatja (a


bikák átlaga nagyobb). Hogy eldönthessük, vajon a különbség szignifikáns-e, a próba-
statisztika értékét összehasonlítjuk a 12 szabadsági fokú t-eloszlás kritikus értékével,
1.782-vel. Mivel a statisztika kisebb a kritikus értéknél, a nullhipotézist megtartjuk.
Ezek a minták tehát nem bizonyítják, hogy a bikák születéskori testtömege nagyobb
lenne, mint az üszőké.

A megoldás R-rel:

> b = c(46, 37, 39, 37, 33, 48, 35)


> u = c(27, 37, 35, 41, 35, 34, 43, 38, 40)
> t.test(b, u, alternative = "greater")

Welch Two Sample t-test

data: b and u
t = 0.9912, df = 11.736, p-value = 0.1708
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
-2.099368 Inf
sample estimates:
mean of x mean of y
39.28571 36.66667

Az R konfidencia-intervallumot is ad az átlagok különbségére. Figyeljük meg, hogy ha az


ellenhipotézis egyoldali, akkor a konfidencia-intervallum is egyoldali lesz, jelen esetben
(−2.1, ∞).

Csupán a számítások gyakorlása végett oldjuk meg ugyanezt a feladatot a szórások


egyenlőségét feltételezve is. A közös variancia becslése:
6 · 5.622 + 8 · 4.722
s2 = = 26.27,
7+9−2

amivel a próbastatisztika:
39.3 − 36.7 2.6
t= p = = 1.01.
26.27/7 + 26.27/9 2.58

Ezt a 9 + 7 − 2 = 14 szabadsági fokú t-eloszlás 5%-os kritikus értékéhez kell hasonlítani.


A kritikus érték 1.761, tehát a nullhipotézist most is megtartjuk.
200 Reiczigel – Harnos – Solymosi: Biostatisztika

A megoldás R-rel:
> t.test(b, u, alternative = "greater", var.equal = T)

Two Sample t-test

data: b and u
t = 1.0145, df = 14, p-value = 0.1638
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
-1.928194 Inf
sample estimates:
mean of x mean of y
39.28571 36.66667

7.1.3. Két várható érték, párosított minták


Két ismeretlen várható értéket vagy populációátlagot (µ1 és µ2 ) hasonlítunk
össze egymással a két populációból vett párosított minták alapján. Ilyenkor
a két minta vagy ugyanazon megfigyelési egységek kétszeri megfigyeléséből,
vagy összetartozó párok – házastársak, ikrek stb. – megfigyeléséből szárma-
zik. (Ekkor tehát a két minta nem független egymástól.) Megjegyezzük, hogy
ha tehetjük, érdemes párosított mintákkal dolgozni, mert feltéve, hogy min-
den más körülmény azonos, a párosított mintás vizsgálatok érzékenyebbek
(ugyanakkora mintaelemszám mellett kisebb különbségeket képesek kimu-
tatni), mint a független mintás vizsgálatok.
Nullhipotézis: H0 : µ1 = µ2 .
Ellenhipotézis:
• H1 : µ1 6= µ2 (kétoldali ellenhipotézis), vagy
• H1 : µ1 < µ2 vagy H1 : µ1 > µ2 (egyoldali ellenhipotézisek).

Páros t-próba (paired t-test)

Feltétel: A változók különbségének normális eloszlásúnak kell lennie. (Fi-


gyelem! Nem szükséges az, hogy mindkét változó normális eloszlású legyen,
elegendő, ha a különbség az.) Nagy minták esetén (n ≥ 30) közelítő ér-
vénnyel használható akkor is, ha a különbség nem normális eloszlású.
R-függvény: t.test() a paired = T paraméter megadásával.
7.1. Várható értékekre (populációátlagokra) vonatkozó próbák 201

Statisztika:

t= √ ,
sd / n

ahol d¯ a különbségek átlaga, sd a különbségek becsült szórása, n a min-


taelemszám (úgy értve, hogy mindkét minta n elemű, vagyis n a párok
száma!).
Nulleloszlás: Student-féle t-eloszlás (Egyoldali esetben arra is figyeljünk,
hogy amikor a különbséget számoltuk, melyik értéket vontuk ki a másikból!)
Megjegyzések:
1. Nagy minták esetén (n ≥ 50) a t-eloszlás kritikus értékei helyett itt
is használhatjuk a normális eloszlás kritikus értékeit (ekkor páros z-
próbáról beszélünk).
2. Itt is tesztelhető a H0 : µ1 − µ2 = d0 hipotézis nullától különböző d0 -ra.
3. A páros t-próba minden szempontból ugyanaz, mint egy egymintás teszt
a különbségekre.

7.3. példa. Első és második gyermek születéskori testtömege – páros t-próba


Az alábbi táblázat 10 találomra választott anya első és második gyermekének születés-
kori testtömegét (gramm) tartalmazza.

Első gyermek 3490 3440 3300 3170 3260 3580 3250 2870 3020 3030
Második gyermek 3840 3520 3420 3480 3030 4030 3020 3230 3010 3100

Bizonyítják-e az adatok, hogy a második gyermek születéskori testtömege meghaladja


az elsőét?

Megoldás, papíron számolva:


A párok közötti különbségek: −350, −80, −120, −310, 230, −450, 230, −360, 10, −70.
A különbségek átlaga: d¯ = −127, szórása: sd = 240.6, a próbastatisztika értéke:
t = −1.669.
A 9 szabadsági fokú t-eloszlás 5%-os kritikus értéke 1.833, tehát a különbség nem szig-
nifikáns.

Megoldás R-rel:
> elso = c(3490, 3440, 3300, 3170, 3260, 3580, 3250, 2870,
+ 3020, 3030)
> masodik = c(3840, 3520, 3420, 3480, 3030, 4030, 3020, 3230,
+ 3010, 3100)
202 Reiczigel – Harnos – Solymosi: Biostatisztika

> t.test(elso, masodik, alternative = "less", paired = T)

Paired t-test

data: elso and masodik


t = -1.6692, df = 9, p-value = 0.06471
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf 12.47327
sample estimates:
mean of the differences
-127

7.1.4. Kettőnél több várható érték


Három vagy több ismeretlen várható értéket vagy populációátlagot, hason-
lítunk össze egymással k független minta alapján.
Nullhipotézis: A várható értékek mind egyenlők egymással, azaz
H0 : µ1 = µ2 = . . . = µk .
Ellenhipotézis: Nem mind egyenlők (van legalább kettő, amelyik külön-
bözik).
Feltétel: A vizsgált változó mind a k populációban normális eloszlású,
azonos szórással.
Az összehasonlítás varianciaelemzéssel történik, a módszer részleteit és
az R-függvényeket lásd a 10. fejezetben.

7.2. Varianciákra vonatkozó próbák


Két megjegyzés ezekhez a próbákhoz:
1. Gyakori tévedés, hogy – az átlagokra vonatkozó tesztekhez hasonlóan
– nagy minták esetén itt sem szükséges feltétel a változók normalitása.
Jegyezzük meg, hogy a varianciákra vonatkozó próbák alkalmazható-
ságához a vizsgált változók eloszlásának a mintanagyságtól függetlenül
normálisnak kell lennie, kivéve a Levene-próbát!
2. Mivel a szórás a variancia négyzetgyöke, a varianciákra vonatkozó alábbi
próbák akkor is helyes eredményre vezetnek, ha az eredeti kérdésünk a
szórásokra vonatkozik. Az, hogy a vizsgált változó szórása kisebb, na-
gyobb vagy egyenlő egy hipotetikus értékkel, pontosan ugyanakkor tel-
jesül, amikor a varianciája kisebb, nagyobb vagy egyenlő a szóban forgó
7.2. Varianciákra vonatkozó próbák 203

érték négyzetével. Hasonlóan, két változó szórása ugyanakkor egyenlő,


amikor a varianciájuk stb.

7.2.1. Egy variancia


Egy ismeretlen σ 2 varianciát hasonlítunk össze egy hipotetikus σ02 értékkel.
Nullhipotézis: H0 : σ 2 = σ02 , ahol σ 2 az ismeretlen populációs variancia,
σ02 pedig a hipotetikus érték.
Ellenhipotézis:
• H1 : σ 2 6= σ02 (kétoldali ellenhipotézis), vagy
• H1 : σ 2 < σ02 vagy H1 : σ 2 > σ02 (egyoldali ellenhipotézisek).

Khi-négyzet-próba (chi-squared test)

A próba elnevezése nem informatív, mivel sok más próbát is khi-négyzet


próbának neveznek (vö. 206. oldal). Ha egyértelműen akarunk fogalmazni,
mondjuk azt, hogy „khi-négyzet-próba egy variancia vizsgálatára”.
Feltétel: A vizsgált változó normális eloszlást követ.
Statisztika:
(n − 1)s2
χ2 = ,
σ02
ahol n a mintaelemszám, s2 a minta varianciája.
Nulleloszlás: (n − 1) szabadsági fokú khi-négyzet-eloszlás.

7.2.2. Két variancia, független minták


Két ismeretlen varianciát (σ12 és σ22 ) hasonlítunk össze egymással két füg-
getlen minta alapján.
Nullhipotézis: H0 : σ12 = σ22 , ahol σ12 és σ22 az ismeretlen populációs
varianciák.
Ellenhipotézis:
• H1 : σ12 6= σ22 (kétoldali ellenhipotézis), vagy
• H1 : σ12 < σ22 vagy H1 : σ12 > σ22 (egyoldali ellenhipotézisek).

A) F -próba (F -test)

Feltételek: Mindkét vizsgált változó normális eloszlású (illetve a vizs-


gált változó mindkét vizsgált populációban normális eloszlású), a két minta
független egymástól.
204 Reiczigel – Harnos – Solymosi: Biostatisztika

R-függvény: var.test().
Statisztika:
s21
F = ,
s22

ahol s21 és s22 a korrigált tapasztalati varianciák. (Ha az F-eloszlás táblázatát


kívánjuk használni, akkor a mintákat úgy kell számozni, hogy a korrigált
tapasztalati varianciákra s21 ≥ s22 teljesüljön, tehát hogy a statisztika értéke
1-nél nagyobb legyen!)
Nulleloszlás: (n1 − 1, n2 − 1) szabadsági fokú F -eloszlás, ahol n1 és n2
a mintaelemszámok.

7.4. példa. Keltetőgép hőmérséklet-tartása – F -próba


Keltetőgép felülvizsgálatakor többek között arra is kíváncsiak voltak, hogy a gép
hőmérséklet-tartása ugyanolyan jó-e, ha alacsonyabb, illetve magasabb hőfokot állí-
tanak be rajta. Ennek eldöntéséhez 10-10 mérést végeztek (kb. félóránként) 36 °C-os,
majd (szintén kb. félóránként) 44 °C-os beállítás mellett. Az eredmények:

36 °C: 35.9 36.2 35.3 36.3 36.2 35.6 35.7 36.1 35.9 36.1
44 °C: 44.3 43.9 44.9 43.5 44.6 43.2 44.6 43.3 43.2 44.3

A hőmérsékletek varianciáját F -próbával hasonlítjuk össze. Mivel a kérdés „azonosak-e


vagy különböznek?”, kétoldali tesztet végzünk.
Lássuk a megoldást először R-ben a var.test() függvény segítségével! Az
alternative = "two.sided" argumentumot nem lenne muszáj megadni, mert az az
alapértelmezés, de most a rend kedvéért mégis odaírjuk (egyoldali esetben meg kellene
adnunk, vö. 167. oldal).
> hom36C = c(35.9, 36.2, 35.3, 36.3, 36.2, 35.6,
+ 35.7, 36.1, 35.9, 36.1)
> hom44C = c(44.3, 43.9, 44.9, 43.5, 44.6, 43.2,
+ 44.6, 43.3, 43.2, 44.3)
> var.test(hom36C, hom44C, alternative = "two.sided")

F test to compare two variances

data: hom36C and hom44C


F = 0.2412, num df = 9, denom df = 9, p-value = 0.04565
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.05990248 0.97093703
sample estimates:
ratio of variances
0.241167
7.2. Varianciákra vonatkozó próbák 205

A p-érték 0.05-nél kisebb, tehát a varianciák 5%-os szinten szignifikánsan különböznek.

Az R megadja a mintabeli varianciák hányadosát, és konfidencia-intervallumot is ad


a populációbeli varianciák hányadosára. Magukat a varianciákat azonban nem írja ki,
azt külön kell kiíratnunk, ha érdekel (illetve ha a szórásokra vagyunk kíváncsiak, akkor
azokat).
Figyelem, ha az eredeti kérdésünk a szórásokra vonatkozott, akkor a mintabeli varian-
ciák hányadosa helyett bizonyára inkább a szórások hányadosát látnánk szívesebben!
p
Ehhez a varianciák hányadosából négyzetgyököt kell vonnunk: s1 /s2 = s21 /s22 =

0.241167 = 0.491. Ugyanígy kell eljárnunk a konfidencia-intervallummal is: ha a va-
rianciák hányadosára vonatkozó konfidencia-intervallum végpontjaiból négyzetgyököt
vonunk, akkor ezzel a populációs szórások hányadosára kapunk √ ugyanolyan megbíz-
hatóságú
√ konfidencia-intervallumot. E példában végpontjai: 0.05990248 = 0.245 és
0.97093703 = 0.985.
Ha a feladatot számítógép nélkül kell megoldanunk, akkor először ki kell számolnunk
a varianciákat. A varianciák: s21 = 0.100, s22 = 0.415, hányadosuk pedig (figyelem,
mindig a nagyobbikat osszuk el a kisebbikkel!) 0.415/0.100 = 4.15. Mivel mindkét
minta tízelemű volt, a számláló és a nevező szabadsági foka is 9, tehát a döntéshez a
(9, 9) szabadsági fokú F -eloszlásra van szükség. Minthogy a teszt kétoldali, a megfi-
gyelt varianciák hányadosát az eloszlás 2.5%-os kritikus értékéhez, azaz 4.026-hoz kell
hasonlítanunk. A hányados nagyobb a kritikus értéknél, tehát a H0 -t 5%-os szinten
elvetjük: a varianciák szignifikánsan különböznek.
Ha egyoldali tesztről lett volna szó, akkor csak a H1 -nek megfelelő irányú eltérés esetén
kellett volna összehasonlítanunk a hányadost a kritikus értékkel, de ekkor az 5%-os kri-
tikus értéket kellett volna használnunk. Tehát H1 : σ12 > σ22 esetén megtarthattuk volna
a nullhipotézist anélkül, hogy az F -táblázatot használnunk kellett volna, H1 : σ12 < σ22
esetén pedig a hányadost 3.179-hez kellett volna hasonlítanunk, aminek alapján szintén
elvetettük volna a H0 -t.

B) Levene-próba (Levene’s test)

Feltétel: Közelítő próba, de akkor is használható, ha a vizsgált változók


nem normális eloszlásúak.
R-függvény: leveneTest() a car könyvtárból (Fox & Weisberg 2019).
Megjegyzés: Több variancia összehasonlítására is használható.

7.2.3. Kettőnél több variancia, független minták


Három vagy több ismeretlen – elméleti vagy populációs – varianciát
(σ12 ,σ22 , . . . ,σk2 ) hasonlítunk össze egymással k független minta alapján.
206 Reiczigel – Harnos – Solymosi: Biostatisztika

Nullhipotézis: A varianciák mind egyenlők egymással, azaz


H0 : σ12 = σ22 = . . . = σk2 .
Ellenhipotézis: Nem mind egyenlők (van legalább kettő, amelyik külön-
bözik).

Bartlett-próba (Bartlett’s test)

Feltétel: A vizsgált változók mind normális eloszlásúak.


R-függvény: bartlett.test().
Megjegyzés: Ha a változók normalitása kétséges, akkor az előző pontban
ismertetett Levene-próbát használhatjuk.

7.3. Eloszlásokra vonatkozó próbák


Ebben a részben – a Fisher-féle egzakt próba és a Kolmogorov–Szmirnov-
próba kivételével – mindegyik tesztnek khi-négyzet-próba a neve, mert mind-
nek a nulleloszlása (aszimptotikusan) khi-négyzet-eloszlás. Ezért közlemé-
nyekben ajánlatos egy jelzővel egyértelművé tenni, melyikre gondolunk: khi-
négyzet-próba illeszkedésvizsgálatra, függetlenségvizsgálatra vagy homoge-
nitásvizsgálatra.
A khi-négyzet-próbák diszkrét vagy csoportosított adatok elemzésére al-
kalmasak. Folytonos változók elemzéséhez tehát „tól–ig” osztályokat kell
definiálni, és az elemzést az osztálygyakoriságokkal elvégezni. Mindegyikük
azon az elven alapul, hogy a megfigyelt gyakoriságokat a nullhipotézis fenn-
állása esetén várt gyakoriságokhoz hasonlítjuk, és ha nagy az eltérés, akkor
elvetjük a nullhipotézist. Az, hogy a nulleloszlás csak aszimptotikusan khi-
négyzet-eloszlás, azt jelenti, hogy a próbák csak nagy mintákra alkalmaz-
hatók, azokra is csak közelítő érvénnyel. Folytonos változókra ráadásul az
eredmények attól is függnek, hogyan választjuk meg az osztályokat – igaz,
minél nagyobb a minta, annál kevésbé.
Természetesen más próbák is vannak eloszlásoknak hipotetikus eloszlás-
hoz vagy egymáshoz való hasonlítására, de a bevezető kurzusokon általában
csak az alábbiakban ismertetett próbák szerepelnek.

7.3.1. Egy eloszlás: illeszkedésvizsgálat


(testing goodness-of-fit, GOF)
Egy ismeretlen eloszlást – amelyikből a mintát vettük – hasonlítunk össze
egy hipotetikus eloszlással.
7.3. Eloszlásokra vonatkozó próbák 207

Két típusa van: Az egyik típusban a hipotetikus eloszlás egyértelműen


meg van adva: „A megfigyelt gyakoriságok megfelelnek-e a mendeli szabá-
lyok szerinti 1:2:1 elméleti arányoknak?” A másikban a hipotetikus eloszlás
csak a család szintjén van meghatározva: „Normális eloszlású-e a vizsgált
változó?” Vegyük észre, hogy az utóbbi egy összetett hipotézis (vö. 6.2.4.
fejezet), így ha a család bármelyik tagja – a jelen példában bármelyik nor-
mális eloszlás – jól illeszkedik a megfigyelt mintához, akkor már el kell fo-
gadnunk az illeszkedést. Ilyenkor az a szokásos eljárás, hogy a mintából
megbecsüljük, melyik családtag illeszkedhet legjobban a mintához, és ah-
hoz hasonlítjuk a mintát. Ezért most a mintát ahhoz a normálishoz fogjuk
hasonlítani, amelyiknek várható értéke épp a mintaátlaggal, szórása pedig
épp a minta szórásával egyezik meg.
Az első típust – amikor a hipotetikus eloszlás egyértelműen meg
van határozva a kérdésben – tiszta illeszkedésvizsgálatnak, a má-
sodikat – amikor csak a családra kérdezünk, és a konkrét családtag
paramétereit a mintából becsüljük – becsléses illeszkedésvizsgá-
latnak nevezzük.
Nullhipotézis: Az ismeretlen eloszlás, amelyből a minta származik, a hi-
potetikus eloszlással azonos (tiszta illeszkedésvizsgálat), illetve abba a csa-
ládba tartozik (becsléses illeszkedésvizsgálat).
Ellenhipotézis: Az ismeretlen eloszlás különbözik a hipotetikus eloszlás-
tól, illetve nem abba a családba tartozik.

A) Khi-négyzet-próba illeszkedésvizsgálatra
(Chi-square goodness-of-fit test)

Becsléses illeszkedésvizsgálat esetén először is megbecsüljük a mintából a


feltehetően legjobban illeszkedő családtag paramétereit (tiszta illeszkedés-
vizsgálat esetén ez a lépés elmarad).
Ezután a vizsgált változó értékkészletét osztályokba soroljuk, és minden
osztályhoz meghatározzuk a hipotetikus eloszlás és az adott mintaelemszám
mellett várható gyakoriságot, amely a mintaelemszám szorozva az osztály
hipotetikus eloszlás melletti valószínűségével.
Végül kiszámítjuk a próbastatisztikát, és annak értéke alapján döntünk
a nullhipotézisről.
Feltétel: Ahhoz, hogy a nulleloszlás khi-négyzet-eloszlással való közelíté-
se elfogadható legyen, akkora mintával kell dolgozni és/vagy az osztályokat
úgy kell megválasztani, hogy mindegyik osztály várható gyakorisága leg-
alább 5 legyen. Ha ez nem teljesül, változtassuk meg az osztályba sorolást,
208 Reiczigel – Harnos – Solymosi: Biostatisztika

például vonjunk össze szomszédos osztályokat. Kis mintára ez nem mindig


sikerül, de hát ez végül is egy nagy mintás, aszimptotikus próba (minél
kisebb a minta, annál kevésbé bízhatunk az eredményben).
R-függvény: chisq.test() az alábbi paraméterekkel:
x : az osztályok mintában megfigyelt gyakoriságai,
p : az osztályok hipotetikus eloszlás melletti valószínűségei.
(Figyelem! Az első paraméterben gyakoriságokat, míg a másodikban va-
lószínűségeket kell megadnunk!)
A függvény figyelmeztető üzenetet ad, ha a khi-négyzet-eloszlással való
közelítés már nem tekinthető megfelelőnek. Ekkor vagy a Fisher-féle eg-
zakt próbát alkalmazhatjuk, vagy a chisq.test() függvényt, amelyet a
simulate.p.value = T paraméterrel utasíthatunk arra, hogy a p-értéket
ne a khi-négyzet-eloszlásból számolja, hanem számítógépes szimulációval
állítsa elő.
Statisztika:
k
X (fi − ei )2
χ2 = ,
i=1
ei
ahol k az osztályok száma, fi a mintában megfigyelt, ei pedig a várt gyako-
riság az i-edik osztályban.
Nulleloszlás: Közelítőleg khi-négyzet-eloszlás, tiszta illeszkedésvizsgálat
esetén (k − 1), becsléses illeszkedésvizsgálatnál pedig (k − m − 1) szabadsági
fokkal, ahol k az osztályok száma és m a mintából becsült paraméterek
száma (normális eloszlás esetén például m = 2).

7.5. példa. Kockadobás – illeszkedésvizsgálat


Szabályosnak látszó kockával 45 dobást végeztünk:

3 4 5 4 3 1 6 6 3 4 6 4 4 5 3
2 1 1 2 3 6 3 4 5 1 3 2 2 5 1
5 4 3 6 3 3 4 3 4 4 2 1 3 3 4

Ellentmond-e ez az eredmény a szabályosság hipotézisének?


A hipotézisek: H0 : A kocka szabályos, H1 : nem szabályos.
Mivel a változó diszkrét, nem kell osztályokba sorolnunk, a 6 érték lehet a 6 osztály.
Figyeljük meg, hogy ez tiszta illeszkedésvizsgálat, a nullhipotézis az osztályok valószí-
nűségét egyértelműen meghatározza: a kocka szabályossága esetén mindegyik osztály
valószínűsége 1/6!
A H0 fennállása esetén a várt gyakoriságok egy 45 elemű mintában: minden osztályban
7.3. Eloszlásokra vonatkozó próbák 209

45 · 1/6 = 7.5. Tehát alkalmazhatjuk a khi-négyzet-próbát, mert mindegyik várt gyako-


riság nagyobb 5-nél.
A megfigyelt és a várt gyakoriságokat, valamint a statisztika számításához szükséges
(fi − ei )2 /ei -ket az alábbi táblázatban láthatjuk.

Érték 1 2 3 4 5 6
Megfigyelt gyakoriság (fi ) 6 5 13 11 5 5
Várt gyakoriság (ei ) 7.5 7.5 7.5 7.5 7.5 7.5
(fi − ei )2 /ei 0.30 0.83 4.03 1.63 0.83 0.83

A próbastatisztika értéke, azaz az (fi − ei )2 /ei -k összege 8.45. Mivel 6 osztályunk


van, és tiszta illeszkedésvizsgálatról van szó, ezt az értéket az 5 szabadsági fokú khi-
négyzet-eloszláshoz kell hasonlítanunk: az 5%-os kritikus érték a táblázatból 11.070.
Ennél a statisztika értéke kisebb, tehát a nullhipotézist 5%-os szinten megtarthatjuk:
a dobássorozat nem mond ellent a szabályosságnak.
Az alábbiakban megmutatjuk az R-es megoldást is. Ne felejtsük el, hogy a
chisq.test() függvénynek nem a várt gyakoriságokat, hanem a valószínűsége-
ket kell megadnunk! Figyeljük meg, hogy a 6 darab 1/6 valószínűséget nem soroltuk
fel, hanem a rep() függvénnyel adtuk meg (repeat = ismétel)! Megjegyezzük, hogy
ha az összes hipotetikus valószínűség egyenlő, mint most is, akkor a valószínűségek
megadása (a p paraméter) nem kötelező (ez az alapértelmezés), de most a szemléltetés
kedvéért nem akartuk elhagyni.

> megfigy = c(6, 5, 13, 11, 5, 5)


> valosz = rep(1/6, 6)
>
> chisq.test(x = megfigy, p = valosz)

Chi-squared test for given probabilities

data: megfigy
X-squared = 8.4667, df = 5, p-value = 0.1323

A statisztika papíron számolt értéke a kerekítések miatt tért el a 8.4667-től. A program


a p-értéket is megadja, eszerint is megtarthatjuk a H0 -t.

B) Kolmogorov–Szmirnov-próba illeszkedésvizsgálatra
(Kolmogorov-Smirnov goodness-of-fit test)

A teszt a khi-négyzet-próbától eltérően, ahol a minta tapasztalati sűrű-


ségfüggvényét hasonlítottuk a hipotetikus eloszlás sűrűségfüggvényéhez, a
minta tapasztalati eloszlásfüggvényét hasonlítja a hipotetikus eloszlás el-
oszlásfüggvényéhez, próbastatisztikaként a két eloszlásfüggvény közötti leg-
210 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)

1 1

F (x ) H (x )

H (x ) F (x )
ű

ű
Érték Érték

7.1. ábra. Egyoldali hipotézisek illeszkedésvizsgálatnál: a vizsgált változó valódi el-


oszlásfüggvénye, F (x) mindenütt a hipotetikus eloszlás eloszlásfüggvénye, H(x) fölött
(a), illetve mindenütt alatta (b) halad

nagyobb eltérést használva. Ezért egyoldali ellenhipotézisek vizsgálatára is


alkalmas. Az egyoldali ellenhipotézisek:
• a vizsgált változó eloszlásfüggvénye mindenütt a hipotetikus eloszlásfügg-
vény felett halad (7.1. (a) ábra);
• a vizsgált változó eloszlásfüggvénye mindenütt a hipotetikus eloszlásfügg-
vény alatt halad (7.1. (b) ábra).
Feltétel: A vizsgált változó folytonos.
R-függvény: ks.test().

C) Illeszkedésvizsgálat grafikonnal: a QQ-ábra (QQ plot)

Kis minták esetén (n < 50) a fenti próbák nem nagyon érzékenyek a hipoteti-
kus eloszlástól való eltérésekre, hajlamosak mindig elfogadni az illeszkedést
(kicsi az erejük). Ezért kis mintákra az illeszkedésvizsgálatot érdemesebb
grafikus módszerekkel, alkalmas diagramok szemrevételezésével megítélni.
Normalitásvizsgálatra egy lehetséges megoldás – egyes számítógépes prog-
ramok készítenek is ilyen ábrát –, hogy az adatok hisztogramjára olyan
haranggörbét rajzolunk, amelynek paramétereit a mintából becsüljük, és
ennek alapján ítéljük meg az illeszkedést. Sajnos, ez a módszer eléggé bi-
zonytalan, mert a kép erősen függ az osztályok számától.
Jobban megítélhető az illeszkedés a QQ-ábra (quantile-quantile plot) se-
gítségével (7.2. (a) ábra). A módszer azon alapul, hogy ha egy n elemű
minta valóban a hipotetikus eloszlásból származik, akkor a rendezett minta
i-edik értéke várhatóan a hipotetikus eloszlás i/n kvantilise közelében lesz
7.3. Eloszlásokra vonatkozó próbák 211

(a) (b)
1
Rendezett minta


● ●

i/n

ű


yi ●
●●
●●


●●

● ● ●
0

qi yi qi

A hipotetikus eloszlás kvantilisei Rendezett minta illetve kvantilisek

7.2. ábra. QQ-ábra (a) és a pontok koordinátáinak magyarázata (b). qi a hipotetikus


eloszlás i/n-kvantilise, yi pedig a tapasztalati eloszlás i/n-kvantilise, azaz a rendezett
minta i-edik eleme. A lépcsős függvény a tapasztalati, a görbe a hipotetikus eloszlás-
függvény

(véletlen mintáról lévén szó, azt nem várhatjuk, hogy éppen egyenlő lesz
vele). A QQ-ábra n elemű minta esetén n pontot tartalmaz, az i-ik pont x
koordinátája a hipotetikus eloszlás i/n kvantilise (qi ), y koordinátája pedig
a tapasztalati eloszlás i/n-kvantilise (yi ), ami nem más, mint a rendezett
minta i-edik értéke (7.2. (b) ábra).
Formálisan, ha a rendezett minta elemeit y1 ≤ y2 ≤ . . . ≤ yn , a hipotetikus elosz-
lás eloszlásfüggvényének inverzét pedig F −1 jelöli, akkor a QQ-ábra az F −1 (i/n), yi ,


i = 1, 2, . . . , n pontokat tartalmazza. A 7.2. ábrán az F −1 (i/n) kvantilist qi -vel jelöltük.

Ha a hipotetikus eloszlásfüggvény jól illeszkedik a mintához, akkor ezek


a pontok az y = x egyenes közelében helyezkednek el. A QQ-ábra éppen
azért praktikus, mert pontok egyeneshez való illeszkedését szemrevételezés-
sel elég jól lehet látni. Ha a minta valóban a hipotetikus eloszlásból való,
akkor a pontok egyenestől való eltérése csupán a véletlen ingadozásokat tük-
rözi: arra kell tehát odafigyelni, hogy az egyenestől való eltérések véletlennek
látszanak-e, vagy van bennük valamilyen szabályosság, tendencia.
Megjegyezzük, hogy hasonló az elve a PP-ábrának is, csak ott a tengelyeken nem
az értékeket, hanem a valószínűségeket ábrázolják a fentihez hasonló módon. Az előbbi
jelölésekkel a PP-ábra az (i/n, F (yi )), i = 1, 2, . . . , n pontokból áll. Ezeknek a pontoknak
is az y = x egyeneshez kell illeszkedniük.
212 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)
● ●


●● ● ●
Sample Quantiles

Sample Quantiles
1.5 ●
● 2 ●

●● ● ●
●●●●●
1.0 ●
●●
1 ●●
●●




●●
●●●


●●
●● ●


●●● ●●
●●

●●

0.5 ●●
●●

●●
●●



●●

●●
●●

●●
●●


●●●
0 ●





●●

0.0 ●







● ●●
●●
●●


●●
●●
−0.5 ●
● −1 ●●●

●●

● ● ●
−1.0 ●
−2

−2 −1 0 1 2 −2 −1 0 1 2

Theoretical Quantiles Theoretical Quantiles

7.3. ábra. Normális eloszlású változó QQ-ábrája 30 (a) és 100 elemű (b) minta esetén

Az R-ben QQ-ábrát normalitásvizsgálathoz a qqnorm() függvénnyel ké-


szíthetünk. A függvény hipotetikus eloszlásként mindig a standard normálist
használja, ezért itt a pontoknak nem feltétlenül az y = x egyeneshez kell
illeszkedniük. Mindenesetre a normális eloszláshoz való illeszkedést itt is az
jelzi, ha a pontok közel egy egyenesre esnek, csak az egyenes meredeksé-
ge és y-tengelymetszete a minta átlagától és szórásától függ. Az illeszkedés
megítélésében segítséget jelent a megfelelő egyenes berajzolása a qqline()
függvénnyel (7.3. ábra).

> minta = rnorm(30, mean = 0.5, sd = 1)


> qqnorm(minta, pch = 20, main = "")
> qqline(minta)

Az, hogy milyen mintázatot tekintünk jó illeszkedésnek, szubjektív megíté-


lés dolga. Többé-kevésbé eligazít, ha a vizsgálttal megegyező elemszámú,
normális eloszlású véletlen mintákat generálunk, és azok QQ-plotjaihoz ha-
sonlítjuk az illeszkedést (7.3. ábra).
Figyeljük meg, hogy milyen mintázatot mutatnak a pontok a QQ-ábrán,
ha a minta eloszlása jobbra ferde (7.4. ábra), balra ferde (7.5. ábra), illetve
kétcsúcsú (7.6. ábra).
Ha nem a normálishoz, hanem más eloszláshoz való illeszkedést szeret-
nénk vizsgálni, akkor a qqplot() függvényt használhatjuk. A módszer –
kis módosítással – működik két tapasztalati eloszlásfüggvénnyel is, így ho-
mogenitásvizsgálatra (lásd 218. oldal) is alkalmas. Az R-ben ilyenkor is a
qqplot() függvényt kell használnunk.
7.3. Eloszlásokra vonatkozó próbák 213

(a) (b)

Sample Quantiles

15 15
Gyakoriság





●●●
10 10 ●
●●●


●●
●●

●●
●●
●●
●●
●●

●●

5 5 ●
●●






●●
●●



●●

●●




●●

●●

●●

●●
●●
●●


●●
●●
●●
●●●
● ● ●●●●●●●●●●●
0 0 ●

0 2 4 6 8 10 12 −2 −1 0 1 2

X Theoretical Quantiles

7.4. ábra. Jobbra ferde eloszlású minta hisztogramja (a) és QQ-ábrája (b)

25 (a) (b)
20 20 ●●●●●●
● ● ●
Gyakoriság

●●
●●
●●●●●●●
●●
●●
●●
Sample Quantiles



●●
●●

●●
●●

●●


●●

●●
●●


15 ●

●●
●●

●●
●●

15 ●●
●●



●●



●●

●●
●●
10 ●
●●●●
●●
●●


●●
5 10
●●

0 ●
5 ●


5 10 15 20

X −2 −1 0 1 2

Theoretical Quantiles

7.5. ábra. Balra ferde eloszlású minta hisztogramja (a) és QQ ábrája (b)

7.3.2. Két változó együttes eloszlása: függetlenségvizsgálat


(testing independence)
A változók közötti statisztikai összefüggést, illetve függetlenséget a 4.2.2.
fejezetben már érintettük. Megállapítottuk, hogy a statisztikai függetlenség
azt jelenti, hogy az egyik változó megfigyelése nem szolgál információval a
másikra nézve, azaz az egyik változó bármely értéke mellett a másik válto-
zónak ugyanaz az eloszlása (vö. a 3.4.1. fejezettel is). Azt is megállapítottuk,
hogy a függetlenségvizsgálatához mindkét változót ugyanazon a mintán kell
ismernünk, vagyis függetlenséget mindig csak egy adatmátrix két oszlopa
között vizsgálhatunk (116. oldal).
Nullhipotézis: A két változó statisztikailag független egymástól.
Ellenhipotézis: A változók nem függetlenek.
214 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)
15 ●
Gyakoriság


8 ●●●

Sample Quantiles
●●●●

●●●
10 6 ●●


●●●

●●
●●●

●●


4 ●


5 ●




●●
2 ●
●●
●●



●●
●●
●●
●●
●●

0 0 ●●●
●●
●●
●●
●●
●●

●●
●●

●●
●●

●●●
●●●●
●●●●
● ●●
−2 0 2 4 6 8 10 −2 ●

X −2 −1 0 1 2

Theoretical Quantiles

7.6. ábra. Bimodális eloszlású minta hisztogramja (a) és QQ-ábrája (b)

A) Khi-négyzet-próba függetlenségvizsgálatra

A függetlenség khi-négyzet-próbával való vizsgálatához mindkét változó ér-


tékkészletét – ugyanúgy mint az illeszkedésvizsgálatnál – osztályokba kell
sorolnunk. Diszkrét változók esetén az osztályok általában adottak (esetleg
összevonhatunk osztályokat), míg folytonos változók esetén szabadon vá-
laszthatjuk meg őket. Az osztályok száma különbözhet az egyik és a másik
változót tekintve. Jelölje az egyik változó osztályainak számát I, a mási-
két J. Jelölje továbbá az i, j osztálykombináció (cella) mintában megfigyelt
gyakoriságát fij .

7.6. példa. Kutyák daganatai – megfigyelt gyakoriságok


Háromféle daganat előfordulását vizsgálták kutyákban. A vizsgálatban 122 kutya adatai
álltak rendelkezésre. Többek között felmerült az a kérdés is, vajon a daganat fajtája
(A, B, C) összefügg-e az ivarral. Ebben a példában az osztályok száma az ivart tekintve
I = 2, a daganat fajtáját tekintve J = 3, így 2 · 3 = 6 osztálykombinációnk, vagyis
cellánk van. Az egyes kombinációk mintában megfigyelt gyakoriságát az alábbi 2 × 3-as
táblázat, egy úgynevezett kontingencia-tábla mutatja:

A B C Összesen
Kan 40 18 5 63
Szuka 22 26 11 59
Összesen 62 44 16 122

A fenti fij -k a táblázat cellagyakoriságai. Az első index (i) azt mutatja, hányadik sor-
ban, a második (j) pedig azt, hogy hányadik oszlopban lévő értékről van szó. Például:
f12 = 18, f21 = 22 stb.
7.3. Eloszlásokra vonatkozó próbák 215

Ha papíron kell számolnunk, akkor az első lépés itt is az, hogy mind-
egyik cellához kiszámoljuk a H0 , azaz a függetlenség fennállása esetén várt
gyakoriságot (eij ), méghozzá az alábbi képlettel:
si oj
eij = ,
n
ahol si az i-edik sor összege, oj a j-edik oszlop összege, n pedig a táblázat
teljes összege, azaz a minta elemszáma.
A képlet szavakkal azt mondja, hogy minden cellához úgy kapjuk a várt
gyakoriságot, hogy a cella sorának sorösszegét megszorozzuk az oszlopának
az oszlopösszegével, majd elosztjuk a mintaelemszámmal. Ez az események
függetlenségére vonatkozó P (A és B) = P (AB) = P (A)P (B) szabály meg-
felelője, ha valószínűségek helyett gyakoriságokkal számolunk.
Feltétel: Itt is – az illeszkedésvizsgálathoz hasonlóan – akkora mintával
kell dolgozni és/vagy az osztályokat úgy kell megválasztani, hogy mindegyik
cella várható gyakorisága legalább 5 legyen.

7.7. példa. Kutyák daganatai – függetlenség esetén várt gyakoriságok


A fenti példában s1 = 63, s2 = 59, o1 = 62, o2 = 44, o3 = 16 és n = 122. Ezek alapján
például e12 = s1 o2 /n = 63 · 44/122 = 22.72, e23 = s2 o3 /n = 59 · 16/122 = 7.74 stb.
A várt gyakoriságok táblázata:

Kan: 32.02 22.72 8.26


Szuka: 29.98 21.28 7.74

Ebben az esetben tehát teljesül a próba alkalmazhatósági feltétele, minden várt gyako-
riság 5-nél nagyobb.

R-függvény: chisq.test().
A táblázatot a függvénynek mátrixként kell megadni (innen tudja, hogy
függetlenségvizsgálatról és nem illeszkedésvizsgálatról van szó). Ugyanúgy
mint az illeszkedésvizsgálatnál, az R figyelmeztető üzenettel jelzi, ha a pró-
ba alkalmazhatósági feltétele nem teljesül. Ekkor itt is vagy a Fisher-féle
egzakt próba, vagy a chisq.test() függvény simulate.p.value = T pa-
raméterének beállítása a megoldás.
216 Reiczigel – Harnos – Solymosi: Biostatisztika

7.8. példa. Kutyák daganatai – khi-négyzet-próba R-rel

> (x = matrix(c(40, 22, 18 ,26 ,5, 11), nrow = 2))

[,1] [,2] [,3]


[1,] 40 18 5
[2,] 22 26 11

> chisq.test(x)

Pearson's Chi-squared test

data: x
X-squared = 8.8087, df = 2, p-value = 0.01222

A p-érték alapján a függetlenség hipotézisét elvethetjük: a daganat fajtája és az ivar


között az összefüggés szignifikáns.

Statisztika:
I X
J
X (fij − eij )2
χ2 = ,
i=1 j=1
eij

ahol fij a megfigyelt, eij a várt gyakoriság az (i, j)-edik cellában, I és J


pedig az egyik, illetve a másik változó szerinti osztályok száma.
Nulleloszlás: Khi-négyzet-eloszlás (I −1)·(J −1) szabadsági fokkal, ahol
I és J a két változó osztályainak száma.

7.9. példa. Kutyák daganatai – khi-négyzet-próba papíron számolva


A fenti példában a próbastatisztika egy hattagú összeg: mindegyik cellára ki kell szá-
molnunk az (fij − eij )2 /eij -t, majd összeadni őket:
(f11 − e11 )2 /e11 = (40 − 32.02)2 /32.02 = 1.99,
(f12 − e12 )2 /e12 = (18 − 22.72)2 /22.72 = 0.98 stb.
Ha kiszámoljuk mind a hatot, és összeadjuk, 8.81-et kapunk. Ezt a khi-négyzet-eloszlás
(2 − 1) · (3 − 1)1 = 2 szabadsági fokú kritikus értékéhez kell hasonlítanunk. Az 5%-
os kritikus érték a táblázatból 5.991, tehát a nullhipotézist 5%-os szinten elvetjük: a
daganat fajtája és az ivar között szignifikáns összefüggést találtunk.

Megjegyzés: Mivel a khi-négyzet-eloszlás folytonos, de a megfigyelt ada-


tok diszkrétek, a 2 × 2-es táblázatok elemzésénél szokták alkalmazni az
úgynevezett Yates-féle korrekciót (Yates continuity correction). A korrekció
7.3. Eloszlásokra vonatkozó próbák 217

alapgondolata az, hogy kis mintákra az eltérés a megfigyelt és várt gyako-


riságok között csupán a megfigyelt gyakoriságok diszkrétsége miatt (mert
a megfigyelt gyakoriság mindig egész szám) is megnövekedhet, ami megnö-
velheti az elsőfajú hiba valószínűségét is. Ezt elkerülendő, Yates azt java-
solta, hogy a khi-négyzet-statisztikában a megfigyelt és várt gyakoriságok
különbségét 1/2-del csökkentsük, vagyis a számlálóban (fij − eij )2 helyett
(|fij −eij |−0.5)2 -t írjunk. A korrekció hasznosságát sokan vitatják, ezért kis
mintákra – amikor a diszkrétség igazán számít – inkább a Fisher-féle egzakt
próba alkalmazását javasoljuk a Yates-korrekció helyett. (Nagy mintákra a
diszkrétség nem okoz problémát, akkor már a korrigálatlan és a korrigált
khi-négyzet-statisztika között alig van különbség.) A chisq.test() függ-
vény 2 × 2-es táblázatra alapértelmezésben a Yates-féle korrekcióval számol,
ha nem akarjuk, a correct = F paraméterrel letilthatjuk.

B) Fisher-féle egzakt próba függetlenségvizsgálatra (Fisher’s exact test)

Ha egyes cellákban a várt gyakoriságok kicsik, akkor a fenti próbastatiszti-


ka eloszlása nagyon eltérhet a khi-négyzet-eloszlástól, ezért a khi-négyzet-
próba eredményében ilyenkor már nem bízhatunk meg. Fisher egy olyan pró-
bát javasolt, amelyhez a nulleloszlást nemcsak közelítőleg, hanem pontosan
meg lehet határozni. A próba elméleti háttere ugyan eltér a khi-négyzet-
próbáétól, és többen vitatták, hogy használható-e egyáltalán ugyanarra, de
a hétköznapi felhasználót ez nem kell, hogy zavarja: ha a táblázatban elő-
fordulnak kis várt gyakoriságok, érdemes inkább a Fisher-féle egzakt próba
eredményére hagyatkozni, mint a khi-négyzet-próbáéra.
A hipotézisvizsgálat részben említettük, hogy minden próba azon alapul, hogy a min-
tateret – a lehetséges minták halmazát – rendezzük aszerint, hogy a minták mennyire
mondanak ellent a nullhipotézisnek, és megnézzük, hogy a ténylegesen megfigyelt min-
ta hol helyezkedik el ebben a rendezésben. A különbség a khi-négyzet és a Fisher-féle
próba között abban rejlik, hogy mást tekintenek mintatérnek, azaz a lehetséges minták
halmazának. A khi-négyzet-próba az összes olyan táblázatot lehetséges mintának tekinti,
amelyben a táblázat teljes összege megegyezik a mintaelemszámmal. Ezzel szemben Fis-
her tesztje azokra a táblázatokra korlátozza a mintateret, amelyekben valamennyi sor-
és oszlopösszeg is megegyezik a megfigyelttel. Ebben a rendezett halmazban nem biztos,
hogy ugyanolyan pozíciója lesz a ténylegesen megfigyelt mintának, mint a fentiben. A
Fisher-féle egzakt próba ellenzői úgy gondolják, hogy mintatérnek ez a leszűkítése általá-
ban véve nem jogos, hacsak a kísérleti elrendezés vagy valamilyen más különleges ok nem
indokolja. (Egy példa ilyen esetre a Mood-féle mediánpróba, lásd a 229. oldalon). De a
Fisher-féle egzakt próba híveinek is jó érvei vannak a teszt általános alkalmazhatósága
mellett.

R-függvény: fisher.test().
218 Reiczigel – Harnos – Solymosi: Biostatisztika

7.10. példa. Kutyák daganatai – Fisher-féle egzakt próba R-rel

> (x = matrix(c(40, 22, 18, 26, 5, 11), nrow = 2))

[,1] [,2] [,3]


[1,] 40 18 5
[2,] 22 26 11

> fisher.test(x)

Fisher's Exact Test for Count Data

data: x
p-value = 0.01073
alternative hypothesis: two.sided

Látjuk, hogy ilyen nagy mintára már megegyezik a khi-négyzet és a Fisher-féle próba
eredménye.

Megjegyzés: A khi-négyzet-próbától eltérően 2 × 2-es táblázatra (amikor


mindkét változónak két osztálya van) a próbát egyoldali ellenhipotézissel
is végezhetjük. Ennek akkor van értelme, ha mindkét változó kategóriáinak
természetes rendezése van: ekkor érdekelhet csak a pozitív vagy csak a ne-
gatív összefüggés a változók között. 2 × 2-es táblázatra a fisher.test()
függvény kiszámolja az esélyhányadost és konfidencia-intervallumot is ad rá.
(Ez is csak akkor értelmes, ha mindkét változó kategóriáinak természetes
rendezése van.)

7.3.3. Két vagy több eloszlás: homogenitásvizsgálat


(testing homogeneity of distributions)
Két vagy több ismeretlen eloszlást – amelyek mindegyikéből egy-egy, egy-
mástól független mintánk van – hasonlítunk össze egymással.
Nullhipotézis: Az ismeretlen eloszlások, amelyekből a minták származ-
nak, mind azonosak.
Ellenhipotézis: Nem mind azonosak (van legalább kettő, amelyek külön-
böznek).
A vizsgálatot visszavezethetjük függetlenségvizsgálatra egy új változó se-
gítségével. A populációkat, amelyekből a minták származnak, sorszámokkal
látjuk el (k populáció esetén 1, 2, . . . , k). Az új változó értéke a minta minden
elemére annak a populációnak a sorszáma, amelyből a szóban forgó min-
taelem származik. Az, hogy a vizsgált változó ugyanolyan eloszlást követ a
7.3. Eloszlásokra vonatkozó próbák 219

k populációban, ekvivalens azzal, hogy független ettől a sorszámváltozótól


(vö. 4.2.2. fejezet).
A sorszámváltozónak annyi osztálya lesz, ahány összehasonlítandó popu-
lációnk van, a vizsgált változó értékeit pedig a függetlenségvizsgálat felté-
teleinek megfelelően kell osztályokba sorolni.
Megjegyzés: Felmerülhet a kérdés, hogy akkor miben különbözik a ho-
mogenitás- és a függetlenségvizsgálat. Egyedül a mintavételben. Ha homo-
genitásra gondolunk, „különbözik-e a vizsgált változó eloszlása férfiakban és
nőkben”, akkor egy-egy mintát fogunk venni a két populációból, mondjuk
100-100-as elemszámmal. Ha viszont függetlenségre gondolunk, „független-e
a vizsgált változó a nemtől”, akkor egyetlen mintát veszünk az egész populá-
cióból, mondjuk 200-as elemszámút, de az már nem biztos, hogy éppen 100
férfi és 100 nő lesz benne. De ha már megvannak az adatok, a számítások –
akár papíron, akár R-rel számolunk – szóról szóra megegyeznek.
A fentiek alapján tehát használhatjuk akár a khi-négyzet-, akár a Fisher-
féle egzakt próbát homogenitásvizsgálatra is.

Kolmogorov–Szmirnov-próba (Kolmogorov-Smirnov test)

Két eloszlást hasonlítunk össze két független minta tapasztalati eloszlás-


függvénye alapján.
Nullhipotézis: A két eloszlás azonos.
Ellenhipotézis: Lehet kétoldali (a két eloszlás nem azonos) vagy egyol-
dali, mégpedig:
• az egyik eloszlásfüggvény mindenütt a másik eloszlásfüggvény felett halad
(7.7. (a) ábra);
• az egyik eloszlásfüggvény mindenütt a másik eloszlásfüggvény alatt halad
(7.7. (b) ábra).
Feltétel: A vizsgált változó folytonos.
R-függvény: ks.test().
220 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)

1 1

F 1(x ) F 2(x )

F 2(x ) F 1(x )
ű

ű
Érték Érték

7.7. ábra. Egyoldali hipotézisek homogenitásvizsgálatnál: az egyik változó eloszlás-


függvénye, F1 (x) mindenütt a másik változó eloszlásfüggvénye, F2 (x) fölött (a), illetve
mindenütt alatta (b) halad

7.4. Valószínűségekre (populációbeli arányokra)


vonatkozó próbák
7.4.1. Egy valószínűség
Egy ismeretlen valószínűséget vagy populációbeli arányt (p) hasonlítunk
össze egy hipotetikus értékkel (p0 ).
Nullhipotézis: H0 : p = p0 , ahol p az ismeretlen valószínűség (populációs
arány), p0 pedig a hipotetikus érték.
Ellenhipotézis:
• H1 : p 6= p0 (kétoldali ellenhipotézis), vagy
• H1 : p < p0 vagy H1 : p > p0 (egyoldali ellenhipotézisek).

A) Egzakt binomiális próba (binomial test, exact binomial test)

Feltétel: Véletlen minta a populációból (végtelen populáció vagy vissza-


tevéses mintavétel esetén egzakt; véges populáció és visszatevés nélküli min-
tavétel esetén csak közelítőleg érvényes – a közelítés annál jobb, minél kisebb
a minta a populációhoz képest).
R-függvény: binom.test().
Statisztika: A vizsgált esemény vagy tulajdonság előfordulási gyakorisága
a mintában.
Nulleloszlás: n, p0 paraméterű binomiális eloszlás.
7.4. Valószínűségekre (populációbeli arányokra) vonatkozó próbák 221

Megjegyzés: A kétoldali esetre vannak ennél jobb próbák is (például a


Sterne-féle egzakt próba).

B) Normális eloszlással való közelítés (z-próba)

Ezt elsősorban a statisztika dolgozatra kell megtanulni, vagy pedig ha valaki


nagyon nagy mintával dolgozik (n > 1000), mert ilyen nagy mintákra a
binomiális eloszlás kiszámítása már pontatlan lehet.
Feltételek: Mivel a próba a binomiális eloszlás normálissal való közelíté-
sén alapul, hagyományosan akkor tekintik elfogadhatónak, ha a megfigyelt
gyakoriság legalább 5 és legfeljebb (n−5), ahol n a mintaelemszám. (Megje-
gyezzük, hogy az irodalomban sok hasonló feltétel van, és szakterületenként
más és más számít hagyományosnak.)
R-függvény: prop.test().
Statisztika:
p̄ − p0
z=s ,
p0 (1 − p0 )
n

ahol p̄ a tapasztalati valószínűség (a mintabeli relatív gyakoriság) és n a


mintaelemszám. Vegyük észre a párhuzamot e képlet és az egymintás z-
próba képlete (194. oldal) között!
Nulleloszlás: Közelítőleg standard normális.
Megjegyzés: A prop.test() függvény nem a fenti z-t, hanem a négy-
zetét használja próbastatisztikának, ennek megfelelően a nulleloszlás sem
standard normális, hanem 1 szabadsági fokú khi-négyzet lesz, ezért a két
módszer ekvivalens. Mivel a prop.test() függvény alapértelmezésben a
Yates-féle korrekcióval számol (216. oldal), ha ugyanazt a p-értéket szeret-
nénk kapni, amit hagyományos számolással, akkor a függvény correct = F
paraméterével le kell tiltanunk a korrekciót.

7.11. példa. Szabályos-e az érme – próbák R-rel


A fenti számításokat és a megfelelő R-függvények paraméterezését a pénzérme sza-
bályosságáról szóló korábbi példával (168. oldal) mutatjuk be. A példában a hipoteti-
kus valószínűség p0 = 0.5, a megfigyelt gyakoriság pedig 50 kísérletből 41 volt, azaz
p̄ = 41/50 = 0.82, és n = 50.
222 Reiczigel – Harnos – Solymosi: Biostatisztika

Először alkalmazzuk a binom.test() függvényt.


> binom.test(x = 41, n = 50, p = 0.5)

Exact binomial test

data: 41 and 50
number of successes = 41, number of trials = 50,
p-value = 5.614e-06
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.6856306 0.9142379
sample estimates:
probability of success
0.82

Figyeljük meg, hogy a függvény konfidencia-intervallumot is ad az ismeretlen valószí-


nűségre! A konfidencia-intervallumból a pénz szabálytalanságának mértékére következ-
tethetünk: a fej valószínűsége 95%-os megbízhatósággal 0.69 és 0.91 közötti.
A közelítő megoldás a prop.test() függvénnyel Yates-féle korrekció nélkül:
> prop.test(x = 41, n = 50, p = 0.5, correct = F)

1-sample proportions test without continuity


correction

data: 41 out of 50, null probability 0.5


X-squared = 20.48, df = 1, p-value = 6.026e-06
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.6920395 0.9022981
sample estimates:
p
0.82

Ez a függvény is ad konfidencia-intervallumot az ismeretlen valószínűségre. Látjuk, hogy


sem a p-értékek, sem a konfidencia-intervallumok nem térnek el lényegesen.

Kézzel számolva a fenti képlettel:


0.82 − 0.5 0.32 0.32
z= r = √ = = 4.51.
0.5 · 0.5 0.005 0.071
50
Mivel az ellenhipotézis kétoldali, a p-érték a normális eloszlás táblázatában a 4.51-hez
tartozó valószínűség kétszerese lenne, de a táblázat ilyen nagy értéket nem tartalmaz,
mert már a 3 feletti értékekhez tartozó valószínűségek is négy tizedesre nullák. Tehát
csak annyit mondhatunk, hogy a p-érték 0.0001-nél kisebb.
7.4. Valószínűségekre (populációbeli arányokra) vonatkozó próbák 223

7.4.2. Két valószínűség, független minták


Két ismeretlen valószínűséget vagy populációbeli arányt (p1 és p2 ) hasonlí-
tunk össze egymással a két populációból vett két független minta alapján.

Nullhipotézis: H0 : p1 = p2 .
Ellenhipotézis:
• H1 : p1 6= p2 (kétoldali ellenhipotézis), vagy
• H1 : p1 < p2 vagy H1 : p1 > p2 (egyoldali ellenhipotézisek).
Megjegyzés: A két valószínűség egyenlősége azt jelenti, hogy a vizsgált
dichotom változó (például beteg/nem beteg) eloszlása a két csoportban
azonos. Ez tehát homogenitásvizsgálatként is felfogható, a homogenitás-
vizsgálat pedig visszavezethető függetlenségvizsgálatra (218. oldal). Ezért
vizsgálhatjuk a hipotézist khi-négyzet-, illetve Fisher-féle egzakt próbával.

A) Fisher-féle egzakt próba (Fisher’s exact test)


R-függvény: fisher.test().

B) Khi-négyzet-próba (chi-squared test)


R-függvények: chisq.test(), prop.test().
Statisztika: Lásd „Khi-négyzet-próba függetlenségvizsgálatra” (216. o.).

C) Normális eloszlással való közelítés


Feltétel: Ez a próba is normális eloszlással közelíti mindkét binomiális
eloszlást, ezért itt mindkét mintára teljesülnie kell, hogy a megfigyelt gya-
koriság legalább 5 és legfeljebb (n − 5), ahol n a mintaelemszám.
R-függvény: prop.test().
Statisztika:
p̄1 − p̄2 f1 + f2
z=s , pp = ,
pp (1 − pp ) pp (1 − pp ) n1 + n2
+
n1 n2

ahol n1 , n2 az elemszámok, f1 , f2 a mintákban a tulajdonsággal rendelkezők


száma. p̄1 = f1 /n1 és p̄2 = f2 /n2 .
Vegyük észre a párhuzamot e képlet és a kétmintás z-próba képlete (197.
oldal) között!
Nulleloszlás: Közelítőleg standard normális.
224 Reiczigel – Harnos – Solymosi: Biostatisztika

7.12. példa. Valószínűségek összehasonlítása


Két tehénpopulációt hasonlítunk össze egy betegség előfordulására nézve. Mindkét po-
pulációból mintát veszünk, és mintánként megállapítjuk a beteg tehenek számát.

1. populáció 2. populáció
Mintaelemszám 670 520
Betegek száma 212 126

Kérdés, hogy a minták alapján azonosnak tekinthető-e a fertőzöttség mértéke a két


populációban.
H0 : A fertőzöttség mértéke azonos a két populációban.
H1 : A fertőzöttség mértéke különböző.

f1 212 f2 126
p̄1 = = = 0.316, = = 0.242,
n1 670 n2 520
f1 + f2 212 + 126
pp = = = 0.284,
n1 + n2 670 + 520

p̄1 − p̄2 0.316 − 0.242


z= r = r =
pp (1 − pp ) pp (1 − pp ) 0.284 · 0.716 0.284 · 0.716
+ +
n1 n2 670 520
0.074
= = 2.85 > zkrit = 1.96,
0.026
így elvetjük a nullhipotézist.
Ha a p-értéket is szeretnénk meghatározni, akkor – kétoldali ellenhipotézisünk lévén –
a normális eloszlástáblázatból a 2.85-hez tartozó valószínűség kétszeresét kell vennünk,
azaz a p-érték 2 · 0.0022 = 0.0044.
Megoldás R-rel, először a prop.test() függvénnyel, Yates-korrekció (216. oldal) nélkül
számolva:
> beteg = c(212, 126)
> osszes = c(670, 520)
> prop.test(beteg, osszes, correct = F)
2-sample test for equality of proportions without
continuity correction

data: beteg out of osszes


X-squared = 7.9072, df = 1, p-value = 0.004924
alternative hypothesis: two.sided
95 percent confidence interval:
0.02315496 0.12506547
sample estimates:
prop 1 prop 2
0.3164179 0.2423077
7.4. Valószínűségekre (populációbeli arányokra) vonatkozó próbák 225

A konfidencia-intervallum most a két ismeretlen valószínűség különbségére vonatkozik.


A chisq.test() és a fisher.test() függvényekhez az adatokat egy kicsit másképp
kell megadni, mert ezek a függvények olyan mátrix formában várják az adatokat, amely-
nek két oszlopa a két mintának felel meg, és mindkét mintában a betegek és a nem
betegek gyakorisága szerepel. Ezért az adatokat ilyen formára kell hozni és egy mátrix
típusú objektumban kell tárolni; ezt a matrix() függvénnyel tehetjük meg. A függ-
vénynek paraméterként meg kell adni a mátrix elemeit és azt is, hogy az elemeket
hány sorba rendezze el. Most az első mintában a betegek száma 212, a nem betegeké
670−212 = 458, a második mintában pedig ezek a gyakoriságok 126 és 520−126 = 394,
tehát az adatok 212, 458, 126, 394, és a mátrix 2 × 2-es, vagyis két sora van.
> (x = matrix(c(212, 458, 126, 394), nrow = 2))

[,1] [,2]
[1,] 212 126
[2,] 458 394

> chisq.test(x, correct = F)

Pearson's Chi-squared test

data: x
X-squared = 7.9072, df = 1, p-value = 0.004924

> fisher.test(x)

Fisher's Exact Test for Count Data

data: x
p-value = 0.005312
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
1.109409 1.891780
sample estimates:
odds ratio
1.446966

Látható, hogy ekkora mintára már nincs nagy különbség a chisq.test() és a


fisher.test() függvényekkel kapott p-értékek között. Figyelem, a fisher.test()
függvény nem a valószínűségek közötti különbségre, hanem az esélyhányadosra ad
konfidencia-intervallumot (az esélyhányados definícióját lásd a 3.3. fejezetben)!
226 Reiczigel – Harnos – Solymosi: Biostatisztika

7.4.3. Két valószínűség, párosított minták


Két ismeretlen valószínűséget vagy populációbeli arányt (p1 és p2 ) hasonlí-
tunk össze egymással a két populációból vett párosított minták alapján.
Nullhipotézis: H0 : p1 = p2 .
Ellenhipotézis:
• H1 : p1 6= p2 (kétoldali ellenhipotézis), vagy
• H1 : p1 < p2 vagy H1 : p1 > p2 (egyoldali ellenhipotézisek).

McNemar-próba (McNemar’s test)

R-függvény: mcnemar.test().
Megjegyzés: Bár a McNemar-próbának van egzakt változata is, az emlí-
tett R-függvény csak közelítő, aszimptotikus tesztet végez.

7.13. példa. Elnökjelöltek televíziós vitája – McNemar-próba


Befolyásolta-e az elnökjelöltek televíziós vitája a választók véleményét? 600 választó-
polgárt (véletlen minta) megkérdeztek a vita előtt és után (ugyanazt a 600 embert!),
hogy melyik jelöltre szavaznának. Az eredmények a következők voltak:

Utána
A jelöltre B jelöltre Összesen
Előtte A jelöltre 151 192 343
B jelöltre 145 112 257
Összesen 296 304 600

Látható, hogy a vita után a B jelölt erősödött, de kérdés, hogy ilyen mértékű változás
vajon szignifikáns-e.
Az alábbiakban megadjuk a megoldást R-ben a mcnemar.test() függvénnyel. A függ-
vény az adatokat mátrix formában várja, a mátrixszá alakítást most is a matrix()
függvénnyel végezzük.
> (x = matrix(c(151, 145, 192, 112), nrow = 2))
[,1] [,2]
[1,] 151 192
[2,] 145 112
> mcnemar.test(x)
McNemar's Chi-squared test with continuity correction

data: x
McNemar's chi-squared = 6.2789, df = 1, p-value = 0.01222
Tehát a televíziós vita hatása szignifikáns volt (p = 0.0122).
7.5. Mediánokra vonatkozó próbák 227

7.4.4. Kettőnél több valószínűség, független minták


Három vagy több ismeretlen valószínűséget vagy populációbeli arányt
(p1 , p2 , . . . pk ) hasonlítunk össze egymással az egyes populációkból vett füg-
getlen minták alapján (tehát k független mintánk van k populációból).
Nullhipotézis: A valószínűségek mind egyenlők egymással, azaz
H0 : p1 = p2 = . . . = pk .
Ellenhipotézis: Nem mind egyenlők (van legalább kettő, amelyik külön-
bözik).
Megjegyzés: Ez a vizsgálat az eloszlásokra vonatkozó függetlenség-, il-
letve homogenitásvizsgálat (7.3.2., ill. 7.3.3. fejezet) speciális esete, tehát
mindaz, amit ott írtunk (lásd a 213. oldaltól kezdődően), ezekre is érvényes.

A) Fisher-féle egzakt próba (Fisher’s exact test)

R-függvény: fisher.test().
B) Khi-négyzet-próba (chi-squared test)

R-függvények: chisq.test(), prop.test().


Megjegyzés: Aszimptotikus (nagy mintákra közelítőleg érvényes) próba.
Inkább használjuk a Fisher-féle egzakt próbát!

7.5. Mediánokra vonatkozó próbák


Az alábbi próbák nemparaméteres (eloszlásfüggetlen) próbák (vö. 6.3.4. fe-
jezet): alkalmazhatóságukhoz csak annyit kell feltételeznünk a vizsgált vál-
tozókról, hogy eloszlásuk folytonos.

7.5.1. Egy medián


Egy ismeretlen – elméleti vagy populációs – mediánt (med) hasonlítunk
össze egy hipotetikus értékkel (med0 ).

Előjelpróba (Sign test)

Nullhipotézis: H0 : med = med0 .


Ellenhipotézis:
• H1 : med 6= med0 (kétoldali ellenhipotézis), vagy
• H1 : med < med0 vagy H1 : med > med0 (egyoldali ellenhipotézisek).
Feltétel: A vizsgált változó eloszlása folytonos.
228 Reiczigel – Harnos – Solymosi: Biostatisztika

R-függvény: binom.test() a következő paraméterekkel:


x a med0 -nál nagyobb mintaelemek száma,
n a med0 -tól különböző mintaelemek száma,
p 0.5,
alternative 'two.sided' vagy 'less' vagy 'greater'
az ellenhipotézisnek megfelelően.
Statisztika: A med0 -nál nagyobb mintaelemek száma.
Nulleloszlás: Binomiális (n, p) paraméterekkel, ahol n a med0 -tól kü-
lönböző mintaelemek száma, és p = 0.5.
Megjegyzések:
1. Párosított minták összehasonlítására is alkalmazható. Ekkor a nullhipo-
tézis az, hogy a különbség mediánja 0, ami úgy is fogalmazható, hogy az
értékpárok közül ugyanakkora valószínűséggel nagyobb az egyik, mint a
másik. Párosított mintákra a különbségekkel kell elvégezni a próbát.
2. A próbát azért hívják előjelpróbának, mert a med = 0 hipotézis teszte-
lésére találták ki eredetileg, és ekkor a próbához a mintabeli értékeknek
csupán az előjelét használjuk.
3. Nagy mintára a binomiális eloszlást a szokásos módon közelíthetjük
Poissonnal vagy normálissal (lásd 78. oldal).
4. Ugyanígy működik medián helyett tetszőleges kvantilisre.

7.14. példa. Elléstől az ovulációig eltelt idő – előjelpróba


Ellentmondanak-e az adatok (24 első ellésű kanca) annak a hipotézisnek, hogy az elléstől
az első ovulációig eltelt idő mediánja 12 nap? Tehát:

H0 : med = 12,
H1 : med 6= 12.
Emlékeztetőül az adatok (nap):

8 10 10 10 11 11 11 12 12 12 13 14 14 14 15 16 19 24 24 30 35 85 103 111

A statisztika a 12-nél nagyobb értékek száma, 14. A nulleloszlás binomiális


n = 21, p = 0.5 paraméterekkel (a mintaelemszámot a három darab 12 miatt hárommal
csökkentettük). Ha lenne n = 21-re binomiális táblázatunk, azzal is dolgozhatnánk, így
csak az R-rel számolhatunk.
> binom.test(14, n = 21, p = 0.5)

Exact binomial test

data: 14 and 21
number of successes = 14, number of trials = 21, p-value = 0.1892
7.5. Mediánokra vonatkozó próbák 229

alternative hypothesis: true probability of success is not equal to 0.5


95 percent confidence interval:
0.4303245 0.8541231
sample estimates:
probability of success
0.6666667
A p-érték arra utal, hogy az adatok jól összeegyeztethetők a H0 -lal. Azt azért meg kell
jegyezni, hogy a sok ismétlődő érték megkérdőjelezi a tesztnek azt az alkalmazhatósági
feltételét, hogy az eloszlás folytonos volna.

7.5.2. Két vagy több medián


Két vagy több ismeretlen populációs mediánt (med1 , med2 , . . . medk ) ha-
sonlítunk össze az egyes populációkból vett független minták alapján.

Mood-féle mediánpróba (median test, Mood’s median test)

Nullhipotézis: A mediánok mind egyenlők egymással, azaz


H0 : med1 = med2 = . . . = medk .
Ellenhipotézis: Nem mind egyenlők (van legalább kettő, amelyik külön-
bözik).
Feltétel: A vizsgált változók eloszlása folytonos.
R-függvény: A median_test() a coin csomagban.
Megjegyzések:
1. A próba voltaképpen egy Fisher-féle egzakt próba egy olyan k × 2 kon-
tingencia-táblára alkalmazva, amelyiknek minden sora megfelel egy min-
tának: minden sor két számot tartalmaz, az adott mintában a közös
mediánnál kisebb vagy egyenlő, illetve az annál nagyobb értékek számát.
Közös medián alatt a k minta egyesítése után az összes értékből számolt
mediánt értjük.
2. A mediánpróba alkalmazhatósági feltételei a legenyhébbek a nempara-
méteres próbák között, de ennek az az ára, hogy egyben a leggyengébb
(a legkevésbé érzékeny) is.
3. Nagy mintákra a Fisher-féle egzakt próba helyett közelítő érvénnyel khi-
négyzet-próbát is végezhetünk.
230 Reiczigel – Harnos – Solymosi: Biostatisztika

7.15. példa. Elléstől az ovulációig eltelt idő – Mood-féle mediánpróba


Az előbbi adatokat összehasonlítjuk egy másik ménes 18 első ellésű kancájának ada-
taival. A kérdés az, hogy azonos-e a két ménesben az elléstől az ovulációig eltelt idő
mediánja? Formálisan:
H0 : med1 = med2 ,
H1 : med1 6= med2 .
A másik ménes adatai, szintén nagyság szerint rendezve:

8 9 9 10 10 11 11 11 12 12 12 13 13 14 14 18 29 38

A közös medián 12.5. Az első mintában a közös medián alatti értékek száma 11, a
nagyobbaké 7. A második mintában a közös medián alatt van 10 érték, felette 14.
Tehát a 2 × 2-es táblázat, amire a Fisher-féle egzakt próbát alkalmaznunk kell:

Közös medián
alatt felett
Első ménes 11 7
Második ménes 10 14

A megoldás R-rel:
> (x = matrix(c(11, 10, 7, 14), nrow = 2))

[,1] [,2]
[1,] 11 7
[2,] 10 14

> fisher.test(x)

Fisher's Exact Test for Count Data

data: x
p-value = 0.3499
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.5370638 9.2357994
sample estimates:
odds ratio
2.158107

A p-érték szerint a különbség a két ménes között e tekintetben nem szignifikáns. Most
is érvényes az a megjegyezés, hogy a sok ismétlődő érték megkérdőjelezi az eloszlás
folytonos voltát.
7.6. Rangpróbák 231

7.6. Rangpróbák
A következőkben ismertetett próbák olyan nemparaméteres (eloszlásfügget-
len) próbák (vö. 6.3.4. fejezet), amelyek eloszlásfüggetlenségét úgy érjük el,
hogy a próbastatisztikát nem a megfigyelt értékekből, hanem azok rangszá-
maiból számoljuk. Egy megfigyelt érték rangszáma a sorszáma az értékek
nagyság szerinti rendezésében: a legkisebbé 1, a második legkisebbé 2 stb.
(bővebben lásd a 44. oldalon).
Felhívjuk a figyelmet arra, hogy míg az előző pontbeli mediánpróbák
minden folytonos eloszlásra működnek, a rangpróbák ennél erősebb feltéte-
leket igényelnek. A feltételek ellenőrzésére nincsenek egzakt módszerek, csak
grafikonok alapján lehet megítélni, vagy azt lehet végiggondolni, vajon az
elméletből következik-e, hogy teljesülniük kell. A lényeg az, hogy ne bízzunk
vakon az eredményben, ha kétséges a feltételek teljesülése. Ha bizonytalanok
vagyunk, kérdezzünk meg egy statisztikust!
E próbák nullhipotézisét gyakran fogalmazzák meg mediánokkal, bár
több tesztnél ez nem lenne muszáj, mert az alkalmazhatósági feltételek telje-
sülése esetén az átlagok között is ugyanaz a viszony, mint a mediánok között
(vö. 188. oldal). (Ugyanezzel az erővel a t-próbák hipotéziseit is megfogal-
mazhatnánk mediánnal, hiszen normális eloszlású adatokra is egybeesik a
medián és az átlag.)

7.6.1. Wilcoxon-féle előjeles rangpróba (Wilcoxon signed


rank test)
Egy folytonos és szimmetrikus eloszlás szimmetria-középpontját – ami egy-
ben az eloszlás mediánja is és átlaga is (jelölje med) – hasonlítjuk össze egy
hipotetikus értékkel (med0 ). A hipotézist felírhatnánk az átlaggal is, csupán
hagyománytiszteletből írjuk fel mediánnal.
Nullhipotézis: H0 : med = med0 .
Ellenhipotézis:
• H1 : med 6= med0 (kétoldali), vagy
• H1 : med < med0 vagy H1 : med > med0 (egyoldali).
Feltétel: A vizsgált változó eloszlása folytonos és szimmetrikus.
R-függvények: wilcox.test() (ez kapcsolt rangok esetén csak közelí-
tő számítást tud végezni, a kapcsolt rangokról lásd a 44. oldalt), vagy a
wilcox.exact() az exactRankTests, vagy a wilcoxsign_test() a coin
csomagból (ezek kapcsolt rangok esetén is tudnak egzakt tesztet végezni Ho-
thorn et al. (2006, 2008b); Hothorn & Hornik (2019)). Megjegyezzük, hogy
232 Reiczigel – Harnos – Solymosi: Biostatisztika

az exactRankTests csomagot (Hothorn & Hornik 2019) már nem fejlesztik,


ezért érdemes inkább a coin csomagot használni.
Statisztika: A megfigyelt értékek med0 -tól való eltéréseit abszolút érté-
kük nagysága szerint sorba rendezzük, és rangszámokat rendelünk hozzá-
juk. A statisztika a pozitív eltérésekhez tartozó rangok összege. (Nem ez az
egyetlen lehetőség, ugyanilyen jó lenne statisztikának a negatív eltérésekhez
tartozó rangok összege is, vagy akár a pozitív és negatív eltérésekhez tartozó
rangösszegek különbsége is, csak akkor a nulleloszlást is annak megfelelően
kellene számítani.)
Nulleloszlás: Saját neve nincsen, de kis mintaelemszámokra kiszámol-
ták, és a kritikus értékeket táblázatba foglalták. Figyelem, az ilyen táb-
lázatok csak akkor használhatók, ha nincsenek kapcsolt rangok! Ebben a
könyvben nem közöljük a táblázatokat, inkább az egzakt tesztet végző R-
függvényeket ajánljuk, mert akkor a kapcsolt rangoktól függetlenül mindig
pontos eredményt kapunk. q
A nulleloszlást hagyományosan a µ = n(n+1)4 , σ = n(n+1)(2n+1)
24 paramé-
terű normális eloszlással szokták közelíteni nagyobb mintákra, a kritikus
értékeket ebből számolják.

7.16. példa. Vásárlások egy boltban – Wilcoxon-féle előjeles rangpróba


Egy boltban egy óra alatt 10 vevő vásárolt, mégpedig az alábbi értékben (az értékek
ezer forintban). Vizsgáljuk meg a Wilcoxon-féle előjeles rangpróbával, vajon az adatok
ellentmondanak-e annak a hipotézisnek, hogy az összegek eloszlásának középértéke eléri
a 9 ezer forintot!
H0 : med = 9
H1 : med < 9

Összegek 1.4 3.3 5.0 5.0 6.2 7.5 10.1 10.5 13.0 18.1
Eltérések -7.6 -5.7 -4.0 -4.0 -2.8 -1.5 1.1 1.5 4.0 9.1
Rangok 9 8 6* 6* 4 2.5§ 1 2.5§ 6 * 10

* § Egyenlőség esetén mindegyik érték az összesen rájuk jutó rangok átlagát kapja
(kapcsolt rangok).
A pozitív eltérésekhez tartozó rangok összege 19.5. (Vegyük észre, hogy a pozitív és
negatív eltérésekhez tartozó rangösszegek együtt éppen 1 + 2 + ... + n = n(n + 1)/2-t
kell hogy kiadjanak, ahol n a mintaelemszám: jelen esetben 19.5 + 35.5 = 55!)
Ha papíron számolunk, akkor a kapcsolt rangok miatt a normális közelítést
p kell alkalmaz-
nunk, vagyis a 19.5-öt a µ = 10·11/4 = 27.5 várható értékű és σ = 10 · 11 · 21/24 =
9.81 szórású normális eloszláshoz kell hasonlítanunk. Egyoldali ellenhipotézisünk van, és
a statisztika az ellenhipotézis irányába mutat, tehát a döntéshez a statisztikát a nullel-
oszláshoz kell viszonyítanunk. A p-érték meghatározásához a standard normális eloszlás
7.6. Rangpróbák 233

táblázatából a |19.5 − 27.5|/9.8 = 8/9.81 = 0.82 értékhez tartozó valószínűségre van


szükségünk: innen p = 0.2061.
Szokás úgynevezett folytonossági korrekciót is alkalmazni, ami azt jelenti, hogy a sta-
tisztika számlálóját 0.5-tel csökkentjük. Ennek hátterében az áll, hogy nem akarjuk,
hogy az elvártnál nagyobb valószínűséggel vessük el a nullhipotézist csupán azért, mert
a statisztika diszkrét, mégis egy folytonos eloszláshoz viszonyítjuk. A korrekcióval tehát
mindig konzervatívabbá tesszük a próbát, mint amilyen anélkül volna (vö. a Yates-féle
korrekcióval a khi-négyzet-próbáknál, 216. oldal) A példában folytonossági korrekció
alkalmazása esetén a standard normális táblázatból a 7.5/9.81 = 0.76 értékhez tartozó
valószínűséggel számolunk, ahonnan p = 0.2236. Az R-es megoldás:
> x = c(1.4, 3.3, 5, 5, 6.2, 7.5, 10.1, 10.5, 13, 18.1)
> wilcox.test(x, mu = 9, alternative = "less")

Wilcoxon signed rank test with continuity correction

data: x
V = 19.5, p-value = 0.2216
alternative hypothesis: true location is less than 9

Alapértelmezésben a wilcox.test() a folytonossági korrekcióval számol. Ha ezt nem


szeretnénk, akkor letilthatjuk a függvény correct = F paraméterével:
> wilcox.test(x, mu = 9, alternative = "less", correct = F)

Wilcoxon signed rank test

data: x
V = 19.5, p-value = 0.2067
alternative hypothesis: true location is less than 9

Láttuk, hogy a kapcsolt rangok miatt mindkét változat a normális közelítéssel dolgozott.
Az egzakt számítás a wilcoxsign_test() függvénnyel:
> x = c(1.4 , 3.3 , 5.0 , 5.0 , 6.2 , 7.5 , 10.1 , 10.5 , 13.0 , 18.1)
> library(coin)
> # ismételjük a hipotetikus értéket annyiszor, ahány elemű a minta
> mu = rep(9, length(x))
> wilcoxsign_test(x ~ mu, alternative="less", distribution="exact")

Exact Wilcoxon-Signed-Rank Test

data: y by
x (neg, pos)
stratified by block
Z = -0.8181, p-value = 0.2227
alternative hypothesis: true mu is less than 0
234 Reiczigel – Harnos – Solymosi: Biostatisztika

Megjegyzések:
1. Eredetileg ezt a próbát is a med = 0 hipotézis tesztelésére találták ki.
2. Ugyanúgy mint az előjelpróbánál, az esetleges 0 eltéréseket nem számol-
juk sem a pozitívokhoz, sem a negatívokhoz, hanem elhagyjuk, ezzel a
mintaelemszámot is csökkentve.
3. Ha a kapcsolt rangok gyakoriak, a normális közelítést is korrigálni kell.
4. A próba párosított minták vizsgálatára is használható. (Ez lényegében
minden egymintás próbára igaz, vö. t-próba, előjelpróba.) Ekkor a kü-
lönbségeknek kell folytonos és szimmetrikus eloszlást követniük, és a hi-
potézisek is a különbség mediánjára vonatkoznak.

7.17. példa. Reakcióidő megnövekedése – Wilcoxon-próba


Tíz kísérleti személynek ugyanazzal a módszerrel mérték a reakcióidejét csendes és za-
jos környezetben. A kérdés az volt, hogy bizonyíthatóan nagyobb-e a reakcióidő zajos
környezetben (egyoldali kérdésfeltevés!). Az eredmények az alábbi táblázatban láthatók
(mindegyik érték 20-20 mért reakcióidő átlaga másodpercben). A számítás követhető-
sége kedvéért a táblázat harmadik sorában az értékek különbségét, a negyedik sorban
pedig a különbségek rangszámát is feltüntettük.

Zajos 0.24 0.36 0.20 0.30 0.40 0.34 0.20 0.44 0.38 0.47
Csendes 0.24 0.11 0.27 0.36 0.19 0.14 0.25 0.37 0.08 0.10
Különbség 0 0.25 -0.07 -0.06 0.21 0.20 -0.05 0.07 0.30 0.37
Kül. rangja - 7 3.5 2 6 5 1 3.5 8 9

Párosított minták esetén a Wilcoxon-próbát a különbségekkel végezzük az előző pont-


ban leírtak szerint. Az első kísérleti személy esetén a különbség nulla, ezért kihagyjuk
a számításokból, így a mintaelemszám 10-ről 9-re csökken. A harmadik és a nyolcadik
személynél a különbség abszolút értéke azonos (0.07), tehát mindketten a 3.5 rangot
kapják. A statisztika a pozitív különbségekhez tartozó rangok összege, azaz 38.5.
A nulleloszlás
p közelítőleg normális µ = 9 · 10/4 = 22.5 várható értékkel és
σ = 9 · 10 · 19/24 = 8.44 szórással. A p-érték folytonossági korrekció nélkül a stan-
dard normális eloszlás táblázatából a |38.5 − 22.5|/8.44 = 16/8.44 = 1.90 értékhez
tartozó valószínűség, azaz p = 0.0287. Folytonossági korrekcióval a 15.5/8.44 = 1.84
értékhez tartozó, azaz p = 0.0329.
A különbség tehát 5%-os szinten szignifikáns. Nagyobb mintával egyébként vizsgálhat-
nánk az átlagos különbséget is t-próbával (most azért nem szívesen tettük volna, mert
a különbség határozottan kétcsúcsú eloszlást mutatott).
A megoldás R-rel:
> zajos = c(0.24, 0.36, 0.2, 0.3, 0.4, 0.34, 0.2,
+ 0.44, 0.38, 0.47)
> csendes = c(0.24, 0.11, 0.27, 0.36, 0.19, 0.14,
+ 0.25, 0.37, 0.08, 0.1)
> wilcox.test(zajos, csendes, paired = T, alternative = "greater",
+ correct = F)
7.6. Rangpróbák 235

Wilcoxon signed rank test

data: zajos and csendes


V = 38.5, p-value = 0.0289
alternative hypothesis: true location shift is greater than 0

> wilcox.test(zajos, csendes, paired = T, alternative = "greater")

Wilcoxon signed rank test with continuity correction

data: zajos and csendes


V = 38.5, p-value = 0.03304
alternative hypothesis: true location shift is greater than 0

> library(coin)
> wilcoxsign_test(zajos~csendes, alternative = "greater",
+ distribution = "exact")

Exact Wilcoxon-Signed-Rank Test (zeros handled


a la Pratt)

data: y by
x (neg, pos)
stratified by block
Z = 1.7873, p-value = 0.03906
alternative hypothesis: true mu is greater than 0

Az eredmények a kerekítési hibák miatt némileg eltérnek a fentiektől (papíron csak két
tizedessel számoltunk).

7.6.2. Mann–Whitney-féle U-próba (Mann-Whitney test)


Nevezik Wilcoxon-féle rangösszeg-próbának vagy Wilcoxon–Mann–Whitney-
próbának is (Wilcoxon’s rank sum test, Wilcoxon-Mann-Whitney test).
Két populációt hasonlítunk össze egymással két független minta alap-
ján, a mért értékek helyett rangszámokkal számolva. Bizonyítható, hogy
az alábbiakban leírt számítás ekvivalens a rangszámokon végzett kétmintás
t-próbával.
Feltétel: A változók eloszlása folytonos, sűrűségfüggvényeik azonos ala-
kúak (eltolással egymásba átvihetők, lásd 188. oldal), a két változóra két
független mintánk van.
236 Reiczigel – Harnos – Solymosi: Biostatisztika

Jegyezzük meg, hogy ha a két eloszlás egymásba eltolással átvihető, ak-


kor a varianciáik is megegyeznek! Ebből az következik, hogy a Mann–
Whitney-próba klasszikus megfogalmazása nem engedi meg a szó-
rások különbözőségét! Az utóbbi években a próbának kidolgozták olyan
általánosításait is, amelyek képesek erre, ilyen például a Brunner–Munzel-
próba vagy a bootstrap Wilcoxon–Mann–Whitney próba. Érdemes a klasszi-
kus próba helyett inkább ezeket alkalmazni, a megfelelő R-függvényeket lásd
a könyv honlapján. Most – a bevezető statisztika kurzusokra gondolva – a
klasszikus számítást ismertetjük.

Nullhipotézis: H0 : a változók eloszlása megegyezik, azaz az eltolás 0.


Ellenhipotézis:
• H1 : az eltolás 6= 0 (kétoldali ellenhipotézis), vagy
• H1 : az eltolás < 0 vagy H1 : az eltolás > 0 (egyoldali ellenhipotézisek).
R-függvények: wilcox.test() (ez kapcsolt rangok esetén csak köze-
lítő számítást tud végezni, a kapcsolt rangokról lásd a 44. oldalt) vagy
wilcox.exact() az exactRankTests csomagból, vagy a wilcox_test()
a coin csomagból (ezek ilyen esetben is tudnak egzakt tesztet végezni).
Statisztika: Jelölje a két mintát x1 , x2 ,. . . ,xn és y1 , y2 , . . . , ym . Képezzük
az összes (xi , yj ) értékpárt a két mintából (összesen n · m pár van). A
statisztika azon párok száma, amelyekre xi > yj (egyenlőség esetén a párt
1/2-del számoljuk).
Nulleloszlás: A nulleloszlást kis mintaelemszámokra kiszámolták, és a
kritikus értékeket táblázatba foglalták. Hasonlóan a Wilcoxon-féle előjeles
rangpróbához, ez a táblázat is csak akkor használható, ha nincsenek kapcsolt
q mintákra (a szokásos javaslat n, m ≥ 8) a nulleloszlás a
rangok! Nagyobb
nm nm(n+m+1)
µ= 2 , σ= 12 paraméterű normálissal közelíthető.
Megjegyzések:
1. Ha a fenti próbastatisztikát elosztjuk az összes párok számával, n · m-
mel, akkor egy olyan mutatót kapunk (jelöljük V -vel), amelynek világos
és a gyakorlatban is használható jelentése van. Tegyük fel, hogy mindkét
populációból véletlenszerűen kiválasztunk egy-egy egyedet, és összeha-
sonlítjuk őket: V azon valószínűség becslése, hogy az első populációból
származó érték nagyobb! Ezt a fajta – párosával való – összehasonlítást
nevezhetjük a „véletlen párok versenyének”, V azon valószínűség becslé-
se, hogy ebben a versenyben „az első populáció győz”.
2. Nem a fenti próbastatisztika az egyetlen lehetőség. Egy ekvivalens sta-
tisztika: a két mintát egyesítjük, az egyesített minta értékeihez rang-
7.6. Rangpróbák 237

számokat rendelünk (1-től (n + m)-ig), majd vesszük az első mintához


tartozó rangok összegét. Ha ezt a statisztikát Q-val, a fentit pedig U -val
jelöljük, akkor könnyen belátható, hogy Q = U + n(n + 1)/2, ahol n
az első minta elemszáma. Wilcoxon 1945-ben megjelent közleményében
(Wilcoxon 1945) a Q-t használta – innen a rangösszegteszt elnevezés –,
majd Mann és Whitney 1947-ben (Mann & Whitney 1947) az U -t java-
solta, és megmutatta, hogy a két statisztika ekvivalens. Az R a Mann–
Whitney-féle statisztikával (az U -val) dolgozik, de W -nek nevezi (lásd a
példában).
3. Kapcsolt rangok esetén a kritikus értékek számításakor korrekciót szok-
tak alkalmazni, nevezetesen a nulleloszlás szórását számolják egy kicsit
másképpen (a képletet elhagyjuk).

7.18. példa. Vérszegénység kezelése – Mann–Whitney-próba


Egy kísérletben enyhe vérszegénység vaskészítménnyel való kezelését tesztelték 10 ke-
zelttel és 10 placebo-kontrollal, a kísérleti egyedeket a két csoportba véletlenszerűen
besorolva. Az alábbi táblázat a kezelés utáni hemoglobinszinteket (g/dl) mutatja. A
kontrollcsoportban az egyik mérés nem sikerült, ezért ott csak 9 érték van.

Kezelt 9.1 9.3 9.5 9.8 10.3 10.6 11.0 11.0 11.5 11.9
Kontroll 8.1 8.2 8.4 8.8 9.2 9.4 9.5 9.8 10.3

Csupán a számítások bemutatása (a statisztika dolgozat!) kedvéért használjuk a Mann–


Whitney-próbát a két csoport összehasonlítására, mert ebben az esetben nincs különö-
sebb okunk a nemparaméteres próba használatára. Az adatok nem nagyon térnek el
a normális eloszlástól (nem látszanak sem kétcsúcsúnak, sem ferdének), és a feltett
kérdésre az átlagok összehasonlítása is ugyanolyan értelmes választ adna. (De ha lenne
rá okunk, akkor is jobb lenne inkább a Brunner–Munzel- vagy a bootstrap Wilcoxon–
Mann–Whitney-próbát használni.)
A próbastatisztikához azt kell összeszámolni, hogy az összesen 10 · 9 = 90 párból hány
olyan van, amelyben az első mintából való érték a nagyobb. Ezt úgy is megtehetjük,
hogy összeszámoljuk, az első minta egyes elemei hány második mintabelinél nagyobbak
(egyenlőség esetén 1/2-del számolva). Ez a következő összeget eredményezi:
4 + 5 + 6.5 + 7.5 + 8.5 + 9 + 9 + 9 + 9 + 9 = 76.5.
p 10·9·20 √
A nulleloszlás közelítőleg µ = 10·9
2
= 45 átlagú és σ = 12
= 150 = 12.25 szó-
rású normális eloszlás, ahonnan a p-érték a standard normális eloszlás táblázatában a
(76.5−45)/12.25 = 31.5/12.25 = 2.57 értékhez tartozó valószínűség, azaz p = 0.0051,
lévén az ellenhipotézis egyoldali (ha a kezelés csökkentené a hemoglobinszintet, azt nem
tekintenénk hatásnak).
Az alábbiakban bemutatjuk az R-es megoldást mind a két függvénnyel. A közelítő meg-
oldásnál kikapcsoljuk a folytonossági korrekciót, hogy az eredmény a papíron számolttal
– a kerekítési hibáktól és a kapcsolt rangok miatti korrekciótól eltekintve – megegyezzen.
238 Reiczigel – Harnos – Solymosi: Biostatisztika

> kezelt = c(9.1, 10.3, 11, 11.5, 11.9, 9.5, 10.6, 9.3, 11, 9.8)
> kontroll = c(8.1, 8.4, 9.2, 9.4, 8.8, 9.8, 8.2, 10.3, 9.5)
> wilcox.test(kezelt, kontroll, alternative = "greater",
+ correct = F)

Wilcoxon rank sum test

data: kezelt and kontroll


W = 76.5, p-value = 0.00499
alternative hypothesis: true location shift is greater than 0

A coin csomag (Hothorn et al. 2006, 2008b) egzakt Mann-Whitney-próbájához


a két mintát egyesíteni kell, és létrehozni egy csoportváltozót, mert a wilcox_test()
függvény csak formulát fogad el.

> kezelt = c(9.1, 10.3, 11.0, 11.5, 11.9, 9.5, 10.6, 9.3, 11.0, 9.8)
> kontroll = c(8.1, 8.4, 9.2, 9.4, 8.8, 9.8, 8.2, 10.3, 9.5)
> mind = c(kezelt, kontroll)
> csoport = factor(rep(c(1,2), c(10,9)))
> library(coin)
> wilcox_test(mind ~ csoport,alternative="greater", distribution="exact")

Exact Wilcoxon Mann-Whitney Rank Sum Test

data: mind by csoport (1, 2)


Z = 2.5765, p-value = 0.004114
alternative hypothesis: true mu is greater than 0

7.6.3. Kruskal–Wallis-féle H-próba (Kruskal-Wallis H-test)


Három vagy több populációt hasonlítunk össze független minták alapján, az
összehasonlításhoz a mért értékek helyett a rangokat használva. Az eljárás
logikája nagyon hasonló a Mann–Whitney-próbáéhoz, mondhatjuk, hogy
annak általánosítása több populációra. Az összes mintát egyesítjük, min-
den értéknek meghatározzuk a rangszámát ebben az egyesített mintában,
mindegyik mintára kiszámítjuk a rangok összegét, végül a próbastatisztikát
ezekből a rangösszegekből számoljuk.
7.6. Rangpróbák 239

Feltétel: A klasszikus feltétel itt is az, hogy a változók folytonosak, sű-


rűségfüggvényeik azonos alakúak (eltolással egymásba átvihetők), a minták
pedig függetlenek. Hasonlóan a Mann–Whitney-próbához, a feltételből most
is következik, hogy a szórás mindegyik csoportban ugyanakkora.
Nullhipotézis: H0 : mind a k változó eloszlása megegyezik.
Ellenhipotézis: H1 : az eloszlások nem mind azonosak.
R-függvények: kruskal.test() vagy a coin csomag kruskal_test()
függvénye.
Statisztika:
Ri2
Pk
12i=1
ni
H= − 3(N + 1),
N (N + 1)
P
ahol n1 , n2 , . . . , nk a mintaelemszámok, N = ni , és R1 , R2 , . . . , Rk a
rangösszegek.
Megjegyzések:
1. Kapcsolt rangok esetén a statisztikát egy – a kapcsolt rangok számától
függő – szorzóval meg kell szorozni (a képletet elhagyjuk).
2. Hasonlóan a Mann–Whitney-próbához, kis mintákra a nulleloszlást ki-
számolták, és a kritikus értékekről táblázatot készítettek. Ez a táblázat is
csak akkor használható, ha nincsenek kapcsolt rangok. Nagyobb minták-
ra a nulleloszlás aszimptotikusan khi-négyzet (k − 1) szabadsági fokkal.
Kapcsolt rangok esetén is ezt kell használnunk, mint közelítő megoldást.
3. A coin csomag kruskal_test() függvényénél választhatunk, hogy az
aszimptotikus (khi-négyzetes) módszerrel számoljon (ez az alapértelme-
zés, ekkor a kruskal.test() függvénnyel azonos eredményt kapunk),
vagy szimulált (Monte-Carlo) p-értéket számoljon adott számú véletlen
permutáció alapján (például 10000 permutáció esetén a pararaméterezés:
distribution = approximate(B = 10000)).
240 Reiczigel – Harnos – Solymosi: Biostatisztika

D ● ● ● ● ●

C ● ● ● ● ●
Terület

B ● ● ● ● ●

A ●● ● ● ●

0 20 40 60 80

Pipacsok száma

7.8. ábra. Pipacsok száma a négy vizsgált területen lévő 5-5 kvadrátban. Az eloszlások
ferdesége miatt az összehasonlítást a Kruskal–Wallis-próbával végezzük

7.19. példa. Pipacsok számlálása – Kruskal–Wallis-próba


Négy terület (A, B, C, D) mindegyikén 5-5 véletlenszerűen kiválasztott azonos méretű
kvadrátban megszámoltuk a pipacsokat. Kérdés, van-e különbség a négy terület között
a pipacsok gyakoriságát tekintve.
Az adatokat az alábbi táblázat tartalmazza, grafikusan pedig a 7.8. ábra szemlélteti. Az
adatok szemmel látható ferdesége miatt kételkedünk a normalitásban, ezért Kruskal–
Wallis tesztet végzünk. A táblázatban a megfigyelt gyakoriságok mellett zárójelben a
rangokat, valamint az oszlopok alatt a rangösszegeket is feltüntettük.

A B C D
37 (13.0) 36 (12.0) 17 (7.0) 44 (16.0)
14 (6.0) 18 (8.5) 0 (1.0) 62 (19.0)
8 (4.5) 28 (11.0) 3 (2.0) 81 (20.0)
18 (8.5) 51 (18.0) 41 (15.0) 48 (17.0)
7 (3.0) 22 (10.0) 8 (4.5) 39 (14.0)
Rangösszeg (35.0) (59.5) (29.5) (86.0)

A próbastatisztika:

352 59.52 29.52 862


 
12 · + + +
5 5 5 5
− 3 · 21 = 11.47.
20 · 21
Ezt a 3 szabadsági fokú khi-négyzet-eloszlás kritikus értékeihez kell hasonlítanunk. A
statisztika még a 99%-os kritikus értéket (11.345) is meghaladja, tehát a négy vizsgált
terület között a különbség szignifikáns.
7.6. Rangpróbák 241

A megoldás R-rel:
> megfigy = c(37, 14, 8, 18, 7, 36, 18, 28, 51,
+ 22, 17, 0, 3, 41, 8, 44, 62, 81, 48, 39)
> terulet = c(1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3,
+ 3, 3, 3, 3, 4, 4, 4, 4, 4)
> kruskal.test(megfigy, terulet)

Kruskal-Wallis rank sum test

data: megfigy and terulet


Kruskal-Wallis chi-squared = 11.483, df = 3, p-value
= 0.009381

Tehát a területek között a pipacsok számát tekintve szignifikáns a különbség


(p = 0.0094).
Megjegyezzük, hogy a kruskal.test() függvényt a fenti alak helyett hívhattuk volna
formula megadásával is:
kruskal.test(megfigy ~ terulet).
A coin csomag kruskal_test() függvényével tudunk aszimptotikus tesztet végezni:

> kruskal_test(megfigy ~ factor(terulet))

Asymptotic Kruskal-Wallis Test

data: megfigy by factor(terulet) (1, 2, 3, 4)


chi-squared = 11.483, df = 3, p-value = 0.009381

Vagy kérhetünk szimulált értéket:


> kruskal_test(megfigy ~ factor(terulet),
+ distribution = approximate(B = 50000))

Approximative Kruskal-Wallis Test

data: megfigy by factor(terulet) (1, 2, 3, 4)


chi-squared = 11.483, p-value = 0.00224
8. Korrelációszámítás
Az élettudományokkal foglalkozók egy-egy kísérletes vagy megfigyeléses vizs-
gálat esetén általában nem egy, hanem több változót mérnek ugyanazokon
a mintavételi egységeken. Az ilyen mérésekkel kapcsolatban többféle kérdés
is felmerülhet: például, van-e valamilyen összefüggés, kapcsolat a változók
között; ha van, akkor hogyan lehet leírni azt a kapcsolatot; meg lehet-e
„jósolni” egyik változó ismeretében egy másik valószínű értékét; hogyan le-
het kiválogatni azokat a változókat, amelyek segítségével az adathalmazban
rejlő információ nagy része leírható stb. Ilyen kérdések megválaszolásához
ismertetünk módszereket a következő fejezetekben.
A korrelációszámítás (correlation analysis) alapvetően két véletlen
változó szimmetrikus kapcsolatával foglalkozik. Az 8.1. ábrán külön-
böző jellegű – két változó közötti – kapcsolatokat láthatunk szórásdiagra-
mokon.
Akkor beszélünk korrelációs kapcsolatról az X és Y véletlen vál-
tozók között, ha vagy kis X értékekhez kis Y értékek, nagy X
értékekhez nagy Y értékek (pozitív kapcsolat), vagy pedig kis X
értékekhez nagy Y értékek és nagy X értékekhez kis Y értékek
(negatív kapcsolat) tartoznak. A 8.1. (a), (b), (c) és (d) ábrán látha-
tunk ezekre az esetekre példákat. Pozitív kapcsolat van a testmagasság és
a testsúly vagy az iskolázottság mértéke (például tanulással töltött évek
száma) és a jövedelem között. Negatív kapcsolatot figyelhetünk meg gyer-
mekeknél a tévénézéssel töltött idő és a tanulmányi eredmények között, vagy
nők esetén a gyermekek száma és az iskolázottság mértéke között.
Előfordulhat, hogy X és Y között van kapcsolat, de nem korrelációs
jellegű, ha például X növekedése kis X-ekre Y növekedésével, nagyobb X-
ekre pedig Y csökkenésével jár együtt (8.1. (f) ábra).
A lineáris kapcsolat erősségét – intervallumskála esetén – számsze-
rűen a Pearson-féle korrelációs együtthatóval (Pearson’s correlation)
mérhetjük, amit R(X, Y )-nal jelölünk. Általánosabb, nem feltétle-
nül lineáris, de monoton kapcsolatok esetén a Spearman-féle rang-

243
244 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b) (c)


● ● ●
● ● ●
●● ● ●
● ● ● ● ●
●● ● ●
●●
● ● ●
●●● ● ● ● ●

● ● ●
●● ● ● ●●
●● ● ● ●●
●● ●
● ● ●
●● ●
●●
● ● ● ●
● ● ● ●●
● ● ●
● ● ● ● ●
● ● ● ●
● ●
● ●
●● ● ●● ● ●
●● ●
● ● ●● ● ●
● ● ● ●
● ●● ● ● ● ● ●
● ● ● ● ● ●●● ●
●● ●● ● ● ● ●
● ● ● ●● ●● ● ● ●●
● ●●
● ● ●

●● ● ● ● ●

● ● ● ●● ●
● ●● ● ●
● ● ● ● ●
●●● ● ● ●
● ● ●● ●● ● ● ●
●● ●
●●● ●
●● ●● ● ●
● ●
●● ● ● ● ●●● ●


●●●
●●●●● ●

● ●●● ● ●●
●● ● ●
● ●●●●● ●●●● ●
● ●

●●

●●
●●● ●●●● ●● ● ●●

(d) (e) (f)


● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ●
● ● ●
● ●
● ● ● ●
● ●
●●● ●
● ● ● ●
● ● ● ●
● ● ●
●● ●● ●
● ● ●
●● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ● ●
●●● ● ● ● ● ● ● ● ● ●● ● ● ●
● ● ● ● ● ●
● ● ● ●●
● ● ● ●

● ● ● ●● ●
● ● ●
●●
●● ●● ● ● ●
● ●
● ● ● ●

● ●
● ●● ● ●
● ●
● ● ●● ● ● ●●●
● ●
● ●●

●● ●


● ●
● ● ●

● ●●● ● ● ● ● ●
● ● ● ●
● ● ●
● ● ●●
● ● ● ●
● ● ● ● ●
●● ●
● ● ●
● ● ● ●
● ● ●● ●

8.1. ábra. Különböző típusú kapcsolatok két változó között: pozitív kapcsolat (a),
negatív kapcsolat (b), pozitív lineáris kapcsolat (c), negatív lineáris kapcsolat (d), nincs
kapcsolat (e), nem monoton kapcsolat (f). Az ábrákon minden pont egy megfigyelési
egységhez tartozik

korrelációs együtthatót, illetve a Kendall-féle tau-t használjuk (ld.


247. oldal).
Mindegyik együttható értéke −1 és +1 közé eshet. A 0 körüli értékek
gyenge, a −1-hez közeli értékek erős negatív, az 1-hez közeliek erős pozitív
korrelációs kapcsolatokat jeleznek.

8.1. A Pearson-féle korrelációs együttható


A Pearson-féle korrelációs együttható néhány tulajdonsága:
1. Ha a változók függetlenek, akkor R(X, Y ) = 0. Az R(X, Y ) = 0-ból
viszont nem következik a változók függetlensége, ilyenkor korrelálatlanságról
beszélünk.
2. Az |R(X, Y )| = 1 pontosan akkor áll fenn, amikor Y = aX + b, ekkor
R(X, Y ) előjele megegyezik a előjelével.
8.1. A Pearson-féle korrelációs együttható 245

Egy minta alapján a következőképpen becsülhetjük a Pearson-féle korrelá-


ciós együtthatót: Ha (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) a mintaelemek, ahol az
(xi , yi ) az i-edik megfigyelési egység esetén az X, illetve az Y változó mért
értéke, akkor
Pn
i=1 (xi− x̄)(yi − ȳ) sxy
r= = ,
(n − 1)sx sy sx sy

ahol x̄, ȳ a változók mintaátlaga, sx , sy pedig a becsült szórások. Az sxy az


ún. kovariancia becslése. Figyeljük meg, hogy a fenti kifejezés számlálójában
a megfelelő mintaátlagoktól való eltérések szerepelnek, vagyis a kifejezés a
minta „közepétől” való eltéréseket méri mind az x, mind az y irányban.
A nevező arról gondoskodik, hogy a −1 ≤ r ≤ 1 feltétel teljesüljön. A
korrelációs együttható lineáris transzformációra invariáns (vö. 4.2.4 fejezet),
de logaritmus-transzformációra például már nem.

8.1. példa. Regressziós kurzus – szórásdiagram és korrelációs együttható


Egy regressziós kurzuson megkértük a hallgatóságot, hogy jegyezzék fel a követke-
ző adataikat (természetesen név nélkül): nem (NEM), magasság (MAGASSAG), testtö-
meg (TOMEG), születési hossz (SZULHOSSZ), születéskori testtömeg (SZULTOMEG). A
regr.kurz táblázatban ezeket az adatokat találjuk meg. Első 5 sorát közöljük.
> regr.kurz = read.table("regr.kurz.csv", sep = ";", header = T)
> regr.kurz[1:5, ]

NEM MAGASSAG TOMEG SZULHOSSZ SZULTOMEG


1 no 168 52 55 3580
2 no 172 65 55 4500
3 no 167 63 57 4000
4 no 168 56 56 3000
5 no 162 52 49 2500

Figyelem! Ezt a példát csupán illusztrációnak szántuk. A számítások tudományos kö-


vetkeztetések levonására nem alkalmasak. Most úgy vesszük, hogy a résztvevők egy
véletlen minta egy populációból, mondjuk a PhD-hallgatók populációjából. Számítsuk
ki a korrelációs együttható értékét a regressziós kurzus résztvevőinek testtömege és szü-
letéskori testtömege között!
A felnőttkori testtömeg-születéskori testtömeg szórásdiagramot láthatjuk a 8.2. ábrán.
A Pearson-féle korrelációs együttható kiszámítása:
> with(regr.kurz, cor(TOMEG, SZULTOMEG))

[1] 0.4619028
246 Reiczigel – Harnos – Solymosi: Biostatisztika

8.2. ábra. Felnőttkori testtömeg-születéskori testtömeg szórásdiagram. Egy pont egy


megfigyelési egység (egy személy)

A korrelációs együttható mintából számított értéke különbözhet a po-


pulációban érvényes korrelációtól (annak becslése). Általában azt szeret-
nénk kimutatni, hogy van korreláció, azaz R(X, Y ) 6= 0. Ilyenkor is érdemes
megállapítani, hogy mekkora a korrelációs együttható szakmailag releváns
értéke, bár ezt többnyire nehéz megítélni.

8.1.1. Hipotézisvizsgálat a Pearson-féle korrelációs


együtthatóra vonatkozóan
Nullhipotézis: H0 : R(X, Y ) = 0, ahol R(X, Y ) az ismeretlen (populáci-
ós) korrelációs együttható.
Ellenhipotézis:
• H1 : R(X, Y ) 6= 0 (kétoldali ellenhipotézis), vagy
• H1 : R(X, Y ) < 0 vagy H1 : R(X, Y ) > 0 (egyoldali ellenhipotézisek).
Feltétel: Független minta kétdimenziós normális eloszlásból. A függet-
lenség azt jelenti, hogy a megfigyelési egységek kiválasztása egymástól füg-
getlen (nem ugyanazokon az egységeken mérünk, nem hozhatók egymással
összefüggésbe a mintaelemek, nem testvérek stb.).
R-függvény: cor.test().
Statisztika: s
n−2
t=r ,
1 − r2
8.2. Együtthatók monoton kapcsolatokra 247

ahol r a mintából számolt Pearson-féle korrelációs együttható.


Nulleloszlás: df = (n − 2) szabadsági fokú t-eloszlás.

8.2. példa. Regressziós kurzus – a korrelációs együtthatóra vonatkozó próba


A korrelációs együttható tesztelése:
> with(regr.kurz, cor.test(SZULTOMEG, TOMEG))

Pearson's product-moment correlation

data: SZULTOMEG and TOMEG


t = 2.2701, df = 19, p-value = 0.03503
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.0377416 0.7450322
sample estimates:
cor
0.4619028

A próba eredménye szerint a korrelációs együttható ebben az esetben szignifikánsan


különbözik nullától (p = 0.035).
A korrelációs együtthatóra vonatkozóan egy 95%-os megbízhatósági szintű konfidencia-
intervallumot is kaptunk: (0.038, 0.745).
Ha vannak hiányzó adatok, akkor mind a cor(), mind cor.test() függvénynél hasz-
náljuk a use = "complete.obs" beállítást!

8.2. Együtthatók monoton kapcsolatokra


Ha kapcsolat nem lineáris, és transzformációval sem tehető azzá, akkor hasz-
nálhatjuk a Spearman-féle rangkorrelációs együtthatót vagy a Kendall-féle
taut. Mindkét együttható értéke −1 és 1 közé esik.
A Spearman-féle rangkorrelációs együtthatót (Spearman’s rank
correlation) a következő képlettel számoljuk:
Pn 2
6 i=1 di
rs = 1 − ,
n3 − n
ahol n a mintaelemek száma, és a di -k az összetartozó rangok különbségei.
248 Reiczigel – Harnos – Solymosi: Biostatisztika

A Pearson-féle együttható rangokra kiszámítva megegyezik a Spearman-féle


együtthatóval.
A Kendall-féle tau (τ ) együtthatót (Kendalls’s tau, Kendall’s rank
correlation) a következőképpen számítjuk (szokták ezt is rangkorrelációs
együtthatónak nevezni, bár nem rangokból számolják): ha n a mintaelemek
száma, akkor a két változó mért értékeit összesen n(n − 1)/2 féleképpen
párosíthatjuk össze. Az (xi , yi ) és (xj , yj ) konkordánsok (concordant), ha
xi > xj és yi > yj vagy xi < xj és yi < yj , diszkordánsok (discordant), ha
xi > xj és yi < yj vagy xi < xj és yi > yj . Ha a konkordáns párok száma
P , és nincsenek azonos értékek, akkor
2P 4P
τ= −1= − 1.
n(n − 1)/2 n(n − 1)

Ha vannak azonos értékek, akkor a képletet némileg módosítani kell (nem


közöljük).
Az R-ben ezeket is a cor() függvénnyel számítjuk, és a cor.test() függ-
vénnyel teszteljük a method = "spearman", vagy a method = "kendall"
beállítással.
Mind a Spearman-féle rangkorrelációs együttható, mind a Kendall-féle
tau invariáns a monoton transzformációkra , tehát például nyugodtan lo-
garitmus-transzformálhatjuk az adatainkat, ezen együtthatók értéke nem
fog megváltozni. Hogy mikor melyiket használjuk, az döntse el, hogy a szél-
sőséges értékeket mennyire akarjuk figyelembe venni. A Spearman-félénél
jobban számít az, hogy a legnagyobb a legnagyobbal, a legkisebb a legki-
sebbel milyen viszonyban áll, míg a Kendall-félénél mindegyik mintaelem
ugyanolyan súllyal szerepel.

8.3. példa. Elsőéves hallgatók – monoton korreláció


Az elsőéves hallgatók matematika és biológia jegyeinek rangkorrelációs együtthatói:
> with(elsoeves, cor(matek, biol, method = "spearman"))

[1] 0.6631585

> with(elsoeves, cor(matek, biol, method = "kendall"))

[1] 0.5430071
8.2. Együtthatók monoton kapcsolatokra 249

8.2.1. A monoton korrelációs együtthatókra vonatkozó próba


Nullhipotézis: H0 : A két változó független.
Ellenhipotézis: H1 : Van sztochasztikus monoton kapcsolat a változók
között.
Feltétel: A változóknak ordinális vagy intervallumskálán mérteknek kell
lenniük.
R-függvény: cor.test().

8.4. példa. Regressziós kurzus – monoton korreláció tesztelése


A rangkorrelációs együtthatók tesztelése:
> with(regr.kurz, cor.test(SZULTOMEG, TOMEG, method = "spearman"))

Spearman's rank correlation rho

data: SZULTOMEG and TOMEG


S = 718.2647, p-value = 0.01273
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.5335944

> with(regr.kurz, cor.test(SZULTOMEG, TOMEG, method = "kendall"))

Kendall's rank correlation tau

data: SZULTOMEG and TOMEG


z = 2.3089, p-value = 0.02095
alternative hypothesis: true tau is not equal to 0
sample estimates:
tau
0.3725535
9. Regressziószámítás
A regressziószámítás (regression analysis) feladata függvényszerű
kapcsolat keresése egy vagy több folytonos magyarázó vagy füg-
getlen változó (independent, explanatory variable) és egy függő változó
(dependent variable) között.
Először bemutatjuk általánosságban az alkalmazott modellt, utána rész-
letesen tárgyaljuk az egyszerű és többszörös lineáris regresszió esetét, majd
kitérünk a nemlineáris regresszióra is. Bemutatjuk, hogy hogyan illesztjük
a különböző függvényeket, hogyan vizsgáljuk az illeszkedések „jóságát”, il-
letve hogyan végzünk becsléseket a modellekben.
Regressziószámítás esetén – szokás szerint – a magyarázó változókat X-
ekkel, a függő változót pedig Y -nal jelöljük. Feltételezzük, hogy az X-ek és
az Y közötti összefüggés kifejezhető függvény formájában, azaz

• f : X → Y vagy Y = f (X)
Például: TESTTÖMEG = f (MAGASSÁG)
• f : X1 , X2 , . . . , Xr → Y vagy Y = f (X)
Például: TESTTÖMEG = f (MAGASSÁG, SZÜL.TÖMEG)

Valójában az f (X) az Y várható értékével egyenlő, a megfigyelt értékek ettől – a


véletlen ingadozások miatt – eltérnek.

Ahhoz, hogy regressziószámítást végezhessünk, mind a magyarázó, mind


a függő változót ismernünk kell ugyanazokon a megfigyelési egységeken
(egyedeken), azaz mind az X mért értékei (x-ek) , mind az Y mért ér-
tékei (y) ugyanannak az adatmátrixnak az oszlopai kell, hogy legyenek (vö.
33. oldal).

251
252 Reiczigel – Harnos – Solymosi: Biostatisztika

9.1. A regressziószámítás szokásos


kérdésfeltevései
Ha változók közötti kapcsolatot vizsgálunk – például a regressziós kurzus
résztvevőinek (8.1. példa) felnőttkori testtömeg-születéskori testtömeg kap-
csolatát –, akkor a következő kérdéstípusok merülhetnek fel:
• Van-e bizonyos változók között kapcsolat?
Függ-e a felnőttkori testtömeg a születéskori testtömegtől?
• Milyen függvénnyel (lineáris, exponenciális, hatvány stb.) írható le az
összefüggés?
Alkalmas-e ezen összefüggés leírására a lineáris függvény?
• Mi a függő változó várható értéke a magyarázó változó egy bizonyos
értékéhez?
Mekkora felnőttkori testtömeget várhatunk 3500 grammos születéskori
testtömeg esetén?
• Mi a magyarázó változó feltételezhető értéke a függő változó egy bi-
zonyos értékéhez?
Átlagosan mekkora testtömeggel születtek a 80 kg-os felnőttek?
A cél lehet oksági kapcsolat megállapítása a változók között – bár ehhez
pusztán a statisztikai elemzés nem elegendő –, gyakran azonban csak be-
csülni szeretnénk az egyik változó értékéből a másikat a közöttük tapasztalt
összefüggés alapján.
A továbbiakban, ha függésről, összefüggésről beszélünk, akkor sohasem ok-
okozati összefüggésre, hanem statisztikai jellegű függésre gondolunk.
Feltételezzük, hogy mind a magyarázó, mind a függő változó intervallum-
skálán mérhető. Ha a függő változót nem intervallumskálán mérjük, vagy a
változó nem vesz fel elég sok értéket, akkor más módszereket kell használ-
nunk az elemzéshez.
Példánkban a 8.2. ábra szerint a nagyobb testtömeggel születettek felnőtt
korban is nagyobb tömegűek lesznek, azaz egyértelmű a pozitív összefüggés
a két változó között, bár a szóródás túlságosan nagy ahhoz, hogy a születés-
kori testtömeg alapján aránylag pontos előrejelzést adhatnánk a felnőttkori
testtömegre.
Mielőtt nekilátnánk a függvény illesztésének, el kell döntenünk, hogy
melyik változó legyen a magyarázó és melyik a függő változó?
9.2. Véletlenség a magyarázó és a függő változóban 253

Ez mindig attól függjön, hogy


• milyen irányú oksági kapcsolatot és
• milyen véletlen hatásokat
tételezünk fel a változók között! Ne függjön attól, hogy melyik változót
szeretnénk a másik alapján prediktálni (előrejelezni)!

9.2. Véletlenség a magyarázó és a függő


változóban
A függő változó mindig valószínűségi változó, a magyarázó változók azonban
nem feltétlenül.
Általában úgy gondoljuk, hogy az Y két független, additív komponensre
bontható: az egyik az X-ektől függ, és a magyarázó változó(k) hatását írja
le, a másik pedig egy, az X-ektől független véletlen komponens –,
amit hibának, véletlen hibának, vagy hibatagnak (ε) (error term)
is szoktak nevezni –, amibe minden egyéb hatást beleértünk, azaz
Y = f (X) + ε.
Fel szokás tenni, hogy a hibatag várható értéke 0, azaz E(ε) = 0, és
hogy eloszlása szimmetrikus, a statisztikai tesztek kedvéért pedig még azt
is, hogy normális eloszlású.
Egy magyarázó változó véletlenségéről három feltevést különböztetünk
meg, ennek alapján beszélhetünk I-es és II-es modellről. Az I-es modell
(Model I) esetén két lehetőség van:
• X nem véletlen változó, a kísérlet vezetője állítja be (például, dózis,
koncentráció, időtartam stb.);
• bár a „természet” állítja be az X értékét (véletlen változó), de az
pontosan ismert, és az Y ettől (a mért X-től) függ (ilyen, például ha a
hőmérséklettel, területtel, szélességi fokkal való kapcsolatát vizsgáljuk
egy faj abundanciájának, fajösszetételnek stb.).
A II-es modell esetén a mért X nem azonos az Y -t befolyásoló
változóval (mérési pontatlanság miatt, vagy mert X elvont, nem mérhető,
például, ha X = intelligencia 6= IQ).
Ne használjuk az I-es modellt, ha nem tudjuk eldönteni, hogy melyik
változót tekintsük magyarázó és melyiket függő változónak (ez nem csupán
technikai kérdés, hanem a véleményünket tükrözi arról, hogy mi mitől függ,
illetve hogy mit tételezünk fel a véletlen faktorokról)!
A továbbiakban a 9.6. fejezet kivételével az I-es modellt tárgyaljuk.
254 Reiczigel – Harnos – Solymosi: Biostatisztika

9.3. Mikor használjunk korreláció-, illetve


regressziószámítást?
A legfontosabb különbségek a két módszer között:
• A korrelációszámítás szimmetrikus kapcsolatot tételez fel az X és
Y között, míg a regressziószámítás – lineáris regresszió és II-es modell
kivételével – egy bizonyos irányú (X → Y ) kapcsolatot.
• Míg a korrelációszámításban mindkét változó valószínűségi vál-
tozó, a regressziószámításban X nem feltétlenül az (nem feltétlenül
függ a véletlentől). A korrelációszámításnak nincs értelme akkor, ha X
értékeit a kísérletező állítja be (például egy gyógyszer dózisát). Ekkor
ugyanis a korrelációs együttható értéke nemcsak az X és Y kapcsola-
tától függ, hanem attól is, hogy mekkora dózisokat állítunk be.
Gyakran mindkét módszer alkalmazható, ha megfelelően átfogalmazzuk a
kérdéseket. Mindig gondoljuk meg azonban azt, hogy melyik fogalmazás
tükrözi jobban azt, hogy valójában mi is érdekel minket!
Ne használjunk regressziószámítást akkor, ha két mérési mód-
szer közötti egyezést vizsgálunk, és nem pedig azt, hogy hogyan fejez-
hető ki egyik mérési eredmény a másikkal!
Ilyenkor a korrelációszámításnak sincs értelme, hiszen az erős korreláció
sem feltétlenül jelent jó egyezést: erős korrelációt kaphatunk nagy szisz-
tematikus hiba (torzítás) esetén is (9.1. példa). Ha a mérési eredmények
egyezése érdekel, legjobb, ha a különbséggel (abszolút vagy relatív) számo-
lunk. (De végezhetünk regresszió – nem korreláció! – számítást akkor, ha
az egyik mérési módszert pontosnak tekintjük, és arra vagyunk kíváncsiak,
hogyan lehet a másikat korrigálni. Ekkor illesztünk egy függvényt a pontat-
lan mérés – pontos mérés adatokra, és így a pontatlan mérés adatait egy
egyszerű transzformációval pontosíthatjuk.)

9.1. példa. Mérési módszerek összehasonlítása


Össze szeretnénk hasonlítani két műszert abból a szempontból, hogy felcserélhetők-e
egymással. Ugyanazokon a mintavételi egységeken kétszer mérünk, azaz mindkét mű-
szerrel lemérjük a mérendő paramétert. A mérések:

1. műszer: 1.22 1.41 1.62 1.29 1.91 1.55 1.35


2. műszer: 1.10 1.32 1.50 1.21 1.80 1.44 1.27
különbség: 0.12 0.09 0.12 0.08 0.11 0.11 0.08

A korrelációs együttható a két méréssorozat között majdnem 1, de mint azt a különbség


sorból láthatjuk az első műszer szisztematikusan többet mér minden esetben.
9.4. Egyszerű lineáris regresszió: I-es modell 255


● ●

Y = β0 + β1X β1

valódi ●
1
Y b1

● 1
● ●

● ●

y^ = b 0 + b 1x

● ●


becsült
● ●●

9.1. ábra. Egyszerű lineáris regresszió esetén a valódi és becsült egyenesek

Ha a mérések egyezősége érdekel, akkor készítsünk Bland-Altman-féle


ábrát (Bland-Altman plot). Ez egy szórásdiagram az x tengelyen a két mérés
átlagával, az y tengelyen pedig a két mérés különbségével (Bland & Altman
1986). Az ábráról leolvasható a két mérés átlagos eltérése (tendenciózus
eltérés), és a különbség szórása (véletlen eltérés), valamint az is, hogy ezek
a jellemzők állandóak-e a teljes méréstartományban (csak ekkor van értelme
az eltérést az átlagával és a szórásával jellemezni).

9.4. Egyszerű lineáris regresszió: I-es modell


Az általános modellt egy magyarázó változóval a következőképpen adtuk
meg: Y = f (X) + ε, azaz Y várható értéke: E(Y ) = f (X). Ha lineáris a
kapcsolat a két változó között (9.1. ábra), akkor egyszerű lineáris regresszi-
óról (simple linear regression) van szó, és

Y = β0 + β1 X + ε,

ahol a β0 az egyenes y tengellyel való metszéspontja (intercept), a β1 az egye-


nes meredeksége (slope), ε pedig a véletlen hiba. Az xi pontokhoz tartozó
becsült értékeket (az egyenes pontjait) ŷi -pal jelöljük, azaz ŷi = f (xi ).
Az egyenes együtthatóit, vagy paramétereit (β-k) az adatokból becsüljük
a közönséges legkisebb négyzetek módszere (Ordinary Least Squares met-
hod) („OLS módszer”) szerint. A becsléseket b0 , b1 jelöli (szokták β̂0 , β̂1 -pal
is jelölni).
256 Reiczigel – Harnos – Solymosi: Biostatisztika

mért
yi ●
● ●

ei=reziduum

Y becsült

y^i ● ●

● ●

● ●


● ●

● ●●

xi
X

9.2. ábra. Az ábrán a függőleges szakasz mutatja egy pont esetén a reziduumot.
Olyan egyenest keres a „legkisebb négyzetek” módszere, amely esetén ezen reziduumok
négyzetösszege minimális

A közönséges legkisebb négyzetek módszere szerinti becslés azt je-


lenti, hogy egy olyan függvényt keresünk, amelyre ( (yi − f (xi ))2 )
P

minimális (9.2. ábra). Ez a kifejezés a pontoknak a függvény grafikonjától


való függőleges irányú távolságainak négyzetösszege.
A pontoknak az illesztett egyenestől való függőleges távolságát nevezzük
reziduumnak (residual, error), magyarul maradéknak is szokták nevezni.
A reziduum a véletlen hiba vagy hibatag becslése az adatokból.
Lineáris regresszióra a minimalizálási probléma formálisan:
n n
X X
(yi − ŷi )2 = (yi − (b0 + b1 xi ))2 → min .
i=1 i=1

Ez egy kétváltozós másodfokú függvény (változói b0 és b1 ) minimumának megkeresését


jelenti, amit parciális deriválással találhatunk meg.

Az OLS módszerből a paraméterek becslései lineáris regresszió esetén:


Pn
i=1 (xi − x̄)(yi − ȳ) sxy sy
b1 = Pn 2
= 2
=r ,
i=1 (xi − x̄) sx sx
b0 = ȳ − b1 x̄, ei = yi − b0 − b1 xi ,
ahol n a megfigyelések száma, sx az X, sy az Y megfigyeléseinek szórása,
sxy a kovariancia becslése, x̄ az X, ȳ az Y megfigyelések átlaga, ei az i-edik
megfigyelés reziduuma. Ezzel a becslési módszerrel számolva a reziduumok
összege 0.
9.4. Egyszerű lineáris regresszió: I-es modell 257

A hibatag (ε) standard hibájának a reziduális szórás (residual standard


error) a becslése: sP
n 2
i=1 (yi − ŷi )
SE(e) = .
(n − 2)
A paraméterbecslések standard hibájának becslése:
s Pn
SE(e) x2
SE(b1 ) = pPn , SE(b0 ) = SE(e) Pn i=1 i .
i=1 (xi − x̄)
2 n i=1 (xi − x̄)2

9.2. példa. Regressziós kurzus – egyszerű lineáris regresszió


Végezzünk lineáris regressziót a testtömeg-születéskori testtömeg adatokra! Az egye-
nest az lm() függvénnyel tudjuk illeszteni. Argumentumként meg kell adni a modellt
Y ∼ X formában, valamint az adatmátrixot. Célszerű létrehozni egy modellobjektumot,
amelynek segítségével további információkat kaphatunk. Esetünkben:
> (regmod1 = lm(TOMEG ~ SZULTOMEG, data = regr.kurz))

Call:
lm(formula = TOMEG ~ SZULTOMEG, data = regr.kurz)

Coefficients:
(Intercept) SZULTOMEG
33.099147 0.009146

Az outputból kiolvashatóak a paraméterbecslések. Ezek szerint az illesztett egyenes


egyenlete: TOMEG= 33.1 + 0.01·SZULTOMEG.
Az egyenest egyszerűen rá tudjuk rajzolni a szórásdiagramra az abline() függvénnyel
(9.2. ábra):
> with(regr.kurz, plot(TOMEG ~ SZULTOMEG, pch = 20,
+ xlab = "Születéskori testtömeg (g)", ylab = "Testtömeg (kg)"))
> abline(regmod1, lty = 2)
Az első utasítással rajzoljuk meg a szórásdiagramot, a másodikkal pedig egy olyan
egyenest rajzolunk rá a szórásdiagramra, melynek együtthatóit a modell adja. (Ez csak
egyszerű lineáris regresszió esetén működik így.)

9.4.1. Hipotézisvizsgálatok
Amikor regressziószámítást végzünk, fontos kérdés az, hogy valóban függ-e
az Y az X-től (értsd: nemcsak a vizsgált mintában, hanem a populációban).
Az eddigiek során csupán az egyenes illesztését végeztük el, de nem foglal-
koztunk azzal, hogy valóban igazolható-e az X és az Y között az összefüggés.
Erre vonatkozóan kétféle vizsgálatot is szoktak végezni:
258 Reiczigel – Harnos – Solymosi: Biostatisztika

A) A meredekségre vonatkozó vizsgálat

Nullhipotézis: H0 : β1 = 0.
Ellenhipotézis: H1 : β1 6= 0.
A H0 : β1 = 0 hipotézis azt jelenti, hogy az egyenes meredeksége nulla
(vízszintes), azaz Y nem függ X-től a modellben. (A szokásos szóhasználat
az, hogy „a regresszió szignifikáns” = függ, a „regresszió nem szignifikáns”
= a függést az adatok nem bizonyítják.)
Feltétel: Szükséges, hogy a hibatag (ε) független (mind egymástól, mind
az X-ektől) és normális eloszlású legyen konstans szórással (azaz az Y szó-
rása minden X esetén ugyanakkora). A normalitási feltétel csak kis minták
esetén (n < 30) szükséges, mivel a t-próba nagy mintákra közelítőleg akkor
is érvényes, ha az eloszlás nem normális.
R-függvény: summary().
Statisztika:
b1
t= .
SE(b1 )
Nulleloszlás: Student-féle t-eloszlás (n − 2) szabadsági fokkal.

B) Y X-től való függésére vonatkozó vizsgálat

Egy változó esetén ez a próba ekvivalens az előzővel. A vizsgálat lényege az,


hogy az Y teljes szórását (pontosabban eltérés-négyzetösszegét) felbontjuk
két részre (9.3. ábra). Egyrészt az X-től való függéséből eredő szórásra,
másrészt az egyéb hatásokból adódó szórásra („véletlen hiba”).

Y teljes szórása = X -től való függésből + véletlen hiba


eredő szórás
Pn Pn Pn
i=1 (yi − ȳ)2 = i=1 (f (xi ) − ȳ)2 + i=1 (yi − f (xi ))2

SST = SSR + SSH

Az SS az angol „sum of squares” rövidítése, és az eltérés-négyzetösszeget


jelöljük vele. Az SS alsó indexe jelöli azt, hogy melyikről van szó: T = teljes,
R = regressziós, H = hiba.
Nullhipotézis: Y nem függ X-től, azaz H0 : β1 = 0.
Ellenhipotézis: Y függ X-től, azaz H1 : β1 6= 0.
9.4. Egyszerű lineáris regresszió: I-es modell 259

yi ●

e i = y i − y^i
yi − y
y^i ●
y

xi
x

9.3. ábra. A négyzetösszeg-felbontás, amire az F -próba épül: az ȳ-tól való teljes elté-
rést (yi − ȳ) felbontjuk az egyenestől való eltérésre (yi − ŷ), és az egyenesnek az ȳ-tól
való eltérésére (ŷi − ȳ). ȳ az yi -k átlagát jelenti

Feltétel: A véletlen faktor (ε) független és normális eloszlású kell legyen.


R-függvények: summary() vagy anova().
Statisztika:
n
(ŷi − ȳ)2
P
SSR
F = = Pn i=1 .
SSH /(n − 2) ( i=1 (yi − ŷi )2 )/(n − 2)
Nulleloszlás: F -eloszlás (1, n − 2) szabadsági fokokkal.
Megjegyzés: Egyszerű lineáris regresszió esetén a két vizsgálat ekvivalens.
Az F -érték a a t-érték négyzete, így a P -értékek megegyeznek.

9.4.2. A determinációs együttható


A determinációs együttható (R2 ) (determination coefficient) azt fejezi
ki, hogy az Y teljes variabilitásából az X-től való függés hányad
részt magyaráz (gyakran százalékban szokták kifejezni):
n
(ŷi − ȳ)2
P
SSR SSH
R2 = =1− = Pi=1
n 2
.
SST SST i=1 (yi − ȳ)
A becsléseket, a standard hibáikat, a hipotézisvizsgálatok eredményét
és a determinációs együttható értékét a summary() függvény segítségével
kaphatjuk meg, melynek argumentuma a regressziós modellobjektum.
260 Reiczigel – Harnos – Solymosi: Biostatisztika

9.3. példa. Regressziós kurzus – summary()


> summary(regmod1)

Call:
lm(formula = TOMEG ~ SZULTOMEG, data = regr.kurz)

Residuals:
Min 1Q Median 3Q Max
-14.0247 -7.1101 -0.7684 6.9753 18.4024

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 33.099147 14.380794 2.302 0.0328 *
SZULTOMEG 0.009146 0.004029 2.270 0.0350 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9.807 on 19 degrees of freedom


Multiple R-Squared: 0.2134, Adjusted R-squared: 0.172
F-statistic: 5.153 on 1 and 19 DF, p-value: 0.03503

Az outputból kiolvashatók a reziduumokra vonatkozó statisztikák (mi-


nimum, alsó kvartilis, medián, felső kvartilis és maximum), valamint a pa-
raméterbecslések, a becslések standard hibái és a t-próbák eredményei (t-
és p-értékek). Az egyenes y tengelymetszetére (intercept) vonatkozó tesz-
tet nem szoktuk figyelni, csak akkor, ha az is fontos kérdés, hogy az origón
átmegy-e az egyenes (vö. 9.5. fejezet).
Az output utolsó részének első sorából kiderül, hogy mekkora a reziduu-
mok szórása (Residual standard error), és mekkora az SSH szabadsági
foka (degrees of freedom). A második sorból olvashatjuk ki a determiná-
ciós együttható értékét (Multiple R-squared). Az (Adjusted R-squared)
érték a determinációs együttható torzítatlan becslése. Részletesen a a 9.8.1.
fejezetben tárgyaljuk. Ezt az értéket használjuk egyváltozós esetben is. Az
utolsó sorban a modell egészére vonatkozó F -próba eredményét láthatjuk,
szerepe csak több magyarázó változó esetén van (ld. 272. oldal).

9.4.3. Predikció a modellben


A) A függő változó becslése adott X értékhez

Regressziós modellekben predikciót a predict() függvénnyel készíthetünk.


Ha a függvényt egyetlen argumentummal, a modellel hívjuk meg, akkor a
számított (becsült) értékeket kapjuk meg (az yˆi értékeket). Ugyanaz lesz
9.4. Egyszerű lineáris regresszió: I-es modell 261

az eredménye, mintha a fitted() függvényt hívtuk volna meg a modellel.


Ha újabb X értékekre is szeretnénk elvégezni a becslést, ezeket táblázat
(data.frame) formájában kell megadni. Ha mondjuk azt szeretnénk tudni,
hogy egy 4000 grammal született újszülöttnek felnőttkorában a modell alap-
ján várhatóan mekkora a testtömege, akkor azt például a következő kóddal
számíthatjuk ki:

> pred.frame = data.frame(SZULTOMEG = 4000)


> predict(regmod1, newdata = pred.frame)

[1] 69.68304

Ezek szerint a várható testtömeg 69.7 kg.


Figyelem! Ne készítsünk becslést olyan X-re, amely kívül esik
a mintabeli X-ek tartományán, mert nem tudhatjuk, hogy az il-
lesztett regressziós függvényünk ott is megállja-e a helyét (ld. 293.
oldal)! Az adattartomány határa felé közeledve a becslések egyre pontatla-
nabbakká válnak.

B) Konfidencia-intervallumok

A paraméterbecslések pontosságát konfidencia-intervallumokkal is kifejez-


hetjük, amelyeket a szokásos (bi ± tkrit SE(bi )) képlettel számolhatunk ki,
ahol tkrit az (n − 2) szabadsági fokú t-eloszlás kritikus értéke, és SE(bi )-t
az adatokból becsüljük (ld. 257. oldal).
Az R-ben a confint() függvénnyel számíthatjuk ki a paraméterek kon-
fidencia intervallumait. Ha nem 95%-os intervallumot szeretnénk számol-
tatni, hanem például 90%-osat, akkor a level = 0.9 argumentumot kell
beállítani.

> confint(regmod1)

2.5 % 97.5 %
(Intercept) 2.9997990989 63.19849439
SZULTOMEG 0.0007132789 0.01757867

C) Predikciós intervallum

Egy adott X-hez készíthetünk intervallumbecslést a számított Y -ra, vagy


egy egyedi megfigyelésre. Ez utóbbi esetén – azaz ha egy adott X érték-
hez szeretnénk intervallumbecslést adni Y -ra –, az ún. predikciós
intervallumot használjuk. Ebben az esetben tehát nem átlagot (várható
262 Reiczigel – Harnos – Solymosi: Biostatisztika

értéket), hanem egy egyedi megfigyelést becslünk, azaz egy olyan inter-
vallumot keresünk, amely az új megfigyelést adott valószínűséggel
(általában 95%) tartalmazza.
Egy-egy X értékre a predict() függvénnyel tudunk mind az egyenes-
re, mind az egyedi Y értékekre vonatkozó konfidencia-, illetve predikciós
intervallumot számíttatni az R-rel.
A függvénynek argumentumként meg kell adni, hogy konfidencia- vagy
predikciós intervallumot kérünk:
> x = data.frame(SZULTOMEG = 4000)
> predict(regmod1, newdata = x, int = "confidence")

fit lwr upr


[1,] 69.68304 63.70001 75.66608

> predict(regmod1, newdata = x, int = "prediction")

fit lwr upr


[1,] 69.68304 48.3027 91.06338

Ha a paraméterekre (β0 és β1 ) vonatkozó konfidencia-intervallumok összes


lehetséges értékpárjára felrajzoljuk a megfelelő egyenest, akkor kirajzolódik
az ún. konfidencia-sáv. Erről a sávról tehát azt lehet tudni, hogy
a valódi egyenes minden pontját adott (általában 95%-os) meg-
bízhatósággal tartalmazza, feltéve, hogy a feltételek teljesülnek, azaz
a hibatag független, normális eloszlású és 0 várható értékű valószínűségi
változó.
A 9.4. ábrán a szaggatott vonalak jelölik a regressziós egyenesre vonat-
kozó konfidencia-sávot, a pontozott vonalak pedig az egyes megfigyelésekre
vonatkozó 95%-os predikciós sávot, amely úgy készül, hogy minden X ér-
tékhez felrajzoljuk a konfidencia- és a predikciós intervallumot.
Látható, hogy az X tartomány szélei felé haladva a becslések egyre bi-
zonytalanabbak, a sávok egyre szélesebbek. (A bizonytalanság az X értékek
átlagánál a legkisebb.)

9.4. példa. Regressziós kurzus – konfidencia- és predikciós sáv


Rajzoljuk fel mind a konfidencia-, mind a predikciós sávokat a szórásdiagramra! Ehhez
megint a predict() függvényt alkalmazzuk. Ha az (int = "confidence") vagy az
(int = "prediction") beállítást használjuk, akkor 3-3 adatsort kapunk eredményül.
Az első esetben ezek az egyenes adott pontja, valamint a hozzátartozó konfidenciasáv
alsó, illetve felső határa, a második esetben pedig az egyenes adott pontja és a hozzá
tartozó predikciós sáv alsó, illetve felső határa. Ezeket a matlines() függvénnyel tudjuk
kirajzolni (egy x-hez több y-t ábrázol). Az y-okat most is táblázatos formában kell
9.5. Origón átmenő regresszió 263

100

90 ●
Testtömeg (kg)


80 ● ● ●

konfidencia−
predikciós intervallum ●
70 ● ●
intervallum
● ● ● ●
● ●
60 ●
● ● ●

● ●●
50 ●

40

2500 3000 3500 4000 4500 5000

Születéskori testtömeg (g)

9.4. ábra. Konfidencia- (szaggatott vonal) és predikciós sáv (pontozott-szaggatott


vonal)

megadni. Az xlim és ylim a tengelyhatárokat állítja be. A további beállítások a vonalak


típusára vonatkoznak.
> x = data.frame(SZULTOMEG = 2500:4500)
> konf.sav = predict(regmod1, int = "confidence", newdata = x)
> pred.sav = predict(regmod1, int = "prediction", newdata = x)
> with(regr.kurz, plot(TOMEG ~ SZULTOMEG, xlim = c(2500, 5000),
+ ylim = c(40, 100), xlab = "Születéskori testtömeg (g)",
+ ylab = "Testtömeg (kg)"))
> matlines(x$SZULTOMEG, konf.sav, lty = c(1, 2, 2),col=1)
> matlines(x$SZULTOMEG, pred.sav, lty = c(1, 6, 6),col=1)

9.5. Origón átmenő regresszió


Vannak olyan esetek, amikor tudjuk, hogy a függő változónak mindenkép-
pen nullának kell lennie, ha a magyarázó változó nulla. Például, ha azt
vizsgáljuk, hogy adott méretű élőhelyen hány madárfészek található, akkor
tudjuk, hogy ha a terület nulla, akkor a madárfészkek számának is nullá-
nak kell lennie. Vagy például azt is tudjuk, hogy ha egy állat testtömegét
vizsgáljuk valamilyen testméret függvényében, akkor nulla hossz esetén a
tömegnek is nullának kell lennie. Ilyen esetekben merülhet fel az, hogy a
regressziós függvényt át kell vezetni az origón, ekkor origón át-
menő regresszióról beszélünk (regression through the origin). Ez lineáris
regresszió esetén azt jelenti, hogy a modellnek csak egy becsülendő paramé-
264 Reiczigel – Harnos – Solymosi: Biostatisztika

tere lesz, az egyenes meredeksége. A modell:

Y = β1 X + ε.

R-ben úgy tudunk origón átmenő függvényt illeszteni, hogy a modellbe


beillesztünk egy „−1”-es tagot (lineáris regresszió esetén: Y ∼ X − 1), ezzel
elhagyjuk a konstans (intercept) részét a függvénynek.
Az origón átmenő regresszióval kapcsolatosan több probléma is fel-
merülhet:
• A megfigyelési tartományunkba nagyon ritkán esik bele a 0, így azt az
adattartományt, ahol becsléseket végzünk, ki kell terjeszteni, és fel kell
tételezni, hogy a kapcsolat típusára vonatkozó feltételezésünk a megfi-
gyelt tartományon kívül is érvényes (például lineáris regresszió esetén a
kapcsolat az origóig kiterjesztett tartományban mindenhol lineáris). Ha
a hagyományos regresszió nagyon más eredményt ad, mint az
origón átmenő, akkor feltételezhetően a kapcsolat kis X érté-
kek esetén más típusú, mint a megfigyelési tartományunkban.
Ilyenkor inkább ne erőltessük az origón átmenő regressziót!
• Origón átmenő regresszió esetén a négyzetösszeg-felbontás és a determi-
nációs együttható félrevezető lehet, mert a négyzetösszeg nem azt jelenti,
mint az előzőekben, így az R2 számításnak nincs értelme. Ne lepődjünk
meg azon, ha nagyon nagy, nem jó!

9.5. példa. Regressziós kurzus – origón átmenő regresszió


Végezzünk origón átmenő lineáris regressziót a regressziós kurzus testtömeg-születéskori
testtömeg adataira!
> (regorigo <- lm(TOMEG ~ SZULTOMEG - 1, data = regr.kurz))

Call:
lm(formula = TOMEG ~ SZULTOMEG - 1, data = regr.kurz)

Coefficients:
SZULTOMEG
0.01832

> summary(regorigo)$r.squared

[1] 0.9746248

Ezek szerint az illesztett egyenes meredeksége: 0.018. Ez a hagyományos regresszió


esetén 0.009 volt, azaz a meredekség a kétszerese az eredeti modellhez képest, ami na-
gyon jelentős különbség. Ilyen esetben jobb nem használni az origón átmenő regressziót.
Láthatjuk, hogy az R2 értéke is jóval nagyobb, 0.975 lett a korábbi 0.213-hoz képest.
9.6. Egyszerű lineáris regresszió: II-es modell 265

9.6. Egyszerű lineáris regresszió: II-es modell


Ha tudjuk, hogy a magyarázó változó a függő változóval azonos nagyság-
rendű véletlen hibával terhelt, vagy általánosabban fogalmazva, ha tudjuk,
hogy az Y nem a mért X-től függ, hanem egy ismeretlen „valódi értéktől”,
(jelöljük X ∗ -gal) azaz X ∗ → Y , a megfigyelt X érték pedig X = X ∗ + δ,
ahol δ az X ∗ -tól független véletlen faktor, akkor nem használhatjuk az I-es
modellt (ld. 9.2. fejezet), mert a regressziós együtthatók becslése torzított
lesz. A torzítás mértéke attól függ, hogy az X mérési hibája mekkora az
Y -éhoz képest. Ha X-et hiba nélkül mérjük, akkor az OLS-becslés jó. Minél
nagyobb X mérési hibája, annál torzítottabb ez a becslés.
Az, hogy ilyen esetekben milyen módszerrel illesszük az egyenest, a két
változó ismeretében dönthető el. Itt két általánosan használt módszert mu-
tatunk be, a főtengely (Major axis) regressziót (MA), és a redukált főtengely
(Reduced Major axis, Standard Major Axis) regressziót (SMA).

9.6.1. MA-regresszió
Az MA-módszert akkor alkalmazzuk, ha jó okunk van feltételezni, hogy
az X-et és az Y -t egyforma pontatlansággal tudjuk mérni (például mind-
kettőt ugyanazon a skálán mérték, vagy mindkettő dimenzió nélküli). A
módszer a pontoknak az illesztendő egyenestől való merőleges távolságai-
nak négyzetösszegét minimalizálja (9.5. ábra). Az egyenes meredekségét az
OLS-becslésből kapott meredekség (b1 ) és korrelációs együttható (r) segít-
ségével lehet meghatározni:

d ± d2 + 4 b2 − r2
b1(M A) = , d= 12 .
2 r b1

r > 0 estén a számlálóban a plusz, egyébként a mínusz alkalmazandó.


A standard hibákat, illetve konfidencia-intervallumokat és a tesztelése-
ket különböző randomizációs módszerekkel szokták számolni (Legendre &
Legendre 2012).

9.6.2. SMA-regresszió
Ez a regressziós módszer a 9.5. ábrán látható szürkével jelölt háromszögek
területének négyzetösszegét minimalizálja. Feltételezi, hogy az X mérési
hibájának szórása arányos az X szórásával, az Y mérési hibájának szórása
pedig az Y szórásával, azaz a standardizált változók mérési hibáinak szórása
266 Reiczigel – Harnos – Solymosi: Biostatisztika

SMA MA

OLS

X
9.5. ábra. Az OLS-, MA- és SMA-regressziók becslési módszereinek bemutatása. OLS-
regresszió esetén a megfigyelések függőleges irányú, MA-regresszió esetén az egyenesre
merőleges irányú távolságainak (pontosabban a négyzetösszegének), SMA-regresszió
esetén pedig a szürke háromszögek területének minimalizálásával történik a becslés. A
háromszög oldalai párhuzamosak a koordináta-tengelyekkel

115 ●
● ●●●
● ●
Jobb szárnyhossz (mm)

● ● ● ●● ●● ●
● ●● ● ● ●
110 ● ●●● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ●●● ●
● ● ●● ● ●● ● ● ●●● ● ●
● ● ● ●●●● ●● ●● ● ●
●● ●● ● ●●● ●● ● ●
105 ● ● ● ● ● ●
● ● ●
●● ● ●
● ● OLS
● ● ● MA
100
SMA

27 28 29 30 31

Jobb csüdhossz (mm)

9.6. ábra. Széki lilék jobb szárny- és csüdhossz adataira különböző módszerekkel il-
lesztett egyenesek

egyenlő. Ekkor b1(SM A) = sy /sx . Ez egyébként megegyezik az Y ∼ X és az


X ∼ Y OLS-regresszióból kapott meredekségek átlagával.
A becslés hibájának szórása ugyanannyi, mint az OLS-becslés hibájának
szórása. Konfidencia-intervallumokat a szokásos módon lehet meghatározni.
9.6. Egyszerű lineáris regresszió: II-es modell 267

9.6. példa. Széki lilék – II-es modell regreszió


A különböző becslési módszerek közötti különbséget széki lilék jobb szárny- és csüd-
hosszának adataival szemléltetjük. A liléket egy törökországi, a madarak utódgondozó
viselkedésére vonatkozó megfigyeléses vizsgálat során mérték le (Székely et al. 1999). A
madarak csüd- és szárnyhosszát, valamint a tömegét is mérték. A szárnyhossz-csüdhossz
regressziót elvégezzük mind a három módszerrel (OLS, MA, SMA). Mind a három reg-
ressziót – a könnyebb összehasonlíthatóság kedvéért – a smatr könyvtár line.cis()
függvényével végezzük el (Warton et al. 2012). Ennek a függvénynek a method argu-
mentumában lehet megadni, hogy melyik módszerrel dolgozzunk. A könyvtár további
hasznos függvényeket is tartalmaz (meredekségek összehasonlítása csoportokban, hi-
potetikus értékre való tesztelése stb). Az illesztések és az outputok (paraméterek: y
tengelymetszet (elevation), meredekség (slope) és konfidencia-intervallumaik):
> lile <- read.csv2("lile.csv", dec = ".", header = T)
> library(smatr)
> (OLSreg = with(lile, line.cis(jszarny, jcsud, method = "OLS")))
coef(reg) lower limit upper limit
elevation 83.5941417 68.9346808 98.253603
slope 0.8434772 0.3357609 1.351193

> (MAreg = with(lile, line.cis(jszarny, jcsud, method = "MA")))


coef(MA) lower limit upper limit
elevation -189.38816 -368.363733 -10.41260
slope 10.30333 6.409992 25.79555
> (SMAreg = with(lile, line.cis(jszarny, jcsud, method = "SMA")))
coef(SMA) lower limit upper limit
elevation 18.483593 3.819370 33.14782
slope 3.099800 2.633388 3.64882
Jól látható, hogy mekkora az eltérés az együtthatók becslései között. Még látványosabb
a különbség, ha ábrázoljuk az illesztett egyeneseket (9.6 ábra). Az abline() függvény
argumentumába be kell írni a regressziók eredmény objektumainak (listák) megfelelő
elemeit (y tengelymetszet és meredekség). A legend() függvénnyel adott pozícióba
(első két argumentum) cimkéket helyeztünk el az ábrán.
> with(lile, plot(jcsud, jszarny, main = "",
+ xlab = "Jobb csüdhossz (mm)",
+ ylab = "Jobb szárnyhossz (mm)"))
> abline(OLSreg$coef, lty = 1)
> abline(MAreg$coef, lty = 2)
> abline(SMAreg$coef, lty = 6)
> legend(30, 102, lty = c(1,2,6),
+ legend = c("OLS", "MA", "SMA"), bty = "n")
Ha feltehetjük, hogy a csüd- és szárnyhossz relatív szórása (szórás/átlag) azonos,
akkor az SMA-módszert válasszuk!
268 Reiczigel – Harnos – Solymosi: Biostatisztika

Megjegyzés: Ha csak az érdekel minket, hogy az egyenes meredeksége


szignifikánsan eltér-e nullától, de a konkrét értéke nem érdekes, használ-
hatjuk az OLS-módszert. (Ha az OLS-módszerrel szignifikáns eredményre
jutunk, akkor az SMA-módszerrel is, mivel az OLS-sel becsült meredekség
mindig kisebb vagy egyenlő, mint az SMA-val számolt, és a becslések hibája
megegyezik).
Az MA- és SMA-módszerek szoros kapcsolatban vannak a főkomponens-analízissel
(PCA) (Everitt 2006). Az MA-módszer a kovariancia-mátrixból számolt, az SMA-módszer
pedig a korrelációs mátrixból számolt első főkomponenst adja.

9.7. Többszörös lineáris regresszió


Gyakran indokolt a függő változót egyszerre több magyarázó vál-
tozóval is (X1 , X2 , . . . , Xr ) összefüggésbe hozni, ekkor többszörös
regresszióról beszélünk. (A többváltozós regresszió kifejezést fenntartjuk
annak az esetnek, amikor több függő változó van a modellben.) A teljesen
általános modellben azt tételezzük fel, hogy az Y kifejezhető mint az X-ek
valamely függvénye plusz egy véletlen faktor (hiba):
Y = f (X1 , X2 , X3 , . . . , Xr ) + ε.
Többszörös lineáris regresszióról (multiple linear regression) akkor
beszélünk, ha a függvény lineáris:
Y = β0 + β1 X1 + β2 X2 + β3 X3 + . . . + βr Xr + ε.

Az egyszerű lineáris regresszió esetén bemutatott példát, amelyben a fel-


nőttkori és a születéskori testtömeg kapcsolatát vizsgáltuk – a páronkénti
szórásdiagramok (9.7. ábra) megtekintése után –, kiegészítjük a felnőttkori
magasság változóval.

9.7. példa. Regressziós kurzus – szórásdiagram-mátrix


Ha a plot() függvényt egy adatmátrixszal hívjuk meg, akkor egy ún. szórásdiagram-
mátrixot (9.7. ábra) kapunk (ugyanezt kapnánk a pairs() függvénnyel):

> tabla = with(regr.kurz, data.frame(TOMEG, MAGASSAG, SZULTOMEG))


> plot(tabla)
9.7. Többszörös lineáris regresszió 269

160 170 180 190

● ● 90

● ●
● ● ● ●
80
● ●
● ●

TOMEG ●
● ●

70
● ● ● ●
● ●
● ● ● ●

● ●
60
● ● ● ●
● ●
● ●

●● ● ● ●●

190 ●


185
● ● ●●

180 ● ●

175


●● ●
MAGASSAG ●
● ● ● ●
● ●
170 ● ● ● ●

● ● ● ●
● ●
● ●
165
● ● ●●
● ●

160 ● ●

● ●
4500
● ●

● ●


● ● ●

4000
● ● ●

● ●
● ● ● ● ● ●

SZULTOMEG
● ●
● ●
3500
● ●

● ●


● ● ●

3000

● ●
● ●
2500

60 70 80 90 2500 3000 3500 4000 4500

9.7. ábra. Szórásdiagram-mátrix a regressziós kurzus hallgatóinak testtömeg, magas-


ság és születéskori testtömeg adataira

Az így kibővített modell:

TESTTÖMEG = f (MAGASSÁG, SZÜL.TÖMEG) + ε,

ami lineáris esetben:

TESTTÖMEG = β0 + β1 ·MAGASSÁG + β2 ·SZÜL.TÖMEG + ε.

A paraméterek becslését ebben az esetben is a közönséges legkisebb négy-


zetek módszerével szokás végezni. A részletes számításokat a 11.4. fejezetben
közöljük, mert a regressziószámítás az általános lineáris modell speciális ese-
te. A becsült paramétereket szokásosan b0 , b1 , . . . , br jelöli, azaz a becsült
regressziós egyenlet alakja:

Y = b0 + b1 X1 + b2 X2 + b3 X3 + . . . + br Xr + e,

ahol az e a reziduum (maradék), a hibatag (ε) becslése.


270 Reiczigel – Harnos – Solymosi: Biostatisztika


90 ●

Születéskori testtömeg (g)


Testtömeg (kg)

● ●

80 ●


70 ●
● ● 4500

● ●

4000
60 ●
3500

3000

50 2500
160 165 170 175 180 185 190

Magasság (cm)

9.8. ábra. A testtömeg a magasság és a születéskori testtömeg függvényében és az


illesztett sík. A pontok most is az egyes megfigyelések. A pontokat az illesztett síkkal
összekötő szakaszok jelölik a reziduumokat

A lineáris függvény grafikonja (a valódié is és a becsülté is, de az ε vagy


e tagoktól eltekintve) egy r dimenziós sík az (r + 1) dimenziós térben. A
megfigyelt yi értékek e sík körül helyezkednek el.
A 9.8. ábra két magyarázó változó esetén szemlélteti a fentieket, amikor a
regressziós felület egy közönséges kétdimenziós sík a háromdimenziós térben.
Ezen az ábrán a becsült regressziós síkot ábrázoltuk. A pontok a megfigyelt
adatoknak felelnek meg, a vonalak pedig a megfigyelt és a számított értékek
(= a felületen lévő) eltérésének, azaz a reziduumoknak.
A grafikonról azt az összefüggést olvashatjuk le, hogy ha az X1 (magas-
ság) nagyobb, akkor a számított Y (testtömeg) is nagyobb (nem meglepő),
azaz az Y a magasságnak növekvő függvénye. Ez azt is jelenti, hogy a be-
csült b1 regressziós együttható pozitív (számszerű értéke a sík meredeksége
az X1 irányában körülbelül 0.9). Hasonló a helyzet az X2 -vel is.
A b0 regressziós együttható jelentése: az Y számított (becsült) értéke
az X1 = X2 = 0 pontban. Ennek csak akkor van szemléletes jelentése, ha
elképzelhető olyan megfigyelési egység, amelyre X1 = X2 = 0 (vagyis most
nem).
9.7. Többszörös lineáris regresszió 271

9.8. példa. Regressziós kurzus – többszörös lineáris regresszió 1


Végezzük el a többszörös lineáris regressziót a testtömeg-(magasság, születéskori testtö-
meg) adatokra. Az egyenest most is a lm() függvénnyel tudjuk illeszteni, csak most két
magyarázó változónk van (Y ∼ X1 + X2 ). Most is létrehozunk egy modellobjektumot,
amelynek segítségével további információkat, teszteket, ábrákat kaphatunk.

> (regmod2 = lm(TOMEG ~ MAGASSAG + SZULTOMEG, data = regr.kurz))

Call:
lm(formula = TOMEG ~ MAGASSAG + SZULTOMEG, data = regr.kurz)

Coefficients:
(Intercept) MAGASSAG SZULTOMEG
-117.33228 0.91163 0.00733

Az outputból kiolvashatóak a paraméterbecslések. Ezek szerint az illesztett sík egyen-


lete: TOMEG = −117.332 + 0.912· MAGASSAG + 0.007·SZUL.TOMEG.

Ha összehasonlítjuk az egyszerű és a többszörös lineáris regresszióval


kapott paramétereket, akkor azt láthatjuk, hogy a többszörös regresszió
esetén a SZULTOMEG együtthatója kisebb (egyszerű lineáris regresszió esetén
0.009 volt). Ez legtöbbször így van. A többszörös regresszió együtthatói a
független változók hatását mutatják úgy, hogy a többi változót is figyelembe
veszik.
Az egyes magyarázó változóktól való függés erősségének méré-
sére a regresszióból kapott együtthatókat általában nem használ-
hatjuk. Ennek oka az, hogy az együtthatók nagyságát nagyon befolyásolja
az, hogy milyen skálán mértünk (például kg vagy g). Összehasonlítani csak
abban az esetben lehet az együtthatókat, ha ugyanolyan skálán mért ma-
gyarázó változóink vannak. Az együtthatókra vonatkozó hipotézisvizsgála-
tokban (lásd következő fejezet) kapott t-értékek is alkalmasak az összeha-
sonlításra.
Konfidencia-intervallumokat a szokásos módon adhatunk a βi regressziós
együtthatókra: (bi ± tkrit · SE(bi )), ahol tkrit az (n − r − 1) szabadsági fokú
t-eloszlás megfelelő kritikus értéke (r a magyarázó változók száma).

9.7.1. Hipotézisvizsgálatok
A hipotézisvizsgálatok lényegében ugyanazok itt is, mint egy magyarázó
változó esetén. A t-próbákkal minden együtthatót külön-külön tesztelünk,
az F -próbával pedig a modell egészét vizsgáljuk. Emlékezzünk vissza, hogy
egy magyarázó változó esetén ez a két próba ekvivalens volt (258. oldal)!
272 Reiczigel – Harnos – Solymosi: Biostatisztika

A) Az együtthatók tesztelése

A t-próbák a függő változó egy-egy magyarázó változótól való függésének


tesztelésére szolgálnak:
Nullhipotézis: H0i : βi = 0, ahol i = 1, 2, . . ., r
(a βi = 0 azt jelenti, hogy az Y nem függ Xi -től a modellben).
Ellenhipotézis: H1i : βi 6= 0, ahol i = 1, 2, . . . , r.
Feltétel: A véletlen hibák függetlenek, normális eloszlásúak 0 várható
értékkel és konstans szórással. A normalitási feltétel elég nagy minta esetén
most sem szükséges (az „elég nagy” konkrét értéke mindig attól függ, hogy
az eloszlás mennyire tér el a normálistól).
Statisztika: t = bi /SE(bi ), ahol SE(bi )-t az adatokból becsüljük.
Nulleloszlás: Student-féle t-eloszlás (n − r − 1) szabadsági fokkal.

B) A modell egészének vizsgálata

Itt is egy F -próba szolgál az Y összes X-ektől való (együttes) függésének


tesztelésére. Az F -próba itt is az Y szórásának (eltérés-négyzetösszegének)
felbontásán alapul: SST = SSR + SSH .
Nullhipotézis: H0együttes : minden βi = 0, ahol i = 1, 2, . . . , r (ez azt je-
lenti, hogy az Y a modellbeli egyik Xi -től sem függ).
Ellenhipotézis: Van olyan i, amely esetén βi 6= 0.
Feltétel: A véletlen hibák itt is függetlenek, normális eloszlásúak 0 vár-
ható értékkel és konstans szórással.
Statisztika:
SSR /r
F = .
SSH /(n − r − 1)
Nulleloszlás: F -eloszlás (r, n − r − 1) szabadsági fokokkal.
9.8. További korrelációs mérőszámok 273

9.8. További korrelációs mérőszámok


Többváltozós vizsgálatok esetén általában két korreláció jellegű mennyisé-
get szoktak használni a függő és több magyarázó változó közötti korrelációs
kapcsolat erősségének számszerűsítésére. Mindkettőnek csak akkor van ér-
telme, ha valószínűségi változókról van szó. A feltételek ugyanazok, mint a
Pearson-féle korrelációs együtthatónál (ld. 8. fejezet).

9.8.1. A többszörös korreláció és a determinációs együttható


Az egyik ilyen mennyiség, amely a függő változó és több magyarázó
változó összessége között méri a korrelációt, a többszörös korre-
lációs együttható (multiple correlation coefficient). Definíciója:

R(Y, X1 , X2 , . . . , Xr ) = R(Y, Ŷ ),

ahol Ŷ a többszörös lineáris regresszióval Y -ra nyert becslés.


Jegyezzük meg, hogy Ŷ az X-eknek az a speciális lineáris kombináció-
ja, amelynek a megfigyelt Y változóval a legnagyobb a korrelációja! Ennek
négyzete – R2 – a determinációs együttható, amely azt mutatja meg,
hogy a magyarázó változók a függő változó ingadozásának hányad
részét magyarázzák. Az R2 kiszámítása:
SSH
R2 = 1 − .
SST

Ez az R2 érték annál nagyobb, minél több magyarázó változót vonunk be


a modellbe, függetlenül attól, hogy a magyarázó változóktól valóban függ-
e az Y változónk. Ezért a magyarázó változók számával módosítani
szokták ezt az értéket, így kapjuk a korrigált R2 -et (adjusted r-
squared). Kiszámítása:

2 SSH /(n − r − 1) n−1


Radj =1− =1− (1 − R2 ),
SST /(n − 1) n−r−1

ahol n a mintaelemszám, r a modell magyarázó változóinak száma. A leg-


nagyobb korrigált R2 általában már nem ahhoz a modellhez tartozik, ame-
lyikben a legtöbb változó van, hanem ahhoz, amelyiknek a legnagyobb a
magyarázó ereje, ezért többszörös regresszió esetén mindig a korrigált R2 -et
figyeljük. A legjobb modell kiválasztására különböző stratégiákat, módsze-
reket lehet alkalmazni, melyeket a 11.7. fejezetben tárgyalunk.
274 Reiczigel – Harnos – Solymosi: Biostatisztika

9.9. példa. Regressziós kurzus – többszörös lineáris regresszió 2


Az R-ben a teszteket és a determinációs együtthatót a summary() függvénnyel számít-
tathatjuk ki a modell objektumra alkalmazva.
> regmod2 = lm(TOMEG ~ MAGASSAG + SZULTOMEG, data = regr.kurz)
> summary(regmod2)

Call:
lm(formula = TOMEG ~ MAGASSAG + SZULTOMEG, data = regr.kurz)

Residuals:
Min 1Q Median 3Q Max
-10.06030 -3.01522 -0.05221 3.32522 13.03810

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.173e+02 2.851e+01 -4.116 0.000649 ***
MAGASSAG 9.116e-01 1.640e-01 5.559 2.82e-05 ***
SZULTOMEG 7.329e-03 2.533e-03 2.894 0.009668 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.113 on 18 degrees of freedom


Multiple R-Squared: 0.7104, Adjusted R-squared: 0.6783
F-statistic: 22.08 on 2 and 18 DF, p-value: 1.431e-05

A t-próbák eredménye azt mutatja hogy mindkét magyarázó változótól szignifikánsan


függ a testtömeg. Az korrigált R2 értéke 0.68, ami jóval nagyobb, mint abban az
esetben, amikor csak a születéskori testtömeggel magyaráztuk a testtömeget.
Az F -próba eredménye most természetesen nem ugyanaz, mint a t-próbáké, hiszen a
t-tesztek külön-külön tesztelik az együtthatókat, az F -próba pedig a modell egészére
vonatkozik.

9.8.2. A parciális korreláció


A másik mennyiség, amelyet többváltozós esetben használni szoktak, az Y1
és Y2 változók közötti parciális korreláció. Ez a köztük levő mara-
dék korreláció, miután változók egy X1 , X2 , . . ., Xr halmazának a
korrelációjukra vonatkozó hatását többszörös lineáris regresszió-
val kiküszöböltük, azaz a reziduumok korrelációja. Definíciója:

R(Y1 , Y2 |X1 , X2 , . . . , Xr ) = R(Y1 − Ŷ1 , Y2 − Ŷ2 ),

ahol Ŷ1 és Ŷ2 az Y1 és Y2 változó többszörös lineáris regresszióból származó


becslése az X1 , X2 , . . ., Xr magyarázó változók esetén.
9.8. További korrelációs mérőszámok 275

Parciális korrelációt többek között, vagy az (partial.cor(), (RcmdrMisc


könyvtár) vagy a cor2pcor() (corpcor könyvtár) függvényével számolha-
tunk (Schafer et al. 2017; Fox 2018). Ez utóbbira mutatunk példát.

9.10. példa. Őzek – parciális korreláció


A parciális korreláció kiszámítását vadászok által kilőtt őzek testméret adataival szem-
léltetjük. Az őzeket vadbiológusok mérték le (Sugár et al. 1989). A felnőtt bakok teljes
tömeg (TOMEG), zsigerelt tömeg (ZSIGTOMEG), övméret (OVMERET), testhossz (TESTH)
és marmagasság (MARMAG) adataiból készített szórásdiagram mátrixot láthatjuk a 9.9.
ábrán. A páronkénti korrelációk:
> plot(oz, pch = 20)
> (korr = cor(oz, use = "complete.obs"))

TOMEG ZSIGTOMEG TESTH MARMAG OVMERET


TOMEG 1.0000000 0.9409569 0.734096 0.7316838 0.7503908
ZSIGTOMEG 0.9409569 1.0000000 0.727649 0.7552230 0.7358673
TESTH 0.7340960 0.7276490 1.000000 0.6853180 0.5740320
MARMAG 0.7316838 0.7552230 0.685318 1.0000000 0.6688346
OVMERET 0.7503908 0.7358673 0.574032 0.6688346 1.0000000

A parciális korrelációk kiszámítása: a cor2pcor() függvényt a változók korrelációs mát-


rixával hívjuk meg.
> library(corpcor)
> cor2pcor(korr)

[,1] [,2] [,3] [,4] [,5]


[1,] 1.0000000 0.79414051 0.19812357 -0.0271324 0.24090378
[2,] 0.7941405 1.00000000 0.07730976 0.2309386 0.06387133
[3,] 0.1981236 0.07730976 1.00000000 0.2909138 -0.04142267
[4,] -0.0271324 0.23093865 0.29091381 1.0000000 0.24113562
[5,] 0.2409038 0.06387133 -0.04142267 0.2411356 1.00000000

Az eredményül kapott mátrix a soroknak, illetve oszlopoknak megfelelő változók parci-


ális korrelációit tartalmazza, úgy hogy a többi változóra kontrollálunk. Például, az 1. sor
5. oszlopában álló 0.24 a teljes tömeg és az övméret változók parciális korrelációja, ha
a többi változó hatását lineáris regresszióval kiküszöböljük. Ezen változók korrelációja
0.75 volt.
276 Reiczigel – Harnos – Solymosi: Biostatisztika

10 20 60 70 80 90
● ● ● ●

●● ● ● ●● ●

35
● ● ● ●



●●●●●
● ● ●●●●●


●●● ●
● ●
● ●

●●
● ●
●● ●●

●● ● ●●● ●
30
●●
●●● ● ● ●●●● ●● ● ● ●●● ● ●●
● ●●● ●●
●● ●●●●●● ●● ●● ●●
● ● ●●
●●●●●● ● ● ●
● ● ●● ●

TOMEG ●
●●
●●


●●

●●●●
●●



●●●
● ● ●●
● ●●
●●●●●●●●
●●●●

●●
● ●●
●● ●●
●●● ●● ● ●

●●



●●
●● ●●
●●
●●
●●



●●
●● ● ● ● ●


●●●
●●●
●●●●●
● ●
●●●
● ● ●● 25
●●●●
●● ● ●●●● ●●●●●●● ● ● ●
●●● ●●
●●
●●
●● ●●●●
●● ●●● ●
●●●●
●●●●●

● ●●● ● ●●●●● ● ●
●●● ●
●●
●●● ●
●●
●●●●● ●
●●●●


●●
●●

●●● ●

●●
● ●●● ●●
● ●
● ●● ●
● ●● ● ●

●● ● ● ●


●●●●


● ●●



●● ● ●●●

20
●● ● ● ●● ●●
15
● ● ● ● 10
● ● ● ●

25 ● ●●
● ● ●● ● ●● ● ● ●●
●●
●● ●● ● ●● ● ● ●● ●● ●
● ●● ● ● ● ● ●
●● ●● ●●
● ●●
20 ●

●●

●●●


●●●●
●●● ● ●●
●●●●●
●●●●●
●●


●●
● ●●● ● ●
●●●●●
● ●●

●●●●
●● ●

●●
●●● ●

●●


●●


●●●
●●


●●●●
●●
●●●
●●●●●

●●
●●●
●●●●
●● ●
ZSIGTOMEG ●● ● ●
● ●● ●● ●●
●●

●●● ●●●
●● ●

● ●●
● ●●
●●● ● ●●●●
●●●
●●●●●
●●
●●


●●

●●

●●

●●
●● ●
● ●
●●





●●

●●
●●
●●
●●●●
●●
●●

● ●●
● ●
15 ●●
●●●
●●


●●● ●●
●●

●●●

● ●
●●

● ●●● ●
●●● ● ●●● ● ●

● ●


●●
●●●
●● ● ●
● ●
●●● ● ●●




● ●●


●●● ●

● ● ●
●●● ●


●●● ●●● ● ●●● ● ● ●

10
● ● ● ●

● ● ● ●
130
●● ● ● ● ● ● ● ● ●●● ● ●● ●●
●●●●● ●●●● ● ● ●●●
●● ●●●●●●● ●●● ●●●● ●● ● ●●●●●
● ● ● ●●
●● ● ●●
●●●
●●●●
● ●●
● ●
● ●●
● ●●
●●●●

●●●●●●●●●
●● ● ●
●●
● ●● ●● ●
● ● ● ●●
● ● ●●


● ●●

● ●● ● ● ● ●
●●
● ●●●● ●●
●●●●

●●● ● 120
● ● ●●●●●
●●●● ●● ●
●● ●● ● ●

● ●● ●
●● ● ●
●● ●●● ● ●●

●●●●●●●●● ●

● ●● ●●● ●
●● ●●●●
●●●●
●●●● ●
● ●●●
● ●● ●
● ●●● ●●

●●●●
●● ●
●●●●●
●●


●●






●●
●●●●



●●●●●● ●

● ●● ● TESTH ●●●●
● ● ● ●●
●●
●●●

●●

● ●


● ●
●●

●●●●● 110
● ● ●
●●●●

●● ●● ● ●●
● ● ●● ● ●
●● ●●● ● ● ●● ●● ● ●●●

●●●● ●●

● ● ●
●●●
● ● ● ●●
● ● ● ●●
● 100
90
● ● ● ●
80
● ● ● ●
90
● ● ● ●
85 ● ● ●●●●●
●●
●●●



●●●●● ●
●●●
● ●●
● ●
●●●●● ●● ●
● ●
● ● ● ●●● ●
●●


● ●● ●●● ● ● ●●● ● ● ●● ●●●● ● ●●● ●
●●
80 ●●
● ●●●●●
●●●●
●●● ●
● ●●
● ●●
●●●●●●
●●● ●
●●
●●●●●●●●
●●●● ●●
●●
●●●●●
●●●
●●
●●●●●●

● ● ●●●●
● ●●

●●




●●

●●


●●
● ●
●● ●●

●● ● ● ● ●
●●● ●
● ●
●●


●●

● ●●
●●●
●●●
●●
●● ●
●●● ●●● ●●●●● ●●● ● ● ●●● ●●●
75 ●● ●●●●●

●●
●● ●●●●●
●●● ●●●●●



●● ● ●●●●
●●
●●●●
●●●
●●●●●

●●●●
●●
● ● ● ●●●●●
●● ●●●
● ●●● ● ●
● ● ●●●
●●●
●●●
●●
MARMAG ●

●●●




●●
● ●
●● ●

●● ● ● ● ●●

●● ●
● ●


● ●● ● ● ●● ●
● ● ● ● ● ● ●● ● ●●●
70 ●

● ●


65 ● ● ● ●

60 ● ● ● ●

● ● ● ●
80
● ● ● ●
●●
●●● ●
●●●●●● ●●●
● ●
● ● ●●
●●
●● ●
● ● ● ●●●●●
●●●●● ●

● ● ●
●●
● ●
●●●

75
● ● ●● ●●●
●●● ●● ●●
●● ●●● ●● ●● ● ●●
● ●
● ●●●●●
●●●
●●●●●●

● ●
●●● ●
●●●●● ●●●


●●

● ●● ●●
● ●●●●●● ●●● ●●●

●●●●●●
● ●●●
●●●●● ●●●● 70
●●●●●●●●●
● ●●● ●●●●●
●●
●● ●● ● ●●● ●● ●●●●●●●
●●●
●●● ●
● ●● ●●
●●
● ●●●●
●●
●●
● ● ●●● ● ●
●● ● ●●● ●●●●●
●●
● ● ● ●● ●● ●

●●
●● ●
●●●●● ●
●● ●● ● 65

●●●
●●
●●
● ●
●●●
● ●●●

● ●
●●●
●●
●●● ●●
●●●

●●
●●
●●●

●●
●●●● ●

●●
●●●
● ● ● ●● ●

●●
●●
● ●● ●
● ●● ●
●●●● ●● ● ●● ● ●●●●
●●
● ●●
●● ●


●●

●●


●●
●●● ● OVMERET 60
● ● ● ●
55
50
● ● ● ● 45

10 20 30 80 100 120 45 55 65 75

9.9. ábra. Szórásdiagram mátrix az őzek teljes tömeg, zsigerelt tömeg, testhossz mar-
magasság és övméret (a pocak körkörös mérete) adataira. Például a 4. sor 2. szórásdi-
agramja a zsigerelt tömeg és a marmagasság kapcsolatát ábrázolja

9.9. Multikollinearitás
Multikollinearitást (vagy egyszerűen kollinearitást) figyelhetünk
meg, ha a magyarázó változók erősen korreláltak. Ez akkor is előfor-
dulhat, ha a páronkénti korrelációk kicsik, ezért a többszörös korrelációkat
kell vizsgálnunk. Ez kizárólag a magyarázó változók tulajdonsága, semmi
köze a függő változóhoz!
Ha nem valószínűségi változókról van szó, akkor a multikollinearitás azt jelenti, hogy
a magyarázó változók lineáris algebrai értelemben nem függetlenek (ld. 11.6. fejezet).
9.9. Multikollinearitás 277

Kollinearitás esetén
• a magyarázó változók hatását a függő változóra nem lehet szétválasz-
tani;
• a magyarázó változók átvehetik egymás szerepét a regresszióban;
• következésképp a regressziós együtthatók becslésekor növekszik a bi-
zonytalanság: magas SE értékek jelentkeznek, az együtthatók nem-
szignifikánssá válhatnak;
• sőt, lehet hogy a számításokat el sem lehet végezni, hibaüzenetettel
leáll a program.
Vannak olyan mérőszámok, amikkel ki lehet szűrni az érintett változókat
(persze a szórásdiagramokról sem szabad megfeledkezni, hiszen lehet, hogy
már azokból is kiderül, ha gond van):
• a négyzetes többszörös korreláció az i-ik magyarázó változó és a
többi magyarázó változó között: Ri2 (1-hez közeli érték kollinearitást
jelez);
• a tolerancia (tolerance): 1 − Ri2 (0-hoz közeli érték kollinearitást je-
lez);
• és a variancia infláció faktor (VIF) (variance inflation factor):
1/(1 − Ri2 ) (nagy értékek kollinearitást jeleznek).
Ha kiderül, hogy kollinearitási problémával állunk szemben, akkor két
dolgot tehetünk:
1. az érintett változók közül megpróbáljuk kihagyni azokat, amelyek nél-
kül még interpretálhatóak az eredmények, és figyeljük, hogy ez
mekkora romlást okoz a magyarázó erőt tekintve (ld. 11.7.
fejezet);
2. származtatott változókkal dolgozunk tovább (például főkomponens-
elemzésből).

9.11. példa. Őzek – multikollinearitás


A multikollinearitás jelenségét a 9.10. példában bemutatott őzek adataival szemléltet-
jük. Az adatokból készített szórásdiagram-mátrixot a a 9.9. ábrán láthatjuk. A páron-
kénti korrelációkat kiszámítottuk a 9.10. példában. Jól látható, hogy erősen korrelált
változókról van szó. Az övméret lineáris regressziója a többi testmérettel (az outputnak
csak a lényeges részét közöljük):
> regmod3 = lm(OVMERET ~ TOMEG + ZSIGTOMEG + TESTH + MARMAG,
+ data = oz)
> summary(regmod3)
278 Reiczigel – Harnos – Solymosi: Biostatisztika

...
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 28.44238 7.59267 3.746 0.000307 ***
TOMEG 0.61136 0.25138 2.432 0.016870 *
ZSIGTOMEG 0.20648 0.32927 0.627 0.532089
TESTH -0.02619 0.06447 -0.406 0.685495
MARMAG 0.29251 0.12015 2.434 0.016761 *
---
Residual standard error: 3.257 on 96 degrees of freedom
(8 observations deleted due to missingness)
Multiple R-Squared: 0.5962, Adjusted R-squared: 0.5793
F-statistic: 35.43 on 4 and 96 DF, p-value: < 2.2e-16
A zsigerelt tömeg erősen korrelál az övmérettel, hatása mégsem bizonyult szignifikáns-
nak.
Nézzük meg a VIF értékeket erre a modellre!
> library(car)
> vif(regmod3)
TOMEG ZSIGTOMEG TESTH MARMAG
9.149675 9.576262 2.430026 2.563879
A zsigerelt tömeg és a teljes tömeg VIF értéke közel 10 lett, ami kollinearitási problémára
utal. Ha kihagyjuk a teljes tömeget a regressziós modellből, és újra kiszámítjuk a VIF
értékeket:
> regmod4 = lm(OVMERET ~ ZSIGTOMEG + TESTH + MARMAG,
+ data = oz)
> summary(regmod4)
...
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 27.091394 7.761782 3.490 0.000727 ***
ZSIGTOMEG 0.875762 0.185302 4.726 7.74e-06 ***
TESTH 0.004232 0.064825 0.065 0.948079
MARMAG 0.302114 0.123093 2.454 0.015896 *
---
Residual standard error: 3.338 on 97 degrees of freedom
(8 observations deleted due to missingness)
Multiple R-Squared: 0.5713, Adjusted R-squared: 0.558
F-statistic: 43.09 on 3 and 97 DF, p-value: < 2.2e-16
> vif(regmod4)
ZSIGTOMEG TESTH MARMAG
2.886672 2.338550 2.561110
Láthatjuk, hogy a korrigált R2 értéke minimálisan lett csak kisebb, és a kollinearitási
probléma is megszűnt.
9.10. Regressziós diagnosztika 279

(a) (b)
7 ● ● ●

1.0

6 ● ●

Reziduum
● 0.5
5 ●
y

0.0
● ● ●
4 ● ● ●

−0.5

3 ● ● ● ●

2 4 6 8 10 2 4 6 8 10

x Sorszám

9.10. ábra. Illesztett egyenes (a) és a reziduumok (b)

9.10. Regressziós diagnosztika


Regressziós diagnosztikán a regressziós eredmények vizsgálatát értjük. Ide
tartozik
• az illesztett modell jóságának vizsgálata;
• a regressziószámítás alkalmazhatóságához szükséges feltételek meglé-
tének vizsgálata;
• olyan adatpontok keresése, amelyek torzíthatják a regressziós ered-
ményeket.

9.10.1. Az illesztett modell jóságának vizsgálata


A regressziós diagnosztika nagyrészt a reziduumok elemzéséből áll. Rezi-
duumnak – mint azt már korábban definiáltuk – a megfigyelt értéknek a
számítottól való eltérését nevezzük. Azt, hogy mi a reziduumok szemléle-
tes jelentése, két – ugyanazokról az adatokról készített – ábrán mutatjuk
be (9.10. ábra). A baloldalin a szórásdiagramot láthatjuk az illesztett egye-
nessel, a jobboldalin pedig a reziduumokat a megfigyelések sorszámának
függvényében.
Ha a modell megfelelő, akkor a reziduumok olyanok, mintha a regressziós
egyenes (vagy felület) körüli véletlen eltérések lennének. Ha nem ez a hely-
zet, akkor próbáljunk egy jobb modellt találni (válasszunk másik regresszi-
ós függvényt, vagy használjunk további magyarázó változókat)! Többszörös
regresszió esetén, ha ugyanerre kíváncsi valaki, a reziduumokat a számított
Y értékek függvényében érdemes ábrázolni.
280 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)
● ●

20 2


1

Reziduum
● ●

15
0 ●
y


10 ● −1 ●
● ●

5 ●
● −2
● ●
● ●
−3
2 4 6 8 10 2 4 6 8 10

x x

9.11. ábra. Nem véletlenszerű reziduumok (patkó alakzat): az illesztett egyenes (a) és
a reziduumok (b)

Nem megfelelő modellválasztásra utal, ha a reziduumok patkó alakú min-


tázatot mutatnak (9.11. ábra). Ilyenkor érdemes más modellt keresni.
Többszörös regresszió esetén, ha a reziduumokat az egyik Xi magyarázó
változó függvényében ábrázolva patkó alakú mintázatot kapunk, próbáljuk
meg az Xi2 kvadratikus tagot bevenni a modellbe (mint magyarázó változót).
Ha a reziduumok két magyarázó változó (Xi és Xk ) szorzatával korrelációt
mutatnak, megpróbálhatjuk a szorzatot is bevenni a modellbe.

9.10.2. Alkalmazhatósági feltételek vizsgálata


A) A hibatag szórásának állandósága

Ha a reziduumok nagyságrendje függ az X nagyságától, az azt jelzi, hogy


a hiba szórása nem állandó. Például a 9.12. ábrán növekvő X esetén a
reziduumok is egyre nagyobbak.
Ha a hiba szórása nem állandó, akkor próbálkozhatunk transzformációk-
kal, vagy használhatjuk a súlyozott legkisebb négyzetek (WLS: Weigh-
ted Least Squares) módszerét a becslésre (a súlyokat a varianciával fordí-
tottan arányosan kell megválasztani). A regressziós egyenes együtthatóinak
becslései súlyozással és súlyozatlanul is torzítatlanok, de megfelelő súlyozás
esetén a standard hibák kisebbek lesznek.

9.12. példa. Súlyozott regresszió


Végezzük el az illesztést a 9.12. ábra adataival mindkét módszerrel! A reziduumok látha-
tóan nőnek az x-ekkel, így a súlyokat az x2 -ek reciprokaként adjuk meg (az outputnak
csak a lényeges részét közöljük):
9.10. Regressziós diagnosztika 281

(a) (b)
30 ● ●
● 5 ● ●
25

Reziduum
20 ●

0 ● ●
y

15 ●


10 ● ● ●
−5
5
● ●
● ●

2 4 6 8 10 2 4 6 8 10

x Sorszám

9.12. ábra. Illesztett egyenes (a) és a növekvő reziduumok (b)

> x = c(1:10); y = c(2, 3, 10, 10, 13, 20, 10, 27, 15, 30)
> WLSmod = lm(y ~ x, weights = 1/x^2)
> summary(WLSmod)
...
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.8275 0.9529 -0.868 0.410
x 2.7161 0.3751 7.240 8.89e-05 ***
---

Residual standard error: 0.7926 on 8 degrees of freedom


Multiple R-Squared: 0.8676, Adjusted R-squared: 0.851
F-statistic: 52.42 on 1 and 8 DF, p-value: 8.89e-05
Illesztés a legkisebb négyzetek módszerével:
> OLSmod = lm(y ~ x)
> summary(OLSmod)
...
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.2667 3.5897 -0.074 0.94261
x 2.5939 0.5785 4.484 0.00205 **
---

Residual standard error: 5.255 on 8 degrees of freedom


Multiple R-Squared: 0.7153, Adjusted R-squared: 0.6798
F-statistic: 20.1 on 1 and 8 DF, p-value: 0.002046
Figyeljük meg, hogy az együtthatók alig különböznek, de a standard hibák a súlyozott
esetben jóval kisebbek, az R2 pedig jóval nagyobb! Ha megfelelő a súlyozás, akkor a
regressziós diagnosztikának jónak kell lennie.
282 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)
Standardized residuals

Standardized residuals
● 7
9● 1.5 ● 13
1.2 ●8 ● 1 18 ●
● ●

1.0 ●

1.0 ● ●

0.8 ● ● ● ●

● ● ●
0.6 ●

0.4 0.5 ● ●
● ●


0.2 ●

0.0 0.0

5 10 15 20 25 50 60 70 80

Fitted values Fitted values

9.13. ábra. Szórás-becsült érték ábrák a szórások vizsgálatára. Az ábrákon látható


vonal a pontokra illesztett simított görbe. Állandó szórás esetén ennek nagyjából víz-
szintesnek kellene lennie. Az (a) ábrán határozottan növekedő tendenciát mutatnak
a szórások (9.12. példa), a (b) ábrán nagyjából állandó a szórás (regressziós kurzus
példája)

A szórást az R-ben az ún. szórás-becsült érték ábrával (scale-location


plot) vizsgáljuk (9.13. ábra). Ezen az ábrán a becsült értékek függvé-
nyében láthatjuk a standardizált reziduumok abszolút értékeinek
négyzetgyökét (ld. 287. oldal). Ha nem látunk semmilyen tendenciát az
ábrán, akkor feltételezhetjük a reziduumok szórásának állandóságát.

> plot(OLSmod, 3)
> plot(regmod2, 3)

B) A reziduumok normalitásának tesztelése

A regressziószámítás esetén alkalmazott klasszikus statisztikai tesztek (t-


és F -próbák) alkalmazhatóságának szükséges feltétele a hiba normalitása.
Ezt a feltételt a reziduumokból készített QQ-ábrával (ld. 210. oldal) lehet
legegyszerűbben ellenőrizni (9.14. ábra).

> qqnorm(residuals(OLSmod), pch = 16, main = "")


> qqline(residuals(OLSmod))
> qqnorm(residuals(regmod2), pch = 16, main = "")
> qqline(residuals(regmod2))

A regressziós kurzus példájánál jól láthatóan teljesül a normalitási felté-


tel (9.14.(b) ábra), tehát alkalmazhatjuk a teszteket.
9.10. Regressziós diagnosztika 283

(a) (b)
● ●
5
Sample Quantiles

Sample Quantiles
● ● 10
● ●

5
● ●●●
0 ● ● ●●
●●
● 0 ●●
●●
●●
−5 −5 ●●


● ● −10 ●

−1.5 −0.5 0.5 1.5 −2 −1 0 1 2

Theoretical Quantiles Theoretical Quantiles

9.14. ábra. A reziduumok normalitásának vizsgálata QQ-ábrán. Az (a) ábrán az első


két pont tér el nagyon az egyenestől (9.12. példa) , a (b) ábrán nagyjából elfogadható
az illeszkedés (regressziós kurzus példája)

C) Függetlenség

A megfigyeléseknek függetleneknek kell lenniük egymástól. A modellek tu-


lajdonképpen azt követelik meg, hogy a hibák legyenek függetlenek, de ez
ekvivalens a megfigyelések függetlenségével. A mintaelemek függetlenségét
matematikailag nehéz ellenőrizni, a kutatónak kell tudnia, hogy az adatai
milyen struktúrájúak.
A függetlenségi feltételt a legritkább esetben lehet teljes egészében telje-
síteni, de ha véletlen mintát veszünk egy nagy populációból, az a gyakorlat-
ban közelítőleg jól biztosítja a feltétel teljesülését. Ha csoportokba ren-
deződött adataink vannak(clustered, grouped data) (például azonos
alomból származó malacokat mérünk), akkor nem használhatjuk a
módszert. Ezekben az esetekben a függőség a megfigyelések között nagyon
nagy lehet. Az is nyilvánvaló, hogy az ugyanazon a megfigyelési egységen
ismételt mérések (repeated measures) sem függetlenek. Ilyen esetek-
ben a függvényillesztést el lehet végezni, a becslések torzítatlanok lesznek,
de a tesztekkel már baj van, mert a standard hibák becslése torzított
lesz. Az OLS-módszer általában alulbecsüli a hibákat, ami azt jelenti, hogy
a becsléseink korántsem lesznek olyan pontosak, mint ahogy azt a stan-
dard hibák mutatják. Ezekben az esetekben olyan módszereket kell hasz-
nálni, amelyekben figyelembe lehet venni az adatok korreláltságát (Pinheiro
& Bates 2006). Ilyen illesztési módszer például az általánosított legkisebb
négyzetek módszere (generalized least squares method). Ennek használatára
mutatunk majd példát a 9.11.3. fejezetben (9.17. példa).
284 Reiczigel – Harnos – Solymosi: Biostatisztika

(a)
8
● ●

6 ● ●

kiugró érték nélkül
4 ●
y

kiugró értékkel
2 ● ●

● kiugró érték
0 ●

2 4 6 8 10

(b)
8
kiugró érték nélkül ● ●

6 ● ●

4 ●
y

kiugró értékkel
2 ● ●


kiugró érték
0 ●

2 4 6 8 10

9.15. ábra. Illesztés kiugró értékkel és nélküle. Az (a) ábrán a kiugró pont nem nagyon,
a (b)-n viszont jelentősen befolyásolja az illesztést
9.10. Regressziós diagnosztika 285

9.10.3. Kiugró értékek és torzító pontok


A) Kiugró értékek

A regressziószámításban egy megfigyelést akkor nevezünk kiug-


ró értéknek (regression outlier), ha reziduumának értéke különösen
nagy (összehasonlítva a többi adatpontéval).
Az 9.15. ábrákon a nyíllal jelölt pontok tűnnek kiugrónak (ld. 2.4.5. fe-
jezet). A folytonos egyenesek az egész adathalmazra illesztett regressziós
egyenesek, a szaggatottak pedig a kiugró értékek nélküli adatokra illesz-
tettek. Az (a) ábrán az kiugró érték láthatóan nem nagyon befolyásolja a
becsült regressziós paramétereket, a (b) ábrán viszont igen.

B) Hatóerő

Egyszerű lineáris regresszió esetén a hatóerő (leverage) az X ér-


tékek átlagától mért távolságot méri. Minél távolabb van egy pont a
minta középpontjától, annál nagyobb a hatóereje. Fizikában ez az erőkar-
nak felel meg, minél nagyobb a hatóerő, annál könnyebben „elhúzza” a pont
a regressziós egyenest. Az Y értékek nem játszanak szerepet a hatóerő de-
finíciójában. Több magyarázó változó esetén (r változó) egy megfigyelésre
a magyarázó változók értékei és a magyarázó változók átlagai is egy-egy
r dimenziós vektornak felelnek meg. Ilyenkor a két vektor többdimenzi-
ós távolsága a hatóerő. A hatóerőt az egyes pontokra (hi ) a hatvalues()
függvénnyel számíthatjuk ki a regressziós modellobjektumból. Kiszámítását
az általánosabb, lineáris modellre mutatjuk be (ld. 370. oldal).

C) Torzító pontok

Ha egy pont erősen befolyásolja a regressziós paraméterek becs-


lését, akkor torzító pontnak (influential point) nevezzük. A 9.16. áb-
rákon a nagy hatóerejű pontokat „•”-tal jelöltük. A folytonos és szaggatott
egyenesek a nagy hatóerejű pontokkal, illetve azok nélkül illesztett regresszi-
ós egyenesek.
Míg az (a) ábrán a nagy hatóerejű pont nem torzító, addig a (b) ábrán
lévő az.
Ha több magyarázó változó van, akkor a helyzet egy kicsit bonyolultabb,
mivel az adatok szóródása az iránytól függően változhat. Ezt a helyzetet
illusztrálja a 9.17. ábra.
Az ábrán az 1. és 2. pontok viszonylag messze vannak a ponthalmaz
középpontjától. Az abszolút távolságokat tekintve a 2. pont van távolabb,
de ha a pontok adott irányú szóródásához hasonlítjuk, akkor az 1. pont
286 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)
20 20 ●
hatóerő hatóerő
15 15

10 ● 10
y

y
● ● ● ●
● ● ● ●
5 ● ● 5 ● ●
● ●
● ● x ● ● x
0 ● 0 ●

0 5 10 15 0 5 10 15

x x

9.16. ábra. Nagy hatóerejű pont lehet, hogy nem torzító (a) és lehet, hogy torzító (b)

tűnik távolabbinak. Jelen esetben mindkét pontnak jelentős befolyása lehet


(talán az 1. pontnak egy kicsit nagyobb) a regressziós felület helyzetére,
persze a hozzájuk tartozó Y értékektől függően (itt csupán a magyarázó
változókat ábrázoltuk).
A fentiekkel összhangban, több dimenzióban a hatóerőt mindig az adatok
adott irányú szóródásához képest mérjük.
A 2. pont helyzete világos: potenciális torzító pont, hiszen X1 és X2
értéke is kiugró. Mindamellett az 1. és 3. pont arra példa, hogy valójában
az értékek kombinációja számít. Ha X1 -et és X2 -t külön-külön nézzük, akkor
a 3. pont értékei szélsőségesebbek, mint az 1. ponté, mégis kisebb befolyása
lehet a regresszióra (az 1. pont értékeinek kombinációja extrémebb).
Megjegyzések:
1. Egy kiugró érték nem feltétlenül torzító pont (lehet, hogy kicsi a ha-
tóereje).
2. Egy torzító pont nem feltétlenül kiugró (lehet, hogy sikerült annyira
maga felé húznia a regressziós felületet, hogy kicsi a reziduuma).
3. Az, hogy egy nagy hatóerejű pont torzító-e vagy sem, az y koordiná-
tája értékétől függ.
4. A fenti ábrák csupán illusztrációk, mivel többszörös regresszió esetén,
amikor a reziduumok elemzése tényleg fontos, nem tudunk ilyen áttekinthető
grafikonokat készíteni.
5. A torzítás mértékét nagyban befolyásolja az adatok száma. Kis min-
taelemszámnál sokkal nagyobb lehet a torzítás mértéke, mint nagy esetén.
De nagy mintaelemszám esetén is lehetnek torzító pontok.
9.10. Regressziós diagnosztika 287

20

15 2 ●

1 ●
10
X2


● ●

5 ●

● ●
3
0 ●

0 5 10 15

X1

9.17. ábra. Nagy hatóerejű pontok két magyarázó változó esetén. Nyíllal jelöltük a
ponthalmaz középpontját

D) Kiugró pontok detektálása

A kiugró értékek kiszűrésének szokásos módja a reziduumok vizsgálata. Kü-


lönböző fajta reziduumok alkalmazhatók e célból. Az i-edik adatpont kö-
zönséges (nem standardizált) reziduumának definíciója az eddigiekkel össz-
hangban:
ei = yi − ŷi .
Ezeket a reziduumokat a resid() függvénnyel számíthatjuk ki.
A standardizált reziduumokat a standard hibával való osztással
kapjuk (NB. a reziduumok átlaga 0!), azaz
(stand) ei
ei = ,
SE(e)

ahol SE(e)-t a mintából becsüljük.


Az R egy kicsit módosított képlettel számol:
(stand) ei
ei = √ ,
SE(e) 1 − hi

ahol hi az i-edik pont hatóereje (részletekért lásd Fox, 1997). A standardizált


reziduumokat a rstandard() vagy a MASS könyvtár stdres() függvényével
számíthatjuk ki (Venables & Ripley 2002).
288 Reiczigel – Harnos – Solymosi: Biostatisztika

Mire jó a standardizálás? Ahhoz, hogy eldönthessük, vajon egy megfi-


gyelés reziduuma „különösen nagy-e”, kell lenni valami elképzelésünknek a
reziduumok (kiugró értékek nélküli) eloszlásáról. Bizonyítható, hogy ha a
regressziós modellben a hibatag normális eloszlású, akkor a standardizált
reziduumok közelítőleg Student-féle t-eloszlást követnek. Ennek alapján ki-
ugrónak tekinthetjük azokat a megfigyeléseket, amelyek standardizált rezi-
duuma kívül esik a t-eloszlás választott (pl. 99%-os) kritikus értékein.
A legkifinomultabb típus az ún. jackknife-reziduum (deleted, exter-
nally studentized, studentized). Az alapgondolat az, hogy mivel a kiugró
értékek is befolyásolják a számított Y értékeket, minden pontra úgy szá-
molunk reziduumot, hogy a regressziós felület meghatározásakor
a szóban forgó pontot kihagyjuk. Ez azért fontos, mert a nagy hatóere-
jű pontok egyszerűen „magukhoz húzzák” az illesztett regressziós felületet,
így kicsi lehet a standardizált reziduum. A jackknife-reziduum képlete:

e(−i) = yi − ŷ(−i) ,

ahol ŷ(−i) az i-edik pont kihagyása után az i-edik pontbeli számított érték.
A standardizálás ugyanúgy történik, mint a közönséges reziduumok esetén:
(stand) e(−i)
e(−i) = .
SE(e(−i) )

Az R ebben az esetben is módosított képlettel számol, és a studentizált


reziduum (studentized residual) elnevezést használja:
(stand) e(−i)
e(−i) = √ ,
SE(e(−i) ) 1 − hi

ahol hi az i-edik pont hatóereje (ld. Fox, 1997).


Ha nincsenek kiugró értékek, akkor a standardizált jackknife-reziduumok
t-eloszlásúak (n − r − 2) szabadsági fokkal, ahol n a pontok, r pedig a
magyarázó változók száma. Egy pontot akkor tekinthetünk kiugrónak, ha
a reziduuma nagyobb, mint az eloszlás választott (például 99%-os) kritikus
értéke. Természetesen ez nem bizonyítja, hogy az a pont kiugró lenne, ilyen
módon csak gyanús pontokat találhatunk.
A legtöbb gyakorlati esetben a közönséges reziduumokkal is jól lehet
dolgozni. De ha a szoftverünk képes a jackknife-reziduumok kiszámításá-
ra, akkor használjuk inkább ezeket! Az R-ben a standardizált jackknife-
reziduumokat az rstudent() vagy a MASS könyvtár (Venables & Ripley
2002) studres() függvényével számíthatjuk ki.
9.10. Regressziós diagnosztika 289

9.13. példa. Standardizált jackknife-reziduumok


A 9.16. (b) ábra adatai között keresünk kiugró értékeket:
> library(MASS)
> x = c(1:10, 15)
> y = c(0, 2, 2, 4, 6, 5, 5.5, 7, 6, 7, 20)
> mod = lm(y ~ x)
> which(abs(studres(mod)) > qt(p = 0.99, df = 8))

11

Ezek szerint a 11. pont kiugró. A which() függvénnyel egy vektorban megkereshetjük az
adott feltételt teljesítő elemeket, az abs() az abszolútérték függvény, és a studres()
függvény számítja ki a modellobjektummal meghívva a studentizált reziduumokat. A
qt()-vel a t-eloszlás kritikus értékeit (kvantiliseit) kaphatjuk meg adott valószínűség és
szabadsági fok esetén. A szabadsági fok (n − r − 2) itt 8, mivel a mintaelemszám 11,
és a magyarázó változók száma 1.

E) Torzító pontok detektálása

Az eddigiek alapján elmondhatjuk, hogy torzító pont az olyan pont, amely-


nek nagy a hatóereje, és ugyanakkor nagyon eltér a többi ponttól, azaz
nagy a jackknife-reziduuma. Ezt a kombinált tulajdonságot leginkább úgy
mérhetjük, ha megnézzük, hogy az egyes pontok mennyire befolyásolják a
regressziós egyenes vagy felület helyzetét, illetve a regressziós együttható-
kat. Ez azt jelenti, hogy kiszámítjuk, hogy az egyes pontokkal, illetve
nélkülük mekkorák a modell együtthatói, és kiszámítjuk a kü-
lönbségeiket (DFBeta). R-ben a dfbetas() függvénnyel számíthatjuk.

Torzító pontra akkor gyanakodhatunk, ha ez az érték nagyobb mint 2/ n,
ahol n a mintaelemek száma.
Ha nem külön-külön, hanem az összes együtthatóra egyidejűleg szeret-
nénk vizsgálni az egyes pontok torzító hatását, akkor az ún. Cook-féle
D-statisztikát (vagy Cook-féle távolságot) (Cook’s distance) számíthat-
juk ki az egyes megfigyelésekre. Ez egy olyan standardizált index, ami
azt méri, hogy a regressziós felület (a regressziós együtthatók)
mennyit változik, ha az adott pontot kihagyjuk. Gyanús a pont, ha
értéke > 4/(n − p), ahol n a megfigyelések, p a modell paramétereinek szá-
ma. Statisztikai próba nincs rá. (Nagyon gyanúsak azok a pontok, amelyekre
D > 1). R-ben a cooks.distance() függvénnyel számítjuk.
Ugyanerre a célra vannak más mértékek is, például σ(i) 2 , a reziduum hiba

variancia becslése, ha kihagyjuk az i-edik megfigyelést.


290 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)
1 1
● ● ● ●
● ● ● ● ● ● ●
0 ● ● ● 0 ● ●


−1 −1
DFFIT

DFFIT

−2 −2
−3 −3
−4 −4 ●

2 4 6 8 10 2 4 6 8 10

Index Index

9.18. ábra. A 9.15. (a) és (b) ábrák adatai esetén a DFFIT értékek. Az (a) ábrán nincs
torzító pontra utaló jel, a (b) ábrán viszont az utolsó ponthoz tartozó −4 körüli érték
torzításra utal

Másik ilyen érték a DFFIT, ami azt méri, hogyha kihagyunk egy megfi-
gyelést az elemzésből, akkor mennyit változik a pont becsült értéke. R-ben
a dffits() függvénnyel lehet kiszámoltatni. Célszerű rögtön kirajzoltatni a
DFFITS értékeket a plot(dffits()) kóddal, a modellobjektummal meg-
hívva, a jobb áttekinthetőség kedvéért (9.18. ábra). Ezt a módszert a többi
statisztika esetén is alkalmazhatjuk.
Ez is egy standardizált statisztika, így a standard normális eloszlásnál
általában használt kritikus értékeket vehetjük alapul a torzító pontok meg-
határozására (általában a ±3 tartományon kívül esők), ha elég sok megfi-
gyelésünk van (> 30). Kevesebb megfigyelés esetén a Student-féle t-eloszlás
kritikus értékei
p mérvadóak. Gyanúsak azok a pontok, melyekre a statisztika
értéke > 2 · p/(n − p).
Az R-ben még egy statisztikát számoltathatunk a torzítás vizsgálatára,
ez a COVRATIO-nak nevezett mennyiség. Ez közelítőleg a vizsgált pont-
tal, illetve a nélkül illesztett regressziós felület konfidencia-tartományai által
határolt több dimenziós térfogatok hányadosának négyzete (egy magyarázó
változó esetén az adattartományban a konfidencia-sávok területének hánya-
dosa a négyzeten.). A térfogat a pontosságot fejezi ki. Ha a COVRATIO
értéke 1 körül van, akkor a pontnak nincs nagy hatása. Akkor gyanús egy
pont, ha |COV RAT IOi − 1| ≥ 3p/n. R-ben a covratio() függvénnyel
számíthatjuk.
A torzító pontok detektálására szolgáló mennyiségeket – dfb (DFBeta),
dffit (DFFIT), cov.r (COVRATIO), cook.d (Cook-féle távolság), hat
(hatóerő) – együtt az influence.measures() függvénnyel írathatjuk ki. Az
9.10. Regressziós diagnosztika 291

(a) (b)
1
Standardized residuals

Standardized residuals
0.5
●5 ● ●8
0.5 1
1 ● ● ●
● ● ●
● ● 0 ●
0 ● ●
● ●
1● −1
−1 1 ● 0.5
0.5
−2 1
−2 1
Cook's
●6 distance Cook's distance 10 ●
−3
0.00 0.10 0.20 0.30 0.00 0.10 0.20 0.30

Leverage Leverage

9.19. ábra. A 9.15. (a) és (b) ábrák adatai esetén a standardizált reziduum-hatóerő
ábrák. Az (a) ábrán nincs torzító pontra utaló jel, a (b) ábrán viszont a 10-es pont
egyértelműen torzító. Figyeljük meg, hogy minél nagyobb a hatóerő, annál kisebb stan-
dardizált reziduum érték elég ahhoz, hogy egy pont torzítónak bizonyuljon!

output utolsó oszlopában (inf) lévő *-ok azokat az eseteket jelölik, amelyek
valamelyik mérték szerint problémásak.

9.14. példa. Torzító pontok detektálása


A függvényt a 9.19. (b) ábra adataival szemléltetjük.
> influence.measures(mod2)

Influence measures of
lm(formula = y ~ x) :

dfb.1_ dfb.x dffit cov.r cook.d hat inf


1 -8.44e-01 0.7138 -0.847 1.3994 0.34317 0.345
2 -1.26e-01 0.0991 -0.128 1.7136 0.00933 0.248
3 -1.72e-01 0.1211 -0.184 1.5148 0.01901 0.176
4 1.05e-01 -0.0595 0.128 1.4494 0.00928 0.127
5 2.32e-01 -0.0655 0.382 1.0431 0.07059 0.103
6 4.39e-02 0.0247 0.144 1.3836 0.01159 0.103
7 -1.59e-17 0.0848 0.183 1.4028 0.01857 0.127
8 -1.15e-01 0.3251 0.495 1.1690 0.12036 0.176
9 -8.34e-02 0.1647 0.213 1.6718 0.02544 0.248
10 2.05e+00 -3.4643 -4.110 0.0643 1.73222 0.345 *

Az R-ben még egy nagyon hasznos ábrát lehet torzító pontok detektá-
lására készíteni, ez a standardizált reziduum-hatóerő ábra (9.19.). A
0.5-es és 1-es Cook-féle D értéknek megfelelő határokat szaggatott (a kép-
ernyőn piros) vonalak jelzik. Eszerint, azok a pontok problémásak, amelyek
292 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)
15
13 13 ●

Standardized residuals

2
10
● ●
● ●
Residuals

5 ● ●
1
● ●

● ● ● ●
● ●

0 ●
● ●


● 0 ●


● ● ●
● ●
−5 ●


18 ●
−1 ● ●

−10 ●
1 ●

● 1 ● 18

50 60 70 80 −2 −1 0 1 2

Fitted values Theoretical Quantiles

(c) (d)
1.5 ● 13 1
Standardized residuals

13
Standardized residuals


● 1 18 ● 2

0.5
● ●
● ●

1.0 ●
1
● ● ● ●
● ● ● ●

● ● ●


0 ●


● ●
0.5 ●

● ●



−1 ● ●

2●
● ●
Cook's distance 18 ● 0.5
0.0 −2

50 60 70 80 0.00 0.10 0.20 0.30

Fitted values Leverage

9.20. ábra. A regmod2 modell diagnosztikus ábrái: reziduum-becsült érték ábra a


linearitás vizsgálatára (a), QQ-ábra a hibatag normalitásának vizsgálatára (b), szórás-
becsült érték diagram a reziduumok szórásának vizsgálatára (c), és a standardizált
reziduum-hatóerő ábra (d) a torzító pontok vizsgálatára

ezen határokon kívül esnek (attól függően, hogy ki mennyire szigorú a tor-
zítást illetően).

9.10.4. Diagnosztikus ábrák


Ha a plot() függvényt egy regressziós modellobjektumra (most regmod2)
alkalmazzuk, akkor a modell diagnosztikus ábrái (4 darab) jelennek meg
gombnyomásra. Ha egyszerre szeretnénk a négy ábrát látni (9.20. ábra),
akkor a következő kódot gépeljük be:
> par(mfrow = c(2, 2))
> plot(regmod2)
> par(mfrow = c(1, 1))
9.11. Nemlineáris kapcsolatok 293

90 ●


80 ● ●

● ●
Testtömeg (kg)

70 ● ●
● ●
●●

60 ●
● ● ● ●
●● ●
50

40

30

20

100 120 140 160 180 200

Magasság (cm)

9.21. ábra. Testtömeg–magasság kapcsolat. A folytonos vonal a köbös illesztés, a


szaggatott a lineáris regresszióból kapott egyenes

A par() függvény ún. környezeti paraméterek beállítására szolgál. Most az


mfrow argumentummal a grafikus ablak felosztását végzi. A kód első sora
2 × 2 részre osztja az ablakot, amit a 3. sorban visszaállít 1 részre.
A 9.20. ábrán különösebb probléma nem látható.

9.11. Nemlineáris kapcsolatok


Az előző fejezetekben azt az esetet tárgyaltuk, amikor a kapcsolat a válto-
zók között lineáris. A következőkben egy magyarázó változó esetén foglal-
kozunk azzal az esettel, amikor a kapcsolat a változók között nem lineáris.
A természetben a legtöbb kapcsolat ilyen, bár nagyon sokszor lehet a line-
áris közelítést alkalmazni. Például tudható, hogy ha egy testtömeg változót
vizsgálunk valamilyen lineáris testméret (pl. testhossz) függvényében, ak-
kor ott hatványfüggvény-összefüggést várunk, hiszen a testtömeg arányos
a térfogattal, az pedig a lineáris méret köbével. Ha azonban a köbös függ-
vénynek csak arról a részéről vannak méréseink, ahol már jól közelíthető
egyenessel (kifejlett állatok, felnőtt emberek stb.), akkor egyrészt technikai-
lag nem tudunk hatványfüggvényt illeszteni, másrészt az egyenes közelítés
is igen jól működik. Például, ha megnézzük, hogy milyen összefüggés van a
tömeg- és a magasságadatok között (regressziós kurzus résztvevőinek ada-
tai) egy olyan szórásdiagrammal (9.21. ábra), amelyen látható a köbös és
a lineáris illesztés is, akkor láthatjuk, hogy milyen „közel” van egymáshoz
a két görbe az adattartományban. Az is rögtön látható az ábráról, hogy a
294 Reiczigel – Harnos – Solymosi: Biostatisztika

közelítés csak ebben a tartományban jó, tehát extrapolálni (a tartományon


kívüli becsléseket végezni) a közelítéssel itt sem szabad!
Sokszor elméleti megfontolásokból (a változók biológiai sajátosságaiból,
fizikai, kémiai, biológiai törvényszerűségekből) következik, hogy a változók
közötti kapcsolat nemlineáris: az előbb említett példában tudható, hogy
hatványfüggvényre van szükség a kapcsolat leírásához.
Az is tudható például, hogy egy gyógyszer dózis-válasz görbéje logiszti-
kus vagy valamilyen hasonló „S-alakú” (szigmoid) görbe. Ilyen esetekben az
elméleti megfontolások arra vonatkozóan is útmutatást adnak, hogy milyen
függvénytípust válasszunk.
Vannak azonban olyan esetek, amikor a megfigyelt adatok ugyan egy-
értelműen arra utalnak, hogy az X és az Y között van összefüggés, de ha
a pontokra egyenest illesztünk, az illeszkedés nagyon rossz, de nincs el-
méletünk arra vonatkozóan, hogy milyen lehet az összefüggés. Ilyenkor az
adatok grafikus ábrázolása segíthet: a kétváltozós szórásdiagramok a modell
kiválasztásában, a hisztogram, a boxplot, a QQ-ábra stb. pedig az adatok
eloszlásának vizsgálatában.

9.11.1. Lineárisra visszavezethető regressziók


Nemlineáris kapcsolat esetén gyakran a függő és/vagy a magyarázó válto-
zó egyszerű transzformációjával visszavezethetjük a problémát lineáris reg-
resszióra.
Azokban az esetekben, amikor az X és Y közötti összefüggés nemlineá-
ris, lineáris összefüggés állhat fenn valamely X 0 és Y 0 transzformált változók
között. Ha elméleti megfontolásokból nem következik, hogy milyen transz-
formációval érdemes próbálkozni, akkor a transzformált adatokból készített
szórásdiagramok segítségével választhatjuk ki a legmegfelelőbbet. A legegy-
szerűbb a logaritmus-transzformáció, próbáljuk ki rutinszerűen (9.22. ábra)!
Vigyázzunk, mert a logaritmusfüggvény csak pozitív számokra értelmezett!
Ha 0 értékek is előfordulnak, szokás egy alkalmas állandót hozzáadni az ér-
tékekhez, mielőtt a logaritmusát vesszük, például log(x + 1)-et venni log(x)
helyett.
Mindig gondoljuk végig, hogy egy ilyen transzformáció interpretálható-e,
meg tudjuk-e magyarázni, hogy mi az értelme!
A transzformációk érinthetik mind a regressziós függvényt, mind a vé-
letlenséget (hibatagot) a modellben (utóbbit akkor, ha a függő változót
transzformáljuk). Sok esetben nagyobb függvényértékhez nagyobb Y szórás
tartozik. Ha a relatív szórás állandó (vagyis ha a szórást osztva
Y várható értékével az adott X esetén már állandó értéket ka-
9.11. Nemlineáris kapcsolatok 295

(a) (b)
● ●
● ●● ● ● ●● ●●
● ● ● ●
● ● ● ●● ● ●●●● ●●●
●●●
● ● ● ●
●●● ●

●● ● ● ●● ●●
● ● ● ●
●● ● ●● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ●
● ●
● ● ● ● ● ● ●● ●
● ●● ●● ● ● ●● ● ●
● ●● ● ●

● ●
● ●●
● ●● ● ● ●●
● ●● ●
● ● ● ●
●● ● ● ● ● ●
● ●● ●● ● ● ● ● ●
● ●●
● ● ● ●
y

y
● ● ● ●
●● ●●

● ● ● ●
● ●

● ● ● ●
● ● ●

● ●
● ●● ● ● ●
●●
●● ●●
●●
● ●● ● ●

● ● ● ●
● ●
● ●

x log(x)

(c) (d)
● ●
●●●●

● ●●
● ●
● ●● ● ●

● ●
●●

● ●
● ●
●●
● ●
● ● ●● ●
● ● ●
●● ● ● ●
●● ●
●● ●●
log(y)

● ● ●●
● ●
● ●●
● ● ●
y


●● ●●
● ● ● ● ●

● ●● ● ● ●
● ● ●
● ●●● ●
● ●●●
●● ● ● ● ●●
●● ●
●● ● ●● ●
● ●● ●●●
● ●
● ● ●

● ●● ● ●
●● ● ●
● ● ●● ●● ● ●●

●●●● ● ●● ●●●

● ● ●


● ●●●
● ●● ●
●●●

● ● ●

●●● ●●●●● ●
● ● ● ● ●●
● ●
●● ● ● ●

x x

(e) (f)
● ●

● ●● ●●●
● ● ●●● ●●● ●

● ● ●
●●●
● ● ●

●● ● ●
● ●● ●
● ● ●● ● ●●
●● ●●
● ●● ● ● ●● ●
● ● ●●
● ●● ●● ● ●●
●●
log(y)

● ● ●● ● ●

●● ● ● ● ●● ●●
● ● ● ●

y

● ●
●● ● ● ● ●● ● ●
● ● ●
● ●

●● ●●● ●
● ● ●
●● ●●
●● ● ● ● ● ●
● ● ●
●● ● ●● ●● ●

●● ●● ●●
● ● ● ●
● ● ●
● ●
● ●● ● ● ● ●

● ● ● ●
● ●●●●●● ●

●●● ●
●●● ● ●● ● ●

● ●
●●
●● ● ●

x log(x)

9.22. ábra. Példák nemlineáris kapcsolatokra (baloldali ábrák) és transzformációikra


(jobboldali ábrák): logaritmus (a), logaritmus-transzformáció az x tengelyen (b), ex-
ponenciális (c), logaritmus-transzformáció az y tengelyen (d), hatványfüggvény (e) és
logaritmus-transzformáció mindkét tengelyen (f)
296 Reiczigel – Harnos – Solymosi: Biostatisztika

punk minden X-re), akkor multiplikatív hibáról beszélünk. Ez úgy


modellezhető, hogy a hibatag nem hozzáadódik a függvényértékhez, hanem
összeszorzódik vele. Erre láthatunk példát a 9.22. (c) és (e) ábrákon.
A 9.22. (a)-(f) ábrákon látható transzformációk esetén:
1. Ha a kapcsolat lineárissá válik az X logaritmus-transzformálásával,
akkor a keresett függvény a logaritmus-függvény additív hibával ((a)
és (b) ábrák):
Y = β0 + β1 log X + ε.
2. Ha a kapcsolat lineárissá válik az Y logaritmus-transzformálásával,
akkor a keresett függvény exponenciális, multiplikatív hibával ((c) és
(d) ábrák):
Y = eβ0 eβ1 X eε .
Ha ezt a függvényt logaritmus-transzformáljuk, akkor

log Y = β0 + β1 X + ε.

3. Ha a kapcsolat lineárissá válik X és Y logaritmus-transzformálásával,


akkor a keresett függvény a hatványfüggvény, multiplikatív hibával
((e) és (f) ábrák):
Y = eβ0 X β1 eε .
A transzformált:
log Y = β0 + β1 log X + ε.
Transzformációkról lásd még a 2.4.3. fejezetet.

9.11.2. Példák változók transzformálásával végzett regressziókra


Ha lineárissá tudunk transzformálni egy függvénykapcsolatot, akkor a reg-
ressziós eredményeket (próbák, diagnosztikus ábrák, R2 stb.) ugyanúgy kell
értelmezni, mint a lineáris esetben, csak – természetesen – a transzformált
változókra. Az eredményeket vissza szoktuk transzformálni az eredeti ská-
lára, ezekre is mutatunk példát a következőkben. A legtöbb elemzésnél csak
az együtthatókat fogjuk közölni hely hiányában, a modellek summary()-jét
mindenki elkészítheti magának.

A) Logaritmikus összefüggés (logarithmic)

Az X logaritmusa és az Y között lineáris kapcsolat áll fenn. Az ilyen kapcso-


latokra jellemző, hogy a növekedés kezdetben gyors, majd lelassul (például
dózishatások).
9.11. Nemlineáris kapcsolatok 297

(a) (b)
80 ● 80 ●

● ●
60 60
Fajszám

Fajszám
● ●
● ●
40 40
● ●
● ●

20 ●
20 ●

● ●

0 ●
● 0 ●●

0 4000 8000 12000 4 5 6 7 8 9

Terület (km2) log(terület)

9.23. ábra. Halak fajszámának függése a tó területétől (a), és a halak fajszámának


függése a terület logaritmusától (b) az illesztett görbékkel

9.15. példa. Logaritmikus összefüggés


Halak fajgazdagságát vizsgálták különböző tavakban. A táblázat az egyes tavak terü-
letét és a bennük talált halfajok számát tartalmazza.

terület (km2 ) 253 7400 53 37 2887 822 61 10770 11800 56


fajok száma 26 63 1 21 30 50 0 44 79 8

A fajszám-terület kapcsolatot logaritmus-függvénnyel modellezzük:


> terulet = c(253, 7400, 53, 37, 2887, 822, 61, 10770, 11800, 56)
> fajszam = c(26, 63, 1, 21, 30, 50, 0, 44, 79,8)
Az egyenesillesztés a transzformált adatokra:
> (logreg = lm(fajszam ~ log(terulet)))
...
Coefficients:
(Intercept) log(terulet)
-29.212 9.671
Ez alapján az összefüggés egyenlete: fajszam = −29.21 + 9.67 · log(terulet).
A grafikonok (9.23. ábra):
> plot(fajszam ~ terulet, ylab = "Fajszám", pch = 20),
+ xlab = expression(paste("Terület (", km^2, ")", sep = ""))
> b0 = coef(logreg)[1]
> b1 = coef(logreg)[2]
> curve(b0 + b1 * log(x), add = T)
> plot(fajszam ~ log(terulet), xlab = "log(Terület)",
+ ylab = "Fajszám", pch = 20)
> abline(logreg)
298 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)
● ●

● ●
100 ●
4.6 ●
● ● ●
● ●

90 ●

4.4 ●
● ●

log(tömeg)
Tömeg (g)


● ● ● ●
● ●
80 ●






● 4.2 ●

70 ●


● ●


60



4.0 ●

● ● ●


● ●
50 ●




3.8 ●



● ●
● ● ●
40 ●




3.6



0 2 4 6 8 10 0 2 4 6 8 10

Kor (nap) Kor (nap)

9.24. ábra. Csibék tömege az első 10 napon (a), a logaritmus-transzformált (függő


változó) ábra (b) és az illesztések

B) Exponenciális összefüggés (exponential)

Exponenciális összefüggés például akkor lép fel, ha az Y változó növekedé-


se az X egységnyi megváltozására arányos a már addig elért nagyságával.
Biológiában a kezdeti növekedések általában exponenciális jellegűek.

9.16. példa. Csibék – exponenciális összefüggés


Egy kísérletben vírussal fertőzött csibék növekedését vizsgálták (Mándoki et al. 2006). A
csibék tömegét 30 napos korukig mérték. 4 csibe első 10 napon mért tömegét láthatjuk
a 9.24. (a) ábrán, illetve a logaritmus-transzformáltját a (b) ábrán az idő függvényében,
valamint az illesztéseket.
Korábbi tapasztalatok alapján valószínűsíthető az exponenciális növekedés, amit az áb-
rák is megerősítenek. A grafikonok:
> with(csibe, plot(tomeg ~ nap, pch = 20, xlab = "Kor (nap)",
+ ylab = "Tömeg (g)"))
> with(csibe, plot(log(tomeg) ~ nap, pch = 20, xlab = "Kor (nap)",
+ ylab = "log(Tömeg)"))
Az egyenesillesztés a transzformált adatokra:
> (expreg = lm(log(tomeg) ~ nap, data = csibe))
...
Coefficients:
(Intercept) nap
3.5937 0.1009
Így az összefüggés egyenlete: log(tomeg) = 3.59 + 0.1· nap.
Visszatranszformálva: tomeg = 36.37 · e0.1·nap .
A görbét a curve() függvénnyel illeszthetjük rá a szórásdiagramra
(9.24. (a) ábra).
9.11. Nemlineáris kapcsolatok 299

> with(csibe, plot(tomeg ~ nap, pch = 20, xlab = "Kor (nap)",


+ ylab = "Tömeg (g)"))
> curve(exp(coef(expreg)[1]) * exp(coef(expreg)[2] * x), add = T)

Ennél a példánál meg kell jegyeznünk, hogy adataink nem függetlenek,


hiszen ugyanazokat a csibéket mértük 10 napon keresztül. Ez azt jelenti,
hogy a próbákat nem végezhetjük el, mert a függetlenségre vonatkozó felté-
tel nem teljesül. Ha tesztelni is akarunk, akkor nem az OLS-módszerrel kell
illesztenünk, hanem például az ún. általánosított legkisebb négyzetek
(generalized least squares) módszerével (Pinheiro & Bates 2006; Faraway
2016a). Ez a módszer megengedi, hogy a mérések korreláltak legyenek,
illetve azt, hogy a hibatag varianciája ne legyen állandó. A csibe-
növekedés példán keresztül mutatjuk be alkalmazását:

9.17. példa. Csibék – korrelált exponenciális illesztés


Az egyenes illesztését az nlme könyvtár gls() függvényével végezzük (Pinheiro et al.
2018). Ugyanúgy meg kell adni a modellformulát, mint eddig, valamint meg kell adni a
korrelációs struktúrát, azaz azt, hogy a mérések milyen módon korreláltak. (Esetünkben
a legegyszerűbb struktúrát használjuk, ami egy autoregresszív folyamatot ír le (corAR1),
azaz azt feltételezi, hogy az (i + 1)-edik mérés az i-edik méréstől lineárisan függ vala-
milyen konstans együtthatóval. Az egymás utáni méréseknek időbeli sorrendben kell a
táblázatban lenniük.) A form = ~nap|id azt fejezi ki, hogy az id a csoportosító válto-
zó, azaz az azonos id-jű csibék mérései korreláltak (az id egy oszlop az adatmátrixban)
és a nap az idő kovariáns. Az adatmátrix első 5 sora:
> csibe[1:5, ]

nap tomeg id
1 0 37.0 1
2 1 40.5 1
3 2 43.0 1
4 3 48.7 1
5 4 57.6 1

> library(nlme)
> expreg.gls = gls(log(tomeg) ~ nap, data = csibe,
+ correlation = corAR1(form = ~nap | id))

> summary(expreg.gls)

Generalized least squares fit by REML


Model: log(tomeg) ~ nap
Data: csibe
AIC BIC logLik
-149.9964 -143.0458 78.99822
300 Reiczigel – Harnos – Solymosi: Biostatisztika

Correlation Structure: AR(1)


Formula: ~nap | id
Parameter estimate(s):
Phi
0.7352538

Coefficients:
Value Std.Error t-value p-value
(Intercept) 3.601797 0.022594716 159.40883 0
nap 0.099800 0.003318106 30.07726 0

Correlation:
(Intr)
nap -0.734

Standardized residuals:
Min Q1 Med Q3 Max
-2.02800097 -0.50692209 0.07077833 0.52713054 1.64560339

Residual standard error: 0.0487538


Degrees of freedom: 44 total; 42 residual
Láthatjuk, hogy az együtthatók gyakorlatilag ugyanazok mint az OLS-illesztés esetén.
(Az AIC, BIC, logLik értékek magyarázatát lásd a 11.7.3. fejezetben. A Phi jelentése
itt az időben egymás után következő megfigyelések korrelációja.) Összehasonlításképpen
nézzük meg az OLS-illesztés tesztjeit:
> expreg = lm(log(tomeg) ~ nap, data = csibe)
> summary(expreg)
Call:
lm(formula = log(tomeg) ~ nap, data = csibe)

Residuals:
Min 1Q Median 3Q Max
-0.102182 -0.021492 0.008774 0.025793 0.081480

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.593707 0.012692 283.15 <2e-16 ***
nap 0.100940 0.002145 47.05 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.045 on 42 degrees of freedom


Multiple R-Squared: 0.9814, Adjusted R-squared: 0.9809
F-statistic: 2214 on 1 and 42 DF, p-value: < 2.2e-16
Látható, hogy míg az együtthatók alig különböznek, addig a standard hibák az OLS-
módszer esetén jóval kisebbek.
9.11. Nemlineáris kapcsolatok 301

(a) (b)
● ●

35 3.5 ●●● ●●●●


●●●

● ●
● ●●



●●
●●
●●●
Teljes tömeg (kg)

● ● ● ●●
●●


●●●●●

log(teljes tömeg)
●● ● ●●●●●
●●

●●
●●
● ●●

●●●
● ●● ●●●●

●●
●●●
●●●

●●●
● ●●

● ●
●●●●●●
● ● ●●●●
●●
● ●
● ●
30 ●●●
●●●●●●
●●●● ●
●● ●
3.0 ●●●●●

●●●●
● ●





●●

●●
●●
●●

●●●







●●


● ●
●●●●●
●● ●●
●●●
●●
●●

●●●

●●● ●●●●●●●●●●

●● ●
● ●●
●●●● ●● ●●● ●
●●● ●
●●
●●
●●●
●● ● ●●● ● ●● ●
25 ●●
● ●●●●●●
●●●● ●
●●●
●●
●●●





● ●
●●●
●●●

● ●●
● ●●
●●●
●●
● 2.5 ● ●
●● ●
● ●
●●

● ●●●●●● ●
●●
●●●
●●●●●●● ● ●
●● ●●
●●● ●
●● ●
●●●
●●●●● ●●● ● ● ● ●●
20 ●
●●●
●●●
●●●

●●

●●
●●●●
●●●●

● ●
●●
●●●● ●
●● ●
●● ● ●●
●●● ●●
●●●
●●

● ●●


●●●●●●
●●

●●● 2.0 ●

●●●

15 ●●●●
●●●

●●●● ●
● ●
● ●
●● ●



● ● ● ●

● ●
● ●
●● 1.5 ● ●
10 ●

● ● ● ●●
●●
●● ● ●

●●
5 ●●●

●● 1.0 ●●

●● ●
● ●

60 80 100 120 4.2 4.4 4.6 4.8

Testhossz (cm) log(testhossz)

9.25. ábra. Az őzek teljes tömeg-testhossz szórásdiagramja: (a) és log-log transzfor-


mált adatok szórásdiagramja (b)

C) Hatványfüggvény-összefüggés (power law)

A fejezet elején említett testtömeg és testhossz közti kapcsolaton túl még egy
példát megemlítünk hatványfüggvény-összefüggésre: tipikusan ilyen kapcso-
lat áll fenn járványos betegségek terjedésekor a kórokozók száma és a meg-
betegedések száma között.

9.18. példa. Őzek – hatványfüggvény-összefüggés


Őzek teljes tömeg-testhossz adataiból készített szórásdiagramot, illetve a log-log-
transzformált adatok szórásdiagramját láthatjuk a 9.25. ábrán.
Az ábrák és elméleti megfontolások alapján valószínűsíthető a hatványfüggvény-
összefüggés.
> with(oz, plot(TOMEG ~ TESTH, pch = 20, xlab = "Testhossz (cm)",
+ ylab = "Teljes tömeg (kg)"))
> with(oz, plot(log(TOMEG) ~ log(TESTH), pch = 20,
+ xlab = "log(testhossz)", ylab = "log(teljes tömeg)"))
A lineáris modell a transzformált adatokra:
> (hatvmod = lm(log(TOMEG) ~ log(TESTH), data = oz))

Call:
lm(formula = log(TOMEG) ~ log(TESTH), data = oz)

Coefficients:
(Intercept) log(TESTH)
-10.945 2.979

A β1 együttható becslése majdnem 3 lett, ami összhangban van azzal, hogy a tömeg
arányos a hossz köbével.
302 Reiczigel – Harnos – Solymosi: Biostatisztika

30 ●


● ● ●
● ● ●

● ● ●
● ●
25 ● ●●
Teljes tömeg (kg)

● ● ● ● ●


● ●
●● ● ●
● ● ● ● ● ●
● ●


20 ●●

●● ●

● ●●





● ●
●● ● ●●

● ●
15 ●





● ●


●●
● ●
● ●

10 ●


● ●
●●
● ●
●● ● ●
●●

5 ● ●
●●
● ●

60 70 80 90 100 110 120 130

Testhossz (cm)

9.26. ábra. Az őzek teljes tömeg-testhossz adataira illesztett hatványfüggvény, va-


lamint a konfidencia- (szaggatott vonal) és predikciós (szaggatott-pontozott vonal)
sávok

Az elemzés szerint a hatványfüggvény egyenlete visszatranszformálás után (9.26. ábra):

TOMEG = 1.8 · 10−5 · TESTH2.98 .

A hatványfüggvényt a curve() függvénnyel illeszthetjük rá most is szórásdiagramra


(9.26. ábra). A lineáris regresszióból kapott konfidencia- és predikciós sávok határoló
pontjait egyszerű visszatranszformálással rá tudjuk rajzoltatni a szórásdiagramra.
> x = data.frame(TESTH = 55:135)
> konf.sav = predict(hatvmod, int = "confidence", newdata = x)
> pred.sav = predict(hatvmod, int = "prediction", newdata = x)
> with(oz, plot(TOMEG ~ TESTH, pch = 20, xlab = "Testhossz (cm)",
+ ylab = "Teljes tömeg (kg)"))
> matlines(55:135, exp(konf.sav), lty = c(1, 2, 2), col = 1)
> matlines(55:135, exp(pred.sav), lty = c(1, 6, 6), col = 1)

D) Polinomiális regresszió

Az egyszerű lineáris regresszió általánosítható úgy, hogy a modell a magya-


rázó változó magasabb hatványait is tartalmazza. A polinomiális modell
szoros kapcsolatban áll a többszörös lineáris regressziós modellel, de itt r
különböző magyarázó változó helyett ugyanannak a magyarázó változó-
nak a hatványai (1,. . ., r) szerepelnek a regresszióban. X hatványait
mind különböző magyarázó változóknak tekintjük:
Y = β0 + β1 X + β2 X 2 + β3 X 3 + . . . + βr X r + ε.
9.11. Nemlineáris kapcsolatok 303

(a) (b)
35 x2 = x 12 ●
6
● ●

30 5
25
x 2 = (x 1 − x 1)2

4
20
x2

x2
● 3
15 ● ●
10 ●
2
5 ● 1
● ● ●
0
1 2 3 4 5 6 1 2 3 4 5 6

x1 x1

9.27. ábra. Polinomiális regressziónál a változók ügyes transzformálásával (x2 helyett


(x − x̄)2 ) elkerülhetjük a kollinearitást

A másodfokú polinomiális regressziót tipikusan olyankor alkalmazzuk,


amikor a várt görbének minimuma vagy maximuma van.
Harmadfokúnál magasabb rendű polinomokat ritkán használunk, mert
a paraméterek értelmezése csaknem lehetetlen (az értelmezhetetlen model-
leknek nincs gyakorlati értékük még akkor sem, ha jól illeszkednek). Ha
a fokszám megközelíti a megfigyelések számát, a tesztelés problematikussá
vagy lehetetlenné válik.
Ha van egy, az adatainkra esetleg kevésbé jól illeszkedő model-
lünk, amely jobban értelmezhető, mint a polinomiális, használjuk
inkább azt!
Polinomiális regresszió esetén nem vizsgálunk minden együtthatót, csak
egy általános ellenőrzés történik F -próbával, valamint a legmagasabb fokú
tag együtthatójának tesztelése (H0 : βr = 0). Ha a legmagasabb fokszámú
tag együtthatója nem különbözik szignifikánsan nullától, akkor a fokszámot
eggyel csökkentjük.
Polinomiális regresszió esetén a kollinearitás tipikus, hiszen a magyarázó
változók ugyanannak a változónak a hatványai, pl. X, X 2 , X 3 stb., ezért
erősen korreláltak lehetnek. Ilyen esetekben segít a „centrálás”. Például X
és X 2 helyett használható X és (X − X̄)2 (9.27. ábra).

9.11.3. Lineárisra nem visszavezethető regressziók


Amikor nem tudjuk az adatokat úgy transzformálni, hogy a kapcsolat lineá-
rissá váljon, az ún. nemlineáris legkisebb négyzetek módszerével illeszt-
hetjük a kiválasztott típusú függvényt az adatokhoz (itt is a (yi − f (xi ))2
P
304 Reiczigel – Harnos – Solymosi: Biostatisztika

p1 + p2
y = p 1 + p 2(1 − e −p 3x )
y

tg α = p 2p 3
α
p1

9.28. ábra. A telítődési görbe

összeget minimalizáljuk). A lineáris esetben használt tesztek megfelelői is


léteznek nemlineáris esetre. A hibatagról ekkor is feltételezzük, hogy füg-
getlen, normális eloszlású és állandó varianciájú.
Az illesztés iterációs módszerrel (olyan eljárás, amely sokszor újraszá-
mítja a becsléseket az előző becslés alapján) – R-ben az ún. Gauss–Newton
módszerrel – történik: az első közelítő paraméterbecsléseket nekünk kell
megadni, ezek alapján kiszámítja az eltérés-négyzetösszeget; majd a para-
métereket mindig egy kicsit megváltoztatja úgy az iterációk során, hogy az
illeszkedés mindig egy kicsit jobb legyen (kisebb legyen az eltérés-négyzet-
összeg) egészen addig, amíg az egymást követő iterációk során az együttha-
tók változása már nem halad meg egy nagyon kicsi értéket.
Az általunk megadott első közelítő paraméterbecsléseknek kellően közel
kell lenniük az ismeretlen paraméterekhez, egyébként a módszer lehet, hogy
nem konvergál, azaz az eltérések nem válnak kicsivé. Ahhoz, hogy jó kezdeti
becsléseket tudjunk megadni, ismerni kell a modelleket. A következőkben
három tipikus példán mutatjuk be a módszert.

A) A telítődési függvény (saturation function)

Egyenlete: y = p1 + p2 (1 − e−p3 x ). Mint a nevéből is kiderül, olyan folya-


matok leírására használhatjuk ezt a modellt, amikor a függő változó értéke
telítődik, azaz közelít egy ún. telítődési értékhez (aszimptotához) az X nö-
vekedésével (9.28. ábra).
9.11. Nemlineáris kapcsolatok 305


● ● ● ● ● ●
● ● ● ● ● ● ● ●
● ●
● ● ●
120 ●●●





● ● ●
● ●

● ●
● ● ● ● ● ●





● ●
● ●
● ● ● ● ● ● ● ● ●
● ●
●●
● ● ● ● ● ● ●
● ●●
● ● ● ● ● ● ● ● ●
Testhossz (cm)

● ● ● ● ● ● ● ● ● ●
●●●
● ●●
●● ● ●


● ●
● ●
● ●
● ●

● ● ● ●





● ●●● ● ● ● ● ● ● ●
● ●●●
●●●●
● ● ● ●
● ● ● ● ● ●
●●
●● ●●
●● ● ●
● ● ● ●
●●● ● ●
● ● ● ●
●● ●
● ●●● ●
● ● ●
● ●
●●● ● ● ● ●
100 ●●● ● ● ●

●● ●
● ● ●●
●● ●● ●
● ●●●
● ●
● ●●

●● ●●●
●● ● ●
●●

● ●
80 ●
●●

●●




●● ●

60 ●

0 2 4 6 8 10 12 14

Becsült kor (év)

9.29. ábra. Az őzek testhossz-(becsült kor) szórásdiagramja az illesztett telítődési


görbével

A paramétereket a következő összefüggések alapján becsülhetjük:


• a p1 paraméter a függvény értéke az X = 0 pontban;
• p1 + p2 a telítődési szint;
• a görbe 0 pontbeli érintőjének (= tgα) meredeksége: p2 p3 .
Ezeket a paramétereket, ha elméletileg nem tudjuk, a szórásdiagram
alapján kell megbecsülnünk. Célszerű nagyjából rárajzolni a szórásdiagram-
ra a görbét, és a fentiek alapján megsaccolni a kezdeti értékeket.
A nemlineáris regressziót az nls() függvénnyel végezzük az R-ben. Mint
azt a 9.19. példában láthatjuk, meg kell adni a modellt, vagyis be kell írni
a függvény képletét a függő és a független változó megadásával. A start
argumentumban adjuk meg a kiinduló paraméterbecsléseket egy lista ob-
jektumban.

9.19. példa. Őzek – telítődési görbe illesztés


Őzek testhosszát vizsgáljuk a becsült életkor (KOR) függvényében. Az adatokból készí-
tett szórásdiagramot láthatjuk a 9.29. ábrán az illesztéssel együtt. Az ábra és elméleti
megfontolások alapján valószínűsíthető a telítődési görbe összefüggés.

A szórásdiagram:
> with(oz, plot(TESTH ~ KOR, pch = 20, ylab = "Testhossz (cm)",
+ xlab = "Becsült kor (év)"))
306 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)

20 ●●

Sample Quantiles
● ● ●
●●●

● ●

●●


Standardized residuals

● 10 ●
●●

●●

●●
●●
2 ● ● ●● ●●

●●

● ● ● ●●

● ●●
● ●
●●

●●


●●

●●


●●

● ● ●● ●●
● ●


● 0 ●
●●


●●


●●



● ● ● ●●●
●●●

●●
● ●
●●●●
●●




● ●●


●●

●●


●●


●●
● ● ● ●
● ●●
●●● ●

● ●
●●


●●

0 ● ● ● ● ● ●●●●
●● ●●
●●●●●

● ●

●●


●●

● ● ● ● ●

● ●●
● ● ●
●●● ●




−10 ●●







●●


● ●
● ● ●●
● ● ● ●
● ●
●●●●
● ● ●●●●
● ● ●●
● ●
● −20
−2 ● ●● ● ●

−30 ●

−4 ● −40 ●


−6 −3 −2 −1 0 1 2 3
60 70 80 90 100 110
Fitted values Theoretical Quantiles

9.30. ábra. A standardizált reziduumok a becsült értékek függvényében (a) és a rezi-


duumok QQ-ábrája (b)

A telítődési modell illesztése :


> (telmod = nls(TESTH ~ p1 + p2 * (1 - exp(-p3 * KOR)),
+ start = list(p1 = 50, p2 = 60, p3 = 2), data = oz))

Nonlinear regression model


model: TESTH ~ p1 + p2 * (1 - exp(-p3 * KOR))
data: oz
p1 p2 p3
59.766988 53.168973 2.416032
residual sum-of-squares: 15767.48

A telítődési görbe rárajzolása a szórásdiagramra :


> with(oz, plot(TESTH ~ KOR, pch = 20, ylab = "Testhossz (cm)",
+ xlab = "Becsült kor (év)"))
>p1 = coef(telmod)[1]
>p2 = coef(telmod)[2]
>p3 = coef(telmod)[3]
> curve(p1 + p2 * (1 - exp(-p3 * x)), add = T)
Az elemzés szerint a telítődési függvény egyenlete:

TESTH = 59.77 + 53.17(1 − e−2.42·KOR ).

A modellek ellenőrzésére két ábrát (9.30. (a) és (b)) szoktunk használni


nemlineáris esetben. Az egyik a standardizált reziduum-becsült érték áb-
ra, amin a reziduumok véletlen szóródását kell látnunk jó illeszkedés ese-
tén. A másik a reziduumok normalitásának vizsgálatára használt QQ-ábra.
9.11. Nemlineáris kapcsolatok 307

p2
y = p1 +
−p 3(x−
−p 4)
p1 + p2 1+e

p 2p 3
tg α =
y

α 4

p1
p4
x

9.31. ábra. A logisztikus függvény

Példánkban egy-két kiugró értéktől eltekintve, amik nem okoznak igazán


problémát az adatok nagy száma miatt, minden rendben van.

> library(nlme)
> plot(telmod)
> qqnorm(resid(telmod))

B) A logisztikus összefüggés (logistic model)

Nagyon gyakran használt populációnövekedési modell a logisztikus növeke-


dési modell. Egyenlete (9.31. ábra):
p2
y = p1 + −p
.
1+ e 3 (x−p4 )

Összefüggések a paraméterekre:
• a p1 paraméter az alsó aszimptota értéke (az a szint, ahonnan kezdet-
ben nagyon lassan elindul a folyamat);
• p1 + p2 a felső aszimptota, a telítődési szint;
• p4 az inflexiós pont x koordinátája (ahol görbületet vált a görbe, és y
koordinátája félúton van az alsó és felső aszimptota között);
• a görbe p4 pontbeli érintőjének meredeksége: tgα = p2 p3 /4.
A logisztikus függvény illesztését a csibenövekedéses példán mutatjuk be,
de most nemcsak az első 10 nap méréseit, hanem mind a 30 napét felhasznál-
juk. Mivel itt megint korrelált mérésekről van szó, az általánosított nem-
lineáris legkisebb négyzetek módszert használjuk (Pinheiro & Bates
308 Reiczigel – Harnos – Solymosi: Biostatisztika



● ●

● ●

250


● ●
200 ●
Tömeg (g)


● ●

● ● ●
● ●


150 ●





● ● ●

● ● ●


● ●

100 ●
● ●


● ●

● ●
● ●

● ●


● ●


50 ● ●





0 5 10 15 20 25 30

Kor (nap)

9.32. ábra. Csibék tömege az első 30 napon az illesztett logisztikus görbével

2006; Faraway 2016a) (az nlme könyvtár gnls() függvénye, Pinheiro et al.
(2018)).

9.20. példa. Csibék – logisztikus görbe


Egy kísérletben vírussal fertőzött csibék növekedését vizsgálták (Mándoki et al. 2006).
A csibék tömegét 30 napos korukig mérték. 4 csibe mért tömegeit láthatjuk a 9.32.
ábrán.
> with(csibe, plot(tomeg ~ nap, pch = 20, xlab = "Kor (nap)",
+ ylab = "Tömeg (g)"))
Az ábrák és elméleti megfontolások alapján valószínűsíthető a logisztikus növekedési
görbe. Mivel a csibék tömege a kor függvényében egyre nagyobb szóródást mutat,
súlyozott regressziót alkalmazunk, méghozzá úgy, hogy a hiba varianciája a becsült
értékekkel növekedjen (weights = varPower()). Az illesztés:
> library(nlme)
> (logismod = gnls(tomeg ~ p1 + p2/(1 + exp(-p3 * (nap - p4))),
+ start = list(p1 = 0, p2 = 300, p3 = 0.1, p4 = 15), data = csibe,
+ correlation = corAR1(form = ~nap | id), weights = varPower()))

Generalized nonlinear least squares fit


Model: tomeg ~ p1 + p2/(1 + exp(-p3 * (nap - p4)))
Data: csibe2
Log-likelihood: -242.1027

Coefficients:
p1 p2 p3 p4
13.392514 306.922556 0.152877 16.275162
9.11. Nemlineáris kapcsolatok 309

(a) (b)

Quantiles of standard normal


Standardized residuals

2 ● ●
● 2 ●
● ● ●● ●
1 ●●●● ● ●●
● ●● ● ●
●●
● ●● ● ●
●●●
● 1 ●




● ●●●●●
●●
● ● ●●




0 ●●● ●
●●●
● ● ● ●● ● ●● ● ●●●
● ●
●●●


● ● ●● ● ● ● ● 0 ●
●●●
●●
●●●● ● ● ●●
● ●
●●●●
● ●
●● ●
●●
−1 ● ● −1 ●
●●

●● ●●●●● ● ● ●●● ● ●

● ● ●●●
−2 −2 ●
●● ● ●

50 100 150 200 250 −2 −1 0 1 2

Fitted values Standardized residuals

9.33. ábra. A reziduumok véletlenszerűségének ellenőrzése (a) és a reziduumok nor-


malitásának vizsgálata (b)

Correlation Structure: ARMA(1,0)


Formula: ~nap | id
Parameter estimate(s):
Phi1
0.7852114
Variance function:
Structure: Power of variance covariate
Formula: ~fitted(.)
Parameter estimates:
power
1.207737
Degrees of freedom: 88 total; 84 residual
Residual standard error: 0.02222125

Így az összefüggés egyenlete:


306.92
tomeg = 13.39 + .
1 + e−0.15(nap−16.28)
A görbe kirajzolása (9.32. ábra) és a modell ellenőrzése (9.33. ábrák):
> with(csibe, plot(tomeg ~ nap, pch = 20, xlab = "Kor (nap)",
+ ylab = "Tömeg (g)"))
> p1 = coef(logismod)[1]
> p2 = coef(logismod)[2]
> p3 = coef(logismod)[3]
> p4 = coef(logismod)[4]
> curve(p1 + p2/(1 + exp(-p3 * (x - p4))), add = T)
> plot(logismod)
> qqnorm(logismod)
310 Reiczigel – Harnos – Solymosi: Biostatisztika

p2

y
p3
p4

p1

(0,0)
x

9.34. ábra. A koszinusz-függvény

C) Koszinuszgörbe

Szezonálisan változó folyamatok modellezésére általában jól használhatók a


trigonometrikus függvények. A koszinusz-függvény általános alakja:


 
y = p1 + p2 cos (x − p4 ) .
p3

A paraméterek jelentése (9.34. ábra):


• p1 az átlagos szint, ami körül „ingadozik” a folyamat;
• p2 az átlagos szinttől való maximális kitérések átlagos szintje (ampli-
túdó);
• p3 a periódushossz (például két egymást követő csúcs távolsága);
• p4 fáziskésés, az első csúcs x koordinátája.

9.21. példa. Őzek – koszinuszgörbe illesztése


Őzek szőrhosszát vizsgáljuk a kilövés hónapjának (HO) függvényében. Tudjuk, hogy az
őzek szőrhossza változik az évszak függvényében (9.35. ábra).
Az ábrák alapján valószínűsíthető a koszinuszos összefüggés. Mivel tudjuk, hogy a pe-
riódusnak pontosan 12-nek kell lennie, ezért úgy illesztjük a modellt, hogy rögzítjük a
p3 = 12 paramétert.
> (trigmod = nls(SZORH ~ p1 + p2 * cos(2 * pi/12 * (HO - p4)),
+ start = list(p1 = 3.5, p2 = 1, p4 = 3), data = oz))
9.11. Nemlineáris kapcsolatok 311

9.35. ábra. A szőrhossz-hónap szórásdiagram és az illesztett koszinusz-görbe

Nonlinear regression model


model: SZORH ~ p1 + p2 * cos(2 * pi/12 * (HO - p4))
data: oz
p1 p2 p4
3.2980361 0.4458978 2.2285688
residual sum-of-squares: 69.77598

Az illesztett görbe (9.35. ábra):


> with(oz, plot(SZORH ~ HO, pch = 20, ylab = "Szőrhossz (cm)",
+ xlab = "Hónap"))
> p1 = round(coef(trigmod)[1]
> p2 = round(coef(trigmod)[2]
> p4 = round(coef(trigmod)[3]
> curve(p1 + p2 * cos(2 * pi/12 * (x - p4)), add = T)
Az elemzés szerint a koszinuszgörbe egyenlete:

SZORH = 3.3 + 0.45 · cos(6.28/12(HO − 2.23)).

Ez alapján mondhatjuk, hogy az átlagos szőrhossz 3.3 cm, a leghosszabb értékek 3.3 +
0.45 = 3.75 cm, a legrövidebbek 3.3 − 0.45 = 2.85 cm körül szóródnak. A fáziskésés
2.23 hónap, azaz a szőr február elején a leghosszabb a modell szerint.
10. Varianciaelemzés (ANOVA)
Kísérletekben gyakran nemcsak egy kezelt és egy kontrollcsoportot hasonlí-
tunk össze egymással, hanem többet. Például, ha a kísérleti szer két dózisát
alkalmazzuk a placebo-kontroll mellett, akkor már három összehasonlítan-
dó csoportunk van. Vagy ha több tényező hatását vizsgáljuk, például moz-
gásszervi betegség kezelése esetén gyógyszeres kezelést (gyógyszer: kísérleti
és hagyományos) és fizikoterápiát is alkalmazunk (fizikoterápia: igen vagy
nem), akkor már négy csoportot – négy kezeléskombinációt – hasonlíthatunk
össze egymással. További hasonló kérdések:
• Különbözik-e a gyógyulási arány a különböző kezelések (A, B, C)
esetén?
• Befolyásolja-e a műtét típusa (A, B) az átlagos gyógyulási időt, és ha
igen, akkor a betegség súlyosságától (I, II, III) függetlenül ugyanúgy
vagy különbözőképpen?
• Eltérő-e a hízók tömeggyarapodása az etetett táp fajtája (A, B, C,
D) szerint?
• Hatással van-e a talajtípus (T1 , T2 , T3 ), a vetőmag fajtája (V1 , V2 ) és
a művelési mód (M1 , M2 ) a búza terméseredményére?
A varianciaelemzés vagy szóráselemzés (analysis of variance,
ANOVA) az ilyen összehasonlításokra akkor alkalmas, ha a kérdés az, hogy
a vizsgált változó átlagértéke különbözik-e az egyes kezelések, il-
letve kezeléskombinációk esetén.
A módszer alkalmazhatóságának feltétele, hogy a vizsgált változó
minden csoportban normális eloszlású legyen, és minden csoport-
ban ugyanakkora legyen a szórása, az egyes megfigyeléseknek pe-
dig egymástól függetleneknek kell lenniük.
A varianciaelemzés alapkérdését kétféleképpen is feltehetjük:
• Van-e különbség a csoportok között? Ilyen szempontból a varian-
ciaelemzést a kétmintás t-próba több csoportra való általánosításának
tekinthetjük.

313
314 Reiczigel – Harnos – Solymosi: Biostatisztika

• Van-e hatása a vizsgált tényezőnek? Ebből a szempontból a va-


rianciaelemzés a regressziószámítással rokon, a tényezők a „független
változók” vagy „magyarázó változók”, amelyek hatással vannak a cél-
változó (válasz, kimeneti vagy függő változó) (response) átlagértékére,
ami a csoportátlagok közötti különbségeket eredményezi. Látni fog-
juk, hogy ez a nézőpont több tekintetben is (a kérdésfeltevéseket és
a módszer technikáját illetően is) pontosabban tükrözi a helyzetet.
A fő különbség a regressziószámítás és a varianciaelemzés között az,
hogy míg a regressziószámításban a független változók – az X-ek –
folytonosak, ezért értékeik minden megfigyelési egységre különböző-
ek, itt a független változók (tényezők vagy faktorok) értékei egy egész
csoportra azonosak.
A tényező vagy faktor (factor) lehet nem vagy ivar, gyógyszer, takar-
mány, genotípus, élőhely stb.: mindig egy nomimális változó, amely
kategóriákat, csoportokat definiál. Az R-ben a factor éppen ezt a je-
lentést hordozza, ezért a varianciaelemzés tényezőit az R-ben factor-ként
kell megadnunk.
A kísérletekben ugyanazt a kezelést vagy kezeléskombinációt azért cél-
szerű több megfigyelési egységre alkalmazni (ismétlések), hogy
• csökkentsük annak az esélyét, hogy a kísérlet egyes megfigyelési egysé-
gek kiesése (elhullás, sikertelen mérés stb.) miatt értékelhetet-
lenné válik;
• az eredmények a populációra általánosíthatóak legyenek;
• kiderüljön, hogy mekkora a kezelésre adott válasz szóródása a popu-
lációban, illetve hogy
• növekedjék a vizsgálat pontossága.
A klasszikus megoldás az, hogy minden kezeléskombinációt ugyanannyi
megfigyelési egységen alkalmazunk. Ez az úgynevezett kiegyensúlyozott
kísérleti elrendezés (balanced design), ahol tehát minden csoport azo-
nos elemszámú. Ennek vannak előnyei, de a varianciaelemzés elvégezhető-
ségének nem elengedhetetlen feltétele. Érdemes így tervezni a kísérletünket,
de ha nem sikerül, az sem tragédia. Problémát csak az okozhat, ha a minta-
elemszámok nagyon eltérőek, ami inkább csak megfigyeléses vizsgálatokban
(felmérésekben) fordul elő, tervezett kísérletekben nem. Ilyenkor a kiegyen-
súlyozatlanság (unbalance) hatása hasonló, mint a regressziószámításban
a kollinearitásé (lásd 276. oldal): a tényezők hatása nem választható szét,
illetve nem mutatkozik szignifikánsnak.
Még egyszer hangsúlyozzuk, hogy a „különbség” és a „hatás” az átlagok
közötti különbséget vagy az átlagra való hatást (effect) jelenti. Ilyen
értelemben a módszer neve félrevezető: a varianciaelemzés elnevezés nem a
10.1. A számítások 315

módszer céljára, hanem a technikájára utal: a csoportok közötti és a cso-


portokon belüli varianciák összehasonlítása segítségével döntünk az átlagok
egyenlőségéről.
Minthogy ugyanabban a csoportban minden egyed ugyanazt a kezelés-
kombinációt kapja, a csoporton belüli variabilitás reprezentálja a
kezeléstől független biológiai szórást vagy véletlen hibát. Egy cso-
porton belül a variabilitást a csoportátlagtól való eltérés-négyzetösszeggel
(illetve ezek átlagával, a varianciával) mérjük. Ha több csoportunk van, ak-
kor kézenfekvő az egyes csoportokon belüli varianciák átlagát tekinteni a
véletlen hiba variancia becslésének. Ez felel meg a regressziószámítás rezi-
duális varianciájának, és most is – ugyanúgy mint a regressziószámításnál
– magában foglalja az összes nem vizsgált tényező hatását is. Természete-
sen, ha tudomásunk van valamilyen zavaró tényezőről, amely nemkívána-
tos módon megnöveli a variabilitást, akkor megpróbálhatjuk ennek hatását
egy ügyesen választott kísérleti elrendezés segítségével kiküszöbölni: erre a
10.4. fejezetben mutatunk példát. A regressziószámítás „számított értéké-
nek” vagy „becsült értékének” most a csoportátlag felel meg.
A varianciaelemzés alapgondolata: ha a csoportok közötti (between
groups), azaz a kezelések hatásának tulajdonítható variabilitás nagyobb,
mint amekkorát a csoportokon belüli (within groups), azaz kezelésektől
független, véletlen variabilitás ismeretében várnánk, akkor ebből arra
következtethetünk, hogy a tényezőnek van hatása.
Az eljárás során a függő változó variabilitását két részre, a kezelések
hatásának, valamint a véletlennek tulajdonítható részre bontjuk, majd e
két komponenst összehasonlítjuk egy F -próbával. Ha a kezelések hatásának
tulajdonítható rész szignifikánsan nagyobbnak bizonyul, mint a véletlennek
tulajdonítható rész, akkor azt gondoljuk, hogy a vizsgált tényezőnek van
hatása.
Technikailag az átlagtól való eltérés-négyzetösszeget bontjuk részekre, a
négyzetösszegekből pedig úgy kapunk varianciákat, hogy elosztjuk őket a
szabadsági fokukkal. A négyzetösszeg szabadsági foka független ta-
gok esetén a tagok száma, egyébként pedig a tagok száma mínusz
a becsült paraméterek száma.

10.1. A számítások
A módszer kidolgozása Sir Ronald Aymler Fisher (1890–1962) nevéhez fűző-
dik, a számításokat egy egyszerű példán mutatjuk be. A számítások részle-
teinek ismeretére a varianciaelemzés gyakorlati alkalmazásához nincs szük-
316 Reiczigel – Harnos – Solymosi: Biostatisztika

ség, a számítógép mindent kiszámol. (Sőt, azt is be kell vallanunk, hogy


kiegyensúlyozatlan elrendezésre az alábbiakban ismertetett számítások nem
is működnek, szóval ezeket csak afféle „classroom” számolásoknak tekint-
hetjük, amely a dolgok megértését segíti. A Kedves Olvasó, ha nem éppen
a statisztika vizsgájára készül, akár át is ugorhatja ezt a fejezetet.)
Tegyük fel, hogy egy kísérletben egy tápoldatot tesztelünk! A kísérletet
12 növénnyel végezzük (a számítások rövidsége kedvéért!), amelyek közül
sorsolással eldöntjük, hogy melyik kapjon tiszta vizet, és melyiket öntöz-
zük tömény, illetve híg oldattal. A sorsolást végezhetjük úgy, hogy belete-
szünk egy kalapba 12 cédulát, amelyek közül négyen „t” (tömény oldat), né-
gyen „v” (víz), négyen pedig „h” (híg oldat) betű van, és minden növénynél
húzunk egyet. Ennek egy lehetséges R-es megvalósítása a sample() függ-
vénnyel a következő (x a kalap, amibe beletettük a 12 cédulát, és a sample()
függvénnyel húzunk belőle 12-szer visszatevés nélkül, azaz az összes cédulát
kihúzzuk):

> (x = rep(c("t", "v", "h"), c(4, 4, 4)))

[1] "t" "t" "t" "t" "v" "v" "v" "v" "h" "h" "h" "h"

> sample(x, 12)

[1] "t" "h" "v" "h" "h" "v" "v" "t" "h" "v" "t" "t"

Abban reménykedünk, hogy ily módon a nem vizsgált tényezők (növé-


nyek elhelyezése, kondíciója) kiegyensúlyozzák egymást. Természetesen elő-
fordulhat olyan eset, hogy az oldattal öntözött növények erősebbek, vagy
jobb körülmények közé kerülnek, mint a többiek, de a statisztikai elemzés
éppen arra való, hogy ki tudjuk számolni az ilyen esetek valószínűségét.
Tegyük fel, hogy a kísérletet elvégeztük! A növények magasságát a keze-
lési csoportokban a 10.1. táblázat tartalmazza, és a 10.1. ábra szemlélteti.
Az oldatokkal öntözött növények átlagos magassága nagyobb, mint a
tiszta vízzel öntözötteké, de az is rögtön szembetűnik, hogy az egyes nö-
vények között elég nagy különbségek vannak egy csoporton belül is. Most
azt kellene kiszámolnunk, hogy ekkora különbségek a csoportátlagok között
mekkora valószínűséggel adódhatnak csupán a véletlen – tehát a csopor-
tokon belül is jelen lévő – ingadozásból. Több csoport esetén persze már
azon is el kell gondolkodnunk, hogy hogyan mérjük a csoportátlagok közöt-
ti különbségeket. A varianciaelemzés logikája szerint ezt a csoportátlagok
varianciájával mérhetjük: valóban, minél nagyobbak a különbségek az át-
lagok között, annál nagyobb lesz az átlagok varianciája. Az alábbiakban a
10.1. A számítások 317

10.1. táblázat. Növények magassága (cm) a kezelési csoportokban

Kezelés
híg oldat tömény oldat tiszta víz
57 56 54
50 48 46
47 66 60
58 54 48
átlag: 53 56 52
variancia: 28.67 56 40

80

70

Magasság (cm)

60 ●

● ●
● ● ●

50 ●
● ● ●

40

30

híg tömény víz

Kezelés

10.1. ábra. Növények magassága a 3 csoportban. A vízszintes vonal jelzi a főátlagot


(összes értékek átlaga), a teli pontok pedig a csoportátlagokat

példán keresztül bemutatjuk, hogy oldható meg a feladat egy F -próbával,


azaz két variancia összehasonlításával.
Tegyük fel, hogy az oldatok teljesen hatástalanok, azaz mindhárom cso-
portban ugyanaz a növények magasságának eloszlása! Azt mondtuk, hogy
a varianciaelemzés normális eloszlást feltételez, így ha az oldatok hatásta-
lanok, akkor mindegyik növény magassága – függetlenül attól, hogy melyik
csoportban van – normális eloszlású, ugyanazzal a µ átlagértékkel és σ szó-
rással. A σ 2 varianciára két, egymástól független becslést is adhatunk. (Hogy
ezek miért függetlenek egymástól, azt fogadja el a Kedves Olvasó bizonyítás
nélkül!)
318 Reiczigel – Harnos – Solymosi: Biostatisztika

Az egyik becslés a csoporton belüli varianciák átlaga:


56 + 28.67 + 40
σ̂12 = = 41.56.
3
A másik becsléshez abból indulunk ki, hogy k elemű minták átlagának
varianciája σ 2 /k, ha a változó varianciája, amiből az átlagokat számoltuk,
σ 2 . Mivel most négyelemű mintákról van szó, a mintaátlagok varianciája
σ 2 /4, így a σ 2 -et becsülhetjük az átlagok varianciájának négyszeresével.
A mintaátlagok átlaga (56 + 53 + 52)/3 = 53.67, tehát varianciájuk:
((56 − 53.67)2 + (53 − 53.67)2 + (52 − 53.67)2 )/2 = 4.33, ahonnan a becslés
a csoportok közötti varianciára, σ 2 -re:
σ̂22 = 4 · 4.33 = 17.32.
Ha az oldatok hatásosak, azaz a csoportátlagok között nem csupán a vé-
letlen ingadozásnak tulajdonítható különbségek jelennek meg, akkor a min-
taátlagok varianciája nagyobb lesz, ezért az oldatok hatásosságáról dönt-
hetünk úgy, hogy a fenti két varianciabecslést F -próbával összehasonlítjuk.
Ha a mintaátlagok varianciája szignifikánsan nagyobb, akkor azt gondol-
juk, hogy ez a kezelések közötti különbségeket bizonyítja. A jelen példában
egyáltalán nem nagyobb, sőt éppen ellenkezőleg, kisebb. Így további szá-
mítások nélkül is állíthatjuk, hogy az adatok nem bizonyítják az oldatok
hatásosságát. Azért most – csak, hogy bemutassuk a számításokat – mégis
kiszámoljuk az F -értéket, és kinézzük hozzá a táblázatból a kritikus értéket
is. Az F = 17.32/41.56 = 0.417, a szabadsági fokok: (2, 9), az F -eloszlás
táblázatából az 5%-os kritikus érték 4.26, tehát ahogy vártuk, az adatok
nem bizonyítják a kezelések közötti különbséget, azaz az oldatok hatásossá-
gát. Foglaljuk össze az eddig elmondottakat!
Nullhipotézis: A populációátlagok mind egyenlők egymással, azaz
H0 : µ1 = µ2 = . . . = µk .
Ellenhipotézis: Nem mind egyenlők (van legalább kettő különböző).
R-függvények: aov() vagy lm(). A két függvény más eljárással számol,
a közöttük lévő különbségeket lásd a 11.9. fejezetben. Kezdőknek – egysze-
rűbb feladatokhoz – az aov() függvényt ajánljuk, mert könnyebb használni.
Bonyolultabb feladatokhoz már az lm() függvényre lesz szükség.
Statisztika:
σ̂22
F = ,
σ̂12
ahol σ̂12 és σ̂22 a σ 2 becslései a csoporton belüli varianciákból, illetve a cso-
portátlagok varianciájából.
10.1. A számítások 319

Nulleloszlás: F -eloszlás (k − 1) és k(n − 1) szabadsági fokokkal, ahol k


a csoportok száma, n pedig a csoportonkénti elemszám (feltételezve, hogy
minden csoportban ugyanannyi megfigyelés van).
Megjegyzések:
1. Ha k = 2, akkor a varianciaelemzés ekvivalens a kétmintás t-próbával.
2. Az alkalmazhatósági feltételeket az elemzés elvégzése után lehet csak
ellenőrizni. A szükséges ellenőrzések a reziduumok normalitásvizsgálata
QQ-ábra (210. oldal) segítségével, valamint a szórások egyenlőségének
vizsgálata a szórás-becsült érték ábrával (282. oldal), esetleg Bartlett-
próba (206. oldal) vagy Levene-próba (205. oldal) segítségével. A grafi-
kus módszereket azért részesítjük előnyben a próbákkal szemben, mert
a próbák érzékenysége a varianciaelemzésben szokásos mintaelemszámok
mellett igen csekély.
3. Többtényezős kísérlet és/vagy kiegyensúlyozatlan elrendezés esetén a szá-
mítások lényegesen bonyolultabbak, de a döntés végül akkor is egy ha-
sonló tartalmú F -próbán alapul.
A modell ellenőrzését lásd a 10.5. fejezetben.

10.1.1. Varianciatábla (szórásfelbontás)


A varianciatábla (ANOVA-tábla, szórásfelbontás-táblázat) (Analysis of
Variance Table, ANOVA Table) szerkezete és jelentése teljesen azonos a
regressziószámításnál látottal (258. oldal), csak az elnevezések mások egy
kicsit. Szokásos formáját – ahogyan a számítógépes programok közlik, fel-
téve, hogy k csoport van, és mindegyikben n megfigyelés – az alábbi táblá-
zatban láthatjuk:

A variancia Szabadsági Eltérés- Átlagos eltérés- Próba- p-érték


eredete fok négyzetösszeg négyzetösszeg statisztika p
(Source) df SS (Sum Sq) M S (Mean Sq) F (F value) (Pr(>F))
Kezelések
SSK M SK
közötti k−1 SSK M SK = k−1
F = M SH
p
(Between)
Kezelésen
SSH
belüli k(n − 1) SSH M SH = k(n−1)
(Within)

SST
Teljes nk − 1 SST M ST = nk−1
(Total)

A p-értéket a (k − 1, k(n − 1)) szabadsági fokú F -eloszlásból kapjuk. Az


M ST nem más, mint a függő változó becsült varianciája.
320 Reiczigel – Harnos – Solymosi: Biostatisztika

Megjegyzés: A „Kezelésen belüli” eltérés-négyzetösszeget SSH -val jelöl-


jük, mert ez felel meg a regressziószámítás reziduális vagy hiba eltérés-
négyzetösszegének. A tényező hatásának tulajdonítható SSK a regresszió-
számítás regressziós eltérés-négyzetösszegének, az SSR -nek felel meg.

10.1. példa. Növények magassága: első tápoldat – egytényezős ANOVA


Végezzük el R-rel az elemzést! Az elemzéshez az aov() függvényt használjuk. A modell
megadásának formája Y ∼ T , ahol Y a függő változó, T pedig a tényező. Jelen esetben
a modell a magassag~tapoldat formát ölti. Az eredményt célszerű egy objektumba
helyezni (aovmod1), mert így majd további műveleteket (ANOVA-tábla, diagnosztika)
tudunk végezni vele. Az ANOVA-táblát az anova() függvénnyel írathatjuk ki.
> magassag = c(56, 48, 66, 54, 57, 50, 47, 58, 54, 46, 60, 48)
> tapoldat = rep(c("tomeny", "hig", "viz"), rep(4,3))
> (adat = data.frame(magassag, tapoldat))

magassag tapoldat
1 56 tomeny
2 48 tomeny
3 66 tomeny
4 54 tomeny
5 57 hig
6 50 hig
7 47 hig
8 58 hig
9 54 viz
10 46 viz
11 60 viz
12 48 viz

> aovmod1 = aov(magassag ~ tapoldat, data = adat)


> anova(aovmod1)

Analysis of Variance Table

Response: magassag
Df Sum Sq Mean Sq F value Pr(>F)
tapoldat 2 34.67 17.33 0.4171 0.671
Residuals 9 374.00 41.56

Az R varianciatáblájából a „Teljes” sor hiányzik, de a táblázat enélkül is ugyanúgy


használható. A tapoldat sor felel meg a „Kezelések közötti”, a Residuals sor pedig
a „Kezelésen belüli” sornak.
A tápoldat tehát nem bizonyult hatásosnak (p = 0.671). Az is lehet persze, hogy csak
a mintaelemszámok voltak túl kicsik, és emiatt a teszt ereje nem volt elegendően nagy.

Az erőszámítás előtt – vagy helyett – érdemes megnézni (mert csak egy pillantás),
mekkora volt a különbség az átlagok között, mert ha ekkora hatásnagyság szakmai
10.1. A számítások 321

szemmel úgysem elegendő, akkor nem is kell az erőszámítással bíbelődni (ld. 177.
oldal). Példánk esetén az erőszámítás:

> power.anova.test(groups=3, n=4, between.var=17.33, within.var= 41.55)

Balanced one-way analysis of variance power calculation

groups = 3
n = 4
between.var = 17.33
within.var = 41.55
sig.level = 0.05
power = 0.2639036

NOTE: n is number in each group

Az erőszámításhoz meg kell adni a csoportok számát, azt hogy hány ismétlés van cso-
portonként (n), illetve a kezelések közötti valamint a kezelésen belüli varianciát. Ezeket
az ANOVA táblából kaphatjuk meg. Esetünkben az erő nagyon kicsi.
A csoportátlagokat a model.tables() függvénnyel írathatjuk ki a type = "means"
argumentummal. A se = T beállítással a standard hibákat is megkaphatjuk:
> model.tables(aovmod1, type = "means", se = T)

Tables of means
Grand mean

53.66667

tapoldat
tapoldat
hig tomeny viz
53 56 52

Standard errors for differences of means


tapoldat
4.558
replic. 4

A jelen példában a legnagyobb különbséget a tömény oldat és a víz között tapasztaltuk,


ez 4 cm volt. Az eredményközlésben a különbségeket is érdemes megadni, például így: „A
varianciaelemzés eredménye szerint a tápoldat nem bizonyult hatásosnak (p = 0.671). A
híg oldattal kezelt növények magassága átlagosan 1 cm-rel, a tömény oldattal kezelteké
pedig 4 cm-rel volt nagyobb, mint a tiszta vízzel öntözötteké.”
322 Reiczigel – Harnos – Solymosi: Biostatisztika

10.2. Csoportok páronkénti összehasonlítása


Ha a varianciaelemzés szignifikáns különbségeket mutat ki a keze-
lések között, azaz a H0 : µ1 = µ2 = . . . = µk nullhipotézist elvetjük, akkor
kíváncsiak lehetünk arra, hogy mely kezelések között van különbség (mivel
a nullhipotézis elvetéséből nem következik, hogy mind különböznek egy-
mástól!) Erre szolgál a csoportok páronkénti összehasonlítása, azaz a
post hoc-tesztek (post hoc tests). Megjegyezzük, hogy vannak olyan mód-
szerek is, amelyeket nemcsak egy szignifikáns ANOVA után, hanem anélkül
(illetve helyette) is használhatunk.
Hogyan lehet eldönteni, hogy melyik csoportok különböznek egymástól?
Sok módszer van, különféle előnyökkel és hátrányokkal, ezek közül csak
néhányat említünk.
• Kiszámítjuk a mintaátlagok konfidencia-intervallumait, és amelyek
nem fednek át, azokat tekintjük különbözőknek (ez csak durva közelítés).
• Kiszámítjuk az ún. legkisebb szignifikáns differenciát (least signi-
ficant differences, LSD), és azokat a mintákat tekintjük különbözőknek,
amelyek átlagai között a különbség ezt eléri vagy meghaladja (ezzel sok
szignifikáns különbséget találhatunk, sajnos indokolatlanul is). Régen elő-
szeretettel használták ezt a módszert, mert számítógép nélkül is könnyű volt
kiszámolni.
• A Tukey-próba (korrekt, viszont nem nagyon érzékeny – könnyen el-
szalaszt valódi különbségeket is).
• És még számtalan teszt . . . (Tamhane, Gabriel stb. lásd például Zar
(1999)).
Ezek a tesztek minden csoportot mindegyikkel összehasonlítanak, azaz
k csoport esetén k(k−1)
2 összehasonlítást végeznek. Mint a 6.3.1. fejezetben
láttuk, minél több összehasonlítást végzünk, annál jobban megemelkedik
az elsőfajú hiba valószínűsége – az α –, vagy ha ezt korrigáljuk, akkor an-
nál érzéketlenebb lesz a próba (veszít az erejéből, megnő a β-ja). Tehát
a legjobban akkor járunk, ha csak annyi összehasonlítást végzünk,
amennyi tényleg érdekel, lehetőleg eggyel sem többet. Ezt azért hang-
súlyozzuk, mert tapasztalataink szerint sokan csak azért végzik ezeket a
„mindent mindennel összehasonlító” post hoc-teszteket, mert nem ismer-
nek más módszert.
Egy post hoc-tesztre, a Dunnett-próbára külön is szeretnénk felhívni
a figyelmet. Ha több kezelt csoportunk van (dózisok, kezelésvariánsok, egy
kezelés többféle kiegészítő kezeléssel), akkor az elsődleges kérdés az, hogy a
kontrollhoz képest van-e valamelyiknek – és ha van, melyiknek –
szignifikáns hatása. Ha a kontroll mellett k kezelésünk van, akkor ez csak
10.2. Csoportok páronkénti összehasonlítása 323

k összehasonlítást jelent. Ha mind a k + 1 csoportot mindegyikkel összeha-


sonlítanánk, az k · (k + 1)/2 összehasonlítást jelentene, ami k = 3 kezelésre
6 összehasonlítás, szemben a valóban szükséges hárommal. Képzelhetjük,
hogy kétszer annyi összehasonlításra korrigálva mennyire leromlik az érzé-
kenység, szinte reménytelenné válik az esetlegesen valóban létező különbsé-
gek kimutatása is. Ilyen esetekben – ha egy kiválasztott kezeléshez akarjuk
hasonlítani az összes többit – használjuk a Dunnett-tesztet, amely az erre
alkalmas korrekcióval dolgozik, így érzékenyebb, mint a mindent mindennel
összehasonlító módszerek (ld. 6.3.1. fejezet).

10.2. példa. Növények magassága: új tápoldat – Post hoc-tesztek


Az előző kísérlet után, mivel a tapasztalt különbség nagyságát sem találták elegendő-
nek, javítottak a tápoldat összetételén, majd a kísérletet megismételték a módosított
tápoldattal. Így a következő eredményeket kapták:
> magassag = c(60, 58, 65, 64, 57, 55, 57, 58, 54, 46, 50, 48)
> tapoldat = rep(c("tomeny", "hig", "viz"), rep(4, 3))
> (adat = data.frame(magassag, tapoldat))

magassag tapoldat
1 60 tomeny
2 58 tomeny
3 65 tomeny
4 64 tomeny
5 57 hig
6 55 hig
7 57 hig
8 58 hig
9 54 viz
10 46 viz
11 50 viz
12 48 viz

> aovmod2 = aov(magassag ~ tapoldat, data = adat)


> anova(aovmod2)

Analysis of Variance Table

Response: magassag
Df Sum Sq Mean Sq F value Pr(>F)
tapoldat 2 303.500 151.750 18.838 0.000607 ***
Residuals 9 72.500 8.056

Az új tápoldat – a varianciaelemzés eredménye szerint – már hatásos (p = 0.0006).


324 Reiczigel – Harnos – Solymosi: Biostatisztika

A csoportok páronkénti összehasonlítását a TukeyHSD() függvénnyel végezzük. A


Tukey-próba eredménye:
> TukeyHSD(aovmod2)

Tukey multiple comparisons of means


95% family-wise confidence level

Fit: aov(formula = magassag ~ tapoldat, data = adat)

$tapoldat
diff lwr upr p adj
tomeny-hig 5.00 -0.6033666 10.603367 0.0797865
viz-hig -7.25 -12.8533666 -1.646633 0.0140547
viz-tomeny -12.25 -17.8533666 -6.646633 0.0004682

Az R közli a csoportátlagok közötti becsült különbségeket (diff), konfidencia-


intervallumot ad a populációátlagok közötti különbségekre (lwr, upr), valamint közli
a p-értékeket (H0 : a kiválasztott két csoport átlaga között nincs különbség). Ha nem
95%-os konfidencia-intervallumot szeretnénk számoltatni, akkor itt is a conf.level
argumentumot kell beállítanunk.
Példánkban kiderül, hogy a tömény és a híg oldat között a különbség nem szignifikáns
(p = 0.0798), de mindkét oldat hatása szignifikáns a tiszta vízéhez képest (p = 0.0141
és p = 0.0005).
Ha a különbségeket, illetve a konfidencia-intervallumokat is közölni szeretnénk, akkor
a legegyszerűbb és legtömörebb, ha az R-output táblázatos formáját követjük. (Álta-
lában is válasszuk a táblázatos formát vagy a grafikont, ha olyan sok számot akarunk
közölni, ami már olvashatatlanná tenné a szöveget! Egyes folyóiratok azonban a táblá-
zatos közlést nem engedik meg. Mindig olvassuk el alaposan a formai követelményeket,
és nézzük meg a kiszemelt folyóiratban már megjelent cikkekben, hogy milyen módon
közlik a sajátunkhoz formailag hasonló eredményeket!)

Ha csak bizonyos csoportpárokat akarunk összehasonlítani egymással,


vagy ha nem is csoportpárokat, hanem összevont csoportokat, akkor a kont-
rasztok használatát ajánljuk. Például, ha négy csoportunk van: egy kontroll
(A), egy kezelés kiegészítő kezelés nélkül (B), és kétféle kiegészítő kezeléssel
(C és D), és okunk van feltételezni, hogy a kiegészítő kezelések kifejezetten
nem rontanak a kezelés hatásán, akkor elegendő a következő összehasonlí-
tásokat elvégezni:
A vs. (B, C, D együtt); B vs. (C, D együtt); C vs. D.
Három összehasonlítással érzékenyebb teszthez jutunk, mint a „mindent
mindennel” hat összehasonlításával, de itt már nem csoport-párokat kell
összehasonlítanunk, ezért ezt már csak kontrasztok segítségével végezhetjük
el (lásd 10.6. és 11.10. fejezetek).
10.3. Többtényezős varianciaelemzés 325

10.3. Többtényezős varianciaelemzés


A legtöbb kísérletben nemcsak egy, hanem több tényezőt vizsgálunk. Az
ilyen kísérletek kiértékelésére használjuk a többtényezős (többszempon-
tos) (multifactor, multiway) varianciaelemzést. A fejezet bevezető pél-
dái közül (313. oldal) a „műtét típusa és a betegség súlyossága” kétténye-
zős, a „talajtípus, vetőmag fajtája és művelési mód” háromtényezős. Re-
méljük, a Kedves Olvasó kitalálta, hogy amikor csak egy tényezőnk van,
az az egytényezős vagy egyszempontos varianciaelemzés (one-factor, one-
way ANOVA). Figyelem, ne keverjük össze a tényezők számát és a csopor-
tok számát! (Minden egyes tényező több csoportot definiál.) Az egyszerű-
ség kedvéért legyen most csak két tényezőnk: az elsőnek legyen k1 szintje
(= kezelés, csoport), a másodiknak pedig k2 .
A kezeléskombinációk száma ekkor k1 · k2 . Tegyük fel, hogy r ismétléssel
dolgozunk, azaz minden kezeléskombinációt r megfigyelési egységen alkal-
mazunk, így a kísérlethez összesen k1 ·k2 ·r megfigyelési egységre van szükség!
Feltétel itt is, hogy a célváltozó minden kezeléskombináció esetén normális
eloszlású, a szórások minden kezeléskombinációra azonosak, a megfigyelések
pedig egymástól függetlenek legyenek.
Többtényezős esetben többféle nullhipotézist fogalmazhatunk meg, il-
letve tesztelhetünk – ugyanúgy, mint az egytényezős esetben –, az eltérés-
négyzetösszeg ügyes felbontása után F -próbával.
Nullhipotézisek:
(1)
• H0 : az 1. tényező nincs hatással a függő változó átlagára, az 1. tényező
szerinti k1 csoportban a populációátlagok mind megegyeznek:
(1) (1) (1) (1)
H0 : µ1 = µ2 = . . . = µk 1 ;
(2)
• H0 : a 2. tényező nincs hatással a függő változó átlagára, a 2. tényező
szerinti k2 csoportban a populációátlagok mind egyenlők:
(2) (2) (2) (2)
H0 : µ1 = µ2 = . . . = µk 2 ;
(1×2)
• H0 : az 1. és a 2. tényező hatása additív, együttes hatásuk a külön-
külön vett hatások egyszerű összege, nincs közöttük kölcsönhatás,
interakció (interaction). Ennek a nullhipotézisnek az elvetése azt je-
lenti, hogy a két hatás nem additív, van közöttük interakció.
Két tényező közötti interakcióra úgy is gondolhatunk, hogy
• az interakció hiánya azt jelenti, hogy az 1. tényező szerinti kezelések
hatása a 2. tényező szerinti minden kezelési csoportban azonos;
326 Reiczigel – Harnos – Solymosi: Biostatisztika

• az interakció jelenléte azt jelenti, hogy az 1. tényező szerinti kezelések


hatása a 2. tényező szerinti kezelési csoportokban különböző.
Ez az előzővel – az additivitással való megfogalmazással – ekvivalens.
Használjuk mindig azt a megfogalmazást, amelyik a vizsgált probléma ese-
tén érzékletesebben írja le a helyzetet.
Több tényező esetén magasabb rendű interakciók (értsd három vagy több
tényező közötti) is előfordulhatnak és tesztelhetők. Ezekkel azonban az a
probléma, hogy általában nehezen interpretálhatóak: ha azt találjuk, hogy
egy harmad- vagy negyedrendű interakció szignifikáns, nehezen tudjuk meg-
mondani, hogy ez mit is jelent valójában.

10.3. példa. Növények magassága – kéttényezős ANOVA


A tápoldatos kísérletet megismételték úgy is, hogy a szóban forgó növény két fajtáját
kezelték az oldatokkal. (Figyelem, az nem lett volna helyénvaló, ha az előző kísérlet
adatait csak „kiegészítették” volna a másik fajta adataival, mert ha az egyik növényfaj-
tával mondjuk márciusban, a másikkal pedig júniusban végezték volna a kísérletet, akkor
a fajták közötti különbség nem lenne szétválasztható az évszak – eltérő hőmérséklet,
fénymennyiség stb. – hatásától!)
fajta tapoldat magassag
1 1 tomeny 60
2 1 tomeny 58
3 1 tomeny 65
4 1 tomeny 64
5 1 hig 57
6 1 hig 55
7 1 hig 57
8 1 hig 58
9 1 viz 54
10 1 viz 46
11 1 viz 50
12 1 viz 48
13 2 tomeny 62
14 2 tomeny 57
15 2 tomeny 60
16 2 tomeny 61
17 2 hig 55
18 2 hig 54
19 2 hig 52
20 2 hig 60
21 2 viz 45
22 2 viz 44
23 2 viz 42
24 2 viz 48
Ha a modellben a két tényező hatása mellett azt is szeretnénk megvizsgálni, hogy van-e
közöttük interakció, akkor a modell leírására az Y ∼ T1 ∗ T2 formát kell használnunk,
10.3. Többtényezős varianciaelemzés 327

ahol Y a célváltozó, T1 és T2 pedig a vizsgált tényezők. Ha az interakciót nem akarjuk


tesztelni, akkor ehelyett azt kell írnunk, hogy Y ∼ T1 + T2 . Most az interakcióra is
kíváncsiak vagyunk, ezért az előbbit választjuk: magassag ~ tapoldat * fajta.
> aovmod3 = aov(magassag ~ tapoldat * fajta, data = adat)
> anova(aovmod3)

Analysis of Variance Table

Response: magassag
Df Sum Sq Mean Sq F value Pr(>F)
tapoldat 2 777.58 388.79 49.9875 4.481e-08
fajta 1 42.67 42.67 5.4857 0.03087
tapoldat:fajta 2 13.08 6.54 0.8411 0.44751
Residuals 18 140.00 7.78

Az outputból kiderül, hogy az interakció nem szignifikáns. Ilyen esetben az elemzést


célszerű interakció nélkül is elvégezni:
> aovmod4 = aov(magassag ~ tapoldat + fajta, data = adat)
> anova(aovmod4)

Analysis of Variance Table

Response: magassag
Df Sum Sq Mean Sq F value Pr(>F)
tapoldat 2 777.58 388.79 50.7948 1.45e-08
fajta 1 42.67 42.67 5.5743 0.02849
Residuals 20 153.08 7.65

A csoportok páronkénti összehasonlítását most is a TukeyHSD() függvénnyel végezzük.


Ha csak az egyik faktorra szeretnénk elvégezni a teszteket, akkor a which argumentumot
kell beállítanunk. Esetünkben csak a tápoldatot érdemes tesztelni, hiszen fajtából csak
kettő volt, és az már az ANOVÁ-ból kiderült, hogy különböznek, az interakció pedig
nem bizonyult szignifikánsnak.
> TukeyHSD(aovmod4, which = "tapoldat")

Tukey multiple comparisons of means


95% family-wise confidence level

Fit: aov(formula = magassag ~ tapoldat + fajta, data = adat)

$tapoldat
diff lwr upr p adj
tomeny-hig 4.875 1.375255 8.374745 0.0057782
viz-hig -8.875 -12.374745 -5.375255 0.0000085
viz-tomeny -13.750 -17.249745 -10.250255 0.0000000

Eredményközlés: kéttényezős varianciaelemzést végeztünk, amelyben a tényezők a nö-


vény fajtája (1, 2) és a tápoldat (tömény, híg, tiszta víz) voltak. Vizsgáltuk a ténye-
zők közötti interakciót is. Kezeléskombinációnként 4-4 ismétléssel dolgoztunk. Az R
328 Reiczigel – Harnos – Solymosi: Biostatisztika

Magasság átlagok (cm) (a) (b)

Magasság átlagok (cm)


fajta 60 fajta
60
1 1
2 55 2
55

50 50

45 45

híg tömény víz híg tömény víz

Kezelés Kezelés

10.2. ábra. Interakciós ábra két tényező (tápoldat és fajta) együttes hatásáról a cél-
változóra (magasság). Ha nincs interakció, a vonalak közel párhuzamosan futnak, az
egyes fajtákra a kezelések hatása közötti különbség közel azonos (a), ha pedig van,
akkor a kezelések hatása közötti különbség az egyes fajtákra más és más (b). A vélet-
len ingadozás a párhuzamosságot befolyásolhatja, ha az ábra ellentmondani látszik az
interakcióhoz tartozó p-értéknek, inkább a p-értéknek higgyünk!

aov() függvényével végeztük az elemzéseket. Mindkét faktor hatása szignifikánsnak bi-


zonyult (tápoldat: p < 0.0001, fajta: p = 0.0309). Az interakció nem volt szignifikáns
(p = 0.4475). A csoportok páronkénti összehasonlítását a Tukey-teszttel végeztük, a
különbség mindhárom párra szignifikáns volt (p<0.007).

Az interakciót grafikusan az ún. interakciós ábrával szemléltethetjük.


(10.2. ábra).
Megjegyzés: a többtényezős ANOVA elvégezhető úgy is, ha minden keze-
léskombinációban csak egy megfigyelés van, ekkor azonban a legmagasabb
rendű interakció nem tesztelhető.
Variancia-kovariancia-elemzésről (ANCOVA) akkor beszélünk,
ha a tényezők mellett folytonos magyarázó változókat (ún. ko-
variánsok) is figyelembe veszünk, amelyek hatását a célváltozóra
lineáris regresszióval fejezzük ki (például a gyógyulási idő hogyan függ
a műtét típusától, a beteg nemétől és életkorától, itt az életkort tekint-
hetjük folytonosnak). Az ANCOVA modelleket részletesen a 11. fejezetben
tárgyaljuk.
Ha azt gyanítjuk, hogy a kovariánstól való függés nem lineáris, akkor
jobb, ha értékeit csoportosítjuk (lehetőleg szakmailag interpretálható mó-
don!), majd ANOVÁ-t alkalmazunk.
10.4. Kísérleti elrendezések 329

10.4. Kísérleti elrendezések


Ebben a fejezetben a véletlen blokkos és a latinnégyzet-elrendezést ismer-
tetjük röviden. Arra is kitérünk, hogy a bemutatott kísérleti elrendezések
esetén az adatok elemzésekor hogyan kell ANOVA modellünket paraméte-
rezni.
Célunk mindössze annyi, hogy érzékeltessük a kísérleti elrendezések egy-
egy tipikus „trükkjét”, amelyek bizonyos zavaró változók hatásának kikü-
szöbölésére irányulnak, valamint azt, hogy hogyan befolyásolja a kísérleti
elrendezés az adatelemzést.

10.4.1. Véletlen blokkos elrendezés (randomized blocks design)


Az általunk nem ismert, potenciális zavaró tényezők hatását randomizáció-
val, a kezelések véletlen kiosztásával (allokálásával) lehet legjobban kiküszö-
bölni. Ez azt jelenti, hogy a kezeléseket a kísérleti alanyokhoz véletlenszerű-
en rendeljük hozzá, kisorsoljuk – akár kalapból húzva, akár számítógéppel,
véletlenszám-generátorral.
Ha azonban már van egy „gyanúsítottunk”, vagyis ha úgy gondoljuk,
hogy egy bizonyos tényező nemkívánatos hatást gyakorol a célváltozó ér-
tékére, akkor ennek hatását célszerűbb úgy kiküszöbölni, hogy e tényező
szerint rétegzünk, és minden rétegben mindegyik kezelésből ugyanannyit
allokálunk, csupán az egyes rétegeken belül randomizálunk. Így az egyes ke-
zelésekhez tartozó átlagokat a zavaró tényező közel azonos mértékben fogja
befolyásolni, sőt, hatását az elemzés során külön tudjuk választani a vizsgált
kezelés hatásától, illetve a véletlen hibától is.
Ezt az elrendezést véletlen blokkos elrendezésnek nevezik (a rétegek
a blokkok), a rétegzés nélkülit pedig teljes véletlen elrendezésnek
(completely randomized design).

10.4. példa. Blokkos elrendezés


Tegyük fel, hogy egy kísérletben 3 kezelést hasonlítunk össze, és úgy számoltuk, hogy a
szükséges mintaelemszám kezelésenként legalább öt, azaz összesen 15 egyed. Technikai
okok miatt az összes mérést egy nap alatt kell elvégezni. Az irodalomból tudjuk, hogy
a célváltozó értéke napszak szerint változik, de az eljárás időigényes, így a mérések
reggeltől estig fognak tartani.
Ekkor érdemes napszak szerint öt blokkot képezni (reggeli, délelőtti, déli, délutáni, esti
blokk) úgy, hogy minden blokkba mindhárom kezelésből 1-1 kerüljön, a kezeléseket a
blokkokon belül randomizálva.
330 Reiczigel – Harnos – Solymosi: Biostatisztika

Teljes véletlen elrendezés (teljes randomizálás)


K1 K2 K1 K2 K1 K3 K1 K2 K2 K3 K1 K3 K3 K3 K2
reggel este
ha nincs tudomásunk inhomogenitásról

Véletlen blokkos elrendezés (blokkon belüli randomizálás)


K1 K2 K3K2 K3 K1K1 K3 K2K3 K2 K1K2 K1 K3
reggel este
ha tudomásunk van inhomogenitásról

A kiértékeléshez használt statisztikai programot úgy kell paraméterezni


mintha kéttényezős elrendezést használtunk volna, és az adatokat is ennek
megfelelően kell bevinni (lásd az alábbi táblázatot).

kezelés blokk mérés


1 1 25.4
2 1 20.1
3 1 19.6
2 2 21.3
3 2 18.5
1 2 22.7
1 3 21.8
.. .. ..
. . .

Az elemzésben a kezelés hatása és a blokkhatás közötti interakciót ki-


zárjuk, és a blokkhatás szignifikanciáját nem vizsgáljuk. A teljes eltérés-
négyzetösszeg felbontása az alábbi tagokat tartalmazza (a a kezelések szá-
ma, b a blokkoké, és az egyszerűség kedvéért feltételezzük, hogy minden
blokkban minden kezelésből egy ismétlés van):

Négyzetösszeg Szabadsági fok


Teljes ab − 1
Kezelés hatása a−1
Blokkhatás b−1
Reziduális (a − 1)(b − 1)

Az elrendezés garantálja, hogy a kezelés hatása és a blokkhatás szétvá-


lasztható, az pedig, hogy a szórásfelbontásban a blokkhatásnak tulajdonít-
ható szórás el van különítve a véletlen hibától, érzékenyebb tesztet eredmé-
nyez. Igaz viszont, hogy a kezelés×blokk interakció, amennyiben van ilyen,
10.4. Kísérleti elrendezések 331

nem választható szét a véletlen hibától, de nem szabad telhetetlennek lenni.


(A mintaelemszám növelése árán – ha minden blokkban minden kezelésből
legalább kettő lenne – ez is lehetővé válna.)
Megjegyzés: Véletlen blokkos elrendezést többtényezős kísérletben is al-
kalmazhatunk. Ekkor a kiértékelésben a blokk mint egy további tényező
jelenik meg, de szignifikanciáját és interakcióját a többi tényezővel – ugyan-
úgy, mint az eddigiekben – nem vizsgáljuk.

10.4.2. Latinnégyzet-elrendezés (Latin square design)


Ha nem egy, hanem két zavaró tényező hatását szeretnénk kiküszö-
bölni, akkor latinnégyzet-elrendezést alkalmazhatunk. Az alapötlet
az, hogy képezzünk mindkét zavaró változó szerint blokkokat úgy, hogy
minden blokkban minden kezelésből ugyanannyi legyen.
A latinnégyzet-elrendezés alkalmazhatóságához teljesülnie kell az
alábbi feltételnek: mindkét zavaró változó szerint ugyanannyi blok-
kot kell képeznünk, ahány kezelést vizsgálunk. Az elrendezéshez szük-
séges megfigyelési egységek száma a kezelések száma a négyzeten. (Ha ez túl
kicsi mintaelemszámot eredményezne, akkor dolgozhatunk több latin négy-
zetettel is.)

10.5. példa. Latinnégyzet-elrendezés


Ha az előző példában a napszak szerinti változás mellett a mért értékek függnek a kísér-
leti alany testtömegétől is, akkor testtömeg szerint is blokkokat kell képeznünk. Mivel
3 kezelést kell összehasonlítani, mindkét szempont szerint 3 blokkot kell képeznünk, és
összesen 32 = 9 egyeddel dolgozhatunk. Mivel ez kevesebb, mint a megkívánt
pontossághoz szükséges 15, ezért két négyzettel, azaz 18 egyeddel végezzük a vizsgálatot
(most csak az egyiket szerkesztjük meg, a másik is ugyanígy készíthető el).
Osszuk először is a 9 kísérleti alanyt 3 testtömeg szerinti csoportba (S1, S2, S3), majd
mindhárom napszak szerinti blokkba (reggel, délelőtt, délután) sorsoljunk ki minden
testtömeg szerinti csoportból egy-egy alanyt! Ezzel az egyedeket belesorsoltuk egy 3×3-
as táblázat celláiba. Végül minden cellához kisorsolunk egy kezelést is (K1, K2, K3) úgy,
hogy minden sorban és minden oszlopban minden kezelésből pontosan egy legyen. (Egy
ilyen sorsolást elég nehéz lenne elvégezni, ezért inkább úgy szokták csinálni, hogy a
táblázatot kitöltik szabályosan, például az alábbi módon, majd a sorok és oszlopok vé-
letlenszerű cserélgetésével teszik véletlenszerűvé. A sor- és oszlopcserék ugyanis azt a
tulajdonságot, hogy minden sorban és minden oszlopban minden kezelésből pontosan
egy legyen, nem befolyásolják.)
tömeg
S1 S2 S3
reggel K1 K3 K2
napszak délelőtt K2 K1 K3
délután K3 K2 K1
332 Reiczigel – Harnos – Solymosi: Biostatisztika

Látható, hogy a latinnégyzet-elrendezés könnyen kivitelezhető, ha a za-


varó változók folytonosak, mert ekkor egyszerűen létrehozhatunk belőlük a
kezelések számával éppen megegyező számú kategóriát. Ha valamelyik zava-
ró tényező diszkrét, és kategóriáinak száma különbözik a kezelések számától,
akkor más, bonyolultabb elrendezés után kell néznünk.
Az adatbevitel és a statisztikai program paraméterezése olyan, mintha
háromtényezős elrendezést használtunk volna (lásd az alábbi táblázatot).
Itt is – mint a véletlen blokkos elrendezésnél – kizárjuk az interakciókat, és
nem vizsgáljuk a sor-, illetve oszlophatás szignifikanciáját.

napszak tömeg kezelés mérés


1 1 1 25.0
1 2 3 20.1
1 3 2 19.6
2 1 2 21.3
2 2 1 22.5
2 3 3 22.7
3 1 3 21.8
3 2 2 18.9
3 3 1 21.8
.. .. .. ..
. . . .

Latinnégyzet-elrendezés esetén a teljes eltérés-négyzetösszeg felbontásá-


ban az alábbi tagok jelennek meg (a a kezelések száma, és ugyanennyi a
sorok és az oszlopok száma is – ha több négyzettel dolgozunk, ez eltérő lesz):

Négyzetösszeg Szabadsági fok


Teljes a2 − 1
Kezelés hatása a−1
Sorhatás a−1
Oszlophatás a−1
Reziduális (a − 2)(a − 1)

10.5. Az ANOVA diagnosztikája


A feltételek ellenőrzését legegyszerűbben – ugyanúgy, mint a regressziószá-
mításnál – a plot() függvény modellre történő alkalmazásával végezhetjük
el (lásd a 292. oldalon). A 10.3. példabeli modellünk esetén a diagnosztikus
ábrák (10.3. ábra):
10.6. Kontrasztok 333

(a) (b)

Standardized residuals
● 9 ● 20 2 9 ● 20 ●
4
● ● ● ●
Residuals

2 ●

1 ●


● ●
● ●
● ●
0 ●

0 ●

●● ●


● ●

● ● ●
−2 ●●




● −1 ●

−4 2● ●

● 2

45 50 55 60 −2 −1 0 1 2

Fitted values Theoretical Quantiles

10.3. ábra. Az ANOVA-modell diagnosztikus ábrái: reziduum-becsült érték ábra (a),


QQ-ábra a hibatag normalitásának vizsgálatára (b), szórás-becsült érték ábra a hibatag
szórásának vizsgálatára

> par(mfrow = c(1, 2))


> plot(aovmod3,1,pch=20)
> plot(aovmod3,2,pch=20)
> par(mfrow = c(1, 1))

Az (a) a reziduum-becsült érték ábra, ANOVA esetén a szórások egye-


zőségét lehet rajta vizsgálni. A (b) ábra a reziduumok normalitásvizsgálata
QQ-ábrával. Modellünk esetén nem látható probléma.

10.6. Kontrasztok
A varianciaelemzés szokásos, legegyszerűbb alapeseténél (főhatások és in-
terakciók tesztelése) finomabb elemzésre nyújt lehetőséget a kontrasztok
(contrasts) alkalmazása. Ezek segítségével vizsgálhatunk olyan összefüggé-
seket a paraméterek között, amelyek sem az ANOVÁ-ból, sem a páronkénti
összehasonlításokból nem jönnek ki automatikusan. Például:
• egytényezős 4 csoportos ANOVÁ-ban tesztelhetjük, hogy az 1. és 2.
csoportok átlaga (a két csoportot egyesítve) megegyezik-e a 3. és 4.
csoportok átlagával (szintén a két csoportot egyesítve);
• háromcsoportos vizsgálatban tesztelhetjük, hogy a középső (2.) cso-
port átlaga egyenlő-e a másik kettő számtani közepével.
334 Reiczigel – Harnos – Solymosi: Biostatisztika

A varianciaelemzés klasszikus elméletében a kontrasztok az átlagok-


ból képzett lineáris kombinációk, azaz egy C kontraszt
X
C= ci µi
i

alakban írható, ahol a ci -k a kontraszt együtthatói, a µi -k pedig az egyes


csoportok populációs átlagai. Azt is meg szokás követelni, hogy az együtt-
hatók összege 0 legyen.
A kontraszt értéke tehát egy szám, mondhatjuk, hogy egy populációs jel-
lemző. Akkor hasznos ez a megközelítés, ha sikerül a feladat szempontjából
értelmes jelentéssel bíró kontrasztokat találni. A fenti első példához a C1
kontrasztot használhatjuk:

C1 = µ1 + µ2 − µ3 − µ4 .

A kontraszt együtthatói c1 = 1, c2 = 1, c3 = −1, c4 = −1. A példában


megfogalmazott hipotézis a kontraszt segítségével H0 : C1 = 0-ként írható.
A második példához a C2 kontraszt illik:

C2 = µ1 − 2µ2 + µ3 .

A kontraszt együtthatói: c1 = 1, c2 = −2, c3 = 1. A példa hipotézi-


sét H0 : C2 = 0-ként írhatjuk, amelyből egyszerű algebrai átalakítással a
µ2 = (µ1 + µ3 )/2 adódik.
Egy kontrasztra becslést is lehet adni a mintából, mégpedig olyan egysze-
rűen, hogy a µ-ket a megfelelő mintaátlagokkal becsüljük (plug-in becslés):
X
Ĉ = ci x̄i .
i

A becslés torzítatlan – azaz Ĉ várható értéke C – és normális eloszlá-


sú, szórása pedig a mintaelemszámoktól, az együtthatóktól és a véletlen
hiba szórásától függ. A Ĉ standard hibáját is megbecsülve, a C kontrasztra
vonatkozó hipotéziseket t-próbákkal tesztelhetjük.
Két kontrasztot ortogonálisnak (orthogonal contrasts) nevezünk,
ha az együtthatóik szorzatösszege 0, azaz
X (1) (2)
ci ci = 0.
i

Az ortogonalitás azért fontos tulajdonság, mert bizonyítható, hogy or-


togonális kontrasztok ugyanabból a mintából egymástól függetlenül tesztel-
hetők, azaz az egyik teszt eredménye nem befolyásolja a másikét. Az ehhez
10.6. Kontrasztok 335

szükséges feltételek: csoportonként normális eloszlás, azonos szórások, füg-


getlen megfigyelések, csoportonként azonos mintaelemszámok.
Ha kontrasztokkal dolgozunk, felmerül az a kérdés, hogy vajon több kont-
raszt tesztelése többszörös tesztelésnek számít-e, tehát szükség van-e kor-
rekcióra? A helyzet nem teljesen egyértelmű. Előre tervezett (értsd: ame-
lyeket még az adatok szemrevételezése előtt terveztünk be, tehát amelyeket
nem az adatok sugalltak) kontrasztoknál nem szokás korrekciót követelni,
különösen, ha azok ortogonálisak. Olyan kontrasztok esetén, amelyek nem
szerepelnek a kísérleti protokollban, tehát vizsgálatukat minden bizonnyal
az adatok sugallták, vagy ha a kontrasztok túl sokan vannak, akkor igen.
Kontrasztok alkalmazására a 11.10. fejezetben mutatunk példát.
11. Az általános lineáris modell
Ebben a fejezetben olyan regressziós típusú (lineáris) modelleket tárgya-
lunk, amelyekben nemcsak folytonos, hanem nominális magyarázó változók
(faktorok) is lehetnek (Faraway 2016b). A modellekkel kapcsolatos tudni-
valókat az alábbi példán keresztül mutatjuk be.

11.1. A fejezet példája


11.1.1. A kísérlet rövid leírása
A modellezés folyamatát és a lineáris modellekkel kapcsolatos tudnivalók
többségét a következőkben ismertetett kísérletből származó adatokkal szem-
léltetjük.
Egy kísérletben farkasalmalepkék (Zerynthia polyxena) hernyóinak fej-
lődését vizsgálták. (Kis J., Kassai F., Peregovits L., nem közölt adatok. A
kísérlet leírását Kis János készítette el.)
A hernyók közönséges farkasalma (Aristolochia clematitis) leveleivel táp-
lálkoznak. A hernyók a tápnövényben lévő aristolochiasavat felhalmozzák
testükben, ami mérgezővé teszi őket. Feltételezések szerint e tulajdonságu-
kat a hernyók és az imágók narancs és vörös színükkel „közlik” a ragado-
zókkal. A hernyók fejlődésének vizsgálata egy folyamatban lévő összetett
kutatómunka – amelynek más vonatkozásaira itt most nem térünk ki – ki-
csi részlete. A hernyók vizsgálata során a kutatók a következő kérdésekre
keresik a választ:
• A változó testhőmérsékletű hernyók fejlődését hogyan befolyásolja a
környezet hőmérséklete és a táplálékellátottság?
• Mennyi időre van szükségük a hernyóknak a bebábozódásig,
• a bábozódás hány napig tart, és
• hogy mekkora bábok fejlődnek ki belőlük?
Feltételezések szerint a magasabb hőmérsékleten fejlődő hernyók táplál-
kozási aktivitása nagyobb, mert gyorsabb az anyagcsere, így gyorsabban

337
338 Reiczigel – Harnos – Solymosi: Biostatisztika

11.1. táblázat. Kísérleti elrendezés

Hőmérséklet
(HOM)
Alacsony Közepes Magas
(hutott) (szobahom) (melegitett)
Nem limitált AH AS AM
Táplálék (adlibitum)
(TAP) Limitált LH LS LM
(limitalt)

fejlődnek, és nagyobb bábokat hoznak létre a hűvösebb helyen tartott her-


nyókhoz képest. A táplálékbőségben fejlődő hernyók esetében várhatóan
szintén gyorsabb a növekedés, és nagyobbak lesznek a bábok az éheztetet-
tekhez képest.
A hernyókat Csévharaszt közelében gyűjtötték 2004 júniusának első he-
tében. Egyetlen farkasalma növényről csak egyetlen 3. lárvastádiumban lévő
hernyót gyűjtöttek, azért hogy azonos tojáscsomóból származó testvérek a
kísérletben ne szerepeljenek (független megfigyelések biztosítása).
A kérdésekre egy olyan kísérlet segítségével keresték a választ, amelynek
során a hernyókat háromféle hőmérsékleti kezelésnek és kétféle táplálékellá-
tottság-kezelésnek tették ki laboratóriumban az 11.1. táblázatban bemuta-
tott elrendezés szerint.
Két kísérleti tényező (faktor), a hőmérséklet (HOM) és a táplálékellátott-
ság (TAP) hatását vizsgálták a hat kísérleti (kezelési) csoportban (kezelés-
kombinációk). A közepes hőmérséklet a szobahőmérséklet volt, ehhez képest
hűtötték vagy melegítették időszakosan a többi csoport egyedeit. A hernyók
fele mindig bőségesen kapott farkasalmaleveleket, míg a másik csoporttól
ezt időszakosan megvonták. A hernyókat véletlenszerűen választották az
egyes kezelési csoportokba. A kezelés megkezdése előtt lemérték a hernyók
tömegét.
A hernyók kezelés előtti tömegét a TOMEG0, a bábok testtömegét egy
héttel a bebábozódás után a BABTOMEG változó (célváltozó) tartalmazza, a
tömeget grammban mérték. A KEZELES változó a 11.1 táblázatnak megfelelő
kezelés kombinációkat tartalmazza.
11.1. A fejezet példája 339

11.1.2. Exploratív elemzések


Az adatmátrixot a lepke.txt fájl tartalmazza. Az adatok beolvasása, és a
táblázat első 5 sorának kilistázása:

> lepke = read.table("lepke.txt", header = T)


> lepke[1:5, ]

TAP HOM BABTOMEG TOMEG0 KEZELES


1 limitalt hutott 0.176 0.007 LH
2 limitalt hutott 0.197 0.013 LH
3 limitalt hutott 0.183 0.015 LH
4 limitalt hutott 0.209 0.015 LH
5 limitalt hutott 0.205 0.017 LH

Mielőtt hozzákezdenénk a lineáris modellekkel való ismerkedéshez, exp-


loratív adatelemezés segítségével nézzük meg, hogy mit várhatunk a kísér-
lettől. Ez a statisztikai elemzéseknek nagyon fontos részét képezi, hiszen
egyrészt ily módon ellenőrizhetjük adatainkat, másrészt – segítve a modell-
alkotást – képet kaphatunk a folyamatokról, és ezzel egyben ellenőrizhetjük
is a modellek segítségével kapott eredményeinket. (Az egyes módszerek rész-
letes ismertetését lásd a „Leíró statisztika” (4.) fejezetben.)
Az olyan egyszerű leíró statisztikákat mint az átlag, a szórás, a medi-
án és a standard hiba, kiszámíthatjuk a tabular() függvénnyel a tables
könyvtárból (Murdoch 2018). Ha standard hibát is szeretnénk számolni, be
kell tölteni a sciplot könyvtárat is (Morales et al. 2017).

> library(tables)
> library(sciplot)
> tabular( (HOM * TAP) ~ (n = 1) + Format(digits = 2)*
+ (BABTOMEG) * (mean + median + sd + se), data = lepke )

BABTOMEG
HOM TAP n mean median sd se
hutott adlibitum 10 0.3038 0.2975 0.0267 0.0084
limitalt 9 0.1997 0.1970 0.0168 0.0056
melegitett adlibitum 12 0.3104 0.3150 0.0346 0.0100
limitalt 10 0.1906 0.1850 0.0276 0.0087
szobahom adlibitum 8 0.3009 0.3080 0.0269 0.0095
limitalt 7 0.2080 0.2160 0.0358 0.0135

Az outputból máris megállapíthatjuk, hogy az ad libitum táplált hernyók


tömegének átlaga, mediánja mind a három hőmérsékleti kezelés esetén közel
azonos, és ugyanez a helyzet a limitáltan tápláltak esetén. Az is észrevehető,
340 Reiczigel – Harnos – Solymosi: Biostatisztika



0.35
Bábtömeg (g)

0.30

0.25
● ●
● ●

0.20

0.15 ●

AH LH AM LM AS LS

Kezelési csoportok

11.1. ábra. A különböző kezeléseket kapott csoportok bábtömegeinek boxplotjai

hogy a limitáltan tápláltak tömege minden hőmérsékleti kezelés esetén átla-


gosan kb. 0.1 grammal kisebb, mint az ad libitum tápláltaké. A szórásokban
látszik némi változatosság.
Ábrán is nézzük meg, hogy mi a helyzet a különböző kezelési csoportok-
ban! Ehhez nagyon jó eszköz a boxplot (11.1. ábra) és az átlagok ábrája
(11.2. ábra), amelyen az átlagokon kívül a standard hibákat, a szórásokat
vagy a konfidencia-intervallumokat is szemléltethetjük (lineplot.CI() il-
letve bargraph.CI() függvények).
> with(lepke, boxplot(BABTOMEG ~ TAP:HOM, xlab = "Kezelési csoportok",
+ ylab = "Bábtömeg (g)", names = c("AH", "LH", "AM", "LM", "AS", "LS")))

> lineplot.CI(HOM, BABTOMEG, group = TAP, data = lepke, cex = 1, bty = "l",
+ ylab = "Bábtömeg (g; átlag ± SE)", xlab = "Hőmérsékleti kezelés",
+ x.leg = 2.3, y.leg = 0.36, leg.lab = c("ad libitum", "limitált"),
+ xaxt = "n", trace.label = "Táplálék", fixed = F, type = "p",
+ pch = c(16,17), xlim = c(0.7, 3.2), ylim = c(0.18, 0.38))
+ axis(1, at = 1:3, labels = c("Hűtött", "Melegített", "Szobahő"))

>bargraph.CI(HOM, BABTOMEG, group = TAP, data = lepke, split = F,


+ ylab = "Bábtömeg (g; átlag ± SE)",
+ xlab = "Hőmérsékleti kezelés", col = "black", angle = 45,
+ x.leg = 5.5, y.leg = 0.42, leg.lab = c("ad libitum", "limitált"),
+ ylim = c(0, 0.45), density = c(0,20), legend = TRUE, xaxt = "n")
> axis(1, at = c(2,5,8), labels = c("Hűtött", "Melegített", "Szobahő"))
11.1. A fejezet példája 341

(a) (b)

11.2. ábra. A különböző kezeléseket kapott csoportok bábtömegeinek átlagai ± SE

Az ábrák és a leíró statisztikák alapján is úgy tűnik, hogy a limitált


táplálék-ellátottság a hőmérsékleti csoportokban nagyjából egyformán csök-
kenti a bábtömeget. A hőmérséklet hatása elhanyagolhatónak tűnik.
A különböző faktorok hatását és interakcióját az interakciós ábrával
(11.3. ábra) is vizsgálhatjuk.
> with(lepke, interaction.plot(HOM, TAP, BABTOMEG,
+ xlab = "Hőmérsékleti kezelés", ylab = "Bábtömeg (g; átlag)",
+ trace.label = "", xaxt = "n", legend = F, ylim = c(0.17, 0.33)))
> legend(2.5, 0.28, lty = 1:2, legend = c("ad libitum", "limitált"),
+ bty = "n", title = "Táplálék")
> axis(1, at = 1:3, labels = c("Hűtött", "Melegített", "Szobahő"))

Érdemes megnézni azt is, hogy hogyan alakultak a hernyótömegek a


kezelések megkezdése előtt (11.4. ábra):

> with(lepke, boxplot(TOMEG0 ~ TAP:HOM, xlab = "Kezelési csoportok",


+ names = c("AH", "LH", "AM", "LM", "AS", "LS"),
+ ylab = "Kezdeti hernyótömeg (g)"))

Az ábráról rögtön láthatjuk, hogy a véletlen csoportba sorolás ellené-


re van különbség a csoportok között, így a kezdeti hernyótömeget célszerű
figyelembe venni az elemzések során annak érdekében, hogy a kezdeti elté-
rések hatását kiküszöböljük.
Érdemes megnézni azt is szórásdiagramon, hogy milyen a kezdeti és bá-
bozódás utáni tömegek kapcsolata, függ-e (és ha igen, hogyan) a bábozó-
dás utáni tömeg a kezdeti tömegtől. Mivel hat különböző kezelést kapott
342 Reiczigel – Harnos – Solymosi: Biostatisztika

0.30
Bábtömeg (g; átlag)

Táplálék
0.25 ad libitum
limitált

0.20

ű Melegített ő

11.3. ábra. A HOM és TAP faktorok interakciós ábrája


0.06
Kezdeti hernyótömeg (g)


0.05

0.04

0.03

0.02 ●

0.01

0.00

AH LH AM LM AS LS

Kezelési csoportok

11.4. ábra. Kezelés előtti hernyótömegek boxplotjai a különböző kezelési csoportokban

csoportunk van, ezért célszerű feltételes szórásdiagrammal kezeléskombiná-


ciónként vizsgálni a kapcsolatot (11.5. ábra). Az ábráról úgy tűnik, hogy
az első csoport kivételével a bábtömeg nem függ a kezdeti hernyótömegtől.
A car könyvtár (Fox & Weisberg 2019) scatterplot() függvényével egye-
neseket és simításokat is rajzoltathatunk csoportonként a szórásdiagramra
(11.6. ábra).
11.1. A fejezet példája 343

11.5. ábra. A bábozódás utáni-kezdeti hernyótömegek szórásdiagramjai kezelési cso-


portonként

11.6. ábra. Szórásdiagram csoportonkénti egyenes illesztéssel és simítással

> scatterplot(BABTOMEG~TOMEG0|TAP, data = lepke, by.groups = T,


+ smooth= T, col = rep(1,2), xlab = "Kezdeti hernyótömeg (g)",
+ ylab = "Bábtömeg (g)", legend.plot = F)
legend("topright", pch = 1:2, legend = c("ad libitum", "limitált"),
+ title = "Táplálék", bty = "n")

> with(lepke, coplot(BABTOMEG ~ TOMEG0 | TAP * HOM,


+ xlab = c("Kezdeti hernyótömeg (g)", "Táplálékkezelés"),
+ ylab = c("Bábtömeg (g)", paste("Hőmérsékleti kezelés"))))
344 Reiczigel – Harnos – Solymosi: Biostatisztika

Összefoglalva exploratív elemzéseinket, azt várjuk, hogy:


• míg a táplálékellátottság hatással van a bábtömegre, addig a hőmér-
sékletnek nincs rá hatása;
• A kezdeti hernyótömeg valószínűleg nem befolyásolja a bábtömegeket.

11.2. Statisztikai modellek


Statisztikai modellnek nevezünk bármilyen olyan matematikai vagy valószí-
nűségi egyenletet vagy egyenletrendszert, amely a valóságos adatok leírá-
sára, illetve előrejelzésére szolgál. A modellek általában egy determiniszti-
kus részből és egy sztochasztikus (véletlentől függő) részből állnak. Például:
Y = b0 + b1 · X + ε, ahol Y = b0 + b1 · X a determinisztikus és ε ∼ N (µ, σ)
a sztochasztikus része a regressziós modellnek.
Amikor statisztikai modellt választunk adataink leírására, el kell dön-
tenünk, hogy egyszerű vagy bonyolult modellt szeretnénk-e használni. Az
egyszerű modelleket könnyebb megérteni, a számításokat nyomon követni,
de nagyon gyakran nem „passzolnak” az adatokhoz. A bonyolultabb model-
lek jobban illeszkedhetnek az adatokhoz, és jobb képet lehet vele alkotni a
mechanizmusokról, de a számítások általában nehézkesebbek és nehezebben
követhetőek. Általánosságban elmondhatjuk, hogy:
• A jó modellnek tisztáznia kell a dolgokat és nem összezavarni.
• Parszimóniára (= takarékosság) kell törekedni: „Things should be ma-
de as simple as possible – but not simpler.”
(A dolgoknak, amennyire csak lehet, egyszerűnek kell lennie, de annál
nem egyszerűbbnek.) – ahogy Albert Einstein megfogalmazta.
• Általánosíthatónak kell lennie, azaz az eredményeknek nemcsak a min-
tánkra kell érvényesnek lennie, hanem arra a statisztikai populációra
is, amelyből a megfigyeléseink származnak.
Ahhoz, hogy helyesen válasszuk meg statisztikai modellünket, a követ-
kezőkre kell odafigyelni:
• Értsük meg a probléma hátterét (milyen folyamatok zajlanak, milyen
hatások jöhetnek szóba stb.)!
• Tisztázzuk, hogy milyen kérdésekre szeretnénk választ kapni, mit sze-
retnénk megtudni! Fogalmazzuk meg a kérdéseinket úgy, hogy azokra
a statisztika eszközeivel válaszolni lehessen (állítsunk fel hipotéziseket)!
• Döntsük el, hogyan válaszolhatunk a kérdéseinkre!
(Ezekre a kérdésekre már az adatgyűjtés előtt meg kell próbálni vála-
szolni! Nagyban befolyásolhatja az adatgyűjtést!)
11.3. A modell felírása 345

• Gyűjtsünk adatokat (kísérlet, megfigyelés), és hozzuk azokat az elem-


ző program számára megfelelő formátumba!
• Végezzünk exploratív elemzéseket (leíró statisztikák, boxplotok, szó-
rásdiagramok, hisztogramok stb.)!
• Modellezzünk (fő elemzés);
• és végül, vonjuk le következtetéseinket, és közöljük eredményeinket!
Maga a modellezés általában a következő lépésekből áll:
• Először ki kell találni és illeszteni egy kiinduló modellt!
• A modellt redukálni kell addig, amíg csak lehet, úgy, hogy a redukált
modell magyarázó ereje ne különbözzön lényegesen a kiinduló model-
létől!
• Ellenőrizzük a modellünk illeszkedését!
• Ha szükséges, változtassuk meg a modellt, és illesszük az új modellt!
• Redukáljuk az új modellt!
• Ellenőrizzük!
• ...
• Végül ellenőrizzük, és teszteljük a végső modellt; értelmezzük és mu-
tassuk be az eredményeket!
Az eredmények közlésénél a következőkre kell törekedni:
• A statisztikai elemzéseket meg kell érteni, és meg kell értetni az olva-
sóval.
• Az adatokat be kell mutatni ábrák, táblázatok formájában.
• A modellek eredményeit le kell írni: szignifikáns hatások, p-értékek, ha-
tásnagyságok, többszörös összehasonlítások stb. (attól függően, hogy
a kérdések megválaszolásához mi szükséges).
• Célszerű a becslések pontosságát is megadni standard hibák, illetve
konfidencia-intervallumok formájában.

11.3. A modell felírása


Az általános lineáris modell (General Linear Model) speciális esetként
tartalmazza a korábbiakban tárgyalt regressziót, ANOVÁ-t, ANCOVÁ-t.
Induljunk ki a regressziószámításból! Megfigyelünk magyarázó változókat
(Xi ) és egy függő változót (Y ), és feltételezzük, hogy a függő változó a
magyarázó változók lineáris függvénye, amelyhez még egy normális eloszlású
hiba is hozzáadódik. (A magyarázó változókban nem tételezünk fel véletlen
hibát.)
Regressziós modellünk:

Y = β0 + β1 X1 + β2 X2 + β3 X3 + . . . + βr Xr + ε,
346 Reiczigel – Harnos – Solymosi: Biostatisztika

Az egyes megfigyelésekre felírva:


yi = β0 + β1 x1i + β2 x2i + β3 x3i + . . . + βr xri + εi ,
ahol i = 1, 2, . . ., n a megfigyelések sorszáma, r pedig a magyarázó változók
száma.
Ezt a formát az egyedi megfigyelésekre felírhatjuk két vektor skaláris
szorzataként (plusz a hibatag):  
β0
β 
   1

β 

yi = 1 x1i x2i . . . xri ·   2  + εi .
 .. 
.
βr
Mivel minden megfigyelésre egy sorvektorunk van, ezeket összesítve le
lehet írni mátrixegyenlet formájában is:
      
y1 1 x11 x21 · · · xr1 β0 ε1
 y2  1 x12 x22 · · · xr2  β1   ε2 
      
 .  +  . .
 .  = . .. .. ..     
 .  .
 .  . . . .   ..   .. 
yn 1 x1n x2n · · · xrn βr εn
Röviden:
y = Xβ + ε,
ahol
y: a megfigyelt függő változó értékeit tartalmazza (vektor, hossza a minta-
elemszám);
X: a megfigyelt magyarázó változók értékekeit tartalmazza (mátrix, sorai-
nak száma a mintaelemszám, oszlopainak száma a paraméterek száma:
p = r + 1). Magyarázó változók alatt most minden kovariánst, faktort,
ezek interakcióit értjük. Ez az ún. modellmátrix vagy design mátrix;
β: az összefüggést leíró lineáris függvény együtthatóit, azaz a becsülendő
paramétereket tartalmazza (vektor, hossza a paraméterek száma);
ε: a véletlen hiba (vektor, hossza a mintaelemszám, komponensei egymástól
függetlenek és mind N (0, σ 2 ) eloszlásúak, azaz várható értékük 0, és
varianciájuk azonos).
Az Xβ szorzatot lineáris prediktornak (linear predictor) is szokták
nevezni, eredménye az Y várható értéke, azaz E(Y ) = Xβ.
11.3. A modell felírása 347

11.3.1. Példák különböző modellekre


1. Ha a lepkés példánkban a bábtömeget csupán a kezdeti tömeg line-
áris függvényeként írjuk fel, akkor a modell az első 5 hernyó esetén
(egyszerű lineáris regresszió):
y = β0 + β1 x + ε,
     
0.176 1 0.007 ε1
ε2 
0.197 1 0.013 !  
 β0
  
0.183 = 1 0.015 + ε3  .
    
 β
0.015 1
    
0.209 1 ε4 
0.205 1 0.017 ε5
Az y egy oszlopvektor, amely a bábtömegeket tartalmazza, az X má-
sodik oszlopa pedig a kezdeti hernyótömegeket. A modellmátrix első
oszlopa a konstanshoz (β0 ) tartozik, elhagyásával az origón átmenő
regressziót kapnánk (9.5. fejezet).
2. Lineáris regresszió két magyarázó változóval:
y = β0 + β1 x1 + β2 x2 + ε
és ötelemű mintával:
     
y1 1 x11 x21   ε1
y  1 x12 x22  β ε 
 2   0  2
y3  = 1 x13 x23  β1  + ε3  .
      
     
y4  1 x14 x24  β2  ε4 
y5 1 x15 x25 ε5
A modellmátrix második és harmadik oszlopa a magyarázó változók
mért értékeit tartalmazza (egy sor egy megfigyelés).
3. Polinomiális regresszió egy magyarázó változóval:
yi = β0 + β1 xi + β2 x2i + εi
és ötelemű mintával:
x21  
     
y1 1 x1 ε1
y  1 x2 2
x2  β0  ε2 
  
 2 
2
y3  = 1 x3 x3  β1  + ε3  .
      
x24  β2
     
y4  1 x4  ε4 
y5 1 x5 x52 ε5
Ez utóbbi példából kitűnik, hogy a lineáris modellbe a magyarázó vál-
tozók transzformáltjai, illetve további származtatott változók is
beépíthetők, ezért a lineáris modellek meglehetősen rugalmasak.
348 Reiczigel – Harnos – Solymosi: Biostatisztika

11.3.2. Faktorok a lineáris modellben


A lineáris modellbe nominális változókat (faktorokat) is beilleszthetünk ún.
indikátor vagy dummy változók segítségével. A modell felírása R-ben ugyan-
úgy történik, mint a regressziós, illetve ANOVA-modellek esetén. Azt, hogy
faktorról, vagy folytonos változóról (kovariánsról) van-e szó, a változó típu-
sa dönti el. Ha numerikus a változó, akkor automatikusan kovariáns lesz.
Vigyázzunk, mert ha a számokkal kódolt nominális változókat
nem „faktorosítjuk”, akkor úgy szerepelnek a modellben, mint-
ha folytonos változók lennének! A faktorrá alakítást a factor() vagy
az as.factor() függvénnyel végezhetjük el.

Átlag- és hatásmodell

Képzeljük el, hogy van 3 kezelésünk, kezelésenként két-két megfigyeléssel.


Ilyen esetben ANOVÁ-t szoktunk alkalmazni a kezelési csoportok össze-
hasonlítására. A β-k helyett most az ANOVÁ-nál megszokott µ-s (és γ-s)
jelölést alkalmazzuk a jobb érthetőség kedvéért. Modellünket kétféleképpen
írhatjuk fel:
1. yi = µj + εi ,
2. yi = µ + γj + εi ,
ahol j = 1, 2, 3 (kezelés indexe), és i = 1, 2,. . ., 6 a megfigyelések indexe.
Az 1. változatot nevezzük „átlagmodellnek” (means model), mivel a
µj -k a kezelési csoportok átlagai (pontosabban várható értékei). A másik
az ún. „hatásmodell” (effects model), mivel a µ jelentése főátlag, a
γ-k jelentése pedig a kezelések hatása. A két verziót a γj = µj − µ
egyenletek kapcsolják össze (11.7. ábra).
A két modellnek megfelelő mátrixegyenletek:
Átlagmodell:
     
y1 1 0 0 ε1
y2  1 0 0   ε2 
    µ  
y  0 1
1 0   ε3 
 
 3 
 =   µ2  +   .
y4  0 1 0 ε4 
    µ3  
y5  0 0 1 ε5 
y6 0 0 1 ε6
11.3. A modell felírása 349

● ●


γ2 ●

µ ●
γ3

γ1 µ2 ●


µ3

µ1 ●

1. 2. 3.

Kezelés

11.7. ábra. A kétféle ANOVA-modell bemutatása kezelési csoportonként 4-4 megfi-


gyeléssel

Ha elvégezzük a beszorzást, a következő egyenletrendszert kapjuk:


y1 = µ1 + ε1 ,
y2 = µ1 + ε2 ,
y3 = µ2 + ε3 ,
y4 = µ2 + ε4 ,
y5 = µ3 + ε5 ,
y6 = µ3 + ε6 .
A hatásmodell:
     
y1 1 1 0 0   ε1
y2  1 1 0 0 µ ε2 
     
y  1 0 1  γ1  ε3 
0    
 3 
 =   +  .
y4  1 0 1 0 γ2  ε4 
     
y5  1 0 0 1 γ3 ε5 
y6 1 0 0 1 ε6
Beszorzás után:
y1 = µ + γ1 + ε1 ,
y2 = µ + γ1 + ε2 ,
y3 = µ + γ2 + ε3 ,
y4 = µ + γ2 + ε4 ,
y5 = µ + γ3 + ε5 ,
y6 = µ + γ3 + ε6 .
350 Reiczigel – Harnos – Solymosi: Biostatisztika

Mindkét esetben a csoporthoz tartozást bináris indikátor változók írják


le, amelyeket a modellmátrix oszlopai (itt a 2–4. oszlopok) reprezentálnak.
Az első oszlop a hatásmodell esetén a főátlaghoz (µ) tartozó csupa 1-es
oszlop.
A második változatban eggyel több oszlopunk van, mint az elsőben. Ez
a számításokban komoly problémát okoz. Mutatunk egy példát arra, hogy
ez miért baj. A 2. változatnak megoldása lehet például a
       
µ 6 µ 8
γ  1 γ  −1
 1    1  
  =  , és a  =  is.
γ2  2 γ2   0 
γ3 3 γ3 1

Mindkettő esetén:  
7
7
 
8
ŷ = E(Y ) =   .
 
8
 
9
9
Azaz nem kaptunk egyértelmű megoldást. Ez azért van, mert az X osz-
lopai lineárisan nem függetlenek (ez onnan látható például, hogy az utolsó
3 oszlopot összeadva az elsőt kapjuk eredményül).
Ezt a jelenséget nevezzük túlparaméterezettségnek (= a modell túl
sok paramétert tartalmaz) (overparametrisation). Ilyenkor, mint azt láttuk,
a paraméterek becslése nem egyértelmű. A helyzet ahhoz hasonló, mint ami-
kor egy egyenletrendszerben több ismeretlen van, mint egyenlet – ilyenkor
általában végtelen sok megoldás van, egyes ismeretleneket szabadon meg-
választhatunk.
Mi a megoldás? Korlátozó feltételek előírása a paraméterekre vonatko-
zóan: az R alapértelmezésben a faktor első szintjéhez nem rendel oszlopot
és így paramétert sem. Úgy is fel lehet fogni, hogy ezzel a módszerrel az
első szintet kineveztük referenciaszintnek. Ekkor a konstans az első szinthez
tartozó átlag lesz, a többi paraméter pedig azt mondja meg, hogy a többi
átlag mennyivel különbözik ettől a referenciaszinttől.
11.3. A modell felírása 351

Így a modellünknek megfelelő mátrixegyenlet:


     
y1 1 0 0 ε1
y2  1 0 0   ε2 
    β =µ+γ  
y  1 0 1
1 0  ε3 
 
 3 
 =  β1 = γ2 − γ1  +   .

y4  1 1 0 ε4 
    β 2 = γ3 − γ1  
y5  1 0 1 ε5 
y6 1 0 1 ε6

11.1. példa. Lepke – hatás- és átlagmodell


Nézzük meg, hogy a lepkés vizsgálatunkban hogy néznek ki a paraméterbecslések a
kétféle paraméterezésben, ha csak a hőmérsékleti kezelés hatását vizsgáljuk! Az alapér-
telmezés a hatásmodell:

> (lmmod1 = lm(BABTOMEG ~ HOM, data = lepke))

Call:
lm(formula = BABTOMEG ~ HOM, data = lepke)

Coefficients:
(Intercept) HOMmelegitett HOMszobahom
0.254474 0.001481 0.003060

Az átlagmodellt úgy kaphatjuk meg, hogy a konstanst kihagyjuk a modellből, techni-


kailag beírunk egy „−1”-es tagot a modellbe:
> (lmmod2 = lm(BABTOMEG ~ HOM - 1, data = lepke))

Call:
lm(formula = BABTOMEG ~ HOM - 1, data = lepke)

Coefficients:
HOMhutott HOMmelegitett HOMszobahom
0.2545 0.2560 0.2575

A második esetben a különböző hőmérsékleti csoportok átlagbecsléseit kaptuk, az első


esetben pedig a konstanshoz (intercept) tartózó érték a hűtött csoport átlaga – ez
most a referenciakategória – a másik két együttható pedig az ettől való eltérések a
melegített, illetve szobahőmérsékletű csoportban.
A modellmátrixot a model.matrix() függvénnyel írathatjuk ki az egyes modellek esetén.

Ha két faktorunk van, akkor a második faktornak is az első szintjét hagyja


ki az R. Ez a szint beépül az első faktorhoz tartozó paraméterekbe, azaz az
első faktorhoz tartozó becslések a második faktor első szintjére vonatkoznak.
A következő példán szemléltetjük az eljárást.
352 Reiczigel – Harnos – Solymosi: Biostatisztika

11.2. példa. Lepke – két faktoros modell


Modellezzük úgy a lepkék bábtömegét, hogy figyelembe vesszük mind a két tényező
(faktor) hatását.
> (lmmod3a = lm(BABTOMEG ~ TAP + HOM, data = lepke))

Call:
lm(formula = BABTOMEG ~ TAP + HOM, data = lepke)

Coefficients:
(Intercept) TAPlimitalt HOMmelegitett HOMszobahom
0.305280 -0.107258 -0.000572 0.002307

Az eredményekből látható, hogy a modellnek összesen 4 paramétere van. Az


(intercept) lesz az ad libitum táplált és hűtött bábok tömegének átlagbecslése. A
TAPlimitalt-hoz tartozó érték a limitált táplálékú és hűtött bábok tömegének eltérése
a hűtött ad libitum tápláltakéhoz képest. A HOMszobahomerseklet és a HOMmelegitett
becslések a megfelelő hőmérsékleti kezelések hatása a hűtéshez képest. Tehát, ha pél-
dául meg szeretnénk kapni a melegített limitált táplálékú csoport átlagos tömegének
becslését, akkor az (intercept) + TAPlimitalt + HOMmelegitett.

Hagyjuk most ki a konstanst a modellből!


> (lmmod3b = lm(BABTOMEG ~ TAP + HOM - 1, data = lepke))

Call:
lm(formula = BABTOMEG ~ TAP + HOM - 1, data = lepke)

Coefficients:
TAPadlibitum TAPlimitalt HOMmelegitett HOMszobahom
0.305280 0.198022 -0.000572 0.002307

Így megkaptuk a hűtött ad libitum és limitáltan tápláltak (TAPadlibitum és


TAPlimitalt) átlagbecsléseit. A másik két becslés a megfelelő melegített, illetve szo-
bahőmérsékletű csoportok eltérései ezekhez képest. Például a melegített és ad libitum
tápláltak becslése: TAPadlibitum + HOMmelegitett.

Ha két magyarázó változó között interakciót (ld. 325. oldal) tételezünk


fel, akkor a TAP:HOM tagot is bevesszük a modellbe. Ha mind a főhatásokat,
mind az interakciót be akarjuk illeszteni a modellbe, akkor használhatjuk a
TAP*HOM formalizmust is, ez ekvivalens a TAP+HOM+TAP:HOM felírással.
11.3. A modell felírása 353

11.3. példa. Lepke – interakció


Vegyük figyelembe most a két faktor interakcióját is!
> (lmmod4 = lm(BABTOMEG ~ TAP + HOM + TAP:HOM, data = lepke))

Call:
lm(formula = BABTOMEG ~ TAP + HOM + TAP:HOM, data = lepke)

Coefficients:
(Intercept) TAPlimitalt
0.30380 -0.10413
HOMmelegitett HOMszobahom
0.00662 -0.00292
TAPlimitalt:HOMmelegitett TAPlimitalt:HOMszobahom
-0.01568 0.01126

Ennek a modellnek összesen 6 paramétere van. Ebben az esetben már sokkal nehe-
zebb megmagyarázni a becslések jelentését. Az (intercept) a faktorok első szintjei-
nek megfelelő kezeléskombináció átlagbecslése (ad libitum:hűtött). Az összes többi az
együttható megnevezésében jelölt csoport (ha főhatásról van szó, akkor a másik ugyan-
az, mint az (intercept) esetén) átlagbecsléseinek eltérése ettől az értéktől. Tehát, a
TAPlimitált a hűtött és limitáltan táplált csoport átlagának, a HOMmelegitett és a
HOMszobahom az ad libitum tápláltak és melegített, illetve szobahőmérsékleten tartott
csoport átlagainak az eltérése az ad libitum táplált és hűtött csoport (intercept) át-
lagától. Az utolsó kettő egyértelműen kiderül az elnevezésekből.
Az egyes kezeléskombinációkban a bábtömeg becsléseket megkaphatjuk úgy is, hogy át-
paraméterezzük a modellt oly módon, hogy csak az interakciót tesszük be a modellbe,
és kivesszük a konstanst. Ez az előzővel ekvivalens modell.
> (lmmod5 = lm(BABTOMEG ~ TAP:HOM - 1, data = lepke))

Call:
lm(formula = BABTOMEG ~ TAP:HOM - 1, data = lepke)

Coefficients:
TAPadlibitum:HOMhutott TAPlimitalt:HOMhutott
0.304 0.200
TAPadlibitum:HOMmelegitett TAPlimitalt:HOMmelegitett
0.310 0.191
TAPadlibitum:HOMszobahom TAPlimitalt:HOMszobahom
0.301 0.208

(Ennek alapján a Kedves Olvasó gyakorlásképpen utánaszámolhat az előző paraméter-


becsléseknek!)

Ha egy folytonos változót (kovariánst) is beveszünk a modellbe


(ANCOVA modell), akkor a faktorok hatását úgy kell értelmeznünk, hogy
az egyes kezelési csoportokban az illesztett egyenesek y tengelymetszetei
354 Reiczigel – Harnos – Solymosi: Biostatisztika



0.35 ●
●●

● ● ● ● ●
●●● ● ● ●
Bábtömeg (g)

0.30 ● ●● ● ●
● Táplálék
● ●
● ●
● ● ad libitum
0.25

limitált

0.20

0.15

0.00 0.01 0.02 0.03 0.04 0.05 0.06

Kezdeti hernyótömeg (g)

11.8. ábra. ANCOVA-modell interakció nélkül

a faktor becsléseinek megfelelő mértékben változnak, azaz a párhuzamos


egyenesek ennek megfelelően tolódnak el egymáshoz képest (11.8. ábra).

11.4. példa. Lepke – ANCOVA, párhuzamos egyenesek


Vegyük figyelembe TAP faktort és a kezdeti hernyótömeget mint kovariánst!
> (lmmod6 = lm(BABTOMEG ~ TOMEG0 + TAP, data = lepke))

Call:
lm(formula = BABTOMEG ~ TOMEG0 + TAP, data = lepke)

Coefficients:
(Intercept) TOMEG0 TAPlimitalt
0.303 0.262 -0.111

A becslések jelentése: (intercept) az egyenes y tengelymetszete (vagyis a báb-


tömeg 0 kezdeti hernyótömeg esetén) az ad libitum táplált hernyók esetén. TOMEG0 az
egyenesek meredeksége, és a TAPlimitalt a limitáltan tápláltakhoz tartozó egyenes
függőleges irányú eltolása.

Ha nem az eltolást, hanem a limitáltan tápláltak egyenesének tengelymetszetét közvet-


lenül szeretnénk megkapni, akkor ki kell hagynunk az (intercept)-et a modellből:
> (lmmod7 = lm(BABTOMEG ~ TOMEG0 + TAP - 1, data = lepke))

Call:
lm(formula = BABTOMEG ~ TOMEG0 + TAP - 1, data = lepke)

Coefficients:
11.3. A modell felírása 355



0.35 ●
●●

● ● ● ● ●
●●● ● ● ●
Bábtömeg (g)

0.30 ● ●● ● ●
● Táplálék
● ●
● ●
● ● ad libitum
0.25

limitált

0.20

0.15

0.00 0.01 0.02 0.03 0.04 0.05 0.06

Kezdeti hernyótömeg (g)

11.9. ábra. ANCOVA-modell interakcióval

TOMEG0 TAPadlibitum TAPlimitalt


0.262 0.303 0.192

A TOMEG0 együtthatója az egyenesek közös meredeksége, a másik két együttható pedig


a megfelelő csoportokban az egyenesek y tengelymetszetei.
Az egyeneseket a következő kóddal tudjuk rárajzolni a bábtömeg-kezdeti hernyótömeg
szórásdiagramra (a coef() függvénnyel a modell paraméterbecsléseit – itt az egyenesek
y tengelymetszetét és meredekségét – kapjuk meg egy lista objektumban, ezért kellenek
a dupla zárójelek):
> with(lepke, plot(BABTOMEG ~ TOMEG0, pch = as.numeric(TAP),
+ xlab = "Kezdeti hernyótömeg (g)", ylab = "Bábtömeg (g)"))
> legend(0.05, 0.3, pch = 1:2, lty = 1:2, title = "Táplálék",
+ legend = c("ad libitum", "limitált"), bty = "n")
> abline(coef(lmmod7)[[2]], coef(lmmod7)[[1]])
> abline(coef(lmmod7)[[3]], coef(lmmod7)[[1]], lty = 2)

Ha a kovariáns és egy faktor interakcióját is bevesszük a modellbe, akkor


az azt jelenti, hogy a faktor módosíthatja a kovariáns hatását, azaz más lesz
a kezelési csoportokban az egyenesek meredeksége (11.9. ábra).

11.5. példa. Lepke – ANCOVA, különböző meredekségű egyenesek


Vegyük figyelembe TAP faktort és a kezdeti hernyótömeget mint kovariánst, valamint
az interakciójukat!
356 Reiczigel – Harnos – Solymosi: Biostatisztika

> (lmmod8 = lm(BABTOMEG ~ TOMEG0 * TAP, data = lepke))

Call:
lm(formula = BABTOMEG ~ TOMEG0 * TAP, data = lepke)

Coefficients:
(Intercept) TOMEG0 TAPlimitalt TOMEG0:TAPlimitalt
0.2917 1.2138 -0.08 -1.4385

A becslések jelentése: (intercept) az egyenes y tengelymetszete (vagyis a bábtömeg


0 kezdeti hernyótömeg esetén) az ad libitum táplált hernyók esetén. TOMEG0 az egyenes
meredeksége az ad libitum tápláltak esetén. A másik két érték a limitáltan tápláltak
paramétereinek eltérései az előbbiektől.
Ha az egyenesek paramétereit közvetlenül szeretnénk megkapni, akkor a következő pa-
raméterezést használjuk:
> (lmmod9 = lm(BABTOMEG ~ TOMEG0:TAP + TAP - 1, data = lepke))

Call:
lm(formula = BABTOMEG ~ TOMEG0:TAP + TAP - 1, data = lepke)

Coefficients:
TAPadlibitum TAPlimitalt
0.292 0.204
TOMEG0:TAPadlibitum TOMEG0:TAPlimitalt
1.214 -0.225

Így megkaptuk a két csoportban az egyenesek tengelymetszeteit (TAPadlibitum és


TAPlimitalt) és meredekségeit (TOMEG0:TAPadlibitum és TOMEG0:TAPlimitalt).
Tehát a második modell együtthatóit úgy kaphatjuk meg az elsőéből, hogy

TAPadlibitum(lmmod9) = (intercept)(lmmod8);
TAPlimitalt(lmmod9) = (intercept)(lmmod8) + TAPlimitalt(lmmod8);
TOMEG0:TAPadlibitum(lmmod9) = TOMEG0(lmmod8);
TOMEG0:TAPlimitalt(lmmod9) = TOMEG0(lmmod8)
+ TOMEG0:TAPlimitalt(lmmod8).
Az egyeneseket a következő kóddal tudjuk rárajzolni a bábtömeg-kezdeti tömeg
szórásdiagramra:

> with(lepke, plot(BABTOMEG ~ TOMEG0, pch = as.numeric(TAP),


+ xlab = "Kezdeti hernyótömeg (g)", ylab = "Bábtömeg (g)"))
> legend(0.05, 0.3, pch = 1:2, lty = 1:2, title = "Táplálék",
+ legend = c("ad libitum", "limitált"), bty = "n")
> abline(coef(lmmod9)[[1]], coef(lmmod9)[[3]])
> abline(coef(lmmod9)[[2]], coef(lmmod9)[[4]], lty = 2)

Foglaljuk össze, hogy mi minden kerülhet be egy modellbe, és hogy néz


ki a modellmátrix a különböző esetekben!
11.3. A modell felírása 357

• A konstans, ha van (általában igen) kap egy csupa 1-esből álló osz-
lopot. Ezt a modellben nem kell külön megadni, csak azt, ha nem
akarjuk beletenni a modellbe, ekkor egy „−1” -es tagot kell beírnunk
a modell formulába.
• Minden faktor eggyel kevesebb oszlopot kap, mint ahány szintje
(= kezelés, csoport) van. Ezek mind 0/1-ekből állnak.
• A kovariánsok egy-egy olyan oszlopot kapnak, amelyek minden meg-
figyeléshez a kovariáns mért értékét tartalmazzák.
• Egy F1 : F2 interakcióhoz, ahol az F -ek lehetnek faktorok is és kova-
riánsok is, annyi oszlop tartozik, amennyi az F1 -hez és F2 -höz tartozó
oszlopok számának szorzata.
Faktor és kovariáns közötti interakcióhoz ezzel összhangban annyi osz-
lop (paraméter) tartozik, ahány a faktorhoz. A paraméterek a kova-
riánsnak a faktor szintjeihez tartozó regressziós együtthatói, tehát az
interakció bevétele itt is azt jelenti, hogy feltételezzük, hogy a kova-
riánsnak csoportonként más és más a hatása (a meredekségek külön-
böznek).
A végén az oszlopok száma adja meg a modell paramétereinek számát (p).
Az lm() függvény egyik kötelezően megadandó paramétere a modell formá-
lis megadása:
Y ∼ F + F2 + F3 + F1 : F2 .
|{z} |1 {z } | {z }
függő változó magyarázó változók interakció
(kovariánsok és faktorok)
Hogy egy magyarázó változó faktor (factor) vagy „kovariáns” numeric, az
a típusától függ. Leellenőrizhetjük a str() függvénnyel, amivel kiírathatjuk
az adatmátrixunk struktúráját.

11.6. példa. Lepke – struktúra


> str(lepke)

'data.frame': 56 obs. of 5 variables:


$ TAP : Factor w/ 2 levels "adlibitum","limitalt": 2 2 2 2 2 2 ...
$ HOM : Factor w/ 3 levels "hutott","melegitett",..: 1 1 1 1 1 ...
$ BABTOMEG: num 0.176 0.197 0.183 0.209 0.205 0.197 0.205 0.191 ...
$ TOMEG0 : num 0.007 0.013 0.015 0.015 0.017 0.025 0.034 0.039 ...
$ KEZELES : Factor w/ 6 levels "AH","AM","AS",..: 4 4 4 4 4 4 4 4 ...
Láthatjuk, hogy az adattáblázatnak 56 sora (56 megfigyelés (observation)) van és 4
oszlopa (változók (variables)). A két faktor változó: TAP 2 szintű; HOM 3 szintű. A
faktor szintek felsorolása után, a megfigyelések belső kódolása van feltüntetve. A másik
két változó numerikus típusú, tehát kovariáns.
358 Reiczigel – Harnos – Solymosi: Biostatisztika

A modelleket átparaméterezhetjük – ez azt jelenti, hogy a modell ugyanaz


marad (ekvivalens modellek), de másképp (más paraméterekkel, azaz más
oszlopokkal) írjuk le. Lássunk néhány egyszerű módszert!
• Kihagyhatjuk a konstanst:

Y ∼ −1 + F1 + F2 + F3 + F1 : F2 ,

ekkor az R beteszi a modellbe az első faktor első szintjét. (Regressziós


modellnél, azaz ha csak kovariánsok vannak, a konstans kihagyása
megváltoztatja a modellt!)
• Kihagyhatunk egy faktort úgy, hogy valamely interakciója egy másik
faktorral benn marad:

Y ∼ F1 + F2 + F1 : F2 ,

Y ∼ F1 + F1 : F2 .
Egy faktorhoz/interakcióhoz tartozó oszlopok (paraméterek) száma a
faktor/interakció szabadsági foka. Átparaméterezésnél a paramé-
terek, vagyis az oszlopok száma nem változik (ha változik,
akkor az már nem ugyanaz a modell).

11.4. A lineáris modell paramétereinek becslése


A paraméterek becslése a közönséges legkisebb négyzetek módszerével tör-
ténik (11.10. ábra) – az általános lineáris modellre ez egybeesik a maximum
likelihood (ML) módszerrel (ld. 140. oldal).
Az illesztett modellt y = Xb + e formában írhatjuk fel, ahol b a becsült paraméterek
(együtthatók) vektora, e pedig a reziduumok vektora.
A legkisebb négyzetek módszere azt jelenti, hogy minimalizáljuk a reziduális eltérés-
négyzetösszeget, vagyis b függvényeként felírva (és felhasználva, hogy yT Xb = bT Xy):

SS(b) = eT e
= (y − Xb)T (y − Xb)
= yT y − yT Xb − bT XT y + bT XT Xb
= yT y − 2yT Xb + bT XT Xb.

A minimumhely kiszámításához szükség van a b szerinti parciális deriváltra:

∂SS(b)
= 0 − 2XT y + 2XT Xb.
∂b
Ott lehet minimum, ahol ez a derivált 0. Ebből következnek az ún. normál egyenletek,
amikből b kifejezhető:
XT y = XT Xb.
11.4. A lineáris modell paramétereinek becslése 359

11.10. ábra. A legkisebb négyzetek módszerrel történő becslés szemléltetése. A meg-


figyelések vektorát (y) merőlegesen levetítjük (H-val való szorzás) az x1 és x2 (a
modellmátrix oszlopai) által kifeszített síkra (ŷ). Az e reziduumvektor a megfigyelt és
a becsült érték vektorok különbsége (e = y − ŷ).

Ha XT X nem szinguláris, azaz a rangja (p), ahol p a modell paramétereinek a száma,


akkor egyértelműen megoldható az egyenlet, és ebből

b = (XT X)−1 XT y.

XT X rangja egyenlő X rangjával. Ebből következik az alábbi két feltétel, ami szük-
séges ahhoz, hogy XT X ne legyen szinguláris, és így egyértelmű megoldást kaphassunk.

A becslések kiszámíthatóságához szükséges feltételek:


• Legalább annyi megfigyelésünknek kell lennie, mint ahány paramétere
van a modellnek.
• X oszlopainak lineárisan függetlennek kell lennie, ami a magyarázó
változók lineáris algebrai értelemben vett függetlenségét jelenti. Foly-
tonos változók esetén ezt azt jelenti, hogy tökéletes kollinearitás esetén
(amikor két változó közötti korreláció 1 vagy −1) biztosan nem kapunk
egyértelmű megoldást, de még a majdnem kollinearitás is problémákat
okozhat (vö. 9.9. fejezet).
Ha teljesülnek ezek a feltételek, akkor alapvetően egy nagyon egyszerű
módszert kaptunk a lineáris modell illesztésére. Csupán két igazi korlátozó
tényező van a használhatóságát illetően. Egyrészt az, hogy egyszerre csak
egy függő változót vizsgálhatunk vele, másrészt az, hogy ha az X-ek nem
függetlenek, akkor nem szolgáltat egyértelmű megoldást. Ez utóbbi csupán
technikai probléma, amit kis odafigyeléssel elkerülhetünk.
A b eloszlásáról belátható, hogy ha az ε-ok függetlenek és normális eloszlásúak kons-
tans σε szórással, akkor p dimenziós normális eloszlású:

b ∼ Np (β, σε2 (XT X)−1 ).


360 Reiczigel – Harnos – Solymosi: Biostatisztika

11.4.1. A becsült értékek és a vetítő mátrix


A becsült értékeket a következőképpen számíthatjuk ki:

ŷ = Xb = X(XT X)−1 XT y = Hy.

A H az ún. vetítő, vagy angol elnevezése szerint, Hat mátrix. Ez a mátrix


transzformálja a megfigyelések vektorát a becsült értékek vektorává (11.10.
ábra):
H = X(XT X)−1 XT .

A reziduumok a megfigyelt y és a számított (becsült) ŷ értékek különb-


ségei (y − ŷ), a reziduális (hiba) eltérés-négyzetösszeg pedig:
n
X
SSH = (yi − ŷi )2 .
i=1

Az ε hibatag varianciájának (reziduális variancia), σ 2 -nek szokásos becs-


lése:
n
1 1 X
σ̂ 2 = SSH = (yi − ŷi )2 ,
n−p n − p i=1

ahol n a mintaelemszám, és p a becsült paraméterek száma.

11.5. Hipotézisvizsgálat
Ha az eloszlásbeli feltételek teljesülnek, akkor lehet hipotézisvizsgálatokat
végezni, illetve konfidencia-intervallumokat számolni a lineáris modellek ese-
tén.

11.5.1. A null- és a telített modell


A legegyszerűbb lineáris modell az, amikor minden megfigyelési egységnek
ugyanaz a várható értéke, vagyis nincsen szisztematikus eltérés a megfi-
gyelési egységek között (csak a véletlen hiba), azaz yi = β0 + εi , minden
i esetén. Ezt a modellt hívjuk nullmodellnek. Ebben a modellben nincs
magyarázó változó, azaz p = 1 paraméterünk van (a konstanshoz tarto-
zó). A modellmátrix egy olyan oszlopvektor, amelynek minden eleme 1. Ez
példánk esetén az a modell, amikor azt feltételezzük, hogy sem a táplálék-
ellátottságnak, sem a hőmérsékletnek, sem a kezdeti hernyótömegnek nincs
hatása a bábtömegekre. Az első 5 esetre felírva:
11.5. Hipotézisvizsgálat 361
     
0.176 1 ε1
0.197 1 ε 
       2
0.183 = 1 β0 + ε3  .
     
     
0.209 1 ε4 
0.205 1 ε5

A másik véglet az ún. telített vagy szaturált (saturated) modell, ami-


kor minden megfigyelési egységnek más és más a várható értéke. Azért
nevezik telített modellnek, mert ugyanannyi paramétere van, mint ahány
megfigyelési egységünk, és ennél több nem is lehet. Ebben a modellben a
véletlennek már nincs szerepe. Ekkor p = n, azaz a modellmátrix egy négy-
zetes, n × n-es mátrix. A főátlójában 1-esek, azon kívül pedig 0-ák állnak.
Ekkor a mátrix-egyenlet megoldása csak az lehet, hogy a βi -k megegyeznek
a megfigyelt értékekkel.
Az első 5 esetre:
      
0.176 1 0 0 0 0 β0 0
0.197 0 1 0 0 0 β  0
     1  
0.183 = 0 0 1 0 0 β2  + 0 .
      
      
0.209 0 0 0 1 0 β3  0
0.205 0 0 0 0 1 β4 0
Ezek a modellek önmagukban nyilvánvalóan nem igazán hasznosak. A
gyakorlatban előforduló statisztikai modellek valahol a kettő között helyez-
kednek el.

11.5.2. Modell és részmodell összehasonlítása


Ha az M1 modell illeszkedik az adatokhoz, és az M2 részmodellje M1 -nek
(azaz M2 magyarázó változói M1 magyarázó változóinak részhalmazát ké-
pezik, beágyazott (nested) modellnek is nevezik), akkor az M2 illeszkedését
F -próbával vizsgálhatjuk:
(SSH (M2 ) − SSH (M1 ))/(p1 − p2 )
F = ,
SSH (M1 )/(n − p1 )
ahol SSH (M2 ) és SSH (M1 ) a modellek reziduális eltérés-négyzetösszegei
(SSH (M2 ) ≥ SSH (M1 )), p1 és p2 a paraméterek, n pedig a megfigyelé-
sek száma. F az M2 illeszkedése esetén F -eloszlást követ (p1 − p2 , n − p1 )
szabadsági fokokkal.
Normális eloszlású hibatag esetén ez a próba egzakt. A regressziószámítás
és az ANOVA klasszikus F -próbái (sőt, a regressziószámítás t-próbái is!)
ennek speciális esetei.
362 Reiczigel – Harnos – Solymosi: Biostatisztika

11.11. ábra. Modellek összehasonlítása. A bővebb modell esetén két (X1 és X2 ), a


szűkebb esetén egy magyarázó változónk (X2 ) van. ŷ1 a bővebb modell, ŷ2 a szűkebb
modell becslése. ŷ1 − ŷ2 a két modell becsült vektorai közötti különbség. y − ŷ1
a bővebb, y − ŷ2 a szűkebb modell reziduumvektora. Tulajdonképpen az (ŷ1 − ŷ2 )
vektort hasonlítjuk a (y − ŷ1 ) vektorhoz az F -próbával

A 11.11. ábrán azt mutatjuk be, hogy mit is tesztelünk ezzel az F -


próbával. A két modell reziduális eltérés-négyzetösszegeinek különbségét
hasonlítjuk a bővebb modell reziduális négyzetösszegéhez. Ha a kettő na-
gyon eltér egymástól (nagy F -érték, kis p-érték), akkor a két modell között
lényeges különbség van a magyarázó erő tekintetében. A modellek összeha-
sonlítását az anova() függvénnyel végezhetjük el.
A következőkben bemutatunk néhány tipikus példát tesztelésre.

11.5.3. Az összes magyarázó változó együttes tesztelése


Azt teszteljük, hogy függ-e egyáltalán az Y bármelyik magyarázó változótól.
A vizsgált modell: y = Xβ + ε.
A részmodell (a null modell): y = β0 + ε.
Nullhipotézis: H0 : β1 = β2 = . . . = βp = 0.
Statisztika:

(SSH (nullmodell) − SSH (modell))/(p − 1)


F = ,
SSH (modell)/(n − p)

ahol p a modell paramétereinek száma, n pedig a megfigyelések száma.


Ha kiíratjuk a modell summary()-jét, akkor annak utolsó sorában éppen
ennek a tesztnek az eredményét olvashatjuk.
11.5. Hipotézisvizsgálat 363

11.7. példa. Lepke – Az X-ek együttes tesztelése


Legyen most a modellünk az, amikor figyelembe vesszük mindkét faktort, a kovariánst
és az összes lehetséges interakciójukat a lepkés példánkban (az ilyen modellt nevezzük
teljes (full) modellnek)! (Az eredményeknek csak a lényeges részét közöljük.)
> teljesmod = lm(BABTOMEG ~ TOMEG0 * TAP * HOM, data = lepke)
> summary(teljesmod)

...
Residual standard error: 0.0273 on 44 degrees of freedom
Multiple R-Squared: 0.838, Adjusted R-squared: 0.798
F-statistic: 20.7 on 11 and 44 DF, p-value: 6.44e-14

Az utolsó sorban olvashatjuk az F -próba eredményét. Ugyanezt megkaphatjuk a követ-


kezőképpen is. Készítsük el a nullmodellt is!
> nullmod = lm(BABTOMEG ~ 1, data = lepke)
A két modellt az anova() függvénnyel hasonlíthatjuk össze, ez a függvény végzi el az
F -tesztet:
> anova(teljesmod, nullmod)

Analysis of Variance Table

Model 1: BABTOMEG ~ TOMEG0 * TAP * HOM


Model 2: BABTOMEG ~ 1
Res.Df RSS Df Sum of Sq F Pr(>F)
1 44 0.0329
2 55 0.2034 -11 -0.1705 20.8 6.4e-14 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Mint láthatjuk, mindkét módszerrel ugyanarra az eredményre jutottunk (ugyanazt a


tesztet végeztük el kétféleképpen), azaz el lehet utasítani azt a nullhipotézist, hogy
egyik magyarázó változónak sincs hatása a függő változóra nézve.

Egyes magyarázó változók tesztelése


Ennél a tesztnél külön-külön teszteljük a modell magyarázó változóit. Ennek
eredményét írathatjuk ki, ha a modellel meghívjuk az anova() függvényt.
364 Reiczigel – Harnos – Solymosi: Biostatisztika

11.8. példa. Lepke – egyes magyarázó változók tesztelése


Teszteljük a teljes modell változóit!
> teljesmod = lm(BABTOMEG ~ TOMEG0 * TAP * HOM, data = lepke)
> anova(teljesmod)

Analysis of Variance Table

Response: BABTOMEG
Df Sum Sq Mean Sq F value Pr(>F)
TOMEG0 1 0.0260 0.0260 34.80 4.7e-07 ***
TAP 1 0.1348 0.1348 180.41 < 2e-16 ***
HOM 2 0.0001 2.6e-05 0.03 0.97
TOMEG0:TAP 1 0.0043 0.0043 5.81 0.02 *
TOMEG0:HOM 2 0.0009 0.0004 0.57 0.57
TAP:HOM 2 0.0024 0.0012 1.61 0.21
TOMEG0:TAP:HOM 2 0.0021 0.0010 1.38 0.26
Residuals 44 0.0329 0.0007
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Kiderül, hogy csupán a kezdeti tömeg és a táplálékellátottság kihagyása okozna szig-


nifikáns „romlást” a teljes modell esetén. Ha szűkebb modellből indulunk ki, akkor
egyáltalán nem biztos, hogy ugyanerre az eredményre jutunk (ld. 11.7. fejezet).

Figyeljük meg, hogy amíg a többszörös regressziónál t-próbákat végez-


tünk az egyes változók hatásának vizsgálatára, addig itt F -teszteket vég-
zünk. Többszörös regresszió esetén az egyes változók (kovariánsok) hatását
az együtthatók fejezik ki, úgyhogy az F - és a t-próba ekvivalensek (kova-
riánsok esetén ez itt is igaz). Itt az egyes paraméterbecsléseknek faktorok
esetén összetettebb a jelentése, mint azt már láttuk a 11.3.2. részben. Ha
nem az egyes együtthatókra, hanem arra vagyunk kíváncsiak, hogy egy-egy
faktornak van-e hatása – azaz több paramétert egyszerre tesztelünk –, akkor
arra már csak az F -próba alkalmas.

11.5.4. Több változó szimultán tesztelése


F -próbával több faktorból/kovariánsból álló blokkokat (pl. időjárás hatása,
környezeti hatások) is tesztelhetünk.
Ekkor az az eljárás, hogy létrehozzuk a bővebb és a szűkebb modellt is,
és az anova() függvénnyel összehasonlítjuk.
11.5. Hipotézisvizsgálat 365

11.9. példa. Lepke – szimultán tesztelés


Hasonlítsuk össze a teljes modellt azzal a modellel, amiből kihagyjuk a hőmérséklet
hatását! Ez egyszerre 4 tag elhagyását jelenti, hiszen az összes olyan interakciót is
kihagyjuk, amelyben az egyik tag a hőmérséklet.
> teljesmod = lm(BABTOMEG ~ TOMEG0 * TAP * HOM, data = lepke)
> reszmod = lm(BABTOMEG ~ TOMEG0 * TAP, data = lepke)
> anova(teljesmod, reszmod)

Analysis of Variance Table

Model 1: BABTOMEG ~ TOMEG0 * TAP * HOM


Model 2: BABTOMEG ~ TOMEG0 * TAP
Res.Df RSS Df Sum of Sq F Pr(>F)
1 44 0.0329
2 52 0.0386 -8 -0.0057 0.95 0.48

Kiderül, hogy csupán a hőmérséklet hihagyása nem okoz szignifikáns csökkenést a ma-
gyarázó erőben.

11.5.5. Megjegyzések a modellek tesztelésével kapcsolatban


1. Ha egy hatás nem szignifikáns, az nem jelenti azt, hogy a vizsgált
változónak valóban nincs hatása, lehet hogy csak a mintánk túl kicsi.
2. Minél nagyobb mintánk van, annál könnyebb hatásokat kimutatni, de
lehet, hogy ezek a hatások csak statisztikailag szignifikánsak, szak-
mailag nincsen jelentőségük, ilyenkor érdemes megnézni, hogy a hatás
nagysága eléri-e a szakmailag releváns mértéket.
3. Minél több paramétere van a modellnek, annál nehezebb szignifikáns
hatásokat kimutatni. Törekedni kell arra, hogy lehetőleg csak olyan
változók kerüljenek be a modellbe, amiket értelmezni tudunk.
4. A p-értékekből a hatásnagyságok nem derülnek ki, ezért a p-értékek
mellett célszerű konfidencia-intervallumokat is megadni, hiszen azok
mondják meg, hogy a hatások mekkorák, illetve becslésük mennyire
pontos (11.10. és 11.18. példák).
5. A modell summary-jét ugyanúgy kell értelmezni, mint ahogy azt a line-
áris regresszió esetén tettük. A paraméterbecslések nem olyan egysze-
rűen értelmezhetőek, de egyébként a teszteknek és az egyéb regressziós
statisztikáknak ugyanaz a jelentése.
6. Az interakciók, illetve több szintű faktorok tesztelése F -próbákkal
(anova()) történhet, a summary-ban csak a paraméterbecslések és
a teljes modell tesztelése jelenik meg.
366 Reiczigel – Harnos – Solymosi: Biostatisztika

11.10. példa. Lepke – konfidencia-intervallumok


Adjunk meg konfidencia-intervallumokat a hatásokra abban a modellben, amelyben
figyelembe vesszük a a kezdeti hernyótömeget, a két kezelés hatását és interakciójukat!

> lmmod10 = lm(BABTOMEG ~ TOMEG0 + TAP * HOM, data = lepke)


>
> confint(lmmod10)

2.5 % 97.5 %
(Intercept) 0.28324 0.32141
TOMEG0 -0.45296 0.83204
TAPlimitalt -0.13559 -0.07852
HOMmelegitett -0.01993 0.03066
HOMszobahom -0.03145 0.02404
TAPlimitalt:HOMmelegitett -0.05112 0.02272
TAPlimitalt:HOMszobahom -0.02943 0.05121

Ha a kezeléskombinációk csoportjaiban szeretnénk az átlagok becsléseire konfidencia-


intervallumokat kapni, akkor célszerű úgy átparaméterezni a modellt, hogy megkapjuk
az egyenesek meredekségére és y tengelymetszeteire közvetlenül a becsléseket, hiszen
ez a modell valójában a 6 kezeléskombináció csoportjai esetén szimultán illeszt párhu-
zamos egyeneseket a bábtömeg-kezdeti hernyótömeg adatokra. Az ekvivalens modell és
a konfidencia-intervallumok:

> lmmod11 = lm(BABTOMEG ~ TOMEG0 + TAP:HOM - 1, data = lepke)


>
> confint(lmmod11)

2.5 % 97.5 %
TOMEG0 -0.4530 0.8320
TAPadlibitum:HOMhutott 0.2832 0.3214
TAPlimitalt:HOMhutott 0.1708 0.2197
TAPadlibitum:HOMmelegitett 0.2885 0.3269
TAPlimitalt:HOMmelegitett 0.1632 0.2096
TAPadlibitum:HOMszobahom 0.2767 0.3206
TAPlimitalt:HOMszobahom 0.1735 0.2314

Az egyenesek meredeksége (TOMEG0 sor) nem különbözik szignifikánsan nullától (a 0 be-


leesik a konfidencia-intervallumba). A többi sorban az egyenesek y tengelymetszeteinek
95%-os konfidencia-intervallumai vannak az egyes kezelési csoportokban.
11.6. A lineáris modellek alkalmazhatóságának feltételei 367

11.6. A lineáris modellek


alkalmazhatóságának feltételei
Az alkalmazhatóság feltételei lényegében ugyanazok, mint a regressziószá-
mítás esetén, és ugyanúgy kell ellenőrizni is a modellt. Most csak két kiegé-
szítést fűzünk az ott tárgyaltakhoz. A feltételek:
1. a folytonos magyarázó változók és a függő változó közötti kapcsolat
lineáris;
2. a hiba varianciája konstans;
3. a hiba normális eloszlású;
4. a hibatagok függetlenek (független megfigyelések).
A modellekkel kapcsolatos következtetések helyessége nagyon függ a fel-
tételek teljesülésétől. Ha a modellek feltételei nem teljesülnek, akkor
a következtetéseink sem lesznek korrektek, tehát minden esetben
ellenőrizni kell modelljeinket!

11.11. példa. Lepke – diagnosztika


Végső modellünk diagnosztikái (11.12. ábra). Az ábrák alapján modellünk jónak mond-
ható. Az 53-as eset tűnik kiugrónak, de a (d) ábra alapján nem torzítja jelentős
mértékben az eredményeket. Figyeljük meg, hogy bár az 55-ös eset reziduuma nem
túl nagy, az utolsó ábra szerint mégis ennek az esetnek a legnagyobb a torzító hatása!
> par(mfrow = c(2, 2))
> plot(redmod)
> par(mfrow = c(1, 1))

11.6.1. Linearitás
Az Y várható értéke a magyarázó változók lineáris függvénye, így természe-
tesen csak akkor van értelme lineáris modellt illeszteni, ha a függvénykap-
csolat a folytonos X-ek és Y között lineáris.
A linearitást a reziduum-becsült érték (fitted values) diagramon ellen-
őrizhetjük. Ha kétségeink vannak a linearitás teljesülése tekintetében, akkor
úgy javíthatunk a modellünkön, hogy a folytonos változót faktorrá transz-
formáljuk valamilyen értelmes felosztással. Az így transzformált változót is
beillesztjük a modellbe, és F -próbával vizsgáljuk, hogy van-e hatása az így
készített faktornak. Ha igen, akkor gond van a linearitással. Vagy használjuk
az új faktort, vagy megpróbálhatjuk transzformálni a változónkat. Lássunk
egy példát!
368 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)

Standardized residuals
● 34 ● 2 34 ●

0.05 ● ● ●
● ● ●●
●● ● ●●
●●●●

●● ● ● 1 ●●●
Residuals

● ●
● ● ● ●●
●●


● ●● ●●●●●

●●●●
0.00 ●
●● ●●

● ●

● 0 ●
●●●●

● ● ●● ●
●●●●
●●● ●●●●
●●●●●
● ● ● ●●●●●●

● ●

−1 ●
●●
● ●●
−0.05 ●
20 −2 ● 20
53 ● −3 ● 53
−0.10

0.20 0.25 0.30 0.35 −2 −1 0 1 2

Fitted values Theoretical Quantiles

(c) (d)
Standardized residuals

53 ●
Standardized residuals 2 ●●

1.5 ●● 20 34 ● ●


●●●
●● 1
55 ● 0.5
●●
1 ● ●●


● ● ●● ●● ●
● ●●●●
●●
1.0
●●
● ●



0 ●●

●●●
● ● ●
● ● ● ● ●

●●

●●● ● ●
●●
●● ● ●●● ●
● ●●

● ● ●●
● ●
−1 ● 0.5

●●
●● ● ● ●● 16 ● 1
0.5 ●●

● ●●
−2 ●

● ●
● −3 ●
53 Cook's distance
0.0

0.20 0.25 0.30 0.35 0.0 0.2 0.4 0.6

Fitted values Leverage

11.12. ábra. A lepkés redukált modell diagnosztikus ábrái: reziduum-becsült érték ábra
a linearitás vizsgálatára (a), QQ-ábra a hibatag normalitásának vizsgálatára (b), szórás-
becsült érték diagram a reziduumok szórásának vizsgálatára (c), és a standardizált
reziduum-hatóerő ábra (d), valamint ábra a torzító pontok vizsgálatára

11.12. példa. Őzek – linearitás vizsgálata


Az őzes adatok esetén (9.11. példa) lehetőség van arra, hogy figyelembe vegyük a teljes
tömegre vonatkozó modellben azt, hogy milyen ivarú az állat, valamint a testhosszt,
mint kovariánst. Előzetes modellszelekció után a következő modellt kaptuk:

> oz = read.table("oz.csv", sep = ";", header = T)


> ozmod = lm(TOMEG ~ SEX + TESTH, data = oz)
> anova(ozmod)

Analysis of Variance Table

Response: TOMEG
Df Sum Sq Mean Sq F value Pr(>F)
SEX 1 162 162 29.3 3.9e-07 ***
11.6. A lineáris modellek alkalmazhatóságának feltételei 369

(a) (b)
8
● 70 8 ● 70
6 83 ● ●
● 6
4 ●
● 5883 ●

● ●
● ● ● ●● ● 4 ● ●
Residuals

Residuals

●● ●● ●
● ●●
2 ●





● ●


● ●● ●

● ● ● ● ●
● ●● ●



● ●
● ●


● 2 ●
●●
●●
●● ●
● ● ●● ● ●

●● ● ● ● ●
0 ● ●
●●
● ● ●

● ●●
● ●





● ●
● ●●
● ●● ● ● ●

● ●●● ● ●
●●
●●
● ● ● ●
0 ●●
●● ●


● ●
●●



● ●● ●
−2 ●
● ● ● ● ●


●● ● ● ●

●● ●

●●
●●
● ● ●
● ●
● ● ● ● ● ● ● ● ● ● ●
● ●
● ●

● ● −2 ●
● ● ●
●●
● ●



−4 ● ●



●●
● ●
● ●


55 −4 ● ●

−6

0 5 10 15 20 25 0 5 10 15 20 25 30

Fitted values Fitted values

11.13. ábra. A reziduumok a becsült értékek függvényében a testhossz-kategóriák


nélkül (a), és a testhossz-kategóriákkal (b) illesztett modellek esetén

TESTH 1 5120 5120 925.4 < 2e-16 ***


Residuals 108 598 6

Nézzük meg a reziduum-becsült érték szórásdiagramot (11.13. (a) ábra)!


> plot(ozmod, 1, pch = 20)
Az ábra alapján lehetnek kétségeink a linearitást illetően. Készítsünk a TESTH ko-
variánsból egy nominális változót (faktort) a cut() függvény segítségével! Argumen-
tumként meg kell adni a folytonos változót, azt, hogy hol legyenek a kategóriák határai
(breaks), majd azt, hogy a kategóriákat hogyan címkézzük (opcionális). Most összesen
három kategóriát képezünk (a kicsi, közepes és nagy őzeknek megfelelően).
> oz$TESTHfaktor = cut(oz$TESTH, breaks = c(50, 80, 110, 130),
+ labels = c("kicsi", "közepes", "nagy"))
> ozmodkat = lm(TOMEG ~ SEX + TESTH + TESTHfaktor, data = oz)

> anova(ozmodkat)

Analysis of Variance Table

Response: TOMEG
Df Sum Sq Mean Sq F value Pr(>F)
SEX 1 162 162 32.76 9.8e-08 ***
TESTH 1 5120 5120 1036.71 < 2e-16 ***
TESTHfaktor 2 74 37 7.49 9e-04 ***
Residuals 106 524 5
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Az új faktor hatása szignifikáns, ami igazolta azt a gyanúnkat, hogy linearitási problé-
máról van szó.
Nézzük meg a reziduum-becsült érték szórásdiagramot (11.13. (b) ábra):
370 Reiczigel – Harnos – Solymosi: Biostatisztika

> plot(ozmodkat, 1, pch = 20)


Láthatóan megszűnt a linearitási probléma.

11.6.2. Kiugró és torzító pontok


Általánosságban elmondhatjuk, hogy ugyanazok érvényesek itt is, mint a
regressziószámításban (9.10. fejezet).
A hatóerő számítása a vetítő mátrixból (H) történik. Bebizonyítható,
hogy az i-edik megfigyelés hatóereje éppen egyenlő a vetítő mátrix főátló-
jában álló i-edik értékkel.
A hatóerőt (hat value) – hi – a hatvalues() függvénnyel számíthatjuk
ki R-ben. Tulajdonságai:
• Az átlagos hatóerő: h̄ = p/n, ahol p a paraméterek, n a megfigyelések
száma.
• A hatóerők 1/n és 1 közé esnek.
• Egyszerű lineáris regresszió esetén a hatóerő az X értékek átlagától
mért távolságot méri (ld. 285. oldal):
1 (xi − x̄)2
hi = + Pn 2
.
n j=1 (xj − x̄)

• Többszörös regresszió esetén az X-ek átlagvektorától való távolságot


méri.
Arra nézve, hogy mikor tekinthetünk egy hatóerőt jelentősnek, nincs eg-
zakt szabály. Általában azt mondhatjuk, hogy akkor kell odafigyelni, ha
értéke meghaladja az átlagos hatóerő kétszeresét, azaz hi > 2 · p/n. Sajnos
nagy minták esetén ez a szabály nem igazán működik.
Torzító pont esetén vele és nélküle is tanácsos illeszteni a modellt – pub-
likáció esetén ez általában elvárás. Így egyszerűen követhető a torzító pont
hatása.

11.7. Modellválasztás
Előfordulhat – exploratív, előkészítő elemzés (vagy rosszul tervezett vizs-
gálat!) esetén –, hogy bizonytalanok vagyunk abban, hogy mely változókat
vonjuk be a modellbe. A következőkben felsorolt eljárások és kritériumok
ilyen esetekben segíthetnek. Ha a Kedves Olvasót bővebben érdekli a válto-
zó szelekció, akkor javasoljuk, hogy olvassa el a témáról Heinze et al. (2018)
cikkét.
11.7. Modellválasztás 371

Mindig van egy „legbővebb” (keret- vagy referencia-) modell, amelyik


az összes reménybeli magyarázó változót tartalmazza (beleértve a szóba
jöhető hatványaikat és interakcióikat is). Így minden potenciális modell úgy
tekinthető, mint ennek a legbővebb modellnek a leszűkítése.
A legbővebb modell körülhatárolásakor persze igyekszünk lehetőleg min-
den létező adatot belegyűrni. De jobb, ha mértékletesek vagyunk, a sok
irreleváns változó több gondot okozhat, mint amennyit használ (növekvő
becslési bizonytalanság, kollinearitás nagyobb esélye stb).
A mintanagyság és a változók számának összefüggésére több szabályt is
megfogalmaztak. Ezek közül talán a két legegyszerűbb:
1. A mintaelemszám legyen legalább a változók számának ötszöröse (5
változóra min. 25 eset)!
2. A mintaelemszám legyen legalább 10-zel nagyobb a változók számánál
(5 változóra min. 15 eset)!
Tehát a legbővebb modellből kiindulva, egyes változókat kihagyva keressük
a „legjobb” modellt. Ezen a ponton két kérdés merül fel:
Melyik a „legjobb” modell? Természetesen minél egyszerűbb mo-
dellt szeretnénk, lehetőleg minél kevesebb magyarázó változóval, de minél
nagyobb magyarázó erővel. Ezt többféleképpen számszerűsíthetjük, ami el-
térő kritériumokhoz vezet (ld. alább).
Hogyan találjuk meg? Legbiztosabb az összes modell kiértékelése, de
ez már 12 potenciális magyarázó változóra is 4095 modellt jelent (általá-
nosságban r-re 2r − 1). Ehelyett használhatunk különböző, ún. lépésenkénti
(stepwise) algoritmusokat (ld. 11.8 fejezet).
A végső modell. Azt tartsuk mindig szemelőtt, hogy a végső model-
lünknek szakmailag indokolhatónak és jól illeszkedőnek kell lennie akár még
annak a rovására is, hogy nem ez lesz a legnagyobb magyarázó erejű modell.

11.7.1. Mit értsünk a „legjobb” modellen?


A) A legnagyobb R2

Mint azt a regressziószámításnál láttuk, a modell magyarázó erejét szokás


a determinációs együtthatóval mérni. Ennek definíciója
SSH
R2 = 1 − ,
SST

ahol SSH a reziduális eltérés-négyzetösszeg, SST a teljes (a nullmodellhez


tartozó) eltérés-négyzetösszeg.
A baj az ezzel a kritériummal, hogy a független változók magyarázó
erejétől függetlenül mindig a legbővebb modell esetén a legnagyobb.
372 Reiczigel – Harnos – Solymosi: Biostatisztika

B) A legnagyobb korrigált R2

A korrigált R2 -et úgy kapjuk az R2 -ből, hogy egy, a magyarázó változók


számától függő korrekciót végzünk, azaz büntetjük a magyarázó változók
nagy számát (ld. 9.8.1. fejezet). A legnagyobb korrigált R2 általában már
nem a legbővebb modellhez tartozik.
Az R2 -nek, ha kihagyjuk a modellből a konstanst, nincs értelme, mert a
nevezőben lévő nullmodellnek sincs értelme (nullmodell: csak konstans van
a modellben). Így az origón átmenő regresszió esetén sincs értelme ennek a
mennyiségnek (ld. 9.5. fejezet).
11.7.2. A legszűkebb modell, amely nem különbözik
szignifikánsan a teljes modelltől
Ha néhány változót elhagyunk, akkor a reziduális eltérés-négyzetösszeg meg-
növekszik. Tegyük fel, hogy a bővebb modell p1 , a szűkebb – beágyazott
modell – p2 magyarázó változót tartalmaz (p2 < p1 ). Az elhagyott válto-
zók együttesének szignifikanciáját egy F -próbával (anova()) vizsgálhatjuk,
ahogy azt a 11.5.2. fejezetben már bemutattuk.
A legszűkebb, de a legbővebbtől szignifikánsan nem különböző modellt
úgy találhatjuk meg, hogy a változók számát addig csökkentjük, amíg van
legalább egy olyan beágyazott modell, amelyre a fenti F nem szignifikáns.
11.7.3. Információs kritériumok
Az alábbi kritériumok általánosabb modellekben (pl. általánosított lineáris
modell) is használhatók. Mindkettő a modell likelihood-on alapul – amely
az általános lineáris modellben egy konstanstól eltekintve egybeesik a re-
ziduális varianciával –, és egy korrekciós taggal „bünteti” a paraméterek
nagy számát. Az információs kritériumok alkamasak arra, hogy ne csak be-
ágyazott modelleket hasonlítsunk össze. Fontos azonban, hogy a modelleket
ugyanarra az adathalmazra illesszük (Akaike 1973).
A) Akaike-kritérium (Akaike’s information criterion), AIC

AIC = −2l(M ) + 2p,


ahol l(M ) a modellhez tartozó log-likelihood érték, ez lineáris modell esetén
−2l(M ) = n log(SSH /n). p a paraméterek száma, n pedig a megfigyelések
száma.
Minél kisebb az AIC értéke, annál nagyobb a modell magyarázó ereje.
B) Bayes-kritérium (Bayes information criterion), BIC

BIC = −2l(M ) + p ln n,
11.7. Modellválasztás 373

ahol l(M ) a modellhez tartozó log-likelihood érték, p a paraméterek száma,


n pedig a megfigyelések száma.
Ez a kritérium jobban büntet, ezáltal az egyszerűbb – kevesebb paramé-
teres – modelleket preferálja, mint az AIC. BIC esetén is minél kisebb a
BIC, annál nagyobb a magyarázó erő.

11.13. példa. Lepke – információs kritériumok


Számítsuk ki két – csak paraméterezésben különböző – (14-es és 15-ös) és egy beágya-
zott modell (3-as) esetén az AIC és BIC értékeket! Mivel az AIC és a BIC értékek csak
abban különböznek, hogy a p-t 2-vel vagy ln n-nel szorozzuk, ezért az extractAIC()
függvénynek van egy k argumentuma, amit ha 2-re állítunk (alapértelmezés), akkor az
AIC értéket, ha log(nrow(adatmátrix))-ra (az esetszám természetes alapú logarit-
musa) állítjuk, akkor a BIC értéket kapjuk.
> lmmod14 = lm(BABTOMEG ~ TOMEG0 * TAP, data = lepke)
> lmmod15 = lm(BABTOMEG ~ TOMEG0:TAP + TAP - 1, data = lepke)
> lmmod3 = lm(BABTOMEG ~ TOMEG0 + TAP, data = lepke)
> (AICmod14 = extractAIC(lmmod14))
[1] 4.0 -399.7
> (AICmod15 = extractAIC(lmmod15))
[1] 4.0 -399.7
> (AICmod3 = extractAIC(lmmod3))
[1] 3.0 -396.2
> (BICmod14 = extractAIC(lmmod14, k = log(nrow(lepke))))
[1] 4.0 -391.6
> (BICmod15 = extractAIC(lmmod15, k = log(nrow(lepke))))
[1] 4.0 -391.6
> (BICmod3 = extractAIC(lmmod3, k = log(nrow(lepke))))
[1] 3.0 -390.1
Az első szám az eredményekben egy szabadsági fok jellegű mennyiség, ezzel nem kell
foglalkoznunk. A második érték az AIC, illetve BIC.
Láthatjuk, hogy az ekvivalens modellek esetén nem különbözik egyik információs kritéri-
um értéke sem. A 3-as modellnek mind az AIC mind a BIC értéke minimálisan nagyobb,
mint a másik két modellnek.
Hasonlítsuk össze F -próbával is a modelleket!
> anova(lmmod14, lmmod3)
Analysis of Variance Table

Model 1: BABTOMEG ~ TOMEG0 * TAP


Model 2: BABTOMEG ~ TOMEG0 + TAP
Res.Df RSS Df Sum of Sq F Pr(>F)
1 52 0.0386
2 53 0.0426 -1 -0.0040 5.43 0.024 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Kiderült, hogy a két modell szignifikánsan különbözik.
374 Reiczigel – Harnos – Solymosi: Biostatisztika

11.8. Modellszelekciós eljárások


Ha a potenciális magyarázó változók száma megengedi, érdemes az összes
modell kiértékelését választani. Ha ez nem megy, akkor a szokásos módsze-
rek: egyenkénti beléptetés (forward selection), egyenkénti kihagyás
(backward selection), váltakozó beléptetés-kihagyás (stepwise selection)
és ezek különféle variációi (szoftverfüggők).
Mindegyik gyorsabb, mint az összes modell kiértékelése, de előfordulhat,
hogy jó modelleket elszalasztunk. Leggyorsabb az egyenkénti kihagyás (r
potenciális magyarázó változóval legfeljebb r modell kiértékelését jelenti),
második leggyorsabb az egyenkénti beléptetés (r potenciális magyarázó vál-
tozóval legfeljebb r(r + 1)/2 modell kiértékelését igényli).

11.8.1. Egyenkénti beléptetés


1. Minden egyes potenciális magyarázó változóval külön-külön illesztünk
egy modellt, és azt vesszük be, amelyikre a legkisebb p-értéket kapjuk,
amennyiben ez nem halad meg egy előre elhatározott küszöböt, pl.
0.05-öt (a legkisebb p-érték csak egy példa, más kritériumok is vannak,
az R például a legkisebb AIC értéket szolgáltató változót veszi be).
2. A modellbe külön-külön „belepróbáljuk” mindegyik – még benn nem
lévő – magyarázó változót, végül azzal bővítjük a modellt, amelyiknek
a legkisebb a p-értéke, amennyiben ez nem haladja meg a megadott
küszöböt (itt is lehet a p helyett az AIC vagy más kritérium).
3. A 2. lépést ismételjük addig, amíg vagy minden változó bekerül, vagy
a kinn maradók beléptetése már nem lehetséges (mindegyiknek a p-
értéke a megadott küszöb alatt marad).

11.8.2. Egyenkénti kihagyás


1. Elkészítjük a legbővebb modellt.
2. Kihagyjuk azt a magyarázó változót, amelyikhez tartozó p-érték a
legnagyobb, ha az meghalad egy előre meghatározott küszöbértéket,
pl. 0.05-öt (van más kritérium is).
3. A 2. lépést ismételjük mindaddig, amíg vagy minden változó kikerül,
vagy már egyet sem lehet kihagyni, mert mindegyiknek a p-értéke a
megadott küszöb alatt marad.
11.8. Modellszelekciós eljárások 375

11.8.3. Váltakozó beléptetés-kihagyás


Az előző kettő kombinációja. Kezdhetjük akár a legbővebb modellel és ki-
hagyással, akár a nullmodellel és beléptetéssel. Ezután a beléptetés és a
kihagyás váltakozik, amíg el nem érünk egy olyan állapotot, hogy már egy
modellbeli változó sem hagyható ki, és egy kinn lévő sem léptethető be.
Itt külön kell megadni beléptetési és kihagyási kritériumokat (küszöbö-
ket). A módszer rugalmassága (és a kiértékelendő modellek száma is) függ
e küszöbök megadásától.

11.14. példa. Lepke – lépésenkénti (stepwise) szelekció


Lépésenkénti (stepwise) szelekciós módszerrel redukáljuk a teljes modellünket a
MASS könyvtár stepAIC() függvényével (Venables & Ripley 2002)! A trace ar-
gumentumot 0-ra állítva, az R nem írja ki az egyes lépések eredményeit. A
direction = c("both", "backward", "forward") argumentum beállításával vá-
laszthatunk a különböző eljárások között. Példánkban az alapértelmezett both-t hasz-
náljuk. Az anova() függvénnyel összehasonlíthatjuk az eredeti teljes és a redukált mo-
dellt.
> teljesmod = lm(BABTOMEG ~ TOMEG0 * TAP * HOM, data = lepke)
>library(MASS)
> (redmod = stepAIC(teljesmod, trace = 0))
Call:
lm(formula = BABTOMEG ~ TOMEG0 + TAP + TOMEG0:TAP, data = lepke)

Coefficients:
(Intercept) TOMEG0 TAPlimitalt
0.29166 1.21381 -0.08775
TOMEG0:TAPlimitalt
-1.43854

> anova(teljesmod, redmod)


Analysis of Variance Table

Model 1: BABTOMEG ~ TOMEG0 * TAP * HOM


Model 2: BABTOMEG ~ TOMEG0 + TAP + TOMEG0:TAP
Res.Df RSS Df Sum of Sq F Pr(>F)
1 44 0.032874
2 52 0.038572 -8 -0.0056984 0.9534 0.4839
Ezek szerint a redukált és a teljes modell nem különbözik szignifikánsan.
Arra is lehetőség van, hogy egyenként vegyük ki a modellből a tagokat a drop1()
függvénnyel, amely kiszámítja, hogy mennyit változik így a modell illeszkedése. A mód-
szer tekintettel van a tagok hierarchiájára, azaz ha bennmarad egy interakció, akkor a
hozzátartozó főhatások is bennmaradnak.
376 Reiczigel – Harnos – Solymosi: Biostatisztika

> drop1(teljesmod, test = "F")

Single term deletions

Model:
BABTOMEG ~ TOMEG0 * TAP * HOM
Df Sum of Sq RSS AIC F value Pr(F)
<none> 0.0329 -393
TOMEG0:TAP:HOM 2 0.0021 0.0349 -393 1.38 0.26

A <none> sorban lévő AIC érték a teljes modell AIC értéke. A TOMEG0:TAP:HOM sorban
lévő AIC érték azt mutatja, hogy az ezen tag a kihagyásával készített modellnek mek-
kora az AIC értéke. A függvény a test = "F" beállítással rögtön össze is hasonlítja a
modelleket.
Az ily módon történő szelekció után érdemes a redukált modellel újra meghívni a
drop1() függvényt, mert sok esetben újabb tagok bizonyulhatnak elhagyhatónak.

11.9. Mikor használjuk az aov(),


és mikor az lm() függvényt?
A két módszer között az egyik nagy különbség abban áll, hogy az eltérés-
négyzetösszeget milyen módon bontják fel. Az aov() I. típusú, az lm() pedig
III. típusú négyzetösszegeket használ. A következőkben összefoglaljuk azt,
amit a különböző négyzetösszegekről tudni érdemes, és azt, hogy milyen
esetekben melyiket érdemes használni.

11.9.1. Négyzetösszegtípusok
I. típusú (szekvenciális, az egyes hatásokat egymás után veszi figyelembe)

A megadott faktorokat egymás után – a felsorolásuk sorrendjében – veszi be


a modellbe. Mindegyik faktor csak az őt megelőző faktorok illesztése utáni
reziduális varianciát magyarázza. Azonos cellánkénti (kezeléskombináción-
kénti) esetszámok, azaz kiegyensúlyozott elrendezés (balanced design) esetén
nem számít a sorrend, de a kiegyensúlyozatlan (unbalanced) esetben a be-
csült hatások függnek a cellánkénti esetszámoktól is és a faktorok sorrend-
jétől is! Emiatt ritkán használjuk, lényegében csak akkor, ha a faktoroknak
valamilyen természetes sorrendje van, és az elemzés során ezt szeretnénk
követni. Például polinomiális regresszió esetén a természetes sorrendet a
növekvő hatványok jelentik. Ez az a típus, amit a hagyományos ANOVA-
modellek – azonos cellánkénti esetszámokra – számolnak (bevezető statiszti-
11.9. Mikor használjuk az aov(), és mikor az lm() függvényt? 377

ka tankönyvekben ezzel találkozhat a Kedves Olvasó). Fontos tulajdonsága


ennek a négyzetösszegnek, hogy a teljes eltérés-négyzetösszeg szépen felbom-
lik az egyes faktoroknak, illetve interakcióiknak tulajdonítható részekre, és
a részek összege kiadja az egészet (ld. 319. oldal).

II. típusú (részlegesen szekvenciális)

Hasonlóan az I. típusú négyzetösszeghez, ez a típus sem vesz egyidejűleg


figyelembe bizonyos hatásokat. Amíg az I. típusú az összes előzőleg bevett
hatást figyelembe veszi, addig ez a típus – a sorrendtől függetlenül – csak a
vele egyenlő vagy alacsonyabb fokú hatásokat. Például főhatás esetén csak a
főhatásokat, másodrendű interakció esetén a főhatásokat és a másodrendű
interakciókat stb.
Ez a típus nem függ a faktorok bevételének sorrendjétől, ezért annak
az esetnek a kivételével, amikor teljes-faktoriális (főhatások és az összes
interakcióik) modellünk van nem egyenlő ismétlésszámokkal, alkalmazható.
Ezt a típust R-ben a car csomag (Fox & Weisberg 2019) Anova() (vi-
gyázat: nagy A-val!) függvényével számoltathatjuk mind aov()-val, mind
lm()-mel készült modellek esetén.
III. típusú (marginális, minden hatást szimultán vesz figyelembe)

Minden faktor esetén figyelembe veszi az összes többi faktor hatását. Általá-
ban ezt használjuk (kivéve az I. típusnál említett néhány esetet). A hatások
becslése nem függ a cellánkénti elemszámoktól, ami legtöbbször így van jól,
mert az eltérő esetszámok általában nem szándékosak. Számítása nem olyan
szemléletes, mint az I-es típusúé, az egyes faktorokhoz tartozó III. típusú
négyzetösszegek összege nem is adja ki a teljes négyzetösszeget. Regresszió-
számítással számolják, a faktorokat a már említett módon 0/1-es indikátor
változókkal kódolva (ld. 258. oldal).
Ez a három típus sajnos üres cellák esetén (olyan kezeléskombináció, ami-
nél 0 az ismétlésszám) nem működik helyesen. Üres cellák esetére találták
ki a IV-es és V-ös típusokat, de mindkettő használata nagy tapasztalatot
és óvatosságot igényel. Részletes leírást találhatunk a különböző négyzet-
összegekről a http://www.statsoft.com/textbook/stathome.html internetes
címen található elektronikus statisztika könyvben a „General Linear Mo-
dels” fejezetben.
Általánosságban – a könnyebb használhatóság miatt – kezdőknek az
aov() használatát javasoljuk, ha kiegyensúlyozott elrendezéssel, azaz azonos
ismétlésszámmal dolgoznak. Bonyolultabb modellek, nem kiegyensúlyozott
elrendezések esetén mindenképpen az lm() alkalmasabb a modellek illesz-
tésére.
378 Reiczigel – Harnos – Solymosi: Biostatisztika

11.10. Többszörös összehasonlítások


Az R multcomp és emmeans könyvtárában (Hothorn et al. 2008a; Lenth
2019) találhatók olyan függvények, amelyek lehetővé teszik a paraméterek
szimultán összehasonlítását, figyelembe véve azt, hogy a paraméterbecslések
rendszerint nem függetlenek egymástól. A 10.2. fejezetben említett össze-
hasonlításokat (Dunnett, Tukey és még sok más) lineáris modellek eseté-
re megtalálhatjuk ezekben a csomagokban. Ezen felül saját magunk által
megtervezett összehasonlítások elvégzésére is lehetőség van. Ez az eljárás
hatékonyabb a Bonferroni és a Holm módszereknél. A glht(), illetve az
emmeans() olyan függvények, amelyek általános lineáris hipotézisek teszte-
lésére szolgálnak, de paraméterezhetők úgy, hogy többszörös összehasonlí-
tásokat lehessen velük végezni. Itt most az egyszerűbb, glht()függvényt
használatát mutatjuk be. Az emmeans() függvény használata valamivel bo-
nyolultabb, de lehetséges vele interakció esetén is a többszörös összehason-
lítás.

11.15. példa. Növények magassága – többszörös összehasonlítások


Az Varianciaelemzés fejezetben már megismert „Növények magassága” példa (10.3. )
elemzését végezzük most el az lm() függvénnyel is! Illesszünk egy kétfaktoros modellt!
> tapmod1 = lm(magassag ~ tapoldat + fajta, data = adat)
>
> anova(tapmod1)

Analysis of Variance Table

Response: magassag
Df Sum Sq Mean Sq F value Pr(>F)
tapoldat 2 777.58 388.79 50.7948 1.45e-08
fajta 1 42.67 42.67 5.5743 0.02849
Residuals 20 153.08 7.65

Először végezzünk el egy Dunnett-tesztet, feltételezve, hogy a "víz" a kontroll, és ehhez


szeretnénk a többit hasonlítani. A linfct = mcp(tapoldat = "Dunnett")) argumen-
tummal mondjuk meg, hogy most többszörös összehasonlításról (mcp), a tapoldat fak-
torról, illetve Dunnett-próbáról van szó. Ez a teszt automatikusan a faktor első szintjét
tekinti kontrollnak, ezért át kell szinteznünk a faktorunkat úgy, hogy a viz legyen az első
szint. Ezt a relevel() függvénnyel tehetjük meg, amely esetén a ref argumentummal
kell beállítanunk a referenciaszintet. Ezután újra kell illesztenünk a modellt.
> adat$tapoldat = relevel(adat$tapoldat, ref = "viz")
> tapmod2 = lm(magassag ~ tapoldat + fajta, data = adat)
11.10. Többszörös összehasonlítások 379

Szimultán konfidencia-intervallumok és tesztek:


> library(multcomp)
> confint(glht(tapmod2, linfct = mcp(tapoldat = "Dunnett")))
Simultaneous Confidence Intervals

Multiple Comparisons of Means: Dunnett Contrasts

Fit: lm(formula = magassag ~ tapoldat + fajta, data = adat)

Quantile = 2.3787
95% family-wise confidence level

Linear Hypotheses:
Estimate lwr upr
hig - viz == 0 8.8750 5.5846 12.1654
tomeny - viz == 0 13.7500 10.4596 17.0404
> summary(glht(tapmod2, linfct = mcp(tapoldat = "Dunnett")))
Simultaneous Tests for General Linear Hypotheses

Multiple Comparisons of Means: Dunnett Contrasts

Fit: lm(formula = magassag ~ tapoldat + fajta, data = adat)

Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
hig - viz == 0 8.875 1.383 6.416 5.77e-06
tomeny - viz == 0 13.750 1.383 9.940 6.92e-09
(Adjusted p values reported -- single-step method)
Tehát a Dunett-teszt szerint a kezelt csoportok szignifikánsan különböznek a kont-
rolltól (p < 0.0001 mindkét esetben). A híg oldat hatására átlagosan 8.9 cm-rel
(konfidencia-intervallum: (5.6 cm, 12.2 cm)), a tömény oldat hatására átlagosan 13.8
cm-rel (konfidencia-intervallum: (10.5 cm, 17.0 cm)) nőttek magasabbra a növények.
Ha Tukey-tesztet szeretnénk végezni, azaz mindent mindennel hasonlítunk:
> confint(glht(tapmod1, linfct = mcp(tapoldat = "Tukey")))
Simultaneous Confidence Intervals

Multiple Comparisons of Means: Tukey Contrasts

Fit: lm(formula = magassag ~ tapoldat + fajta, data = adat)

Quantile = 2.5301
95% family-wise confidence level
380 Reiczigel – Harnos – Solymosi: Biostatisztika

Linear Hypotheses:
Estimate lwr upr
tomeny - hig == 0 4.8750 1.3751 8.3749
viz - hig == 0 -8.8750 -12.3749 -5.3751
viz - tomeny == 0 -13.7500 -17.2499 -10.2501

> summary(glht(tapmod1, linfct = mcp(tapoldat = "Tukey")))

Simultaneous Tests for General Linear Hypotheses

Multiple Comparisons of Means: Tukey Contrasts

Fit: lm(formula = magassag ~ tapoldat + fajta, data = adat)

Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
tomeny - hig == 0 4.875 1.383 3.524 0.00577
viz - hig == 0 -8.875 1.383 -6.416 < 0.001
viz - tomeny == 0 -13.750 1.383 -9.940 < 0.001
(Adjusted p values reported -- single-step method)

A Tukey-teszt szerint mind a három tápoldat hatása szignifikánsan különbözött egy-


mástól (p < 0.01 mindhárom esetben). A becsléseket és a konfidencia-intervallumokat
az R-outputhoz hasonló táblázatos formában érdemes közölni.

11.11. Kontrasztok az általános lineáris


modellben
Kontrasztokat nemcsak egyszerű ANOVA esetén, hanem bonyolultabb mo-
dellekben is használhatunk. Az általános lineáris modellben a kontraszt egy,
a modellparaméterekből képzett lineáris kombináció (most a modellparamé-
terek nem feltétlenül átlagok, hiszen kovariánsok is lehetnek a modellben!):
X
C= ci βi ,
i

vagy mátrixos jelöléssel


C = cT β,
ahol c = (c1 , c2 , ..., cp ) és β = (β1 , β2 , ..., βp ). Bizonyítható, hogy általá-
nos lineáris modellben a paraméterbecslés többdimenziós normális eloszlást
követ (ld. 359. oldal):
b ∼ N (β, Σ),
ahol a b vektor a paramétervektor becslése (torzítatlan), a Σ pedig a becs-
lés varianciamátrixa (Σ = σε2 (XT X)−1 ). Ebből következik, hogy bármely
11.11. Kontrasztok az általános lineáris modellben 381

kontraszt normális eloszlású, mégpedig

cT b ∼ N (cT β, cT Σc).
A cT Σc már nem egy mátrix, hanem egy szám – jelöljük σ 2 -tel. Mivel
Σ általában ismeretlen, helyette a becslésével szokás dolgozni: σ̂ 2 = cT Σ̂c.
Ha a H0 : C = C0 hipotézist akarjuk tesztelni (a leggyakoribb eset az, hogy
a C0 nulla, de lehet más is), akkor egy t-próbát kell végeznünk a következő
próbastatisztikával:
t = (cT b − C0 )/σ̂,
amely H0 mellett t-eloszlást követ (n − p) szabadsági fokkal, ahol n a
mintaelemszám, és p a becsült paraméterek száma.
Ezzel ekvivalens statisztika (az előbbinek a négyzete) az

F = (cT b − C0 )2 /σ̂ 2

statisztika, amely H0 fennállása esetén F -eloszlást követ 1 és (n − p) sza-


badsági fokokkal.

11.11.1. Kontrasztok (általános lineáris hipotézisek)


becslése és tesztelése
Az R-ben az egy faktorra vonatkozó kontrasztokat az lm() függvény egyik
paraméterében is megadhatjuk, vagy az előző fejezetben bemutatott glht()
függvénnyel is dolgozhatunk.
Ez a függvény elvégzi a becslést, kiszámítja a próbastatisztikát, elvégzi
a teszteket, és még opcionálisan konfidencia-intervallumokat is számol, ha
az eredmény objektumra a summary(), illetve confint() függvényeket al-
kalmazzuk. Különböző módszerekkel korrigálhatjuk is a p-értékeket (itt az
alapbeállítást, az ún. „single-step” módszert használjuk. Bővebb informáci-
óért lásd a glht() függvény helpjét). A modell paramétereinek becsülendő
függvényét ún. kontrasztmátrix, vagy szimbolikus kifejezés segítségével kell
megadnunk.
A kontrasztmátrix formai követelményei a következők:
• minden sora 1-1 kontraszt;
• annyi oszlopa kell legyen, ahány paramétere van a modellnek;
• az oszlopokat a modell paraméterezésének megfelelően célszerű elne-
vezni (nem kötelező nevet adni, de sokkal átláthatóbb a mátrix osz-
lopnevekkel; a modell objektumból egyszerűen megkapható úgy, ahogy
később a példákban láthatjuk);
382 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)

11.14. ábra. Lilék tömegeinek átlagai csoportonként (a) és a tömeg-jobb szárnyhossz


szórásdiagram (b)

• a sornevek tetszőlegesek, de célszerű olyan neveket választani, amik


kifejezik az egyes soroknak megfelelő kontrasztok jelentését.
A kontrasztok elkészítése még egyszerű modellek esetén sem nyilvánva-
ló, mivel faktorokhoz és interakcióikhoz kevesebb paraméter tartozik, mint
ahány szintjük van (ld. 11.3.2. fejezet). Ezért érdemes a modell paramétere-
zését úgy megválasztani, hogy egyszerűbben el lehessen készíteni a kontrasz-
tokat. Szokásos trükk az, hogy azt a faktort, amire kontrasztokat szeretnénk
készíteni, a modell első tagjaként írjuk fel, és még a konstanst is kihagyjuk a
modellből. Ezzel elérhetjük azt, hogy az ezen faktor összes szintjéhez tartozó
oszlop megjelenjen a modellmátrixban.
A következőkben bemutatunk néhány tipikus példát. Az elemzéseket
a 9.6. példában már említett széki lilés vizsgálat adataival illusztráljuk.

11.16. példa. Lile – leíró statisztikák


A lilés adatmátrixban a következő változókról találhatunk információt összesen 180
madár esetén: a befogás helye (3 elkülönülő területről származtak a lilék, melyeket „B”,
„C”, „D”-vel jelöltek), ivar (T = tojó, H = hím), testtömeg (g), jobb szárny hossza
(mm). Nézzük meg először a lilés adatok leíró statisztikáit, illetve ábrákat (11.14 (a).
ábra) azért, hogy eredményeinket össze tudjuk vetni ezekkel! Először töltsük be az
sciplot és a tables könyvtárakat (Morales et al. 2017; Murdoch 2018)!
> lile = read.table("lilemeret.txt", header = T, sep = ";")
> library(tables)
> library(sciplot)
> library(car)
11.11. Kontrasztok az általános lineáris modellben 383

> lineplot.CI(hely, tomeg, group = ivar, data = lile,


+ ylab = "Tömeg (g; átlag ± SE)", xlab = "Hely",
+ x.leg = 2.6, y.leg = 43.5, leg.lab = c("Tojó", "Hím"),
+ trace.label = "Ivar", fixed = F, type = "p",err.lty = 1:2,
+ pch = 1:2, xlim = c(0.7, 3.2), ylim = c(38, 44))

> scatterplot(tomeg ~ jszarny|ivar, data = lile,


+ smooth=T,col=rep(1,2), xlab = "Jobb szárny hossza (mm)",
+ ylab = "Tömeg (g)", legend = F)
> legend("topleft", legend = c("Tojó", "Hím"), title = "Ivar",
+ bty = "n")

> tabular( (hely*ivar) ~ (n=1) + Format(digits=2)*


+ (tomeg)*(mean + median+ sd + se), data = lile )

tomeg
hely ivar n mean median sd se
B H 11 40.95 40.40 2.31 0.70
T 16 39.70 39.30 2.72 0.68
C H 73 41.27 41.20 1.82 0.21
T 74 42.16 41.80 2.44 0.28
D H 3 40.47 40.40 1.30 0.75
T 3 40.93 40.80 0.42 0.24

11.17. példa. Lile – modell


Előzetes modellszelekció után a következő redukált modellt kaptuk a lilék tömegére
nézve.
> lilemod = lm(tomeg ~ jszarny * hely + ivar, data = lile)
> anova(lilemod)

Analysis of Variance Table

Response: tomeg
Df Sum Sq Mean Sq F value Pr(>F)
jszarny 1 105 105 24.68 1.6e-06 ***
hely 2 42 21 4.97 0.008 **
ivar 1 20 20 4.66 0.032 *
jszarny:hely 2 32 16 3.75 0.025 *
Residuals 173 738 4
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Tehát szignifikáns az ivar, a hely, a jobb szárnyhossz és ez utóbbi kettő interakciója,


azaz a különböző helyeken nem egyforma a jobb szárnyhossz és a tömeg kapcsolata.
384 Reiczigel – Harnos – Solymosi: Biostatisztika

(a) (b)

Standardized residuals
6 90 ●
● 71 3 7190


● ●●
● ●● ●●
4 ●
● ●●●

● ●
2 ●●
●●
●●
Residuals

●●
●●
● ●● ●

● ●
●●



2 ●

●●● ● ●●●● ● ●●●

● ●● ●
●●
● ●●● ●
● ●●

1 ●









●●

●●

●●



● ● ● ● ●● ● ●●


● ● ●● ● ● ●

●●
● ●● ●●
● ● ●● ●
●●

0 ●
● ●
●●

●●





●●● ●


● ● ●● ● ●
●● ●


●●

●●
●●●
● 0 ●
●●
●●

●●

●●



●●
●●

●●●●●●● ●●
● ●●● ● ●
●●

●●● ● ●●
●●


● ● ● ●●
● ●●
●●

−2 ● ●●●●●● ●●
●● ●









●●

● ●

●●● ●●
● ● ●●
●●

●●
−1 ●


●●
●●

●●

●●

●●


−4 ● ●●●

●●●●●

●●


126 −2
−6 ● 126

36 38 40 42 44 −2 −1 0 1 2

Fitted values Theoretical Quantiles

(c) (d)
Standardized residuals

90
Standardized residuals

● 71
● ● 126
● 3 ●

1.5 ● ●



● 19

● ●


●●
●● ●
● ●●
●●
2 ●


●● ●

● ● ● ● ●
●●


● ● ● ● ●●
●● ●●
● ●●

1.0 ●●

● ● ●●●●
●●●●

●●●●●●

● ● ● 1 ●

●●●



●●

●●

● 1
● ● ●● ●●●


● ●

●●●


●●●●●● 0.5
● ● ●● ●
●● ●


●●
●● ●

● ●●●●
● ● ●●
● ●●●● ●

● ● ●

●● ●● ●●
0 ●








●●
●●

●●●
●●
● ●●
● ●

● ● ● ●●
●●●● ● ●● ● ●

●●●
● ●
0.5
●●●●
●●●●
−1 ● 1
0.5 ●
● ●



● ●
● ● ● ●●●

●● ●●●




●●




●●●●


● ●
● 101 ●
● ● ●

●● ● ● ●
● 109



●●
●●● ●● −2


● ●
● ● Cook's distance
0.0 −3

36 38 40 42 44 0.0 0.2 0.4 0.6 0.8

Fitted values Leverage

11.15. ábra. A modell diagnosztikus ábrái

A modell diagnosztikus ábrái (11.15.):


> par(mfrow = c(2, 2))
> plot(lilemod)
> par(mfrow = c(1, 1))
Ezen ábrák alapján úgy tűnik, hogy a modellel nincs probléma.

11.18. példa. Lile – átlagok becslése


A modell:
> (mod1 = lm(tomeg ~ hely + ivar, data = lile))
Call:
lm(formula = tomeg ~ hely + ivar, data = lile)

Coefficients:
(Intercept) helyC helyD ivarT
39.871 1.562 0.545 0.568
11.11. Kontrasztok az általános lineáris modellben 385

A hely faktor szintjeinek megfelelő csoportok tömegátlagaira a következő kontraszt-


mátrix segítségével végezhetünk becsléseket, ha csak két főfaktor van a modellben:
> Kontmat1 = matrix(0, 3, 4, dimnames = list(c("B", "C", "D"),
+ names(mod1$coefficients)))
> Kontmat1[1, ] = c(1, 0, 0, 1/2)
> Kontmat1[2, ] = c(1, 1, 0, 1/2)
> Kontmat1[3, ] = c(1, 0, 1, 1/2)
Így a mátrix:
> Kontmat1
(Intercept) helyC helyD ivarT
B 1 0 0 0.5
C 1 1 0 0.5
D 1 0 1 0.5
Az első értékadással elkészítünk egy nullákkal feltöltött 3 × 4-es mátrixot. A dimnames
argumentumban megadott lista első eleme tartalmazza a sorok neveit, második eleme
az oszlopokét, amit a modell objektumból nyertünk ki.
A kód következő három sorában adjuk meg a kontrasztokat (a mátrix sorai). Tudjuk,
hogy ebben a modellfelírásban az (intercept) a hely faktor első szintjének a (B) felel
meg, így ha erre szeretnénk becslést végezni, akkor ide egy 1-est, a másik két szinthez
pedig 0-át kell írnunk. Az utolsó helyre, ami már a tojóknak megfelelő ivarhoz tartozik
(pontosabban a hímekhez képesti eltérést mutatja) 1/2-et írtunk. Így érhetjük el azt,
hogy az ivar átlagos szintjéhez becsüljük a hely faktor megfelelő szintjeit.
A második sor két 1-essel kezdődik, mivel a hely faktor második szintjének becslését a
(intercept) + helyC adja a hímek esetén. Az utolsó sor hasonló logikával készült a
faktor harmadik szintjére.
A becslés:
> library(multcomp)
>
> mod1.ht = glht(mod1, linfct = Kontmat1)
> summary(mod1.ht)
Simultaneous Tests for General Linear Hypotheses

Fit: lm(formula = tomeg ~ hely + ivar, data = lile)

Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
B == 0 40.1548 0.4282 93.77 <2e-16 ***
C == 0 41.7164 0.1831 227.89 <2e-16 ***
D == 0 40.7000 0.9061 44.92 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)
Ha a konfidencia-intervallumra vagyunk kíváncsiak, akkor a következőt gépeljük be!
386 Reiczigel – Harnos – Solymosi: Biostatisztika

> confint(mod1.ht)
Simultaneous Confidence Intervals

Fit: lm(formula = tomeg ~ hely + ivar, data = lile)

Quantile = 2.4098
95% family-wise confidence level

Linear Hypotheses:
Estimate lwr upr
B == 0 40.1548 39.1229 41.1867
C == 0 41.7164 41.2753 42.1576
D == 0 40.7000 38.5166 42.8834

Ha kihagyjuk a modellből a konstanst, akkor a modell és a kontrasztmátrix a követke-


zőképpen módosul (az eredmények persze ugyanazok lesznek):
> (mod2 = lm(tomeg ~ hely + ivar - 1, data = lile))
Call:
lm(formula = tomeg ~ hely + ivar - 1, data = lile)

Coefficients:
helyB helyC helyD ivarT
39.871 41.432 40.416 0.568
A kontrasztmátrix:
> Kontmat2 = matrix(0, 3, 4, dimnames = list(c("B",
+ "C", "D"), names(mod2$coefficients)))
>
> Kontmat2[1, ] = c(1, 0, 0, 1/2)
> Kontmat2[2, ] = c(0, 1, 0, 1/2)
> Kontmat2[3, ] = c(0, 0, 1, 1/2)
A becslések:
> mod2.ht = glht(mod2, linfct = Kontmat2)
> summary(mod2.ht)
>
Simultaneous Tests for General Linear Hypotheses

Fit: lm(formula = tomeg ~ hely + ivar - 1, data = lile)

Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
B == 0 40.1548 0.4282 93.77 <2e-16 ***
C == 0 41.7164 0.1831 227.89 <2e-16 ***
D == 0 40.7000 0.9061 44.92 <2e-16 ***
---
11.11. Kontrasztok az általános lineáris modellben 387

95% family−wise confidence level

B ( ● )

C ( ● )

D ( ● )

39 40 41 42 43

Átlagbecslések és konfidencia−intervallumok

11.16. ábra. A modellből kapott átlagbecslések és konfidencia-intervallumok

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)

És a konfidencia-intervallumok:
> confint(mod2.ht)

Simultaneous Confidence Intervals

Fit: lm(formula = tomeg ~ hely + ivar - 1, data = lile)

Quantile = 2.4099
95% family-wise confidence level

Linear Hypotheses:
Estimate lwr upr
B == 0 40.1548 39.1229 41.1868
C == 0 41.7164 41.2753 42.1576
D == 0 40.7000 38.5165 42.8835

Az így kapott átlagbecsléseket és konfidencia-intervallumokat a plot() függvénnyel


ábrázolhatjuk (11.16. ábra).
388 Reiczigel – Harnos – Solymosi: Biostatisztika

11.19. példa. Lile – többszörös összehasonlítások


Többszörös összehasonlítások esetén, ha nem akarunk mindent mindennel hasonlítani az
eljárás a következő. Mivel most csak a különbségek érdekesek, ezért csak az összehason-
lítandó faktorszinteknek megfelelő helyeken lesz 1-es, illetve −1-es a kontrasztmátrixban
a konstans nélküli modellben, minden más helyen 0-ák lesznek.
> Kontmat3 = matrix(0, 2, 4, dimnames = list(c("C-B", "D-B"),
+ names(mod23$coefficients)))
> Kontmat3[1, ] = c(-1, 1, 0, 0)
> Kontmat3[2, ] = c(-1, 0, 1, 0)
A becslés:
> mod3.ht = glht(mod2, linfct = Kontmat3)
> summary(mod3.ht)
> confint(mod3.ht)

> summary(mod3.ht)

Simultaneous Tests for General Linear Hypotheses

Fit: lm(formula = tomeg ~ hely + ivar - 1, data = lile)

Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
C-B == 0 1.5616 0.4656 3.354 0.00193 **
D-B == 0 0.5452 1.0022 0.544 0.81723
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)

> confint(mod3.ht)

Simultaneous Confidence Intervals

Fit: lm(formula = tomeg ~ hely + ivar - 1, data = lile)

Quantile = 2.2405
95% family-wise confidence level

Linear Hypotheses:
Estimate lwr upr
C-B == 0 1.5616 0.5183 2.6049
D-B == 0 0.5452 -1.7002 2.7905
11.11. Kontrasztok az általános lineáris modellben 389

11.20. példa. Lile – kovariáns


Ha kovariáns is van a modellben (de nem áll interakcióban), akkor becslés esetén annak
adott szintjéhez – például átlagához – úgy kell felírnunk a kontrasztmátrixot, hogy a
kovariánsnak megfelelő helyre beírjuk ezt az értéket. Többszörös összehasonlítás esetén
ugyanúgy járunk el, mint az előző példában, azaz a kovariánsnak megfelelő oszlopba is
nullákat írunk.
> (mod4 = lm(tomeg ~ hely + ivar + jszarny - 1, data = lile))

Call:
lm(formula = tomeg ~ hely + ivar + jszarny - 1, data = lile)

Coefficients:
helyB helyC helyD ivarT jszarny
16.480 17.896 17.450 0.668 0.218

A kontrasztmátrix:
> atlagJszarny = mean(lile$jszarny)
> Kontmat4 = matrix(0, 3, 5, dimnames = list(c("B", "C", "D"),
+ names(mod4$coefficients)))
> Kontmat4[1, ] = c(1, 0, 0, 1/2, atlagJszarny)
> Kontmat4[2, ] = c(0, 1, 0, 1/2, atlagJszarny)
> Kontmat4[3, ] = c(0, 0, 1, 1/2, atlagJszarny)
> Kontmat4

helyB helyC helyD ivarT jszarny


B 1 0 0 0.5 107.5889
C 0 1 0 0.5 107.5889
D 0 0 1 0.5 107.5889

A becslések:
> mod4.ht = glht(mod4, Kontmat4)
> summary(mod4.ht)
> confint(mod4.ht)

> summary(mod4.ht)

Simultaneous Tests for General Linear Hypotheses

Fit: lm(formula = tomeg ~ hely + ivar + jszarny - 1, data = lile)

Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
B == 0 40.2577 0.4052 99.35 <2e-16 ***
C == 0 41.6739 0.1732 240.61 <2e-16 ***
D == 0 41.2278 0.8634 47.75 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)
390 Reiczigel – Harnos – Solymosi: Biostatisztika

> confint(mod4.ht)

Simultaneous Confidence Intervals

Fit: lm(formula = tomeg ~ hely + ivar + jszarny - 1, data = lile)

Quantile = 2.4097
95% family-wise confidence level

Linear Hypotheses:
Estimate lwr upr
B == 0 40.2577 39.2813 41.2342
C == 0 41.6739 41.2566 42.0913
D == 0 41.2278 39.1472 43.3084

11.21. példa. Lile – interakció


Ha csak két faktorunk van, és ezek interakciója szignifikáns, akkor az átlagbecslést és
a korrekció nélküli p-érték és konfidencia-intervallum számítást elvégezhetjük a modell
egyszerű átparaméterezésével, ahogy azt már a 355. oldalon megmutattuk.
> mod5 = lm(tomeg ~ hely:ivar - 1 + jszarny, data = lile)
Call:
lm(formula = tomeg ~ hely:ivar - 1 + jszarny, data = lile)

Coefficients:
jszarny helyB:ivarH helyC:ivarH helyD:ivarH helyB:ivarT
0.2109 18.0129 18.5096 18.7421 17.3559
helyC:ivarT helyD:ivarT
19.4543 18.2948
> library(gmodels)
> ci(mod5)
Estimate CI lower CI upper Std. Error p-value
jszarny 0.2109 0.1183 0.3035 0.04692 1.268e-05
helyB:ivarH 18.0129 7.8677 28.1581 5.14001 5.826e-04
helyC:ivarH 18.5096 8.5053 28.5139 5.06861 3.448e-04
helyD:ivarH 18.7421 8.9116 28.5727 4.98058 2.296e-04
helyB:ivarT 17.3559 7.4915 27.2203 4.99776 6.508e-04
helyC:ivarT 19.4543 9.4726 29.4360 5.05719 1.680e-04
helyD:ivarT 18.2948 8.0745 28.5152 5.17809 5.267e-04
Korrigált becsléseket egy 7-ed rendű diagonális kontrasztmátrix segítségével kapha-
tunk.
> Kontmat5 = diag(1, 7)
> rownames(Kontmat5) = names(mod5$coefficients)
11.11. Kontrasztok az általános lineáris modellben 391

A becslések:
mod5.ht = glht(mod5, Kontmat5)
summary(mod5.ht)
confint(mod5.ht)

> summary(mod5.ht)

Simultaneous Tests for General Linear Hypotheses

Fit: lm(formula = tomeg ~ hely:ivar - 1 + jszarny, data = lile)

Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
jszarny == 0 0.21092 0.04692 4.495 < 0.001 ***
helyB:ivarH == 0 18.01293 5.14001 3.504 < 0.001 ***
helyC:ivarH == 0 18.50959 5.06861 3.652 < 0.001 ***
helyD:ivarH == 0 18.74213 4.98058 3.763 < 0.001 ***
helyB:ivarT == 0 17.35589 4.99776 3.473 < 0.001 ***
helyC:ivarT == 0 19.45429 5.05719 3.847 < 0.001 ***
helyD:ivarT == 0 18.29482 5.17809 3.533 0.00109 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)

> confint(mod5.ht)

Simultaneous Confidence Intervals

Fit: lm(formula = tomeg ~ hely:ivar - 1 + jszarny, data = lile)

Quantile = 2.1561
95% family-wise confidence level

Linear Hypotheses:
Estimate lwr upr
jszarny == 0 0.2109 0.1098 0.3121
helyB:ivarH == 0 18.0129 6.9306 29.0953
helyC:ivarH == 0 18.5096 7.5812 29.4380
helyD:ivarH == 0 18.7421 8.0035 29.4808
helyB:ivarT == 0 17.3559 6.5802 28.1316
helyC:ivarT == 0 19.4543 8.5505 30.3581
helyD:ivarT == 0 18.2948 7.1303 29.4593

Bonyolultabb modell esetén a további tagokat a modell végére írjuk. Faktorok esetén
az 1/(szintek száma)-át írunk be (átlagos szint), kovariáns esetén pedig azt az értéket,
amelynél kíváncsiak vagyunk a becslésre.
392 Reiczigel – Harnos – Solymosi: Biostatisztika

Többszörös összehasonlítás esetén megint csak az összehasonlítandó paraméterek-


nek megfelelő oszlopokban lesz 1, illetve −1 a kontrasztmátrixban, az összes többi
helyre 0-ák kerülnek.
Faktor és kovariáns interakciója esetén, ha a következő modellparaméterezést alkal-
mazzuk, megkapjuk a csoportonként illesztett egyenesek meredekségeit (interakciókhoz
tartozó becslések):
> (mod6 = lm(tomeg ~ hely + ivar + hely:jszarny - 1, data = lile))

Call:
lm(formula = tomeg ~ hely + ivar + hely:jszarny - 1, data = lile)
Coefficients:
helyB helyC helyD ivarT
-13.169 23.478 28.273 0.785
helyB:jszarny helyC:jszarny helyD:jszarny
0.494 0.166 0.114

Becslés esetén az interakcióknak megfelelő oszlopokba kell beírni a kovariáns megfelelő


értékét – ami különböző csoportok esetén más és más lehet –, most például 100-at, ha
100 mm-es szárnyhossz esetére számoljuk a becsléseket:
> Kontmat6 = matrix(0, 3, 7, dimnames = list(c("B", "C", "D"),
+ names(mod6$coefficients)))
> Kontmat6[1, ] = c(1, 0, 0, 1/2, 100, 0, 0)
> Kontmat6[2, ] = c(0, 1, 0, 1/2, 0, 100, 0)
> Kontmat6[3, ] = c(0, 0, 1, 1/2, 0, 0, 100)
> mod6.ht = glht(mod6,Kontmat6)
> summary(mod6.ht)

Simultaneous Tests for General Linear Hypotheses

Fit: lm(formula = tomeg ~ hely + ivar + hely:jszarny - 1, data = lile)

Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
B == 0 36.6390 0.8839 41.45 <2e-16 ***
C == 0 40.4272 0.4381 92.28 <2e-16 ***
D == 0 40.1088 1.2946 30.98 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)

> confint(mod6.ht)

Simultaneous Confidence Intervals

Fit: lm(formula = tomeg ~ hely + ivar + hely:jszarny - 1, data = lile)

Quantile = 2.4101
95% family-wise confidence level
11.11. Kontrasztok az általános lineáris modellben 393

Linear Hypotheses:
Estimate lwr upr
B == 0 36.6390 34.5088 38.7693
C == 0 40.4272 39.3714 41.4830
D == 0 40.1088 36.9886 43.2289

Többszörös összehasonlítások esetén a mátrix:


> Kontmat7 = matrix(0, 3, 7, dimnames = list(c("C-B", "D-B", "D-C"),
+ names(mod6$coefficients)))
> Kontmat7[1, ] = c(-1, 1, 0, 0, -100, 100, 0)
> Kontmat7[2, ] = c(-1, 0, 1, 0, -100, 0, 100)
> Kontmat7[3, ] = c(0, -1, 1, 0, 0, -100, 100)
> mod7.ht = glht(mod6,Kontmat7)

> summary(mod7.ht)

Simultaneous Tests for General Linear Hypotheses

Fit: lm(formula = tomeg ~ hely + ivar + hely:jszarny - 1, data = lile)

Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
C-B == 0 3.7881 0.9844 3.848 0.000436 ***
D-B == 0 3.4697 1.5757 2.202 0.070164 .
D-C == 0 -0.3184 1.3677 -0.233 0.969575
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)

> confint(mod7.ht)

Simultaneous Confidence Intervals

Fit: lm(formula = tomeg ~ hely + ivar + hely:jszarny - 1, data = lile)

Quantile = 2.3435
95% family-wise confidence level

Linear Hypotheses:
Estimate lwr upr
C-B == 0 3.7881 1.4813 6.0950
D-B == 0 3.4697 -0.2227 7.1622
D-C == 0 -0.3184 -3.5236 2.8868
11.22. példa. Lile – meredekségek
Ha egy interakció faktor és kovariáns között szignifikánsnak bizonyult, az azt jelenti,
hogy a különböző csoportokban az egyenesek meredeksége más és más. A meredekségek
összehasonlítása az előbbi modell felhasználásával:
> Kontmat8 = matrix(0, 3, 7, dimnames = list(c("C-B", "D-B", "D-C"),
+ names(mod6$coefficients)))
> Kontmat8[1, ] = c(0, 0, 0, 0, -1, 1, 0)
> Kontmat8[2, ] = c(0, 0, 0, 0, -1, 0, 1)
> Kontmat8[3, ] = c(0, 0, 0, 0, 0, -1, 1)
> mod8.ht = glht(mod6,Kontmat8)

> summary(mod8.ht)

Simultaneous Tests for General Linear Hypotheses

Fit: lm(formula = tomeg ~ hely + ivar + hely:jszarny - 1, data = lile)

Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
C-B == 0 -0.32859 0.12223 -2.688 0.020 *
D-B == 0 -0.37973 0.22143 -1.715 0.193
D-C == 0 -0.05114 0.19728 -0.259 0.962
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)

> confint(mod8.ht)

Simultaneous Confidence Intervals

Fit: lm(formula = tomeg ~ hely + ivar + hely:jszarny - 1, data = lile)

Quantile = 2.337
95% family-wise confidence level

Linear Hypotheses:
Estimate lwr upr
C-B == 0 -0.32859 -0.61424 -0.04293
D-B == 0 -0.37973 -0.89720 0.13775
D-C == 0 -0.05114 -0.51219 0.40991
Függelék

395
A. Konfidencia-intervallumok
képletei
A képletek elsősorban a statisztika dolgozatokra való felkészüléshez kellenek,
egyébként konfidencia-intervallumokat is kényelmesebb az R-rel számolni.
Figyelem, az R-ben a konfidencia-intervallumok gyakran a statisztikai pró-
bákhoz kötődnek, ezért ha egy konfidencia-intervallumra nem találunk R-
függvényt, érdemes a rokon statisztikai próbákat végző függvények között
is szétnézni. R-es példákat a könyvben sok helyütt – és a könyv honlap-
ján is – találhatunk. Az alábbiakban a kézi számolások mellett megadunk
olyan R-csomagokat, illetve függvényeket, amelyekkel az adott konfidencia-
intervallum kiszámítható.
Az ismertetett képletek kétoldali konfidencia-intervallumokat szolgáltat-
nak. Ha egyoldali intervallumra van szükség, a 131. oldalon írottak szerint
kell eljárni.
Kétoldali (1 − α) szintű intervallumhoz a megfelelő eloszlás α/2 valószí-
nűséghez tartozó kritikus értékét kell használnunk: ez 95%-os intervallum
esetén a 0.025 valószínűséghez tartozó kritikus érték. (Ha az eloszlás nem
szimmetrikus, mint például a khi-négyzet-eloszlás, akkor két kritikus érték-
re van szükség, nevezetesen a fenti mellett még az (1 − α/2) valószínűséghez
tartozóra is: 95%-os intervallum esetén ez a 0.975 valószínűséghez tartozó
kritikus érték.)

A.1. Normális eloszlású változó átlaga


Ha ismerjük a vizsgált változó populációbeli szórását, σ-t, akkor a konfidencia-
intervallum az ismeretlen populációátlagra (várható értékre):

σ σ
 
x̄ − zkrit √ , x̄ + zkrit √ ,
n n

397
398 Reiczigel – Harnos – Solymosi: Biostatisztika

ahol x̄ a mintaátlag, zkrit a normális eloszlás kritikus értéke, és n a minta-


elemszám (vö. 142. oldal).
Ha a vizsgált változó populációbeli szórását, σ-t nem ismerjük, hanem
ugyanabból a mintából kell megbecsülnünk, amelyikből az átlagot, akkor
a normális eloszlás kritikus értéke helyett a Student-féle t-eloszlásét kell
használnunk, így a konfidencia-intervallum:

s s
 
x̄ − tkrit √ , x̄ + tkrit √ ,
n n

ahol s a σ becslése a mintából (a korrigált tapasztalati szórás), x̄ a minta-


átlag, tkrit az (n − 1) szabadsági fokú t-eloszlás kritikus értéke, n pedig a
minta elemszáma.
R-függvények: ci() vagy t.test().

A.1. példa. Csibék testtömege – konfidencia-intervallum az átlagra


Húsz tíznapos csibe testtömegének átlaga x̄ = 88.6 gramm, szórása s = 3.8 gramm
volt. Adjunk 90%-os konfidencia-intervallumot e minta alapján a tíznapos csibék átlagos
testtömegére!
Mivel az átlagot és a szórást ugyanabból a mintából számoltuk, a t-eloszlással kell
dolgoznunk. Az (n − 1) = 19 szabadsági fokú t-eloszlás kritikus értéke 1.729, így a
konfidencia-intervallum:
 
3.8 3.8
88.6 − 1.729 · √ g , 88.6 + 1.729 · √ g = (87.1g, 90.1g).
20 20

Nagy mintára ez az intervallum (közelítő megoldásként) akkor is hasz-


nálható, ha a vizsgált változó nem normális eloszlású. (Azt, hogy a minta
mikor „elég nagy” ahhoz, hogy a mintaátlagot már jó közelítéssel normális
eloszlásúnak tekinthessük, megoszlanak a vélemények. Ha kétségeink van-
nak, kérdezzünk meg egy statisztikust!)

A.2. Két normális eloszlású változó átlaga


közötti különbség
A vizsgálat típusa szerint két esetet kell megkülönböztetni. Párosított min-
tás elrendezésről akkor beszélünk, ha a két változót lehetőleg minél több
szempontból hasonló párokon, vagy egyenesen ugyanazokon a megfigyelé-
si egységeken mérjük (önkontrollos elrendezés). Független mintás elrende-
A.2. Két normális eloszlású változó átlaga közötti különbség 399

zésben a két változót két egymástól függetlenül kiválasztott mintán mér-


jük. Párosított mintákkal – minden egyebet azonosnak feltételezve – ponto-
sabb becslést kapunk (keskenyebb lesz a konfidencia-intervallum), de sokszor
nincs rá lehetőség, hogy ilyen elrendezést használjunk (vö. 7.1.3. fejezet).

A.2. példa. Párosított és független mintás vizsgálatok


Ha arra vagyunk kíváncsiak, hogy az éttermekben hétfőn vagy kedden nagyobb-e az
átlagos forgalom, akkor gyűjthetünk adatokat ugyanazon 100 étterem hétfői és keddi
forgalmáról (önkontrollos), vagy vehetjük 100 étterem hétfői és másik 100 étterem keddi
adatait (független mintás). Legtöbben – helyesen – az első megoldást választanák.
De ha azt szeretnénk megbecsülni, átlagosan mennyit változik az emberek testtömege
60 és 70 éves koruk között, akkor – hacsak nem akarunk 10 évet várni az eredményre
– független mintás vizsgálatot fogunk végezni.

Párosított minták esetén először is minden párra kiszámítjuk a két mért


érték különbségét (d), majd ezekből az előző bekezdés szerint szerkesztünk
konfidencia-intervallumot:
sd sd
 
d¯ − tkrit √ , d¯ + tkrit √ ,
n n

ahol d¯ a különbségek átlaga, sd a különbségek becsült szórása (a különbség


szórását szinte mindig a mintából kell becsülnünk), n a mintaelemszám (úgy
értve, hogy a párok száma n), tkrit pedig az (n−1) szabadsági fokú t-eloszlás
kritikus értéke.
R-függvény: t.test().

A.3. példa. Csibék testtömege – konfidencia-intervallum a gyarapodásra


Az előző húsz csibét megmértük húsznapos korukban is. A csibék azonosító jellel voltak
ellátva, így a tíz- és húsznapos kori testtömegeket összetartozó párokba tudtuk rendez-
ni (párosított minták), és a csibénkénti súlygyarapodásokkal tudtunk számolni. Ezek
átlaga d¯ = 81.8 gramm, szórása sd = 9.4 gramm volt. Adjunk 95%-os konfidencia-
intervallumot a gyarapodásra!
A t-eloszlás kritikus értéke 2.093, amivel a konfidencia-intervallum:
 
9.4 9.4
81.8 − 2.093 · √ g, 81.8 + 2.093 · √ g = (77.9g, 85.7g).
20 20
400 Reiczigel – Harnos – Solymosi: Biostatisztika

Megjegyzések:
• Párosított mintás vizsgálat esetén nem kell, hogy mindkét változó nor-
mális eloszlású legyen, elegendő, ha a különbség normális eloszlású.
• Nagy minták esetén az intervallum közelítőleg érvényes akkor is, ha a
különbség nem normális eloszlású.
Ha a két változót két független mintán mérjük, akkor ismert σ1 , σ2 szó-
rások esetén a konfidencia-intervallum:
 s s 
(x̄1 − x̄2 ) − zkrit
σ12 σ22 σ12 σ22 
+ , (x̄1 − x̄2 ) + zkrit + ,
n1 n2 n1 n2

ahol x̄1 és x̄2 a mintaátlagok, n1 és n2 a mintaelemszámok, zkrit pedig a


normális eloszlás kritikus értéke.
A vizsgált változók normalitásából következik, hogy mind az x̄1 , mind az x̄2 normális
eloszlású, mégpedig µ1 , illetve µ2 várható értékkel és σ12 /n1 , illetve σ22 /n2 varianciával. Eb-
ből következik, hogy az (x̄1 − x̄2 ) is normális
p eloszlású, mégpedig (µ1 −µ2 ) várható értékkel
és (σ12 /n1 +σ22 /n2 ) varianciával, azaz σ12 /n1 + σ22 /n2 szórással. Vagyis (x̄1 − x̄2 ) torzítat-
p
lan becslése az átlagok különbségének, (µ1 − µ2 )-nek, és SE(x̄1 − x̄2 ) = σ12 /n1 + σ22 /n2 .
A fenti intervallum tehát „pontbecslés ±zkrit SE” típusú (vö. 5.4. fejezet).

A szórások persze általában ismeretlenek, de ekkor is használhatjuk ugyan-


ezt a képletet, csak a σ1 és σ2 helyére a mintából becsült s1 és s2 szórásokat,
a normális eloszlás kritikus értéke helyett pedig a t-eloszlás megfelelő kriti-
kus értékét kell írnunk, azaz
 s s 
s21 s2 s21 s2
(x̄1 − x̄2 ) − tkrit + 2 , (x̄1 − x̄2 ) + tkrit + 2 .
n1 n2 n1 n2

A szabadsági fok képlete bonyolult, csak a rend kedvéért adjuk meg, kéz-
zel az ember ilyet már úgysem számol, csak számítógépes programmal (ha
mégis papíron kell számolnunk, a szabadsági fokot kerekíteni kell, különben
a t-táblázatból nem tudjuk kinézni a kritikus értéket).

(n2 s21 + n1 s22 )2


df = .
(n2 s21 )2 (n1 s22 )2
+
n1 − 1 n2 − 1
Ez a Welch-féle konfidencia-intervallum, amely – bár csak közelítő érvé-
nyű (a 95%-osnak szánt nem biztos, hogy tényleg 95%-os) –, de nem rossz
közelítés. A számítógépes programokban ezt az intervallumot olyan megjelö-
léssel találjuk meg, hogy „amelynek nem feltétele a varianciák egyenlősége”.
A.3. Normális eloszlású változó varianciája, illetve szórása 401

Van ugyanis egy másik konfidencia-intervallum is ugyanerre a feladatra –


az eredeti Student-féle – amely egzakt ugyan, de csak akkor, ha az isme-
retlen szórások, σ1 és σ2 , egyenlők. Ha nem, akkor akár sokkal rosszabb is
lehet, mint a Welch-féle, különösen ha a mintaelemszámok nagyon eltérnek.
Ezért azt javasoljuk, hogy a Kedves Olvasó használja mindig a Welch-féle
intervallumot!
Mi azért – a Student álnéven publikáló William Sealy Gosset (1876-1937) tiszteletére –
ismertetjük ezt is. Gossetnek, aki a Guinness sörfőzde munkatársa volt, azért kellett álne-
vet használnia, mert a cég – elkerülendő a gyártási titkok kiszivárogtatását – megtiltotta,
hogy alkalmazottai cikkeket jelentessenek meg, tekintet nélkül az írások témájára.
Az alapgondolat az, hogy ha a szórások egyenlőek, akkor pontosabb becslést eredmé-
nyez, ha nem külön-külön becsüljük őket, hanem a két mintából egy közös szórásbecslést
számolunk. Ez a közös szórásbecslés úgy készül, hogy vesszük minden mintaelemnek a
saját mintaátlagától való négyzetes eltérését, ezeket a négyzetes eltéréseket összegezzük
(ez áll a számlálóban), majd ezt elosztjuk a szabadsági fokával, ami n1 + n2 − 2, mert a
négyzetösszegek számításához két paramétert (a két átlagot) kell a mintából becsülni. A
szórás becslése ennek megfelelően:
r
(n1 − 1)s21 + (n2 − 1)s22
s= ,
n1 + n2 − 2

amellyel a konfidencia-intervallum:
r r !
s2 s2 s2 s2
(x̄1 − x̄2 ) − tkrit + , (x̄1 − x̄2 ) + tkrit + .
n1 n2 n1 n2

A gyök alatti kifejezést egyszerűbb alakra is hozhattuk volna, de inkább mégsem


tettük: így világosan látszik, hogy a Student- és a Welch-féle konfidencia-intervallumok
csak a szórásbecslésben, és ennek következményeként a szabadsági fokban különböznek
egymástól.

A.3. Normális eloszlású változó varianciája,


illetve szórása
A varianciára vonatkozó konfidencia-intervallum:
!
(n − 1)s2 (n − 1)s2
, ,
χ21 χ22

ahol s a tapasztalati variancia (a korrigált mintavariancia), n a mintaelem-


szám, χ21 és χ22 pedig a khi-négyzet-eloszlás α/2-höz és (1−α/2)-höz tartozó
kritikus értékei (95%-os intervallum esetén a 0.025 és a 0.975 valószínűség-
hez tartozó kritikus értékek).
402 Reiczigel – Harnos – Solymosi: Biostatisztika

A konfidencia-intervallum azon alapul, hogy az

(n − 1)s2
σ2
statisztika pivot, eloszlása (n − 1) szabadsági fokú khi-négyzet-eloszlás (higgyük el bi-
zonyítás nélkül). Ezért a khi-négyzet-eloszlás megfelelő kritikus értékeire (χ21 , χ22 ) igaz,
hogy  
2 (n − 1)s2 2
P χ2 ≤ ≤ χ1 = 1 − α.
σ2
Az egyenlőtlenséget átrendezve:
 
(n − 1)s2 (n − 1)s2
P 2
≤ σ2 ≤ = 1 − α,
χ1 χ22

ami a fenti konfidencia-intervallumot adja.

Ha a szórásra szeretnénk konfidencia-intervallumot, akkor a varianciára


kapott intervallum végpontjaiból négyzetgyököt kell vonnunk.

A.4. példa. Csibék testtömege – konfidencia-intervallum a szórásra


Adjunk most 90%-os konfidencia-intervallumot a tíznapos csibék (lásd a 398. oldalon)
testtömegének szórására! (Figyelem, tehát a mintabeli s = 3.8 grammos szórás alapján
az ismeretlen, populációbeli szórásra!)
A mintabeli variancia a szórás négyzete, s2 = 3.82 g2 = 14.4g2 . Az n − 1 = 19 szabad-
sági fokú khi-négyzet-eloszlás kritikus értékei 30.144 és 10.117. A 90%-os konfidencia-
intervallum a varianciára:
19 · 14.4 2 19 · 14.4 2
 
g , g = (9.08g2 , 27.04g2 ),
30.144 10.117
ahonnan a konfidencia-intervallum a szórásra: (3.0g, 5.2g).

A.4. Valószínűség (populációbeli arány)


Valószínűség becslésére gyakran van szükség, mivel valószínűséggel model-
lezzük a populációbeli arányt, betegség kockázatát, diagnosztikai teszt szen-
zitivitását és specificitását, és még hosszan folytathatnánk a felsorolást.
Talán ez az oka annak, hogy erre a feladatra olyan sok – tíz-tizenötféle
– konfidencia-intervallum szerkesztési eljárást is javasoltak az idők során.
A.4. Valószínűség (populációbeli arány) 403

A.4.1. Wald-féle intervallum (durva közelítés,


csak a tanulság kedvéért)
 s s 
p̂ − zkrit
p̂(1 − p̂) p̂(1 − p̂) 
, p̂ + zkrit ,
n n

ahol p̂ a mintabeli arány (relatív gyakoriság), n a mintaelemszám, zkrit pedig


a normális eloszlás kritikus értéke.
Megjegyezzük, hogy a képlettel olyan intervallum is kijöhet, amely kilóg
a [0, 1] intervallumból. Ilyenkor – minthogy a becsülendő paraméter egy
valószínűség, tehát mindenképpen 0 és 1 között kell lennie – a kapott inter-
vallumnak egyszerűen elhagyjuk a [0, 1] intervallumon kívül eső részét. Ha
például n = 10, p̂ = 0.2, akkor – bár a képlet a (−0.048, 0.448) intervallumot
adja – a konfidencia-intervallum (0, 0.448) lesz.
A Wald-féle intervallum a binomiális eloszlás normálissal való közelítésén alapul.
Abból indulunk ki, hogy a megfigyelt gyakoriság n, p paraméterű binomiális eloszlást
követ,pamelyet – nagy mintára, és nem túl szélsőséges p esetén – a µ = np átlagú és
σ = np(1 − p)) szórású normálissal közelíthetünk (vö. 78. oldal). Ebből következik,
q
p(1−p)
hogy a megfigyelt relatív gyakoriság, p̂ eloszlása a µ = p átlagú és σ = n
szórású
normálissal közelíthető. Ezért (közelítőleg) a zkrit -nek megfelelő valószínűséggel teljesül,
hogy r r
p(1 − p) p(1 − p)
p − zkrit ≤ p̂ ≤ p + zkrit .
n n
Ezt algebrailag átalakítjuk:
r r
p(1 − p) p(1 − p)
p̂ − zkrit ≤ p ≤ p̂ + zkrit ,
n n
majd a gyök alatt az ismeretlen p-t helyettesítjük a megfigyelt p̂-pal (amitől a közelítés
tovább romlik): r r
p̂(1 − p̂) p̂(1 − p̂)
p̂ − zkrit ≤ p ≤ p̂ + zkrit .
n n

A Wald-féle intervallum csak a gyakorló feladatok megoldásához ajánl-


ható, mert szerencsétlen esetben még nagy mintákra is előfordulhat, hogy
egy 95%-osnak szánt intervallum valójában csak 60–70%-os megbízhatósá-
gú lesz. Meglepő viszont, hogy egészen kis változtatással a jelenleg ismert
egyik legjobb aszimptotikus intervallumot kaphatjuk belőle: ez a módosí-
tott Wald-intervallum (adjusted Wald interval). Mindössze annyi a kü-
lönbség, hogy a p̂-ot és az n-et helyettesítjük az alábbi értékekkel:
2 /2
np̂ + zkrit 2
p̃ = 2 , ñ = n + zkrit ,
n + zkrit
404 Reiczigel – Harnos – Solymosi: Biostatisztika

majd ezekre az értékekre alkalmazzuk a képletet. Hogy a módszer miért


működik, arról lásd Agresti és Coull (1998) cikkét.
R-függvények: prop.test(), binom.test() és a binom.confint() függ-
vény a binom csomagban (Dorai-Raj 2014).

A.5. példa. Konfidencia-intervallum a prevalenciára


Egy antigén száz megvizsgált egyed közül tíznek a vérében volt jelen. Adjunk 95%-os
konfidencia-intervallumot (módosított Wald) az antigénnel rendelkezők arányára!
A pontbecslés: p̂ = 10/100 = 0.1. A módosított ñ és p̃ értékek ñ = 100 + 1.962 =
103.842, p̃ = (10 + 1.962 /2)/(100 + 1.962 ) = 11.921/103.842 = 0.115, a normális
eloszlás kritikus értéke pedig zkrit = 1.96, így a konfidencia-intervallum:
r r !
0.115 · 0.885 0.115 · 0.885
0.115 − 1.96 · , 0.115 + 1.96 · = (0.054, 0.176).
103.842 103.842

Eredményközlés: „Az antigén az egyedek 10%-ának vérében volt kimutatható (n=100,


95%-os konfidencia-intervallum: (0.054, 0.176)).”

A módosított Wald-intervallum publikálása előtt megjelent tankönyvekben a Wilson-


féle intervallum (Wilson’s score interval) szerepel mint a legjobb aszimptotikus interval-
lum. Mivel eléggé elterjedt, de nem mindenütt ezen a néven szerepel, közöljük a képletét
is, de még egyszer hangsúlyozzuk, hogy a módosított Wald-intervallum pontosabb. A
Wilson-féle intervallum képlete:
p p !
2 2 2 2
2np̂ + zkrit − zkrit zkrit + 4np̂(1 − p̂) 2np̂ + zkrit + zkrit zkrit + 4np̂(1 − p̂)
2
, 2
.
2(n + zkrit ) 2(n + zkrit )

A legjobb megoldás azonban – különösen kis mintára, vagy ha tudjuk


(sejtjük), hogy a becsülendő valószínűség 0-hoz vagy 1-hez közeli –, ha eg-
zakt intervallumot használunk. Az ilyen módszerek magával a binomiális
eloszlással dolgoznak, nem a normálissal való közelítésével, emiatt annyira
számítás-igényesek, hogy csak számítógépes programmal számolhatók. Ha
egyoldali intervallumra van szükségünk, akkor a Clopper–Pearson-félét, ha
kétoldalira, akkor vagy a Sterne- vagy a Blaker-félét használhatjuk. Továb-
bi tudnivalók és programok a http://www2.univet.hu/users/jreiczig/
honlapon. A fenti példára alkalmazva a Sterne-féle módszer a (0.053, 0.174)
intervallumot adja. Láthatjuk, hogy ilyen nagy mintára a módosított Wald-
intervallum már alig tér el az egzakttól.
A.5. Két valószínűség különbsége 405

A.5. Két valószínűség (populációbeli arány)


különbsége
Azt az esetet tárgyaljuk, amikor a két valószínűséget két független mintából
becsüljük. Jelölje a két minta elemszámát n1 és n2 , a megfigyelt relatív
gyakoriságokat
q p̂1 és p̂2 , különbségüket pedig d = p̂1 − p̂2 ! Legyen továbbá
p̂1 (1−p̂1 )
s= n1 + p̂2 (1−p̂
n2
2)
! Ezekkel a jelölésekkel az intervallum:

(d − zkrit · s, d + zkrit · s).

Ez is a binomiális eloszlás normálissal való közelítésén alapuló, aszimp-


totikus intervallum.
q Az előző pont szerint p̂1 , illetve p̂2 eloszlásaqµ1 = p̂1
p̂1 (1−p̂1 )
átlagú és σ1 = n1 szórású, illetve µ2 = p̂2 átlagú és σ2 = p̂2 (1−p̂
n2
2)

szórású normálisokkal közelíthető. Különbségük ezért közelítőleg µ1 −µ2 = d


átlagú és σ = s szórású normális eloszlást követ, amiből a fenti konfidencia-
intervallum adódik.
Megjegyezzük, hogy a különbségre vonatkozó intervallum nem olyan rossz,
mint a Wald-féle intervallum egy valószínűségre, bár a konstrukció alapelve
ugyanaz.
R-függvény: Az epi.conf() függvény az epiR csomagban (Stevenson &
Sergeant 2021).

A.6. példa. Konfidencia-intervallum gyógyulási arányok különbségére


Adjuváns (= kiegészítő) kezelés alkalmazásakor 50 beteg közül 46, míg nélküle – csak
a standard kezelés alkalmazása mellett – 100-ból 73 gyógyult meg. Adjunk 90%-os
konfidencia-intervallumot a gyógyulási arány növekedésére!
A két gyógyulási arány becslése p̂1 = 0.92 és p̂2 = 0.73, a különbségüké p̂1 − p̂2 = 0.19.
A különbség standard hibájának becslése
r
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
+ = 0.0587,
n1 n2
a 90% valószínűséghez tartozó kritikus érték pedig 1.645, amiből a konfidencia-
intervallum:

(0.19 − 1.645 · 0.0587, 0.19 + 1.645 · 0.0587) = (0.093, 0.287).

Eredményközlés: „Az adjuváns kezelés a gyógyulási arányt 73%-ról (n = 100) 92%-ra


(n = 50), azaz 19%-kal, növelte (90%-os konfidencia-intervallum: (9.3%, 28.7%)).”
406 Reiczigel – Harnos – Solymosi: Biostatisztika

A.6. Relatív kockázat


A relatív kockázat két valószínűség hányadosa (lásd a 3.3. fejezetben). Ha
a vizsgált csoportból származó n1 elemű mintában k1 esetet regisztráltunk,
míg a referenciacsoportból származó n2 elemű mintában k2 -t, akkor a szo-
kásos pontbecslés a populációbeli relatív kockázatra:

k1 k2

RR
d = .
n1 n2

Észrevehetjük, hogy ez plug-in becslés (vö. 5.3.1. fejezet).


Sajnos, az RR
d eloszlása még a gyakorlatban igen nagynak számító min-
tákra is ferde, ezért normálissal való közelítése nagyon pontatlan, ráadásul
a ferdeség mértéke függ az RR valódi (populációbeli) értékétől is. Észrevet-
ték azonban, hogy a logaritmusa, ln RRd már közepes mintaelemszámokra is
(n ≥ 30) elfogadhatóan közelíthető normálissal, és eloszlása is kevésbé függ
a becsülendő paramétertől (a valódi RR-től), tehát alkalmas közelítő pivot-
nak. Meghatározták az ln RR
d aszimptotikus varianciáját, amire 1/k1 + 1/k2
adódott. Eszerint ln RR
d aszimptotikus standard hibája:
q
SE(ln RR)
d = 1/k1 + 1/k2 ,

ahonnan egy közelítő konfidencia-intervallum az ln RR-re:


 
d − zkrit SE(ln RR),
ln RR d ln RR
d + zkrit SE(ln RR)
d .

Ebből úgy kapunk konfidencia-intervallumot az RR-re, hogy a végpon-


tokra a logaritmus-függvény inverzét, az exponenciális függvényt alkalmaz-
zuk:  
ln RR−z
c krit SE(ln RR) ln RR+z
c krit SE(ln RR)
e , e .
c c

R-függvény: Az epi2x2() függvény az epibasix csomagban (Rotondi


2018).

A.7. példa. Konfidencia-intervallum a relatív kockázatra


A téli hónapokban egy dunántúli megyében lakott területen kívül 98 személyi sérüléssel
járó ütközéses baleset történt, ebből 13 volt halálos kimenetelű. A 98 baleset közül 34-
ben nem volt bekapcsolva a vezető biztonsági öve, és ezek közül 8 végződött halállal.
Az adatok alapján adjunk 90%-os konfidencia-intervallumot a halálos kimenetel relatív
kockázatára a biztonsági öv használatának elmulasztása esetén!
Először számoljuk ki a kockázatokat és a relatív kockázat pontbecslését!
A.7. Esélyhányados 407

A referenciacsoportban (bekapcsolt biztonsági öv mellett) 64 balesetből 5 végződött


halállal, a kockázat tehát 5/64 = 0.078 = 7.8%. A vizsgált csoportban a kockázat
8/34 = 0.235 = 23.5%, a relatív kockázat pontbecslése tehát

8 5 0.235
RR
c = = = 3.01.
34 64 0.078

A pontbecslés természetes alapú (=pe alapú) logaritmusa ln RR


c = 1.102, a ln RR
c

aszimptotikus standard hibája pedig 1/5 + 1/8 = 0.325 = 0.570.
A kritikus érték 1.645, amivel a 90%-os konfidencia-intervallum az ln RR-re:

(1.102 − 1.645 · 0.570, 1.102 + 1.645 · 0.570) = (0.164, 2.040),

ahonnan a konfidencia-intervallum az RR-re: (1.18, 7.69).

Megjegyezzük, hogy készíthető egzakt konfidencia-intervallum is.

A.7. Esélyhányados
Az esélyhányados fogalmilag nagyon hasonló a relatív kockázathoz, csak
annyi a különbség, hogy most nem valószínűséggel, hanem oddsszal számo-
lunk (lásd a 3.3. fejezetben).
A szokásos pontbecslés az esélyhányadosra, ha a vizsgált csoportból szár-
mazó n1 elemű mintában k1 , míg a referenciacsoportból származó n2 elemű
mintában k2 esetet regisztráltunk:

k1 k2

OR
d = .
n1 − k 1 n2 − k2

Ez is plug-in becslés (vö. 5.3.1. fejezet).


Hasonlóan a relatív kockázathoz, az esélyhányados becslésének is meg-
lehetősen ferde az eloszlása, de logaritmusa már közepes mintákra is közel
normális.
A becslés logaritmusának aszimptotikus varianciája:

1/k1 + 1/k2 + 1/(n1 − k1 ) + 1/(n2 − k2 ),

ahonnan aszimptotikus standard hibája


q
SE(ln OR)
d = 1/k1 + 1/k2 + 1/(n1 − k1 ) + 1/(n2 − k2 ).
408 Reiczigel – Harnos – Solymosi: Biostatisztika

Ezzel egy aszimptotikus konfidencia-intervallum az esélyhányados loga-


ritmusára:
 
d − zkrit SE(ln OR),
ln OR d ln OR
d + zkrit SE(ln OR)
d .

Ebből most is úgy kaphatunk konfidencia-intervallumot magára az esély-


hányadosra, hogy a végpontokra az exponenciális függvényt alkalmazzuk:
 
ln OR−z
c krit SE(ln OR) ln OR+z
c krit SE(ln OR)
e ,e .
c c

R-függvény: Az epi2x2() függvény az epibasix csomagban (Rotondi


2018).

A.8. példa. Konfidencia-intervallum az esélyhányadosra


Az előző példában szereplő adatok alapján adjunk most 90%-os konfidencia-
intervallumot az esélyhányadosra!
Most is a pontbecsléssel kezdjük. A referenciacsoportban (bekapcsolt biztonsági öv mel-
lett) 64 balesetből 5 végződött halállal, tehát az oddsz itt 5/59 = 0.085. A vizsgált
csoportbeli esélyérték lényegesen nagyobb, 8/26 = 0.308, ahonnan az esélyhányados
pontbecslése: 
8 5 0.308
OR =
c = = 3.62.
26 59 0.085
A pontbecslés természetes alapú
p(e alapú) logaritmusa ln OR =
c 1.286, a ln OR
c aszimp-

totikus standard hibája pedig 1/5 + 1/8 + 1/59 + 1/26 = 0.380 = 0.616.
A kritikus érték 1.645, amivel a 90%-os konfidencia-intervallum az ln OR-re:

(1.286 − 1.645 · 0.616, 1.286 + 1.645 · 0.616) = (0.273, 2.299),

ahonnan a konfidencia-intervallum az OR-re (1.31, 9.96).

Az OR-re is számolható egzakt intervallum (többféle módszerrel is). Az


R-ben a fisher.test() függvénnyel számolhatunk konfidencia-intervallu-
mot az OR-re.
B. Statisztikai táblázatok

409
410 Reiczigel – Harnos – Solymosi: Biostatisztika

B.1. táblázat. A binomiális eloszlás táblázata.


n x p 0.02 0.05 0.10 0.15 0.20 0.30 0.40 0.50
2 0 0.9604 0.9025 0.8100 0.7225 0.6400 0.4900 0.3600 0.2500
1 0.0392 0.0950 0.1800 0.2550 0.3200 0.4200 0.4800 0.5000
2 0.0004 0.0025 0.0100 0.0225 0.0400 0.0900 0.1600 0.2500

n x p 0.02 0.05 0.10 0.15 0.20 0.30 0.40 0.50


3 0 0.9412 0.8574 0.7290 0.6141 0.5120 0.3430 0.2160 0.1250
1 0.0576 0.1354 0.2430 0.3251 0.3840 0.4410 0.4320 0.3750
2 0.0012 0.0071 0.0270 0.0574 0.0960 0.1890 0.2880 0.3750
3 0.0000 0.0001 0.0010 0.0034 0.0080 0.0270 0.0640 0.1250

n x p 0.02 0.05 0.10 0.15 0.20 0.30 0.40 0.50


4 0 0.9224 0.8145 0.6561 0.5220 0.4096 0.2401 0.1296 0.0625
1 0.0753 0.1715 0.2916 0.3685 0.4096 0.4116 0.3456 0.2500
2 0.0023 0.0135 0.0486 0.0975 0.1536 0.2646 0.3456 0.3750
3 0.0000 0.0005 0.0036 0.0115 0.0256 0.0756 0.1536 0.2500
4 0.0000 0.0000 0.0001 0.0005 0.0016 0.0081 0.0256 0.0625

n x p 0.02 0.05 0.10 0.15 0.20 0.30 0.40 0.50


5 0 0.9039 0.7738 0.5905 0.4437 0.3277 0.1681 0.0778 0.0313
1 0.0922 0.2036 0.3281 0.3915 0.4096 0.3602 0.2592 0.1563
2 0.0038 0.0214 0.0729 0.1382 0.2048 0.3087 0.3456 0.3125
3 0.0001 0.0011 0.0081 0.0244 0.0512 0.1323 0.2304 0.3125
4 0.0000 0.0000 0.0005 0.0022 0.0064 0.0284 0.0768 0.1563
5 0.0000 0.0000 0.0000 0.0001 0.0003 0.0024 0.0102 0.0313

n x p 0.02 0.05 0.10 0.15 0.20 0.30 0.40 0.50


6 0 0.8858 0.7351 0.5314 0.3771 0.2621 0.1176 0.0467 0.0156
1 0.1085 0.2321 0.3543 0.3993 0.3932 0.3025 0.1866 0.0938
2 0.0055 0.0305 0.0984 0.1762 0.2458 0.3241 0.3110 0.2344
3 0.0002 0.0021 0.0146 0.0415 0.0819 0.1852 0.2765 0.3125
4 0.0000 0.0001 0.0012 0.0055 0.0154 0.0595 0.1382 0.2344
5 0.0000 0.0000 0.0001 0.0004 0.0015 0.0102 0.0369 0.0938
6 0.0000 0.0000 0.0000 0.0000 0.0001 0.0007 0.0041 0.0156

n x p 0.02 0.05 0.10 0.15 0.20 0.30 0.40 0.50


8 0 0.8508 0.6634 0.4305 0.2725 0.1678 0.0576 0.0168 0.0039
1 0.1389 0.2793 0.3826 0.3847 0.3355 0.1977 0.0896 0.0313
2 0.0099 0.0515 0.1488 0.2376 0.2936 0.2965 0.2090 0.1094
3 0.0004 0.0054 0.0331 0.0839 0.1468 0.2541 0.2787 0.2188
4 0.0000 0.0004 0.0046 0.0185 0.0459 0.1361 0.2322 0.2734
5 0.0000 0.0000 0.0004 0.0026 0.0092 0.0467 0.1239 0.2188
6 0.0000 0.0000 0.0000 0.0002 0.0011 0.0100 0.0413 0.1094
7 0.0000 0.0000 0.0000 0.0000 0.0001 0.0012 0.0079 0.0313
8 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0007 0.0039
Statisztikai táblázatok 411

B.2. táblázat. A binomiális eloszlás táblázata (folytatás).

n x p 0.02 0.05 0.10 0.15 0.20 0.30 0.40 0.50


10 0 0.8171 0.5987 0.3487 0.1969 0.1074 0.0282 0.0060 0.0010
1 0.1667 0.3151 0.3874 0.3474 0.2684 0.1211 0.0403 0.0098
2 0.0153 0.0746 0.1937 0.2759 0.3020 0.2335 0.1209 0.0439
3 0.0008 0.0105 0.0574 0.1298 0.2013 0.2668 0.2150 0.1172
4 0.0000 0.0010 0.0112 0.0401 0.0881 0.2001 0.2508 0.2051
5 0.0000 0.0001 0.0015 0.0085 0.0264 0.1029 0.2007 0.2461
6 0.0000 0.0000 0.0001 0.0012 0.0055 0.0368 0.1115 0.2051
7 0.0000 0.0000 0.0000 0.0001 0.0008 0.0090 0.0425 0.1172
8 0.0000 0.0000 0.0000 0.0000 0.0001 0.0014 0.0106 0.0439
9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0016 0.0098
10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0010

n x p 0.02 0.05 0.10 0.15 0.20 0.30 0.40 0.50


12 0 0.7847 0.5404 0.2824 0.1422 0.0687 0.0138 0.0022 0.0002
1 0.1922 0.3413 0.3766 0.3012 0.2062 0.0712 0.0174 0.0029
2 0.0216 0.0988 0.2301 0.2924 0.2835 0.1678 0.0639 0.0161
3 0.0015 0.0173 0.0852 0.1720 0.2362 0.2397 0.1419 0.0537
4 0.0001 0.0021 0.0213 0.0683 0.1329 0.2311 0.2128 0.1208
5 0.0000 0.0002 0.0038 0.0193 0.0532 0.1585 0.2270 0.1934
6 0.0000 0.0000 0.0005 0.0040 0.0155 0.0792 0.1766 0.2256
7 0.0000 0.0000 0.0000 0.0006 0.0033 0.0291 0.1009 0.1934
8 0.0000 0.0000 0.0000 0.0001 0.0005 0.0078 0.0420 0.1208
9 0.0000 0.0000 0.0000 0.0000 0.0001 0.0015 0.0125 0.0537
10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0025 0.0161
11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0029
12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002

n x p 0.02 0.05 0.10 0.15 0.20 0.30 0.40 0.50


15 0 0.7386 0.4633 0.2059 0.0874 0.0352 0.0047 0.0005 0.0000
1 0.2261 0.3658 0.3432 0.2312 0.1319 0.0305 0.0047 0.0005
2 0.0323 0.1348 0.2669 0.2856 0.2309 0.0916 0.0219 0.0032
3 0.0029 0.0307 0.1285 0.2184 0.2501 0.1700 0.0634 0.0139
4 0.0002 0.0049 0.0428 0.1156 0.1876 0.2186 0.1268 0.0417
5 0.0000 0.0006 0.0105 0.0449 0.1032 0.2061 0.1859 0.0916
6 0.0000 0.0000 0.0019 0.0132 0.0430 0.1472 0.2066 0.1527
7 0.0000 0.0000 0.0003 0.0030 0.0138 0.0811 0.1771 0.1964
8 0.0000 0.0000 0.0000 0.0005 0.0035 0.0348 0.1181 0.1964
9 0.0000 0.0000 0.0000 0.0001 0.0007 0.0116 0.0612 0.1527
10 0.0000 0.0000 0.0000 0.0000 0.0001 0.0030 0.0245 0.0916
11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0006 0.0074 0.0417
12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0016 0.0139
13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0032
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0005
15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
412 Reiczigel – Harnos – Solymosi: Biostatisztika

B.3. táblázat. A Poisson-eloszlás táblázata.


λ
x 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0 0.9048 0.8187 0.7408 0.6703 0.6065 0.5488 0.4966 0.4493 0.4066 0.3679
1 0.0905 0.1637 0.2222 0.2681 0.3033 0.3293 0.3476 0.3595 0.3659 0.3679
2 0.0045 0.0164 0.0333 0.0536 0.0758 0.0988 0.1217 0.1438 0.1647 0.1839
3 0.0002 0.0011 0.0033 0.0072 0.0126 0.0198 0.0284 0.0383 0.0494 0.0613
4 0.0000 0.0001 0.0003 0.0007 0.0016 0.0030 0.0050 0.0077 0.0111 0.0153
5 0.0000 0.0000 0.0000 0.0001 0.0002 0.0004 0.0007 0.0012 0.0020 0.0031
6 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0003 0.0005
7 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001

λ
x 1.5 2.0 2.5 3.0 4.0 5.0 6.0 7.0 8.0 10.0
0 0.2231 0.1353 0.0821 0.0498 0.0183 0.0067 0.0025 0.0009 0.0003 0.0000
1 0.3347 0.2707 0.2052 0.1494 0.0733 0.0337 0.0149 0.0064 0.0027 0.0005
2 0.2510 0.2707 0.2565 0.2240 0.1465 0.0842 0.0446 0.0223 0.0107 0.0023
3 0.1255 0.1804 0.2138 0.2240 0.1954 0.1404 0.0892 0.0521 0.0286 0.0076
4 0.0471 0.0902 0.1336 0.1680 0.1954 0.1755 0.1339 0.0912 0.0573 0.0189
5 0.0141 0.0361 0.0668 0.1008 0.1563 0.1755 0.1606 0.1277 0.0916 0.0378
6 0.0035 0.0120 0.0278 0.0504 0.1042 0.1462 0.1606 0.1490 0.1221 0.0631
7 0.0008 0.0034 0.0099 0.0216 0.0595 0.1044 0.1377 0.1490 0.1396 0.0901
8 0.0001 0.0009 0.0031 0.0081 0.0298 0.0653 0.1033 0.1304 0.1396 0.1126
9 0.0000 0.0002 0.0009 0.0027 0.0132 0.0363 0.0688 0.1014 0.1241 0.1251
10 0.0000 0.0000 0.0002 0.0008 0.0053 0.0181 0.0413 0.0710 0.0993 0.1251
11 0.0000 0.0000 0.0000 0.0002 0.0019 0.0082 0.0225 0.0452 0.0722 0.1137
12 0.0000 0.0000 0.0000 0.0001 0.0006 0.0034 0.0113 0.0263 0.0481 0.0948
13 0.0000 0.0000 0.0000 0.0000 0.0002 0.0013 0.0052 0.0142 0.0296 0.0729
14 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0022 0.0071 0.0169 0.0521
15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0009 0.0033 0.0090 0.0347
16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0014 0.0045 0.0217
17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0021 0.0128
18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0009 0.0071
19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0037
20 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0019
21 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0009
22 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0004
23 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002
24 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
Statisztikai táblázatok 413

B.4. táblázat. A standard normális eloszlás táblázata.

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641
0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776
0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451
0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681
1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294
1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233
2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
3.0 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010
414 Reiczigel – Harnos – Solymosi: Biostatisztika

B.5. táblázat. A Student-féle t-eloszlás kritikus értékei.

0.05 0.025 0.01 0.005


Szabadságfok valószínűséghez tartozó kritikus érték
1 6.314 12.706 31.821 63.656
2 2.920 4.303 6.965 9.925
3 2.353 3.182 4.541 5.841
4 2.132 2.776 3.747 4.604
5 2.015 2.571 3.365 4.032
6 1.943 2.447 3.143 3.707
7 1.895 2.365 2.998 3.499
8 1.860 2.306 2.896 3.355
9 1.833 2.262 2.821 3.250
10 1.812 2.228 2.764 3.169
11 1.796 2.201 2.718 3.106
12 1.782 2.179 2.681 3.055
13 1.771 2.160 2.650 3.012
14 1.761 2.145 2.624 2.977
15 1.753 2.131 2.602 2.947
16 1.746 2.120 2.583 2.921
17 1.740 2.110 2.567 2.898
18 1.734 2.101 2.552 2.878
19 1.729 2.093 2.539 2.861
20 1.725 2.086 2.528 2.845
21 1.721 2.080 2.518 2.831
22 1.717 2.074 2.508 2.819
23 1.714 2.069 2.500 2.807
24 1.711 2.064 2.492 2.797
25 1.708 2.060 2.485 2.787
26 1.706 2.056 2.479 2.779
27 1.703 2.052 2.473 2.771
28 1.701 2.048 2.467 2.763
29 1.699 2.045 2.462 2.756
30 1.697 2.042 2.457 2.750
40 1.684 2.021 2.423 2.704
50 1.676 2.009 2.403 2.678
60 1.671 2.000 2.390 2.660
80 1.664 1.990 2.374 2.639
100 1.660 1.984 2.364 2.626
150 1.655 1.976 2.351 2.609
standard norm. 1.645 1.960 2.326 2.576
Statisztikai táblázatok 415

B.6. táblázat. A khi-négyzet eloszlás kritikus értékei.

0.995 0.975 0.95 0.05 0.025 0.01 0.005


Szabadságfok valószínűséghez tartozó kritikus érték
1 0.000 0.001 0.004 3.841 5.024 6.635 7.879
2 0.010 0.051 0.103 5.991 7.378 9.210 10.597
3 0.072 0.216 0.352 7.815 9.348 11.345 12.838
4 0.207 0.484 0.711 9.488 11.143 13.277 14.860
5 0.412 0.831 1.145 11.070 12.832 15.086 16.750
6 0.676 1.237 1.635 12.592 14.449 16.812 18.548
7 0.989 1.690 2.167 14.067 16.013 18.475 20.278
8 1.344 2.180 2.733 15.507 17.535 20.090 21.955
9 1.735 2.700 3.325 16.919 19.023 21.666 23.589
10 2.156 3.247 3.940 18.307 20.483 23.209 25.188
11 2.603 3.816 4.575 19.675 21.920 24.725 26.757
12 3.074 4.404 5.226 21.026 23.337 26.217 28.300
13 3.565 5.009 5.892 22.362 24.736 27.688 29.819
14 4.075 5.629 6.571 23.685 26.119 29.141 31.319
15 4.601 6.262 7.261 24.996 27.488 30.578 32.801
16 5.142 6.908 7.962 26.296 28.845 32.000 34.267
17 5.697 7.564 8.672 27.587 30.191 33.409 35.718
18 6.265 8.231 9.390 28.869 31.526 34.805 37.156
19 6.844 8.907 10.117 30.144 32.852 36.191 38.582
20 7.434 9.591 10.851 31.410 34.170 37.566 39.997
21 8.034 10.283 11.591 32.671 35.479 38.932 41.401
22 8.643 10.982 12.338 33.924 36.781 40.289 42.796
23 9.260 11.689 13.091 35.172 38.076 41.638 44.181
24 9.886 12.401 13.848 36.415 39.364 42.980 45.558
25 10.520 13.120 14.611 37.652 40.646 44.314 46.928
26 11.160 13.844 15.379 38.885 41.923 45.642 48.290
27 11.808 14.573 16.151 40.113 43.195 46.963 49.645
28 12.461 15.308 16.928 41.337 44.461 48.278 50.994
29 13.121 16.047 17.708 42.557 45.722 49.588 52.335
30 13.787 16.791 18.493 43.773 46.979 50.892 53.672
40 20.707 24.433 26.509 55.758 59.342 63.691 66.766
50 27.991 32.357 34.764 67.505 71.420 76.154 79.490
60 35.534 40.482 43.188 79.082 83.298 88.379 91.952
70 43.275 48.758 51.739 90.531 95.023 100.425 104.215
80 51.172 57.153 60.391 101.879 106.629 112.329 116.321
90 59.196 65.647 69.126 113.145 118.136 124.116 128.299
100 67.328 74.222 77.929 124.342 129.561 135.807 140.170
416 Reiczigel – Harnos – Solymosi: Biostatisztika

B.7. táblázat. Az F -eloszlás kritikus értékei.

p = 0.05 valószínűséghez tartozó kritikus értékek


A számláló
szabadság- A nevező szabadságfoka
foka 2 3 4 5 6 8 10 15 20 30 40 60 100
1 18.5 10.1 7.71 6.61 5.99 5.32 4.96 4.54 4.35 4.17 4.08 4.00 3.94
2 19.0 9.55 6.94 5.79 5.14 4.46 4.10 3.68 3.49 3.32 3.23 3.15 3.09
3 19.2 9.28 6.59 5.41 4.76 4.07 3.71 3.29 3.10 2.92 2.84 2.76 2.70
4 19.2 9.12 6.39 5.19 4.53 3.84 3.48 3.06 2.87 2.69 2.61 2.53 2.46
5 19.3 9.01 6.26 5.05 4.39 3.69 3.33 2.90 2.71 2.53 2.45 2.37 2.31
6 19.3 8.94 6.16 4.95 4.28 3.58 3.22 2.79 2.60 2.42 2.34 2.25 2.19
8 19.4 8.85 6.04 4.82 4.15 3.44 3.07 2.64 2.45 2.27 2.18 2.10 2.03
10 19.4 8.79 5.96 4.74 4.06 3.35 2.98 2.54 2.35 2.16 2.08 1.99 1.93
15 19.4 8.70 5.86 4.62 3.94 3.22 2.85 2.40 2.20 2.01 1.92 1.84 1.77
20 19.4 8.66 5.80 4.56 3.87 3.15 2.77 2.33 2.12 1.93 1.84 1.75 1.68
30 19.5 8.62 5.75 4.50 3.81 3.08 2.70 2.25 2.04 1.84 1.74 1.65 1.57
40 19.5 8.59 5.72 4.46 3.77 3.04 2.66 2.20 1.99 1.79 1.69 1.59 1.52
60 19.5 8.57 5.69 4.43 3.74 3.01 2.62 2.16 1.95 1.74 1.64 1.53 1.45
100 19.5 8.55 5.66 4.41 3.71 2.97 2.59 2.12 1.91 1.70 1.59 1.48 1.39

p = 0.025 valószínűséghez tartozó kritikus értékek


A számláló
szabadság- A nevező szabadságfoka
foka 2 3 4 5 6 8 10 15 20 30 40 60 100
1 38.5 17.4 12.2 10.0 8.81 7.57 6.94 6.20 5.87 5.57 5.42 5.29 5.18
2 39.0 16.0 10.6 8.43 7.26 6.06 5.46 4.77 4.46 4.18 4.05 3.93 3.83
3 39.2 15.4 10.0 7.76 6.60 5.42 4.83 4.15 3.86 3.59 3.46 3.34 3.25
4 39.2 15.1 9.60 7.39 6.23 5.05 4.47 3.80 3.51 3.25 3.13 3.01 2.92
5 39.3 14.9 9.36 7.15 5.99 4.82 4.24 3.58 3.29 3.03 2.90 2.79 2.70
6 39.3 14.7 9.20 6.98 5.82 4.65 4.07 3.41 3.13 2.87 2.74 2.63 2.54
8 39.4 14.5 8.98 6.76 5.60 4.43 3.85 3.20 2.91 2.65 2.53 2.41 2.32
10 39.4 14.4 8.84 6.62 5.46 4.30 3.72 3.06 2.77 2.51 2.39 2.27 2.18
15 39.4 14.3 8.66 6.43 5.27 4.10 3.52 2.86 2.57 2.31 2.18 2.06 1.97
20 39.4 14.2 8.56 6.33 5.17 4.00 3.42 2.76 2.46 2.20 2.07 1.94 1.85
30 39.5 14.1 8.46 6.23 5.07 3.89 3.31 2.64 2.35 2.07 1.94 1.82 1.71
40 39.5 14.0 8.41 6.18 5.01 3.84 3.26 2.59 2.29 2.01 1.88 1.74 1.64
60 39.5 14.0 8.36 6.12 4.96 3.78 3.20 2.52 2.22 1.94 1.80 1.67 1.56
100 39.5 14.0 8.32 6.08 4.92 3.74 3.15 2.47 2.17 1.88 1.74 1.60 1.48
Statisztikai táblázatok 417

B.8. táblázat. Véletlen számok táblázata.


00-04 05-09 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49
0 13181 13881 83521 64809 34360 78237 29752 75697 36478 80185
1 63432 62170 51543 35579 45842 81136 87651 81935 60420 43424
2 56416 59538 72819 52252 66356 47114 11778 24564 02733 57355
3 03107 30154 63553 21530 38174 82564 60628 89067 79923 17764
4 06773 38183 54465 97736 54822 92974 82941 86579 44724 47420
5 06382 85823 16131 02146 72115 05857 13628 92322 78652 40231
6 63522 70907 92401 07538 18479 33989 38888 32949 58078 43977
7 24632 02226 47367 98771 72205 31520 82728 16832 18268 01527
8 15370 86151 83642 37623 74018 85967 70801 54385 45873 46175
9 68908 55417 92791 88662 52337 66218 17330 30372 21491 02579
10 97118 13326 10627 02850 57586 62072 65492 79206 31456 35734
11 18887 68374 67521 21176 55725 19890 72056 27633 34652 30261
12 32378 53477 03391 36748 06432 68854 96194 92275 10160 42644
13 23997 73479 74116 24478 80027 48428 61377 41558 11325 56613
14 27221 82725 78728 08218 12745 98078 11683 35089 87737 85905
15 37168 53515 94921 40847 95334 73915 36396 86423 56306 41482
16 01742 36899 32321 55702 55842 17531 23120 50767 88721 94826
17 18541 66503 87165 82709 74393 67453 82024 35304 58662 11681
18 25695 30665 41091 73390 14539 82435 70138 11933 23056 66763
19 75399 74133 31832 25334 28358 61051 88058 75439 96661 67102
20 96313 24630 13676 83665 38175 77595 66228 11251 12957 45484
21 26626 25303 02554 12447 82528 75456 87352 85465 71263 62659
22 84777 67558 16923 53827 46539 48060 49366 52825 74851 22264
23 47321 34254 58444 34231 08259 51168 80823 89691 02222 53280
24 23713 45613 53624 71177 54164 76666 84523 98624 35452 44222
25 18479 18925 56691 23190 63455 08218 44617 87116 43756 09797
26 82465 56857 97732 14578 97424 91755 77534 86529 75412 32845
27 26706 84048 76473 51638 20418 74859 04271 57598 18524 78295
28 94211 82114 41148 87970 53721 42561 84543 67512 20172 80439
29 12782 33048 02273 26015 82812 13382 64681 49324 74379 41465
30 79540 77661 45137 86081 16969 58268 34675 32186 39778 19847
31 51433 07861 72754 64766 95166 95643 49843 76442 62527 43026
32 46049 38452 57744 31252 61102 46199 80755 53767 24184 28990
33 27286 72842 29625 53794 62978 66631 25481 37252 17337 68616
34 71375 27757 69742 64899 93783 34778 67153 32388 42773 53512
35 40456 44498 39363 21183 55905 92837 47748 16894 18233 45249
36 54757 07761 68798 56325 43096 73731 74634 86779 12637 65070
37 83341 52164 01414 38336 50565 36806 42155 85668 94945 96110
38 47747 74241 16026 06763 16968 11361 29536 99248 43457 55086
39 50733 93136 39249 95424 88452 71654 60274 22782 33153 63748
40 73293 62908 01236 62681 48774 70683 77455 84602 36301 02815
41 23352 58475 75934 31042 82461 38741 44646 57922 72446 49376
42 46071 06455 26152 75863 62827 22513 24562 12642 24318 35764
43 84126 52942 54207 89348 64984 72922 35048 73252 47749 27149
44 37259 62286 54077 34265 46773 68362 73384 23806 31581 36863
45 28113 96506 36467 47126 52352 14376 24961 07197 81614 24890
46 59367 77177 11689 17845 29318 79783 14651 12876 32656 60316
47 07364 14694 79983 14278 40652 19767 74813 54703 85459 98206
48 25573 76119 85603 93071 38163 38446 44939 55781 46223 13851
49 63214 37192 12325 33647 14373 87573 54473 16509 70944 74175
Irodalomjegyzék
Akaike, H. 1973. Information theory as an extension of the maximum likelihood
principle. In: Petrov, B. N. and Csáki, F. (eds), 2nd Int Symp. Infor. Theo.
Akadémiai Kiadó. Budapest, pp. 267–281.
Armitage, P., Berry, G. & Matthews, J. N. S. 2008. Statistical methods in
medical research. – John Wiley & Sons
Bland, J. M. & Altman, D. G. 1986. Statistical methods for assessing agreement
between two methods of clinical measurement. – The Lancet 327(8476):
307–310.
Cochran, W. G. 1977. Sampling techniques. – John Wiley & Sons
Dorai-Raj, S. 2014. binom: Binomial Confidence Intervals for Several
Parameterizations. URL: https://CRAN.R-project.org/package=binom, R
package version 1.1-1
Everitt, B. S. 2006. An R and S-PLUS companion to multivariate analysis. –
Springer Science & Business Media
Faraway, J. J. 2016a. Extending the linear model with R: generalized linear,
mixed effects and nonparametric regression models. – Chapman and Hall/CRC
Faraway, J. J. 2016b. Linear models with R. – Chapman and Hall/CRC
Feller, W. & Rejtő, L. 1978. Bevezetés a valószínűségszámításba és
alkalmazásaiba. – Műszaki Kiadó
Fisher, R. A. 1925. Statistical methods for research workers. – Oliver and Boyd
Fox, J. 1997. Applied regression analysis, linear models, and related methods. –
Sage Publications, Inc.
Fox, J. 2005. The R Commander: A basic statistics graphical user interface to R.
– Journal of Statistical Software 14(9): 1–42. URL:
http://www.jstatsoft.org/v14/i09
Fox, J. 2017. Using the R Commander: A Point-and-Click Interface for R. –
Chapman and Hall/CRC Press. URL:
http://socserv.mcmaster.ca/jfox/Books/RCommander/
Fox, J. 2018. RcmdrMisc: R Commander Miscellaneous Functions. URL:
https://CRAN.R-project.org/package=RcmdrMisc, R package version 2.5-1
Fox, J. & Bouchet-Valat, M. 2020. Rcmdr: R Commander. URL:
http://socserv.socsci.mcmaster.ca/jfox/Misc/Rcmdr/, R package
version 2.7-1

419
420 Reiczigel – Harnos – Solymosi: Biostatisztika

Fox, J. & Weisberg, S. 2019. An R companion to applied regression. – Sage, 3rd


ed. URL: http://socserv.socsci.mcmaster.ca/jfox/Books/Companion
Freedman, D., Pisani, R., Purves, R., Gábor, K. & Mariann, S. 2005. Statisztika.
– Typotex
Freud, R. 1996. Lineáris algebra. – ELTE Eötvös Kiadó
Heinze, G., Wallisch, C. & Dunkler, D. 2018. Variable selection–a review and
recommendations for the practicing statistician. – Biometrical Journal 60(3):
431–449.
Hothorn, T., Bretz, F. & Westfall, P. 2008a. Simultaneous inference in general
parametric models. – Biometrical Journal 50(3): 346–363.
Hothorn, T. & Hornik, K. 2019. exactRankTests: Exact Distributions for Rank
and Permutation Tests. URL:
https://CRAN.R-project.org/package=exactRankTests, R package version
0.8-30
Hothorn, T., Hornik, K., van de Wiel, M. A. & Zeileis, A. 2006. A lego system for
conditional inference. – The American Statistician 60(3): 257–263.
Hothorn, T., Hornik, K., van de Wiel, M. A. & Zeileis, A. 2008b. Implementing a
class of permutation tests: The coin package. – Journal of Statistical Software
28(8): 1–23. URL: http://www.jstatsoft.org/v28/i08/
Jureckova, J., Picek, J. & Schindler, M. 2019. Robust statistical methods with R
– Chapman and Hall/CRC
Legendre, P. & Legendre, L. F. 2012. Numerical ecology, vol. 24. – Elsevier
Leisch, F. 2002. Sweave: Dynamic generation of statistical reports using literate
data analysis. In: Compstat. Springer, pp. 575–580.
Lenth, R. 2019. emmeans: Estimated Marginal Means, aka Least-Squares Means.
URL: https://CRAN.R-project.org/package=emmeans, R package version
1.3.5
Little, R. J. & Rubin, D. B. 2014. Statistical analysis with missing data, vol. 333.
– John Wiley & Sons
Mann, H. B. & Whitney, D. R. 1947. On a test of whether one of two random
variables is stochastically larger than the other. – The Annals of Mathematical
Statistics 18(1): 50–60.
Morales, M., with code developed by the R Development Core Team, with general
advice from the R-help listserv community & especially Duncan Murdoch.
2017. sciplot: Scientific Graphing Functions for Factorial Designs. URL:
https://CRAN.R-project.org/package=sciplot, R package version 1.1-1
Murdoch, D. 2018. tables: Formula-Driven Table Generation. URL:
https://CRAN.R-project.org/package=tables, R package version 0.8.7
Mándoki, M., Bakonyi, T., Ivanics, E., Nemes, C., Dobos-Kovács, M. & Rusvai,
M. 2006. Phylogenetic diversity of avian nephritis virus in Hungarian chicken
flocks. – Avian Pathology 35(3): 224–229.
Pinheiro, J. & Bates, D. 2006. Mixed-effects models in S and S-PLUS. – Springer
Science & Business Media
Irodalomjegyzék 421

Pinheiro, J., Bates, D., DebRoy, S., Sarkar, D. & R Core Team. 2018. nlme:
Linear and Nonlinear Mixed Effects Models. URL:
https://CRAN.R-project.org/package=nlme, R package version 3.1-137
Popper, K. R., Petri, G. & Szegedi, P. 1997. A tudományos kutatás logikája. –
Európa Kiadó
R Core Team . 2020. R: A Language and Environment for Statistical Computing.
R Foundation for Statistical Computing, Vienna, Austria. URL:
https://www.R-project.org/
Rotondi, M. A. 2018. epibasix: Elementary Epidemiological Functions for
Epidemiology and Biostatistics. URL:
https://CRAN.R-project.org/package=epibasix, R package version 1.5
Rényi, A. 1973. Valószínűségszámítás. – Tankönyvkiadó
Sarkar, D. 2008. Lattice: Multivariate Data Visualization with R. – Springer.
URL: http://lmdvr.r-forge.r-project.org
Schafer, J., Opgen-Rhein, R., Zuber, V., Ahdesmaki, M., Silva, A. P. D. &
Strimmer, K. 2017. corpcor: Efficient Estimation of Covariance and (Partial)
Correlation. URL: https://CRAN.R-project.org/package=corpcor, R
package version 1.6.9
Snow, G. 2016. TeachingDemos: Demonstrations for Teaching and Learning.
URL: https://CRAN.R-project.org/package=TeachingDemos, R package
version 2.10
Solt, G. 2006. Valószínűségszámítás. – Műszaki Könyvkiadó
Stevenson, M. & Sergeant, E. 2021. epiR: Tools for the Analysis of
Epidemiological Data. URL: https://CRAN.R-project.org/package=epiR, R
package version 2.1.31
Sugár, L., Heltay, I., Kabai, P. & Mátrai, K. 1989. Growth and condition of forest
and field roe deer fawns. In: Proceeding of the 16th Congress of International
Union of Game Biologists, Strbske Pleso, Tchecoslovaquie,(1983), vol. 1. vol. 1,
pp. 218–227
Székely, T., Cuthill, I. C. & Kis, J. 1999. Brood desertion in kentish plover: sex
differences in remating opportunities. – Behavioral Ecology 10(2): 185–190.
Venables, W. N. & Ripley, B. D. 2002. Modern Applied Statistics with S. 4th ed.
– Springer. URL: http://www.stats.ox.ac.uk/pub/MASS4
Warnes, G. R., Bolker, B., Lumley, T., from Randall C. Johnson are Copyright
SAIC-Frederick, R. C. J. C., by the Intramural Research Program, I. F., of the
NIH, Institute, N. C. & for Cancer Research under NCI Contract
NO1-CO-12400., C. 2018. gmodels: Various R Programming Tools for Model
Fitting. URL: https://CRAN.R-project.org/package=gmodels, R package
version 2.18.1
Warton, D. I., Duursma, R. A., Falster, D. S. & Taskinen, S. 2012. smatr 3 – an
R package for estimation and inference about allometric lines. – Methods in
Ecology and Evolution 3: 257–259.
Wilcoxon, F. 1945. Individual comparisons by ranking methods. – Biometrics
Bulletin 1(6): 80–83.
Zar, J. H. 1999. Biostatistical analysis – Pearson Education India
Tárgymutató
I-es modell 253 aszimptotikus (tulajdonság) 137
I. típusú négyzetösszeg 376 aszimptotikus normalitás 131,
II-es modell, 253, 254, 265 140, 144, 145
II. típusú négyzetösszeg 377 aszimptotikus pivot 143
aszimptotikus próba 169
A, Á aszimptotikus torzítatlanság
abline() 257, 267 137, 139, 140, 144
abszolút (arány-) skála 35, 38, 91 átlag 17, 19, 49, 66, 67, 78, 97, 105,
abszolút eltérés 110 113, 123, 145, 157
adatmátrix 33, 116 geometriai 108
adatpótlás (imputálás) 47 súlyozott 105
adatstruktúra trimmelt 107, 135
csoportos 283 átlagbecslés 352
ismételt méréses 283 átlagmodell 348, 351
aggregált eloszlás 50 átlagok közötti különbség 314
AIC 372, 373, 376 átlagos abszolút eltérés (MAD)
Akaike-kritérium 372 111, 133
állandó hiba variancia 367 átlagos négyzetes eltérés 133, 135
általános lineáris hipotézis 381 átlagra való hatás 314
általános lineáris modell 345
általánosíthatóság 344 B
alsó határ 178 bargraph.CI() 97, 340
alsó kvartilis 109, 114 Bartlett-próba 206, 319
alternatív hipotézis 151, 156 bartlett.test() 206
ANCOVA 328, 345, 353 Bayes-kritérium 372
ANOVA 202, 345, 361, 380 beágyazott modell 361
Anova() 377 becsült érték 315, 359
anova() 259, 363, 372, 375 becslés 27, 80, 118, 124
ANOVA-modell 376 eloszlása 124
ANOVA-tábla 319, 320 intervallumbecslés 126
aov() 318, 320, 328, 376 pontbecslés 124
arány- (abszolút) skála 35, 36 pontossága 124, 134, 145, 147
as.factor() 38, 348 szórása 124
asszociáció 117 torzítatlan 136, 137
asszociációs együttható 117 torzított 136

423
424 Reiczigel – Harnos – Solymosi: Biostatisztika

becslési eljárás 124 Cs


becslő függvény 124 csonkított (trimmelt) átlag 107
behelyettesítéses becslés 139 csoportok közötti variancia 315
BIC 373 csoportok páronkénti
bimodális eloszlás 107 összehasonlítása 322
bináris változó 37 csoportokon belüli variancia 315
binom.test() 220, 222, 228
binomiális eloszlás 68, 72, 190 D
binomiális próba 220 dbinom() 72, 76
biológiai szórás 315 dchisq() 80
biztos esemény 52, 57 design mátrix 346
Bland-Altman ábra 255 detach() 418
blokkhatás 330 determinációs együttható 259,
Bonferroni-féle korrekció 183, 378 264, 273, 370
Bonferroni–Holm-féle korrekció 183 df() 80
bootstrap Wilcoxon–Mann– DFBeta 289
Whitney-próba 236 dfbetas() 289
boxplot 96 DFFIT 290
boxplot() 114, 341 dffits() 290
boxplot.stats() 49 dhyper() 71, 72, 76
Brunner–Munzel-próba 236 diagnosztika 292, 332, 367
diagram 27, 87
C dichotom változó 37
célváltozó 314, 327, 328 diszkrét változó 38, 61, 95
cellagyakoriság 119, 214 dnorm() 80
chisq.test() 208, 209, 215, 217, 223, dpois() 76
225, 227 drop1() 376
ci() 127, 131 dt() 80
Cochran 32 dummy változó 348
coef() 355 Dunnett-próba 322, 378
confint() 261
confounder (zavaró változó) 116 E
Cook-féle D-statisztika 289 egyenkénti beléptetés 374
cooks.distance() 289 egyenkénti kihagyás 374
coplot() 100, 342 egyoldali ellenhipotézis 218
cor() 245, 248 egyoldali próba 167, 175, 186
cor.test() 246–249 egyszerű hipotézis 174, 176
cor2pcor() 275 egyszerű lineáris regresszió 255
COVRATIO 290 egytényezős varianciaelemzés 318, 325
covratio() 290 együttes eloszlás 68
Cramer-féle V 118, 119 együttes sűrűségfüggvény 68
csv 403 egzakt binomiális próba 220
cumsum() 36, 90 egzakt próba 169, 236
curve() 298, 302, 306, 311 ekvivalencia-vizsgálat 157
cut() 369 ekvivalens modellek 358
Tárgymutató 425

elégséges statisztika 165 teljes 371


előjelpróba 189, 227 eltolás (geometriai) 188, 235
elfogadási tartomány 170 elutasítási tartomány 170
ellenhipotézis 151, 152, 156, 164, 188 erő (próbáé) 166, 177, 180, 185, 186,
egyoldali 167, 170 321
kétoldali 167, 224 esély 56
ellentett esemény 51 esélyérték 56, 57, 59
eloszlás 40, 82, 206 esélyhányados 59, 225, 407
aggregált 49 esemény 51
bimodális 107 biztos esemény 52, 53, 57
binomiális 68, 72, 78, 82, 140, 145, ellentett esemény 51
169, 175 események függetlensége 56
diszkrét 61 független események 67
egycsúcsú 40 kizáró események 52
egyenletes 40 lehetetlen esemény 52, 53, 57
F -eloszlás 80 eseménytér 53
ferde 41, 49, 71, 74, 80, 113 eset 33
hipergeometrikus 68, 140 exploratív elemzés 339, 345, 370
kétdimenziós normális 246 exponenciális függvény 296
khi-négyzet 80, 144 extractAIC() 373
multimodális 107
negatív binomiális 68
normális 41, 78, 169, 170 F
paramétere 191 factor() 38, 348
Poisson 68, 75, 145 faktor 37, 38, 314, 338, 348, 357, 367,
standard normális 78, 81, 143, 144 369
Student-eloszlás 80, 144 falsifikáció 155
szimmetrikus 71, 74, 77, 188, 231 FDR (false discovery rate) 183
t-eloszlás 80 F -eloszlás 80
tapasztalati 211 felső határ 176
többcsúcsú 40 felső kvartilis 109, 114
unimodális 107 feltételek ellenőrzése 332
eloszlásfüggetlen 50, 187, 191, 231 feltételes szórásdiagram 342
eloszlásfüggvény 63, 66, 80 feltételes valószínűség 55, 58
tapasztalati 93 ferde eloszlás 113
eloszlásfüggvény inverze 80, 172 ferdeség (eloszlásé) 41, 50, 128
eloszlásmentes 187 Fisher 162
eloszlástáblázat 82, 172 Fisher-féle egzakt próba 157, 217, 223,
első fajta (elsőfajú) hiba 159 227, 229
elsőfajú hiba 159, 161, 163, 182, 184– fisher.test() 217, 218, 223, 225, 227
186, 322 fitted() 261
eltérés-négyzetösszeg 325, 376 folytonos változó 38, 61, 62, 95, 348,
hiba 320 353
regressziós 320 folytonossági korrekció 216, 233, 234
reziduális 320, 358, 361, 371 főátlag 348
426 Reiczigel – Harnos – Solymosi: Biostatisztika

F -próba 203, 315, 325, 361, 367, 372, hiba-valószínűség 129, 151, 155,
373 159, 170, 171, 185
független események 56, 182 hibatag 253, 256, 258, 294, 360
független megfigyelések 338 hipergeometrikus eloszlás 68
független minta 30 hipotézis 344
független változó 314 hipotézisvizsgálat 27, 80, 151, 257, 271,
független valószínűségi 360
változó 67 hist() 94
függetlenség 145, 215, 246, 283,
hisztogram 93, 95
313, 367
kumulatív 93
feltételes 68
statisztikai 115 osztályszélesség 93
teljes 68 relatív 93
változóké 115, 244 simított 94
függetlenségvizsgálat 213, 219, Holm-féle korrekció 183, 378
227 homogenitásvizsgálat 218, 227
függő változó 314, 345

G, GY I
Gauss-eloszlás (normális) 78
illeszkedésvizsgálat 206
Gauss-görbe (haranggörbe) 78
imputálás (adatpótlás) 47
geometriai átlag 108
glht() 378, 381 indikátor változó 348, 350, 377
gls() 299 indirekt bizonyítás 154
gnls() 307, 308 induktív statisztika 27, 80, 84, 87, 151
Goodman és Kruskal-féle influence.measures() 290
lambda 118 információs kritériumok 372
görbe alatti terület 63 interaction.plot() 341
gyakorisági adatok 35, 68 interakció 325–328, 330–332, 341, 352,
gyakoriságtáblázat 88, 93 357, 390
kétdimenziós 98 interakciós ábra 341
interkvartilis terjedelem 49, 104, 109,
H 113
haranggörbe (Gauss-görbe) 78, 80 intervallum 38, 52
Hat mátrix 360
intervallumbecslés 126, 146, 147
hatás 124
pontossága 135
hatásmodell 348, 351
hatásnagyság 153 intervallumskála 35–38, 91, 243,
hatóerő 289, 370 249, 252
hatványfüggvény 296, 301 IQR 49, 104, 109, 113
hatvalues() 370 IQR() 109
hegedűábra (violin plot) 96 irreleváns (szakmailag, klinikailag) 153,
helyzeti mutató 104, 105 178
hiányzó értékek 45, 46, 49 irreleváns információ 45
hiba 345 is.na() 46
Tárgymutató 427

K konfidencia-sáv 262
kapcsolat konfidencia-szint 126
korrelációs 243 konfidencia-tartomány 146
lineáris 243, 255, 268 kontingencia-tábla 98
monoton 243 kontraszt 324, 333, 380
negatív 243 ortogonális 334
nemlineáris 294 kontrasztmátrix 381, 389, 392
oksági 252 kontrollált randomizált kísérlet 152
pozitív 243 kontrollcsoport 313
szimmetrikus 243, 254 konzervativizmus 155, 160
kapcsolt rangok 44, 234, 236, 237, 239 konzisztencia 139
Kendall-féle tau 244, 247–249 konzisztens becslés 139, 140
kereszttábla 98 korreláció 117, 145
kezeléskombináció 313, 325, 328, 338, korrelációs együttható 117, 245
342, 353, 366 Kendall-féle tau 244, 247–249
kezelt csoport 313, 338 parciális 274
képzett változó 39 Pearson-féle 244, 245, 247, 273
kétoldali kritikus érték 82 Spearman-féle 244, 247–249
kétoldali próba 167, 175, 186 többszörös 273
kéttényezős elrendezés 330 korrelációszámítás 243, 254
khi-négyzet korrelálatlanság 244
eloszlás 80 korrigálatlan (variancia, szórás) 111
próba 157, 203, 207, 214, 217, 221, korrigált R2 273, 371
223, 227 korrigált (variancia, szórás)
kiegyensúlyozatlan elrendezés 319, 376 111
kiegyensúlyozatlanság 314 koszinusz-görbe 310
kiegyensúlyozott elrendezés 314, kovariáns 328, 348, 353, 357, 389
376 kód 33, 38
kiugró érték (outlier) 48, 111, 285, 370 kördiagram 91
kizáró események 52 közönséges legkisebb négyzetek
kísérleti elrendezések 329 255, 269
kísérlettervezés 32, 116 középérték 104
kockázat 53, 54, 58, 60 kritikus érték 81, 142, 144, 171, 172,
relatív kockázat 58 196, 205, 209, 397
kollinearitás 276, 277, 303, 314, egyoldali 172
359, 370 kétoldali 82, 172
Kolmogorov–Szmirnov-próba 209, 219 kritikus tartomány 170, 177
komplementer esemény 51 kruskal.test() 239, 241
konfidencia-intervallum 19, 126, kruskal_test() 239
128, 142, 149, 153, 184, Kruskal–Wallis-féle H-próba 238
189, 222, 225, 261, 322, ks.test() 210, 219
366, 397 kumulatív gyakoriság 36, 88
egyoldali 130, 131, 397 kutatásmódszertan 32
egzakt 404, 407, 408 kutatástervezés 32
szimmetrikus kétoldali 129 kvalitatív változó 35, 37, 104
428 Reiczigel – Harnos – Solymosi: Biostatisztika

kvantilis 114, 171, 211, 228 M


kvantitatív változó 35, 38, 104 MA-regresszió 265
kvartilis 49, 109, 114 mad() 112
maga után vonja (logikai művelet) 52
L magyarázó erő 371, 372
latinnégyzet-elrendezés 329, 331 magyarázó változó 251, 314, 345
legend() 100, 267 Mann–Whitney-próba 188, 235,
legkisebb négyzetek 238
általánosított 283, 299
másodfajú hiba 159, 177, 184
általánosított nemlineáris 307
második fajta (másodfajú) hiba
közönséges 255, 358
159
nemlineáris 303
matematikai statisztika 26, 78
súlyozott 280
matlines() 263
legkisebb szignifikáns differencia
322 matrix() 225, 226
lehetetlen esemény 52, 57 maximum 114
leíró statisztika 27, 87 maximum likelihood 140, 145, 358
Levene-próba 202, 205, 206, 319 maximum likelihood módszer 85
leveneTest() 205 McNemar-próba 226
likelihood függvény 140, 141 mcnemar.test() 226
line.cis() 267 mean() 45, 105, 124
lineáris függetlenség 359 medián 66, 106, 108, 113, 114, 157,
lineáris függvény 345, 367 189, 227
lineáris kombináció 334, 380 medián abszolút eltérés (MAD) 112
lineáris modell 184 megbízhatóság 27
általános 358 megbízhatósági szint 126, 185, 190,
feltételek 367 191
lineáris prediktor 346 megengedő vagy 52
lineáris regresszió 328 megfigyelési egység 23, 33, 99
egyszerű 255 megszámlálhatóan végtelen 38
többszörös 268 meredekség 255, 258, 354
II-es modell 265
mérési skála 35
lineáris transzformáció 121
mértani közép 108
lineárisra nem visszavezethető
metszet (halmazoké) 51
regresszió 303
minimális lefedési valószínűség 135
lineplot.CI() 97, 103, 340
lm() 257, 271, 318, 357, 376, 381 minimum 114
likelihood 371 minta 24, 63, 103, 118, 123, 151, 164
log-likelihood 371 reprezentatív 31
log-likelihood függvény 140 mintaátlag 105, 131, 135
logaritmus-függvény 296 mintaelemszám 371
logaritmus-transzformáció 108, meghatározása 25
245, 294 mintaelemszám-meghatározás 123, 141,
logisztikus függvény 309 147, 185
logit 56, 57 mintaterjedelem 104, 113
Tárgymutató 429

mintavétel 123 nls() 305, 311


csoportos 32 nominális skála 35, 37, 88, 95, 118
egyszerű véletlen 29 nominális változó 117, 348, 369
klaszteres 32 normális (Gauss-) eloszlás 41, 78
rétegzett 30 normális eloszlás
szabályos 31 kétdimenziós 246
szisztematikus 31 normalitás 272, 282, 367,
visszatevés nélküli 26, 29, 69 normalitásvizsgálat 319, 333
visszatevéses 26, 29, 69, 72 nulleloszlás 164, 165, 167, 176
mintavételi egység 23 nullhipotézis 151, 152, 156, 164, 165,
mintavételi torzítás 31 171, 188
model.matrix() 351
nullmodell 360, 371
model.tables() 321
numerikus változó 348
modell 54, 66, 82, 337
nyesett (trimmelt) átlag 107
általános lineáris 345
általánosított lineáris 372
beágyazott 372 O
ellenőrzése 345, 367 oddsz 56, 57
referencia 370 oksági kapcsolat 116
regressziós 337, 344 OLS 255, 265
statisztikai 344 operacionalizálás 32
tesztelése 345
ordinális skála 35, 37, 88, 95, 249
modellmátrix 346, 347, 350, 351, 356,
origón átmenő regresszió 263
361, 382
oszlopdiagram 88, 95
modellválasztás 370
osztályszélesség (hisztogramnál) 93
módosított Wald-intervallum 403
módusz 106 outlier (kiugró érték) 48
monoton kapcsolat 117
monoton transzformáció 121 Ö
Mood-féle mediánpróba 157, 229 összefüggés
mood.median.test() 229 exponenciális 298
mozaikábra (mosaic plot) 98
hatványfüggvény 301
multikollinearitás 276
lineáris 255, 268
multimodális eloszlás 107
logaritmikus 296
multiplikatív hiba 296
logisztikus 309
N, NY ok-okozati 252
NA (hiányzó érték kódja) 45 statisztikai 252
na.omit() 46, 125 telítődési 305
nagymintás próba 169 trigonometrikus 310
names() 413 összefüggés (változók között) 115
nemparaméteres 50, 187, 189, 191, 231 szorossága 117
négyzetes eltérés 109 összehasonlításonkénti alfa 182,
négyzetes többszörös korreláció 183
277 összetett hipotézis 175, 177, 185
430 Reiczigel – Harnos – Solymosi: Biostatisztika

P power.prop.test() 186
p.adjust() 184 power.t.test() 178, 181, 186
pairs() 100, 268 PP-ábra 211
par() 293 predict() 261, 262
paraméterbecslés 256, 260, 261, predikció 260
304, 351, 358, 378 predikciós intervallum 261, 262
paraméteres 140, 187 predikciós sáv 262
paramétervektor 346 prevalencia 53, 82
parciális korreláció 274 preventív faktor 58
partial.cor() 275 próba 151, 165, 193, 397
párosított minták 200, 226, 228, 234, aszimptotikus 169
398 egyoldali 167
pbinom() 190 egzakt 169
pchisq() 80 kétoldali 167
Pearson-féle korrelációs próba ereje 177
együttható 121, 244, 245, próbastatisztika 164, 165, 168, 187
247, 273 prop.table() 89, 98
percentilis 114 prop.test() 186, 221–224, 227
p-érték 19, 20, 160, 162, 167, 173, 187 pt() 80
pf() 80 publikációs torzítás 163
pivot 143
placebo-kontroll 313 Q
plot() 268, 292, 332, 367 qchisq() 80, 144
plug-in becslés 139, 140, 406 qf() 80
pnorm() 80 qnorm() 80, 143, 172
Poisson-eloszlás 75 QQ-ábra 210, 282, 306, 319, 333, 368
pontbecslés 124, 147 qqline() 212
hibája 132 qqnorm() 212
pontdiagram 91, 99 qqplot() 212
pontfelhő 99 qt() 80, 144
pontosság 185 quantile() 109, 114
Popper 155
populáció 24, 103, 118, 123, 151 R
hipotetikus 25 R2 370
képzetes 25 randomizáció 329
véges 25, 26, 29, 67, 69, 103 randomizált kísérlet 152
végtelen 25, 26, 29, 54, 69, rang-transzformáció 44
103, 123 range() 109
populációátlag 105, 131, 149, rangkorrelációs együttható
185, 194, 397 Spearman-féle 244, 247–249
populációbeli részarány 53, 71, rangmódszerek 189
149, 220, 402 rangpróbák 231
populációbeli variancia 401 rangszámok 44, 231
post hoc-tesztek 322 rank() 44
power.anova.test() 186 rchisq() 81
Tárgymutató 431

reductio ad absurdum 154 standardizált 287


referenciacsoport 58, 59 vizsgálata 279
referenciakategória 351 reziduum-hatóerő ábra 368
regresszió 145 rf() 81
I-es modell 253, 255 rizikó 53, 54
II-es modell 265 relatív rizikó 58
egyszerű lineáris 255 rizikócsoport 58
főtengely 265 rizikófaktor 58
lépésenkénti 371 rnorm() 80
lineárisra nem visszavezethető 303 robusztus 50, 107, 189
lineárisra visszavezethető 294, 295 rstandard() 287
MA-regresszió 265, 267 rstudent() 288
nemlineáris 293 rt() 81
OLS-regresszió 266, 283 rug() 94
origón átmenő 36, 260, 263, 347,
372 S
polinomiális 302, 347, 376 sample() 316
redukált főtengely 265 scale() 43
súlyozott 308 scatterplot() 342, 383
SMA-regresszió 265, 267 sd() 124
többszörös 268, 364 seq() 141
többszörös lineáris 268 setwd() 406
regressziós diagnosztika 279 shift-modell 188
regressziószámítás 251, 254, 314, 319, SMA-regresszió 265
345, 361, 371, 377 sort() 30
relatív Spearman-féle rangkorrelációs
hibacsökkenés 118 együttható 121, 244,
kockázat 19, 58, 406 247–249
rizikó 58 sqrt() 125
szórás 36, 112 standard hiba 124, 128, 131, 135, 139,
releváns (szakmailag, klinikailag) 152, 140, 144, 147, 149
178, 180, 185, 186, 364 standard normális eloszlás 79, 81
releváns információ 45 standardizálás 43
relevel() 378 standardizált reziduum-hatóerő
rendezett minta 190, 191, 211 ábra, 368
rep() 209 statisztika 103, 152
resid() 287 statisztikai függetlenség 115
részmodell 361 statisztikai mérőszám 27, 87, 103, 121
rétegzés 329 stdres() 287
reziduális str() 38, 357
szórás 257 Student-féle t-eloszlás 80
variancia 315 studentizálás 43
reziduum 87, 256, 319, 358 studres() 288
jackknife 288, 289 summary() 114, 258–259, 362
közönséges 287 súlyozott átlag 105, 129
432 Reiczigel – Harnos – Solymosi: Biostatisztika

sűrűségfüggvény 63, 66, 78, 172 torzítás 133, 135, 136


tapasztalati 93 torzítatlan becslés 136, 144
torzító pont 285, 289, 368, 370
SZ többszörös összehasonlítások 182, 378
szabadsági fok 80, 144 többszörös korrelációs együttható 273
számított érték 315 többszörös lineáris regresszió 268, 302
számegyenes 52, 62, 63, 106, 127 többszörös regresszió 268
számhalmaz 52, 61 többtényezős kísérlet 319
számtani közép 105 többtényezős varianciaelemzés 325
származtatott változó 39 t-próba 195, 197, 235, 313
szenzitivitás 177 egymintás 187
szignifikáns 19, 161–163, 182 kétmintás 188
szignifikancia 151, 187 páros 200
szignifikanciaszint 161
Student-féle 157
szignifikanciavadászat 183
transzformáció 40, 42, 44, 121, 294
szimmetrikus 80
lineáris 245
szita-formula 55
logaritmus 245, 294, 295
szórás 19, 78, 97, 104, 111, 113, 145
monoton 248
relatív 112
transzformáció-invariáns
szórás-becsült érték ábra 282, 319, 367
mérőszám 121
szórásdiagram 99, 243, 341
szórásdiagram-mátrix 268 transzformáció-követő
szóráselemzés 313 mérőszám 121
szórásnégyzet 111 Trellis grafika 95
szóródási mutató 104, 105, 108 trimmelt átlag 107
t.test() 164, 178, 181, 195, 197, 198,
T 200
table() 36, 90, 98 Tukey-próba 322, 324, 378
tabular() 339 TukeyHSD() 323, 327
tagadás (logikai) 52 túlparaméterezettség 350
táblázatkezelő program 33
telített modell 360 U
telítődési függvény 304 unimodális eloszlás 107
teljes eltérés-négyzetösszeg 330 unió (halmazoké) 51
teljes véletlen elrendezés 329 u-próba 194
t-eloszlás 80
tendenciózus hiba 133
tengelymetszet 255, 260, 353 V
terjedelem 108 valószínűség 53, 56, 58, 61, 63, 220,
teszt 151, 184 402
teszt-inverzió 145, 184 összegzési szabály 54
teszt-statisztika 165 becslése 113
tényező 314, 327 feltételes valószínűség 55, 58
tévedési valószínűség 27, 118 számolási szabályok 54
tolerancia 277 valószínűségi függvény 61, 66, 71, 76
Tárgymutató 433

valószínűségi változó 25, 39, 61, 67, W


82, 123, 254 Wald-féle konfidencia-
diszkrét 61 intervallum 424
folytonos 62 módosított 403
valószínűségi változók Welch-féle konfidencia-
függetlensége 67 intervallum 400
valószínűségszámítás 54, 154, 168 Welch-próba 197, 198
váltakozó beléptetés-kihagyás 374, 375 which() 47
változó 33 wilcox.exact() 231, 236
függő 251, 253 wilcox.test() 231, 233, 234,
független 251 236, 237
magyarázó 251, 253 wilcox_test() 236, 238
valószínűségi 254 Wilcoxon-féle előjeles rangpróba
változók összefüggése 115 188, 231
változók függetlensége 115, 244 Wilcoxon-féle rangösszeg-próba
var() 111 235
várható érték 67, 72, 74, 78, 103, 131, Wilson-féle konfidencia-
194, 397 intervallum 404
várható gyakoriság (függetlenség write() 407
esetén) 119 write.table() 408
var.test() 164, 204
variációs együttható 36, 112, 113 X
variancia 67, 77, 104, 109, 110, 202 x-y diagram 99
korrigálatlan 135
korrigált 135 Y
variancia infláció faktor 277, 278 Yates-féle korrekció 216,
variancia-kovariancia-elemzés 328 221
varianciaelemzés 184, 202, 313
Z
varianciatábla 319
zavaró tényező (confounder)
végtelen (∞ szimbólum) 52
331, 332
véletlen blokkos elrendezés 329
zavaró változó (confounder)
véletlen hatás 253
329
véletlen hiba 133, 253, 255, 258, 315,
z-próba 194, 195, 197, 221
329, 346
z.test() 194
véletlen minta 123
véletlenség 253
véletlenszám-generálás 81
véletlenszám-generátor 30
véletlenszám-táblázat 30
vetítő mátrix 360, 370
vif() 278

You might also like