Professional Documents
Culture Documents
Reiczigel J. - Biostatisztika Nem Statisztikusoknak
Reiczigel J. - Biostatisztika Nem Statisztikusoknak
BIOSTATISZTIKA
NEM STATISZTIKUSOKNAK
Reiczigel Jenő – Harnos Andrea – Solymosi Norbert
BIOSTATISZTIKA
nem statisztikusoknak
PARS KÖNYVEK
Pecsenye Katalin (2006): Populációgenetika. Pars Kft., Nagykovácsi, 401 oldal, ISBN 963
06 0325 X
Izsák János – Szeidl László (2009): Fajabundancia-eloszlási modellek. Pars Kft., Nagyko-
vácsi. 300 oldal, ISBN 978-963-88339-0-7
Papp, L. and Černý, M. (2015): Agromyzidae (Diptera) of Hungary. Volume 1. Agromy-
zinae. Pars Ltd, Nagykovácsi, 416 pp., ISBN 978 963 88339 2 1
Papp, L. and Černý, M. (2016): Agromyzidae (Diptera) of Hungary. Volume 2. Phytomy-
zinae I. Pars Ltd, Nagykovácsi, 385 pp., ISBN 978 963 88339 3 8
Papp, L. and Černý, M. (2017): Agromyzidae (Diptera) of Hungary. Volume 3. Phytomy-
zinae II. Pars Ltd, Nagykovácsi, 427 pp., ISBN 978 963 88339 5 2
Tóth, M. (2017): Hair and fur atlas of Central European mammals. Pars Ltd, Nagykovácsi,
307 pp., ISBN 978 963 88339 7 6
Pecsenye Katalin (2018): Evolúciós kvantitatív genetika. Pars Kft., Nagykovácsi, 400 oldal.
ISBN 978 615 81152 0 9
Papp, L. and Černý, M. (2019): Agromyzidae (Diptera) of Hungary. Volume 4. Phytomy-
zinae III. Pars Ltd, Nagykovácsi, 708 pp., ISBN 978 963 88339 6 9
Varga Zoltán (2019): Biogeográfia – az élet földrajza. Pars Kft., Nagykovácsi, 610 oldal,
ISBN 978 963 88339 9 0
Varga Zoltán – Rózsa Lajos – Papp László – Peregovits László (szerk.) (2021): Zootaxonó-
mia – Az állatvilág sokfélesége. Javított kiadás, Pars Kft., Nagykovácsi, 449 oldal, ISBN
978-963-8833945
Reiczigel Jenő, Harnos Andrea és Solymosi Norbert (2021): Biostatisztika nem statiszti-
kusoknak. 3. kiadás. Pars Kft., Nagykovácsi, i-x+433 oldal, ISBN 978 615 81152 1 6
Megrendelhető
Pars Kft.
2094 Nagykovácsi Balta u. 11.
parskft@gmail.com
06-20-5466048
Reiczigel Jenő – Harnos Andrea – Solymosi Norbert
BIOSTATISZTIKA
nem statisztikusoknak
Lektorok
Lang Zsolt
Kis János
HU ISBN 978-615-81152-1-6
HU ISSN 1788-4349
3. kiadás
Előszó 1
Köszönetnyilvánítás . . . . . . . . . . . . . . . . . . . . . . . . . 5
Hogyan olvassuk ezt a könyvet? . . . . . . . . . . . . . . . . . . 6
Szükséges előismeretek . . . . . . . . . . . . . . . . . . . . . . . 7
Jelölések, írásmód . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Ismerkedés az R-rel . . . . . . . . . . . . . . . . . . . . . . . . . 9
Hogyan olvassuk az R-kódokat? . . . . . . . . . . . . . . . . . 10
1. Bevezetés 13
1.1. Miért tanuljunk statisztikát? . . . . . . . . . . . . . . . . 13
1.2. Megjegyzések a példákhoz . . . . . . . . . . . . . . . . . . 16
1.3. Hétköznapi valószínűségszámítás és statisztika . . . . . . 20
2. A statisztika alapfogalmai 23
2.1. Populáció és minta . . . . . . . . . . . . . . . . . . . . . . 23
2.2. Leíró és induktív statisztika . . . . . . . . . . . . . . . . . 27
2.3. Mintavételi módszerek . . . . . . . . . . . . . . . . . . . . 29
2.4. Az adatok . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4.1. Adatmátrix . . . . . . . . . . . . . . . . . . . . . . . 33
2.4.2. Adattípusok, mérési skálák . . . . . . . . . . . . . . . 34
2.4.3. Transzformációk, származtatott változók . . . . . . . 39
2.4.4. Hiányzó értékek . . . . . . . . . . . . . . . . . . . . . 45
2.4.5. Kiugró értékek . . . . . . . . . . . . . . . . . . . . . . 48
i
3.5. A statisztikában leggyakrabban használt eloszlások . . . . 68
3.5.1. A hipergeometrikus és a binomiális eloszlás . . . . . 68
3.5.2. A Poisson-eloszlás . . . . . . . . . . . . . . . . . . . . 75
3.5.3. A normális eloszlás . . . . . . . . . . . . . . . . . . . 78
3.5.4. További folytonos eloszlások . . . . . . . . . . . . . . 80
3.6. A valószínűségszámítás és a statisztika kapcsolata . . . . 82
4. Leíró statisztika 87
4.1. Táblázatok és ábrák . . . . . . . . . . . . . . . . . . . . . 87
4.1.1. Egy változó ábrázolása . . . . . . . . . . . . . . . . . 88
4.1.2. Két változó együttesének ábrázolása . . . . . . . . . 98
4.2. Mérőszámok, statisztikák . . . . . . . . . . . . . . . . . . 103
4.2.1. Egy változó jellemzése . . . . . . . . . . . . . . . . . 104
4.2.2. Két változó közötti összefüggés jellemzése . . . . . . 115
4.2.3. Asszociációs mértékek . . . . . . . . . . . . . . . . . 118
4.2.4. Adattranszformációk hatása a statisztikai mérőszámok-
ra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5. Becslés 123
5.1. Alapfogalmak . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.1.1. Pontbecslés . . . . . . . . . . . . . . . . . . . . . . . 124
5.1.2. Intervallumbecslés . . . . . . . . . . . . . . . . . . . . 126
5.1.3. Matematikai formalizmus . . . . . . . . . . . . . . . 129
5.1.4. A mintaátlag néhány fontos tulajdonsága . . . . . . . 131
5.1.5. Becslés pontossága . . . . . . . . . . . . . . . . . . . 132
5.2. Pontbecslések jósága . . . . . . . . . . . . . . . . . . . . . 135
5.2.1. Torzítatlanság . . . . . . . . . . . . . . . . . . . . . . 135
5.2.2. Konzisztencia . . . . . . . . . . . . . . . . . . . . . . 139
5.3. Eljárások pontbecslések készítésére . . . . . . . . . . . . . 139
5.3.1. Behelyettesítéses becslés . . . . . . . . . . . . . . . . 139
5.3.2. Maximum likelihood (ML) becslés . . . . . . . . . . 140
5.4. Eljárások konfidencia-intervallumok szerkesztésére . . . . 142
5.5. Több paraméter szimultán becslése . . . . . . . . . . . . . 145
5.6. A szükséges mintaelemszám meghatározása becsléshez . . 147
6. Hipotézisvizsgálat 151
6.1. A statisztikai hipotézisvizsgálat alapgondolata . . . . . . 153
6.1.1. Az indirekt bizonyítás . . . . . . . . . . . . . . . . . 154
6.1.2. A tudomány fejlődése . . . . . . . . . . . . . . . . . . 155
6.1.3. Null- és alternatív hipotézis . . . . . . . . . . . . . . 156
ii
6.1.4. Döntés a nullhipotézisről . . . . . . . . . . . . . . . . 159
6.2. A hipotézisvizsgálat technikai kérdései . . . . . . . . . . . 163
6.2.1. Próbastatisztika . . . . . . . . . . . . . . . . . . . . . 164
6.2.2. A p-érték meghatározása . . . . . . . . . . . . . . . . 168
6.2.3. Döntés a H 0 -ról p-érték nélkül . . . . . . . . . . . . . 170
6.2.4. Egyszerű és összetett hipotézisek . . . . . . . . . . . 174
6.2.5. Próba ereje . . . . . . . . . . . . . . . . . . . . . . . 177
6.3. További témák . . . . . . . . . . . . . . . . . . . . . . . . 182
6.3.1. Többszörös összehasonlítások . . . . . . . . . . . . . 182
6.3.2. Tesztek és konfidencia-intervallumok . . . . . . . . . 184
6.3.3. A szükséges mintaelemszám meghatározása . . . . . 185
6.3.4. Paraméteres és nemparaméteres eljárások . . . . . . 187
iii
8. Korrelációszámítás 243
8.1. A Pearson-féle korrelációs együttható . . . . . . . . . . . 244
8.1.1. Hipotézisvizsgálat a Pearson-féle korrelációs
együtthatóra vonatkozóan . . . . . . . . . . . . . . . 246
8.2. Együtthatók monoton kapcsolatokra . . . . . . . . . . . . 247
8.2.1. A monoton korrelációs együtthatókra vonatkozó próba 249
9. Regressziószámítás 251
9.1. A regressziószámítás szokásos kérdésfeltevései . . . . . . . 252
9.2. Véletlenség a magyarázó és a függő változóban . . . . . . 253
9.3. Mikor használjunk korreláció-, illetve regressziószámítást? 254
9.4. Egyszerű lineáris regresszió: I-es modell . . . . . . . . . . 255
9.4.1. Hipotézisvizsgálatok . . . . . . . . . . . . . . . . . . 257
9.4.2. A determinációs együttható . . . . . . . . . . . . . . 259
9.4.3. Predikció a modellben . . . . . . . . . . . . . . . . . 260
9.5. Origón átmenő regresszió . . . . . . . . . . . . . . . . . . 263
9.6. Egyszerű lineáris regresszió: II-es modell . . . . . . . . . . 265
9.6.1. MA-regresszió . . . . . . . . . . . . . . . . . . . . . . 265
9.6.2. SMA-regresszió . . . . . . . . . . . . . . . . . . . . . 265
9.7. Többszörös lineáris regresszió . . . . . . . . . . . . . . . . 268
9.7.1. Hipotézisvizsgálatok . . . . . . . . . . . . . . . . . . 271
9.8. További korrelációs mérőszámok . . . . . . . . . . . . . . 273
9.8.1. A többszörös korreláció és a determinációs együttható 273
9.8.2. A parciális korreláció . . . . . . . . . . . . . . . . . . 274
9.9. Multikollinearitás . . . . . . . . . . . . . . . . . . . . . . 276
9.10. Regressziós diagnosztika . . . . . . . . . . . . . . . . . . . 279
9.10.1. Az illesztett modell jóságának vizsgálata . . . . . . . 279
9.10.2. Alkalmazhatósági feltételek vizsgálata . . . . . . . . 280
9.10.3. Kiugró értékek és torzító pontok . . . . . . . . . . . . 285
9.10.4. Diagnosztikus ábrák . . . . . . . . . . . . . . . . . . 292
9.11. Nemlineáris kapcsolatok . . . . . . . . . . . . . . . . . . . 293
9.11.1. Lineárisra visszavezethető regressziók . . . . . . . . . 294
9.11.2. Példák változók transzformálásával végzett regressziók-
ra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
9.11.3. Lineárisra nem visszavezethető regressziók . . . . . . 303
iv
10.3. Többtényezős varianciaelemzés . . . . . . . . . . . . . . . 325
10.4. Kísérleti elrendezések . . . . . . . . . . . . . . . . . . . . 329
10.4.1. Véletlen blokkos elrendezés . . . . . . . . . . . . . . . 329
10.4.2. Latinnégyzet-elrendezés . . . . . . . . . . . . . . . . 331
10.5. Az ANOVA diagnosztikája . . . . . . . . . . . . . . . . . 332
10.6. Kontrasztok . . . . . . . . . . . . . . . . . . . . . . . . . . 333
v
11.11.1. Kontrasztok (általános lineáris hipotézisek)
becslése és tesztelése . . . . . . . . . . . . . . . . . . 381
Függelék
Irodalomjegyzék 419
Tárgymutató 423
vi
Előszó
Könyvünk megírásához mind a motivációt, mind a tematikát a Szent István
Egyetem Állatorvos-tudományi Karán (ma Állatorvostudományi Egyetem)
tartott, közösen kidolgozott kurzusaink adták. Az anyag zöme a zoológia,
most már biológia BSc szakos hallgatóknak tartott Biomatematika II és
Számítógépes statisztika kurzusainkon alapul, de felhasználtuk benne Kí-
sérlettervezés, Regressziószámítás és Bevezetés az R-be PhD tanfolyama-
ink, illetve a jelen kiadásban a Biostatisztikus szakképzésen tartott Lineáris
modellek kurzus anyagát is.
A könyvet elsősorban a bevezető statisztika kurzusok hallgatóinak szán-
juk, hogy segítse őket az alapfogalmak és a legszükségesebb módszerek el-
sajátításában, valamint a statisztikai szemléletmód kialakításában. Mivel
magunk is az élettudományok területén dolgozunk és oktatunk, példáinkat
is főleg ilyen területekről vettük, ezért könyvünket valószínűleg a biológus,
orvos, állatorvos és agrár szakos hallgatók forgathatják legtöbb haszonnal.
A statisztika vizsgára készülő hallgatókon kívül jó szívvel ajánljuk a
könyvet azoknak is, akiknek munkájukhoz szükségük van a statisztika al-
kalmazására, de bizonytalannak érzik magukat ezen a területen, vagy a
statisztika logikáját a hétköznapi gondolkodástól idegennek érzik. Remél-
jük, hogy sikerül bebizonyítanunk, hogy a statisztikai gondolkodásmódban
igenis van logika, s a hétköznapi életben a Kedves Olvasó is gyakran így
gondolkodik, csak esetleg nem veszi észre. Arról is szeretnénk meggyőzni az
olvasót, hogy a statisztika nem csupán szükséges rossz, hanem hasznos se-
gítség annak megítélésében, hogy mennyire bízhatunk (vagy mennyire kell
kételkednünk) egy kapott eredményben. Végül azt is szeretnénk bebizonyí-
tani, hogy a statisztika nem „varázslás”, hanem bárki számára – igaz, némi
erőfeszítés árán – elsajátítható.
Könyvünk hasznos lehet azoknak a statisztikát jól ismerő és munká-
jukban rendszeresen használó kutatóknak is, akik szeretnének közelebbről
megismerkedni az R programcsomaggal. Az R egy ingyenes, több, mint 25
éve fejlesztett, s mára nagyon elterjedt, tökéletesen professzionális statisz-
1
2 Reiczigel – Harnos – Solymosi: Biostatisztika
Van néhány dolog, amit – bár nem lett volna ellenünkre – mégsem tud-
tunk felvállalni. Tehát mit ne várjon a Kedves Olvasó a könyvünktől:
1
www.miktex.org
2
www.tug.org/texlive/
3
www.xm1math.net/texmaker/
Köszönetnyilvánítás 5
Köszönetnyilvánítás
Ezen könyv megszületése – bár csak három szerző jegyzi – nagyon sokak
munkájának, biztatásának, lelkesedésének köszönhető. Hálánk jeléül felso-
roljuk azokat, akik tevőlegesen hozzájárultak a könyv létrejöttéhez, tudva
azt, hogy rajtuk kívül még sokakat felsorolhatnánk. A könyv lektorálásában
részt vettek: Lang Zsolt, Kis János, Kiss Alexa, Abonyi-Tóth Zsolt, Lőkös
László, Valcz Gábor, Maróti-Agóts Ákos, Szőke Dominika, Speiser Ferenc,
Lakos András. Akiknek az adatait felhasználhattuk a példákhoz: Takács Er-
zsébet†, Székely Tamás, Kis János, Peregovits László, Kőrösi Ádám, Mán-
doki Míra, Nagy Péter, Kabai Péter.
Sokan támogatták erőfeszítéseinket azzal, hogy olyan körülményeket te-
remtettek nekünk, amelyek lehetővé tették a könyv megírását: Fodor János†,
Fodor László, Harnos Zsolt†, Kövér Szilvia, Demeter Márton, Szabó Gabri-
ella. Külön köszönet Demeter Mártonnak a 3., Piross Imre Sándornak a 4.
javított utánnyomáshoz nyújtott segítségéért.
Akik biztattak minket: Kis János, Varga Zoltán, Izsák János, Papp Pé-
ter László, Rózsa Lajos, Barta Zoltán, Pénzes Zsolt, Miklósi Ádám, Boda
Krisztina és még sokan mások.
És természetesen hálával tartozunk családtagjainknak – Szekeres Zsu-
zsának, Dala Sárának, Vattay Gábornak, Enikőnek, Gergőnek és Demeter
Daninak – azért, hogy elviselték a könyvírás nehéz időszakát.
Könyvünk 2007-es kiadása az Oktatási és Kulturális Minisztérium tá-
mogatásával, a Felsőoktatási Tankönyv- és Szakkönyvtámogatási Pályázat
keretében jelent meg, és a T049157 számú OTKA pályázat támogatásával
készült.
ÁTE Biomatematikai és
Számítástechnikai Tanszék
6 Reiczigel – Harnos – Solymosi: Biostatisztika
Szükséges előismeretek
A teljes középiskolai matematika anyag ismeretét feltételezzük, de néhány
fejezetet külön is kiemelünk, mert ezek ismeretét különösen fontosnak tart-
juk. Egyik ilyen fejezet a logika. Érteni kell, hogy mit jelent az, hogy egy
állításból logikailag következik egy másik állítás. Tisztában kell lenni azzal,
hogy mit jelentenek – és mikor igazak – az „és”-sel, illetve „vagy”-gyal kép-
zett összetett állítások és a „ha-akkor” típusú kijelentések. Azt is tudni kell,
hogy hogyan képezhetjük az ilyen összetett állítások tagadását.
Ismerni kell a halmazműveleteket: a metszetet, egyesítést és a komp-
lementer halmaz képzését. Ismerni kell a kombinatorika alapfogalmait, de
legalább a faktoriális jelölést:
5! = 1 · 2 · 3 · 4 · 5, k! = 1 · 2 · · · · · k
és a binomiális együtthatókat:
! !
n n! 8 8! 8·7·6
= , = = = 56.
k k! · (n − k)! 3 3! · 5! 3·2·1
Jelölések, írásmód
A könyvben tizedesvessző helyett tizedespontot használunk, részint azért,
mert az R is tizedespontot használ, részint pedig azért, mert a statisztikában
sokszor kell felsorolnunk számokat, és tizedesvessző használata esetén ezek
a felsorolások olvashatatlanná válnának.
Nagyon kicsi és nagyon nagy értékeket az R normálalakban ír ki: például
a 0.00000000000689 szám normálalakja 6.89 · 10−12 . Ennek másik szokásos
formája a 6.89E-12, ahol az „E” az exponensre (= kitevő) utal. Figyelem,
az R kis „e”-vel írja, így: 6.89e-12!
Sokszor használjuk a szumma jelet, amely összegek tömör leírására szol-
gál. Két példa:
6 n
X 1 1 1 1 1 20 + 15 + 12 + 10 57 X
= + + + = = pk = p+p2 +p3 +. . .+pn .
j=3
j 3 4 5 6 60 60 k=1
P
Ha a jelnél nem írjuk ki, hogy mettől meddig összegzünk, akkor az
azt jelenti, hogy az összes lehetséges értékre (például az összes mintaelemre)
képezzük az összeget.
Igyekeztünk a statisztikában szokásos jelöléseket használni, így néhány
dolgot görög betűvel jelölünk. Nevezetesen az alábbi görög betűket hasz-
náljuk: α (alfa), β (béta), γ (gamma), ε (epszilon), λ (lambda), χ (khi),
τ (tau), µ (mű), σ (szigma), valamint Σ (nagy szigma).
A valószínűségszámításról szóló fejezetben azt az elvet követjük, hogy a
valószínűségi változókat nagybetűvel (X), a konkrét számértékeket pedig
kisbetűvel (x) jelöljük. Ennek előnye, hogy a képletekben egyértelmű, hogy
melyik betű jelöl változót és melyik konkrét számértéket. Sajnos a statisz-
tikáról szóló fejezetekben ezt már nem tudtuk következetesen alkalmazni,
elsősorban azért, mert más, ugyancsak megszokott jelöléseken, amelyek en-
nek az elvnek ellentmondanak, nem akartunk változtatni.
Ha egy változót vastag álló betűvel jelölünk, akkor az kisbetű esetén
vektort (például b1 ), nagybetű esetén mátrixot (például H) jelent.
A könyvben szereplő fontosabb fogalmak definícióját kiemeltük, és a defi-
nícióval együtt az angol elnevezést is megadtuk. Sajnos ugyanarra a fogalom-
ra gyakran mind a magyarban, mind az angolban több kifejezés is létezhet.
Ilyen esetekben igyekeztünk mind magyarul, mind angolul az összes ismert
elnevezést felsorolni, és rámutatni az esetleges értelmezésbeli különbségek-
re. Szintén kiemelten szedtünk olyan megállapításokat, amelyeket alapvető
fontosságúnak tartunk.
Ismerkedés az R-rel 9
Ismerkedés az R-rel
Könyvünk 2. javított utánnyomásában a statisztikai elemzésekhez és a leg-
több ábra elkészítéséhez az R 2.15.1 programot használtuk MS Windows
környezetben. A 5. javított utánnyomás kódjai Ubuntu 18.04 operációs rend-
szeren és R 4.0.2 verzión lettek futtatva.
Az R-ben a felhasználó a manapság megszokott menürendszer helyett
szöveges parancsokkal vezérli a programot. A program kezelő felülete az
RGui, ennek „R Console” ablakába írhatjuk be a parancsokat, és az ered-
ményeket is itt kapjuk meg (az ábrák kivételével, amelyek az „R Graphics”
ablakban jelennek meg). Az RGui ablakai minimális menürendszerrel ren-
delkeznek, amelyekben a szerkesztéshez, beállításokhoz, letöltésekhez, men-
tésekhez, súgóhoz stb. tartozó fontosabb funkciók érhetők el.
A menürendszerrel működő programokhoz képest az R tanulása nagyobb
kezdeti befektetést igényel felhasználójától, cserébe azonban sokkal többet
is nyújt. (A statR.e-akademia.hu-n elérhető egy ingyenes interaktív R
bevezető tananyag, melynek segítségével a Kedves Olvasó elsajátíthatja az
R alapszintű használatához szükséges ismereteket.) Tapasztalataink szerint
azok, akik R-rel kezdenek statisztikát tanulni, jóval többet értenek saját
elemzéseikből, mint azok, akik menüvezérelt programokkal kezdenek (persze
soha nem késő váltani).
Egy elemzéshez szükséges parancsok sorozata („szkript”, „program” vagy
„R-kód”) elmenthető és bármikor újrafuttatható. Ennek nagy előnye, hogy
ha sokszor kell ugyanolyan típusú elemzést végeznünk, akkor elég egyszer
elkészíteni a programot. Az R-kódokat célszerű részletes jegyzetekkel (kom-
mentekkel) ellátni, hasonlóan a program forráskódokhoz. Ez a kezdeti „több-
let” munka sokszorosan visszatérül, hiszen így sok évvel az elemzések elvég-
zése után is pontosan felidézhetjük elemzéseink legapróbb részleteit is.
A kódszerkesztést megkönnyíthetjük azzal, ha az RGui kódszerkesztő-
jét más szövegszerkesztővel helyettesíthetjük. Ilyen például a Tinn-R4 , az
RStudio5 vagy az RKWard6 , amelyek használata ingyenes, és többek között
képes az R programozási nyelv szintaxisának megfelelő szövegkiemelésre,
és egyszerre több szkriptet is szerkeszthetünk benne. Képesek az RGui-val
4
https://sourceforge.net/projects/tinn-r/
5
https://www.rstudio.com/
6
https://rkward.kde.org/
10 Reiczigel – Harnos – Solymosi: Biostatisztika
Jel Jelentés
> Az úgynevezett „prompt”, az R ezzel jelzi (az „R Console”
ablakban), hogy várja a felhasználó parancsait.
+ Akkor jelenik meg a prompt helyén, ha az előző sorban lévő
utasítást az R nem találta teljesnek, folytatásra vár.
1:5 Az 1, 2, 3, 4, 5 értékekből álló vektor.
Ismerkedés az R-rel 11
Jel Jelentés
= Értékadás: például az a = 12 parancs azt jelenti, hogy az a
változó értéke legyen 12, a b = 3:6 pedig azt, hogy a b legyen
a 3, 4, 5, 6 számokból álló vektor. Lehet helyette használni
a <-, illetve -> szimbólumokat is.
(...=...) Ha egy értékadó utasítást zárójelbe teszünk, akkor az R az
értékadás végrehajtása mellett ki is írja az eredményt (célja
csupán helytakarékosság).
13
14 Reiczigel – Harnos – Solymosi: Biostatisztika
2. Azért, hogy jobban meg tudjuk ítélni, hogy szerencsénk volt-e, vagy
pechünk – vagy éppen egyik sem: ami történt, az általában így szokott
történni, ez a dolgok normális menete.
Az autóbusznak, amellyel nap mint nap járok, a tábla szerinti követési ideje
15 perc. Mivel nincs pontos menetrendje, úgy számoltam, hogy átlagosan
hét és fél percet kell várnom rá, de egy idő után az volt az érzésem, hogy a
helyzet ennél sokkal rosszabb. Nem voltam rest, lemértem 50 várakozási időt,
1.1. Miért tanuljunk statisztikát? 15
és ezekből az jött ki, hogy átlagosan 11 percet kell várnom a buszra. Ilyen
peches lennék? Vagy a tábla nem mond igazat? Vagy ez csupán véletlen? (a
megoldást lásd a következő részben)
3. Azért, hogy jobban meg tudjuk ítélni, mi mennyit ér, miért mennyit
érdemes kockáztatni. (Érdemes megjegyezni, hogy a valószínűségszámítás
kialakulásának idején – a tizenhetedik században – ezt az új tudományágat
a szerencsejátékok rejtélyes világa inspirálta, és eredményeinek első alkal-
mazásai is a szerencsejátékok területén voltak.)
Sorsjegyből 10000 db-ot nyomnak, közülük 1 fizet 1 millió forintot, 50 tíz-
ezret, 2449 pedig ezret (így ráírhatják, hogy „minden negyedik nyer legalább
1000, de akár 1 millió forintot”). A sorsjegyet 490 forintért árulják. Megéri-
e játszani? Szerencsének tekintené-e, ha egy ilyen sorsjeggyel nyert? Pech-
nek tekintené-e, ha nem nyert? És ha vett tízet, és egyik sem nyert? Hogyan
változnának a fenti kérdésekre adott válaszok, ha a 7500 „nem nyert” kö-
zül 1000-re azt írnák, hogy „újra húzhat”? (a megoldást lásd a következő
részben)
4. Azért, hogy pontosan értsük a szakirodalmat.
a) „A kísérlet során az állatok átlagos tömeggyarapodása a kezelt cso-
portban 44.6 ± 8.7 kg (n = 44), a kontrollban pedig 40.7 ± 14.7 kg
(n = 48) volt. A közel 10%-os különbség az átlagok között jelentős,
de statisztikailag nem szignifikáns (kétmintás Welch-féle t-próbával
p = 0.1279). Ugyanakkor a szórások között a különbség szignifikáns
(F -próbával p = 0.0007).”
b) „A vizsgálat szerint cukorbetegség esetén a stroke relatív kockázata
a nem cukorbetegekhez képest 2.56 (95%-os konfidencia-intervallum:
(1.37, 5.26), p = 0.009).”
5. Azért, hogy saját vizsgálataink tervezését, illetve kiértékelését ügye-
sebben el tudjuk végezni.
Mekkora mintával dolgozzak? Elhagyhatok-e egy gyanús, hibásnak látszó ada-
tot? Regresszió- vagy korrelációszámítást végezzek? A sok azonos célú – csak
részleteiben különböző – varianciaelemzés modell közül melyiket használjam?
Érdekes, váratlan eredményt kaptam: vajon most felfedeztem valamit, vagy
csak a véletlen játéka, amit látok? Mennyire megbízható, mennyire pontos
az eredmény, amit kaptam?
6. Azért, hogy eredményeinket érthetőbben és hatásosabban, a lényeget
kiemelve tudjuk közölni.
Az ember gyakran bizonytalan: elég, ha megadom az átlagokat és a szórá-
sokat? Minden átlaghoz külön adjam meg a szórást vagy csak egy közöset?
Vagy az átlag helyett jobb lenne a medián? Esetleg kellene az előadásba né-
hány táblázat vagy ábra is? Ha ábra, akkor kördiagram vagy oszlopdiagram?
16 Reiczigel – Harnos – Solymosi: Biostatisztika
(a) (b)
9000
8700 8000
8600 7000
6000
8500 5000
8400 4000
3000
8300 2000
8200 1000
0
2004 2005
1.4. ábra. Az oszlopok magasságának aránya ugyanakkora, mint az 1.2. ábrán lévő
pénzeszsákok magasságának aránya, a piktogramon a különbség mégis nagyobbnak
látszik
1e) Semmi különös nincs abban, hogy a népességnek több mint a fe-
le helyezkedik el az átlag alatt. Soha nem állította senki az átlagról, hogy
rendelkezne azzal a tulajdonsággal, hogy ugyanannyian vannak alatta, mint
felette. Van ilyen statisztikai mutató is, de az nem az átlag, hanem a medián
(további részletek a 4.2.1. fejezetben). Az átlag nem feltétlenül a tipikus, a
hétköznapi, a leggyakoribb érték. Jól példázza ezt a következő meghökkentő
állítás is: „Az emberek túlnyomó többségének az átlagosnál több lába van.”
Valóban, különböző betegségek vagy balesetek miatt az emberek egy csekély
18 Reiczigel – Harnos – Solymosi: Biostatisztika
hányada sajnálatos módon elveszíti egyik vagy mindkét lábát, aminek kö-
vetkeztében az átlag egy kicsivel kettő alá csökken. Ugyanakkor az emberek
túlnyomó többségének két lába van.
1f) A megfogalmazásból látszik, hogy a vizsgált 1500 fős mintát életkor,
nem, iskolai végzettség és lakóhely szerint csoportokra bontották. Feltehe-
tően nem szerint kettő, kor szerint – a 10 éves osztályszélességből követ-
keztetve – legalább öt, iskolai végzettség szerint legalább három, lakóhely
szerint legalább két csoportot képeztek. Ez összesen 2 · 5 · 3 · 2 = 60 cso-
portot jelent. Ha ilyen sok csoport mindegyikében elvégezzük ugyanazt a
statisztikai tesztet, akkor számítanunk kell arra, hogy néhányban – pusztán
a véletlen folytán is – erős összefüggés mutatkozik. Ráadásul a szöveg azt
sejteti, hogy a vizsgálat nem csupán a papírzsebkendőre és az alvászavarok-
ra terjedt ki, hanem számos további adatra, tehát az elvégzett statisztikai
tesztek száma akár több százra is rúghatott, vagyis nagyon valószínű, hogy
a közölt eredmény semmit sem bizonyít (vö. a többszörös összehasonlításról
írottakkal, 6.3.1. fejezet).
2) Lehet, hogy peches vagyok, az is lehet, hogy a tábla nem mond igazat,
de abból a megfigyelésből, hogy az átlagos várakozási idő 11 perc, egyik sem
következik. Az átlagos várakozási idő csak akkor lenne egyenlő a követési
idő felével, ha a buszok teljesen szabályosan – mindig pontosan 15 percen-
ként – követnék egymást, ez pedig a végállomástól távolabb eső megállókban
(legalábbis a budapesti buszokra) már nem igaz. Ha a buszok nem ponto-
san 15 percenként jönnek, akkor az átlagos várakozási idő mindig hosszabb,
mint az átlagos követési idő fele. Hogy mennyivel, az attól függ, mennyire
szabálytalan időközökből jön ki az átlagos követési idő: annál nagyobb a
különbség, minél nagyobbak az eltérések a szabályostól. Ezt számításokkal
is lehetne bizonyítani, de nem akarjuk ezzel terhelni az olvasót. Minden-
esetre az számolás nélkül is világos, hogy szabálytalan követési idő esetén
valószínűbb, hogy az ember valamelyik hosszabb intervallumban érkezik a
megállóba, mint az, hogy valamelyik rövidebben. Ez pedig megnöveli az át-
lagos várakozási időt, amely tehát szinte törvényszerűen nagyobb, mint az
átlagos követési idő fele. Szemléltetésül képzeljük el például azt a végletes
esetet, hogy így jönnek a buszok: harminc percig semmi, aztán két busz rög-
tön egymás után, megint harminc percig semmi, megint két busz egymás
után stb. (Néha sajnos tényleg így jönnek . . . ) Ekkor éppen megduplázódik
az átlagos várakozási idő a szabályos követéshez képest.
3) A 10000 sorsjegy után kifizetendő összes nyereség 1 · 1000000 +
50 · 10000 + 2449 · 1000 = 3949000 Ft, tehát az egy sorsjegyre jutó átla-
gos nyereség 3949000/10000 = 394.9 Ft, ami 95.1 forinttal kevesebb, mint a
sorsjegy ára. Tehát nem éri meg, csak az játsszon, aki bízik a szerencséjében!
1.2. Megjegyzések a példákhoz 19
(Na jó, ezt gondolhattuk volna, hiszen a sorsjegy kibocsátójának is meg kell
élnie valamiből. . . ) Mivel a nyerés valószínűsége csak 25%, aki nyer, szeren-
csésnek mondhatja magát. Aki nem nyer, az viszont nem peches, csak éppen
bejött a papírforma. Annak a valószínűsége, hogy tíz sorsjegyből egy sem
10
nyer, 34 = 0.0056 = 5.6%, tehát aki így jár, az már jogosan bosszanko-
dik. Ha 1000 sorsjegyre a „nem nyert” helyett „újra húzhat” kerül, akkor
a 10000 sorsjegyből a vásárlók csak 9000 sorsjegyért fizetnek, 1000-hez az
újra húzás révén ingyen jutnak hozzá. Így a sorsjegyek átlagos ára most
490 Ft helyett csak 9000 · 490/10000 = 441 Ft, ami még mindig több, mint
az átlagos nyereség. A nyerés valószínűsége most körülbelül 27.8%, tehát
aki nyer, az most is szerencsés, aki nem, az pedig azt kapta, amire józanul
számíthatott. Tíz sorsjeggyel nem nyerni viszont most még nagyobb pech,
mint az előbb (valószínűsége kb. 3.9%).
4a) A kezdők ebből bizonyára egy kukkot sem értenek, de aki a rég elfe-
lejtett statisztikai ismereteit szeretné könyvünk segítségével feleleveníteni,
annak talán rémlik, hogy ilyen közlésekben a ± jel előtt a tömeggyarapodás
átlaga, utána pedig a szórása szokott állni, az n pedig annak a mintának
az elemszámát jelöli, amelyen a következtetések alapulnak. A „szignifikáns”
és a „p-érték” fogalmak pontos jelentésére már bizonyára kevesebben em-
lékeznek. A statisztikai hipotézisvizsgálatok részletes ismertetését lásd a 6.
fejezetben, egyelőre csak annyit, hogy a „statisztikailag szignifikáns” nagy-
jából azt jelenti, hogy „több, mint véletlen”, azaz „nem nagyon hihető, hogy
a véletlen játéka volna”, a p-érték pedig számszerűen is megadja, mennyire
valószínű, hogy a kapott eredmény a véletlen játékának tulajdonítható (te-
hát kis p-érték: szignifikáns, nem hisszük, hogy véletlen, nagy p-érték: nem
szignifikáns, könnyen lehet, hogy véletlen). Az átlagok közötti különbség-
re kapott p-érték 0.1279, azaz ekkora különbséget az átlagok között közel
13% valószínűséggel a véletlen játéka (a biológiai változatosság, a mérési
hibák stb.) is produkálhat. A szórások között tapasztalt mértékű eltérés
ezzel szemben 1/1000-nél is kisebb valószínűséggel írható a véletlen számlá-
jára, tehát bízhatunk benne, hogy ez valódi különbséget jelez. Jó szokás, ha
mindig megadjuk az alkalmazott statisztikai teszt nevét is, hogy az olvasó
tudja, melyik módszerrel kaptuk a közölt eredményt.
4b) Az, hogy a relatív kockázat egy csoportban egy másik csoporthoz
viszonyítva 2.56, azt jelenti, hogy a szóban forgó csoportban a betegség va-
lószínűsége 2.56-szor akkora, mint a másik csoportban. Mivel a 2.56 értéket
egy mintából kapták, ez nem feltétlenül egyezik meg a teljes populációban
érvényes relatív kockázattal. A 95%-os konfidencia-intervallum egy olyan
értéktartományt jelöl, amely 95% megbízhatósággal – azaz 5% tévedési va-
20 Reiczigel – Harnos – Solymosi: Biostatisztika
1.5. ábra. Tíz, az utóbbi hónapokban elkelt, barátoméhoz nagyjából hasonló lakás
ára (millió forint). Minden kör egy-egy lakás árát jelöli, a négyzet a barátomét. Ennek
alapján vajon jó vásárt csinált-e?
5
Gyakoriság
45 50 55 60 65 70 75
1.6. ábra. Az utazási idő megoszlása: a diagram az első ötven utazás adatait ábrázolja
utazás. Vajon első nap volt ritka szerencsém, vagy másnap volt pechem?
Lehet ez is, az is, még nem tudom, majd meglátjuk, mi a jellemző. Úgy
két hónap múlva már elég jól ismerem az utazással töltött idő eloszlását,
nagyjából tudom, hogy hány perces utazás mennyire valószínű (1.6. ábra).
Ötven megfigyelésből a leggyorsabb, illetve a leglassúbb utazás 45, ill. 72
perces volt. (Azok számára, akik már tanultak statisztikát, azt is eláruljuk,
hogy az átlag 57.4, a medián pedig 57 perc.)
Ennek alapján már látszik, hogy az első napi 53 perc nem különösebb
szerencse, hiszen durván az esetek egyharmadában ennyi idő elegendő volt
az utazásra. A második napi 72 perc viszont valóban ritka pechnek szá-
mít, ötvenből csupán egyszer tartott ilyen sokáig az út. Az ábrán látható
mintázat – a több elkülönülő kis „dombocska” – inhomogenitást jelez, azt
sugallja, hogy a vizsgált jelenség több különböző típus keveréke. A jelen
példában gondolhatunk arra, hogy esetleg más utazási időre lehet számítani
hétfőn, kedden és pénteken, vagy hogy a vizsgált 50 nap éppen augusztus-
szeptemberre esik, és az ábrán a nyár és ősz közötti különbség jelenik meg.
A „kilógó”, a többiektől elkülönülő három értéket pedig valószínűleg valami-
lyen rendkívüli esemény (baleset, útlezárás) magyarázza. Az 50 megfigyelés
alapján azt mondhatjuk, hogy az esetek 5–10%-ában számíthatunk ilyenre.
A tudományos kutatásban ezeknél gondosabban megtervezett megfigye-
lések vagy kísérletek alapján vonunk le bizonyos következtetéseket, de az
esélyek mérlegelésére szolgáló gondolatmenetek a fentiekhez hasonlóak.
2. A statisztika alapfogalmai
A statisztika adatgyűjtéssel, majd a megfigyelt adatok lényegre törő ábrázo-
lásával, illetve elemzésével foglalkozik (Armitage et al. 2008; Freedman et al.
2005). Az elemzések célja a konkrét, egyedi megfigyelésekből általánosabb
érvényű következtetések levonása. A következőkben összefoglaljuk azokat a
legfontosabb fogalmakat és elnevezéseket, amelyekre a további fejezetekben
építeni fogunk, és amelyek az irodalom értő olvasásához is nélkülözhetetle-
nek.
Biológusok, figyelem! A populáció elnevezés a statisztikában is használa-
tos, de más a jelentése, mint a biológiában (lásd alább). Ebben a könyvben
populáció alatt statisztikai populációt értünk (ha valahol mégsem, akkor
ott mindig kiírjuk, hogy „biológiai populáció”).
23
24 Reiczigel – Harnos – Solymosi: Biostatisztika
Testtömeg
Testmagasság < 80 kg ≥ 80 kg
< 175 cm 243 75
≥ 175 cm 267 415
● ●
110 ●
● ●●●
● ● ● ●●
●● ● ● ●
●● ●
100 ● ●
●●● ●●● ● ●●● ●
● ●
●
●●●●
●●
●● ● ● ●●
● ● ●●
● ●
● ● ● ●●●●
● ● ● ● ●●● ●●
● ● ● ●●●● ●● ●● ●● ●● ●●
●●●●●● ● ● ●●●●●●●
● ●● ●●
●
●●
● ●● ●●● ●
Testtömeg (kg)
● ● ● ● ● ● ●●●
● ●● ●
● ●●● ●● ●
● ● ●
● ●●● ●
●● ●●● ●●● ●●● ●● ● ●● ●● ● ●● ● ●●● ● ● ●
90 ● ●●●
● ●●●● ●●
●● ●● ●● ●● ●
●
●●
●●● ●●
● ●●●
●●● ●●
●
●●●●●●●
●
●
● ●
● ●● ●
●●
● ● ●● ● ● ●
● ●●
●
●●●●● ●●
●
●
● ●●
●●●●●●●
●
●
●●
●
●●●
●● ●
●
●
●●● ●
●●
●●● ●● ●●
● ● ● ●
● ●●
●
●
●
●●●●
● ●
●●●● ● ●●
●
●●●●●●
●
●●● ●
●●
●●
●
●
●●●
●●
● ●●●●●
●●
●●
●
●
● ●●●
●
●●●● ●
●
●● ●● ●●●●● ● ● ●● ●● ●●
●●●● ● ●●●●
●●
●●●
●
● ●● ●●● ●● ● ●●● ● ●
● ●● ●● ●●● ●●
●● ●● ●●●●●● ●●
●●●●● ● ●●● ●
●●● ●
80 ●● ● ●●●●
●
● ● ● ●●
● ●●●●
●●●●●●●
●●
●● ●●●● ●
●● ●
●
●●●●●
●●
●
● ●
●
●●●
●● ●●
●● ● ●● ● ● ● ●●
●●●● ● ● ● ●
● ● ● ● ●● ●●● ●●
● ●●●● ●●● ●●●
● ●
●●
●●
●
●● ●
●●
●●
●●
●●
●●●
● ●●●
● ●● ●●●● ● ● ●
●
●● ●
● ●● ● ●●●
● ●
●
●●●●●●
●
●●●●●●
●●●●
●
●
●●
● ●
●
●● ●
●●●
●
● ●
●●●
●
●●
●
●
●●● ●●●●●
●
●
●
● ●
●● ●
● ●
●
● ●●●● ● ● ● ●
● ● ● ●● ● ●●
● ●● ●●
● ●●
● ●●●
● ●●
● ●●●● ●● ●● ● ●●
●
● ●●● ●● ●●● ● ● ●● ●●●● ●●● ● ●● ● ● ●● ●
70 ● ● ● ● ●●●
● ●●●●●● ●●●
●● ●● ●●
●●●
●
●
●● ●
●● ●● ●● ●●● ●
●●●●● ●●
●
● ●● ● ● ●
●●● ● ● ●● ● ●●●
● ●● ●● ●●
●●● ●●
●●●●●●●●
●●●● ●
● ●● ●●●●
● ●● ● ●●●●
● ●●● ● ●●
●
● ● ● ● ● ●●● ● ● ● ●
● ●
● ● ● ● ●●
● ● ● ●● ● ●● ●
● ● ● ●● ●●● ● ● ●
60 ● ●● ● ● ● ● ● ●
● ● ●
● ● ● ● ●● ●
●●● ● ●● ●
● ●
50 ● ●
●
Magasság (cm)
férfi ő
80+
75−79
70−74
65−69
60−64
55−59
Korcsoport
50−54
45−49
40−44
35−39
30−34
25−29
20−24
15−19
10−14
5−9
0−4
Lélekszám (millió)
2.2. ábra. A Föld lakosságának korfája 2006-ban (Forrás: U.S. Census Bureau, Inter-
national Data Base)
[1] 465 358 271 605 421 369 915 78 595 578 119 473 663 535 185 25
[17] 190 951 379 2
[1] 2 25 78 119 185 190 271 358 369 379 421 465 473 535 578 595
[17] 605 663 915 951
2.4. Az adatok
Egy kutatási kérdés felvetődésétől általában több lépésen – és nagyon sok
fáradságon – keresztül vezet el az út addig, amíg a vizsgálat adatai összeáll-
nak. Ilyen lépések a kutatási kérdés pontosítása, operacionalizálása (= mér-
hető formában való megfogalmazása), a megválaszolásához szükséges mérési
módszerek megválasztása vagy kidolgozása, a vizsgálat részleteinek meg-
tervezése, a megfigyelési egységek kiválasztása, esetleges előkísérletek stb.
Ezekkel a kérdésekkel most nem kívánunk foglalkozni, csak annyit jegyzünk
meg, hogy ezek mind a kísérlettervezés (experimental design, study design)
vagy a kutatásmódszertan, illetve kutatástervezés (research methodology,
research planning) témakörébe tartoznak.
2.4. Az adatok 33
2.4.1. Adatmátrix
Az adatmátrix (data matrix) – az R-ben „data frame” a neve – egy olyan
táblázat, amelynek minden sora egy megfigyelési egységnek (személy,
állat, vérminta stb.), oszlopai pedig az egyes mért vagy megfigyelt
adatoknak (kor, nem, testtömeg stb.) felelnek meg. A sorokat esetek-
nek (case), az oszlopokat változóknak (variable) nevezzük. Ezt a szo-
kásos elrendezést és elnevezéseket azért kell ismernünk, mert a statisztikai
programok legtöbbje – így az R is – az elemzendő adatokat ilyen formában
várja, az eredmények kiírásakor pedig rendszerint a „case” és „variable” el-
nevezéseket használja. A továbbiakban a „megfigyelési egység” helyett mi
is legtöbbször a rövidebb „eset” elnevezést fogjuk használni, a „megfigye-
lési egységeken mért adat” helyett pedig „változó”-t mondunk. Célszerű az
adatmátrixot úgy elkészíteni, hogy első sora a változók nevét tartalmazza,
mert az R ezeket a neveket át tudja venni, és később a változókra az R-ben
is ezekkel a nevekkel hivatkozhatunk. Arra is van mód, hogy az adatmátrix
valamelyik oszlopa az esetek nevét vagy azonosítóját tartalmazza. Adatok
adatmátrix formában való elrendezésére példát mutat a 2.2. (b) táblázat.
Az adatok lehetnek akár számértékek, akár szöveges adatok, akár kódok.
A kódok olyan értékek, amelyek csak azonosításra szolgálnak: legyenek bár
számok, akkor sem számolhatunk velük: ilyen például a 2.2. (b) táblázatban
az ID nevű változó.
Ha az adatbevitelt táblázatkezelő programmal végeztük, és az adatokat
már a fenti – az adatmátrixnak megfelelő – formában rendeztük el, akkor
csak az a kérdés, hogy hogyan tudjuk ezt az R-nek átadni. Erre egy egyszerű
34 Reiczigel – Harnos – Solymosi: Biostatisztika
(a)
(b)
1 2 3 4 5
232 198 188 191 191
1 2 3 4 5
232 430 618 809 1000
tekintenünk. Sőt, már azt is mi döntjük el, hogy egyáltalán hogyan mérjünk
egy bizonyos, minket érdeklő mennyiséget. Például, ha egy anyag jelenléte
érdekel a vérben, akkor mérhetjük egy gyors teszttel, amely csak igen-nem
választ ad, és amelyet esetleg kiegészíthetünk egy „lehet, de nem egyértel-
mű” kategóriával a határesetekre: így egy ordinális skálájú változóhoz ju-
tunk. Ha műszeres mérést végzünk, akkor egy számértéket kapunk az anyag
koncentrációjára. Ha úgy akarjuk, tekinthetjük ezt a változót abszolút ská-
lájúnak, de elképzelhető, hogy a nulla pont a műszer kalibrálásától függ,
ezért lehet, hogy jobb, ha csak intervallumskálájúnak tekintjük.
Vagy képzeljük el, hogy zajszintet mérünk egy olyan műszerrel, amelyen
egy gombbal beállíthatjuk, hogy W/m2 -ben vagy dB-ben mérjen. A mért ér-
ték mindkét esetben egy fizikai mennyiség számszerű kifejezése, bármelyikre
könnyen rámondanánk, hogy intervallum-, sőt akár hogy abszolút skálájú.
De tudjuk, hogy a dB skála logaritmus-transzformáltja a másiknak, tehát
nem lehet mindkettő még intervallumskálájú sem! Akkor melyik az igazi?
Érvelhetünk úgy, hogy a W/m2 az a fizikai mennyiség, amelynek abszo-
lút nulla pontja van, a teljes csend, a másik pedig származtatott változó,
tehát az nem lesz sem abszolút, sem intervallumskálájú. De tudjuk, hogy
hangosság-érzetünket a dB skála tükrözi hívebben: a zajt annyival érezzük
erősebbnek, amennyivel az a dB skálán mérve nagyobb, tehát az érzékelt
hangosságbeli különbségeket az tükrözi hívebben. Az, hogy melyiket tekint-
sük intervallumskálájúnak, attól függ, hogy a fizikai inger, vagy az érzékelés
szintjén szeretnénk-e kifejezni a zaj erősségét. Azt pedig, hogy kutatási cél-
jainknak melyik a megfelelőbb, mindig magunknak kell eldöntenünk.
Külön említést érdemelnek azok a nominális változók, amelyeknek
csak két értékük van. Ezek az úgynevezett dichotom vagy bináris
(dichotomous, binary) változók. Ezekre egészen speciális elemzési módsze-
reket dolgoztak ki. A dichotom változók két értéke gyakran természetes mó-
don rendezett, például amikor a két lehetséges érték igen/nem, van/nincs,
pozitív/negatív stb. Ilyenkor bizonyos elemzésekben tekinthetjük őket ordi-
nális skálájúnak is, így például beszélhetünk két tulajdonság megléte között
vagy két diagnosztikai teszt eredménye között fennálló pozitív vagy negatív
korrelációról.
A másik csoportosítás szerint a nominális és ordinális változókat
együtt kvalitatív változóknak, vagy R-es szóhasználattal faktoroknak
(factor) nevezzük. Ezeket kódolhatjuk szöveggel, betűkóddal, vagy akár
számmal is, de matematikai műveleteket akkor sem végezhetünk velük. Ha
az R-ben faktorral próbálunk matematikai műveletet végezni, figyelmeztető
üzenetet kapunk.
38 Reiczigel – Harnos – Solymosi: Biostatisztika
a ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ●●●
c ●● ● ● ●●● ●● ● ● ●● ● ● ●● ● ● ● ●● ● ●
d ●●●●●●●● ●● ● ● ● ● ● ● ●●● ● ● ● ● ●
e ● ● ● ● ● ●●●● ● ● ● ● ● ● ●● ●●●●●●●●
0 20 40 60 80 100
Értékek
(a)
●● ●●●●●●●●●●●●●● ● ● ● ● ●● ● ●
0 20 40 60 80 100
Érték
(b)
● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ●● ● ● ●● ● ●
Érték
[1] 1 4 2 3 6
> mean(minta)
[1] 3.2
> sd(minta)
[1] 1.923538
> mean(stminta)
[1] -1.054495e-16
> sd(stminta)
[1] 1
[1] 1.0 2.5 2.5 4.0 5.0 7.0 7.0 7.0 9.0 10.0
> mean(hianyos.adatok)
[1] NA
[1] 118.4
[1] 118.4
[1] FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE
[12] FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[1] 6 13
[1] 122 27 194 5 182 126 81 106 197 75 114 127 118 175 195 83
[17] 88 38 177 138
2.4. Az adatok 47
●
1.0
●
● ●
0.8 ●
●
● ●
●
0.6
●●
y
●
0.4 ●
●
●
● ●
0.2 ●
● ●
●
0.0
0.0 0.2 0.4 0.6 0.8 1.0
2.6. ábra. Bár a nyíllal megjelölt x = 0.8, y = 0.1 pont szemmel láthatóan nagyon
„kilóg a sorból”, külön-külön sem az x = 0.8, sem az y = 0.1 nem számítana kiugró
értéknek. A kiugró értékeket – többek között – hasonló okokból sem mindig vesszük
észre az adatok első elemzésekor
elvégezni az elemzést így is, úgy is, hogy pontosan lássuk, mi lesz a kü-
lönbség az eredmények között. Az outlierekre még fokozottabban érvényes,
amit a hiányzó értékekkel kapcsolatban mondtunk: ha túl sok értéket kiugró
értéknek tekintünk és elhagyunk, akkor ezzel az eredményeket jelentős mér-
tékben befolyásolhatjuk. Ha az eredményekből közlemény születik, abban
mindenképpen meg kell említeni, hogy voltak-e kiugró értékek, amelyeket
elhagytunk – már csak azért is, mert ha a vizsgált jelenség olyan, hogy
időről időre előfordulnak benne szélsőséges eredmények, de senki sem közli
őket, akkor lehet, hogy sohasem fog kiderülni a létezésük. Gondoljunk arra,
lehet, hogy épp a kiugró értékek a legfontosabb megfigyeléseink,
amikből valami újat fogunk tanulni!
Állítólag az Antarktisz feletti ózonlyukat azért nem fedezték fel olyan sokáig – pedig a
mérések akkor már évek óta folytak –, mert a mérőállomások adatfeldolgozó programjaiba
beépített outlier-detektáló modulok az erre utaló értékeket kiugró értéknek tekintették és
rendre kihagyták.
megjelenik még egy!) mindig jusson eszünkbe, hogy talán nem is kiugró
értékekkel van dolgunk, hanem egy egyik irányba elnyúló, ferde eloszlás-
sal (vagyis hogy talán már az első sem volt az!), és próbálkozzunk inkább
valami olyan elemzéssel, amely ferde eloszlásokkal is jól működik!
Általában is fontos eldöntendő kérdés, hogy a többitől távol eső, nem tipi-
kus megfigyeléseket szemétnek tekintjük-e, vagy a vizsgált folyamat szerves
részének, amelyek elhagyása meghamisítaná az eredményeket. A parazitoló-
giában például ismert, hogy a paraziták gazdákon való eloszlása jellemzően
aggregált, azaz a legtöbb gazdán csak kevés parazita található, a paraziták
többsége néhány igen fertőzött gazdán koncentrálódik. Ha ezeket, mint nem
tipikusakat elhagynánk, akkor ezzel a jelenség lényegi részétől – egyben a
parazita-populáció döntő többségétől – válnánk meg.
Ha úgy látjuk, hogy a kiugró értékek valójában nem tartoznak a vizsgált folyamat-
hoz, akkor úgynevezett robusztus módszereket kell alkalmaznunk, amelyek az outliereket
képesek figyelmen kívül hagyni. A robusztus módszerekről lásd Jureckova et al. (2019)
könyvét. Tehát, ha robusztus módszert alkalmazunk, akkor a kiugró értékeket nem kell
saját kezűleg elhagynunk, a módszer maga gondoskodik róla, hogy ne sok vizet zavarhas-
sanak. Viszont nagy hiba a robusztus módszerek alkalmazása akkor, ha a távoleső értékek
a folyamat szerves részét alkotják. Ilyenkor az egyik lehetőség, hogy nemparaméteres vagy
eloszlásfüggetlen módszerrel próbálkozunk, a másik pedig, hogy olyan paraméteres mód-
szerrel, amelyet éppen a szóban forgóhoz hasonló ferde eloszlásokra dolgoztak ki. Ezek
a módszerek ugyanis a távol eső értékeket is megfelelően figyelembe tudják venni a szá-
mításokban. Ha viszont a távol eső értékek nem tartoznak a folyamathoz, akkor épp e
módszerek alkalmazása ad félrevezető eredményt.
3. Egy kis valószínűségszámítás
Előre kell bocsátanunk, hogy ebből a rövid leírásból nem lehet elsajátítani
a valószínűségszámítást, csak egy hozzávetőleges képet kaphat róla az, aki
még soha nem tanulta korábban. De feltételezzük, hogy sokan egyszer már
tanulták, és ez a rövid emlékeztető talán felszínre hozza az emlékeket. Ha
a Kedves Olvasónak az az érzése, hogy ezt annak idején bonyolultabban,
precízebben, részletekben gazdagabban tanulta, akkor bizonyára igaza van.
Most csak a továbbiakhoz nélkülözhetetlen fogalmak rövid összefoglalása a
célunk a matematikai precizitás mellőzésével, amiért előre elnézést kérünk.
Cserébe viszont néhány olyan gyakorlati dolgot is leírunk, amit a beveze-
tő valószínűségszámítás kurzusokon – lévén a valószínűségszámítás elméleti
tudomány – nem szoktak megemlíteni.
51
52 Reiczigel – Harnos – Solymosi: Biostatisztika
0 5 10 15 20 25
0 5 10 15 20 25
0 5 10 15 20 25
P (nem E) = 1 − P (E),
P (E vagy F ) = P (E) + P (F ).
P (E vagy F ) = P (E) + P (F ) − P (E és F ),
P (E és F )
P (E|F ) = ,
P (F )
maradunk az oddsznál – így, magyaros írásmóddal –, illetve amikor ragozott alakjai túl
nyelvtörőek lennének, esélyértéknek nevezzük.
P (M |F )
RR = .
P (M |N )
0.15 0.1
OR = = 0.1765/0.1111 = 1.589.
0.85 0.9
RR = 0.03/0.01 = 3,
az esélyhányados pedig:
0.03 0.01
OR = = 0.0309/0.0101 = 3.0594.
0.97 0.99
RR = 0.6/0.2 = 3,
ellenben az esélyhányados nagyon eltér az előzőtől:
0.6 0.2
OR = = 1.5/0.25 = 6.
0.4 0.8
60 Reiczigel – Harnos – Solymosi: Biostatisztika
p/(1 − p) p 1 − p0 1 − p0
OR = = · = RR · ,
p0 /(1 − p0 ) p0 1 − p 1−p
ahol p0 a referenciacsoportbeli, p pedig a vizsgált csoportbeli kockázatot
jelöli.
A képletből látható, hogy ha a p0 és a p kockázatok kicsik, akkor
az (1 − p0 )/(1 − p) tényező értéke 1 körüli, ezért az RR és az OR közel
azonos. Figyeljük meg, hogy ez a példában is így volt 1%-os és 3%-os
kockázatok mellett! Ha azonban a kockázatok nagyobbak, akkor az RR és
az OR nagyon eltérhet egymástól.
Az esélyhányados fontosságát az adja, hogy vannak olyan epidemiológiai vizsgálatok,
amelyekben a mintavétel módja a kockázatok becslését nem teszi lehetővé, így ilyenkor
a relatív kockázat becslése sem lehetséges. (Lehet, hogy a Kedves Olvasó hallott már az
úgynevezett „eset-kontroll” (case control) típusú vizsgálatról, az például ilyen.) Meglepő
módon azonban az esélyhányados becslése ilyenkor is lehetséges, és ha tudjuk, hogy a
kockázatok mindkét csoportban kicsik – legfeljebb néhány százalék körüliek –, akkor a
fentiek szerint az esélyhányadost a relatív kockázat közelítő becsléseként használhatjuk.
ln(O/O0 ) = ln O − ln O0 .
Dobás 1 2 3 4 5 6
Valószínűség 1/6 1/6 1/6 1/6 1/6 1/6
62 Reiczigel – Harnos – Solymosi: Biostatisztika
0.30
0.25
Valószínűség
0.20
0.15
0.10
0.05
0.00
1 2 3 4 5 6
Kockadobás
Hányadik dobás 1 2 3 4 5 6
Valószínűség 1/2 1/4 1/8 1/16 1/32 1/64
Hányadik dobás 7 8 9 10 11 ...
Valószínűség 1/128 1/256 1/512 1/1024 1/2048 ...
0.5
0.4
Valószínűség
0.3
0.2
0.1
0.0
5 10 15 20
Dobások száma
3.3. ábra. A „hányadik dobásra jön ki először fej” valószínűségi változó valószínűségi
függvénye
(a)
0.025
0.020
0.015
0.010
0.005
0.000
0 50 100 150
Értékek
(b)
0.025
0.020
0.015
0.010
0.005
0.000
0 50 100 150
Értékek
(c)
0.025
0.020
0.015
0.010
0.005
0.000
0 50 100 150
Értékek
3.4. ábra. Három sűrűségfüggvény, egy közel szimmetrikus egycsúcsú (a), egy kétcsú-
csú (b) és egy jobbra ferde (c). A sűrűségfüggvények alatt a megfelelő eloszlásból vett
25-25 elemű véletlen minta is látható (függőleges vonalkák). Figyeljük meg, hogy ahol
a sűrűségfüggvény értéke nagy, ott a minta pontjai sűrűbben vannak (ugyanakkora
tartományban több pontra számíthatunk), ez indokolja a sűrűségfüggvény elnevezést
3.4. Valószínűségi változók 65
(a)
0.15
0.10
0.05 P(5<X<10)
0.00
0 5 10 15 20
(b)
1.0
0.8
P(5<X<10)
0.6
0.4
0.2
0.0
0 5 10 15 20
zük azt is, hogy eloszlásfüggvénye minden valószínűségi változónak van, még a diszkré-
teknek is (csak ott nincs rá igazán szükség, nélküle is jól elboldogulunk), de sűrűségfügg-
vénye csak azoknak, amelyeknek az eloszlásfüggvénye differenciálható. A sűrűségfüggvény
ugyanis az eloszlásfüggvény deriváltja.
Formálisan, ha egy X változó eloszlásfüggvényét F (x) jelöli, akkor igazak a következők:
1 1 1 1 1 1
E(X) = 1 · + 2 · + 3 · + 4 · + 5 · + 6 · = 3.5.
6 6 6 6 6 6
R ∞
Folytonos változó várható értékének képlete: E(X) = −∞ xf (x)dx, ahol
f (x) a változó sűrűségfüggvénye.
A várható érték, E(X) szemléletesen azt az értéket jelenti, amelyet akkor
kapunk, ha az X változót nagyon sokszor (értsd: végtelen sokszor) megfi-
gyeljük, és a megfigyelt értékek átlagát vesszük. Véges populáció átlagát a
populáció összes tagjának megfigyeléséből származtatjuk (vö. 4.2.1. fejezet);
valószínűségi változóknál ezt a végtelen sokszori megfigyelés helyettesíti.
Az mindig rajtunk áll, hogy egy jelenséget diszkrét vagy folytonos vál-
tozóval modellezünk-e, hiszen még akkor is, ha az értékek elméletileg valós
számok, egy mérés mindig kerekített értéket ad, a születéskori testtömeget
egész grammban mérjük, a napi középhőmérsékletet legfeljebb tizedfokban
stb. A választás két dolgon múlik: azon, hogy melyik modell tűnik realisz-
tikusabbnak az adott jelenséggel kapcsolatban, illetve hogy a számítások
melyik modellben egyszerűbbek. Egy folytonos modell helyett mindig vá-
laszthatunk egy megfelelően sűrű értékkészletű diszkrét modellt. Ha például
egy 9 és 10 óra közötti időpontot perc pontossággal mérünk, akkor választ-
hatjuk azt a diszkrét modellt, amelyben a lehetséges értékek a 0, 1, 2, . . . ,
59, 60. Ha pedig másodperc pontossággal, akkor azt, amelyben a lehetséges
értékek 0, 1, 2, . . . , 3599, 3600, de valószínűleg ez a diszkrét modell már
több és kényelmetlenebb számolással jár, mint a folytonos, és az eredmény
sem lesz sokatmondóbb.
A hipergeometrikus eloszlás
Érték 0 1 2 3 4 5 6 ...
Valósz. 0.2485 0.3884 0.2522 0.0892 0.0189 0.0025 0.0002 ...
(a)
0.4
0.3
0.2
0.1
0.0
0 2 4 6 8 10
Érték
(b)
0.25
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10
Érték
(c)
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10
Érték
Természetesen azt is figyelembe kell venni, hogy a mintába – visszatevés nélküli min-
tavételről lévén szó – nem kerülhet több balkezes, mint ahány a populációban van (ez a
jobbkezesekre is igaz). Ezt célozza az a megállapodás, hogy ha i < j, akkor ji = 0.
A binomiális eloszlás
Érték 0 1 2 3 4 5 ...
Valósz. 0.4344 0.3777 0.1478 0.0343 0.0052 0.0005 ...
Az 5-nél nagyobb értékekhez tartozó valószínűségek már nagyon kicsik, négy tizedes-
jegyre nullák, ezért elhagytuk őket a táblázatból.
(a)
0.4
0.3
0.2
0.1
0.0
0 2 4 6 8 10
Érték
(b)
0.25
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10
Érték
(c)
0.25
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10
Érték
3.7. ábra. Három binomiális eloszlás valószínűségi függvénye: n = 10, p = 0.08 (a);
n = 10, p = 0.5 (b); n = 10, p = 0.75 (c). (Az elsővel modelleztük a balkezesek számát
tízelemű, visszatevéssel vett mintában egy olyan populációból, amelyben a balkezesek
aránya 8%)
74 Reiczigel – Harnos – Solymosi: Biostatisztika
3.5.2. A Poisson-eloszlás
A Poisson-eloszlást olyankor használhatjuk valószínűségi változók modelle-
zésére, ha gyakoriságot számolunk egy adott időtartamban, területen, tér-
részben, anyagmennyiségben stb. Példák időtartamokkal: telefonhívások, ri-
asztások, balesetek száma stb. Példák területtel: sejtszámok egy mikroszkóp
tárgylemezén, növények vagy állatok száma egy területen (pl. fotón) stb.
Példák anyagmennyiséggel: mikrobák száma 1 dl vízben, földigiliszták szá-
ma 1 köbméter talajban, borsószemek száma egy adag borsólevesben stb.
A Poisson-eloszlásnak egyetlen paramétere van, a vizsgált jelenségre jel-
lemző átlagos gyakoriság, amelyet λ-val (lambda, görög betű) szokás jelölni.
Ha a jelenségre igaz a következő két feltétel, akkor a változó eloszlása
a Poisson-eloszlással jól modellezhető, azaz a Poisson-eloszlásból számolt
valószínűségek a megfigyelt gyakoriságokkal jó egyezést mutatnak.
1. Diszjunkt (= nem átfedő) időintervallumokban, területrészeken, anyag-
mennyiségekben a gyakoriságok egymástól függetlenek, azaz például
abból, hogy az egyikben a szokásosnál nagyobb a gyakoriság, nem
vonhatunk le semmilyen következtetést a másikra nézve.
2. Ha diszjunkt időintervallumokat, területrészeket, anyagmennyiségeket
egyesítünk, akkor az egyesítésükhöz tartozó átlagos gyakoriság a ré-
szekhez tartozó átlagos gyakoriságok összege lesz.
A második feltételből az is következik, hogy ha – mondjuk időbeli jelen-
ségre gondolva – a percenkénti átlagos gyakoriság λ, akkor a kétpercenkénti
2λ, az óránkénti 60λ stb.
A Poisson-eloszlás nevét Simeon Denis Poisson (1781–1840) francia ma-
tematikusról kapta, tehát semmi köze a halakhoz (franciául, a mérgekhez
pedig még kevésbé). A lehetséges értékek a nemnegatív számok, és bár elmé-
letileg mindegyiknek pozitív valószínűsége van, a nagy értékek valószínűsége
már gyakorlatilag elhanyagolhatóan kicsi.
76 Reiczigel – Harnos – Solymosi: Biostatisztika
A valószínűségeket kézzel a
λk −λ
P (X = k) = e
k!
képlettel, az R-ben pedig a dpois() függvénnyel számolhatjuk ki. A kép-
letben X most is a valószínűségi változót, k pedig a 0, 1, 2, 3, . . . értékek va-
lamelyikét jelöli. A függvényben az eloszlás paraméterének a neve lambda,
és ugyanúgy, mint a dhyper() és a dbinom() függvényekkel, ezzel is kiszá-
míthatjuk egyszerre több érték valószínűségét.
Érték 0 1 2 3 4 5 6 ...
Valósz. 0.6065 0.3033 0.0758 0.0126 0.0016 0.0002 0.0000 ...
Látjuk, hogy a modellben – bár elvileg bármilyen nagy számnak is nullánál nagyobb a
valószínűsége – percenként hat vagy annál több hívás gyakorlatilag már elhanyagolha-
tóan csekély valószínűségű.
[1] 0.012636
3.5. A statisztikában leggyakrabban használt eloszlások 77
(a)
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0 5 10 15 20
Gyakoriság
(b)
0.25
0.20
0.15
0.10
0.05
0.00
0 5 10 15 20
Gyakoriság
(c)
0.12
0.10
0.08
0.06
0.04
0.02
0.00
0 5 10 15 20
Gyakoriság
3.8. ábra. Három Poisson-eloszlás valószínűségi függvénye: λ = 0.5 (a); λ = 2.5 (b); és
λ = 10 (c). (Az elsőt használtuk a percenkénti hívásszám modellezésére a mentőknél,
amikor átlagosan kétpercenként érkezett hívás)
78 Reiczigel – Harnos – Solymosi: Biostatisztika
0.4
0.3 N(0,1)
0.2
N(2,2)
0.1 N(0,3)
0.0
−10 −5 0 5 10
Érték
(a) (b)
0.4 1.0
0.3 0.8
0.6
0.2
0.4
0.1 0.2
0.0 0.0
−4 −2 0 2 4 −4 −2 0 2 4
Érték Érték
[1] 0.15866
[1] 0.066807
Jegyezzük meg, hogy mivel egy folytonos változónál minden egyes érték valószínűsége
0, nincs különbség a „nagyobb” és a „nagyobb vagy egyenlő” között!
A fenti valószínűségek kapcsolatát a változó sűrűség-, illetve eloszlásfüggvényével a 3.11.
ábra szemlélteti.
Egy standard normális eloszlású változó mekkora valószínűséggel vesz fel 3-nál nagyobb
értéket?
> 1 - pnorm(3)
[1] 0.0013499
Standard normális eloszlás esetén nem kell kiírnunk, hogy mean = 0, sd = 1, mert ez
az alapértelmezés.
Egy df = 10 szabadsági fokú t-eloszlású változóhoz melyik érték az, amelynél kisebb
értékek össz-valószínűsége 5%? (Ez az egyik oldali 5%-os kritikus érték.)
> qt(0.05, df = 10)
[1] -1.8125
Egy df = 10 szabadsági fokú t-eloszlású változóhoz melyik érték az, amelynél nagyobb
értékek össz-valószínűsége 5%? (Ez a másik oldali 5%-os kritikus érték.)
> qt(0.95, df = 10)
82 Reiczigel – Harnos – Solymosi: Biostatisztika
[1] 1.8125
[1] -1.9600
> qnorm(0.975)
[1] 1.9600
Az 1.96 értéket érdemes megjegyezni, a későbbiekben még sokszor elő fog kerülni.
(a)
0.20
0.15
0.10
0.00
10 12 15
Érték
(b)
1
0.9332
1−0.9332=0.0668
0.1587
10 12 15
Érték
0.15
mintában 4 beteg van
0.10
0.05
0.00
0.00
0.05
0.10
0.15
0.20
0.25
0.30
Betegek aránya a populációban
[1] 0.012840
87
88 Reiczigel – Harnos – Solymosi: Biostatisztika
(a) (b)
30 0.30
Relatív gyakoriság
0.25
Gyakoriság (db)
25
20 0.20
15 0.15
10 0.10
5 0.05
0 0.00
6 8 10 12 14 6 8 10 12 14
Alomszám Alomszám
(a) (b)
10 0.35
Relatív gyakoriság
0.30
8
Gyakoriság
0.25
6 0.20
4 0.15
0.10
2
0.05
0 0.00
1 2 3 4 5 6 1 2 3 4 5 6
(c) (d)
30 1.0
Relatív gyakoriság
25
0.8
Gyakoriság
20
0.6
15
10 0.4
5 0.2
0 0.0
1 2 3 4 5 6 1 2 3 4 5 6
inszem
1 2 3 4 5 6
7 9 5 3 2 1
inszem
1 2 3 4 5 6
0.25925926 0.33333333 0.18518519 0.11111111 0.07407407 0.03703704
1 2 3 4 5 6
7 16 21 24 26 27
1 2 3 4 5 6
0.2592593 0.5925926 0.7777778 0.8888889 0.9629630 1.0000000
nyest
macska
kutya
szarvasmarha
vörös róka
2 ● ● ●
●●●
●●
●●●● ●●●● ●●
●●● ●
Csoport
1 ● ●● ●
● ●●
●●●●
●
●●
●●●
●● ● ●● ● ● ●
Bábtömeg (g)
Ha csak 20–30 értékét kell ábrázolni, akkor a 4.4. ábrán látható pontdiag-
ramot kézzel is könnyűszerrel elkészíthetjük.
92 Reiczigel – Harnos – Solymosi: Biostatisztika
(a)
2 ● ●
●●●●
●●
●●
●●
●●
●●
●
●●
●
●●
●
●●●
●●
●
●●
●●
●
●●●
●
●
●●
●
●●
●●
●
●●
●
●●
●
●●
●●
●
●●
●
●
●●
●●
●●
●
●●
●
●●
●
●
●●
●
●●
●
●●
●
●●
●●
●
●●
●●
●
●●
●●
●●●●
●
● ●
●●
●●
●●
●●● ●●● ●
Csoport
1 ● ● ●
● ●● ●●●●
●●●●●
●
●●●
●●
●●
●●
●
●
●●●
●●
●
●●
●
●●
●●
●
●●
●●
●
●●
●●
●
●●
●●
●
●
●●
●●
●
●●●
●
●
●
●●●
●
●●
●●
●
●●●
●
●●
●●●
●●●
● ● ●
Testmagasság (cm)
(b)
40
Gyakoriság
30
20
10
Testmagasság (cm)
(c)
40
Gyakoriság
30
20
10
Testmagasság (cm)
4.5. ábra. Nagyobb adathalmazra a pontábra (a) már semmitmondóvá válik, ilyenkor
a hisztogramok (b), (c) kifejezőbbek. Az ábra az egyetemista populációból vett két 400
elemű mintából készült, az ábrázolt változó a testmagasság (cm)
4.1. Táblázatok és ábrák 93
(a) (b)
0.07 0.07
0.06 0.06
0.05 0.05
0.04 0.04
űű
0.03 0.03
űű
0.02 0.02
0.01 0.01
0.00 0.00
150 160 170 180 190 200 150 160 170 180 190 200
(a) (b)
0.06 0.06
0.05 0.05
0.04 0.04
0.03 0.03
űű
űű
0.02 0.02
0.01 0.01
0.00 0.00
160 170 180 190 200 160 170 180 190 200
40 40 40
Gyakoriság
Gyakoriság
Gyakoriság
30 30 30
20 20 20
10 10 10
0 0 0
(a) (b)
0.35 0.35
Bábtömeg (g)
Bábtömeg (g)
0.30 0.30
● ● ●
0.25 0.25
0.20 0.20
0.15 0.15
(a) (b)
1 2 3 4 5
1 121 55 56 0 0
2 80 38 43 37 0
3 42 29 40 32 45
4 0 43 39 40 69
5 0 0 40 35 116
1 2 3 4 5
1 0.121 0.055 0.056 0.000 0.000
2 0.080 0.038 0.043 0.037 0.000
3 0.042 0.029 0.040 0.032 0.045
4 0.000 0.043 0.039 0.040 0.069
5 0.000 0.000 0.040 0.035 0.116
1 2 3 4 5
1
Biológia jegyek
2
3
54
Matematika jegyek
4.11. ábra. Mozaikábra
190 ●
●
● férfi
185 nő
● ●
Magasság (cm)
180 ●
175
●
170
●
165
160
50 52 54 56 58 60 62
Nem
no
ferfi
50 52 54 56 58 60 62
190
●
●
Magasság (cm)
● ●
180
●
● ● ●
170
●
● ●
● ●
●
●
● ●
●
160
50 52 54 56 58 60 62
50 70 90 2500 4000
● ● ● ● ● ● 190
● ● ● ● ●
●
185
● ● ● 180
MAGASSAG ● ●
●●● ● ● ● ● ● ●● ●
175
● ● ● ●● ●
●
●● ●
● ●
●●●
●
● ● ●
170
● ● ●
●● ● ● ●
●
165
● ● ●
● ● ● 160
● ● ●
100
90 ● ● ●
● ● ●
80 ● ● ● ● ●●
●
TOMEG ●
● ● ●●
70 ● ● ●
● ● ●
●●
● ● ● ● ● ● ●● ● ●
60 ● ●●● ● ●
● ● ● ● ● ●●
● ●
●● ● ● ●● ● ●
50
●
● ●
●
●
● 62
● ● ● 60
●
● ●
●
●
● ● ●
●
58
● ●●
● ● ●
● ●●
● ●
● ●
● SZULHOSSZ ● ●● ●
● ●
56
54
●● ●● ●●
● ● ● ● ● ●●
● 52
●
●●
●
● ● ● ●
●
50
5000 ● ● ●
4500 ● ● ●
● ● ● ●●● ●
4000 ● ●●
●
●●
● ● ● ● ●
SZULTOMEG
●● ●● ● ●●● ● ● ●
● ●●
3500 ●
● ● ●
3000 ● ●● ● ● ●●● ● ●
● ●
2500 ● ● ●● ●●
190 ● 190
Testmagasság (cm)
Testmagasság (cm)
● 190
185 ●
185 185
átlag±SD
175 ●
175 175
● ●
170 ●
●
170 170 ●
● ●
165 ●
165 165
●
160 ● 160 160
4.15. ábra. Pontábra (a), boxplot (b) és az átlag ± szórások ábrája (c) (a regressziós
kurzus résztvevőinek adatai)
4.2. Mérőszámok, statisztikák 103
> library(sciplot)
> lineplot.CI(NEM, MAGASSAG, data = regr.kurz,
+ ylab = "Testmagasság (cm) átlag ± SD", xlab = "Nem",
+ ylim = c(160,190), type = "p", xaxt = "n",
+ fun = function(x) mean(x, na.rm = TRUE),
+ ci.fun = function(x) c(mean(x, na.rm = TRUE)- sd(x),
+ mean(x, na.rm = TRUE) + sd(x)))
>axis(1, at = 1:2,labels = c("férfi","nő "))
Helyzeti mutatók
[1] 10.5
Pn
xk wk
x̄ = Pk=1
n
k=1
wk
300 · 4500 + 250 · 6000 + 500 · 5500 + 400 · 4000 + 550 · 5000
=
300 + 250 + 500 + 400 + 550
= 4975.
R-rel:
> egyedszam = c(300, 250, 500, 400, 550)
> tejterm = c(4500, 6000, 5500, 4000, 5000)
> weighted.mean(tejterm, egyedszam)
[1] 4975
medián
4.16. ábra. Egy kilenc- és egy tízelemű minta mediánja, az értékeket a számegyenesen
ábrázolva
[1] 2.966667
[1] 1.46
Szóródási mutatók
4.17. ábra. Egy 18 elemű minta kvartilisei és interkvartilis terjedelme. A pontos negye-
delés nem lehetséges, az alsó kvartilis az R alapértelmezett eljárásával valahol az ötödik
és hatodik, a felső kvartilis valahol a tizenharmadik és tizennegyedik érték között van
A variancia:
P6
(xk − 4)2
σ2 = k=1
6
(3 − 4)2 + (8 − 4)2 + (5 − 4)2 + (2 − 4)2 + (4 − 4)2 + (2 − 4)2
=
6
1 + 16 + 1 + 4 + 0 + 4 26
= = = 4.33.
6 6
√
A szórás: 4.33 = 2.08.
Van azonban a varianciával egy bosszantó kis gond. Tegyük fel, hogy
a szóban forgó változó a testmagasság, amelyet mondjuk cm-ben mérünk.
Ekkor az előzőekben ismertetett valamennyi helyzeti és szóródási mutató
mértékegysége szintén cm, de a variancia – lévén négyzetes eltérések átla-
ga – cm2 -ben adódik. Ettől a kényelmetlenségtől megszabadulhatunk, ha a
variancia négyzetgyökét használjuk szóródási mutatóként, mert ennek mér-
tékegysége már azonos a mért értékekével: ez a mutató a szórás (standard
4.2. Mérőszámok, statisztikák 111
[1] 1.5
Ha olyan szóródási mutatóra van szükségünk, amely azt fejezi ki, hogy
mekkora a megfigyelt értékek véletlen ingadozások miatti bizonytalansá-
ga, akkor a szórás önmagában nem túl informatív. Nem mindegy például,
hogy egy olyan változónak 10 a szórása, amely 50 körüli értékeket vesz fel,
vagy egy olyannak, amelyik 5000 körülieket. Előbbi véletlen ingadozását
jelentősnek érezzük, utóbbiét pedig elhanyagolhatónak, az értékek különbö-
ző nagyságrendje miatt. Ha ilyen értelemben van szükségünk egy szóródási
mutatóra, akkor a relatív szórást vagy más néven variációs együtthatót
(coefficient of variation, CV) használhatjuk. Definíciója a szórás osztva
az átlaggal, populációra és mintára is azonos módon számoljuk, gyakran
százalékban szokták megadni. Képlete, példának okáért mintára és száza-
lékban:
s
CV = 100 %.
x̄
4.2. Mérőszámok, statisztikák 113
átlag szórás CV %
születéskori testtömeg 50 kg 5 kg 10
választási testtömeg 150 kg 18 kg 12
hízlalási testtömeg 500 kg 75 kg 15
[1] 10 12 15
10% 90%
170 186
4.2. Mérőszámok, statisztikák 115
Felkészülési idő A B C D
Megfelelt 6 21 30 18
Nem felelt meg 2 7 10 6
hány órát tanul, ugyanakkora esélye lenne, hogy sikerrel megírja a dolgoza-
tot (amit függetlenség alatt hétköznapi értelemben értenénk). Valószínűleg
inkább azt jelzi, hogy a szóban forgó évfolyamon mindenki annyi órát igye-
kezett tanulni, amennyivel már jó esélye lesz arra, hogy átmegy, de ennél
többet senki sem tartott érdemesnek, hiszen az értékelés úgyis csak „meg-
felelt – nem felelt meg”. A jobbak már kevesebb tanulással elérték ezt az
állapotot, a gyengébbeknek több idő kellett hozzá. Ha nem felmérést végez-
tünk volna, hanem kísérletet, mondjuk úgy, hogy előre kisorsoltuk volna,
melyik diák hány órát készüljön a dolgozatra, akkor valószínűleg megkap-
tuk volna a várt pozitív összefüggést a felkészülési idő és az eredményesség
között. Ha a kísérletet egy másik populációval (egy másik évfolyammal)
megismételtük volna, lehet, hogy ott már nem találtuk volna függetlennek
a változókat. Az is lehet, hogy ha az eredményt nem a „megfelelt – nem
felelt meg” skálán mérjük (vagy ha a felkészülési időt mérjük más skálán),
akkor sem találtuk volna őket függetlennek.
Tehát statisztikai függetlenséget vagy összefüggést mindig az adott po-
pulációban, az adott módon mért változók között – mondhatjuk úgy is,
hogy egy adatmátrix két oszlopa, vagyis végül is mindig két számsor között
– vizsgálunk.
Fontos látnunk, hogy két változó között fennálló statisztikai
összefüggés nem bizonyítja azt, hogy oksági kapcsolat lenne kö-
zöttük! Sok szellemes példát találtak már ki ennek illusztrálására. Egyik
ilyen a tűzesetekhez kivonult tűzoltók száma és a keletkezett anyagi kár
nagysága közötti jól dokumentált pozitív összefüggés, másik klasszikus pél-
da az egyes településeken fészkelő gólyák száma és a népszaporulat közötti,
szintén pozitív összefüggés. Mint a fenti példák is mutatják, lehet, hogy az
összefüggés egy közös okra vezethető vissza (a tűz nagysága, illetve vidék-
város). Hasonlóan, ha két változó statisztikailag független, az nem jelenti
azt, hogy valóban „semmi közük egymáshoz”, lehet, hogy egy harmadik vál-
tozó hatása teszi, hogy a közöttük lévő kapcsolat rejtve marad. A látszóla-
gos összefüggést keltő, illetve azt elrejtő változók az úgynevezett
zavaró változók (confounder), amelyek hatását néha csak nagyon kifino-
mult kísérlettervezési megoldásokkal lehet kiküszöbölni (és csak akkor, ha
már van egy „gyanúsítottunk”).
Ha két változó nem független, megkérdezhetjük, hogy milyen szoros az
összefüggés közöttük, mennyire függ egyik a másiktól. Ésszerű gondolat,
hogy az összefüggés annál szorosabb, minél több információt hordoz egyik
változó a másikról. Vegyük észre, hogy ez már nem szimmetrikus viszony,
például ha az életkor és a belőle képzett korcsoport változó viszonyát tekint-
jük, az életkor minden információt tartalmaz a korcsoportról, de fordítva ez
4.2. Mérőszámok, statisztikák 117
Ha a hajszín ismerete nélkül kell kitalálnunk a szemszínt, akkor legjobb a barnára tippel-
nünk, mert abból van a legtöbb: ekkor a találati arány 40%, azaz a tévedési valószínűség
4.2. Mérőszámok, statisztikák 119
A lambda azt méri, hogy mekkora a tévedési valószínűség relatív csökkenése. A 0.6-ról
0.54-ra való csökkenés mértéke 0.06, ami a 0.6-nak 10%-a, a lambda értéke tehát 0.1.
B) Cramer-féle V (Cramer’s V )
44 80
= · = 0.088,
200 200
Az eltérések:
[1] 5 9 7 11 13 9 19
> (V2.lintr = 2 * V2 + 3)
[1] 11 13 15 17 17 13 25
[1] 0.945711
[1] 0.945711
[1] 0.918538
[1] 0.880771
[1] 0.880771
[1] 0.880771
5. Becslés
Emlékezzünk vissza a populáció és a minta viszonyára, és főleg arra a tényre,
hogy bár a kutatót mindig a populáció tulajdonságai érdeklik, különféle
okok miatt általában csak a minta vizsgálatára van módja, a populáció
legnagyobb része rejtve marad előtte.
Tehát amikor egy mintából átlagot számolunk, általában nem azért tesz-
szük, mert ennek a konkrét mintának az átlagára vagyunk kíváncsiak, hiszen
esetleges, hogy éppen ezt a mintát kaptuk – gondoljunk arra, hogy véletlen
mintával dolgozunk –, hanem azért, mert ezzel annak a populációnak az
átlagáról szerezhetünk több-kevesebb információt, amelyből a minta szár-
mazik. (A populációt most is értsük tágabb értelemben, azaz értsük bele
azt az absztrakt „végtelen populációt” is, amelyet a valószínűségi változó
fogalmával modellezünk.)
123
124 Reiczigel – Harnos – Solymosi: Biostatisztika
5.1. Alapfogalmak
Becslésnek (estimation) nevezzük valamely, a populációra jellemző
mennyiség vagy hatás mintából történő meghatározását. A magyar-
ban a becslés szó nemcsak ezt a tevékenységet, hanem magát a becslésként
kapott értéket (estimate) is jelenti, sőt még azt az eljárást vagy képletet
is, amellyel a mintából kiszámolható a becslés (estimator). Ez utóbbira a
magyarban a becslő függvény kifejezést is használják.
5.1.1. Pontbecslés
Pontbecslés (point estimation, point estimate) esetén az eredmény egy szám.
Mivel egy véletlen mintából számítjuk, ez a szám a véletlentől is függ (va-
lószínűségi változó), azaz ismételt mintavétel esetén más és más értékeket
kaphatunk (5.1. ábra). Ha a becslést – legalábbis képzeletben – az összes le-
hetséges mintára kiszámoljuk, a becslés eloszlását kapjuk, amelyből átlagot,
szórást stb. számolhatunk.
A becslés pontosságának jellemzésére a becsült érték mellett a
becslés szórását is meg szokás adni, amelyet történeti okokból nem
szórásnak, hanem standard hibának (standard error) (SE) nevezünk.
A gyakorlatban persze ezt is a ténylegesen rendelkezésünkre álló egyetlen
mintából kell megbecsülnünk.
Vegyünk egy egyszerű példát, mondjuk az átlagos testmagasság becslését
a fenti egyetemista populációban! A valószínűségszámításból tudható, hogy
ha x1 , x2 , . . . , xn egy n elemű független minta egy SD = σ szórású válto-
√
zóra, akkor a mintaátlag szórása SE = σ/ n. A testmagasság szórása a
fenti populációban SD = 6.3 cm. Ha ebből√a populációból tízelemű mintát
veszünk, akkor a mintaátlag szórása = 6.3/ √10 = 1.99 cm, 50 elemű mintá-
ból számolt átlag szórása pedig SE = 6.3/ 50 = 0.89 cm lesz. (Jegyezzük
meg, hogy véges populációra ez az összefüggés csak közelítőleg érvényes, de
ezzel most ne törődjünk!) Ügyeljünk rá, hogy ne keverjük össze a változó
szórását (SD) és a mintaátlag szórását, vagyis standard hibáját (SE).
Már láttuk a leíró statisztikáknál, hogy az R-ben a mintaátlag kiszámí-
tására a mean(), a szórás kiszámítására pedig az sd() függvény szolgál. A
mintaátlag standard hibájának becslését a fenti képlet szerint úgy kapjuk,
5.1. Alapfogalmak 125
a ● ● ● ● ●● ●● ● ●
b ●
● ●● ● ● ● ●
●●
Testmagasság (cm)
5.1. ábra. A mintaátlagok ingadozása ismételt mintavétel esetén. Tíz húszelemű (a) és
tíz százelemű (b) véletlen minta átlaga egy olyan (elképzelt) egyetemista populációból,
amelyben a testmagasság populációs átlaga 178 cm (függőleges vonal). Figyeljük meg,
hogy a nagyobb mintákból számolt átlagok kisebb ingadozást mutatnak, közelebb esnek
a populációátlaghoz (a két fekete négyzet a tíz-tíz mintaátlag átlagát jelöli)!
[1] 178.0350
[1] 300
[1] 0.3649871
0.5
0.4
0.3 n = 50
űű
0.2
0.1 n = 10
n=1
0.0
Testmagasság (cm)
5.1.2. Intervallumbecslés
Az intervallumbecslés vagy konfidencia-intervallum (interval estimation, in-
terval estimate, confidence interval) egy értéktartomány, amely a be-
csülendő paramétert előre rögzített (szokásosan 90, 95 vagy 99%) va-
lószínűséggel tartalmazza. A szóban forgó valószínűség a megbízható-
sági szint vagy konfidenciaszint (confidence level).
5.1. Alapfogalmak 127
> library(gmodels)
> ci(minta)
pontbecslés
95%-os konfidencia-intervallum
30
25
Minta sorszáma
20
15
10
0
177.0 177.5 178.0 178.5 179.0
Paraméter és konfidencia−intervallumok
5.4. ábra. Harminc különböző 300 elemű véletlen mintából számított 95%-os
konfidencia-intervallum az átlagos testmagasságra. A függőleges vonal a populáció-
átlag (µ = 178 cm, σ = 6 cm)
0.35 188.7
5.5. ábra. Pontbecslés és konfidencia-intervallum az esélyhányadosra ugyanabból a
mintából (az ábra csak illusztráció, nem kapcsolódik egyik ismertetett példához sem).
A pontbecslés OR = 3.71, a 95%-os konfidencia-intervallum pedig: (0.35, 188.7). Fi-
gyeljük meg, hogy a végpontok nem a pontbecslésre szimmetrikusan helyezkednek el!
(a)
(b)
(c)
(a)
2.5% 95% 2.5%
(b)
0.5% 95% 4.5%
(c)
0% 95% 5%
(d)
5% 95% 0%
5.7. ábra. Egy 95%-os konfidencia-intervallum lehet kétoldali szimmetrikus (a); kétol-
dali nem szimmetrikus (b); vagy egyoldali (c), (d)
P (−∞ < w ≤ wf ) = P (w ≤ wf ) = 1 − α
Az ebből adódó két egyoldali 95%-os intervallum: (−∞, 178.6) és (177.4, ∞).
(a) (b)
5000 5000
4000 4000
Gyakoriság
Gyakoriság
3000 3000
2000 2000
1000 1000
0 0
0 2 4 6 8 10 0 2 4 6 8 10
Átlag Átlag
(c) (d)
5000 5000
4000 4000
Gyakoriság
Gyakoriság
3000 3000
2000 2000
1000 1000
0 0
0 2 4 6 8 10 0 2 4 6 8 10
Átlag Átlag
5.8. ábra. Jobbra ferde eloszlásból generált egyelemű (a), tízelemű (b), 50 elemű (c) és
200 elemű (d) minták átlagainak hisztogramjai. Figyeljük meg, hogy a mintaelemszám
növelésével a mintaátlag eloszlása egyre kevésbé ferde, a szórása pedig egyre kisebb!
(A hisztogramok mind a négy esetben 10000 véletlen mintából készültek.)
M AD = E(|ŵ − w|).
(a) (b)
(c) (d)
Korábban azt mondtuk (124. oldal), hogy a becslés pontosságát a standard hibájával
szokás jellemezni. Figyeljük meg, hogy ha a torzítás 0, akkor M SE = SE 2 , illetve
RM SE = SE, azaz ilyenkor a standard hiba valóban jól jellemzi a pontosságot!
5.2.1. Torzítatlanság
Intuitíve egy becsléstől elvárjuk, hogy értéke a becsülendő paraméter közelé-
ben legyen, ne „lőjön mellé”, azaz ha a becslést az összes lehetséges véletlen
136 Reiczigel – Harnos – Solymosi: Biostatisztika
X1 + X2 + . . . + Xn
E(X̄) = E
n
E(X) + E(X) + . . . + E(X) nE(X)
= = = E(X).
n n
● ● ● ● ●
● ● ● ● ● ●
195 ●
● ●
● ● ●
●
●
●
● ● ●
●
Minta maximuma
●
● ● ●
● ● ●
● ● ●
● ●
● ● ● ●
● ● ●
190 ●
● ●
●
● ●
●
●
●
●
● ●
● ●
● ●
● ●
●
●
● ● ●
● ●
●
● ●
●
185 ●
●
● ●
●
●
●
●
180
Minta mérete
●
● ●
Minta korrigálatlan varianciája
60 ●
●
●
50 ●
●
● ● ●
●
● ● ●
● ●
● ● ●
40 ●
● ●
●
●
●
●
●
●
●
●
● ●
●
●
● ● ● ●
● ●
● ● ● ● ●
● ●
●
● ●
● ● ●
● ●
●
● ● ●
● ● ●
● ●
●
● ● ● ● ●
● ●
30 ●
●
●
●
●
●
● ●
●
● ● ●
● ●
●
●
●
20 ●
●
●
●
●
Minta mérete
5.2.2. Konzisztencia
A becslésektől általában azt is elvárjuk, hogy a mintanagyság növelésével
pontosságuk javuljon, azaz a becslés a becsülendő paraméterhez egyre köze-
lebb kerüljön. Még az is ésszerű elvárás, hogy a mintanagyság növelésével a
becslés bármely előírt pontosságot elérhessen. Ezt fogalmazhatjuk például
úgy, hogy a becslés átlagos négyzetes eltérése 0-hoz tartson, ha a minta-
nagyság végtelenhez tart. Az M SE 2 = SE 2 + bias2 összefüggés miatt ezzel
ekvivalens megfogalmazás, hogy a becslés legyen aszimptotikusan torzítat-
lan, és standard hibája is 0-hoz tartson.
Egy másik lehetséges megfogalmazás a konzisztencia, amely azt követeli
meg, hogy a mintanagyság növelésével a becslés és a becsülendő paramé-
ter közötti „nagy” eltérések előfordulásának valószínűsége 0-hoz tartson.
„Nagy” eltérésen itt egy ε küszöbértéket meghaladó eltérést értünk, amely
küszöböt természetesen tetszőlegesen megválaszthatunk. A w paraméter-
nek ŵn = ŵ(x1 , x2 , . . . , xn ) konzisztens becslése, ha bármely tetsző-
leges ε > 0 küszöbérték mellett
n→∞ ⇒ P (|ŵn − w| ≥ ε) → 0.
A táblázatból azt lehet kiolvasni, hogy a megfigyelt „30-ból 18” esemény h = 0.6
mellett a legvalószínűbb, tehát az ismeretlen beköltözési hányad ML becslése ĥ = 0.6.
Jegyezzük meg, hogy ebben a példában a plug-in becslés is ugyanezt az eredményt
adta volna (de nem is mondtuk, hogy a különböző becslési elvek mindig különböző
eredményre vezetnek)!
Kérdés persze, hogy a 30-as mintaelemszám milyen pontosságú becslést tesz lehetővé,
de ez most a példa szempontjából nem fontos. Adott pontosság eléréséhez szükséges
mintaelemszám meghatározásával később még foglalkozunk (lásd az 5.6. fejezetben).
Aki tud számolni a binomiális eloszlással, tudja, hogy ha feltesszük, hogy az elfog-
lalt odúk száma n = 30, p = h paraméterű binomiális eloszlást követ, akkor annak a
valószínűsége, hogy éppen 18 elfoglalt odút találunk:
30 18
L(h) = h (1 − h)12 .
18
P (k1 ≤ f (w, x1 , x2 , . . . , xn ) ≤ k2 ) = 1 − α
P (. . . ≤ w ≤ . . .) = 1 − α.
teljesül.
5.4. Eljárások konfidencia-intervallumok szerkesztésére 143
σ σ
−1.96 √ ≤ x̄ − µ ≤ 1.96 √ ,
n n
σ σ
x̄ − 1.96 √ ≤ µ ≤ x̄ + 1.96 √ ,
n n
ŵ − w
SE(ŵ)
ŵ ± zkrit · SE(ŵ)
variancia
konfidencia-tartomány
minta- a (µ,σ 2 ) paraméterpárra
variancia (σ 2 )
r r !
p̂(1 − p̂) p̂(1 − p̂)
p̂ − 1.96 · , p̂ + 1.96 · ,
n n
ahol p̂ a mintabeli arányt, n pedig a mintaelemszámot jelöli. Az intervallum hossza
a két végpont közötti különbség, azaz a gyök alatti kifejezés szorozva 3.92-vel. Azt
szeretnénk, hogy ez 0.1 körül legyen, azaz
r
p̂(1 − p̂)
3.92 ≈ 0.1.
n
Ha ebből n-et kifejezzük, a következőt kapjuk:
3.92 2
p̂(1 − p̂) ≈ n.
0.1
Látjuk, hogy a szükséges mintaelemszám függ az egyelőre ismeretlen p̂-tól is, ezért p̂-ra
egy előzetes becslést kell adnunk akár az irodalomból, akár korábbi tapasztalatainkból.
Ha például p̂ = 0.3 körüli értékre számítunk, akkor a szükséges mintaelemszám 323. Ha
ilyen becslést nem tudunk adni, akkor felkészülhetünk a mintaelemszám szempontjából
legrosszabb esetre, ami jelen esetben a p̂ = 0.5, ekkor a mintaelemszámra 385 adódik.
151
152 Reiczigel – Harnos – Solymosi: Biostatisztika
Nagy mintaelemszámokkal olyan kis különbségek, hatások vagy olyan gyenge össze-
függések is szignifikánsnak bizonyulhatnak, amelyek szakmailag irrelevánsak. A túl nagy
minta gazdaságossági és etikai szempontok miatt is kerülendő. A szükséges mintaelem-
szám meghatározásának egyik célja, hogy a minta ne legyen nagyobb, mint amekkora a
szakmailag releváns hatások kimutatásához szükséges (vö. az 5.6. fejezettel).
A ●● ●●●● ● ● ● ●
B ● ● ●● ●● ● ● ● ●
0 10 20 30 40 50 60
Döntés
H0 -t megtartjuk H0 -t elvetjük
H0 igaz helyes döntés elsőfajú hiba
(tévesen elvetjük a H0 -t)
(álpozitív eredmény)
Valóság
H1 igaz másodfajú hiba helyes döntés
(tévesen megtartjuk a H0 -t)
(álnegatív eredmény)
A döntést úgy szeretnénk meghozni, hogy mind a két fajta hiba való-
színűsége alacsony maradjon. Az elsőfajú hiba valószínűségét (Type I error
rate, alpha error rate) α-val, a másodfajú hibáét β-val jelöljük. Az „ala-
csony szinten tartás” szokásosan α ≤ 5%-ot, illetve β ≤ 20%-ot jelent. Az,
hogy a másodfajú hibával szemben általában elnézőbbek vagyunk, egybe-
vág a tudomány konzervativizmusával, a „lassan járj, tovább érsz” elvével
(vö. 6.1.2. fejezet).
Ha a döntési szabályt úgy változtatjuk meg, hogy az α csökkenjen, akkor
– feltéve, hogy minden más változatlan – a β növekedni fog, és viszont. Ha
egyidejűleg mindkét hiba valószínűségét csökkenteni szeretnénk, akkor ezt
vagy egy hatékonyabb statisztikai próba alkalmazásával, vagy – és legtöbb-
ször ez a könnyebb – a mintaelemszám növelésével tehetjük meg. (Egy jó
teszttől elvárjuk, hogy ha a mintaelemszám végtelenhez tart, akkor mindkét
fajta hiba valószínűsége nullához tartson).
A H0 -ról való döntésnek technikailag két útja van: az egyik az úgyneve-
zett p-értéken keresztül vezet, a másikhoz a p-érték fogalmára nincs szükség.
A bevezető statisztika kurzusokon általában az utóbbit tanítják, mert a kézi
számoláshoz (dolgozat-példák!) az a praktikusabb. Aki viszont számítógépes
programot használ, annak feltétlenül tisztában kell lennie a p-érték jelenté-
sével – ha kiszámításának részleteivel nem is –, mert a programok általában
ezt közlik. Ezért mi is erre helyezzük a hangsúlyt, de azért a másik mód-
szert is ismertetjük (6.2.3. fejezet), hogy könyvünket a klasszikus bevezető
kurzusok hallgatói is haszonnal forgathassák.
A p-érték értelmezéséhez induljunk ki abból, hogy a nullhipotézist akkor
vetjük el (vö. 6.1.1. fejezet),
• ha a megfigyelésünk (mintánk) ellentmond a H0 -nak az ellenhipotézis
javára,
• és ha a H0 -nak a puszta véletlen folytán ennyire ellentmondó megfi-
gyelés (minta) csak kevéssé valószínű.
Ez utóbbihoz hasznos segítség a p-érték (p-value): annak a valószí-
nűsége, hogy a H0 fennállása esetén a véletlen játéka a H0 -nak
legalább annyira ellentmondó mintát produkál, mint a ténylege-
sen megfigyelt minta.
A p-érték tehát egy mérőszám arra, hogy a megfigyelt minta mennyire
erős bizonyíték (strong evidence) a H0 ellen, a H1 javára.
Ha egy mintából számított p-érték 0.333, akkor ez a minta nem meggyőző
bizonyíték a H0 ellen. Ennyire ugyanis minden harmadik minta akkor is
ellentmond a H0 -nak, amikor H0 igaz. De ha a p-érték mondjuk 0.001,
akkor már erősen kételkedünk a H0 -ban, hiszen ha igaz lenne, akkor csak
minden ezredik minta szólna ennyire ellene.
6.1. A statisztikai hipotézisvizsgálat alapgondolata 161
Itt kell azt is megemlíteni, hogy – mivel a sikert mindig egy új felfedezés
jelenti – a kutatók szívesebben közölnek, az olvasók szívesebben olvasnak,
így a lapok szívesebben publikálnak szignifikáns eredményeket, ezért az iro-
dalomban ezek túl vannak reprezentálva. Ez az úgynevezett publikációs tor-
zítás (publication bias). Ebből az is következik, hogy a folyóiratokban közölt
„felfedezések” nem kis része a véletlen folyománya, álpozitív eredmény, első-
fajú hiba. (Vigyázat, első pillantásra az ember azt gondolhatná, hogy csak
öt százalékuk, de ez nem így van, ennél lehet sokkal több is!)
6.2.1. Próbastatisztika
Ahhoz, hogy egy adott mintához meghatározhassuk a p-értéket, tudnunk
kell, hogy mely minták mondanak ellent annyira vagy jobban a H0 -nak
a H1 javára, mint a megfigyelt minta. Ehhez valójában mindegyik mintát
mindegyikkel össze kell tudnunk hasonlítani ebből a szempontból. Megol-
dás lenne erre, ha az összes lehetséges mintát sorba állítanánk aszerint,
hogy milyen mértékben mondanak ellent a H0 -nak. De ez már kis létszá-
mú populáció és kis minta esetén is meglehetősen nehéz, egyrészt a minták
nagy száma miatt, másrészt mert „szemre” nem mindig könnyű eldönteni,
hogy két minta közül melyik mond inkább ellent a vizsgált hipotézisnek. A
próbastatisztika egy segédeszköz ahhoz, hogy a mintákat rendezni tudjuk
aszerint, hogy mennyire mondanak ellent a nullhipotézisnek.
6.2. A hipotézisvizsgálat technikai kérdései 165
(a)
0 1 2 3 4 5 ... 23 24 25 26 27 . . . 46 47 48 49 50
(b)
(c)
a statisztika H0 -lal legjobban a statisztika H0 -nak legjobban
összeegyeztethető értéke ellentmondó értéke (a H1 javára)
0 2 4 ... . . . 46 48 50
Fejek száma: 0 1 2 3 4 5
Valószínűség: 8.88e-16 4.44e-14 1.09e-12 1.74e-11 2.05e-10 1.88e-09
Fejek száma: 6 7 8 9 10 11
Valószínűség: 1.41e-08 8.87e-08 4.77e-07 2.23e-06 9.12e-06 3.32e-05
0 9 10 25 40 41 50
6.3. ábra. A fejek számának eloszlása 50 dobásból szabályos pénz esetén (az oszlo-
pok magassága az érték valószínűségével arányos). Megjelöltük azokat az értékeket,
amelyek annyira vagy jobban ellentmondanak a szabályosság hipotézisének, mint a
ténylegesen megfigyelt 9 fej
űű
a H 0 fennállása esetén
p−érték:
ű
ő
nagyobb (a H 0 fennállása esetén)
0 17 18 32 33 50
(a)
űű
a H 0 fennállása esetén
1.645
5%−os egyoldali
kritikus tartomány
(b)
űű
a H 0 fennállása esetén
−1.96 1.96
2.5% 2.5%
5%−os kétoldali
kritikus tartomány
6.6. ábra. Az 5%-os kritikus értékek jelentése normális nulleloszlás és egyoldali (a),
illetve kétoldali (b) ellenhipotézis esetén
űű
a H 0 fennállása esetén
a statisztika megfigyelt értéke
tés között. Látható, hogy fenti döntés ekvivalens azzal a p-értéken alapuló
döntéssel, hogy „megtartjuk H0 -t, ha p ≤ 0.05, és elvetjük, ha p > 0.05”.
Ugyanis, ha a statisztika mintából számított értéke a kritikus tartományba
esik, akkor a p-értéket szolgáltató tartomány teljes egészében benne van a
kritikus tartományban, így valószínűsége legfeljebb 5%. Hasonlóképpen, ha
a statisztika mintából számított értéke nincs benne a kritikus tartomány-
ban (a megfelelő ábrát a Kedves Olvasó is elkészítheti), akkor a p-értéket
szolgáltató tartomány tartalmazza teljes egészében a kritikus tartományt,
így a p-értéknek legalább 5%-nak kell lennie.
Az viszont, hogy a populációban a kék szeműek aránya legfeljebb 10%, már összetett
hipotézis: végtelen sok egyszerű hipotézis egyesítése, mint például H00 : a kék szeműek
aránya 1%, H000 : a kék szeműek aránya 4%, H0000 : a kék szeműek aránya 9% stb. Ezt a
hipotézist feltételezve a statisztika eloszlása nem egyértelmű, a hipotézis egyes elemei
esetén különböző eloszlásokat kapunk. A felsorolt három hipotézis melletti eloszlásokat
a 6.3. táblázat 2–4. soraiban találjuk.
6.3. táblázat. Kék szeműek száma tízelemű mintában a binomiális eloszlással model-
lezve, a populációbeli arányra (p) vonatkozó különböző hipotézisek mellett. A hatnál
nagyobb értékek valószínűségét azért nem szerepeltetjük, mert ezek mind a négy hipo-
tézis mellett négy tizedesjegyre nullák (0.0000) voltak
Nyilvánvaló, hogy egy minta a H0 -nak annál inkább mond ellent a H1 javára, minél
több benne a kék szemű. Tehát a p-érték kiszámításához egyszerűen össze kell adni a
6.3. táblázat megfelelő sorában a 3, 4, 5 stb. értékekhez tartozó valószínűségeket. Így
a p-értékek az összetett H0 egyes elemeihez: a H00 -höz 0.0001, a H000 -höz 0.0062, a
H0000 -höz 0.0540. Ezekből a számokból – némi fantáziával, hiszen a H0 -nak csak három
elemét néztük meg – kiolvasható, hogy minél nagyobb a hipotézisben szereplő hipoteti-
kus valószínűség, annál nagyobb lesz a p-érték. Ebből az következik, hogy a legnagyobb
p-érték a H0 : p = 0.10 egyszerű hipotézisre adódik, számszerűen 0.0702, és a fentiek
szerint ezt tekintjük az összetett hipotézishez tartozó p-értéknek is.
Ha a Kedves Olvasó az összetett hipotézis további elemeire is szeretné látni a p-
értékeket, az R-ben a statisztika eloszlását a
dbinom(0:10, size = 10, prob = POPARÁNY)
paranccsal kapja meg, a POPARÁNY helyére írva a hipotetikus populációs arányt. A p-
érték pedig ebből a 3, 4, . . . , 10 értékekhez tartozó valószínűségek összegzésével adódik:
felírással találkozhatunk.
Vegyük észre, hogy az erő, vagyis a helyes döntés valószínűsége H1 fennállása esetén
nem más, mint a kritikus tartomány valószínűsége a H1 mellett! Ezt most a H1 -nek
megfelelő binomiális eloszlásból számolhatjuk. Az erő H10 mellett 0.2371, H100 mellett
0.7822, H1000 mellett pedig 0.9449.
Sejthető volt, hogy minél szabálytalanabb az érme (minél jobban eltér a fej valószínűsé-
ge – akár felfelé, akár lefelé – az 50%-tól), annál erősebb lesz a teszt, annál biztosabban
észreveszi az érme szabálytalanságát.
A statisztika (a fejek száma) eloszlását a 6.8. ábra szemlélteti a különböző ellenhipotézi-
sek mellett. Az ábra a próba erejét mutatja a pénzérme szabályosságának vizsgálatakor
3.28%-os elsőfajú hiba mellett, három különböző ellenhipotézis esetén. Az elfogadási
és elutasítási tartomány ugyanaz, mint a 6.5. ábrán, de a tartományok valószínűsége –
így a próba ereje is – az ellenhipotézistől függően változik. Az erő a kritikus (= elutasí-
tási) tartomány értékeinek összvalószínűsége (az oszlopok magassága az egyes értékek
valószínűségével arányos).
(a)
H1 : p = 0.4
0 17 18 32 33 50
(b)
H1 : p = 0.7
0 17 18 32 33 50
(c)
H1 : p = 0.25
0 17 18 32 33 50
a statisztika
sűrűségfüggvénye
H0 mellett
5%-os kritikus érték
95% 5%
kritikus tartomány
(valószı́nűsége H0 mellett 5%)
a statisztika sűrűségfüggvénye
H1 mellett
β 1−β
β 1−β
nagyobb különbség,
nagyobb erő (kisebb β)
6.9. ábra. Egy teszt erejét a legkisebb kimutatandó – azaz szakmailag releváns –
különbség vagy hatás mellett szokás meghatározni. Ennél kisebb különbség kimutatása
nem értelmes, ha pedig ennél nagyobb a különbség, akkor a teszt ereje is nagyobb
Csak a tanulság kedvéért számoljuk ki az erőt egy kisebb, mondjuk 1.5 l/tehén/nap
valódi különbségre is! Az jön ki, hogy ekkora különbségre a teszt ereje már csak 79.9%,
vagyis a teszt az 1.5 l/tehén/nap különbséget már több mint 20% valószínűséggel „nem
veszi észre”.
Az adatok és a számítások R-ben (ki a kísérleti és ko a kontrollcsoport, a t.test()
függvény végzi a tesztet, a power.t.test() függvény számolja az erőt):
> ki = c(19.3, 20.6, 21.7, 17.8, 20.0, 18.0, 17.6, 19.8, 18.9, 19.5)
> ko = c(19.0, 18.1, 20.4, 18.1, 20.0, 17.6, 18.3, 16.8, 19.6, 17.2)
> t.test(ki, ko, alternative = "greater")
data: ki and ko
t = 1.4449, df = 17.897, p-value = 0.08289
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
-0.1624280 Inf
sample estimates:
mean of x mean of y
19.32 18.51
n = 10
delta = 1.9
sd = 1.3
sig.level = 0.05
power = 0.9327725
alternative = one.sided
n = 10
delta = 1.5
sd = 1.3
sig.level = 0.05
power = 0.7985234
alternative = one.sided
n = 1192.781
p1 = 0.75
p2 = 0.8
sig.level = 0.05
power = 0.9
alternative = one.sided
NOTE: n is number in *each* group
6.3. További témák 187
Látjuk, hogy a helyzet eléggé reménytelen: ekkora várt különbség ilyen szintű és erejű
kimutatásához csoportonként 1200–1300 körüli beteglétszámra lenne szükség, az elő-
re nem látható kiesések miatt ugyanis érdemes némi ráhagyással dolgozni. Azt, hogy
mennyivel, azt az adott területet ismerő szakembernek kell megbecsülnie. A kísérlet így
minden valószínűség szerint túl költséges lenne, és túl hosszú ideig is tartana. De ha
csak úgy mintaelemszám-becslés nélkül belevágnánk, mondjuk 100-100 állattal, akkor
(számolja ki a Kedves Olvasó is!) az erő mindössze 21% lenne! Ez pedig azt jelenti,
hogy a kísérlet csaknem 80% valószínűséggel akkor is negatív eredménnyel zárulna, ha
a kezelés valóban hozná a tőle elvárt hatást.
6.10. ábra. Két azonos alakú sűrűségfüggvény, egyik a másikból d-vel való eltolással
adódik
Konfidencia-intervallum a mediánra
Tételezzük fel, hogy egy n elemű független mintánk van egy folytonos válto-
zóra. Rendezzük sorba a minta elemeit nagyság szerint, jelölje a rendezett
minta elemeit x∗1 , x∗2 ,. . . , x∗n . A konfidencia-intervallum konstrukciója na-
gyon egyszerű: a rendezett minta bármely két eleme közötti intervallumot
kiválasztva egy, a mediánra vonatkozó konfidencia-intervallumot kapunk.
Az i-edik és a j-edik közötti (x∗i , x∗j ) intervallum megbízhatósági szintje
j−1
X j−1
X i−1
X
pi + pi+1 + ... + pj−1 = pk = pk − pk ,
k=i k=0 k=0
23 0
X X
p1 + p2 + . . . + p23 = pk − pk .
k=0 k=0
[1] 0.9999999
0.9360853
Ilyen értelemben az összes folytonos eloszlás – mint család – nem paraméteres: a családta-
gok nem azonosíthatók egyértelműen néhány érték segítségével. (Lazán fogalmazva: ez a
család túl népes ahhoz, hogy tagjait véges sok számmal egyértelműen jellemezhetnénk.) A
fenti értelemben tehát ebben a családban sem az átlag, sem a medián nem paraméterek,
mivel nem azonosítják egyértelműen a család tagjait, bár a szó hétköznapi értelmében
paraméternek neveznénk őket. Ezért az olyan módszereket, amelyeket ebben a családban
való vizsgálódásra dolgoztak ki, nem nevezzük paraméteresnek, vonatkozzanak akár a
medián, akár az átlag vizsgálatára.
7. Gyakran használt statisztikai
próbák
Ebben a fejezetben sorra vesszük a legismertebb statisztikai próbákat. Egy-
részt azokat, amelyeket az adatelemzésben rutinszerűen, szinte nap mint
nap alkalmazunk, másrészt azokat, amelyeket annak ellenére, hogy a gya-
korlatban már nem használunk, a fogalmak jobb megértése érdekében, a
tanulság kedvéért mégis minden bevezető statisztika kurzuson ismertetünk.
Mindegyik próbához egy mondatban leírjuk a vizsgálat célját, megadjuk
a null- és ellenhipotézist, valamint a próba alkalmazhatósági feltételeit. Eze-
ket mind az R-rel dolgozni kívánó kutatóknak, mind a bevezető statisztika
kurzusok hallgatóinak ismerniük kell.
Ezután megadjuk a próbát végrehajtó R-függvényt és/vagy a próba-
statisztika képletét és nulleloszlását. Utóbbiakra elsősorban azoknak van
szükségük, akik a statisztika dolgozatra szeretnének felkészülni a könyvből,
ezért ezeket elhagyjuk azoknál a próbáknál, amelyek nem szerepelnek a be-
vezető kurzusok anyagában. Ha valakit a képlet mégis érdekelne, vagy a
teszt mögötti elméletre kíváncsi, akkor nézze meg az R-függvény leírását
(help(függvénynév) vagy ?függvénynév), abban mindig talál hivatkozást
olyan cikkre vagy könyvre, amelyből az elmélet megismerhető. Az eloszlás-
táblázatok rejtelmeibe sem kívánjuk bevezetni az olvasót, de egy-egy pél-
dában azért ezekre is kitérünk, és a leggyakrabban használt táblázatokat a
függelékben közöljük.
Megjegyezzük, hogy a próbák elnevezése nem mindig egyértelmű: egy
tesztnek több neve is lehet, és különböző teszteknek is lehet azonos neve.
Ennek egyik oka, hogy a próbák neve általában vagy megalkotójuk, vagy a
nulleloszlás nevéből származik (Kolmogorov–Szmirnov-próba, khi-négyzet-
próba). Mivel ugyanahhoz a személyhez és ugyanahhoz a nulleloszláshoz
is több próba tartozhat, olykor nem könnyű kitalálni, hogy adott esetben
melyikről van szó.
193
194 Reiczigel – Harnos – Solymosi: Biostatisztika
ahol x̄1 , x̄2 a két mintaátlag, σ1 , σ2 a két ismert (értsd: nem ezekből a
mintákból becsült) szórás, n1 , n2 a minták elemszáma.
Nulleloszlás: Standard normális.
Megjegyzés: Közelítőleg használható akkor is, ha a változók eloszlása nem
normális, feltéve, hogy a minták legalább 30-30 eleműek.
Bika (kg): 46 32 23 32 33 48 32
Üsző (kg): 27 37 35 41 35 34 43 38 40
A megoldás R-rel:
data: b and u
t = 0.9912, df = 11.736, p-value = 0.1708
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
-2.099368 Inf
sample estimates:
mean of x mean of y
39.28571 36.66667
amivel a próbastatisztika:
39.3 − 36.7 2.6
t= p = = 1.01.
26.27/7 + 26.27/9 2.58
A megoldás R-rel:
> t.test(b, u, alternative = "greater", var.equal = T)
data: b and u
t = 1.0145, df = 14, p-value = 0.1638
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
-1.928194 Inf
sample estimates:
mean of x mean of y
39.28571 36.66667
Statisztika:
d¯
t= √ ,
sd / n
Első gyermek 3490 3440 3300 3170 3260 3580 3250 2870 3020 3030
Második gyermek 3840 3520 3420 3480 3030 4030 3020 3230 3010 3100
Megoldás R-rel:
> elso = c(3490, 3440, 3300, 3170, 3260, 3580, 3250, 2870,
+ 3020, 3030)
> masodik = c(3840, 3520, 3420, 3480, 3030, 4030, 3020, 3230,
+ 3010, 3100)
202 Reiczigel – Harnos – Solymosi: Biostatisztika
Paired t-test
A) F -próba (F -test)
R-függvény: var.test().
Statisztika:
s21
F = ,
s22
36 °C: 35.9 36.2 35.3 36.3 36.2 35.6 35.7 36.1 35.9 36.1
44 °C: 44.3 43.9 44.9 43.5 44.6 43.2 44.6 43.3 43.2 44.3
A) Khi-négyzet-próba illeszkedésvizsgálatra
(Chi-square goodness-of-fit test)
3 4 5 4 3 1 6 6 3 4 6 4 4 5 3
2 1 1 2 3 6 3 4 5 1 3 2 2 5 1
5 4 3 6 3 3 4 3 4 4 2 1 3 3 4
Érték 1 2 3 4 5 6
Megfigyelt gyakoriság (fi ) 6 5 13 11 5 5
Várt gyakoriság (ei ) 7.5 7.5 7.5 7.5 7.5 7.5
(fi − ei )2 /ei 0.30 0.83 4.03 1.63 0.83 0.83
data: megfigy
X-squared = 8.4667, df = 5, p-value = 0.1323
B) Kolmogorov–Szmirnov-próba illeszkedésvizsgálatra
(Kolmogorov-Smirnov goodness-of-fit test)
(a) (b)
1 1
F (x ) H (x )
H (x ) F (x )
ű
ű
Érték Érték
Kis minták esetén (n < 50) a fenti próbák nem nagyon érzékenyek a hipoteti-
kus eloszlástól való eltérésekre, hajlamosak mindig elfogadni az illeszkedést
(kicsi az erejük). Ezért kis mintákra az illeszkedésvizsgálatot érdemesebb
grafikus módszerekkel, alkalmas diagramok szemrevételezésével megítélni.
Normalitásvizsgálatra egy lehetséges megoldás – egyes számítógépes prog-
ramok készítenek is ilyen ábrát –, hogy az adatok hisztogramjára olyan
haranggörbét rajzolunk, amelynek paramétereit a mintából becsüljük, és
ennek alapján ítéljük meg az illeszkedést. Sajnos, ez a módszer eléggé bi-
zonytalan, mert a kép erősen függ az osztályok számától.
Jobban megítélhető az illeszkedés a QQ-ábra (quantile-quantile plot) se-
gítségével (7.2. (a) ábra). A módszer azon alapul, hogy ha egy n elemű
minta valóban a hipotetikus eloszlásból származik, akkor a rendezett minta
i-edik értéke várhatóan a hipotetikus eloszlás i/n kvantilise közelében lesz
7.3. Eloszlásokra vonatkozó próbák 211
(a) (b)
1
Rendezett minta
●
● ●
i/n
ű
●
●
●
●
yi ●
●●
●●
●
●●
●
●
● ● ●
0
qi yi qi
(véletlen mintáról lévén szó, azt nem várhatjuk, hogy éppen egyenlő lesz
vele). A QQ-ábra n elemű minta esetén n pontot tartalmaz, az i-ik pont x
koordinátája a hipotetikus eloszlás i/n kvantilise (qi ), y koordinátája pedig
a tapasztalati eloszlás i/n-kvantilise (yi ), ami nem más, mint a rendezett
minta i-edik értéke (7.2. (b) ábra).
Formálisan, ha a rendezett minta elemeit y1 ≤ y2 ≤ . . . ≤ yn , a hipotetikus elosz-
lás eloszlásfüggvényének inverzét pedig F −1 jelöli, akkor a QQ-ábra az F −1 (i/n), yi ,
(a) (b)
● ●
●
●
●● ● ●
Sample Quantiles
Sample Quantiles
1.5 ●
● 2 ●
●
●● ● ●
●●●●●
1.0 ●
●●
1 ●●
●●
●
●
●
●
●●
●●●
●
●●
●● ●
●
●
●●● ●●
●●
●
●●
●
0.5 ●●
●●
●
●●
●●
●
●
●
●●
●
●●
●●
●
●●
●●
●
●
●●●
0 ●
●
●
●
●
●
●●
●
0.0 ●
●
●
●
●
●
●
●
●
● ●●
●●
●●
●
●
●●
●●
−0.5 ●
● −1 ●●●
●
●●
●
● ● ●
−1.0 ●
−2
●
−2 −1 0 1 2 −2 −1 0 1 2
7.3. ábra. Normális eloszlású változó QQ-ábrája 30 (a) és 100 elemű (b) minta esetén
(a) (b)
●
Sample Quantiles
●
15 15
Gyakoriság
●
●
●
●
●●●
10 10 ●
●●●
●
●
●●
●●
●
●●
●●
●●
●●
●●
●
●●
●
5 5 ●
●●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●●
●
●●
●
●●
●●
●●
●
●
●●
●●
●●
●●●
● ● ●●●●●●●●●●●
0 0 ●
0 2 4 6 8 10 12 −2 −1 0 1 2
X Theoretical Quantiles
7.4. ábra. Jobbra ferde eloszlású minta hisztogramja (a) és QQ-ábrája (b)
25 (a) (b)
20 20 ●●●●●●
● ● ●
Gyakoriság
●●
●●
●●●●●●●
●●
●●
●●
Sample Quantiles
●
●
●●
●●
●
●●
●●
●
●●
●
●
●●
●
●●
●●
●
●
15 ●
●
●●
●●
●
●●
●●
15 ●●
●●
●
●
●
●●
●
●
●
●●
●
●●
●●
10 ●
●●●●
●●
●●
●
●
●
●●
5 10
●●
0 ●
5 ●
●
5 10 15 20
X −2 −1 0 1 2
Theoretical Quantiles
7.5. ábra. Balra ferde eloszlású minta hisztogramja (a) és QQ ábrája (b)
(a) (b)
15 ●
Gyakoriság
●
●
8 ●●●
Sample Quantiles
●●●●
●●●
10 6 ●●
●
●
●●●
●
●●
●●●
●
●●
●
●
4 ●
●
●
5 ●
●
●
●
●
●
●●
2 ●
●●
●●
●
●
●
●●
●●
●●
●●
●●
●
0 0 ●●●
●●
●●
●●
●●
●●
●
●●
●●
●
●●
●●
●
●●●
●●●●
●●●●
● ●●
−2 0 2 4 6 8 10 −2 ●
X −2 −1 0 1 2
Theoretical Quantiles
A) Khi-négyzet-próba függetlenségvizsgálatra
A B C Összesen
Kan 40 18 5 63
Szuka 22 26 11 59
Összesen 62 44 16 122
A fenti fij -k a táblázat cellagyakoriságai. Az első index (i) azt mutatja, hányadik sor-
ban, a második (j) pedig azt, hogy hányadik oszlopban lévő értékről van szó. Például:
f12 = 18, f21 = 22 stb.
7.3. Eloszlásokra vonatkozó próbák 215
Ha papíron kell számolnunk, akkor az első lépés itt is az, hogy mind-
egyik cellához kiszámoljuk a H0 , azaz a függetlenség fennállása esetén várt
gyakoriságot (eij ), méghozzá az alábbi képlettel:
si oj
eij = ,
n
ahol si az i-edik sor összege, oj a j-edik oszlop összege, n pedig a táblázat
teljes összege, azaz a minta elemszáma.
A képlet szavakkal azt mondja, hogy minden cellához úgy kapjuk a várt
gyakoriságot, hogy a cella sorának sorösszegét megszorozzuk az oszlopának
az oszlopösszegével, majd elosztjuk a mintaelemszámmal. Ez az események
függetlenségére vonatkozó P (A és B) = P (AB) = P (A)P (B) szabály meg-
felelője, ha valószínűségek helyett gyakoriságokkal számolunk.
Feltétel: Itt is – az illeszkedésvizsgálathoz hasonlóan – akkora mintával
kell dolgozni és/vagy az osztályokat úgy kell megválasztani, hogy mindegyik
cella várható gyakorisága legalább 5 legyen.
Ebben az esetben tehát teljesül a próba alkalmazhatósági feltétele, minden várt gyako-
riság 5-nél nagyobb.
R-függvény: chisq.test().
A táblázatot a függvénynek mátrixként kell megadni (innen tudja, hogy
függetlenségvizsgálatról és nem illeszkedésvizsgálatról van szó). Ugyanúgy
mint az illeszkedésvizsgálatnál, az R figyelmeztető üzenettel jelzi, ha a pró-
ba alkalmazhatósági feltétele nem teljesül. Ekkor itt is vagy a Fisher-féle
egzakt próba, vagy a chisq.test() függvény simulate.p.value = T pa-
raméterének beállítása a megoldás.
216 Reiczigel – Harnos – Solymosi: Biostatisztika
> chisq.test(x)
data: x
X-squared = 8.8087, df = 2, p-value = 0.01222
Statisztika:
I X
J
X (fij − eij )2
χ2 = ,
i=1 j=1
eij
R-függvény: fisher.test().
218 Reiczigel – Harnos – Solymosi: Biostatisztika
> fisher.test(x)
data: x
p-value = 0.01073
alternative hypothesis: two.sided
Látjuk, hogy ilyen nagy mintára már megegyezik a khi-négyzet és a Fisher-féle próba
eredménye.
(a) (b)
1 1
F 1(x ) F 2(x )
F 2(x ) F 1(x )
ű
ű
Érték Érték
data: 41 and 50
number of successes = 41, number of trials = 50,
p-value = 5.614e-06
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.6856306 0.9142379
sample estimates:
probability of success
0.82
Nullhipotézis: H0 : p1 = p2 .
Ellenhipotézis:
• H1 : p1 6= p2 (kétoldali ellenhipotézis), vagy
• H1 : p1 < p2 vagy H1 : p1 > p2 (egyoldali ellenhipotézisek).
Megjegyzés: A két valószínűség egyenlősége azt jelenti, hogy a vizsgált
dichotom változó (például beteg/nem beteg) eloszlása a két csoportban
azonos. Ez tehát homogenitásvizsgálatként is felfogható, a homogenitás-
vizsgálat pedig visszavezethető függetlenségvizsgálatra (218. oldal). Ezért
vizsgálhatjuk a hipotézist khi-négyzet-, illetve Fisher-féle egzakt próbával.
1. populáció 2. populáció
Mintaelemszám 670 520
Betegek száma 212 126
f1 212 f2 126
p̄1 = = = 0.316, = = 0.242,
n1 670 n2 520
f1 + f2 212 + 126
pp = = = 0.284,
n1 + n2 670 + 520
[,1] [,2]
[1,] 212 126
[2,] 458 394
data: x
X-squared = 7.9072, df = 1, p-value = 0.004924
> fisher.test(x)
data: x
p-value = 0.005312
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
1.109409 1.891780
sample estimates:
odds ratio
1.446966
R-függvény: mcnemar.test().
Megjegyzés: Bár a McNemar-próbának van egzakt változata is, az emlí-
tett R-függvény csak közelítő, aszimptotikus tesztet végez.
Utána
A jelöltre B jelöltre Összesen
Előtte A jelöltre 151 192 343
B jelöltre 145 112 257
Összesen 296 304 600
Látható, hogy a vita után a B jelölt erősödött, de kérdés, hogy ilyen mértékű változás
vajon szignifikáns-e.
Az alábbiakban megadjuk a megoldást R-ben a mcnemar.test() függvénnyel. A függ-
vény az adatokat mátrix formában várja, a mátrixszá alakítást most is a matrix()
függvénnyel végezzük.
> (x = matrix(c(151, 145, 192, 112), nrow = 2))
[,1] [,2]
[1,] 151 192
[2,] 145 112
> mcnemar.test(x)
McNemar's Chi-squared test with continuity correction
data: x
McNemar's chi-squared = 6.2789, df = 1, p-value = 0.01222
Tehát a televíziós vita hatása szignifikáns volt (p = 0.0122).
7.5. Mediánokra vonatkozó próbák 227
R-függvény: fisher.test().
B) Khi-négyzet-próba (chi-squared test)
H0 : med = 12,
H1 : med 6= 12.
Emlékeztetőül az adatok (nap):
8 10 10 10 11 11 11 12 12 12 13 14 14 14 15 16 19 24 24 30 35 85 103 111
data: 14 and 21
number of successes = 14, number of trials = 21, p-value = 0.1892
7.5. Mediánokra vonatkozó próbák 229
8 9 9 10 10 11 11 11 12 12 12 13 13 14 14 18 29 38
A közös medián 12.5. Az első mintában a közös medián alatti értékek száma 11, a
nagyobbaké 7. A második mintában a közös medián alatt van 10 érték, felette 14.
Tehát a 2 × 2-es táblázat, amire a Fisher-féle egzakt próbát alkalmaznunk kell:
Közös medián
alatt felett
Első ménes 11 7
Második ménes 10 14
A megoldás R-rel:
> (x = matrix(c(11, 10, 7, 14), nrow = 2))
[,1] [,2]
[1,] 11 7
[2,] 10 14
> fisher.test(x)
data: x
p-value = 0.3499
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.5370638 9.2357994
sample estimates:
odds ratio
2.158107
A p-érték szerint a különbség a két ménes között e tekintetben nem szignifikáns. Most
is érvényes az a megjegyezés, hogy a sok ismétlődő érték megkérdőjelezi az eloszlás
folytonos voltát.
7.6. Rangpróbák 231
7.6. Rangpróbák
A következőkben ismertetett próbák olyan nemparaméteres (eloszlásfügget-
len) próbák (vö. 6.3.4. fejezet), amelyek eloszlásfüggetlenségét úgy érjük el,
hogy a próbastatisztikát nem a megfigyelt értékekből, hanem azok rangszá-
maiból számoljuk. Egy megfigyelt érték rangszáma a sorszáma az értékek
nagyság szerinti rendezésében: a legkisebbé 1, a második legkisebbé 2 stb.
(bővebben lásd a 44. oldalon).
Felhívjuk a figyelmet arra, hogy míg az előző pontbeli mediánpróbák
minden folytonos eloszlásra működnek, a rangpróbák ennél erősebb feltéte-
leket igényelnek. A feltételek ellenőrzésére nincsenek egzakt módszerek, csak
grafikonok alapján lehet megítélni, vagy azt lehet végiggondolni, vajon az
elméletből következik-e, hogy teljesülniük kell. A lényeg az, hogy ne bízzunk
vakon az eredményben, ha kétséges a feltételek teljesülése. Ha bizonytalanok
vagyunk, kérdezzünk meg egy statisztikust!
E próbák nullhipotézisét gyakran fogalmazzák meg mediánokkal, bár
több tesztnél ez nem lenne muszáj, mert az alkalmazhatósági feltételek telje-
sülése esetén az átlagok között is ugyanaz a viszony, mint a mediánok között
(vö. 188. oldal). (Ugyanezzel az erővel a t-próbák hipotéziseit is megfogal-
mazhatnánk mediánnal, hiszen normális eloszlású adatokra is egybeesik a
medián és az átlag.)
Összegek 1.4 3.3 5.0 5.0 6.2 7.5 10.1 10.5 13.0 18.1
Eltérések -7.6 -5.7 -4.0 -4.0 -2.8 -1.5 1.1 1.5 4.0 9.1
Rangok 9 8 6* 6* 4 2.5§ 1 2.5§ 6 * 10
* § Egyenlőség esetén mindegyik érték az összesen rájuk jutó rangok átlagát kapja
(kapcsolt rangok).
A pozitív eltérésekhez tartozó rangok összege 19.5. (Vegyük észre, hogy a pozitív és
negatív eltérésekhez tartozó rangösszegek együtt éppen 1 + 2 + ... + n = n(n + 1)/2-t
kell hogy kiadjanak, ahol n a mintaelemszám: jelen esetben 19.5 + 35.5 = 55!)
Ha papíron számolunk, akkor a kapcsolt rangok miatt a normális közelítést
p kell alkalmaz-
nunk, vagyis a 19.5-öt a µ = 10·11/4 = 27.5 várható értékű és σ = 10 · 11 · 21/24 =
9.81 szórású normális eloszláshoz kell hasonlítanunk. Egyoldali ellenhipotézisünk van, és
a statisztika az ellenhipotézis irányába mutat, tehát a döntéshez a statisztikát a nullel-
oszláshoz kell viszonyítanunk. A p-érték meghatározásához a standard normális eloszlás
7.6. Rangpróbák 233
data: x
V = 19.5, p-value = 0.2216
alternative hypothesis: true location is less than 9
data: x
V = 19.5, p-value = 0.2067
alternative hypothesis: true location is less than 9
Láttuk, hogy a kapcsolt rangok miatt mindkét változat a normális közelítéssel dolgozott.
Az egzakt számítás a wilcoxsign_test() függvénnyel:
> x = c(1.4 , 3.3 , 5.0 , 5.0 , 6.2 , 7.5 , 10.1 , 10.5 , 13.0 , 18.1)
> library(coin)
> # ismételjük a hipotetikus értéket annyiszor, ahány elemű a minta
> mu = rep(9, length(x))
> wilcoxsign_test(x ~ mu, alternative="less", distribution="exact")
data: y by
x (neg, pos)
stratified by block
Z = -0.8181, p-value = 0.2227
alternative hypothesis: true mu is less than 0
234 Reiczigel – Harnos – Solymosi: Biostatisztika
Megjegyzések:
1. Eredetileg ezt a próbát is a med = 0 hipotézis tesztelésére találták ki.
2. Ugyanúgy mint az előjelpróbánál, az esetleges 0 eltéréseket nem számol-
juk sem a pozitívokhoz, sem a negatívokhoz, hanem elhagyjuk, ezzel a
mintaelemszámot is csökkentve.
3. Ha a kapcsolt rangok gyakoriak, a normális közelítést is korrigálni kell.
4. A próba párosított minták vizsgálatára is használható. (Ez lényegében
minden egymintás próbára igaz, vö. t-próba, előjelpróba.) Ekkor a kü-
lönbségeknek kell folytonos és szimmetrikus eloszlást követniük, és a hi-
potézisek is a különbség mediánjára vonatkoznak.
Zajos 0.24 0.36 0.20 0.30 0.40 0.34 0.20 0.44 0.38 0.47
Csendes 0.24 0.11 0.27 0.36 0.19 0.14 0.25 0.37 0.08 0.10
Különbség 0 0.25 -0.07 -0.06 0.21 0.20 -0.05 0.07 0.30 0.37
Kül. rangja - 7 3.5 2 6 5 1 3.5 8 9
> library(coin)
> wilcoxsign_test(zajos~csendes, alternative = "greater",
+ distribution = "exact")
data: y by
x (neg, pos)
stratified by block
Z = 1.7873, p-value = 0.03906
alternative hypothesis: true mu is greater than 0
Az eredmények a kerekítési hibák miatt némileg eltérnek a fentiektől (papíron csak két
tizedessel számoltunk).
Kezelt 9.1 9.3 9.5 9.8 10.3 10.6 11.0 11.0 11.5 11.9
Kontroll 8.1 8.2 8.4 8.8 9.2 9.4 9.5 9.8 10.3
> kezelt = c(9.1, 10.3, 11, 11.5, 11.9, 9.5, 10.6, 9.3, 11, 9.8)
> kontroll = c(8.1, 8.4, 9.2, 9.4, 8.8, 9.8, 8.2, 10.3, 9.5)
> wilcox.test(kezelt, kontroll, alternative = "greater",
+ correct = F)
> kezelt = c(9.1, 10.3, 11.0, 11.5, 11.9, 9.5, 10.6, 9.3, 11.0, 9.8)
> kontroll = c(8.1, 8.4, 9.2, 9.4, 8.8, 9.8, 8.2, 10.3, 9.5)
> mind = c(kezelt, kontroll)
> csoport = factor(rep(c(1,2), c(10,9)))
> library(coin)
> wilcox_test(mind ~ csoport,alternative="greater", distribution="exact")
D ● ● ● ● ●
C ● ● ● ● ●
Terület
B ● ● ● ● ●
A ●● ● ● ●
0 20 40 60 80
Pipacsok száma
7.8. ábra. Pipacsok száma a négy vizsgált területen lévő 5-5 kvadrátban. Az eloszlások
ferdesége miatt az összehasonlítást a Kruskal–Wallis-próbával végezzük
A B C D
37 (13.0) 36 (12.0) 17 (7.0) 44 (16.0)
14 (6.0) 18 (8.5) 0 (1.0) 62 (19.0)
8 (4.5) 28 (11.0) 3 (2.0) 81 (20.0)
18 (8.5) 51 (18.0) 41 (15.0) 48 (17.0)
7 (3.0) 22 (10.0) 8 (4.5) 39 (14.0)
Rangösszeg (35.0) (59.5) (29.5) (86.0)
A próbastatisztika:
A megoldás R-rel:
> megfigy = c(37, 14, 8, 18, 7, 36, 18, 28, 51,
+ 22, 17, 0, 3, 41, 8, 44, 62, 81, 48, 39)
> terulet = c(1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3,
+ 3, 3, 3, 3, 4, 4, 4, 4, 4)
> kruskal.test(megfigy, terulet)
243
244 Reiczigel – Harnos – Solymosi: Biostatisztika
8.1. ábra. Különböző típusú kapcsolatok két változó között: pozitív kapcsolat (a),
negatív kapcsolat (b), pozitív lineáris kapcsolat (c), negatív lineáris kapcsolat (d), nincs
kapcsolat (e), nem monoton kapcsolat (f). Az ábrákon minden pont egy megfigyelési
egységhez tartozik
[1] 0.4619028
246 Reiczigel – Harnos – Solymosi: Biostatisztika
[1] 0.6631585
[1] 0.5430071
8.2. Együtthatók monoton kapcsolatokra 249
• f : X → Y vagy Y = f (X)
Például: TESTTÖMEG = f (MAGASSÁG)
• f : X1 , X2 , . . . , Xr → Y vagy Y = f (X)
Például: TESTTÖMEG = f (MAGASSÁG, SZÜL.TÖMEG)
251
252 Reiczigel – Harnos – Solymosi: Biostatisztika
●
● ●
Y = β0 + β1X β1
●
valódi ●
1
Y b1
●
● 1
● ●
●
● ●
y^ = b 0 + b 1x
●
● ●
●
●
becsült
● ●●
Y = β0 + β1 X + ε,
mért
yi ●
● ●
ei=reziduum
●
●
Y becsült
●
y^i ● ●
● ●
●
● ●
●
● ●
●
●
● ●●
xi
X
9.2. ábra. Az ábrán a függőleges szakasz mutatja egy pont esetén a reziduumot.
Olyan egyenest keres a „legkisebb négyzetek” módszere, amely esetén ezen reziduumok
négyzetösszege minimális
Call:
lm(formula = TOMEG ~ SZULTOMEG, data = regr.kurz)
Coefficients:
(Intercept) SZULTOMEG
33.099147 0.009146
9.4.1. Hipotézisvizsgálatok
Amikor regressziószámítást végzünk, fontos kérdés az, hogy valóban függ-e
az Y az X-től (értsd: nemcsak a vizsgált mintában, hanem a populációban).
Az eddigiek során csupán az egyenes illesztését végeztük el, de nem foglal-
koztunk azzal, hogy valóban igazolható-e az X és az Y között az összefüggés.
Erre vonatkozóan kétféle vizsgálatot is szoktak végezni:
258 Reiczigel – Harnos – Solymosi: Biostatisztika
Nullhipotézis: H0 : β1 = 0.
Ellenhipotézis: H1 : β1 6= 0.
A H0 : β1 = 0 hipotézis azt jelenti, hogy az egyenes meredeksége nulla
(vízszintes), azaz Y nem függ X-től a modellben. (A szokásos szóhasználat
az, hogy „a regresszió szignifikáns” = függ, a „regresszió nem szignifikáns”
= a függést az adatok nem bizonyítják.)
Feltétel: Szükséges, hogy a hibatag (ε) független (mind egymástól, mind
az X-ektől) és normális eloszlású legyen konstans szórással (azaz az Y szó-
rása minden X esetén ugyanakkora). A normalitási feltétel csak kis minták
esetén (n < 30) szükséges, mivel a t-próba nagy mintákra közelítőleg akkor
is érvényes, ha az eloszlás nem normális.
R-függvény: summary().
Statisztika:
b1
t= .
SE(b1 )
Nulleloszlás: Student-féle t-eloszlás (n − 2) szabadsági fokkal.
yi ●
e i = y i − y^i
yi − y
y^i ●
y
xi
x
9.3. ábra. A négyzetösszeg-felbontás, amire az F -próba épül: az ȳ-tól való teljes elté-
rést (yi − ȳ) felbontjuk az egyenestől való eltérésre (yi − ŷ), és az egyenesnek az ȳ-tól
való eltérésére (ŷi − ȳ). ȳ az yi -k átlagát jelenti
Call:
lm(formula = TOMEG ~ SZULTOMEG, data = regr.kurz)
Residuals:
Min 1Q Median 3Q Max
-14.0247 -7.1101 -0.7684 6.9753 18.4024
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 33.099147 14.380794 2.302 0.0328 *
SZULTOMEG 0.009146 0.004029 2.270 0.0350 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
[1] 69.68304
B) Konfidencia-intervallumok
> confint(regmod1)
2.5 % 97.5 %
(Intercept) 2.9997990989 63.19849439
SZULTOMEG 0.0007132789 0.01757867
C) Predikciós intervallum
értéket), hanem egy egyedi megfigyelést becslünk, azaz egy olyan inter-
vallumot keresünk, amely az új megfigyelést adott valószínűséggel
(általában 95%) tartalmazza.
Egy-egy X értékre a predict() függvénnyel tudunk mind az egyenes-
re, mind az egyedi Y értékekre vonatkozó konfidencia-, illetve predikciós
intervallumot számíttatni az R-rel.
A függvénynek argumentumként meg kell adni, hogy konfidencia- vagy
predikciós intervallumot kérünk:
> x = data.frame(SZULTOMEG = 4000)
> predict(regmod1, newdata = x, int = "confidence")
100
●
90 ●
Testtömeg (kg)
●
80 ● ● ●
●
konfidencia−
predikciós intervallum ●
70 ● ●
intervallum
● ● ● ●
● ●
60 ●
● ● ●
●
● ●●
50 ●
40
Y = β1 X + ε.
Call:
lm(formula = TOMEG ~ SZULTOMEG - 1, data = regr.kurz)
Coefficients:
SZULTOMEG
0.01832
> summary(regorigo)$r.squared
[1] 0.9746248
9.6.1. MA-regresszió
Az MA-módszert akkor alkalmazzuk, ha jó okunk van feltételezni, hogy
az X-et és az Y -t egyforma pontatlansággal tudjuk mérni (például mind-
kettőt ugyanazon a skálán mérték, vagy mindkettő dimenzió nélküli). A
módszer a pontoknak az illesztendő egyenestől való merőleges távolságai-
nak négyzetösszegét minimalizálja (9.5. ábra). Az egyenes meredekségét az
OLS-becslésből kapott meredekség (b1 ) és korrelációs együttható (r) segít-
ségével lehet meghatározni:
√
d ± d2 + 4 b2 − r2
b1(M A) = , d= 12 .
2 r b1
9.6.2. SMA-regresszió
Ez a regressziós módszer a 9.5. ábrán látható szürkével jelölt háromszögek
területének négyzetösszegét minimalizálja. Feltételezi, hogy az X mérési
hibájának szórása arányos az X szórásával, az Y mérési hibájának szórása
pedig az Y szórásával, azaz a standardizált változók mérési hibáinak szórása
266 Reiczigel – Harnos – Solymosi: Biostatisztika
SMA MA
OLS
X
9.5. ábra. Az OLS-, MA- és SMA-regressziók becslési módszereinek bemutatása. OLS-
regresszió esetén a megfigyelések függőleges irányú, MA-regresszió esetén az egyenesre
merőleges irányú távolságainak (pontosabban a négyzetösszegének), SMA-regresszió
esetén pedig a szürke háromszögek területének minimalizálásával történik a becslés. A
háromszög oldalai párhuzamosak a koordináta-tengelyekkel
115 ●
● ●●●
● ●
Jobb szárnyhossz (mm)
● ● ● ●● ●● ●
● ●● ● ● ●
110 ● ●●● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ●●● ●
● ● ●● ● ●● ● ● ●●● ● ●
● ● ● ●●●● ●● ●● ● ●
●● ●● ● ●●● ●● ● ●
105 ● ● ● ● ● ●
● ● ●
●● ● ●
● ● OLS
● ● ● MA
100
SMA
●
27 28 29 30 31
9.6. ábra. Széki lilék jobb szárny- és csüdhossz adataira különböző módszerekkel il-
lesztett egyenesek
● ● 90
● ●
● ● ● ●
80
● ●
● ●
TOMEG ●
● ●
●
70
● ● ● ●
● ●
● ● ● ●
● ●
60
● ● ● ●
● ●
● ●
●● ● ● ●●
190 ●
●
●
●
185
● ● ●●
180 ● ●
175
●
●
●● ●
MAGASSAG ●
● ● ● ●
● ●
170 ● ● ● ●
● ● ● ●
● ●
● ●
165
● ● ●●
● ●
160 ● ●
● ●
4500
● ●
● ●
●
●
● ● ●
●
4000
● ● ●
●
● ●
● ● ● ● ● ●
SZULTOMEG
● ●
● ●
3500
● ●
● ●
●
●
● ● ●
●
3000
● ●
● ●
2500
Y = b0 + b1 X1 + b2 X2 + b3 X3 + . . . + br Xr + e,
●
●
90 ●
● ●
●
80 ●
●
●
70 ●
● ● 4500
●
● ●
●
4000
60 ●
3500
●
3000
●
50 2500
160 165 170 175 180 185 190
Magasság (cm)
Call:
lm(formula = TOMEG ~ MAGASSAG + SZULTOMEG, data = regr.kurz)
Coefficients:
(Intercept) MAGASSAG SZULTOMEG
-117.33228 0.91163 0.00733
9.7.1. Hipotézisvizsgálatok
A hipotézisvizsgálatok lényegében ugyanazok itt is, mint egy magyarázó
változó esetén. A t-próbákkal minden együtthatót külön-külön tesztelünk,
az F -próbával pedig a modell egészét vizsgáljuk. Emlékezzünk vissza, hogy
egy magyarázó változó esetén ez a két próba ekvivalens volt (258. oldal)!
272 Reiczigel – Harnos – Solymosi: Biostatisztika
A) Az együtthatók tesztelése
R(Y, X1 , X2 , . . . , Xr ) = R(Y, Ŷ ),
Call:
lm(formula = TOMEG ~ MAGASSAG + SZULTOMEG, data = regr.kurz)
Residuals:
Min 1Q Median 3Q Max
-10.06030 -3.01522 -0.05221 3.32522 13.03810
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.173e+02 2.851e+01 -4.116 0.000649 ***
MAGASSAG 9.116e-01 1.640e-01 5.559 2.82e-05 ***
SZULTOMEG 7.329e-03 2.533e-03 2.894 0.009668 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
10 20 60 70 80 90
● ● ● ●
●● ● ● ●● ●
●
35
● ● ● ●
●
●
●●●●●
● ● ●●●●●
●
●
●●● ●
● ●
● ●
●
●●
● ●
●● ●●
●
●● ● ●●● ●
30
●●
●●● ● ● ●●●● ●● ● ● ●●● ● ●●
● ●●● ●●
●● ●●●●●● ●● ●● ●●
● ● ●●
●●●●●● ● ● ●
● ● ●● ●
TOMEG ●
●●
●●
●
●
●●
●
●●●●
●●
●
●
●
●●●
● ● ●●
● ●●
●●●●●●●●
●●●●
●
●●
● ●●
●● ●●
●●● ●● ● ●
●
●●
●
●
●
●●
●● ●●
●●
●●
●●
●
●
●
●●
●● ● ● ● ●
●
●
●●●
●●●
●●●●●
● ●
●●●
● ● ●● 25
●●●●
●● ● ●●●● ●●●●●●● ● ● ●
●●● ●●
●●
●●
●● ●●●●
●● ●●● ●
●●●●
●●●●●
●
● ●●● ● ●●●●● ● ●
●●● ●
●●
●●● ●
●●
●●●●● ●
●●●●
●
●
●●
●●
●
●●● ●
●
●●
● ●●● ●●
● ●
● ●● ●
● ●● ● ●
●
●● ● ● ●
●
●
●●●●
●
●
● ●●
●
●
●
●● ● ●●●
●
20
●● ● ● ●● ●●
15
● ● ● ● 10
● ● ● ●
25 ● ●●
● ● ●● ● ●● ● ● ●●
●●
●● ●● ● ●● ● ● ●● ●● ●
● ●● ● ● ● ● ●
●● ●● ●●
● ●●
20 ●
●
●●
●
●●●
●
●
●●●●
●●● ● ●●
●●●●●
●●●●●
●●
●
●
●●
● ●●● ● ●
●●●●●
● ●●
●
●●●●
●● ●
●
●●
●●● ●
●
●●
●
●
●●
●
●
●●●
●●
●
●
●●●●
●●
●●●
●●●●●
●
●●
●●●
●●●●
●● ●
ZSIGTOMEG ●● ● ●
● ●● ●● ●●
●●
●
●●● ●●●
●● ●
●
● ●●
● ●●
●●● ● ●●●●
●●●
●●●●●
●●
●●
●
●
●●
●
●●
●
●●
●
●●
●● ●
● ●
●●
●
●
●
●
●
●●
●
●●
●●
●●
●●●●
●●
●●
●
● ●●
● ●
15 ●●
●●●
●●
●
●
●●● ●●
●●
●
●●●
●
● ●
●●
●
● ●●● ●
●●● ● ●●● ● ●
●
● ●
●
●
●●
●●●
●● ● ●
● ●
●●● ● ●●
●
●
●
●
● ●●
●
●
●●● ●
●
● ● ●
●●● ●
●
●
●●● ●●● ● ●●● ● ● ●
10
● ● ● ●
● ● ● ●
130
●● ● ● ● ● ● ● ● ●●● ● ●● ●●
●●●●● ●●●● ● ● ●●●
●● ●●●●●●● ●●● ●●●● ●● ● ●●●●●
● ● ● ●●
●● ● ●●
●●●
●●●●
● ●●
● ●
● ●●
● ●●
●●●●
●
●●●●●●●●●
●● ● ●
●●
● ●● ●● ●
● ● ● ●●
● ● ●●
●
●
● ●●
●
● ●● ● ● ● ●
●●
● ●●●● ●●
●●●●
●
●●● ● 120
● ● ●●●●●
●●●● ●● ●
●● ●● ● ●
●
● ●● ●
●● ● ●
●● ●●● ● ●●
●
●●●●●●●●● ●
●
● ●● ●●● ●
●● ●●●●
●●●●
●●●● ●
● ●●●
● ●● ●
● ●●● ●●
●●●●
●● ●
●●●●●
●●
●
●
●●
●
●
●
●
●
●
●●
●●●●
●
●
●
●●●●●● ●
●
● ●● ● TESTH ●●●●
● ● ● ●●
●●
●●●
●
●●
●
● ●
●
●
● ●
●●
●
●●●●● 110
● ● ●
●●●●
●
●● ●● ● ●●
● ● ●● ● ●
●● ●●● ● ● ●● ●● ● ●●●
●
●●●● ●●
●
● ● ●
●●●
● ● ● ●●
● ● ● ●●
● 100
90
● ● ● ●
80
● ● ● ●
90
● ● ● ●
85 ● ● ●●●●●
●●
●●●
●
●
●
●●●●● ●
●●●
● ●●
● ●
●●●●● ●● ●
● ●
● ● ● ●●● ●
●●
●
●
● ●● ●●● ● ● ●●● ● ● ●● ●●●● ● ●●● ●
●●
80 ●●
● ●●●●●
●●●●
●●● ●
● ●●
● ●●
●●●●●●
●●● ●
●●
●●●●●●●●
●●●● ●●
●●
●●●●●
●●●
●●
●●●●●●
●
● ● ●●●●
● ●●
●
●●
●
●
●
●
●●
●
●●
●
●
●●
● ●
●● ●●
●
●● ● ● ● ●
●●● ●
● ●
●●
●
●
●●
●
● ●●
●●●
●●●
●●
●● ●
●●● ●●● ●●●●● ●●● ● ● ●●● ●●●
75 ●● ●●●●●
●
●●
●● ●●●●●
●●● ●●●●●
●
●
●
●● ● ●●●●
●●
●●●●
●●●
●●●●●
●
●●●●
●●
● ● ● ●●●●●
●● ●●●
● ●●● ● ●
● ● ●●●
●●●
●●●
●●
MARMAG ●
●
●●●
●
●
●
●
●●
● ●
●● ●
●
●● ● ● ● ●●
●
●● ●
● ●
●
●
● ●● ● ● ●● ●
● ● ● ● ● ● ●● ● ●●●
70 ●
●
● ●
●
●
●
65 ● ● ● ●
60 ● ● ● ●
● ● ● ●
80
● ● ● ●
●●
●●● ●
●●●●●● ●●●
● ●
● ● ●●
●●
●● ●
● ● ● ●●●●●
●●●●● ●
●
● ● ●
●●
● ●
●●●
●
75
● ● ●● ●●●
●●● ●● ●●
●● ●●● ●● ●● ● ●●
● ●
● ●●●●●
●●●
●●●●●●
●
● ●
●●● ●
●●●●● ●●●
●
●
●●
●
● ●● ●●
● ●●●●●● ●●● ●●●
●
●●●●●●
● ●●●
●●●●● ●●●● 70
●●●●●●●●●
● ●●● ●●●●●
●●
●● ●● ● ●●● ●● ●●●●●●●
●●●
●●● ●
● ●● ●●
●●
● ●●●●
●●
●●
● ● ●●● ● ●
●● ● ●●● ●●●●●
●●
● ● ● ●● ●● ●
●
●●
●● ●
●●●●● ●
●● ●● ● 65
●
●●●
●●
●●
● ●
●●●
● ●●●
●
● ●
●●●
●●
●●● ●●
●●●
●
●●
●●
●●●
●
●●
●●●● ●
●
●●
●●●
● ● ● ●● ●
●
●●
●●
● ●● ●
● ●● ●
●●●● ●● ● ●● ● ●●●●
●●
● ●●
●● ●
●
●
●●
●
●●
●
●
●●
●●● ● OVMERET 60
● ● ● ●
55
50
● ● ● ● 45
10 20 30 80 100 120 45 55 65 75
9.9. ábra. Szórásdiagram mátrix az őzek teljes tömeg, zsigerelt tömeg, testhossz mar-
magasság és övméret (a pocak körkörös mérete) adataira. Például a 4. sor 2. szórásdi-
agramja a zsigerelt tömeg és a marmagasság kapcsolatát ábrázolja
9.9. Multikollinearitás
Multikollinearitást (vagy egyszerűen kollinearitást) figyelhetünk
meg, ha a magyarázó változók erősen korreláltak. Ez akkor is előfor-
dulhat, ha a páronkénti korrelációk kicsik, ezért a többszörös korrelációkat
kell vizsgálnunk. Ez kizárólag a magyarázó változók tulajdonsága, semmi
köze a függő változóhoz!
Ha nem valószínűségi változókról van szó, akkor a multikollinearitás azt jelenti, hogy
a magyarázó változók lineáris algebrai értelemben nem függetlenek (ld. 11.6. fejezet).
9.9. Multikollinearitás 277
Kollinearitás esetén
• a magyarázó változók hatását a függő változóra nem lehet szétválasz-
tani;
• a magyarázó változók átvehetik egymás szerepét a regresszióban;
• következésképp a regressziós együtthatók becslésekor növekszik a bi-
zonytalanság: magas SE értékek jelentkeznek, az együtthatók nem-
szignifikánssá válhatnak;
• sőt, lehet hogy a számításokat el sem lehet végezni, hibaüzenetettel
leáll a program.
Vannak olyan mérőszámok, amikkel ki lehet szűrni az érintett változókat
(persze a szórásdiagramokról sem szabad megfeledkezni, hiszen lehet, hogy
már azokból is kiderül, ha gond van):
• a négyzetes többszörös korreláció az i-ik magyarázó változó és a
többi magyarázó változó között: Ri2 (1-hez közeli érték kollinearitást
jelez);
• a tolerancia (tolerance): 1 − Ri2 (0-hoz közeli érték kollinearitást je-
lez);
• és a variancia infláció faktor (VIF) (variance inflation factor):
1/(1 − Ri2 ) (nagy értékek kollinearitást jeleznek).
Ha kiderül, hogy kollinearitási problémával állunk szemben, akkor két
dolgot tehetünk:
1. az érintett változók közül megpróbáljuk kihagyni azokat, amelyek nél-
kül még interpretálhatóak az eredmények, és figyeljük, hogy ez
mekkora romlást okoz a magyarázó erőt tekintve (ld. 11.7.
fejezet);
2. származtatott változókkal dolgozunk tovább (például főkomponens-
elemzésből).
...
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 28.44238 7.59267 3.746 0.000307 ***
TOMEG 0.61136 0.25138 2.432 0.016870 *
ZSIGTOMEG 0.20648 0.32927 0.627 0.532089
TESTH -0.02619 0.06447 -0.406 0.685495
MARMAG 0.29251 0.12015 2.434 0.016761 *
---
Residual standard error: 3.257 on 96 degrees of freedom
(8 observations deleted due to missingness)
Multiple R-Squared: 0.5962, Adjusted R-squared: 0.5793
F-statistic: 35.43 on 4 and 96 DF, p-value: < 2.2e-16
A zsigerelt tömeg erősen korrelál az övmérettel, hatása mégsem bizonyult szignifikáns-
nak.
Nézzük meg a VIF értékeket erre a modellre!
> library(car)
> vif(regmod3)
TOMEG ZSIGTOMEG TESTH MARMAG
9.149675 9.576262 2.430026 2.563879
A zsigerelt tömeg és a teljes tömeg VIF értéke közel 10 lett, ami kollinearitási problémára
utal. Ha kihagyjuk a teljes tömeget a regressziós modellből, és újra kiszámítjuk a VIF
értékeket:
> regmod4 = lm(OVMERET ~ ZSIGTOMEG + TESTH + MARMAG,
+ data = oz)
> summary(regmod4)
...
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 27.091394 7.761782 3.490 0.000727 ***
ZSIGTOMEG 0.875762 0.185302 4.726 7.74e-06 ***
TESTH 0.004232 0.064825 0.065 0.948079
MARMAG 0.302114 0.123093 2.454 0.015896 *
---
Residual standard error: 3.338 on 97 degrees of freedom
(8 observations deleted due to missingness)
Multiple R-Squared: 0.5713, Adjusted R-squared: 0.558
F-statistic: 43.09 on 3 and 97 DF, p-value: < 2.2e-16
> vif(regmod4)
ZSIGTOMEG TESTH MARMAG
2.886672 2.338550 2.561110
Láthatjuk, hogy a korrigált R2 értéke minimálisan lett csak kisebb, és a kollinearitási
probléma is megszűnt.
9.10. Regressziós diagnosztika 279
(a) (b)
7 ● ● ●
1.0
●
6 ● ●
Reziduum
● 0.5
5 ●
y
0.0
● ● ●
4 ● ● ●
−0.5
●
3 ● ● ● ●
2 4 6 8 10 2 4 6 8 10
x Sorszám
(a) (b)
● ●
●
20 2
●
●
1
Reziduum
● ●
●
15
0 ●
y
●
10 ● −1 ●
● ●
5 ●
● −2
● ●
● ●
−3
2 4 6 8 10 2 4 6 8 10
x x
9.11. ábra. Nem véletlenszerű reziduumok (patkó alakzat): az illesztett egyenes (a) és
a reziduumok (b)
(a) (b)
30 ● ●
● 5 ● ●
25
●
Reziduum
20 ●
●
0 ● ●
y
15 ●
●
●
10 ● ● ●
−5
5
● ●
● ●
2 4 6 8 10 2 4 6 8 10
x Sorszám
> x = c(1:10); y = c(2, 3, 10, 10, 13, 20, 10, 27, 15, 30)
> WLSmod = lm(y ~ x, weights = 1/x^2)
> summary(WLSmod)
...
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.8275 0.9529 -0.868 0.410
x 2.7161 0.3751 7.240 8.89e-05 ***
---
(a) (b)
Standardized residuals
Standardized residuals
● 7
9● 1.5 ● 13
1.2 ●8 ● 1 18 ●
● ●
●
1.0 ●
●
1.0 ● ●
0.8 ● ● ● ●
●
● ● ●
0.6 ●
●
0.4 0.5 ● ●
● ●
●
●
0.2 ●
●
0.0 0.0
5 10 15 20 25 50 60 70 80
> plot(OLSmod, 3)
> plot(regmod2, 3)
(a) (b)
● ●
5
Sample Quantiles
Sample Quantiles
● ● 10
● ●
●
5
● ●●●
0 ● ● ●●
●●
● 0 ●●
●●
●●
−5 −5 ●●
●
●
● ● −10 ●
C) Függetlenség
(a)
8
● ●
6 ● ●
●
kiugró érték nélkül
4 ●
y
kiugró értékkel
2 ● ●
● kiugró érték
0 ●
2 4 6 8 10
(b)
8
kiugró érték nélkül ● ●
6 ● ●
●
●
4 ●
y
kiugró értékkel
2 ● ●
●
kiugró érték
0 ●
2 4 6 8 10
9.15. ábra. Illesztés kiugró értékkel és nélküle. Az (a) ábrán a kiugró pont nem nagyon,
a (b)-n viszont jelentősen befolyásolja az illesztést
9.10. Regressziós diagnosztika 285
B) Hatóerő
C) Torzító pontok
(a) (b)
20 20 ●
hatóerő hatóerő
15 15
10 ● 10
y
y
● ● ● ●
● ● ● ●
5 ● ● 5 ● ●
● ●
● ● x ● ● x
0 ● 0 ●
0 5 10 15 0 5 10 15
x x
9.16. ábra. Nagy hatóerejű pont lehet, hogy nem torzító (a) és lehet, hogy torzító (b)
20
15 2 ●
1 ●
10
X2
●
● ●
●
5 ●
●
● ●
3
0 ●
0 5 10 15
X1
9.17. ábra. Nagy hatóerejű pontok két magyarázó változó esetén. Nyíllal jelöltük a
ponthalmaz középpontját
e(−i) = yi − ŷ(−i) ,
ahol ŷ(−i) az i-edik pont kihagyása után az i-edik pontbeli számított érték.
A standardizálás ugyanúgy történik, mint a közönséges reziduumok esetén:
(stand) e(−i)
e(−i) = .
SE(e(−i) )
11
Ezek szerint a 11. pont kiugró. A which() függvénnyel egy vektorban megkereshetjük az
adott feltételt teljesítő elemeket, az abs() az abszolútérték függvény, és a studres()
függvény számítja ki a modellobjektummal meghívva a studentizált reziduumokat. A
qt()-vel a t-eloszlás kritikus értékeit (kvantiliseit) kaphatjuk meg adott valószínűség és
szabadsági fok esetén. A szabadsági fok (n − r − 2) itt 8, mivel a mintaelemszám 11,
és a magyarázó változók száma 1.
(a) (b)
1 1
● ● ● ●
● ● ● ● ● ● ●
0 ● ● ● 0 ● ●
●
●
−1 −1
DFFIT
DFFIT
●
−2 −2
−3 −3
−4 −4 ●
2 4 6 8 10 2 4 6 8 10
Index Index
9.18. ábra. A 9.15. (a) és (b) ábrák adatai esetén a DFFIT értékek. Az (a) ábrán nincs
torzító pontra utaló jel, a (b) ábrán viszont az utolsó ponthoz tartozó −4 körüli érték
torzításra utal
Másik ilyen érték a DFFIT, ami azt méri, hogyha kihagyunk egy megfi-
gyelést az elemzésből, akkor mennyit változik a pont becsült értéke. R-ben
a dffits() függvénnyel lehet kiszámoltatni. Célszerű rögtön kirajzoltatni a
DFFITS értékeket a plot(dffits()) kóddal, a modellobjektummal meg-
hívva, a jobb áttekinthetőség kedvéért (9.18. ábra). Ezt a módszert a többi
statisztika esetén is alkalmazhatjuk.
Ez is egy standardizált statisztika, így a standard normális eloszlásnál
általában használt kritikus értékeket vehetjük alapul a torzító pontok meg-
határozására (általában a ±3 tartományon kívül esők), ha elég sok megfi-
gyelésünk van (> 30). Kevesebb megfigyelés esetén a Student-féle t-eloszlás
kritikus értékei
p mérvadóak. Gyanúsak azok a pontok, melyekre a statisztika
értéke > 2 · p/(n − p).
Az R-ben még egy statisztikát számoltathatunk a torzítás vizsgálatára,
ez a COVRATIO-nak nevezett mennyiség. Ez közelítőleg a vizsgált pont-
tal, illetve a nélkül illesztett regressziós felület konfidencia-tartományai által
határolt több dimenziós térfogatok hányadosának négyzete (egy magyarázó
változó esetén az adattartományban a konfidencia-sávok területének hánya-
dosa a négyzeten.). A térfogat a pontosságot fejezi ki. Ha a COVRATIO
értéke 1 körül van, akkor a pontnak nincs nagy hatása. Akkor gyanús egy
pont, ha |COV RAT IOi − 1| ≥ 3p/n. R-ben a covratio() függvénnyel
számíthatjuk.
A torzító pontok detektálására szolgáló mennyiségeket – dfb (DFBeta),
dffit (DFFIT), cov.r (COVRATIO), cook.d (Cook-féle távolság), hat
(hatóerő) – együtt az influence.measures() függvénnyel írathatjuk ki. Az
9.10. Regressziós diagnosztika 291
(a) (b)
1
Standardized residuals
Standardized residuals
0.5
●5 ● ●8
0.5 1
1 ● ● ●
● ● ●
● ● 0 ●
0 ● ●
● ●
1● −1
−1 1 ● 0.5
0.5
−2 1
−2 1
Cook's
●6 distance Cook's distance 10 ●
−3
0.00 0.10 0.20 0.30 0.00 0.10 0.20 0.30
Leverage Leverage
9.19. ábra. A 9.15. (a) és (b) ábrák adatai esetén a standardizált reziduum-hatóerő
ábrák. Az (a) ábrán nincs torzító pontra utaló jel, a (b) ábrán viszont a 10-es pont
egyértelműen torzító. Figyeljük meg, hogy minél nagyobb a hatóerő, annál kisebb stan-
dardizált reziduum érték elég ahhoz, hogy egy pont torzítónak bizonyuljon!
output utolsó oszlopában (inf) lévő *-ok azokat az eseteket jelölik, amelyek
valamelyik mérték szerint problémásak.
Influence measures of
lm(formula = y ~ x) :
Az R-ben még egy nagyon hasznos ábrát lehet torzító pontok detektá-
lására készíteni, ez a standardizált reziduum-hatóerő ábra (9.19.). A
0.5-es és 1-es Cook-féle D értéknek megfelelő határokat szaggatott (a kép-
ernyőn piros) vonalak jelzik. Eszerint, azok a pontok problémásak, amelyek
292 Reiczigel – Harnos – Solymosi: Biostatisztika
(a) (b)
15
13 13 ●
Standardized residuals
●
2
10
● ●
● ●
Residuals
5 ● ●
1
● ●
●
● ● ● ●
● ●
●
0 ●
● ●
●
●
● 0 ●
●
●
● ● ●
● ●
−5 ●
●
●
18 ●
−1 ● ●
−10 ●
1 ●
● 1 ● 18
50 60 70 80 −2 −1 0 1 2
(c) (d)
1.5 ● 13 1
Standardized residuals
13
Standardized residuals
●
● 1 18 ● 2
●
0.5
● ●
● ●
●
1.0 ●
1
● ● ● ●
● ● ● ●
●
● ● ●
●
●
0 ●
●
●
● ●
0.5 ●
●
● ●
●
●
−1 ● ●
2●
● ●
Cook's distance 18 ● 0.5
0.0 −2
ezen határokon kívül esnek (attól függően, hogy ki mennyire szigorú a tor-
zítást illetően).
90 ●
●
80 ● ●
● ●
Testtömeg (kg)
70 ● ●
● ●
●●
●
60 ●
● ● ● ●
●● ●
50
40
30
20
Magasság (cm)
(a) (b)
● ●
● ●● ● ● ●● ●●
● ● ● ●
● ● ● ●● ● ●●●● ●●●
●●●
● ● ● ●
●●● ●
●
●● ● ● ●● ●●
● ● ● ●
●● ● ●● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ●
● ●
● ● ● ● ● ● ●● ●
● ●● ●● ● ● ●● ● ●
● ●● ● ●
●
● ●
● ●●
● ●● ● ● ●●
● ●● ●
● ● ● ●
●● ● ● ● ● ●
● ●● ●● ● ● ● ● ●
● ●●
● ● ● ●
y
y
● ● ● ●
●● ●●
● ● ● ●
● ●
●
● ● ● ●
● ● ●
● ●
● ●● ● ● ●
●●
●● ●●
●●
● ●● ● ●
●
● ● ● ●
● ●
● ●
x log(x)
(c) (d)
● ●
●●●●
●
● ●●
● ●
● ●● ● ●
●
● ●
●●
●
● ●
● ●
●●
● ●
● ● ●● ●
● ● ●
●● ● ● ●
●● ●
●● ●●
log(y)
● ● ●●
● ●
● ●●
● ● ●
y
●
●● ●●
● ● ● ● ●
●
● ●● ● ● ●
● ● ●
● ●●● ●
● ●●●
●● ● ● ● ●●
●● ●
●● ● ●● ●
● ●● ●●●
● ●
● ● ●
●
● ●● ● ●
●● ● ●
● ● ●● ●● ● ●●
●
●●●● ● ●● ●●●
●
● ● ●
●
●
● ●●●
● ●● ●
●●●
●
● ● ●
●
●●● ●●●●● ●
● ● ● ● ●●
● ●
●● ● ● ●
x x
(e) (f)
● ●
●
● ●● ●●●
● ● ●●● ●●● ●
●
● ● ●
●●●
● ● ●
●
●● ● ●
● ●● ●
● ● ●● ● ●●
●● ●●
● ●● ● ● ●● ●
● ● ●●
● ●● ●● ● ●●
●●
log(y)
● ● ●● ● ●
●
●● ● ● ● ●● ●●
● ● ● ●
●
y
● ●
●● ● ● ● ●● ● ●
● ● ●
● ●
●
●● ●●● ●
● ● ●
●● ●●
●● ● ● ● ● ●
● ● ●
●● ● ●● ●● ●
●
●● ●● ●●
● ● ● ●
● ● ●
● ●
● ●● ● ● ● ●
●
● ● ● ●
● ●●●●●● ●
●
●●● ●
●●● ● ●● ● ●
●
● ●
●●
●● ● ●
x log(x)
log Y = β0 + β1 X + ε.
(a) (b)
80 ● 80 ●
● ●
60 60
Fajszám
Fajszám
● ●
● ●
40 40
● ●
● ●
20 ●
20 ●
● ●
0 ●
● 0 ●●
(a) (b)
● ●
●
● ●
100 ●
4.6 ●
● ● ●
● ●
●
90 ●
●
4.4 ●
● ●
log(tömeg)
Tömeg (g)
●
● ● ● ●
● ●
80 ●
●
●
●
●
●
●
● 4.2 ●
●
●
70 ●
●
●
● ●
●
●
●
60
●
●
●
4.0 ●
●
● ● ●
●
●
● ●
50 ●
●
●
●
●
3.8 ●
●
●
●
●
● ●
● ● ●
40 ●
●
●
●
●
3.6
●
●
●
●
0 2 4 6 8 10 0 2 4 6 8 10
nap tomeg id
1 0 37.0 1
2 1 40.5 1
3 2 43.0 1
4 3 48.7 1
5 4 57.6 1
> library(nlme)
> expreg.gls = gls(log(tomeg) ~ nap, data = csibe,
+ correlation = corAR1(form = ~nap | id))
> summary(expreg.gls)
Coefficients:
Value Std.Error t-value p-value
(Intercept) 3.601797 0.022594716 159.40883 0
nap 0.099800 0.003318106 30.07726 0
Correlation:
(Intr)
nap -0.734
Standardized residuals:
Min Q1 Med Q3 Max
-2.02800097 -0.50692209 0.07077833 0.52713054 1.64560339
Residuals:
Min 1Q Median 3Q Max
-0.102182 -0.021492 0.008774 0.025793 0.081480
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.593707 0.012692 283.15 <2e-16 ***
nap 0.100940 0.002145 47.05 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(a) (b)
● ●
● ● ● ●●
●●
●
●
●●●●●
●
●
log(teljes tömeg)
●● ● ●●●●●
●●
●
●●
●●
● ●●
●
●●●
● ●● ●●●●
●
●●
●●●
●●●
●
●●●
● ●●
●
● ●
●●●●●●
● ● ●●●●
●●
● ●
● ●
30 ●●●
●●●●●●
●●●● ●
●● ●
3.0 ●●●●●
●
●●●●
● ●
●
●
●
●
●
●●
●
●●
●●
●●
●
●●●
●
●
●
●
●
●
●
●●
●
●
● ●
●●●●●
●● ●●
●●●
●●
●●
●
●●●
●
●●● ●●●●●●●●●●
●
●● ●
● ●●
●●●● ●● ●●● ●
●●● ●
●●
●●
●●●
●● ● ●●● ● ●● ●
25 ●●
● ●●●●●●
●●●● ●
●●●
●●
●●●
●
●
●
●
●
● ●
●●●
●●●
●
● ●●
● ●●
●●●
●●
● 2.5 ● ●
●● ●
● ●
●●
●
● ●●●●●● ●
●●
●●●
●●●●●●● ● ●
●● ●●
●●● ●
●● ●
●●●
●●●●● ●●● ● ● ● ●●
20 ●
●●●
●●●
●●●
●
●●
●
●●
●●●●
●●●●
●
● ●
●●
●●●● ●
●● ●
●● ● ●●
●●● ●●
●●●
●●
●
● ●●
●
●
●●●●●●
●●
●
●●● 2.0 ●
●
●●●
●
15 ●●●●
●●●
●
●●●● ●
● ●
● ●
●● ●
●
●
●
● ● ● ●
● ●
● ●
●● 1.5 ● ●
10 ●
●
● ● ● ●●
●●
●● ● ●
●
●●
5 ●●●
●
●● 1.0 ●●
●
●● ●
● ●
A fejezet elején említett testtömeg és testhossz közti kapcsolaton túl még egy
példát megemlítünk hatványfüggvény-összefüggésre: tipikusan ilyen kapcso-
lat áll fenn járványos betegségek terjedésekor a kórokozók száma és a meg-
betegedések száma között.
Call:
lm(formula = log(TOMEG) ~ log(TESTH), data = oz)
Coefficients:
(Intercept) log(TESTH)
-10.945 2.979
A β1 együttható becslése majdnem 3 lett, ami összhangban van azzal, hogy a tömeg
arányos a hossz köbével.
302 Reiczigel – Harnos – Solymosi: Biostatisztika
30 ●
●
●
● ● ●
● ● ●
●
● ● ●
● ●
25 ● ●●
Teljes tömeg (kg)
● ● ● ● ●
●
●
● ●
●● ● ●
● ● ● ● ● ●
● ●
●
●
20 ●●
●
●● ●
●
● ●●
●
●
●
●
●
●
● ●
●● ● ●●
●
● ●
15 ●
●
●
●
●
●
● ●
●
●
●
●●
● ●
● ●
●
10 ●
●
●
● ●
●●
● ●
●● ● ●
●●
●
5 ● ●
●●
● ●
●
Testhossz (cm)
D) Polinomiális regresszió
(a) (b)
35 x2 = x 12 ●
6
● ●
30 5
25
x 2 = (x 1 − x 1)2
●
4
20
x2
x2
● 3
15 ● ●
10 ●
2
5 ● 1
● ● ●
0
1 2 3 4 5 6 1 2 3 4 5 6
x1 x1
p1 + p2
y = p 1 + p 2(1 − e −p 3x )
y
tg α = p 2p 3
α
p1
●
● ● ● ● ● ●
● ● ● ● ● ● ● ●
● ●
● ● ●
120 ●●●
●
●
●
●
●
● ● ●
● ●
●
● ●
● ● ● ● ● ●
●
●
●
●
●
● ●
● ●
● ● ● ● ● ● ● ● ●
● ●
●●
● ● ● ● ● ● ●
● ●●
● ● ● ● ● ● ● ● ●
Testhossz (cm)
● ● ● ● ● ● ● ● ● ●
●●●
● ●●
●● ● ●
●
●
● ●
● ●
● ●
● ●
●
● ● ● ●
●
●
●
●
●
● ●●● ● ● ● ● ● ● ●
● ●●●
●●●●
● ● ● ●
● ● ● ● ● ●
●●
●● ●●
●● ● ●
● ● ● ●
●●● ● ●
● ● ● ●
●● ●
● ●●● ●
● ● ●
● ●
●●● ● ● ● ●
100 ●●● ● ● ●
●
●● ●
● ● ●●
●● ●● ●
● ●●●
● ●
● ●●
●
●● ●●●
●● ● ●
●●
●
● ●
80 ●
●●
●
●●
●
●
●
●
●● ●
60 ●
●
●
0 2 4 6 8 10 12 14
A szórásdiagram:
> with(oz, plot(TESTH ~ KOR, pch = 20, ylab = "Testhossz (cm)",
+ xlab = "Becsült kor (év)"))
306 Reiczigel – Harnos – Solymosi: Biostatisztika
(a) (b)
20 ●●
●
Sample Quantiles
● ● ●
●●●
●
● ●
●
●●
●
●
Standardized residuals
● 10 ●
●●
●
●●
●
●●
●●
2 ● ● ●● ●●
●
●●
●
● ● ● ●●
●
● ●●
● ●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
● ● ●● ●●
● ●
●
●
● 0 ●
●●
●
●
●●
●
●
●●
●
●
●
● ● ● ●●●
●●●
●
●●
● ●
●●●●
●●
●
●
●
●
● ●●
●
●
●●
●
●●
●
●
●●
●
●
●●
● ● ● ●
● ●●
●●● ●
●
● ●
●●
●
●
●●
●
0 ● ● ● ● ● ●●●●
●● ●●
●●●●●
●
● ●
●
●●
●
●
●●
●
● ● ● ● ●
●
● ●●
● ● ●
●●● ●
●
●
●
●
−10 ●●
●
●
●
●
●
●
●
●●
●
●
● ●
● ● ●●
● ● ● ●
● ●
●●●●
● ● ●●●●
● ● ●●
● ●
● −20
−2 ● ●● ● ●
●
−30 ●
−4 ● −40 ●
●
−6 −3 −2 −1 0 1 2 3
60 70 80 90 100 110
Fitted values Theoretical Quantiles
p2
y = p1 +
−p 3(x−
−p 4)
p1 + p2 1+e
p 2p 3
tg α =
y
α 4
p1
p4
x
> library(nlme)
> plot(telmod)
> qqnorm(resid(telmod))
Összefüggések a paraméterekre:
• a p1 paraméter az alsó aszimptota értéke (az a szint, ahonnan kezdet-
ben nagyon lassan elindul a folyamat);
• p1 + p2 a felső aszimptota, a telítődési szint;
• p4 az inflexiós pont x koordinátája (ahol görbületet vált a görbe, és y
koordinátája félúton van az alsó és felső aszimptota között);
• a görbe p4 pontbeli érintőjének meredeksége: tgα = p2 p3 /4.
A logisztikus függvény illesztését a csibenövekedéses példán mutatjuk be,
de most nemcsak az első 10 nap méréseit, hanem mind a 30 napét felhasznál-
juk. Mivel itt megint korrelált mérésekről van szó, az általánosított nem-
lineáris legkisebb négyzetek módszert használjuk (Pinheiro & Bates
308 Reiczigel – Harnos – Solymosi: Biostatisztika
●
●
● ●
● ●
●
250
●
●
● ●
200 ●
Tömeg (g)
●
● ●
●
● ● ●
● ●
●
●
150 ●
●
●
●
●
●
● ● ●
●
● ● ●
●
●
● ●
●
100 ●
● ●
●
●
● ●
●
● ●
● ●
●
● ●
●
●
● ●
●
●
50 ● ●
●
●
●
●
●
●
0 5 10 15 20 25 30
Kor (nap)
2006; Faraway 2016a) (az nlme könyvtár gnls() függvénye, Pinheiro et al.
(2018)).
Coefficients:
p1 p2 p3 p4
13.392514 306.922556 0.152877 16.275162
9.11. Nemlineáris kapcsolatok 309
(a) (b)
2 ● ●
● 2 ●
● ● ●● ●
1 ●●●● ● ●●
● ●● ● ●
●●
● ●● ● ●
●●●
● 1 ●
●
●
●
●
● ●●●●●
●●
● ● ●●
●
●
●
●
0 ●●● ●
●●●
● ● ● ●● ● ●● ● ●●●
● ●
●●●
●
●
● ● ●● ● ● ● ● 0 ●
●●●
●●
●●●● ● ● ●●
● ●
●●●●
● ●
●● ●
●●
−1 ● ● −1 ●
●●
●
●● ●●●●● ● ● ●●● ● ●
●
● ● ●●●
−2 −2 ●
●● ● ●
p2
y
p3
p4
p1
(0,0)
x
C) Koszinuszgörbe
2π
y = p1 + p2 cos (x − p4 ) .
p3
Ez alapján mondhatjuk, hogy az átlagos szőrhossz 3.3 cm, a leghosszabb értékek 3.3 +
0.45 = 3.75 cm, a legrövidebbek 3.3 − 0.45 = 2.85 cm körül szóródnak. A fáziskésés
2.23 hónap, azaz a szőr február elején a leghosszabb a modell szerint.
10. Varianciaelemzés (ANOVA)
Kísérletekben gyakran nemcsak egy kezelt és egy kontrollcsoportot hasonlí-
tunk össze egymással, hanem többet. Például, ha a kísérleti szer két dózisát
alkalmazzuk a placebo-kontroll mellett, akkor már három összehasonlítan-
dó csoportunk van. Vagy ha több tényező hatását vizsgáljuk, például moz-
gásszervi betegség kezelése esetén gyógyszeres kezelést (gyógyszer: kísérleti
és hagyományos) és fizikoterápiát is alkalmazunk (fizikoterápia: igen vagy
nem), akkor már négy csoportot – négy kezeléskombinációt – hasonlíthatunk
össze egymással. További hasonló kérdések:
• Különbözik-e a gyógyulási arány a különböző kezelések (A, B, C)
esetén?
• Befolyásolja-e a műtét típusa (A, B) az átlagos gyógyulási időt, és ha
igen, akkor a betegség súlyosságától (I, II, III) függetlenül ugyanúgy
vagy különbözőképpen?
• Eltérő-e a hízók tömeggyarapodása az etetett táp fajtája (A, B, C,
D) szerint?
• Hatással van-e a talajtípus (T1 , T2 , T3 ), a vetőmag fajtája (V1 , V2 ) és
a művelési mód (M1 , M2 ) a búza terméseredményére?
A varianciaelemzés vagy szóráselemzés (analysis of variance,
ANOVA) az ilyen összehasonlításokra akkor alkalmas, ha a kérdés az, hogy
a vizsgált változó átlagértéke különbözik-e az egyes kezelések, il-
letve kezeléskombinációk esetén.
A módszer alkalmazhatóságának feltétele, hogy a vizsgált változó
minden csoportban normális eloszlású legyen, és minden csoport-
ban ugyanakkora legyen a szórása, az egyes megfigyeléseknek pe-
dig egymástól függetleneknek kell lenniük.
A varianciaelemzés alapkérdését kétféleképpen is feltehetjük:
• Van-e különbség a csoportok között? Ilyen szempontból a varian-
ciaelemzést a kétmintás t-próba több csoportra való általánosításának
tekinthetjük.
313
314 Reiczigel – Harnos – Solymosi: Biostatisztika
10.1. A számítások
A módszer kidolgozása Sir Ronald Aymler Fisher (1890–1962) nevéhez fűző-
dik, a számításokat egy egyszerű példán mutatjuk be. A számítások részle-
teinek ismeretére a varianciaelemzés gyakorlati alkalmazásához nincs szük-
316 Reiczigel – Harnos – Solymosi: Biostatisztika
[1] "t" "t" "t" "t" "v" "v" "v" "v" "h" "h" "h" "h"
[1] "t" "h" "v" "h" "h" "v" "v" "t" "h" "v" "t" "t"
Kezelés
híg oldat tömény oldat tiszta víz
57 56 54
50 48 46
47 66 60
58 54 48
átlag: 53 56 52
variancia: 28.67 56 40
80
70
●
Magasság (cm)
60 ●
●
● ●
● ● ●
●
50 ●
● ● ●
●
40
30
Kezelés
SST
Teljes nk − 1 SST M ST = nk−1
(Total)
magassag tapoldat
1 56 tomeny
2 48 tomeny
3 66 tomeny
4 54 tomeny
5 57 hig
6 50 hig
7 47 hig
8 58 hig
9 54 viz
10 46 viz
11 60 viz
12 48 viz
Response: magassag
Df Sum Sq Mean Sq F value Pr(>F)
tapoldat 2 34.67 17.33 0.4171 0.671
Residuals 9 374.00 41.56
Az erőszámítás előtt – vagy helyett – érdemes megnézni (mert csak egy pillantás),
mekkora volt a különbség az átlagok között, mert ha ekkora hatásnagyság szakmai
10.1. A számítások 321
szemmel úgysem elegendő, akkor nem is kell az erőszámítással bíbelődni (ld. 177.
oldal). Példánk esetén az erőszámítás:
groups = 3
n = 4
between.var = 17.33
within.var = 41.55
sig.level = 0.05
power = 0.2639036
Az erőszámításhoz meg kell adni a csoportok számát, azt hogy hány ismétlés van cso-
portonként (n), illetve a kezelések közötti valamint a kezelésen belüli varianciát. Ezeket
az ANOVA táblából kaphatjuk meg. Esetünkben az erő nagyon kicsi.
A csoportátlagokat a model.tables() függvénnyel írathatjuk ki a type = "means"
argumentummal. A se = T beállítással a standard hibákat is megkaphatjuk:
> model.tables(aovmod1, type = "means", se = T)
Tables of means
Grand mean
53.66667
tapoldat
tapoldat
hig tomeny viz
53 56 52
magassag tapoldat
1 60 tomeny
2 58 tomeny
3 65 tomeny
4 64 tomeny
5 57 hig
6 55 hig
7 57 hig
8 58 hig
9 54 viz
10 46 viz
11 50 viz
12 48 viz
Response: magassag
Df Sum Sq Mean Sq F value Pr(>F)
tapoldat 2 303.500 151.750 18.838 0.000607 ***
Residuals 9 72.500 8.056
$tapoldat
diff lwr upr p adj
tomeny-hig 5.00 -0.6033666 10.603367 0.0797865
viz-hig -7.25 -12.8533666 -1.646633 0.0140547
viz-tomeny -12.25 -17.8533666 -6.646633 0.0004682
Response: magassag
Df Sum Sq Mean Sq F value Pr(>F)
tapoldat 2 777.58 388.79 49.9875 4.481e-08
fajta 1 42.67 42.67 5.4857 0.03087
tapoldat:fajta 2 13.08 6.54 0.8411 0.44751
Residuals 18 140.00 7.78
Response: magassag
Df Sum Sq Mean Sq F value Pr(>F)
tapoldat 2 777.58 388.79 50.7948 1.45e-08
fajta 1 42.67 42.67 5.5743 0.02849
Residuals 20 153.08 7.65
$tapoldat
diff lwr upr p adj
tomeny-hig 4.875 1.375255 8.374745 0.0057782
viz-hig -8.875 -12.374745 -5.375255 0.0000085
viz-tomeny -13.750 -17.249745 -10.250255 0.0000000
50 50
45 45
Kezelés Kezelés
10.2. ábra. Interakciós ábra két tényező (tápoldat és fajta) együttes hatásáról a cél-
változóra (magasság). Ha nincs interakció, a vonalak közel párhuzamosan futnak, az
egyes fajtákra a kezelések hatása közötti különbség közel azonos (a), ha pedig van,
akkor a kezelések hatása közötti különbség az egyes fajtákra más és más (b). A vélet-
len ingadozás a párhuzamosságot befolyásolhatja, ha az ábra ellentmondani látszik az
interakcióhoz tartozó p-értéknek, inkább a p-értéknek higgyünk!
(a) (b)
Standardized residuals
● 9 ● 20 2 9 ● 20 ●
4
● ● ● ●
Residuals
2 ●
●
1 ●
●
●
● ●
● ●
● ●
0 ●
●
0 ●
●
●● ●
●
●
● ●
●
● ● ●
−2 ●●
●
●
●
●
● −1 ●
●
−4 2● ●
●
● 2
45 50 55 60 −2 −1 0 1 2
10.6. Kontrasztok
A varianciaelemzés szokásos, legegyszerűbb alapeseténél (főhatások és in-
terakciók tesztelése) finomabb elemzésre nyújt lehetőséget a kontrasztok
(contrasts) alkalmazása. Ezek segítségével vizsgálhatunk olyan összefüggé-
seket a paraméterek között, amelyek sem az ANOVÁ-ból, sem a páronkénti
összehasonlításokból nem jönnek ki automatikusan. Például:
• egytényezős 4 csoportos ANOVÁ-ban tesztelhetjük, hogy az 1. és 2.
csoportok átlaga (a két csoportot egyesítve) megegyezik-e a 3. és 4.
csoportok átlagával (szintén a két csoportot egyesítve);
• háromcsoportos vizsgálatban tesztelhetjük, hogy a középső (2.) cso-
port átlaga egyenlő-e a másik kettő számtani közepével.
334 Reiczigel – Harnos – Solymosi: Biostatisztika
C1 = µ1 + µ2 − µ3 − µ4 .
C2 = µ1 − 2µ2 + µ3 .
337
338 Reiczigel – Harnos – Solymosi: Biostatisztika
Hőmérséklet
(HOM)
Alacsony Közepes Magas
(hutott) (szobahom) (melegitett)
Nem limitált AH AS AM
Táplálék (adlibitum)
(TAP) Limitált LH LS LM
(limitalt)
> library(tables)
> library(sciplot)
> tabular( (HOM * TAP) ~ (n = 1) + Format(digits = 2)*
+ (BABTOMEG) * (mean + median + sd + se), data = lepke )
BABTOMEG
HOM TAP n mean median sd se
hutott adlibitum 10 0.3038 0.2975 0.0267 0.0084
limitalt 9 0.1997 0.1970 0.0168 0.0056
melegitett adlibitum 12 0.3104 0.3150 0.0346 0.0100
limitalt 10 0.1906 0.1850 0.0276 0.0087
szobahom adlibitum 8 0.3009 0.3080 0.0269 0.0095
limitalt 7 0.2080 0.2160 0.0358 0.0135
●
●
0.35
Bábtömeg (g)
0.30
0.25
● ●
● ●
0.20
0.15 ●
AH LH AM LM AS LS
Kezelési csoportok
> lineplot.CI(HOM, BABTOMEG, group = TAP, data = lepke, cex = 1, bty = "l",
+ ylab = "Bábtömeg (g; átlag ± SE)", xlab = "Hőmérsékleti kezelés",
+ x.leg = 2.3, y.leg = 0.36, leg.lab = c("ad libitum", "limitált"),
+ xaxt = "n", trace.label = "Táplálék", fixed = F, type = "p",
+ pch = c(16,17), xlim = c(0.7, 3.2), ylim = c(0.18, 0.38))
+ axis(1, at = 1:3, labels = c("Hűtött", "Melegített", "Szobahő"))
(a) (b)
0.30
Bábtömeg (g; átlag)
Táplálék
0.25 ad libitum
limitált
0.20
ű Melegített ő
●
0.06
Kezdeti hernyótömeg (g)
●
0.05
0.04
0.03
0.02 ●
0.01
0.00
AH LH AM LM AS LS
Kezelési csoportok
Y = β0 + β1 X1 + β2 X2 + β3 X3 + . . . + βr Xr + ε,
346 Reiczigel – Harnos – Solymosi: Biostatisztika
Átlag- és hatásmodell
● ●
●
γ2 ●
µ ●
γ3
●
γ1 µ2 ●
●
µ3
●
µ1 ●
1. 2. 3.
Kezelés
Mindkettő esetén:
7
7
8
ŷ = E(Y ) = .
8
9
9
Azaz nem kaptunk egyértelmű megoldást. Ez azért van, mert az X osz-
lopai lineárisan nem függetlenek (ez onnan látható például, hogy az utolsó
3 oszlopot összeadva az elsőt kapjuk eredményül).
Ezt a jelenséget nevezzük túlparaméterezettségnek (= a modell túl
sok paramétert tartalmaz) (overparametrisation). Ilyenkor, mint azt láttuk,
a paraméterek becslése nem egyértelmű. A helyzet ahhoz hasonló, mint ami-
kor egy egyenletrendszerben több ismeretlen van, mint egyenlet – ilyenkor
általában végtelen sok megoldás van, egyes ismeretleneket szabadon meg-
választhatunk.
Mi a megoldás? Korlátozó feltételek előírása a paraméterekre vonatko-
zóan: az R alapértelmezésben a faktor első szintjéhez nem rendel oszlopot
és így paramétert sem. Úgy is fel lehet fogni, hogy ezzel a módszerrel az
első szintet kineveztük referenciaszintnek. Ekkor a konstans az első szinthez
tartozó átlag lesz, a többi paraméter pedig azt mondja meg, hogy a többi
átlag mennyivel különbözik ettől a referenciaszinttől.
11.3. A modell felírása 351
Call:
lm(formula = BABTOMEG ~ HOM, data = lepke)
Coefficients:
(Intercept) HOMmelegitett HOMszobahom
0.254474 0.001481 0.003060
Call:
lm(formula = BABTOMEG ~ HOM - 1, data = lepke)
Coefficients:
HOMhutott HOMmelegitett HOMszobahom
0.2545 0.2560 0.2575
Call:
lm(formula = BABTOMEG ~ TAP + HOM, data = lepke)
Coefficients:
(Intercept) TAPlimitalt HOMmelegitett HOMszobahom
0.305280 -0.107258 -0.000572 0.002307
Call:
lm(formula = BABTOMEG ~ TAP + HOM - 1, data = lepke)
Coefficients:
TAPadlibitum TAPlimitalt HOMmelegitett HOMszobahom
0.305280 0.198022 -0.000572 0.002307
Call:
lm(formula = BABTOMEG ~ TAP + HOM + TAP:HOM, data = lepke)
Coefficients:
(Intercept) TAPlimitalt
0.30380 -0.10413
HOMmelegitett HOMszobahom
0.00662 -0.00292
TAPlimitalt:HOMmelegitett TAPlimitalt:HOMszobahom
-0.01568 0.01126
Ennek a modellnek összesen 6 paramétere van. Ebben az esetben már sokkal nehe-
zebb megmagyarázni a becslések jelentését. Az (intercept) a faktorok első szintjei-
nek megfelelő kezeléskombináció átlagbecslése (ad libitum:hűtött). Az összes többi az
együttható megnevezésében jelölt csoport (ha főhatásról van szó, akkor a másik ugyan-
az, mint az (intercept) esetén) átlagbecsléseinek eltérése ettől az értéktől. Tehát, a
TAPlimitált a hűtött és limitáltan táplált csoport átlagának, a HOMmelegitett és a
HOMszobahom az ad libitum tápláltak és melegített, illetve szobahőmérsékleten tartott
csoport átlagainak az eltérése az ad libitum táplált és hűtött csoport (intercept) át-
lagától. Az utolsó kettő egyértelműen kiderül az elnevezésekből.
Az egyes kezeléskombinációkban a bábtömeg becsléseket megkaphatjuk úgy is, hogy át-
paraméterezzük a modellt oly módon, hogy csak az interakciót tesszük be a modellbe,
és kivesszük a konstanst. Ez az előzővel ekvivalens modell.
> (lmmod5 = lm(BABTOMEG ~ TAP:HOM - 1, data = lepke))
Call:
lm(formula = BABTOMEG ~ TAP:HOM - 1, data = lepke)
Coefficients:
TAPadlibitum:HOMhutott TAPlimitalt:HOMhutott
0.304 0.200
TAPadlibitum:HOMmelegitett TAPlimitalt:HOMmelegitett
0.310 0.191
TAPadlibitum:HOMszobahom TAPlimitalt:HOMszobahom
0.301 0.208
●
●
0.35 ●
●●
●
● ● ● ● ●
●●● ● ● ●
Bábtömeg (g)
0.30 ● ●● ● ●
● Táplálék
● ●
● ●
● ● ad libitum
0.25
●
limitált
0.20
0.15
Call:
lm(formula = BABTOMEG ~ TOMEG0 + TAP, data = lepke)
Coefficients:
(Intercept) TOMEG0 TAPlimitalt
0.303 0.262 -0.111
Call:
lm(formula = BABTOMEG ~ TOMEG0 + TAP - 1, data = lepke)
Coefficients:
11.3. A modell felírása 355
●
●
0.35 ●
●●
●
● ● ● ● ●
●●● ● ● ●
Bábtömeg (g)
0.30 ● ●● ● ●
● Táplálék
● ●
● ●
● ● ad libitum
0.25
●
limitált
0.20
0.15
Call:
lm(formula = BABTOMEG ~ TOMEG0 * TAP, data = lepke)
Coefficients:
(Intercept) TOMEG0 TAPlimitalt TOMEG0:TAPlimitalt
0.2917 1.2138 -0.08 -1.4385
Call:
lm(formula = BABTOMEG ~ TOMEG0:TAP + TAP - 1, data = lepke)
Coefficients:
TAPadlibitum TAPlimitalt
0.292 0.204
TOMEG0:TAPadlibitum TOMEG0:TAPlimitalt
1.214 -0.225
TAPadlibitum(lmmod9) = (intercept)(lmmod8);
TAPlimitalt(lmmod9) = (intercept)(lmmod8) + TAPlimitalt(lmmod8);
TOMEG0:TAPadlibitum(lmmod9) = TOMEG0(lmmod8);
TOMEG0:TAPlimitalt(lmmod9) = TOMEG0(lmmod8)
+ TOMEG0:TAPlimitalt(lmmod8).
Az egyeneseket a következő kóddal tudjuk rárajzolni a bábtömeg-kezdeti tömeg
szórásdiagramra:
• A konstans, ha van (általában igen) kap egy csupa 1-esből álló osz-
lopot. Ezt a modellben nem kell külön megadni, csak azt, ha nem
akarjuk beletenni a modellbe, ekkor egy „−1” -es tagot kell beírnunk
a modell formulába.
• Minden faktor eggyel kevesebb oszlopot kap, mint ahány szintje
(= kezelés, csoport) van. Ezek mind 0/1-ekből állnak.
• A kovariánsok egy-egy olyan oszlopot kapnak, amelyek minden meg-
figyeléshez a kovariáns mért értékét tartalmazzák.
• Egy F1 : F2 interakcióhoz, ahol az F -ek lehetnek faktorok is és kova-
riánsok is, annyi oszlop tartozik, amennyi az F1 -hez és F2 -höz tartozó
oszlopok számának szorzata.
Faktor és kovariáns közötti interakcióhoz ezzel összhangban annyi osz-
lop (paraméter) tartozik, ahány a faktorhoz. A paraméterek a kova-
riánsnak a faktor szintjeihez tartozó regressziós együtthatói, tehát az
interakció bevétele itt is azt jelenti, hogy feltételezzük, hogy a kova-
riánsnak csoportonként más és más a hatása (a meredekségek külön-
böznek).
A végén az oszlopok száma adja meg a modell paramétereinek számát (p).
Az lm() függvény egyik kötelezően megadandó paramétere a modell formá-
lis megadása:
Y ∼ F + F2 + F3 + F1 : F2 .
|{z} |1 {z } | {z }
függő változó magyarázó változók interakció
(kovariánsok és faktorok)
Hogy egy magyarázó változó faktor (factor) vagy „kovariáns” numeric, az
a típusától függ. Leellenőrizhetjük a str() függvénnyel, amivel kiírathatjuk
az adatmátrixunk struktúráját.
Y ∼ −1 + F1 + F2 + F3 + F1 : F2 ,
Y ∼ F1 + F2 + F1 : F2 ,
Y ∼ F1 + F1 : F2 .
Egy faktorhoz/interakcióhoz tartozó oszlopok (paraméterek) száma a
faktor/interakció szabadsági foka. Átparaméterezésnél a paramé-
terek, vagyis az oszlopok száma nem változik (ha változik,
akkor az már nem ugyanaz a modell).
SS(b) = eT e
= (y − Xb)T (y − Xb)
= yT y − yT Xb − bT XT y + bT XT Xb
= yT y − 2yT Xb + bT XT Xb.
∂SS(b)
= 0 − 2XT y + 2XT Xb.
∂b
Ott lehet minimum, ahol ez a derivált 0. Ebből következnek az ún. normál egyenletek,
amikből b kifejezhető:
XT y = XT Xb.
11.4. A lineáris modell paramétereinek becslése 359
b = (XT X)−1 XT y.
XT X rangja egyenlő X rangjával. Ebből következik az alábbi két feltétel, ami szük-
séges ahhoz, hogy XT X ne legyen szinguláris, és így egyértelmű megoldást kaphassunk.
11.5. Hipotézisvizsgálat
Ha az eloszlásbeli feltételek teljesülnek, akkor lehet hipotézisvizsgálatokat
végezni, illetve konfidencia-intervallumokat számolni a lineáris modellek ese-
tén.
...
Residual standard error: 0.0273 on 44 degrees of freedom
Multiple R-Squared: 0.838, Adjusted R-squared: 0.798
F-statistic: 20.7 on 11 and 44 DF, p-value: 6.44e-14
Response: BABTOMEG
Df Sum Sq Mean Sq F value Pr(>F)
TOMEG0 1 0.0260 0.0260 34.80 4.7e-07 ***
TAP 1 0.1348 0.1348 180.41 < 2e-16 ***
HOM 2 0.0001 2.6e-05 0.03 0.97
TOMEG0:TAP 1 0.0043 0.0043 5.81 0.02 *
TOMEG0:HOM 2 0.0009 0.0004 0.57 0.57
TAP:HOM 2 0.0024 0.0012 1.61 0.21
TOMEG0:TAP:HOM 2 0.0021 0.0010 1.38 0.26
Residuals 44 0.0329 0.0007
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Kiderül, hogy csupán a hőmérséklet hihagyása nem okoz szignifikáns csökkenést a ma-
gyarázó erőben.
2.5 % 97.5 %
(Intercept) 0.28324 0.32141
TOMEG0 -0.45296 0.83204
TAPlimitalt -0.13559 -0.07852
HOMmelegitett -0.01993 0.03066
HOMszobahom -0.03145 0.02404
TAPlimitalt:HOMmelegitett -0.05112 0.02272
TAPlimitalt:HOMszobahom -0.02943 0.05121
2.5 % 97.5 %
TOMEG0 -0.4530 0.8320
TAPadlibitum:HOMhutott 0.2832 0.3214
TAPlimitalt:HOMhutott 0.1708 0.2197
TAPadlibitum:HOMmelegitett 0.2885 0.3269
TAPlimitalt:HOMmelegitett 0.1632 0.2096
TAPadlibitum:HOMszobahom 0.2767 0.3206
TAPlimitalt:HOMszobahom 0.1735 0.2314
11.6.1. Linearitás
Az Y várható értéke a magyarázó változók lineáris függvénye, így természe-
tesen csak akkor van értelme lineáris modellt illeszteni, ha a függvénykap-
csolat a folytonos X-ek és Y között lineáris.
A linearitást a reziduum-becsült érték (fitted values) diagramon ellen-
őrizhetjük. Ha kétségeink vannak a linearitás teljesülése tekintetében, akkor
úgy javíthatunk a modellünkön, hogy a folytonos változót faktorrá transz-
formáljuk valamilyen értelmes felosztással. Az így transzformált változót is
beillesztjük a modellbe, és F -próbával vizsgáljuk, hogy van-e hatása az így
készített faktornak. Ha igen, akkor gond van a linearitással. Vagy használjuk
az új faktort, vagy megpróbálhatjuk transzformálni a változónkat. Lássunk
egy példát!
368 Reiczigel – Harnos – Solymosi: Biostatisztika
(a) (b)
Standardized residuals
● 34 ● 2 34 ●
●
0.05 ● ● ●
● ● ●●
●● ● ●●
●●●●
●
●● ● ● 1 ●●●
Residuals
● ●
● ● ● ●●
●●
●
●
● ●● ●●●●●
●
●●●●
0.00 ●
●● ●●
●
● ●
●
● 0 ●
●●●●
●
● ● ●● ●
●●●●
●●● ●●●●
●●●●●
● ● ● ●●●●●●
●
● ●
●
−1 ●
●●
● ●●
−0.05 ●
20 −2 ● 20
53 ● −3 ● 53
−0.10
(c) (d)
Standardized residuals
53 ●
Standardized residuals 2 ●●
1.5 ●● 20 34 ● ●
●
●
●●●
●● 1
55 ● 0.5
●●
1 ● ●●
●
●
● ● ●● ●● ●
● ●●●●
●●
1.0
●●
● ●
●
●
●
0 ●●
●
●●●
● ● ●
● ● ● ● ●
●
●●
●
●●● ● ●
●●
●● ● ●●● ●
● ●●
●
● ● ●●
● ●
−1 ● 0.5
●
●●
●● ● ● ●● 16 ● 1
0.5 ●●
●
● ●●
−2 ●
●
● ●
● −3 ●
53 Cook's distance
0.0
11.12. ábra. A lepkés redukált modell diagnosztikus ábrái: reziduum-becsült érték ábra
a linearitás vizsgálatára (a), QQ-ábra a hibatag normalitásának vizsgálatára (b), szórás-
becsült érték diagram a reziduumok szórásának vizsgálatára (c), és a standardizált
reziduum-hatóerő ábra (d), valamint ábra a torzító pontok vizsgálatára
Response: TOMEG
Df Sum Sq Mean Sq F value Pr(>F)
SEX 1 162 162 29.3 3.9e-07 ***
11.6. A lineáris modellek alkalmazhatóságának feltételei 369
(a) (b)
8
● 70 8 ● 70
6 83 ● ●
● 6
4 ●
● 5883 ●
●
● ●
● ● ● ●● ● 4 ● ●
Residuals
Residuals
●
●● ●● ●
● ●●
2 ●
●
●
●
●
●
● ●
●
●
● ●● ●
●
● ● ● ● ●
● ●● ●
●
●
●
● ●
● ●
●
●
● 2 ●
●●
●●
●● ●
● ● ●● ● ●
●
●● ● ● ● ●
0 ● ●
●●
● ● ●
●
● ●●
● ●
●
●
●
●
●
● ●
● ●●
● ●● ● ● ●
●
● ●●● ● ●
●●
●●
● ● ● ●
0 ●●
●● ●
●
●
● ●
●●
●
●
●
● ●● ●
−2 ●
● ● ● ● ●
●
●
●● ● ● ●
●
●● ●
●
●●
●●
● ● ●
● ●
● ● ● ● ● ● ● ● ● ● ●
● ●
● ●
●
● ● −2 ●
● ● ●
●●
● ●
●
●
●
−4 ● ●
●
●
●
●●
● ●
● ●
●
●
55 −4 ● ●
−6
0 5 10 15 20 25 0 5 10 15 20 25 30
> anova(ozmodkat)
Response: TOMEG
Df Sum Sq Mean Sq F value Pr(>F)
SEX 1 162 162 32.76 9.8e-08 ***
TESTH 1 5120 5120 1036.71 < 2e-16 ***
TESTHfaktor 2 74 37 7.49 9e-04 ***
Residuals 106 524 5
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Az új faktor hatása szignifikáns, ami igazolta azt a gyanúnkat, hogy linearitási problé-
máról van szó.
Nézzük meg a reziduum-becsült érték szórásdiagramot (11.13. (b) ábra):
370 Reiczigel – Harnos – Solymosi: Biostatisztika
11.7. Modellválasztás
Előfordulhat – exploratív, előkészítő elemzés (vagy rosszul tervezett vizs-
gálat!) esetén –, hogy bizonytalanok vagyunk abban, hogy mely változókat
vonjuk be a modellbe. A következőkben felsorolt eljárások és kritériumok
ilyen esetekben segíthetnek. Ha a Kedves Olvasót bővebben érdekli a válto-
zó szelekció, akkor javasoljuk, hogy olvassa el a témáról Heinze et al. (2018)
cikkét.
11.7. Modellválasztás 371
B) A legnagyobb korrigált R2
BIC = −2l(M ) + p ln n,
11.7. Modellválasztás 373
Coefficients:
(Intercept) TOMEG0 TAPlimitalt
0.29166 1.21381 -0.08775
TOMEG0:TAPlimitalt
-1.43854
Model:
BABTOMEG ~ TOMEG0 * TAP * HOM
Df Sum of Sq RSS AIC F value Pr(F)
<none> 0.0329 -393
TOMEG0:TAP:HOM 2 0.0021 0.0349 -393 1.38 0.26
A <none> sorban lévő AIC érték a teljes modell AIC értéke. A TOMEG0:TAP:HOM sorban
lévő AIC érték azt mutatja, hogy az ezen tag a kihagyásával készített modellnek mek-
kora az AIC értéke. A függvény a test = "F" beállítással rögtön össze is hasonlítja a
modelleket.
Az ily módon történő szelekció után érdemes a redukált modellel újra meghívni a
drop1() függvényt, mert sok esetben újabb tagok bizonyulhatnak elhagyhatónak.
11.9.1. Négyzetösszegtípusok
I. típusú (szekvenciális, az egyes hatásokat egymás után veszi figyelembe)
Minden faktor esetén figyelembe veszi az összes többi faktor hatását. Általá-
ban ezt használjuk (kivéve az I. típusnál említett néhány esetet). A hatások
becslése nem függ a cellánkénti elemszámoktól, ami legtöbbször így van jól,
mert az eltérő esetszámok általában nem szándékosak. Számítása nem olyan
szemléletes, mint az I-es típusúé, az egyes faktorokhoz tartozó III. típusú
négyzetösszegek összege nem is adja ki a teljes négyzetösszeget. Regresszió-
számítással számolják, a faktorokat a már említett módon 0/1-es indikátor
változókkal kódolva (ld. 258. oldal).
Ez a három típus sajnos üres cellák esetén (olyan kezeléskombináció, ami-
nél 0 az ismétlésszám) nem működik helyesen. Üres cellák esetére találták
ki a IV-es és V-ös típusokat, de mindkettő használata nagy tapasztalatot
és óvatosságot igényel. Részletes leírást találhatunk a különböző négyzet-
összegekről a http://www.statsoft.com/textbook/stathome.html internetes
címen található elektronikus statisztika könyvben a „General Linear Mo-
dels” fejezetben.
Általánosságban – a könnyebb használhatóság miatt – kezdőknek az
aov() használatát javasoljuk, ha kiegyensúlyozott elrendezéssel, azaz azonos
ismétlésszámmal dolgoznak. Bonyolultabb modellek, nem kiegyensúlyozott
elrendezések esetén mindenképpen az lm() alkalmasabb a modellek illesz-
tésére.
378 Reiczigel – Harnos – Solymosi: Biostatisztika
Response: magassag
Df Sum Sq Mean Sq F value Pr(>F)
tapoldat 2 777.58 388.79 50.7948 1.45e-08
fajta 1 42.67 42.67 5.5743 0.02849
Residuals 20 153.08 7.65
Quantile = 2.3787
95% family-wise confidence level
Linear Hypotheses:
Estimate lwr upr
hig - viz == 0 8.8750 5.5846 12.1654
tomeny - viz == 0 13.7500 10.4596 17.0404
> summary(glht(tapmod2, linfct = mcp(tapoldat = "Dunnett")))
Simultaneous Tests for General Linear Hypotheses
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
hig - viz == 0 8.875 1.383 6.416 5.77e-06
tomeny - viz == 0 13.750 1.383 9.940 6.92e-09
(Adjusted p values reported -- single-step method)
Tehát a Dunett-teszt szerint a kezelt csoportok szignifikánsan különböznek a kont-
rolltól (p < 0.0001 mindkét esetben). A híg oldat hatására átlagosan 8.9 cm-rel
(konfidencia-intervallum: (5.6 cm, 12.2 cm)), a tömény oldat hatására átlagosan 13.8
cm-rel (konfidencia-intervallum: (10.5 cm, 17.0 cm)) nőttek magasabbra a növények.
Ha Tukey-tesztet szeretnénk végezni, azaz mindent mindennel hasonlítunk:
> confint(glht(tapmod1, linfct = mcp(tapoldat = "Tukey")))
Simultaneous Confidence Intervals
Quantile = 2.5301
95% family-wise confidence level
380 Reiczigel – Harnos – Solymosi: Biostatisztika
Linear Hypotheses:
Estimate lwr upr
tomeny - hig == 0 4.8750 1.3751 8.3749
viz - hig == 0 -8.8750 -12.3749 -5.3751
viz - tomeny == 0 -13.7500 -17.2499 -10.2501
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
tomeny - hig == 0 4.875 1.383 3.524 0.00577
viz - hig == 0 -8.875 1.383 -6.416 < 0.001
viz - tomeny == 0 -13.750 1.383 -9.940 < 0.001
(Adjusted p values reported -- single-step method)
cT b ∼ N (cT β, cT Σc).
A cT Σc már nem egy mátrix, hanem egy szám – jelöljük σ 2 -tel. Mivel
Σ általában ismeretlen, helyette a becslésével szokás dolgozni: σ̂ 2 = cT Σ̂c.
Ha a H0 : C = C0 hipotézist akarjuk tesztelni (a leggyakoribb eset az, hogy
a C0 nulla, de lehet más is), akkor egy t-próbát kell végeznünk a következő
próbastatisztikával:
t = (cT b − C0 )/σ̂,
amely H0 mellett t-eloszlást követ (n − p) szabadsági fokkal, ahol n a
mintaelemszám, és p a becsült paraméterek száma.
Ezzel ekvivalens statisztika (az előbbinek a négyzete) az
F = (cT b − C0 )2 /σ̂ 2
(a) (b)
tomeg
hely ivar n mean median sd se
B H 11 40.95 40.40 2.31 0.70
T 16 39.70 39.30 2.72 0.68
C H 73 41.27 41.20 1.82 0.21
T 74 42.16 41.80 2.44 0.28
D H 3 40.47 40.40 1.30 0.75
T 3 40.93 40.80 0.42 0.24
Response: tomeg
Df Sum Sq Mean Sq F value Pr(>F)
jszarny 1 105 105 24.68 1.6e-06 ***
hely 2 42 21 4.97 0.008 **
ivar 1 20 20 4.66 0.032 *
jszarny:hely 2 32 16 3.75 0.025 *
Residuals 173 738 4
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(a) (b)
Standardized residuals
6 90 ●
● 71 3 7190
●
●
● ●●
● ●● ●●
4 ●
● ●●●
●
● ●
2 ●●
●●
●●
Residuals
●●
●●
● ●● ●
●
● ●
●●
●
●
●
2 ●
●
●●● ● ●●●● ● ●●●
●
● ●● ●
●●
● ●●● ●
● ●●
●
1 ●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
● ● ● ● ●● ● ●●
●
●
● ● ●● ● ● ●
●
●●
● ●● ●●
● ● ●● ●
●●
●
0 ●
● ●
●●
●
●●
●
●
●
●
●
●●● ●
●
●
● ● ●● ● ●
●● ●
●
●
●●
●
●●
●●●
● 0 ●
●●
●●
●
●●
●
●●
●
●
●
●●
●●
●●●●●●● ●●
● ●●● ● ●
●●
●
●●● ● ●●
●●
●
●
● ● ● ●●
● ●●
●●
●
−2 ● ●●●●●● ●●
●● ●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●●● ●●
● ● ●●
●●
●
●●
−1 ●
●
●
●●
●●
●
●●
●
●●
●
●●
●
●
●
−4 ● ●●●
●
●●●●●
●
●●
●
126 −2
−6 ● 126
36 38 40 42 44 −2 −1 0 1 2
(c) (d)
Standardized residuals
90
Standardized residuals
●
● 71
● ● 126
● 3 ●
●
1.5 ● ●
●
●
●
● 19
●
● ●
●
●
●●
●● ●
● ●●
●●
2 ●
●
●
●● ●
●
● ● ● ● ●
●●
●
●
● ● ● ● ●●
●● ●●
● ●●
1.0 ●●
●
● ● ●●●●
●●●●
●
●●●●●●
●
● ● ● 1 ●
●
●●●
●
●
●
●●
●
●●
●
● 1
● ● ●● ●●●
●
●
● ●
●
●●●
●
●
●●●●●● 0.5
● ● ●● ●
●● ●
●
●
●●
●● ●
●
● ●●●●
● ● ●●
● ●●●● ●
●
● ● ●
●
●● ●● ●●
0 ●
●
●
●
●
●
●
●
●
●●
●●
●
●●●
●●
● ●●
● ●
●
● ● ● ●●
●●●● ● ●● ● ●
●
●●●
● ●
0.5
●●●●
●●●●
−1 ● 1
0.5 ●
● ●
●
●
●
● ●
● ● ● ●●●
●
●● ●●●
●
●
●
●
●●
●
●
●
●
●●●●
●
●
● ●
● 101 ●
● ● ●
●
●● ● ● ●
● 109
●
●
●
●●
●●● ●● −2
●
●
● ●
● ● Cook's distance
0.0 −3
Coefficients:
(Intercept) helyC helyD ivarT
39.871 1.562 0.545 0.568
11.11. Kontrasztok az általános lineáris modellben 385
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
B == 0 40.1548 0.4282 93.77 <2e-16 ***
C == 0 41.7164 0.1831 227.89 <2e-16 ***
D == 0 40.7000 0.9061 44.92 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)
Ha a konfidencia-intervallumra vagyunk kíváncsiak, akkor a következőt gépeljük be!
386 Reiczigel – Harnos – Solymosi: Biostatisztika
> confint(mod1.ht)
Simultaneous Confidence Intervals
Quantile = 2.4098
95% family-wise confidence level
Linear Hypotheses:
Estimate lwr upr
B == 0 40.1548 39.1229 41.1867
C == 0 41.7164 41.2753 42.1576
D == 0 40.7000 38.5166 42.8834
Coefficients:
helyB helyC helyD ivarT
39.871 41.432 40.416 0.568
A kontrasztmátrix:
> Kontmat2 = matrix(0, 3, 4, dimnames = list(c("B",
+ "C", "D"), names(mod2$coefficients)))
>
> Kontmat2[1, ] = c(1, 0, 0, 1/2)
> Kontmat2[2, ] = c(0, 1, 0, 1/2)
> Kontmat2[3, ] = c(0, 0, 1, 1/2)
A becslések:
> mod2.ht = glht(mod2, linfct = Kontmat2)
> summary(mod2.ht)
>
Simultaneous Tests for General Linear Hypotheses
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
B == 0 40.1548 0.4282 93.77 <2e-16 ***
C == 0 41.7164 0.1831 227.89 <2e-16 ***
D == 0 40.7000 0.9061 44.92 <2e-16 ***
---
11.11. Kontrasztok az általános lineáris modellben 387
B ( ● )
C ( ● )
D ( ● )
39 40 41 42 43
Átlagbecslések és konfidencia−intervallumok
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)
És a konfidencia-intervallumok:
> confint(mod2.ht)
Quantile = 2.4099
95% family-wise confidence level
Linear Hypotheses:
Estimate lwr upr
B == 0 40.1548 39.1229 41.1868
C == 0 41.7164 41.2753 42.1576
D == 0 40.7000 38.5165 42.8835
> summary(mod3.ht)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
C-B == 0 1.5616 0.4656 3.354 0.00193 **
D-B == 0 0.5452 1.0022 0.544 0.81723
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)
> confint(mod3.ht)
Quantile = 2.2405
95% family-wise confidence level
Linear Hypotheses:
Estimate lwr upr
C-B == 0 1.5616 0.5183 2.6049
D-B == 0 0.5452 -1.7002 2.7905
11.11. Kontrasztok az általános lineáris modellben 389
Call:
lm(formula = tomeg ~ hely + ivar + jszarny - 1, data = lile)
Coefficients:
helyB helyC helyD ivarT jszarny
16.480 17.896 17.450 0.668 0.218
A kontrasztmátrix:
> atlagJszarny = mean(lile$jszarny)
> Kontmat4 = matrix(0, 3, 5, dimnames = list(c("B", "C", "D"),
+ names(mod4$coefficients)))
> Kontmat4[1, ] = c(1, 0, 0, 1/2, atlagJszarny)
> Kontmat4[2, ] = c(0, 1, 0, 1/2, atlagJszarny)
> Kontmat4[3, ] = c(0, 0, 1, 1/2, atlagJszarny)
> Kontmat4
A becslések:
> mod4.ht = glht(mod4, Kontmat4)
> summary(mod4.ht)
> confint(mod4.ht)
> summary(mod4.ht)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
B == 0 40.2577 0.4052 99.35 <2e-16 ***
C == 0 41.6739 0.1732 240.61 <2e-16 ***
D == 0 41.2278 0.8634 47.75 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)
390 Reiczigel – Harnos – Solymosi: Biostatisztika
> confint(mod4.ht)
Quantile = 2.4097
95% family-wise confidence level
Linear Hypotheses:
Estimate lwr upr
B == 0 40.2577 39.2813 41.2342
C == 0 41.6739 41.2566 42.0913
D == 0 41.2278 39.1472 43.3084
Coefficients:
jszarny helyB:ivarH helyC:ivarH helyD:ivarH helyB:ivarT
0.2109 18.0129 18.5096 18.7421 17.3559
helyC:ivarT helyD:ivarT
19.4543 18.2948
> library(gmodels)
> ci(mod5)
Estimate CI lower CI upper Std. Error p-value
jszarny 0.2109 0.1183 0.3035 0.04692 1.268e-05
helyB:ivarH 18.0129 7.8677 28.1581 5.14001 5.826e-04
helyC:ivarH 18.5096 8.5053 28.5139 5.06861 3.448e-04
helyD:ivarH 18.7421 8.9116 28.5727 4.98058 2.296e-04
helyB:ivarT 17.3559 7.4915 27.2203 4.99776 6.508e-04
helyC:ivarT 19.4543 9.4726 29.4360 5.05719 1.680e-04
helyD:ivarT 18.2948 8.0745 28.5152 5.17809 5.267e-04
Korrigált becsléseket egy 7-ed rendű diagonális kontrasztmátrix segítségével kapha-
tunk.
> Kontmat5 = diag(1, 7)
> rownames(Kontmat5) = names(mod5$coefficients)
11.11. Kontrasztok az általános lineáris modellben 391
A becslések:
mod5.ht = glht(mod5, Kontmat5)
summary(mod5.ht)
confint(mod5.ht)
> summary(mod5.ht)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
jszarny == 0 0.21092 0.04692 4.495 < 0.001 ***
helyB:ivarH == 0 18.01293 5.14001 3.504 < 0.001 ***
helyC:ivarH == 0 18.50959 5.06861 3.652 < 0.001 ***
helyD:ivarH == 0 18.74213 4.98058 3.763 < 0.001 ***
helyB:ivarT == 0 17.35589 4.99776 3.473 < 0.001 ***
helyC:ivarT == 0 19.45429 5.05719 3.847 < 0.001 ***
helyD:ivarT == 0 18.29482 5.17809 3.533 0.00109 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)
> confint(mod5.ht)
Quantile = 2.1561
95% family-wise confidence level
Linear Hypotheses:
Estimate lwr upr
jszarny == 0 0.2109 0.1098 0.3121
helyB:ivarH == 0 18.0129 6.9306 29.0953
helyC:ivarH == 0 18.5096 7.5812 29.4380
helyD:ivarH == 0 18.7421 8.0035 29.4808
helyB:ivarT == 0 17.3559 6.5802 28.1316
helyC:ivarT == 0 19.4543 8.5505 30.3581
helyD:ivarT == 0 18.2948 7.1303 29.4593
Bonyolultabb modell esetén a további tagokat a modell végére írjuk. Faktorok esetén
az 1/(szintek száma)-át írunk be (átlagos szint), kovariáns esetén pedig azt az értéket,
amelynél kíváncsiak vagyunk a becslésre.
392 Reiczigel – Harnos – Solymosi: Biostatisztika
Call:
lm(formula = tomeg ~ hely + ivar + hely:jszarny - 1, data = lile)
Coefficients:
helyB helyC helyD ivarT
-13.169 23.478 28.273 0.785
helyB:jszarny helyC:jszarny helyD:jszarny
0.494 0.166 0.114
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
B == 0 36.6390 0.8839 41.45 <2e-16 ***
C == 0 40.4272 0.4381 92.28 <2e-16 ***
D == 0 40.1088 1.2946 30.98 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)
> confint(mod6.ht)
Quantile = 2.4101
95% family-wise confidence level
11.11. Kontrasztok az általános lineáris modellben 393
Linear Hypotheses:
Estimate lwr upr
B == 0 36.6390 34.5088 38.7693
C == 0 40.4272 39.3714 41.4830
D == 0 40.1088 36.9886 43.2289
> summary(mod7.ht)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
C-B == 0 3.7881 0.9844 3.848 0.000436 ***
D-B == 0 3.4697 1.5757 2.202 0.070164 .
D-C == 0 -0.3184 1.3677 -0.233 0.969575
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)
> confint(mod7.ht)
Quantile = 2.3435
95% family-wise confidence level
Linear Hypotheses:
Estimate lwr upr
C-B == 0 3.7881 1.4813 6.0950
D-B == 0 3.4697 -0.2227 7.1622
D-C == 0 -0.3184 -3.5236 2.8868
11.22. példa. Lile – meredekségek
Ha egy interakció faktor és kovariáns között szignifikánsnak bizonyult, az azt jelenti,
hogy a különböző csoportokban az egyenesek meredeksége más és más. A meredekségek
összehasonlítása az előbbi modell felhasználásával:
> Kontmat8 = matrix(0, 3, 7, dimnames = list(c("C-B", "D-B", "D-C"),
+ names(mod6$coefficients)))
> Kontmat8[1, ] = c(0, 0, 0, 0, -1, 1, 0)
> Kontmat8[2, ] = c(0, 0, 0, 0, -1, 0, 1)
> Kontmat8[3, ] = c(0, 0, 0, 0, 0, -1, 1)
> mod8.ht = glht(mod6,Kontmat8)
> summary(mod8.ht)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
C-B == 0 -0.32859 0.12223 -2.688 0.020 *
D-B == 0 -0.37973 0.22143 -1.715 0.193
D-C == 0 -0.05114 0.19728 -0.259 0.962
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)
> confint(mod8.ht)
Quantile = 2.337
95% family-wise confidence level
Linear Hypotheses:
Estimate lwr upr
C-B == 0 -0.32859 -0.61424 -0.04293
D-B == 0 -0.37973 -0.89720 0.13775
D-C == 0 -0.05114 -0.51219 0.40991
Függelék
395
A. Konfidencia-intervallumok
képletei
A képletek elsősorban a statisztika dolgozatokra való felkészüléshez kellenek,
egyébként konfidencia-intervallumokat is kényelmesebb az R-rel számolni.
Figyelem, az R-ben a konfidencia-intervallumok gyakran a statisztikai pró-
bákhoz kötődnek, ezért ha egy konfidencia-intervallumra nem találunk R-
függvényt, érdemes a rokon statisztikai próbákat végző függvények között
is szétnézni. R-es példákat a könyvben sok helyütt – és a könyv honlap-
ján is – találhatunk. Az alábbiakban a kézi számolások mellett megadunk
olyan R-csomagokat, illetve függvényeket, amelyekkel az adott konfidencia-
intervallum kiszámítható.
Az ismertetett képletek kétoldali konfidencia-intervallumokat szolgáltat-
nak. Ha egyoldali intervallumra van szükség, a 131. oldalon írottak szerint
kell eljárni.
Kétoldali (1 − α) szintű intervallumhoz a megfelelő eloszlás α/2 valószí-
nűséghez tartozó kritikus értékét kell használnunk: ez 95%-os intervallum
esetén a 0.025 valószínűséghez tartozó kritikus érték. (Ha az eloszlás nem
szimmetrikus, mint például a khi-négyzet-eloszlás, akkor két kritikus érték-
re van szükség, nevezetesen a fenti mellett még az (1 − α/2) valószínűséghez
tartozóra is: 95%-os intervallum esetén ez a 0.975 valószínűséghez tartozó
kritikus érték.)
σ σ
x̄ − zkrit √ , x̄ + zkrit √ ,
n n
397
398 Reiczigel – Harnos – Solymosi: Biostatisztika
s s
x̄ − tkrit √ , x̄ + tkrit √ ,
n n
Megjegyzések:
• Párosított mintás vizsgálat esetén nem kell, hogy mindkét változó nor-
mális eloszlású legyen, elegendő, ha a különbség normális eloszlású.
• Nagy minták esetén az intervallum közelítőleg érvényes akkor is, ha a
különbség nem normális eloszlású.
Ha a két változót két független mintán mérjük, akkor ismert σ1 , σ2 szó-
rások esetén a konfidencia-intervallum:
s s
(x̄1 − x̄2 ) − zkrit
σ12 σ22 σ12 σ22
+ , (x̄1 − x̄2 ) + zkrit + ,
n1 n2 n1 n2
A szabadsági fok képlete bonyolult, csak a rend kedvéért adjuk meg, kéz-
zel az ember ilyet már úgysem számol, csak számítógépes programmal (ha
mégis papíron kell számolnunk, a szabadsági fokot kerekíteni kell, különben
a t-táblázatból nem tudjuk kinézni a kritikus értéket).
amellyel a konfidencia-intervallum:
r r !
s2 s2 s2 s2
(x̄1 − x̄2 ) − tkrit + , (x̄1 − x̄2 ) + tkrit + .
n1 n2 n1 n2
(n − 1)s2
σ2
statisztika pivot, eloszlása (n − 1) szabadsági fokú khi-négyzet-eloszlás (higgyük el bi-
zonyítás nélkül). Ezért a khi-négyzet-eloszlás megfelelő kritikus értékeire (χ21 , χ22 ) igaz,
hogy
2 (n − 1)s2 2
P χ2 ≤ ≤ χ1 = 1 − α.
σ2
Az egyenlőtlenséget átrendezve:
(n − 1)s2 (n − 1)s2
P 2
≤ σ2 ≤ = 1 − α,
χ1 χ22
k1 k2
RR
d = .
n1 n2
A.7. Esélyhányados
Az esélyhányados fogalmilag nagyon hasonló a relatív kockázathoz, csak
annyi a különbség, hogy most nem valószínűséggel, hanem oddsszal számo-
lunk (lásd a 3.3. fejezetben).
A szokásos pontbecslés az esélyhányadosra, ha a vizsgált csoportból szár-
mazó n1 elemű mintában k1 , míg a referenciacsoportból származó n2 elemű
mintában k2 esetet regisztráltunk:
k1 k2
OR
d = .
n1 − k 1 n2 − k2
409
410 Reiczigel – Harnos – Solymosi: Biostatisztika
λ
x 1.5 2.0 2.5 3.0 4.0 5.0 6.0 7.0 8.0 10.0
0 0.2231 0.1353 0.0821 0.0498 0.0183 0.0067 0.0025 0.0009 0.0003 0.0000
1 0.3347 0.2707 0.2052 0.1494 0.0733 0.0337 0.0149 0.0064 0.0027 0.0005
2 0.2510 0.2707 0.2565 0.2240 0.1465 0.0842 0.0446 0.0223 0.0107 0.0023
3 0.1255 0.1804 0.2138 0.2240 0.1954 0.1404 0.0892 0.0521 0.0286 0.0076
4 0.0471 0.0902 0.1336 0.1680 0.1954 0.1755 0.1339 0.0912 0.0573 0.0189
5 0.0141 0.0361 0.0668 0.1008 0.1563 0.1755 0.1606 0.1277 0.0916 0.0378
6 0.0035 0.0120 0.0278 0.0504 0.1042 0.1462 0.1606 0.1490 0.1221 0.0631
7 0.0008 0.0034 0.0099 0.0216 0.0595 0.1044 0.1377 0.1490 0.1396 0.0901
8 0.0001 0.0009 0.0031 0.0081 0.0298 0.0653 0.1033 0.1304 0.1396 0.1126
9 0.0000 0.0002 0.0009 0.0027 0.0132 0.0363 0.0688 0.1014 0.1241 0.1251
10 0.0000 0.0000 0.0002 0.0008 0.0053 0.0181 0.0413 0.0710 0.0993 0.1251
11 0.0000 0.0000 0.0000 0.0002 0.0019 0.0082 0.0225 0.0452 0.0722 0.1137
12 0.0000 0.0000 0.0000 0.0001 0.0006 0.0034 0.0113 0.0263 0.0481 0.0948
13 0.0000 0.0000 0.0000 0.0000 0.0002 0.0013 0.0052 0.0142 0.0296 0.0729
14 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0022 0.0071 0.0169 0.0521
15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0009 0.0033 0.0090 0.0347
16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0014 0.0045 0.0217
17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0021 0.0128
18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0009 0.0071
19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0037
20 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0019
21 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0009
22 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0004
23 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002
24 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
Statisztikai táblázatok 413
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641
0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776
0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451
0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681
1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294
1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233
2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
3.0 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010
414 Reiczigel – Harnos – Solymosi: Biostatisztika
419
420 Reiczigel – Harnos – Solymosi: Biostatisztika
Pinheiro, J., Bates, D., DebRoy, S., Sarkar, D. & R Core Team. 2018. nlme:
Linear and Nonlinear Mixed Effects Models. URL:
https://CRAN.R-project.org/package=nlme, R package version 3.1-137
Popper, K. R., Petri, G. & Szegedi, P. 1997. A tudományos kutatás logikája. –
Európa Kiadó
R Core Team . 2020. R: A Language and Environment for Statistical Computing.
R Foundation for Statistical Computing, Vienna, Austria. URL:
https://www.R-project.org/
Rotondi, M. A. 2018. epibasix: Elementary Epidemiological Functions for
Epidemiology and Biostatistics. URL:
https://CRAN.R-project.org/package=epibasix, R package version 1.5
Rényi, A. 1973. Valószínűségszámítás. – Tankönyvkiadó
Sarkar, D. 2008. Lattice: Multivariate Data Visualization with R. – Springer.
URL: http://lmdvr.r-forge.r-project.org
Schafer, J., Opgen-Rhein, R., Zuber, V., Ahdesmaki, M., Silva, A. P. D. &
Strimmer, K. 2017. corpcor: Efficient Estimation of Covariance and (Partial)
Correlation. URL: https://CRAN.R-project.org/package=corpcor, R
package version 1.6.9
Snow, G. 2016. TeachingDemos: Demonstrations for Teaching and Learning.
URL: https://CRAN.R-project.org/package=TeachingDemos, R package
version 2.10
Solt, G. 2006. Valószínűségszámítás. – Műszaki Könyvkiadó
Stevenson, M. & Sergeant, E. 2021. epiR: Tools for the Analysis of
Epidemiological Data. URL: https://CRAN.R-project.org/package=epiR, R
package version 2.1.31
Sugár, L., Heltay, I., Kabai, P. & Mátrai, K. 1989. Growth and condition of forest
and field roe deer fawns. In: Proceeding of the 16th Congress of International
Union of Game Biologists, Strbske Pleso, Tchecoslovaquie,(1983), vol. 1. vol. 1,
pp. 218–227
Székely, T., Cuthill, I. C. & Kis, J. 1999. Brood desertion in kentish plover: sex
differences in remating opportunities. – Behavioral Ecology 10(2): 185–190.
Venables, W. N. & Ripley, B. D. 2002. Modern Applied Statistics with S. 4th ed.
– Springer. URL: http://www.stats.ox.ac.uk/pub/MASS4
Warnes, G. R., Bolker, B., Lumley, T., from Randall C. Johnson are Copyright
SAIC-Frederick, R. C. J. C., by the Intramural Research Program, I. F., of the
NIH, Institute, N. C. & for Cancer Research under NCI Contract
NO1-CO-12400., C. 2018. gmodels: Various R Programming Tools for Model
Fitting. URL: https://CRAN.R-project.org/package=gmodels, R package
version 2.18.1
Warton, D. I., Duursma, R. A., Falster, D. S. & Taskinen, S. 2012. smatr 3 – an
R package for estimation and inference about allometric lines. – Methods in
Ecology and Evolution 3: 257–259.
Wilcoxon, F. 1945. Individual comparisons by ranking methods. – Biometrics
Bulletin 1(6): 80–83.
Zar, J. H. 1999. Biostatistical analysis – Pearson Education India
Tárgymutató
I-es modell 253 aszimptotikus (tulajdonság) 137
I. típusú négyzetösszeg 376 aszimptotikus normalitás 131,
II-es modell, 253, 254, 265 140, 144, 145
II. típusú négyzetösszeg 377 aszimptotikus pivot 143
aszimptotikus próba 169
A, Á aszimptotikus torzítatlanság
abline() 257, 267 137, 139, 140, 144
abszolút (arány-) skála 35, 38, 91 átlag 17, 19, 49, 66, 67, 78, 97, 105,
abszolút eltérés 110 113, 123, 145, 157
adatmátrix 33, 116 geometriai 108
adatpótlás (imputálás) 47 súlyozott 105
adatstruktúra trimmelt 107, 135
csoportos 283 átlagbecslés 352
ismételt méréses 283 átlagmodell 348, 351
aggregált eloszlás 50 átlagok közötti különbség 314
AIC 372, 373, 376 átlagos abszolút eltérés (MAD)
Akaike-kritérium 372 111, 133
állandó hiba variancia 367 átlagos négyzetes eltérés 133, 135
általános lineáris hipotézis 381 átlagra való hatás 314
általános lineáris modell 345
általánosíthatóság 344 B
alsó határ 178 bargraph.CI() 97, 340
alsó kvartilis 109, 114 Bartlett-próba 206, 319
alternatív hipotézis 151, 156 bartlett.test() 206
ANCOVA 328, 345, 353 Bayes-kritérium 372
ANOVA 202, 345, 361, 380 beágyazott modell 361
Anova() 377 becsült érték 315, 359
anova() 259, 363, 372, 375 becslés 27, 80, 118, 124
ANOVA-modell 376 eloszlása 124
ANOVA-tábla 319, 320 intervallumbecslés 126
aov() 318, 320, 328, 376 pontbecslés 124
arány- (abszolút) skála 35, 36 pontossága 124, 134, 145, 147
as.factor() 38, 348 szórása 124
asszociáció 117 torzítatlan 136, 137
asszociációs együttható 117 torzított 136
423
424 Reiczigel – Harnos – Solymosi: Biostatisztika
F -próba 203, 315, 325, 361, 367, 372, hiba-valószínűség 129, 151, 155,
373 159, 170, 171, 185
független események 56, 182 hibatag 253, 256, 258, 294, 360
független megfigyelések 338 hipergeometrikus eloszlás 68
független minta 30 hipotézis 344
független változó 314 hipotézisvizsgálat 27, 80, 151, 257, 271,
független valószínűségi 360
változó 67 hist() 94
függetlenség 145, 215, 246, 283,
hisztogram 93, 95
313, 367
kumulatív 93
feltételes 68
statisztikai 115 osztályszélesség 93
teljes 68 relatív 93
változóké 115, 244 simított 94
függetlenségvizsgálat 213, 219, Holm-féle korrekció 183, 378
227 homogenitásvizsgálat 218, 227
függő változó 314, 345
G, GY I
Gauss-eloszlás (normális) 78
illeszkedésvizsgálat 206
Gauss-görbe (haranggörbe) 78
imputálás (adatpótlás) 47
geometriai átlag 108
glht() 378, 381 indikátor változó 348, 350, 377
gls() 299 indirekt bizonyítás 154
gnls() 307, 308 induktív statisztika 27, 80, 84, 87, 151
Goodman és Kruskal-féle influence.measures() 290
lambda 118 információs kritériumok 372
görbe alatti terület 63 interaction.plot() 341
gyakorisági adatok 35, 68 interakció 325–328, 330–332, 341, 352,
gyakoriságtáblázat 88, 93 357, 390
kétdimenziós 98 interakciós ábra 341
interkvartilis terjedelem 49, 104, 109,
H 113
haranggörbe (Gauss-görbe) 78, 80 intervallum 38, 52
Hat mátrix 360
intervallumbecslés 126, 146, 147
hatás 124
pontossága 135
hatásmodell 348, 351
hatásnagyság 153 intervallumskála 35–38, 91, 243,
hatóerő 289, 370 249, 252
hatványfüggvény 296, 301 IQR 49, 104, 109, 113
hatvalues() 370 IQR() 109
hegedűábra (violin plot) 96 irreleváns (szakmailag, klinikailag) 153,
helyzeti mutató 104, 105 178
hiányzó értékek 45, 46, 49 irreleváns információ 45
hiba 345 is.na() 46
Tárgymutató 427
K konfidencia-sáv 262
kapcsolat konfidencia-szint 126
korrelációs 243 konfidencia-tartomány 146
lineáris 243, 255, 268 kontingencia-tábla 98
monoton 243 kontraszt 324, 333, 380
negatív 243 ortogonális 334
nemlineáris 294 kontrasztmátrix 381, 389, 392
oksági 252 kontrollált randomizált kísérlet 152
pozitív 243 kontrollcsoport 313
szimmetrikus 243, 254 konzervativizmus 155, 160
kapcsolt rangok 44, 234, 236, 237, 239 konzisztencia 139
Kendall-féle tau 244, 247–249 konzisztens becslés 139, 140
kereszttábla 98 korreláció 117, 145
kezeléskombináció 313, 325, 328, 338, korrelációs együttható 117, 245
342, 353, 366 Kendall-féle tau 244, 247–249
kezelt csoport 313, 338 parciális 274
képzett változó 39 Pearson-féle 244, 245, 247, 273
kétoldali kritikus érték 82 Spearman-féle 244, 247–249
kétoldali próba 167, 175, 186 többszörös 273
kéttényezős elrendezés 330 korrelációszámítás 243, 254
khi-négyzet korrelálatlanság 244
eloszlás 80 korrigálatlan (variancia, szórás) 111
próba 157, 203, 207, 214, 217, 221, korrigált R2 273, 371
223, 227 korrigált (variancia, szórás)
kiegyensúlyozatlan elrendezés 319, 376 111
kiegyensúlyozatlanság 314 koszinusz-görbe 310
kiegyensúlyozott elrendezés 314, kovariáns 328, 348, 353, 357, 389
376 kód 33, 38
kiugró érték (outlier) 48, 111, 285, 370 kördiagram 91
kizáró események 52 közönséges legkisebb négyzetek
kísérleti elrendezések 329 255, 269
kísérlettervezés 32, 116 középérték 104
kockázat 53, 54, 58, 60 kritikus érték 81, 142, 144, 171, 172,
relatív kockázat 58 196, 205, 209, 397
kollinearitás 276, 277, 303, 314, egyoldali 172
359, 370 kétoldali 82, 172
Kolmogorov–Szmirnov-próba 209, 219 kritikus tartomány 170, 177
komplementer esemény 51 kruskal.test() 239, 241
konfidencia-intervallum 19, 126, kruskal_test() 239
128, 142, 149, 153, 184, Kruskal–Wallis-féle H-próba 238
189, 222, 225, 261, 322, ks.test() 210, 219
366, 397 kumulatív gyakoriság 36, 88
egyoldali 130, 131, 397 kutatásmódszertan 32
egzakt 404, 407, 408 kutatástervezés 32
szimmetrikus kétoldali 129 kvalitatív változó 35, 37, 104
428 Reiczigel – Harnos – Solymosi: Biostatisztika
P power.prop.test() 186
p.adjust() 184 power.t.test() 178, 181, 186
pairs() 100, 268 PP-ábra 211
par() 293 predict() 261, 262
paraméterbecslés 256, 260, 261, predikció 260
304, 351, 358, 378 predikciós intervallum 261, 262
paraméteres 140, 187 predikciós sáv 262
paramétervektor 346 prevalencia 53, 82
parciális korreláció 274 preventív faktor 58
partial.cor() 275 próba 151, 165, 193, 397
párosított minták 200, 226, 228, 234, aszimptotikus 169
398 egyoldali 167
pbinom() 190 egzakt 169
pchisq() 80 kétoldali 167
Pearson-féle korrelációs próba ereje 177
együttható 121, 244, 245, próbastatisztika 164, 165, 168, 187
247, 273 prop.table() 89, 98
percentilis 114 prop.test() 186, 221–224, 227
p-érték 19, 20, 160, 162, 167, 173, 187 pt() 80
pf() 80 publikációs torzítás 163
pivot 143
placebo-kontroll 313 Q
plot() 268, 292, 332, 367 qchisq() 80, 144
plug-in becslés 139, 140, 406 qf() 80
pnorm() 80 qnorm() 80, 143, 172
Poisson-eloszlás 75 QQ-ábra 210, 282, 306, 319, 333, 368
pontbecslés 124, 147 qqline() 212
hibája 132 qqnorm() 212
pontdiagram 91, 99 qqplot() 212
pontfelhő 99 qt() 80, 144
pontosság 185 quantile() 109, 114
Popper 155
populáció 24, 103, 118, 123, 151 R
hipotetikus 25 R2 370
képzetes 25 randomizáció 329
véges 25, 26, 29, 67, 69, 103 randomizált kísérlet 152
végtelen 25, 26, 29, 54, 69, rang-transzformáció 44
103, 123 range() 109
populációátlag 105, 131, 149, rangkorrelációs együttható
185, 194, 397 Spearman-féle 244, 247–249
populációbeli részarány 53, 71, rangmódszerek 189
149, 220, 402 rangpróbák 231
populációbeli variancia 401 rangszámok 44, 231
post hoc-tesztek 322 rank() 44
power.anova.test() 186 rchisq() 81
Tárgymutató 431