Áéláeokf SDSDF

You might also like

Download as txt, pdf, or txt
Download as txt, pdf, or txt
You are on page 1of 6

. Többlépcsős mintavétel.

Ez az előző módszer bonyolultabb változata, mert itt a


klasztereken belül nem vizsgáljuk az összes egyedet, hanem
onnan is mintát veszünk.
Előny: különböző méretű mintákat lehet venni az egyes
klaszterekből (variabilitás külünböző, vagy különböző költséggel
vizsgálhatók).
Példa: kiválasztunk n 1 gazdaságot, a gazdaságonként n 2Transzformálás
Milyen problémák esetén segíthet az adatok transzformálása?
1. (Hiba) varianciák nem egyeznek;
2. Nem normális (hiba) eloszlás;
3. Kezelések hatása nem additív.
Pl. ha arányokkal dolgozunk, a kezelés hatása nem additív:
2% →3% (+1%),
de
25%→28%, és nem (25+1)%,
vagy
gyakoriságok esetén a kezelés hatása:
de
10 →20
100→200 és nem 110.
Az előbbi esetben az arcsin, a második esetben a log
transzformáció segíthet.
Általában: Azok a transzformációk, amelyek a 3. problémát
megoldják, az első kettőn is segítenek.
FONTOS! Az eredményeket transzformáljuk vissza!
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
12Ferde eloszlások normálissá transzformálása
- jobbra ferde eloszlás: gyök- vagy a logaritmus-transzformáció
20
20
3
x , x , ...
10
10
log x
0
0
- balra ferdeség eloszlás: hatvány-
függvény
20
2
3
vagy
exponenciális
20
x , x , ...
10
e x
0
10
0
- más esetekben másfajta transzformációk (pl. arcus sinus)
- de a sikerre nincs garancia,
van olyan eset is, amikor az
eloszlást
semmilyen
transzformáció sem képes
normálissá tenni, mint például
a következő ábrán →
20
10
0
Transzformációra szükség lehet más miatt is, például ha az
értékek
szóródása
az
értékek
nagyságától
függ
(szóráskiegyenlítés), vagy ha két változó között a kapcsolat
nem lineáris (linearizálás).
Figyelem! Előfordulhat, hogy az eredeti adatok biológiailag jól
interpretálhatók, a transzformált adatoknak viszont már nem
tudunk biológiai jelentést tulajdonítani. Ilyenkor inkább ne
transzformáljunk.
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
13Példák transzformációkra
A logaritmus transzformáció : Y ′ = lg( Y + 1 )
- ha s > x , vagy ha az eloszlás ferde. A környezetben
aggregálódotnél jobb, pontosabb eljárást alkalmazunk a konfidencia-
intervallum konstrukciójára,
- minél nagyobb mintával dolgozunk,
- minél távolabb esik az 50%-tól (bármelyik irányban) a
prevalencia (de persze ezt nem áll módunkban befolyásolni).
Számítsuk ki, mekkora minta szükséges ahhoz, hogy mondjuk
egy, a prevalenciára adott 95%-os intervallum szélessége a
10%-ot ne haladja meg (mint például 26% - 36%). A
számítások követhetősége kedvéért most használjuk a
konfidencia-intervallum konstrukciójára a legegyszerűbb
eljárást. Ezzel a 95%-os intervallum:
p − 1 . 96
p ( 1 − p )
n
... p + 1 . 96
p ( 1 − p )
,
n
aholp a mintabeli prevalenciát, n pedig a mintaelemszámot
jelöli. Az intervallum szélessége innen a gyök alatti kifejezés
szorozva 3.92-vel. Azt szeretnénk, hogy ez legfeljebb 10%
legyen, azaz
3.92
p ( 1 − p )
≤ 0.1
n
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
3Ap-t megsaccolva, majd az egyenlőtlenséget n-re megoldva
kapjuk a mintaelemszámot. Például hap = 0.3 körüli értékre
számítunk, akkor n ≥ 325 adódik, azaz legalább 325 elemű
mintára van szükség.
Mindig – legyen szó akár átlagértékről, akár relatív rizikóról,
vagy bármi másról – ugyanígy, a szóban forgó konfidencia-
intervallum számítási képletéből kiindulva határozhatjuk meg a
szükséges mintaelemszámot. Persze mindig lesz olyan
paraméter, amelyet ehhez meg kell saccolni (mint az előbb ap-
t), mert tőle is függ az intervallum szélessége.
Példak: Mekkora minta szükséges, hogy a broiler csirkék
súlyára vonatkozó 95%-os konfidencia-intervallum szélessége
legfeljebb 0.10 kg legyen? Az egyszerűség kedvéért tegyük fel,
hogy a testsúly normális eloszlást követ. Ekkor az átlagra adott
konfidencia-intervallum képlete a jól ismert
x − 1 . 96
σ
... x + 1 . 96
n
σ
n
,
aholx a mintaátlag, σ a szórás (SD), n pedig a
mintaelemszám. Az intervallum szélessége akkor lesz
legfeljebb 0.10 kg, ha
3 . 92
σ
n
≤ 0.10
Most a σ -t kell megsaccolni – például irodalmi adatokból, vagy
az eddig ismert legnagyobb és legkisebb csirke súlyából (±3SD)
– ahhoz, hogy az egyenlőtlenséget n-re meg tudjuk oldani.
Ha pedig nincs képlet, mert például a konfidencia-intervallumot
számítógépes program számolja...
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
4Ha
nem
konfidencia-intervallumhoz,
hanem
hipotézisvizsgálathoz szeretnénk meghatározni a szükséges
mintaelemszámot, akkor a figyelembe veendő tényezők
- az elsőfajú hiba megengedhető szintje, α (a megbízhatósági
szint szerepét veszi át),
- a legkisebb különbség, amit a teszttel még szeretnénk
kimutatni, d (az intervallum szélességének szerepét veszi
át),
- a másodfajú hiba megengedhető szintje, β ,
- az ellenhipotézis típusa (egy- vagy kétoldali-e),
és itt is mindig van(nak) megsaccolni való paraméter(ek).
Aki nem akar a fentihez hasonló (sőt rendszerint még
bonyolultabb) egyenletek megoldásával foglalkozni, az a
szükséges mintaelemszám meghatározására használhat
számítógépes programokat (STATGRAPHICS, CADEMO),
vagy tanácsot kérhet egy statisztikustól. Régi könyvekben
találhatunk táblázatokat vagy nomogramokat is.
Ha a megsaccolnivalókról sem saját tapasztalatunk nincs, sem
az irodalomban sem találunk semmit, akkor szokás előkísérletet
végezni.
Bonyolultabb elemzéseknél több "megsaccolnivaló" van.
ANOVA-nál például más-más a minimálisan szükséges
mintaelemszám attól függően, hogy milyen ellenhipotézist
szeretnénk adott (1– β ) erővel kimutatni. Pl. négy csoport
esetén:
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
5Mintavételezési módszerek
Mintavétel – a populáció egy részének kiválasztása (nem az
egész populációt vizsgáljuk)
Cél:
• a populáció jellemzőinek, paramétereinek becslése:
o egy betegség jelen van vagy nincs;
o átlag, szórás becslése, stb.
• változók kapcsolatának meghatározása, következtetések
levonása a populácóra vonatkozóan.
Cél: Olyan minta választása, amely:
• jól reprezentálja a populációt;
• a becslések elfogadható pontosságúnél jobb, pontosabb eljárást alkalmazunk a
konfidencia-
intervallum konstrukciójára,
- minél nagyobb mintával dolgozunk,
- minél távolabb esik az 50%-tól (bármelyik irányban) a
prevalencia (de persze ezt nem áll módunkban befolyásolni).
Számítsuk ki, mekkora minta szükséges ahhoz, hogy mondjuk
egy, a prevalenciára adott 95%-os intervallum szélessége a
10%-ot ne haladja meg (mint például 26% - 36%). A
számítások követhetősége kedvéért most használjuk a
konfidencia-intervallum konstrukciójára a legegyszerűbb
eljárást. Ezzel a 95%-os intervallum:
p − 1 . 96
p ( 1 − p )
n
... p + 1 . 96
p ( 1 − p )
,
n
aholp a mintabeli prevalenciát, n pedig a mintaelemszámot
jelöli. Az intervallum szélessége innen a gyök alatti kifejezés
szorozva 3.92-vel. Azt szeretnénk, hogy ez legfeljebb 10%
legyen, azaz
3.92
p ( 1 − p )
≤ 0.1
n
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
3Ap-t megsaccolva, majd az egyenlőtlenséget n-re megoldva
kapjuk a mintaelemszámot. Például hap = 0.3 körüli értékre
számítunk, akkor n ≥ 325 adódik, azaz legalább 325 elemű
mintára van szükség.
Mindig – legyen szó akár átlagértékről, akár relatív rizikóról,
vagy bármi másról – ugyanígy, a szóban forgó konfidencia-
intervallum számítási képletéből kiindulva határozhatjuk meg a
szükséges mintaelemszámot. Persze mindig lesz olyan
paraméter, amelyet ehhez meg kell saccolni (mint az előbb ap-
t), mert tőle is függ az intervallum szélessége.
Példak: Mekkora minta szükséges, hogy a broiler csirkék
súlyára vonatkozó 95%-os konfidencia-intervallum szélessége
legfeljebb 0.10 kg legyen? Az egyszerűség kedvéért tegyük fel,
hogy a testsúly normális eloszlást követ. Ekkor az átlagra adott
konfidencia-intervallum képlete a jól ismert
x − 1 . 96
σ
... x + 1 . 96
n
σ
n
,
aholx a mintaátlag, σ a szórás (SD), n pedig a
mintaelemszám. Az intervallum szélessége akkor lesz
legfeljebb 0.10 kg, ha
3 . 92
σ
n
≤ 0.10
Most a σ -t kell megsaccolni – például irodalmi adatokból, vagy
az eddig ismert legnagyobb és legkisebb csirke súlyából (±3SD)
– ahhoz, hogy az egyenlőtlenséget n-re meg tudjuk oldani.
Ha pedig nincs képlet, mert például a konfidencia-intervallumot
számítógépes program számolja...
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
4Ha
nem
konfidencia-intervallumhoz,
hanem
hipotézisvizsgálathoz szeretnénk meghatározni a szükséges
mintaelemszámot, akkor a figyelembe veendő tényezők
- az elsőfajú hiba megengedhető szintje, α (a megbízhatósági
szint szerepét veszi át),
- a legkisebb különbség, amit a teszttel még szeretnénk
kimutatni, d (az intervallum szélességének szerepét veszi
át),
- a másodfajú hiba megengedhető szintje, β ,
- az ellenhipotézis típusa (egy- vagy kétoldali-e),
és itt is mindig van(nak) megsaccolni való paraméter(ek).
Aki nem akar a fentihez hasonló (sőt rendszerint még
bonyolultabb) egyenletek megoldásával foglalkozni, az a
szükséges mintaelemszám meghatározására használhat
számítógépes programokat (STATGRAPHICS, CADEMO),
vagy tanácsot kérhet egy statisztikustól. Régi könyvekben
találhatunk táblázatokat vagy nomogramokat is.
Ha a megsaccolnivalókról sem saját tapasztalatunk nincs, sem
az irodalomban sem találunk semmit, akkor szokás előkísérletet
végezni.
Bonyolultabb elemzéseknél több "megsaccolnivaló" van.
ANOVA-nál például más-más a minimálisan szükséges
mintaelemszám attól függően, hogy milyen ellenhipotézist
szeretnénk adott (1– β ) erővel kimutatni. Pl. négy csoport
esetén:
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
5Mintavételezési módszerek
Mintavétel – a populáció egy részének kiválasztása (nem az
egész populációt vizsgáljuk)
Cél:
• a populáció jellemzőinek, paramétereinek becslése:
o egy betegség jelen van vagy nincs;
o átlag, szórás becslése, stb.
• változók kapcsolatának meghatározása, következtetések
levonása a populácóra vonatkozóan.
Cél: Olyan minta választása, amely:
• jól reprezentálja a populációt;
• a becslések elfogadható pontosságút organizmusok gyakoriságának eloszlása
tipikusan nem normális, a log transzformációval normalizálható.
A negatív binomiális illetve logaritmikus eloszlású változók
transzformálhatók jól.
2
A négyzetgyök transzformáció: Y ′ = Y
Poisson eloszlású gyakoriságokra (véletlenül elhelyezkedő
objektumok) alkalmazható ( s ≈ x ).
A nagyobb értékeket jobban lecsökkenti, mint a kisebbeket.
Az arcsin, vagy anguláris transzformáció: Y ′ = arcsin p ,
ahol p arány. Arányokra alkalmazható.
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
14Ne transzformáljunk gondolkodás nélkül!
(A disznó és transzformáltjai...)

You might also like