Áéláeokf SDSDF

. Többlépcsős mintavétel.
Ez az előző módszer bonyolultabb változata, mert itt a

klasztereken belül nem vizsgáljuk az összes egyedet, hanem
onnan is mintát veszünk.
Előny: különböző méretű mintákat lehet venni az egyes
klaszterekből (variabilitás külünböző, vagy különböző költséggel
vizsgálhatók).
Példa: kiválasztunk n 1 gazdaságot, a gazdaságonként n 2Transzformálás
Milyen problémák esetén segíthet az adatok transzformálása?
1. (Hiba) varianciák nem egyeznek;
2. Nem normális (hiba) eloszlás;
3. Kezelések hatása nem additív.
Pl. ha arányokkal dolgozunk, a kezelés hatása nem additív:
2% →3% (+1%),
de
25%→28%, és nem (25+1)%,
vagy
gyakoriságok esetén a kezelés hatása:
de
10 →20
100→200 és nem 110.
Az előbbi esetben az arcsin, a második esetben a log
transzformáció segíthet.
Általában: Azok a transzformációk, amelyek a 3. problémát
megoldják, az első kettőn is segítenek.
FONTOS! Az eredményeket transzformáljuk vissza!
Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006
12Ferde eloszlások normálissá transzformálása
- jobbra ferde eloszlás: gyök- vagy a logaritmus-transzformáció
20
20
3
x , x , ...
10
10
log x
0
0
- balra ferdeség eloszlás: hatvány-
függvény
20
2
3
vagy
exponenciális
20
x , x , ...
10
e x
0
10
0
- más esetekben másfajta transzformációk (pl. arcus sinus)
- de a sikerre nincs garancia,
van olyan eset is, amikor az
eloszlást
semmilyen
transzformáció sem képes
normálissá tenni, mint például
a következő ábrán →
20
10
0
Transzformációra szükség lehet más miatt is, például ha az
értékek
szóródása
az
értékek
nagyságától
függ
(szóráskiegyenlítés), vagy ha két változó között a kapcsolat
nem lineáris (linearizálás).
Figyelem! Előfordulhat, hogy az eredeti adatok biológiailag jól
interpretálhatók, a transzformált adatoknak viszont már nem
tudunk biológiai jelentést tulajdonítani. Ilyenkor inkább ne
transzformáljunk.
13Példák transzformációkra
A logaritmus transzformáció : Y ′ = lg( Y + 1 )
- ha s > x , vagy ha az eloszlás ferde. A környezetben
aggregálódotnél jobb, pontosabb eljárást alkalmazunk a konfidencia-
intervallum konstrukciójára,
- minél nagyobb mintával dolgozunk,
- minél távolabb esik az 50%-tól (bármelyik irányban) a
prevalencia (de persze ezt nem áll módunkban befolyásolni).
Számítsuk ki, mekkora minta szükséges ahhoz, hogy mondjuk
egy, a prevalenciára adott 95%-os intervallum szélessége a
10%-ot ne haladja meg (mint például 26% - 36%). A
számítások követhetősége kedvéért most használjuk a
konfidencia-intervallum konstrukciójára a legegyszerűbb
eljárást. Ezzel a 95%-os intervallum:
p − 1 . 96
p ( 1 − p )
n
... p + 1 . 96
p ( 1 − p )
,
n
aholp a mintabeli prevalenciát, n pedig a mintaelemszámot
jelöli. Az intervallum szélessége innen a gyök alatti kifejezés
szorozva 3.92-vel. Azt szeretnénk, hogy ez legfeljebb 10%
legyen, azaz
3.92
p ( 1 − p )
≤ 0.1
n
3Ap-t megsaccolva, majd az egyenlőtlenséget n-re megoldva
kapjuk a mintaelemszámot. Például hap = 0.3 körüli értékre
számítunk, akkor n ≥ 325 adódik, azaz legalább 325 elemű
mintára van szükség.
Mindig – legyen szó akár átlagértékről, akár relatív rizikóról,
vagy bármi másról – ugyanígy, a szóban forgó konfidencia-
intervallum számítási képletéből kiindulva határozhatjuk meg a
szükséges mintaelemszámot. Persze mindig lesz olyan
paraméter, amelyet ehhez meg kell saccolni (mint az előbb ap-
t), mert tőle is függ az intervallum szélessége.
Példak: Mekkora minta szükséges, hogy a broiler csirkék
súlyára vonatkozó 95%-os konfidencia-intervallum szélessége
legfeljebb 0.10 kg legyen? Az egyszerűség kedvéért tegyük fel,
hogy a testsúly normális eloszlást követ. Ekkor az átlagra adott
konfidencia-intervallum képlete a jól ismert
x − 1 . 96
σ
... x + 1 . 96
n
σ
n
,
aholx a mintaátlag, σ a szórás (SD), n pedig a
mintaelemszám. Az intervallum szélessége akkor lesz
legfeljebb 0.10 kg, ha
3 . 92
σ
n
≤ 0.10
Most a σ -t kell megsaccolni – például irodalmi adatokból, vagy
az eddig ismert legnagyobb és legkisebb csirke súlyából (±3SD)
– ahhoz, hogy az egyenlőtlenséget n-re meg tudjuk oldani.
Ha pedig nincs képlet, mert például a konfidencia-intervallumot
számítógépes program számolja...
4Ha
nem
konfidencia-intervallumhoz,
hanem
hipotézisvizsgálathoz szeretnénk meghatározni a szükséges
mintaelemszámot, akkor a figyelembe veendő tényezők
- az elsőfajú hiba megengedhető szintje, α (a megbízhatósági
szint szerepét veszi át),
- a legkisebb különbség, amit a teszttel még szeretnénk
kimutatni, d (az intervallum szélességének szerepét veszi
át),
- a másodfajú hiba megengedhető szintje, β ,
- az ellenhipotézis típusa (egy- vagy kétoldali-e),
és itt is mindig van(nak) megsaccolni való paraméter(ek).
Aki nem akar a fentihez hasonló (sőt rendszerint még
bonyolultabb) egyenletek megoldásával foglalkozni, az a
szükséges mintaelemszám meghatározására használhat
számítógépes programokat (STATGRAPHICS, CADEMO),
vagy tanácsot kérhet egy statisztikustól. Régi könyvekben
találhatunk táblázatokat vagy nomogramokat is.
Ha a megsaccolnivalókról sem saját tapasztalatunk nincs, sem
az irodalomban sem találunk semmit, akkor szokás előkísérletet
végezni.
Bonyolultabb elemzéseknél több "megsaccolnivaló" van.
ANOVA-nál például más-más a minimálisan szükséges
mintaelemszám attól függően, hogy milyen ellenhipotézist
szeretnénk adott (1– β ) erővel kimutatni. Pl. négy csoport
esetén:
5Mintavételezési módszerek
Mintavétel – a populáció egy részének kiválasztása (nem az
egész populációt vizsgáljuk)
Cél:
• a populáció jellemzőinek, paramétereinek becslése:
o egy betegség jelen van vagy nincs;
o átlag, szórás becslése, stb.
• változók kapcsolatának meghatározása, következtetések
levonása a populácóra vonatkozóan.
Cél: Olyan minta választása, amely:
• jól reprezentálja a populációt;
• a becslések elfogadható pontosságúnél jobb, pontosabb eljárást alkalmazunk a
konfidencia-
intervallum konstrukciójára,
- minél nagyobb mintával dolgozunk,
- minél távolabb esik az 50%-tól (bármelyik irányban) a
prevalencia (de persze ezt nem áll módunkban befolyásolni).
Számítsuk ki, mekkora minta szükséges ahhoz, hogy mondjuk
egy, a prevalenciára adott 95%-os intervallum szélessége a
10%-ot ne haladja meg (mint például 26% - 36%). A
számítások követhetősége kedvéért most használjuk a
konfidencia-intervallum konstrukciójára a legegyszerűbb
eljárást. Ezzel a 95%-os intervallum:
p − 1 . 96
p ( 1 − p )
n
... p + 1 . 96
p ( 1 − p )
,
n
aholp a mintabeli prevalenciát, n pedig a mintaelemszámot
jelöli. Az intervallum szélessége innen a gyök alatti kifejezés
szorozva 3.92-vel. Azt szeretnénk, hogy ez legfeljebb 10%
legyen, azaz
3.92
p ( 1 − p )
≤ 0.1
n
3Ap-t megsaccolva, majd az egyenlőtlenséget n-re megoldva
kapjuk a mintaelemszámot. Például hap = 0.3 körüli értékre
számítunk, akkor n ≥ 325 adódik, azaz legalább 325 elemű
mintára van szükség.
Mindig – legyen szó akár átlagértékről, akár relatív rizikóról,
vagy bármi másról – ugyanígy, a szóban forgó konfidencia-
intervallum számítási képletéből kiindulva határozhatjuk meg a
szükséges mintaelemszámot. Persze mindig lesz olyan
paraméter, amelyet ehhez meg kell saccolni (mint az előbb ap-
t), mert tőle is függ az intervallum szélessége.
Példak: Mekkora minta szükséges, hogy a broiler csirkék
súlyára vonatkozó 95%-os konfidencia-intervallum szélessége
legfeljebb 0.10 kg legyen? Az egyszerűség kedvéért tegyük fel,
hogy a testsúly normális eloszlást követ. Ekkor az átlagra adott
konfidencia-intervallum képlete a jól ismert
x − 1 . 96
σ
... x + 1 . 96
n
σ
n
,
aholx a mintaátlag, σ a szórás (SD), n pedig a
mintaelemszám. Az intervallum szélessége akkor lesz
legfeljebb 0.10 kg, ha
3 . 92
σ
n
≤ 0.10
Most a σ -t kell megsaccolni – például irodalmi adatokból, vagy
az eddig ismert legnagyobb és legkisebb csirke súlyából (±3SD)
– ahhoz, hogy az egyenlőtlenséget n-re meg tudjuk oldani.
Ha pedig nincs képlet, mert például a konfidencia-intervallumot
számítógépes program számolja...
4Ha
nem
konfidencia-intervallumhoz,
hanem
hipotézisvizsgálathoz szeretnénk meghatározni a szükséges
mintaelemszámot, akkor a figyelembe veendő tényezők
- az elsőfajú hiba megengedhető szintje, α (a megbízhatósági
szint szerepét veszi át),
- a legkisebb különbség, amit a teszttel még szeretnénk
kimutatni, d (az intervallum szélességének szerepét veszi
át),
- a másodfajú hiba megengedhető szintje, β ,
- az ellenhipotézis típusa (egy- vagy kétoldali-e),
és itt is mindig van(nak) megsaccolni való paraméter(ek).
Aki nem akar a fentihez hasonló (sőt rendszerint még
bonyolultabb) egyenletek megoldásával foglalkozni, az a
szükséges mintaelemszám meghatározására használhat
számítógépes programokat (STATGRAPHICS, CADEMO),
vagy tanácsot kérhet egy statisztikustól. Régi könyvekben
találhatunk táblázatokat vagy nomogramokat is.
Ha a megsaccolnivalókról sem saját tapasztalatunk nincs, sem
az irodalomban sem találunk semmit, akkor szokás előkísérletet
végezni.
Bonyolultabb elemzéseknél több "megsaccolnivaló" van.
ANOVA-nál például más-más a minimálisan szükséges
mintaelemszám attól függően, hogy milyen ellenhipotézist
szeretnénk adott (1– β ) erővel kimutatni. Pl. négy csoport
esetén:
5Mintavételezési módszerek
Mintavétel – a populáció egy részének kiválasztása (nem az
egész populációt vizsgáljuk)
Cél:
• a populáció jellemzőinek, paramétereinek becslése:
o egy betegség jelen van vagy nincs;
o átlag, szórás becslése, stb.
• változók kapcsolatának meghatározása, következtetések
levonása a populácóra vonatkozóan.
Cél: Olyan minta választása, amely:
• jól reprezentálja a populációt;
• a becslések elfogadható pontosságút organizmusok gyakoriságának eloszlása
tipikusan nem normális, a log transzformációval normalizálható.
A negatív binomiális illetve logaritmikus eloszlású változók
transzformálhatók jól.
2
A négyzetgyök transzformáció: Y ′ = Y
Poisson eloszlású gyakoriságokra (véletlenül elhelyezkedő
objektumok) alkalmazható ( s ≈ x ).
A nagyobb értékeket jobban lecsökkenti, mint a kisebbeket.
Az arcsin, vagy anguláris transzformáció: Y ′ = arcsin p ,
ahol p arány. Arányokra alkalmazható.
14Ne transzformáljunk gondolkodás nélkül!
(A disznó és transzformáltjai...)

Áéláeokf SDSDF

Uploaded by

Copyright:

Available Formats

You might also like

Áéláeokf SDSDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Áéláeokf SDSDF

Uploaded by

Copyright:

Available Formats

. Többlépcsős mintavétel.

Ez az előző módszer bonyolultabb változata, mert itt a

You might also like