Ez az előző módszer bonyolultabb változata, mert itt a
klasztereken belül nem vizsgáljuk az összes egyedet, hanem onnan is mintát veszünk. Előny: különböző méretű mintákat lehet venni az egyes klaszterekből (variabilitás külünböző, vagy különböző költséggel vizsgálhatók). Példa: kiválasztunk n 1 gazdaságot, a gazdaságonként n 2Transzformálás Milyen problémák esetén segíthet az adatok transzformálása? 1. (Hiba) varianciák nem egyeznek; 2. Nem normális (hiba) eloszlás; 3. Kezelések hatása nem additív. Pl. ha arányokkal dolgozunk, a kezelés hatása nem additív: 2% →3% (+1%), de 25%→28%, és nem (25+1)%, vagy gyakoriságok esetén a kezelés hatása: de 10 →20 100→200 és nem 110. Az előbbi esetben az arcsin, a második esetben a log transzformáció segíthet. Általában: Azok a transzformációk, amelyek a 3. problémát megoldják, az első kettőn is segítenek. FONTOS! Az eredményeket transzformáljuk vissza! Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006 12Ferde eloszlások normálissá transzformálása - jobbra ferde eloszlás: gyök- vagy a logaritmus-transzformáció 20 20 3 x , x , ... 10 10 log x 0 0 - balra ferdeség eloszlás: hatvány- függvény 20 2 3 vagy exponenciális 20 x , x , ... 10 e x 0 10 0 - más esetekben másfajta transzformációk (pl. arcus sinus) - de a sikerre nincs garancia, van olyan eset is, amikor az eloszlást semmilyen transzformáció sem képes normálissá tenni, mint például a következő ábrán → 20 10 0 Transzformációra szükség lehet más miatt is, például ha az értékek szóródása az értékek nagyságától függ (szóráskiegyenlítés), vagy ha két változó között a kapcsolat nem lineáris (linearizálás). Figyelem! Előfordulhat, hogy az eredeti adatok biológiailag jól interpretálhatók, a transzformált adatoknak viszont már nem tudunk biológiai jelentést tulajdonítani. Ilyenkor inkább ne transzformáljunk. Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006 13Példák transzformációkra A logaritmus transzformáció : Y ′ = lg( Y + 1 ) - ha s > x , vagy ha az eloszlás ferde. A környezetben aggregálódotnél jobb, pontosabb eljárást alkalmazunk a konfidencia- intervallum konstrukciójára, - minél nagyobb mintával dolgozunk, - minél távolabb esik az 50%-tól (bármelyik irányban) a prevalencia (de persze ezt nem áll módunkban befolyásolni). Számítsuk ki, mekkora minta szükséges ahhoz, hogy mondjuk egy, a prevalenciára adott 95%-os intervallum szélessége a 10%-ot ne haladja meg (mint például 26% - 36%). A számítások követhetősége kedvéért most használjuk a konfidencia-intervallum konstrukciójára a legegyszerűbb eljárást. Ezzel a 95%-os intervallum: p − 1 . 96 p ( 1 − p ) n ... p + 1 . 96 p ( 1 − p ) , n aholp a mintabeli prevalenciát, n pedig a mintaelemszámot jelöli. Az intervallum szélessége innen a gyök alatti kifejezés szorozva 3.92-vel. Azt szeretnénk, hogy ez legfeljebb 10% legyen, azaz 3.92 p ( 1 − p ) ≤ 0.1 n Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006 3Ap-t megsaccolva, majd az egyenlőtlenséget n-re megoldva kapjuk a mintaelemszámot. Például hap = 0.3 körüli értékre számítunk, akkor n ≥ 325 adódik, azaz legalább 325 elemű mintára van szükség. Mindig – legyen szó akár átlagértékről, akár relatív rizikóról, vagy bármi másról – ugyanígy, a szóban forgó konfidencia- intervallum számítási képletéből kiindulva határozhatjuk meg a szükséges mintaelemszámot. Persze mindig lesz olyan paraméter, amelyet ehhez meg kell saccolni (mint az előbb ap- t), mert tőle is függ az intervallum szélessége. Példak: Mekkora minta szükséges, hogy a broiler csirkék súlyára vonatkozó 95%-os konfidencia-intervallum szélessége legfeljebb 0.10 kg legyen? Az egyszerűség kedvéért tegyük fel, hogy a testsúly normális eloszlást követ. Ekkor az átlagra adott konfidencia-intervallum képlete a jól ismert x − 1 . 96 σ ... x + 1 . 96 n σ n , aholx a mintaátlag, σ a szórás (SD), n pedig a mintaelemszám. Az intervallum szélessége akkor lesz legfeljebb 0.10 kg, ha 3 . 92 σ n ≤ 0.10 Most a σ -t kell megsaccolni – például irodalmi adatokból, vagy az eddig ismert legnagyobb és legkisebb csirke súlyából (±3SD) – ahhoz, hogy az egyenlőtlenséget n-re meg tudjuk oldani. Ha pedig nincs képlet, mert például a konfidencia-intervallumot számítógépes program számolja... Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006 4Ha nem konfidencia-intervallumhoz, hanem hipotézisvizsgálathoz szeretnénk meghatározni a szükséges mintaelemszámot, akkor a figyelembe veendő tényezők - az elsőfajú hiba megengedhető szintje, α (a megbízhatósági szint szerepét veszi át), - a legkisebb különbség, amit a teszttel még szeretnénk kimutatni, d (az intervallum szélességének szerepét veszi át), - a másodfajú hiba megengedhető szintje, β , - az ellenhipotézis típusa (egy- vagy kétoldali-e), és itt is mindig van(nak) megsaccolni való paraméter(ek). Aki nem akar a fentihez hasonló (sőt rendszerint még bonyolultabb) egyenletek megoldásával foglalkozni, az a szükséges mintaelemszám meghatározására használhat számítógépes programokat (STATGRAPHICS, CADEMO), vagy tanácsot kérhet egy statisztikustól. Régi könyvekben találhatunk táblázatokat vagy nomogramokat is. Ha a megsaccolnivalókról sem saját tapasztalatunk nincs, sem az irodalomban sem találunk semmit, akkor szokás előkísérletet végezni. Bonyolultabb elemzéseknél több "megsaccolnivaló" van. ANOVA-nál például más-más a minimálisan szükséges mintaelemszám attól függően, hogy milyen ellenhipotézist szeretnénk adott (1– β ) erővel kimutatni. Pl. négy csoport esetén: Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006 5Mintavételezési módszerek Mintavétel – a populáció egy részének kiválasztása (nem az egész populációt vizsgáljuk) Cél: • a populáció jellemzőinek, paramétereinek becslése: o egy betegség jelen van vagy nincs; o átlag, szórás becslése, stb. • változók kapcsolatának meghatározása, következtetések levonása a populácóra vonatkozóan. Cél: Olyan minta választása, amely: • jól reprezentálja a populációt; • a becslések elfogadható pontosságúnél jobb, pontosabb eljárást alkalmazunk a konfidencia- intervallum konstrukciójára, - minél nagyobb mintával dolgozunk, - minél távolabb esik az 50%-tól (bármelyik irányban) a prevalencia (de persze ezt nem áll módunkban befolyásolni). Számítsuk ki, mekkora minta szükséges ahhoz, hogy mondjuk egy, a prevalenciára adott 95%-os intervallum szélessége a 10%-ot ne haladja meg (mint például 26% - 36%). A számítások követhetősége kedvéért most használjuk a konfidencia-intervallum konstrukciójára a legegyszerűbb eljárást. Ezzel a 95%-os intervallum: p − 1 . 96 p ( 1 − p ) n ... p + 1 . 96 p ( 1 − p ) , n aholp a mintabeli prevalenciát, n pedig a mintaelemszámot jelöli. Az intervallum szélessége innen a gyök alatti kifejezés szorozva 3.92-vel. Azt szeretnénk, hogy ez legfeljebb 10% legyen, azaz 3.92 p ( 1 − p ) ≤ 0.1 n Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006 3Ap-t megsaccolva, majd az egyenlőtlenséget n-re megoldva kapjuk a mintaelemszámot. Például hap = 0.3 körüli értékre számítunk, akkor n ≥ 325 adódik, azaz legalább 325 elemű mintára van szükség. Mindig – legyen szó akár átlagértékről, akár relatív rizikóról, vagy bármi másról – ugyanígy, a szóban forgó konfidencia- intervallum számítási képletéből kiindulva határozhatjuk meg a szükséges mintaelemszámot. Persze mindig lesz olyan paraméter, amelyet ehhez meg kell saccolni (mint az előbb ap- t), mert tőle is függ az intervallum szélessége. Példak: Mekkora minta szükséges, hogy a broiler csirkék súlyára vonatkozó 95%-os konfidencia-intervallum szélessége legfeljebb 0.10 kg legyen? Az egyszerűség kedvéért tegyük fel, hogy a testsúly normális eloszlást követ. Ekkor az átlagra adott konfidencia-intervallum képlete a jól ismert x − 1 . 96 σ ... x + 1 . 96 n σ n , aholx a mintaátlag, σ a szórás (SD), n pedig a mintaelemszám. Az intervallum szélessége akkor lesz legfeljebb 0.10 kg, ha 3 . 92 σ n ≤ 0.10 Most a σ -t kell megsaccolni – például irodalmi adatokból, vagy az eddig ismert legnagyobb és legkisebb csirke súlyából (±3SD) – ahhoz, hogy az egyenlőtlenséget n-re meg tudjuk oldani. Ha pedig nincs képlet, mert például a konfidencia-intervallumot számítógépes program számolja... Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006 4Ha nem konfidencia-intervallumhoz, hanem hipotézisvizsgálathoz szeretnénk meghatározni a szükséges mintaelemszámot, akkor a figyelembe veendő tényezők - az elsőfajú hiba megengedhető szintje, α (a megbízhatósági szint szerepét veszi át), - a legkisebb különbség, amit a teszttel még szeretnénk kimutatni, d (az intervallum szélességének szerepét veszi át), - a másodfajú hiba megengedhető szintje, β , - az ellenhipotézis típusa (egy- vagy kétoldali-e), és itt is mindig van(nak) megsaccolni való paraméter(ek). Aki nem akar a fentihez hasonló (sőt rendszerint még bonyolultabb) egyenletek megoldásával foglalkozni, az a szükséges mintaelemszám meghatározására használhat számítógépes programokat (STATGRAPHICS, CADEMO), vagy tanácsot kérhet egy statisztikustól. Régi könyvekben találhatunk táblázatokat vagy nomogramokat is. Ha a megsaccolnivalókról sem saját tapasztalatunk nincs, sem az irodalomban sem találunk semmit, akkor szokás előkísérletet végezni. Bonyolultabb elemzéseknél több "megsaccolnivaló" van. ANOVA-nál például más-más a minimálisan szükséges mintaelemszám attól függően, hogy milyen ellenhipotézist szeretnénk adott (1– β ) erővel kimutatni. Pl. négy csoport esetén: Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006 5Mintavételezési módszerek Mintavétel – a populáció egy részének kiválasztása (nem az egész populációt vizsgáljuk) Cél: • a populáció jellemzőinek, paramétereinek becslése: o egy betegség jelen van vagy nincs; o átlag, szórás becslése, stb. • változók kapcsolatának meghatározása, következtetések levonása a populácóra vonatkozóan. Cél: Olyan minta választása, amely: • jól reprezentálja a populációt; • a becslések elfogadható pontosságút organizmusok gyakoriságának eloszlása tipikusan nem normális, a log transzformációval normalizálható. A negatív binomiális illetve logaritmikus eloszlású változók transzformálhatók jól. 2 A négyzetgyök transzformáció: Y ′ = Y Poisson eloszlású gyakoriságokra (véletlenül elhelyezkedő objektumok) alkalmazható ( s ≈ x ). A nagyobb értékeket jobban lecsökkenti, mint a kisebbeket. Az arcsin, vagy anguláris transzformáció: Y ′ = arcsin p , ahol p arány. Arányokra alkalmazható. Biostatisztika és kísérlettervezés – Harnos Andrea, Reiczigel Jenő, 2006 14Ne transzformáljunk gondolkodás nélkül! (A disznó és transzformáltjai...)