Štatistika II

ŠTATISTIKA II
1. Deskriptívna štatistika (vedecká metóda, teória pravdepodobnosti, typy

merania, miery polohy, miery variability, miery tvaru, porovnávacia
analýza)
Deskriptívna štatistika: (opisná) štatistika sa používa na zhromažďovanie a

zverejňovanie údajov (o chorobnosti a úmrtnosti na isté choroby podľa veku,
pohlavia, zamestnania). Údaje sa zverejňujú pomocou relatívnych čísel, tabuliek
a grafov. Dôležité je, že tieto techniky sú výlučne exploračné/deskriptívne, čo
znamená, že nezahŕňajú žiadne zovšeobecnenia, ktoré by zachádzali za rámec
nastavený prostredníctvom získania údajov meraním. Zhŕňajú, analyzujú, triedia
a charakterizujú stav a povahu premenných. Prostredníctvom týchto techník je
tak možné získať úplný obraz o údajoch, s ktorými výskumník pracuje.
Teória pravdepodobnosti: alebo počet pravdepodobnosti je odvetvie matematiky,

ktoré umožňuje nachádzať podľa pravdepodobností jedných náhodných udalostí
iné náhodné udalosti, ktoré nejakým spôsobom súvisia s prvými.
Typy merania: Ordinálne premenné sú merateľné na ordinálnej, teda poradovej

škále. Intervalové premenné umožňujú nielen postihnúť poradie, ale aj
kvantifikovať rozdiel medzi respondentmi. Pomerné premenné umožňujú nielen
určiť rozdiel, ale aj pomer medzi dvoma respondentmi.
Miery polohy: sú stredné hodnoty – priemer, medián módus
Miery variability: variačné rozpätie, medzikvartilové rozpätie, štandardná

odchýlka a jej variačný koeficient
Miery tvaru: šikmosť, špicatosť
Porovnávacia analýza: výber správnej matematicko-štatistickej metódy na

vyhodnotenie rozdielov medzi strednými hodnotami, kde je použitá ako
výskumná metóda a údaje majú kvantitatívny charakter, t. j. boli získané na
základe merania. Takéto práce majú cieľ porovnať, zistiť rozdiely, zistiť
prírastky, posúdiť zmeny, atď.
2. Grafický a číselný popis rozloženia dát (zobrazenie dát, miery centrálnej

tendencie, miery rozptýlenosti, miery špicatosti a šikmosti)
Zobrazenie dát: podľa toho, ako dáta budeme zobrazovať, môžu hrať rolu
aspekty účelu analýzy: 1) explorácia – na to sa viaže 2) kontrola dát, 3)
odhadovanie a 4) komunikácia.
Miery centrálnej tendencie: sa snažia charakterizovať typickú hodnotu dát.

Najznámejšie sú aritmetický priemer, medián a modus.
Miery rozptýlenosti: Náhodne premenlivé údaje nestačí charakterizovať iba

strednou hodnotou. Dáta so strednou hodnotou môžu mať rôznu rozptýlenosť.
Veľkosť premenlivosti dát zachytávame vhodne vybranou mierou rozptýlenosti
dát.
Miery špicatosti a šikmosti: slúžia k jemnejšiemu popisu špecifických stránok

dát. Hodnotíme pomocou nich tiež to, ako sa hodnotenie dát podobá Gaussovej
krivke.
3. Vytváranie dátového súboru, tvorba databázy, príkazy compute, recode,

split half, select cases
Compute: logaritmická transformácia
Recode: rekódovanie premennej
Split half: rozdelenie súboru na polovicu
Select cases: označenie duplikácií

4. Štatistické usudzovanie (odhady, testy významnosti, neparametrické
postupy, simultánne štatistické usudzovanie)
Štatistické usudzovanie: Štatistická indukcia, známa aj ako štatistické

usudzovanie, je metóda, ktorá vyvodzuje závery o populácii na základe
štatistickej analýzy vzorky. Využíva princípy pravdepodobnosti a štatistickej
inferencie na vyvodzovanie záverov a predpovedí o väčšej populácii, z ktorej
bola vzorka vybraná.
Odhady:
Testy významnosti:
Neparametrické postupy: sa nespoliehajú na odhad parametrov

charakterizujúcich rozdelenie premennej v základnom súbore. Preto sa tieto
metódy niekedy (a správnejšie) označujú ako metódy s voľnými rozdeleniami.
Neparametrické metódy pracujú s početnosťami (napr. Chi-kvadrát test
nezávislosti) alebo s poradovými číslami, ktoré boli pridelené pôvodným
údajom (napr. KruskalWallisov test).
Simultánne štatistické usudzovanie:
5. Voľba štatistickej metódy (postup a odporučenia pre správnu voľbu

štatistickej metódy), testovanie normality
Postup a odporučenia pre správnu voľbu štatistickej metódy:
Pri voľbe štatistickej metódy je vhodné rozlíšiť štyri fázy štatistického

spracovania dát: 1. Počiatočná manipulácia s dátami pri ich kontrole a opravách
a príprave pre detailné spracovanie. 2. Predbežná a exploračná analýza, v ktorej
si vyjasňujeme formu dát a smery ďalšej analýzy. V tejto fáze používame
techniky exploračnej analýzy. 3. Konečná analýza, pomocou ktorej získavame
konečné závery o dátach. 4. Prezentácia záverov presnou a koncíznou formou.
Pre záverečnú prezentáciu pripravujeme vhodnú popisnú štatistiku, dodatočné
grafy a tabuľky. Vykonávame prepočet niektorých výsledkov do vhodnej formy.
Testovanie normality: V štatistike sa testy normality používajú na určenie, či je

súbor údajov dobre modelovaný normálnym rozdelením, a na výpočet, aká je
pravdepodobnosť, že náhodná premenná, ktorá je základom súboru údajov, bude
normálne rozložená.
6. Rozsah výberu, sila a veľkosť účinku (odhad a testovanie priemerov,

odhad relatívnej početnosti)
Rozsah výberu: počet prvkov n vo výbere
Sila a veľkosť účinku: je miera sily javu, ktorá je nezávislá na jednotkách

merania.
Odhad a testovanie priemerov: Pri porovnávaní priemerov dvoch súborov

môžeme testovať niekoľko hypotéz. Zaujímať nás môže, či sa priemery rovnajú
alebo nie (obojstranný test) , alebo či je jeden menší resp. väčší ako druhý
(jednostranný test).
Odhad relatívnej početnosti: v danom štatistickom súbore vypočítame ako

podiel počtu jednotiek s danou hodnotou znaku počtom všetkých jednotiek
štatistického súboru. Tiež sa dá povedať, že relatívna početnosť hodnoty znaku
je podiel absolútnej početnosti tejto hodnoty znaku a rozsahu 𝑛 štatistického
súboru. Relatívna početnosť sa zadáva ako číslo v intervale [0,1] alebo
v percentách.
7. Vzťahy dvoch a viacerých premenných (korelácie, Pearsonova korelácia,
Spearmanova poradová korelácia)
Korelácie: Korelácia je miera závislosti medzi dvoma alebo viacerými

premennými. Premenné musia byť prinajmenšom merané na intervalovej škále,
ale sú aj iné typy korelačných koeficientov, ktoré pracujú s ďalšími typmi dát.
Korelačný koeficient môže dosahovať hodnoty od -1 do +1. Hodnota -1
reprezentuje najvyššiu negatívnu a +1 najvyššiu pozitívnu koreláciu. Hodnota 0
vypovedá o žiadnej korelácii. Korelačná analýza je analýza závislosti dvoch
premenných. Pomocou nej zisťujeme, ak sa mení 1 premenná, či to ovplyvňuje
druhú premennú. Priama korelačná závislosť znamená, že ak rastie jedna
premenná, potom aj druhá rastie. Napríklad čím viac kalórií prímam bez
pohybu, tým viac vážim. Nepriama korelačná závislosť znamená, že keď jedna
premenná rastie, potom druhá klesá. Napríklad u obéznych ľudí, čím viac
športujú, tým menej vážia.
Pearsonova korelácia: Najviac používaným typom korelačného koeficienta je

Pearsonov, ktorý sa používa, ak premenné sú merané prinajmenšom na
intervalovej škále. Korelačný koeficient nezávisí od mierky, v ktorej boli
premenné merané. Kľudne môžeme korelovať výšku s hmotnosťou, vyjadrené
buď v centimetroch a kilogramoch, alebo v palcoch a pondoch. Korelačný
koeficient vyjde rovnaký. Korelácia je vysoká, ak sa dá meranými bodmi v
rovine metódou najmenších štvorcov "dobre preložiť" priamka. Táto priamka sa
nazýva regresná priamka. Metóda najmenších štvorcov znamená, že súčet
umocnených vzdialeností meraných bodov od regresnej priamky je najmenší
možný. Tieto vzdialenosti sa nazývajú rezíduá.
Spearmanova poradová korelácia: V prípade, že vzťah medzi premennými nie je

lineárny, nie je také jednoduché, ako Pearsonovo r, ho popísať. Keď je krivka
monotónna, rastúca alebo klesajúca, mohli by sme skúsiť transformovať jednu,
alebo obe premenné napr. použitím logaritmickej funkcie a na nové dáta
aplikovať Pearsonovu koreláciu. Iná možnosť je použiť iný korelačný koeficient
z neparametrických metód, napr. Spearmanov, ktorá pracuje len s poradím
nameraných údajov. Avšak táto korelácia je menej senzitívna a niekedy
neprodukuje žiaden výsledok. Najprecíznejšia metóda je neľahká a požaduje
experimentovanie s dátami. Je treba buď pokúsiť sa sami identifikovať funkciu a
použite techniku "goodness-of-fit" na jej otestovanie, alebo rozdeliť jednu
premennú na viacero podskupín, tým sa vytvorí takzvaná grouping premenná,
do ktorej je treba dať pre každého respondenta číslo skupiny, do ktorej patrí, a
následne použiť analýzu rozptylu (analysis of variance).
8. Testovanie hypotéz, parametrické a neparametrické testy
Testovanie hypotéz: Vo vedeckom výskume sa problémy často formulujú v tvare

hypotéz, ktorých platnosť treba zamietnuť alebo nezamietnuť. Štatistická
hypotéza je tvrdenie, ktoré sa týka rozdelenia pravdepodobnosti pozorovaného
znaku, prípadne jeho parametrov. Overovanie správnosti týchto tvrdení sa
nazýva testovanie štatistických hypotéz. Pri testovaní kladieme oproti sebe dve
navzájom si odporujúce hypotézy: hypotézu, ktorej platnosť overujeme,
nazývame testovanou alebo nulovou hypotézou H0. Oproti testovanej hypotéze
kladieme tzv. alternatívnu hypotézu, ktorú budeme označovať H1.
Parametrické testy: Medzi parametrické testy patrí prevažne t-test pre testovanie
rozdielov dvoch stredných hodnôt a F-test pre testovanie rozdielu dvoch
rozptylov.
Neparametrické testy: sa používajú pre porovnávanie dvoch súborov

štatistických dát, u ktorých sa nedá predpokladať normálne rozdelenie
pravdepodobnosti sledovaného znaku.
9. Testovanie hypotéz dvoch nezávislých premenných (T-test pre nezávislé
výbery, Levenov test homogenity)
Testovanie hypotéz dvoch nezávislých premenných: Táto skupina testov testuje

hypotézu o rozdiele rozptylov dvoch a viac nezávislých skupín. Zisťuje, či sú
namerané rozdiely medzi rozptylmi iba náhodné, alebo štatisticky významné.
Posúdenie rozptýlenosti dát je dôležité pri overení predpokladu rovnosti
rozptylov, napr. pri analýze rozptylu, kovariancie. Testy môžeme rozlišovať
podľa toho, či sú určené pre situácie, kde vystupuje jedna závislá premenná –
univariačné testy, alebo sú určené pre situácie, kde vystupujú viaceré závislé
premenné – multivariačné testy.
T-test pre nezávislé výbery: je všeobecne používaná metóda na vyhodnotenie

rozdielu v priemeroch dvoch skupín.
Levenov test homogenity: Rovnosť variabilít závislej premennej v oboch

skupinách sa overuje pomocou tohto testu.
10. Testovanie hypotéz troch a viacerých výberov (ANOVA, Kruskal-

Wallisov test)
ANOVA: Jednosmerná ANOVA (analýza rozptylu) je štatistická metóda

používaná na testovanie významných rozdielov medzi priemermi skupín údajov.
Bežne sa používa v experimentálnom výskume na porovnanie účinkov rôznych
liečebných postupov alebo intervencií na konkrétny výsledok.
Kruskal-Wallisov test: Je rozšírením Mann-Whitneyho testu pre viac než dve

pozorovania. Testuje zhodu distribučných funkcií.
11. Testovanie hypotéz pre závislé výbery (T-test pre závislé výbery,
Wilcoxonov test)
Testovanie hypotéz pre závislé výbery: Aj keď bol párový t -test odvodený pre
závislé výbery, nie je hrubou chybou jeho použitie aj pre nezávislé výbery s
rovnakými rozsahmi, teda v situácii, keď by sa mal použiť dvojvýberový t-test.
Ako sa uvádza v literatúre, dôjde len k menej efektívnemu spracovaniu
informácie obsiahnutej vo výberových dátach.
T-test: Párový t- test sa používa na porovnanie stredných hodnôt dvoch

populácií. Porovnávame dve vzorky, pričom vzorky z jedného pozorovania
môžu byť spárované so vzorkami z druhého pozorovania.
Wilcoxonov test: Wilcoxonov test patrí do skupiny neparametrických testov,

ktoré používame ak naše dáta nemajú normálne rozloženie. Používame ho na
porovnanie rovnakej skupiny respondentov v dvoch podmienkach. Napríklad
otestujeme respondentov pred experimentálnou manipuláciou a po nej a
skúmame či experiment spôsobil štatisticky významne rozdielne skóre.
Zjednodušene by sme mohli povedať že je ekvivalentom párového t testu.
12. Chí-kvadrát: Je akýkoľvek test, ktorý porovnáva empirické a očakávané

početnosti – vychádza z predpokladu existencie modelu rozloženia dát,
ktorý by vznikol tak, že medzi premennými nie je žiadna asociácia
(vznikol by pôsobením náhody = očakávaná početnosť). Využíva
adjustované rezíduá – rozdiel medzi očakávanou frekvenciou výskytu a
pozorovanou frekvenciou výskytu
13.Adjustované rezíduá = delta – rezíduum je štandardizované vydelením
smerodajnou odchýlkou, vďaka čomu je možné adjustované rezíduum
testovať z hľadiska štatistickej významnosti. Delta > (-2, 2). 95%
pravdepodobnosť, že v danom políčku je rozdiel medzi pozorovanou
(empirickou) a očakávanou početnosťou štatisticky významný.

Štatistika II

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Štatistika II

Uploaded by

Copyright:

Available Formats

ŠTATISTIKA II

1. Deskriptívna štatistika (vedecká metóda, teória pravdepodobnosti, typy

Deskriptívna štatistika: (opisná) štatistika sa používa na zhromažďovanie a

Teória pravdepodobnosti: alebo počet pravdepodobnosti je odvetvie matematiky,

Typy merania: Ordinálne premenné sú merateľné na ordinálnej, teda poradovej

Miery polohy: sú stredné hodnoty – priemer, medián módus

Miery variability: variačné rozpätie, medzikvartilové rozpätie, štandardná

Miery tvaru: šikmosť, špicatosť

Porovnávacia analýza: výber správnej matematicko-štatistickej metódy na

2. Grafický a číselný popis rozloženia dát (zobrazenie dát, miery centrálnej

Miery centrálnej tendencie: sa snažia charakterizovať typickú hodnotu dát.

Miery rozptýlenosti: Náhodne premenlivé údaje nestačí charakterizovať iba

Miery špicatosti a šikmosti: slúžia k jemnejšiemu popisu špecifických stránok

3. Vytváranie dátového súboru, tvorba databázy, príkazy compute, recode,

Compute: logaritmická transformácia

Recode: rekódovanie premennej

Split half: rozdelenie súboru na polovicu

Select cases: označenie duplikácií

Štatistické usudzovanie: Štatistická indukcia, známa aj ako štatistické

Neparametrické postupy: sa nespoliehajú na odhad parametrov

Simultánne štatistické usudzovanie:

5. Voľba štatistickej metódy (postup a odporučenia pre správnu voľbu

Postup a odporučenia pre správnu voľbu štatistickej metódy:

Pri voľbe štatistickej metódy je vhodné rozlíšiť štyri fázy štatistického

Testovanie normality: V štatistike sa testy normality používajú na určenie, či je

6. Rozsah výberu, sila a veľkosť účinku (odhad a testovanie priemerov,

Rozsah výberu: počet prvkov n vo výbere

Sila a veľkosť účinku: je miera sily javu, ktorá je nezávislá na jednotkách

Odhad a testovanie priemerov: Pri porovnávaní priemerov dvoch súborov

Odhad relatívnej početnosti: v danom štatistickom súbore vypočítame ako

Korelácie: Korelácia je miera závislosti medzi dvoma alebo viacerými

Pearsonova korelácia: Najviac používaným typom korelačného koeficienta je

Spearmanova poradová korelácia: V prípade, že vzťah medzi premennými nie je

8. Testovanie hypotéz, parametrické a neparametrické testy

Testovanie hypotéz: Vo vedeckom výskume sa problémy často formulujú v tvare

Neparametrické testy: sa používajú pre porovnávanie dvoch súborov

Testovanie hypotéz dvoch nezávislých premenných: Táto skupina testov testuje

T-test pre nezávislé výbery: je všeobecne používaná metóda na vyhodnotenie

Levenov test homogenity: Rovnosť variabilít závislej premennej v oboch

10. Testovanie hypotéz troch a viacerých výberov (ANOVA, Kruskal-

ANOVA: Jednosmerná ANOVA (analýza rozptylu) je štatistická metóda

Kruskal-Wallisov test: Je rozšírením Mann-Whitneyho testu pre viac než dve

T-test: Párový t- test sa používa na porovnanie stredných hodnôt dvoch

Wilcoxonov test: Wilcoxonov test patrí do skupiny neparametrických testov,

12. Chí-kvadrát: Je akýkoľvek test, ktorý porovnáva empirické a očakávané

You might also like