Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 7

1.

Vrste podataka:
 Kvalitativni (kategorijski) podaci: Ovo su podaci koji se odnose na kategorije ili atribute, poput pola ili
boje očiju.
 Kvantitativni neprekidni (numerički) podaci: To su podaci koji se mogu izračunati ili izmjeriti i mogu
biti bilo koja vrijednost unutar raspona, poput visine ili težine.
 Kvantitativni diskretni (numerički) podaci: Ovo su podaci koji su ograničeni na cijele brojeve, poput
broja ljudi u kućanstvu.
2. Učestalost (frequency): To je broj pojedinaca koji imaju određenu kvalitativnu vrijednost.
3. Relativna učestalost (relative frequency): Ovo je proporcija pojedinaca koji imaju određenu kvalitativnu
vrijednost u odnosu na ukupan broj promatranja.
4. Relativna kumulativna učestalost: Ovo je udio pojedinaca u uzorku s vrijednostima manjim od ili jednako
nekoj određenoj vrijednosti.
5. Dijagram stabla i lista: Ovo je vrsta grafa koja je alternativa histogramu. Umjesto pravokutnika, koristi se
stablo i listovi, gdje stablo predstavlja prvu znamenku ili znamenke broja, a listovi su dodatne znamenke. To
daje pregled strukture podataka i istovremeno pokazuje tendenciju preferiranja određenih znamenki u odnosu
na druge - tzv. "preferencija znamenki". Ova metoda je manje sklona greškama od računanja učestalosti.

 Jednomodalna raspodjela: To je raspodjela koja ima samo jednu najčešću vrijednost, nazvanu modalitet. Na
primjer, ako imate set podataka koji prikazuje visinu ljudi, i većina ljudi ima visinu oko 170 cm, ta raspodjela je
jednomodalna.
 Dvomodalna raspodjela: To je raspodjela koja ima dvije različite najčešće vrijednosti. Na primjer, ako imate
set podataka koji prikazuje visinu ljudi, a većina ljudi ima visinu oko 160 cm i oko 180 cm, ta raspodjela je
dvomodalna.
 Simetrična raspodjela: To je kada je raspodjela ravnomjerno raspoređena s obje strane oko središnje
vrijednosti, bez izražene tendencije prema jednoj strani.
 Pozitivno iskošena (desno iskošena) raspodjela: To je kada je veća gustoća podataka na lijevoj strani
raspodjele, dok se desna strana proteže prema van, prema većim vrijednostima.
 Negativno iskošena (lijevo iskošena) raspodjela: To je kada je veća gustoća podataka na desnoj strani
raspodjele, dok se lijeva strana proteže prema van, prema manjim vrijednostima.

3. Kvantil: To je vrijednost koja dijeli distribuciju tako da ima određeni udio promatranja ispod određenog
kvantila. Na primjer, prvi kvantil podijeli distribuciju tako da je četvrtina promatranja manja od tog kvantila.

Medijana: To je središnja vrijednost distribucije, gdje je polovina točaka manja od nje, a polovina točaka veća
od nje. Drugi kvartil je isto što i medijana.

Kvartili: Oni dijele distribuciju na četiri jednaka dijela, nazvane kvartili. Prvi kvartil je vrijednost ispod koje je
četvrtina promatranja, drugi kvartil je medijana, a treći kvartil je vrijednost ispod koje je tri četvrtine
promatranja.

Centil: To je pojam koji označava podjelu distribucije na 100 dijelova. Na primjer, 25. centil je vrijednost ispod
koje je četvrtina promatranja.

Sredina: To je prosječna vrijednost distribucije, dobivena zbrajanjem svih promatranja i dijeljenjem s njihovim
brojem. Sredina i medijana su mjere središnjeg položaja ili centralne tendencije distribucije.
1. Opseg (range): To je razlika između najveće i najmanje vrijednosti u distribuciji. Jednostavno se izračunava
oduzimanjem najmanje vrijednosti od najveće. Opseg je deskriptivna mjera, ali treba biti svjestan da je osjetljiv
na ekstremne vrijednosti i veličinu uzorka - što je uzorak veći, to će ekstremi biti udaljeniji.
2. Opseg međukvartila: To je razlika između prvog i trećeg kvartila distribucije. Predstavlja deskriptivnu mjeru
koja varira od uzorka do uzorka.
3. Varijansa: To je mjera disperzije (raspršenosti ili varijabilnosti) distribucije, a računa se kao kvadrat standardne
devijacije. Varijansa nije u istim jedinicama kao promatranja, što ograničava njezinu upotrebu.
4. Standardna devijacija: To je mjera disperzije koja se dobiva kada se izračuna kvadratni korijen varijanse.
Standardna devijacija daje vrijednosti u istim jedinicama kao i promatranja i sredina. Obično se označava sa
"s".

Stopa (rate): Stopa izražava učestalost određene karakteristike od interesa po 1000 (ili 100,000 i slično) u
populaciji, u jedinici vremena. Omogućava usporedbu učestalosti dobivene iz grupa različitih veličina, na
osnovu populacije ili vremenskog perioda.
Značajne brojke (significant figures): Značajne brojke su samo prve nekoliko cifara broja koje nisu nule, i
koriste se kada se dobije stopa ili broj koji sadrži puno nula i veliki niz cifara iza njih. Tada se broj zaokružuje na
2, 3 ili 4 značajne cifre, i koristi se ta vrijednost. Najčešće se koriste brojevi označeni do 3 značajne cifre.

Binomna raspodjela je način modeliranja situacija gdje se događa serija nezavisnih eksperimenata, a svaki
eksperiment ima samo dva moguća ishoda: uspjeh ili neuspjeh. Ova raspodjela prati broj uspjeha u
određenom broju takvih eksperimenata, pri čemu je vjerojatnost uspjeha u svakom eksperimentu konstantna i
označena sa "p". Bitni parametri binomne raspodjele su broj eksperimenata (označen kao "n") i vjerojatnost
uspjeha u pojedinačnom eksperimentu (označena kao "p"). Ova raspodjela omogućava predviđanje koliko će
uspjeha biti u nizu eksperimenata, što je korisno u situacijama poput bacanja novčića ili provođenja anketa
gdje postoji samo dva moguća rezultata.

Karakteristike sredine i varijanse kod binomne raspodjele:

 Sredina: To je prosječna vrijednost slučajne varijable u dugom vremenskom periodu, također poznata kao
očekivana vrijednost. Označava se kao E(X). Za svaku slučajnu varijablu koja uzima diskretne vrijednosti,
sredina ili očekivana vrijednost se nalazi kao suma svake pojedinačne vrijednosti koja je pomnožena svojom
vjerojatnošću.
 Varijansa: To je prosječna razlika na kvadrat od sredine. Označava se kao VAR(X). Varijansa slučajne varijable X
je prosječna kvadratna razlika između svake pojedinačne vrijednosti X i sredine X.

Kada se dodaje ili oduzima konstanta slučajnoj varijabli:

 Ako se doda konstanta slučajnoj varijabli, nova sredina je jednaka originalnoj sredini plus konstanta. Varijansa i
standardna devijacija ostaju nepromijenjeni.
 Ako se doda dvije slučajne varijable, sredina zbirka je zbir sredina, a ako su dvije varijable nezavisne, varijansa
zbirka je zbroj njihovih varijansi.
 Ako se oduzme jedna slučajna varijabla od druge, sredina razlike je razlika između sredina, a ako su dvije
varijable nezavisne, varijansa razlike je zbroj njihovih varijansi.
 Množenje slučajne varijable s pozitivnom konstantom povećava sredinu i standardnu devijaciju za kvadrat
konstante. Varijansa se množi kvadratom konstante, koja je uvijek pozitivna.
 Ako je konstanta negativna, sredina se množi konstantom i mijenja znak. Varijansa se također množi
kvadratom konstante, ali varijansa ostaje pozitivna jer je kvadrat konstante uvijek pozitivan. Standardna
devijacija je uvijek pozitivna i množi se apsolutnom vrijednošću konstante, tj. konstantom bez negativnog
znaka.

Postoje različite vrste transformacija koje se koriste kako bi se promjenljive prilagodile normalnoj distribuciji.
Ovdje su neke od najčešće korištenih:

1. Logaritamska transformacija: Logaritam je najčešća transformacija koja se koristi. Ako se uzme logaritam
varijable koja ne prati normalnu distribuciju, dobiva se nova varijabla koja može imati normalnu distribuciju.
Ako logaritam slučajne varijable prati normalnu distribuciju, sama slučajna varijabla prati lognormalnu
distribuciju.
2. Kvadratni korijen: Koristi se kvadratni korijen varijable kako bi se postigla normalnost u distribuciji.
3. Reverzna vrijednost: Uzimanje recipročne vrijednosti varijable može dovesti do normalizacije distribucije.

Rezultati se tumače pomoću drugih statističkih pojmova. Na primjer, ako se koristi normalna distribucija
logaritmovane varijable, to omogućava procjenu središnjih mjera (npr. srednja vrijednost) i provodi se analiza
na logaritmovanoj skali. Nakon toga se rezultati mogu transformirati natrag u originalnu skaliranu varijablu.
Geometrijska sredina, koja je �p-ti korijen proizvoda posmatranja, i harmonična sredina, koja je reciprocna
vrijednost srednje vrijednosti reciprociteta, su neki od pojmova koji se koriste u interpretaciji transformiranih
podataka.
Intervali poverenja su rasponi vrijednosti u kojima se vjerovatno nalazi određeni parametar populacije sa
određenim nivoom sigurnosti. Na primjer, 95% interval povjerenja znači da postoji 95% šanse da se parametar
populacije nalazi unutar tog intervala. Često se naziva i 95% intervalom povjerenja jer se koristi nivo
povjerenja od 95%.

Granice intervala povjerenja su vrijednosti na krajevima intervala. One se određuju tako da se pronađu granice
koje će vjerovatno obuhvatiti srednju vrijednost populacije i predviđaju da će ta srednja vrijednost biti negdje
unutar intervala između ovih granica. U većini slučajeva, 95% interval povjerenja smatra se prihvatljivim jer
pruža širok raspon vrijednosti u kojem se vjerovatno nalazi parametar populacije.
Proces testiranja značajnosti omogućava nam da procenimo koliko su jaki dokazi koje podaci pružaju u vezi
sa hipotezom koju ispitujemo. Evo generalnih koraka:

1. Postavljanje hipoteza: Prvo postavljamo nultu hipotezu (H0), koja obično tvrdi da nema stvarne razlike ili
efekta. Zatim postavljamo alternativnu hipotezu (H1), koja tvrdi da postoji razlika ili efekat.
2. Izbor statističkog testa: Na osnovu prirode podataka i hipoteze koju testiramo, odabiremo odgovarajući
statistički test.
3. Odabir nivoa značajnosti: To je verovatnoća da ćemo odbaciti nultu hipotezu kada je ona zapravo tačna.
Standardni nivoi značajnosti su 0.05, 0.01 ili 0.001.
4. Izračunavanje statističke vrednosti: Koristimo odgovarajući statistički test da bismo izračunali vrednost testne
statistike na osnovu dostupnih podataka.
5. Procena p-vrednosti: P-vrednost je verovatnoća dobijanja rezultata testa koji su ekstremniji od onih koje smo
zapravo dobili, ako je nulta hipoteza tačna.
6. Donošenje odluke: Ako je p-vrednost manja od izabranog nivoa značajnosti, obično odbacujemo nultu
hipotezu i prihvatamo alternativnu hipotezu. U suprotnom, ne možemo odbaciti nultu hipotezu.

Što se tiče tumačenja p-vrednosti, evo nekoliko smernica:

 Veće od 0.1: Malo ili nimalo dokaza u korist razlike ili veze.
 Između 0.05 i 0.1: Slabi dokazi u korist razlike ili veze.
 Između 0.01 i 0.05: Umjereni dokazi u korist razlike ili veze.
 Manje od 0.01: Jaki dokazi u korist razlike ili veze.
 Manje od 0.001: Veoma jaki dokazi u korist razlike ili veze.

Ovi smernice služe kao opšti vodič za tumačenje snage dokaza, ali važno je razumeti kontekst istraživanja i
uzeti u obzir i druge faktore.

Dvostrani test značajnosti ispituje da li postoji razlika između grupa u bilo kom pravcu, koristeći verovatnoće
krajnjih vrednosti u oba smera. S druge strane, jednostrani test proverava postojanje razlike samo u jednom
pravcu, koristeći verovatnoću krajnje vrednosti iz tog smera.

Na primer, zamislite da testiramo efekat leka na smanjenje težine. Kod dvostranog testa, pitamo se da li lek
ima bilo kakav efekat na težinu, bilo da je smanjuje ili povećava. S druge strane, kod jednostranog testa
možemo se fokusirati samo na smanjenje težine, pitajući se da li lek ima efekat samo u tom smeru, bez
razmatranja mogućnosti povećanja težine.

Izbor između jednostranog i dvostranog testa zavisi od specifičnih hipoteza koje želimo da testiramo i naših
očekivanja o mogućim efektima.

T raspodela je vrsta raspodele koja se koristi kada su uzorci mali i kada nismo sigurni da li slede normalnu
raspodelu. Ova raspodela proističe iz normalne raspodele, ali je prilagođena za male uzorke.

Glavne vrste T raspodele uključuju:

1. Test sa jednim uzorkom (One Sample T test): Koristi se kada želimo da uporedimo srednju vrednost uzorka sa
poznatom vrednošću ili srednjom vrednošću populacije.
2. Upareni test (Paired-Sample T test): Koristi se kada su merenja iz dve grupe uparena, kao što su merenja pre i
posle intervencije na istim učesnicima.
3. Test sa nezavisnim uzorcima (Independent-Sample T test): Koristi se kada su uzorci iz dve grupe nezavisni
jedni od drugih.

Pretpostavka za korišćenje T raspodele je da podaci prate normalnu raspodelu. Takođe, u slučaju nezavisnih
uzoraka, varijanse iz dve grupe treba da budu približno jednake.

Ukratko, T raspodela je korisna alternativa kada nemamo velike uzorke i kada nismo sigurni da li naši podaci
slede normalnu raspodelu.

Регресија је метода за предвиђање везе између променљивих. Користи се за ispitivanje kako jedna promenljiva
može da utiče na drugu. Користимо две променљиве: предиктор (X), такође познату као независна променљива, и
зависну променљиву (Y). Циљ је да се утврди како измена у X утиче на Y. Регресијска једначина изражава ту везу.
Грешка (E) представља део варијације у Y који није објашњен X. Циљ је да се минимизује ова грешка како би
регресиона једначина најбоље предвидела Y из X.
Регресија је метода за предвиђање везе између променљивих. Користимо је да бисмо истражили како
једна променљива утиче на другу. Користе се две променљиве: предиктор (X), такође познат као
независна променљива, и зависна променљива (Y). Циљ је да се пронађе једначина која најбоље
описује ту везу.
Регресија је метод за проучавање везе између променљивих. Користи се да се истражи како једна
променљива (независна променљива) утиче на другу (зависну променљиву). Користе се две
променљиве: предиктор (X) и зависна променљива (Y). Регресијска једначина изражава ту везу, а
грешка представља део варијације у Y који није објашњен X.

Korelacija je metoda koja se koristi za utvrđivanje veze između dve ili više promenljivih. Kada se ispituje
korelacija, izračunava se koeficijent korelacije koji nam omogućava da utvrdimo postojanje veze između
promenljivih, kao i njen smer i jačinu.

Koeficijent korelacije se zasniva na zbiru proizvoda odstupanja oko srednje vrednosti promenljive. Koristi se za
određivanje postojanja veze između dve promenljive, smera te veze i njenog intenziteta. Vrednost koeficijenta
korelacije kreće se između -1 i 1. Pozitivna korelacija je kada se povećanjem jedne promenljive povećava i
druga, dok je negativna korelacija kada se smanjenjem jedne promenljive povećava druga.

Jačina veze se određuje preko apsolutne vrednosti koeficijenta korelacije. Ako je vrednost između 0,1 i 0,29,
veza se smatra slaba, između 0,3 i 0,49 srednja, a između 0,5 i 1 jaka.

Nepostojanje veze između dve promenljive naziva se nul korelacija (zero correlation) ili nema korelacije (no
correlation).

Ne-parametarske metode su testovi zasnovani na rangiranju, procenjuju parametre i ne prate normalnu


raspodelu. One se koriste kada podaci ne ispunjavaju pretpostavke o određenoj distribuciji. Primjeri ne-
parametarskih metoda su Mann-Whitney U test, Wilcoxonov test, Kruskal-Wallis test, Friedmanov test itd.
Mann-Whitney U test se koristi za ispitivanje razlika između dve nezavisne grupe na neprekidnoj skali.
Poređuje mediane dveju grupa. Vrednosti neprekidne promenljive se pretvaraju u rangove za obe grupe, a
zatim se računa da li se rangovi grupa značajno razlikuju. Testira se nulta hipoteza da dato obeležje ima istu
raspodelu u obe populacije. Ekvivalent u slučaju normalne raspodele je t-test nezavisnih uzoraka. U slučaju
ovog testa, ako prihvatamo nultu hipotezu, kaže se da razlika u raspodelama datog obeležja nije statistički
značajna.

Wilcoxon-ov test uparenih (ekvivalentnih) parova je neparametarski analog uparenog t-testa. Koristi se kada
imamo uzorak izmeren pod dva različita uslova, a nulta hipoteza je da nema razlike u ishodima (ponovljena
merenja). Ovaj test pretvara rezultate u rangove i njih poređuje u trenutku 1 i trenutku 2. Primenjuje se kada
podaci ne prate normalnu raspodelu, a alternativna hipoteza je da ishod pod jednim uslovom teži da bude veći
ili manji od drugog ishoda. Kako se test zasniva na veličini razlika, podaci moraju biti intervalni. Nije koristan za
veoma male uzorke, a kako se veličina uzorka povećava, test postaje mnogo jači.

Spearman-ov koeficijent korelacije rangova se koristi za utvrđivanje postojanja veze između dve promenljive.
To je neparametarski pristup koji se zasniva na rangiranju podataka. Prvo se rangiraju posmatranja, a zatim se
izračunava koeficijent korelacije na osnovu tih rangova. Ova tehnika je korisna kada podaci ne prate normalnu
raspodelu. Koeficijent se označava grčkim slovom ro (ρ). Može se testirati nulta hipoteza da su promenljive
nezavisne, ili alternativna hipoteza da jedna raste dok druga opada, ili da se oba povećavaju ili smanjuju
zajedno.

Kontinuirane korekcije povećava preciznost procene i bolje se uklapa sa stvarnim podacima, posebno kod
malih uzoraka.

Хи-квадрат тест се koristi za testiranje zavisnosti između kategoričkih promenljivih. Ovaj test se oslanja na
ukrštene tabele, gde su kategorije jedne promenljive presečene sa kategorijama druge. Nakon kalkulacije
unakrsnih tabela, razmatraju se različiti pokazatelji, uključujući i veličinu efekta. Za tabele veće od 2x2, koristi
se Kramarov koeficijent koji uzima u obzir broj stepeni slobode. Za tabele 2x2, koristi se Fi koeficijent.

Хи-квадрат test ima nultu hipotezu da ne postoji zavisnost između dve promenljive, a alternativnu da postoji.
Nebitno je koja je promenljiva u redu, a koja u koloni. Posmatraju se stvarne i očekivane frekvencije. Ako
promenljive nisu povezane, stvarne i očekivane vrednosti treba da budu bliske. Bilo koja neslaganja su zbog
slučajnih varijacija. Хи-квадрат statistika nije pokazatelj jačine veze. Može se koristiti samo ako su brojevi u
ćelijama frekvencije, a ne proporcije, procenti i merenja.

Kod Хи-квадрат testa za male uzorke, kada je nulta hipoteza tačna, test statistika koja se može nazvati Хи-
квадрат statistikom, sledi Хи-квадрат raspodelu pod uslovom da su očekivane vrednosti dovoljno velike. Što
su očekivane vrednosti manje, test će imati veći korak od Хи-кvadrat raspodele.
Senzitivnost je mera tačnosti testa koja se odnosi na populaciju pacijenata kod kojih bolest postoji. To je
sposobnost testa da identifikuje one koji stvarno imaju bolest. Izračunava se kao odnos tačno pozitivnih od
ukupnog broja obolelih. Koristi se kod bolesti koje je potrebno što pre otkriti.

Senzitivnost = broj onih koji su i pozitivni na bolest i test pozitivni / broj onih koji su pozitivni na bolest

Specifičnost je mera tačnosti testa koja se odnosi na populaciju pacijenata kod kojih bolest ne postoji. To je
sposobnost testa da isključi postojanje bolesti. Izračunava se kao odnos tačno negativnih od ukupnog broja
zdravih. Koristi se da bi se tačno utvrdilo postojanje bolesti ili indikacija pre nego što se pacijent podvrgne
nekoj teškoj terapijskoj proceduri.
Specifičnost = broj onih koji su i negativni na bolest i test negativni / broj onih koji su negativni na bolest

ROC (Receiver Operating Characteristic) kriva predstavlja prikaz odnosa senzitivnosti i specifičnosti za testove
koji su kontinuirani. Linija koja ide od donjeg levog ugla ka gornjem desnom uglu predstavljala bi test bez
dijagnostičke vrednosti. Ukoliko je linija bliža levom gornjem uglu, test ima sve veću dijagnostičku tačnost, jer
tada senzitivnost je bliža jedinici, a stopa lažno pozitivnih sve bliže nuli. Ako kriterijum na testu postaje strožiji,
kriva se pomera nadole i ulevo (niža senzitivnost, veća specifičnost). Ako kriterijum postaje blaži, kriva se
pomera ka gore i udesno (veća senzitivnost, niža specifičnost).

Stopa mortaliteta predstavlja statističku mјeru koja označava broj smrtnih slučajeva u određenom
vremenskom periodu u odnosu na broj ljudi u populaciji tokom tog perioda. Da bismo izračunali stopu
mortaliteta, broj smrtnih slučajeva u datom periodu dijelimo sa ukupnim brojem stanovnika u sredini tog
perioda i množimo s određenom konstantom (npr. 1000).

Sirova stopa mortaliteta, takođe nazvana i sirova stopa smrtnosti, izračunava se bez uzimanja u obzir starosne
strukture populacije. Ova mjera je korisna za poređenje smrtnosti između različitih populacija ili u različitim
vremenskim periodima, ali ne uzima u obzir uticaj starosne strukture na smrtnost.

Da bismo eliminisali efekte različitih starosnih struktura u populaciji, koristimo metode standardizacije stopa
mortaliteta. Najčešće korišćena metoda je standardizacija po starosnoj strukturi, koja omogućava poređenje
stopa mortaliteta između različitih populacija ili u različitim vremenskim periodima tako što se koristi
standardna starosna struktura za sve populacije. Ovaj pristup omogućava tačnije poređenje smrtnosti, jer
eliminiše efekte razlika u starosnim strukturama među populacijama.

You might also like