Professional Documents
Culture Documents
Stat Ispit
Stat Ispit
Stat Ispit
Садржај:
1. Фреквенције (апсолутне, релативне, кумулативне) и графичко представљање
расподела фрекфенција ........................................................................................................ 3
2. Мере централне тенденције .......................................................................................... 6
3. Meре варијабилитета ..................................................................................................... 7
4. Моменти статистичког обележја ................................................................................. 8
5. Пирсонови коефицијенти обележја............................................................................. 8
6. Популација, узорак, статистике, веродостојност узорка ........................................... 9
9. Оцене са минималном варијансом ............................................................................... 12
13. Интервали поверења и општи поступак одређивања интервала поверења ...... 13
14. Интервал поверења за очекивану вредности ........................................................... 14
15. Једнострани и двострани интервал поверења за варијансу .................................. 15
16. Интервал поверења за разлику математичких очекивања ................................... 16
17. Интервал поверења за непознату вероватноћу........................................................ 17
18. Интервал поверења за коефицијент корелације ..................................................... 18
19. Tестирање хипотеза, грешке I и II врсте ................................................................... 18
20. Параметарски тестови, просте и сложене хипотезе ................................................ 19
21. Teстирање хипотеза о математичком очекивању ................................................... 21
22. Тестирање хипотеза о једнакости математичких очекивањa ............................... 22
23. Teстирање хипотеза о варијанси ................................................................................ 23
24. Тестирање хипотеза о количнику варијанси ........................................................... 24
25. Тестирање хипотеза о вероватноћи (пропорцији) ................................................... 25
26. Тестирање хипотеза о коефицијенту корелације .................................................... 25
27. Модели једнофакторске анализе варијансе .............................................................. 26
28. Модели двофакторске анализе варијансе ................................................................. 27
29. Непараметарски тестови .............................................................................................. 28
30. Хи-квадрат тест .............................................................................................................. 29
31. Тест сагласности ............................................................................................................ 29
32. Тест подобности .............................................................................................................. 30
33. Табеле контигенције...................................................................................................... 31
34. Тест корака за један узорак ......................................................................................... 31
35. Тест корака за два узорка............................................................................................. 33
36. Mann-Whitney тест ......................................................................................................... 33
37. Teст Kolmogorov-Smirnov за 1 узорак ........................................................................ 34
1
38. Teст Kolmogorov-Smirnov за 2 узорка ........................................................................ 34
39. Проста линеарна регресија на основу узорка .......................................................... 35
40. Оцена параметара линеарне регресије методом најмањих квадрата ................. 35
41. Тестирање хипотеза за параметар “a“ регресионог модела Y=aX+b+e и
интервал поверења за параметар “a“ .............................................................................. 36
42. Тестирање хипотеза за параметар “b“ регресионог модела Y=aX+b+e и
интервал поверења за параметар “b“ .............................................................................. 37
2
1. Фреквенције (апсолутне, релативне, кумулативне) и графичко представљање
расподела фрекфенција
− X je обележје таквог карактера да на једном елементу статистичког скупа може узети
само једну вредност из скупа бројева {x1,x2, ..., xk} при чему је k коначан али не
сувише велики број, k представља број могућих различитих вредности посматраног
обележја.
− Код таквог обележја све његове вредности на посматраном скупу можемо изразити
расподелом апсолутних фреквенција која се добија тако што се за сваку могућу
вредност обележја xi утврди колико елемената статистичког скупа узима ту
вредност.
− Тада се скуп парова вредности (x1, f1), (x2, f2) , ... ,(xk , fk) назива расподела
апсолутних фреквенција (fi) посматраног обележја X на датом статистичком скупу,
а fi је број елемената статистичког скупа код којих је X= xi.
− Најчешће се расподела даје у виду табеле.
− Ако је X непрекидног типа и ако узима вредност из интервала (а,b), интервал ћемо
поделиити на k подинтервала (a0-a1),(a1-a2),...,(ak-1-ak), при чему је а0=а и аk=b, које
ћемо звати групни интервали, а број и дужина интервала су такви да садрже
максималну количину информација уз њихов минималан број.
3
− За сваки групни интервал и за сваку вредност обележја X одредимо релативну
𝑓𝑖
фреквенцију (pi) као количник 𝑝𝑖 = при чему је i∈{1, 2,..., k}
𝑁
4
− Хистограми
- Служе за приказ релативних фреквенција.
- Конструишемо их тако што на Х оси наносимо средине групних интервала, а
затим око тих тачака констуишемо правоугаонике чије ће површине бити једнаке
релативним фреквенцијама.
− Ако је дужина i-тог интервала di = ai - ai-1, oнда висина правоугаоника изнад тачке
𝑎 +𝑎 𝑝
𝑥𝑖 = 𝑖 2 𝑖−1, треба да је ℎ𝑖 = 𝑑𝑖, при чему је i∈{1, 2, ..., k}, а pi је одговарајућа
𝑖
релативна фреквенција.
5
2. Мере централне тенденције
− То су: средине (аритметичка, хармонијска и геометријска средина), модус и
медијана.
− Аритметичка средина (𝒙 ̅) низа бројева је број који се добије кад се њихов збир
подели са укупним бројем чланова тог низа.
- Ако је Х:
1
1) Дато преко узорка {x1,x2,…,xn}: 𝑥̅ = ∑𝑛𝑖=1 𝑥𝑖
𝑛
1
2) Дато табелом: 𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 ∙ 𝑓𝑖
xi x1 x2 ... xk
fi f1 f2 ... fk
𝑎 +𝑎 1
3) Непрекидно, дато преко интервала: 𝑥𝑖 = 𝑖 2 𝑖−1 ; 𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 ∙ 𝑓𝑖
xi а0-а1 а2-а1 ... ак-ак-1
fi f1 f2 ... fk
𝑓 1
- Веза 𝑥̅ и релативних фреквенција (𝑝𝑖 = 𝑁𝑖 ): 𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 ∙ 𝑓𝑖 = 𝑥̅ = ∑𝑛𝑖=1 𝑥𝑖 ∙ 𝑝𝑖
- Особине 𝑥̅ :
1
1) i=1...N, xi = c: 𝑥̅ = 𝑁 𝑁 ∙ 𝑐 = 𝑐
2) 𝑥̅ > 𝑥 где је х најмања вредност Х у посматраном статистичком скупу
𝑥̅ < 𝑥 где је х највећа вредност Х у посматраном статистичком скупу
1
3) Из 𝑥̅ = 𝑛 ∑ 𝑥𝑖 види се да 𝑥̅ зависи од свих вредности које х узима на датом
статистичком скупу.
− Хармонијска средина (H) је реципрочна вредност аритметичке средине
𝑁 𝑁 1 1 1
реципрочних вредности чланова низа x1...xn: 𝐻 = 1 1 = 𝑛 1 , тј. = ∑𝑛𝑖=1 ,
+⋯+ ∑𝑖=1 𝐻 𝑁 𝑥𝑖
𝑥1 𝑥𝑛 𝑥𝑖
1 1 𝑓
oдносно = ∑𝑛𝑖=1 𝑖.
𝐻 𝑁 𝑥𝑖
- Кошијева теорема: H < G < 𝑥̅
− Геометријска средина (G)
𝑓 𝑓 𝑁
- 𝐺 = 𝑁√𝑋1 𝑋2 … 𝑋𝑁 ,тј. 𝐺 = √𝑥11 … 𝑥𝑘 𝑘 уколико је дато расподелом фреквенција.
1⁄
- 𝐺 = (∏𝑁 𝑖=1 𝑋𝑖 )
𝑁
/log
1 𝑘 1
log 𝐺 = 𝑁 ∑𝑖=1 log 𝑥𝑖 , тј. log 𝐺 = 𝑁 ∑𝑘𝑖=1 𝑓𝑖 log 𝑥𝑖 уколико је дато расподелом
фреквенција.
- Употреба огранчена само на она обележја која су позитивна.
6
𝑋 𝑋𝑇 𝑇−1 𝑋 𝑋 𝑋𝑇 𝑇−1 𝑋𝑇
- Веза са ланчаним индексом 𝑋2 … 𝑋 , за х1,х2...хТ: 𝐺 = 2 3
√𝑋 ∙ 𝑋 … ∙ 𝑋 = √𝑋
1 𝑇−1 1 2 𝑇−1 1
3. Meре варијабилитета
− Говоре о томе колико су средње вредности обележја Х добри представници свих
његових вредности на посматраном скупу и о томе колико се сви елементи на
посматраном скупу међусобно разликују.
− Размак варијације (R) је разлика највеће и најмање вредности на статистичком
скупу 𝑅 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛 .
− Квартилна девијација (Q) елиминише утицај екстремних вредности.
- 25% 50% 25% где су Х0,25 доњи и Х0,75 горњи квартил.
хmin Ме = х0,5 хmах
𝑥0,75 − 𝑥0,25
- 𝑄= 2
1
- Aко је Х прекидног типа: 𝑋0,75 = (𝑋3𝑛 + 𝑋3𝑛+1 )
2 4 4
1
𝑋0,25 = 2 (𝑋 + 𝑋 𝑛 𝑛
+1 )
4 4
𝑎𝑞+1 −𝑎𝑞 3𝑛
- Aко је Х непрекидног типа: 𝑋0,75 = 𝑎𝑞 + ( − ∑𝑞𝑖=1 𝑓𝑖 )
𝑓𝑞+1 4
𝑎𝑝+1 −𝑎𝑝 𝑛
𝑋0,25 = 𝑎𝑝 + (4 − ∑𝑝𝑖=1 𝑓𝑖 )
𝑓𝑝+1
− Средња девијација (em) је средње апсолутно одступање, тј. аритметичка средина
апсолутних вредности одступања х од 𝑥̅ на посматраном статистичком скупу.
- em ≥ 0
1
- Ako је X прекидног типа: 𝑒𝑚 = 𝑛 ∑𝑛𝑖=1|𝑥𝑖 − 𝑥̅ |.
1 𝑛
- Ako je X непрекидног типа: 𝑒𝑚 = ∫𝑖=1|𝑥 − 𝑥̅ |𝑓𝑖 .
𝑛
7
− Варијанса (S2) je aритметичка средина квадрата одступања вредности обележја Х
од 𝑥.
̅
1 1
- 𝑆 2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑆 2 = ∑𝑛𝑖=1 𝑥𝑖2 − 𝑥̅ 2 , за х прекидног типа
𝑛 𝑛
1 1
- 𝑆 2 = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖 𝑆 2 = 𝑛 ∑𝑛𝑖=1 𝑥𝑖2 𝑓𝑖 − 𝑥̅ 2 , за х дато табелом
- S2 ≥ 0
- S2 = 0 када су све вредности у узорку исте
− Стандардна девијација случајне променљиве X је позитивна вредност корена
варијансе 𝑆=+𝑆2𝑆 = +√𝑆 2
− Коефицијент варијације (V) је процентуално изражени количник стандардне
𝑆
девијације и аритметичке средиине , 𝑉=𝑆𝑥𝑉 = 𝑥̅ ∙ 100%.
8
- Aко је:
1) β2=3 – нормална спљоштеност
2) β2>3 – спљоштеност већа од нормалне
3) β2<3 – спљоштеност мања од нормалне
9
3. Стратификовани узорак
- Ако је популација подељена на стратуме (независне подскупове), избор се врши
за сваки стратум посебно, тако што се из сваког узима одговарајући број
елемената.
4. Узорак скупина
- Елементи популације се деле у скупине.
- На случајан начин врши се избор скупине, а затим се посматрају сви елементи
скупине као елементи узорка (једнофазни узорак), или се у оквиру изабране
скупине врши избор елемената који ће ући у узорак (двофазни узорак)....
− Статистике:
- Узорак (Х1,Х2,...,Хn) је случајна променљива, онда је и свака функција тог узорка
случајна променљива, та функција представља параметар узорка и зове се
статистика,то је функција 𝑍 = 𝐹(𝑋1 , 𝑋2 , … , 𝑋𝑛 ).
- Са променом вредности у узорку, мењаће се и вредност статистике Z.
- Вероватноћа реализације неких вредности узорка се одређује из веродостојности
узорка, што значи да закон вероватноћа функције Z, која је дефинисана на узорку
(Х1,Х2,...,Хn) одређујемо на основу функције веродостојности узорка.
- Вреодостојност узорка за Х прекидног типа:
𝑓(𝑥1 , 𝑥2 , 𝑥3 … , 𝑥𝑛 ) = 𝑃{𝑋1 = 𝑥1 } ∙ … ∙ 𝑃{𝑋𝑛 = 𝑥𝑛 } = 𝑝(𝑥1 )𝑝(𝑥2 ) … 𝑝(𝑥𝑛 );
𝑓(𝑥1 , 𝑥2 , 𝑥3 … , 𝑥𝑛 ) = ∏𝑛𝑖=1 𝑝(𝑥𝑖 ).
- Веродостојност узорка за X непрекидног типа:
𝑓(𝑥1 , 𝑥2 , 𝑥3 … , 𝑥𝑛 ) = ∏𝑛𝑖=1 𝑓(𝑥𝑖 ).
- Како би се одредила расподела, тј. закон вероватноћа једне статистике, потребно
је утврдити све њене могуће вредности, а затим вероватноће свих тих вредности.
10
г) За произвољну популацију и одређивање расподеле средине узорка 𝑥̅ користи се
централна гранична теорема:
- Ако је очекивана вредност популације m, и варијанса σ2, тада расподела
𝜎2
средине 𝑥̅ узорка тежи Нормалној расподели са очекивањем m и варијансом ,
𝑛
𝜎2 𝜎2
кад n неограничено расте: 𝑥̅ → (m; ) када n→∞, тј. 𝑥̅ ̴ (m; ).
𝑛 𝑛
− Варијанса узорка:
- Нека су параметри популације очекивана вредности m, варијанса σ2 , обични
моменти mk и централни моменти µk.
- Ако је (Х1,Х2,...,Хn) прост случајан узорак, таада је варијанса узорка
1
𝑆 2 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑥̅ )2.
𝑛−1
- Очекивана вредност ове статистике је 𝐸(𝑠 2 ) = 𝜎 2 , a варијанса
𝑛
𝜇4 −𝜎4 2(𝜇4 −𝜎4 ) 𝜇4 −3𝜎4
𝑉𝑎𝑟(𝑠 2 ) = − − .
𝑛 𝑛2 𝑛3
− Teорема: Нека су 𝑥̅ и s2 средина и варијанса узорка из популације са Нормалном
расподелом N(m;σ2). Тада важи:
1) 𝑥̅ и s2 су међусобно независне статистике;
2) Средина узорка 𝑥̅ има Нормалну расподелу;
𝑛𝑠2
3) Статистика има Хи-квадрат расподелу са (n – 1) степени слободе.
𝜎2
11
k→∞ варијанса оцене 𝜃𝑘̅ → 0, што значи да ће 𝜃𝑘̅ бити ближе правој вредности
параметра θ.
- Уколико су 𝜃̂1 , 𝜃̂2 , … , 𝜃̂𝑘 пристрасне оцене, тј. ако је 𝐸(𝜃̂) = 𝜃 + 𝛿, онда би оцена
𝜃𝑘̅ била све ближе вредности 𝜃 + 𝛿, а не вредности параметра θ, што значи да што
је пристрасност већа, то су и разлике веће.
9. Оцене са минималном варијансом
− Ограничићемо се на класу непристрасних оцена непознатог параметра θ.
− Потребно је изградити критеријум „ваљаности“ једне такве оцене.
− Неопходно је одредити „блискост“ оцене и непознатог параметра популације.
− Интервал око праве вредности, тј. (θ – λ1; θ+λ2], при чему су бројеви λ1,λ2 ϵ (0;λ),
− Статистиика θ може узети вредности из овог интервала, а нека је вероватноћа да се
то деси 𝑃{𝜃 − 𝜆1 < 𝜃̂ < 𝜃 + λ2 }.
− Посматрајмо статистику 𝜃̂𝑖 = 𝑓(𝑋1 , 𝑋2 , … 𝑋𝑛 ) и вероватноћу 𝑃{𝜃 − 𝜆1 < 𝜃̂1 < 𝜃 + λ2 }.
− Ако је вероватноћа 𝑃{𝜃 − 𝜆1 < 𝜃̂ < 𝜃 + λ2 } увек већа од вероватноће
𝑃{𝜃 − 𝜆1 < 𝜃̂1 < 𝜃 + λ2 } за свако λ1,λ2 ϵ (0;λ), онда је статистика 𝜃̂ боља оцена од
статистике 𝜃̂1, а да би тај услов био испуњен потребно је да варијанса
статистике 𝜃̂ буде мања од варијансе статистике 𝜃̂1.
− Варијанса статистике која представља непристрасну оцену, зове се средња
квадратна грешка оцене.
− Средња квадратна грешка оцене изражава меру концентрисаности оцене око праве
вредности параметра, и пожељно је да та концентрисаност буде што већа, тј. да
средња квадратна грешка оцене буде што мања.
− Да би оцена 𝜃̂ параметра θ била боља од оцене 𝜃̂i истог параметра потребно је:
𝑉𝑎𝑟(𝜃̂ ) = 𝐸(𝜃̂ − 𝜃)2 ≤ 𝑉𝑎𝑟(𝜃̂𝑖 ) = 𝐸(𝜃̂𝑖 − 𝜃)2.
− „Најбоља“ непристрасна оцена непознатог параметра ће бити она чија варијанса
има минималну вредност у класи свих непристрасних оцена, тј. 𝑉𝑎𝑟(𝜃̂) ≤ 𝑉𝑎𝑟(𝜃̂𝑖 )
− Непристрасна оцена са минималном варијансом представља оптималну оцену
параметра θ.
− Пример. 𝑥̅ је оцена са минималном варијанском, тј. оптимална оцена параметра m.
10. Eфикасне оцене
− 𝐸(𝜃̂ − 𝜃)2, тј. средња квадратна грешка параметра се може сматрати мером
ефикасности оцене 𝜃̂.
− Што је та вредност ближа нули, то је оцена ефикаснија.
− Ако посматрамо оцену 𝜃̂0 која ће имати најмању средње квадратну грешку, то је
оцена 𝐸(𝜃̂0 − 𝜃)2 = min 𝐸(𝜃̂ − 𝜃)2.
̂
𝜃
− Ефикасност оцене 𝜃̂ параметра θ је количник минималне средње квадратне
̂ −𝜃)2
𝐸(𝜃
грешке и средње квадратне грешке оцене 𝜃̂, тј. 𝐸𝑓(𝜃̂) = 0 2 . ̂ −𝜃)
𝐸(𝜃
− Aко посматрамо само непристрасне оцене, ефикасност оцене 𝜃̂ је количник
̂0 )
𝑉𝑎𝑟(𝜃
варијанси, тј. 𝐸𝑓(𝜃̂) = при чему је 𝜃̂0 оцена са минималном варијансом.
̂)
𝑉𝑎𝑟(𝜃
− Ефикасност оцене је број који испуњава услов: 0 ≤ 𝐸𝑓(𝜃̂) ≤ 1.
− Када је 𝐸𝑓(𝜃̂) = 1 онда је 𝜃̂ ефикасна оцена параметра θ.
12
11. Oптималне оцене
− „Најбоља“ непристрасна оцена непознатог параметра биће она оцена чија варијанса
има минималну вредност у односу на све остале непристрасне оцене, тј.
𝑉𝑎𝑟(𝜃̂ ) ≤ 𝑉𝑎𝑟(𝜃̂𝑖 ).
− Непристрасна оцена са минималном варијансом представља оптималну оцену
параметра θ у класи непристрасних оцена.
− 𝑥̅ је оцена са минималном варијансом, тј. оптимална оцена параметра m.
− Код Нормалне расподеле код које је очекивана вредности m позната, а варијанса σ2
1
непозната, оцена 𝜎̅ 2 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑚)2је оптимална оцена варијансе σ2.
12. Mетод максималне веродостојности
− Општи метод оцењивања.
− Функција веродостојности узорка 𝐿(𝑥1 , 𝑥2 , … 𝑥𝑛 ; 𝜃1 , 𝜃2 , … , 𝜃𝑘 ) = ∏𝑛𝑖=1(𝑥𝑖 ; 𝜃1 , … , 𝜃𝑘 ),
при чему је 𝑓(𝑥𝑖 ; 𝜃1 , … , 𝜃𝑘 ) модел расподеле случајне прменљиве Х на популацији, а
за измерене вредности у узорку, функција L ће бити функција параметра модела.
− Метод максималне веродостојности је метод избора вредности параметра модела
тако да функција веродостојности има што је могуће већу вредност.
− Како је logL монотоно растућа функција, она има максимум за исте вредности као и
функција L.
− Тачка у којој logL, тј. L, достиже максимум представља решење система једначина
који се добија изједначавањем парцијалних извода логаритма функције L по
𝜕𝑙𝑜𝑔𝐿 𝜕𝑙𝑜𝑔𝐿
непознатим параметрима са нулом, тј. 𝜕𝜃 = 0, … , 𝜕𝜃 = 0.
1 𝑘
− Посматрајмо модел расподеле f(x,θ), код ког постоји само један параметар θ,
функција веродостојности тог узорка је 𝐿(𝑥1 , 𝑥2 , … 𝑥𝑛 ; 𝜃) = ∏𝑛𝑖=1(𝑥𝑖 ; 𝜃),
њен логаритам је log 𝐿(𝑥1 , 𝑥2 , … 𝑥𝑛 ; 𝜃) = ∑𝑛𝑖=1 log 𝑓(𝑥𝑖 ; 𝜃), а једначина на основу које
𝜕𝑙𝑜𝑔𝐿(𝑥1 ,𝑥2 ,…𝑥𝑛 ;𝜃) 𝜕 log 𝑓(𝑥𝑖 ;𝜃)
се добија тражена оцена је = ∑𝑛𝑖=1 = 0.
𝜕𝜃 𝜕𝜃
− Најважније особине оцена добијене применом ове методе су:
1) Ефикасне оцене
- Ако постоји ефикасна оцена 𝜃̂ = 𝜃̂(𝑋1 , … 𝑋𝑛 ) параметра θ тада јединична
𝜕𝑙𝑜𝑔𝐿(𝑋1 ,…𝑋𝑛 ;𝜃) 𝜕 log 𝑓(𝑋𝑖 ;𝜃)
веродостојност = ∑𝑛𝑖=1 = 0 има јединствено решење и
𝜕𝜃 𝜕𝜃
то је баш оцена 𝜃̂.
2) Принцип инваријантности
- Ако је 𝜃̂ = 𝜃̂(𝑋1 , … 𝑋𝑛 ) оцена максималне веродостојности параметра θ тада је
g(𝜃̂) оцена максималне веродостојности функције g(θ).
- Функција g(θ) тачке из скупа могућих вредности параметра θ пресликава у
интервал скупа реалних бројева.
- Особина важи само у случају када постоји више параметара θ1,...θk из
k-димензионалног простора, а функција g те тачке пресликава у
r-димензионални простор (𝑟 ≤ 𝑘).
3) Једнозначност решења
- Једнозначна веродостојност не мора имати само једно решење.
- Пример. Ако Х има униформну расподелу.
13. Интервали поверења и општи поступак одређивања интервала поверења
− Мање рестриктивна метода оцењивања параметара.
− Одређивање интервала поверења за непознати параметар θ популације:
13
- На основу случајног узорка Х1, Х2, ..., Хn одређују се две статистике:
𝑍1 = 𝑓1 (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) и 𝑍2 = 𝑓2 (𝑋1 , 𝑋2 , … , 𝑋𝑛 ), такве да је увек Z1 < Z2.
- Oве две статистике су случајне променљиве које одређују интервал (Z1; Z2], чије
границе се мењају променом узорка.
− Нека је γ вероватноћа да интервал (Z1; Z2] прекрива непознати параметар θ, а (1 – γ)
је вероватноћа да се то не остварује,𝑃{𝑍1 < 𝜃 < 𝑍2 } = 𝛾 и 𝑃{𝜃 ∉ (𝑍1 ; 𝑍2 ]} = 1 − 𝛾.
− Вероватноћа γ је ниво поверења, а интервал (Z1; Z2] је интервал поверења.
− Поступак одређивања интервала поверења:
1. корак: Одређује се функција узорка Х1, Х2, ..., Хn и параметра θ, g(Х1, Х2,..., Хn,θ)
која има следеће особине:
дефинисана је за сваку вредност θ, непрекидна и монотона
њена расподела не зависи од непознатог параметра θ
2. корак: За дати ниво поверења γ се одређују вредности g1 и g2 такве да је
𝑔2
∫𝑔1 𝜑(𝑦)𝑑𝑦 = 𝛾. Вредности g1 и g2 такве да за сваку случајну променљиву Y
која има закон вероватноћа φ(y), вероватноћа да се Y нађе у интервалу (g1; g2]
једнака γ, тј. 𝑃{𝑔1 < 𝑌 < 𝑔2 } = 𝛾.
3. корак: Решавањем неједначина 𝑔(𝑋1 , … 𝑋𝑛 ; 𝜃) ≤ 𝑔2 и 𝑔(𝑋1 , … 𝑋𝑛 ; 𝜃) > 𝑔1 , по θ
добија се: 𝑓1 (𝑋1 , … 𝑋𝑛 ; 𝑔1 ) < 𝜃 ≤ 𝑓2 (𝑋1 , … 𝑋𝑛 ; 𝑔2 ). Случајни догађаји
g1 < g(Х1, Х2,..., Хn,θ) ≤ g2 и Z1 < θ ≤ Z2 су догађаји са истим вероватноћама.
4. корак: Пошто статистика g има закон вероватноћа дат функцијом φ(y), онда је
вероватноћа догађаја g1 < g(Х1, Х2,..., Хn,θ) ≤ g2 једнака нивоу поверења γ, што
значи да је 𝑃{𝑍1 < 𝜃 < 𝑍2 } = 𝛾 и 𝑃{𝜃 ∉ (𝑍1 ; 𝑍2 ]} = 1 − 𝛾, па је интервал
поверења за непознати параметар θ и дати ниво поверења γ интервал:
(𝑍1 = 𝑓1 (𝑋1 , … 𝑋𝑛 ; 𝑔1 ); 𝑍2 = 𝑓2 (𝑋1 , … 𝑋𝑛 ; 𝑔2 )] .
− Дужина интервала поверења зависи од нивоа поверења, што значи да се са
повећањем нивоа поверења повећава и дужина интервала поверења, и обрнуто.
− У пракси је најчешће γ = 0,95 или γ = 0,99.
14. Интервал поверења за очекивану вредности
− Претпоставимо да је очекивана вредност m популације непозната и да треба
одредити интервал поверења за тај параметар.
− Нека је Х1, Х2, ..., Хn узорак из такве популације.
1
− Тада средина узорка 𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 има нормалну расподелу са параметрима
𝜎2
𝐸(𝑥̅ ) = 𝑚 и 𝑉𝑎𝑟(𝑥̅ ) = .
𝑛
− Статистика
𝑥̅ −𝑚
− 𝑍 = 𝜎 √𝑛 има стандардизовану Нормалну расподелу са законом вероватноћа
𝑦2
1
𝜑(𝑦) = 𝑒− 2 .
√2𝜋
− За функцију g(Х1, Х2,..., Хn,θ) можемо узети статистику Z.
− Статистика Z зависи и од варијансе популације, при чему постоје два случаја:
1. Нека је варијанса популације позната.
- Из закона вероватноћа статистике Z одредићемо интервал са границом (-z0; z0)
тако да је 𝑃{−𝑧0 ≤ 𝑍 ≤ 𝑧0 } = 𝛾.
- Уз помоћ таблице за функцију Нормалне расподеле одредићемо z0 тако да је
𝛾+1
2𝜙(𝑧0 ) − 1 = 𝛾, тј. 𝜙(𝑧0 ) = 2 .
14
𝑥̅ −𝑚 𝑥̅ −𝑚
- У следећем кораку решавамо неједначине √𝑛 < 𝑧0 и √𝑛 ≥ −𝑧0 и
𝜎 𝜎
𝜎 𝜎
добијамо решење 𝑥̅ − 𝑧0 < 𝑚 ≤ 𝑥̅ + 𝑧0 .
√𝑛 √𝑛
- На основу добијеног можемо тврдити да ће се догађај
𝜎 𝜎
𝑥̅ − 𝑧0 𝑛 < 𝑚 ≤ 𝑥̅ + 𝑧0 𝑛 реализовати са вероватноћом γ, а са вероватноћом
√ √
(1 – γ) се неће реализовати.
𝜎 𝜎
- Интервал поверења за m је интервал са границама (𝑥̅ − 𝑧0 ; 𝑥̅ + 𝑧0 ].
√𝑛 √𝑛
- Исто се одређује и када није позната расподела обележја на популацији, али у
том случају узорак мора бити довољно велики да би се на основу централне
граничне теореме тврдило да статистика Z има приближно Нормалну
расподелу.
2. Нека варијанса популације није позната.
- Статистика Z која зависи од варијансе σ2 се не може користити.
𝑥̅ −𝑚
- Користи се статистика 𝑡 = 𝑠 √𝑛 − 1, која има Студентову расподелу са
(n - 1) степени слободе.
1
- Варијанса узорка s2 је 𝑠 2 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑥̅ )2 .
- Из таблице за Студентову расподелу одређује се број t0 тако да је
𝑃{−𝑡0 < 𝑡𝑛−1 ≤ 𝑡0 } = 𝛾.
𝛾+1
- To je oна вредност 2𝑆𝑛−1 (𝑡0 ) − 1 = 𝛾, тј. 𝑆𝑛−1 (𝑡0 ) = 2 .
𝑥̅ −𝑚 𝑥̅ −𝑚
- Решавањем неједначина √𝑛 − 1 < 𝑡0 и √𝑛 − 1 ≥ −𝑡0 , добија се
𝑠 𝑠
𝑠 𝑠
решење 𝑥̅ − 𝑡0 < 𝑚 ≤ 𝑥̅ + 𝑡0 , за које тврдимо да је
√𝑛−1 √𝑛−1
𝑠 𝑠
𝑃 {𝑥̅ − 𝑡0 < 𝑚 ≤ 𝑥̅ + 𝑡0 } = 𝛾.
√𝑛−1 √𝑛−1
𝑠 𝑠
- Интервал поверења за m је интервал са границама (𝑥̅ − 𝑡0 ; 𝑥̅ + 𝑡0 ].
√𝑛−1 √𝑛−1
- Када популација нема Нормалну расподелу или је она непозната, за довољно
велики узорак се може сматрати да делује централна гранична теорема.
- Студентова расподела се тада апроксимира Нормалном, што значи да
𝑥̅ −𝑚
статистика 𝑠 √𝑛 − 1 има приближно нормалну расподелу, и за довољно
велики узорак интервал поверења ће бити интервал са границама
𝑠 𝑠
(𝑥̅ − 𝑧0 ; 𝑥̅ + 𝑧0 ].
√𝑛−1 √𝑛−1
− За дати ниво поверења, дужина интервала поверења за очекивану вредност m је
обрнуто пропорционална величини узорка.
15. Једнострани и двострани интервал поверења за варијансу
− Посматрајмо узорак Х1, Х2,..., Хn из популације са Нормалном расподелом код које
је варијанса σ2 непозната.
𝑛𝑠2
− За одређивање интервала користи се статистика 𝜎2 која има Хi-квадрат расподелу
са (n – 1) степени слободе.
− Једнострани интервал поверења:
- Горња граница, тј. вредност од које варијанса није већа.
- Из таблице за Хi-квадрат расподеле одредићемо број χ0 тако да је
2
𝑃{𝜒𝑛−1 > 𝜒0 } = 𝛾, односно 𝐾𝑛−1 (𝜒0 ) = 1 − 𝛾.
𝑛𝑠2
- Можемо тврдити да је γ вероватноћа догађаја 𝜎2
≥ 𝜒0 , односно догађаја
𝑛𝑠2
𝜎2 ≤ .
𝜎2
15
𝑛𝑠2
- Пошто варијанса не сме бити негативна, важи 𝑃 {0 < 𝜎 2 ≤ } = 𝛾, и да је
𝜎2
𝑛𝑠2
једностани интервал поверења за варијансу σ2, итервал са границама (0; ].
𝜎2
− Двострани интервал поверења:
𝑛𝑠2
- Користи се иста статистика 𝜎2 и Хi-квадрат расподела.
2
- Одређују се два броја χ1 и χ2, тако да је: 𝑃{𝜒1 < 𝜒𝑛−1 ≤ 𝜒2 } = 𝛾, односно
2 1−𝛾 2 1−𝛾
𝑃{𝜒𝑛−1 < 𝜒1 } = 2 и 𝑃{𝜒𝑛−1 > 𝜒2 } = 2 , као што је приказано на слици
𝜎2 𝜎2 𝜎2 𝜎2
- 𝑃 {𝑥̅ 1 − 𝑥̅2 − 𝑧0 √𝑛1 + 𝑛2 < −(𝑚1 − 𝑚2 ) < 𝑥̅1 − 𝑥̅2 + 𝑧0 √𝑛1 + 𝑛2 } = 𝛽/ ∙ (−1)
1 2 1 2
𝜎2 𝜎2 𝜎2 𝜎2
- 𝑃 {𝑥̅ 1 − 𝑥̅2 − 𝑧0 √𝑛1 + 𝑛2 > 𝑚1 − 𝑚2 > 𝑥̅ 1 − 𝑥̅ 2 + 𝑧0 √𝑛1 + 𝑛2 } = 𝛽
1 2 1 2
− 𝜙(𝑧0 ) − 𝜙(−𝑧0 ) = 𝛽
1+𝛽
2𝜙(𝑧0 ) = 𝛽 => 𝜙(𝑧0 ) = 2
16
𝜎2 𝜎2 𝜎2 𝜎2
− Интервал поверења је: 𝐼𝑚1 − 𝐼𝑚2 = [𝑥̅1 − 𝑥̅ 2 − 𝑧0 √𝑛1 + 𝑛2 ; 𝑥̅ 1 − 𝑥̅2 + 𝑧0 √𝑛1 + 𝑛2 ].
1 2 1 2
1+𝛽
− 𝐹𝑛1 +𝑛2−2 (𝑡0 ) = 2
√𝑛1 𝑆21+𝑛2 𝑆22 √𝑛1𝑆21+𝑛2 𝑆22
− Интервал поверења је: 𝐼𝑚1 − 𝐼𝑚2 = [𝑥̅1 − 𝑥̅2 − 𝑡0 ∙ 𝑛1 𝑛2
̅1 − 𝑥̅2 + 𝑡0 ∙
;𝑥 𝑛1 𝑛2
]
√𝑛 (𝑛1+𝑛2−2) √𝑛 (𝑛1 +𝑛2 −2)
1 +𝑛2 1 +𝑛2
17
𝑝̂−1
− Статистика 𝜏 = √𝑛 има приближно стандардизовану Нормалну расподелу.
√𝑝̂(1−𝑝̂)
1+𝛾
− Из функције Нормалне расподеле се одређује z0, тако да је 𝜙(𝑧0 ) = .
2
𝑝̂−1 𝑝̂−1
− Решавањем неједначина √𝑛 < 𝑧0 и √𝑝̂(1−𝑝̂) √𝑛 > −𝑧0 добија се неједначина
√𝑝̂(1−𝑝̂)
𝑝̂(1−𝑝̂) 𝑝̂(1−𝑝̂)
𝑝̂ − 𝑧0 √ < 𝑝 < 𝑝̂ + 𝑧0 √ .
𝑛 𝑛
− Према томе интервал поверења за непознату вероватноћу и дати ниво поверења γ је
𝑝̂(1−𝑝̂) 𝑝̂(1−𝑝̂)
интервал са границама (𝑝̂ − 𝑧0 √ ; 𝑝̂ + 𝑧0 √ ).
𝑛 𝑛
18
− Поступак тестирања је базиран на неким претпоставкама о расподели
популације;
2. Непараметарски тестови
− Хипотезе се односе на расподеле обележја на популацији;
− Закључци о особинама узорка се доносе без обзира на расподелу популације.
− Хипотеза може да се односи на једну могућу вредност параметара или на једну
одређену расподелу, то је проста хипотеза.
− Грешка првог типа је грешка коју правимо ако одбацимо хипотезу Н0, а она је тачна.
− Грешка другог типа је ако прихватимо хипотезу Н0, а она није тачна.
− Општи поступак при статистичком тестирању хипотезе се своди на то да се скуп
свих могућих вредности за узорак Rn подели на два дела:
- подскуп C (критична област)
- подскуп Rn – C.
− Одлуку о одбацивању Н0 доносимо ако резултети узорка припадају области C, а ако
резултати узорка припадају области Rn – C хипотезу Н0 прихватамо.
− Када је хипотеза тачне, резултати узорка могу припасти критичној области или не.
1. Ако припадну критичној области донећемо погрешан закључак. Вероватноћу тог
догађаја означимо са α, тј. 𝛼 = 𝑃{(𝑋1 , 𝑋2 , … , 𝑋𝑛 )𝜖𝐶/𝐻0 }.
2. Нећемо погрешити ако резултати узорка припадну области Rn – C, а вероватноћа
тачности тог закључка је 1 – α, тј. 1 − 𝛼 = 𝑃{(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ∉ 𝐶/𝐻0 }.
- Погрешан закључак у овом случају је грешка прве врсте, а α је њена вероватноћа
и представља ниво значајности.
− Ако са 𝐻 ̅0 да хипотеза Н0 није тачна.
1. Ако резултати узорка припадну области Rn – C донећемо погрешан закључак јер
ћемо прихватити Н0, вероватноћа погрешног закључка је β, тј. 𝛽 =
̅0 }.
𝑃{(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ∉ 𝐶/𝐻
2. Ако резултати узорка припадају области C на основу општег критеријума ћемо
донети исправан закључак, тј. одбацити Н0, а вероавтноћа тог закључка ће бити
̅0 }.
1-β, тј. 1 − 𝛽 = 𝑃{(𝑋1 , 𝑋2 , … , 𝑋𝑛 )𝜖𝐶/𝐻
- Вероватноћа β је вероватноћа грешке друге врсте, а 1 – β је моћ тестирања.
− Поступак тестирања хипотеза приказан је у табели одлучивања:
19
- Овакве хипотезе се називају параметарске хипотезе.
− Најчешће се формирају две међусобно искључиве хипотезе: нулта Н0 и
алтернативна Н1.
− Приступа се тестирању хипотезе.
− Из популацје се узима узорак величине n и, на основу вредности у узорку, се доноси
закључак о прихватању или одбацивању нулте хипотезе.
− Прихватање хипотезе Н0 подразумева одбацивање хипотезе Н1 и обрнуто.
− Ако са θ означимо непознати параметар, а са Х1, Х2,..., Хn елементе узорка.
− Најједноставнији случај би био ако знамо да параметар θ може имати једну од две
вредности, нпр. θ0 или θ1 (θ0 < θ1), и тада хипотезе формулишемо на следећи начин:
1. Нулта хипотеза Н0 (θ = θ0);
2. Алтернативна хипотеза Н1(θ = θ1).
- У овом случају су обе хипотезе просте, јер се за параметар θ претпоставља по
једна могућа вредност.
− Поступак при тестирању хипотезе Н0 се састоји од следећих корака:
1. Дефинише се статистика 𝜏 = 𝑓(𝑋1 , … , 𝑋𝑛 ) на узорку, чија је расподела
„концентрисана“ око вредности θ0 када је тачна хипотеза Н0, а око вредности θ1
ако је тачна хипотеза Н1.
Са φ(τ; θ) означимо закон вероватноћа статистике τ,
то је ф-ја која зависи од вредности τ и од непознатог
параметра θ.
20
21. Teстирање хипотеза о математичком очекивању
− Претпоставимо да је узорак Х1, Х2,..., Хn из популације са Нормалном расподелом,
да је очекивана вредност m непозната и тестирајмо хипотезу да m има одређену
1 𝜎2
вредност m0, тј. Н0 = (m = m0) и 𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 : 𝑁(𝑚; )
𝑛
− Aко је σ познато:
2
- 𝑃{𝜏 > 𝑧0 |𝑚 = 𝑚0 } = 𝛼
- 𝑃{𝜏 < 𝑧0 |𝑚 = 𝑚0 } = 1 − 𝛼
- 𝑃{𝜏 > 𝑧0 |𝑚 > 𝑚0 } = 𝛽 је
вероватноћа грешке друге врсте.
𝑚−𝑚0 𝑚−𝑚0
- 𝑃 {𝜏 − 𝜎 < 𝑧0 − 𝜎 |𝑚 >
- Деснострана критична област √𝑛 √𝑛
C = (z0; +∞)
- Φ(z0) = 1 – α 𝑚0 } = 𝜙(𝑧0 − 𝑑)
- Ако је 𝜏 < 𝑧0 усвојићемо Н0, а - Моћ теста 1 – β = 1 - 𝜙(𝑧0 − 𝑑)
ако је 𝜏 > 𝑧0 одбацићемо Н0.
2. Н0 = (m = m0)
Н1 = (m < m0)
- Левострана критична област
C = (-∞; -z0)
- Φ(-z0) = 1 – α
- Ако је 𝜏 < −𝑧0 одбацићемо Н0, а ако
је 𝜏 > −𝑧0 усвојићемо Н0.
- 𝑃{𝜏 < −𝑧0 |𝑚 = 𝑚0 } = 𝛼
- Моћ теста 1 – β = 1 - 𝜙(𝑧0 − 𝑑)
3. Н0 = (m = m0)
Н1 = (m ≠ m0)
- Ако је |𝜏| > 𝑧0 одбацићемо Н0,
а ако је |𝜏| < 𝑧0 усвојићемо Н0.
𝑥̅ −𝑚0
- 𝜏= 𝜎
√𝑛
- 𝑃{|𝜏| > 𝑧0 |𝑚 = 𝑚0 } = 𝛼
- Обострана критична област C - 𝑃{𝜏 < 𝑧0 |𝑚 ≠ 𝑚0 } = 𝛽
= (-∞; -z0) ∪ (z0; +∞) - 1−𝛽 =
𝛼 1 − 𝑃{𝜏 < 𝑧0 |𝑚 ≠ 𝑚0 } =
- Φ(-z0) =
2
𝛼 𝛼
2 − 𝜙(𝑧0 − 𝑑) − 𝜙(𝑧0 − 𝑑)
- 1 - Φ(z0) = => Φ(z0) = 1 - 2
2
− Aко је σ2 непознато:
𝑥̅ −𝑚
- Користи се статистика 𝑡𝑛−1 = 𝑠 √𝑛 − 1: 𝑡𝑛−1 која има Студентову расподелу
са (n – 1) степени слободе.
21
- Избор критичне области зависи од алтернативне хипотезе, постоји 3 случаја:
1. Н0 = (m = m0)
Н1 = (m > m0)
𝑥̅ −𝑚
- 𝑡𝑛−1 = √𝑛 − 1
𝑠
1
+ (𝑚 − 𝑚0 )√𝑛 − 1 ∙ 𝑠
- 𝑃{𝑡𝑛−1 > 𝑡0 } = 𝛼, тј. 𝑆𝑛−1 (𝑡0 ) = 1 −
𝛼
- Деснострана критична област - Ако је 𝜏 < 𝑡0 усвојићемо Н0, а ако је
C = (t0; +∞) 𝜏 > 𝑡0 одбацићемо Н0.
2. Н0 = (m = m0)
Н1 = (m < m0)
3. Н0 = (m = m0)
Н1 = (m ≠ m0)
- Обострана критична област C = (-∞; -
t0) ∪ (t0; +∞)
- 𝑃{|𝑡𝑛−1 | > 𝑡0 } = 𝛼,
𝛼
тј. 𝑆𝑛−1 (𝑡0 ) = 1 − 2
- Ако је |𝜏| < 𝑡0 усвојићемо Н0, а ако
је |𝜏| > 𝑡0 одбацићемо Н0.
𝑥̅ 1 −𝑥̅ 2 𝑛 ∙𝑛
2. Ако је σ12 = σ22 = σ2: 𝜏 = ∙ √𝑛 1+𝑛2 : 𝑁(0; 1)
𝜎2 1 2
− Варијансе непознате:
𝑥̅ 1 −𝑥̅ 2
1. Aко је велики узорак: 𝜏 = ∶ 𝑁(0; 1)
𝑆2 𝑆2
√ 1+ 2
𝑛1 𝑛2
𝑥̅ 1 −𝑥̅ 2 𝑛 ∙𝑛
2. Ако је мали узорак: 𝜏 = ∙ √𝑛 1+𝑛2 ∙ (𝑛1 + 𝑛2 − 2) : 𝑡𝑛1 +𝑛2−2
√𝑛1 𝑆12 +𝑛2 𝑆22 1 2
22
– Тестирање хипотеза:
1. Н0 = (m1 = m2)
Н1 = (m1 > m2)
2. Н0 = (m1 = m2)
Н1 = (m1 < m2)
3. Н0 = (m1 = m2)
Н1 = (m1 ≠ m2)
23
− За задати ниво значајности α:
- Вредност χ0 одређујемо из таблица ф-је Хи-квадрат расподела, тако да је
2
𝑃{𝑋𝑛−1 > 𝜒0 } = 𝛼, тј. тако да је 𝐾𝑛−1 (𝜒0 ) = 1 − 𝛼
𝑛𝑠2
- Aко је хипотеза Н0 тачна, статистика τ = 𝜎2 има Хи-квадрат расподелу, па је
вероватноћа 𝑃{𝜏 > 𝜒0 |𝜎 2 = 𝜎02 } = 𝛼.
- Ако је 𝜏 ≤ 𝜒0 усвојићемо Н0, а ако је 𝜏 > 𝜒0 одбацићемо Н0.
- Вероватноћа грешке прве врсте је α.
- Вероватноћа грешке друге врсте је ф-ја
𝑛𝑠2 𝜎2
𝛽 = 𝑃{𝜏 < 𝜒0 |𝜎 2 = 𝜎02 } = 𝑃 { 𝜎2 < 𝜒0 𝜎02 } .
𝜎2
- Moћ теста је ф-ја 1 − 𝛽 = 1 − 𝐾𝑛−1 (𝜒0 02 ), она је монотоно растућа и њена
𝜎
минимална вредност је α.
24
25. Тестирање хипотеза о вероватноћи (пропорцији)
– Да би се тестирале хипотезе о вредности вероватноће p, посматра се узорак од n
елемената, нека су елементи тог узорка 𝑋1 , 𝑋2 , … , 𝑋𝑛 , при чемусвака променљива Хi
узима вредности 0 или 1.
– Статистика 𝑌 = ∑𝑛𝑖=1 𝑋𝑖 је број понављања експеримената код којих се реализовао
догађај А.
1
– Средина узорка 𝑥̅ = 𝑛 𝑌 = 𝑝̂ је оцена вероватноће (пропорције) p.
– Желимо да проверимо хипотезу 𝐻0 (𝑝 = 𝑝0 ), при чему је p0 унапред дата вредност.
– За довољно велики узорак статистика 𝑥̅ = 𝑝̂ ће имати приближно Нормалну
𝑝(1−𝑝)
расподелу са параметрима 𝐸(𝑝̂ ) = 𝑝, 𝑉𝑎𝑟(𝑝̂ ) = 𝑛 .
𝑝̂−𝑝0
– Ако је хипотеза 𝐻0 тачна, статистика 𝜏 = √𝑛 има приближно Нормалну
√𝑝0 (1−𝑝0 )
расподелу.
– Ако је 𝐻1 (𝑝 ≠ 𝑝0 ), одредимо z0 тако да је 𝑃{|𝑍| = 𝑧0 } = 𝛼, тј. тако да је
𝛼
𝜙(𝑧0 ) = 1 − 2 .
𝑝̂−𝑝0
– Када је хипотеза 𝐻0 тачна, статистика 𝜏 = √𝑛 има стандардизовану
√𝑝0 (1−𝑝0 )
Нормалну расподелу, па је вероватноћа 𝑃{|𝜏| = 𝑧0 | 𝑝 = 𝑝0 } = 𝛼.
– Ако је:
a) |𝜏| > 𝑧0 хипотезу о 𝐻0 одбацујемо
б) |𝜏| < 𝑧0 хипотезу о 𝐻0 не одбацујемо.
25
27. Модели једнофакторске анализе варијансе
− Посматрамо фактор који има две или више категорија, које називамо третмани.
− Елементи статистичког скупа подељени су у групе, при чему прву гупу чине
елементи на које је деловао први третман фактора, другу групу они на које је деловао
други третман, итд.
− Код сваке групе се мери вредност обележја Y, ако фактор нема утицаја на Y, онда ће
свака група имати карактеристике посматраног обележја, а ако фактор има утицаја
онда ће карактеристике бити различит.
− Као карактеристике обележја Y посматрамо вероватноћу и варијансу.
− k је број третмана посматраног фактора, елементи узорка су подељени у k група,
према третману фактора коме су изложени.
− Елементи се у узорку означавају са Yij, где се први индекс односи на третман.
− Општи линеарни модел је модел са следећим претпоставкама:
1. Линеарност
- m је просечна вредност обележја Y на популацији, па посматрано обележје има
вредност: 𝑌 = 𝑚 + 𝜀 , где је ε случајна променљива.
- Нека су m1, m2,..., mk вредности обележја Y1, Y2,..., Yk по групама.
- Taда су : 𝜏1 = 𝑚1 − 𝑚, 𝜏2 = 𝑚2 − 𝑚, … , 𝜏𝑘 = 𝑚𝑘 − 𝑚 ефекти појединих
третмана фактора, који представљају разлике просечних вредности група и
заједничке просечне вредности.
2. Варијбилитет
- Варијанса обележја Y на целом статистичком скупу је: 𝑉𝑎𝑟(𝑌) = 𝜎 2 .
- Претпоставимо да је варијанса појединих група иста као и варијанса целог
статистичког скупа, тј. 𝑉𝑎𝑟(𝑌1 ) = 𝑉𝑎𝑟(𝑌2 ) = ⋯ = 𝑉𝑎𝑟(𝑌𝑘 ) = 𝜎 2 .
- Ово је претпоставка о хомогености статистичког скупа у односу на посматрано
обележје.
3. Расподела
- ε је случајна променљива која представља ефекте немерљивих фактора, ова
променљива има одређену расподелу.
- Претпоставићемо да има Нормалну расподелу, тј. 𝜀𝑖 : 𝑁(0; 𝜎 2 ).
- Утицај фактора меримо ефектима третмана, при чему ако фактор нема утицаја,
ефекти третмана су једнаки нули.
- Поставља се хипотеза 𝐻0 : (𝜏1 = 𝜏2 = ⋯ = 𝜏𝑘 = 0), што је претпоставка да
фактор нема значајног утицаја на посматрано обележје.
- Алтернативна хипотеза подразумва да постоји разлика у деловању једног
третмана фактора, тј. да је бар једна од вредности 𝜏1 , 𝜏2 , … , 𝜏𝑘 различита од 0.
- Модел мери разлике у обележју Y преко разлика математичких очекивања
група.
- Одлука о прихватању или одбацивању хипотезе H0 зависи од вредности
статистике у оквиру које се појављује укупан варијабилитет, као збир квадрата
одступања вредности обележја од просека, а који се може поделити на између
и унутар група:
26
Извор Збир квадрата Степени Средње квадратно
F-количник
варијације одступања слободе одступање
Третмани 𝑘
𝑇𝑖2
(између 𝑇𝑖2 = ∑ 𝑛𝑖 (𝑦̅𝑖 − 𝑦̅)2 k-1 𝑆𝑖2 =
узорака) 𝑖=1 𝑘−1
Резидуали 𝑘 𝑛𝑗
𝑛 − 𝑘 𝑇𝑖2
2 𝑇𝑢2
(унутар 𝑇𝑢2 = ∑ {∑[𝑦̅𝑖ј − 𝑦̅] } n-k 𝑆𝑢2 = 𝐹=
узорака) 𝑖=1 𝑗=1 𝑛−𝑘 𝑘 − 1 𝑇𝑢2
𝑘 𝑛𝑗
2 𝑇2
Тотал 𝑇 2 = ∑ {∑[𝑌𝑖𝑗 − 𝑦̅] } n-1 𝑆2 =
𝑖=1 𝑗=1 𝑛−1
𝑛−𝑘 𝑇𝑖2
− Статистика 𝐹 = има F-расподелу са (k – 1), (n – k) степени слободе.
𝑘−1 𝑇𝑢2
− Ако је:
a) F > F0, хипотезу о значајном утицају фактора прихватамо, тј. одбацујемо хипотезу
H0
б) F < F0, хипотезу о значајном утицају фактора одбацујемо, тј. прихватамо хипотезу
H0
28. Модели двофакторске анализе варијансе
− Посматрају се два фактора и њихов утицај на обележје у статистичком скупу.
− Нека је F1 први фактор који има k различитих третмана, а F2 други третман који има
q третмана.
− Линеарни модел је следећег облика:
a) Код елемента статистичког скупа на који делује i-ти третман првог и j-ти третман
другог фактора, измерена је вредност обележја Y једнака:
𝑌 = 𝑚 + 𝛼𝑖 + 𝛽𝑗 + 𝜀𝑖𝑗 , 𝑖 = 1, … , 𝑘; 𝑗 = 1, … , 𝑞, при чему је m просечна вредност на
целој популацији, 𝛼𝑖 су ефекти третмана фактора F1, а 𝛽𝑗 ефекти третмана F2.
б) Претпоставимо да су 𝜀𝑖𝑗 независне случајне променљиве са Нормалном
расподелом 𝜀𝑖𝑗 : 𝑁(0; 𝜎 2 ).
− Посматрамо вредности обележја Y на 𝑛 = 𝑘 ∙ 𝑞 елемената узорка, што се може
представити дводимензионалном табелом следећег облика:
Фактор F2
Тотал
Третман Третман 1 Третман 2 ... Третман q
𝑞
27
− Параметри модела су m, 𝛼1 , 𝛼2 , … , 𝛼𝑘 ; 𝛽1 , 𝛽2 , … , 𝛽𝑞 и 𝜎 2 .
− Користи се метод најмањих квадрата.
− Оцене параметара су:
1
- за m: 𝑦̅ = ∑𝑘𝑖=1 ∑𝑞𝑗=1 𝑌𝑖𝑗 , где је 𝑦̅ просечна вредност целог узорка;
𝑘𝑞
- за α: 𝛼1 = 𝑦̅1∙ − 𝑦̅, 𝛼2 = 𝑦̅2∙ − 𝑦̅, … , 𝛼𝑘 = 𝑦̅𝑘∙ − 𝑦̅, где су 𝑦̅1∙ , … , 𝑦̅𝑘∙ просечне
вредности третмана првог фактора;
- за β: 𝛽1 = 𝑦̅∙1 − 𝑦̅, 𝛽2 = 𝑦̅∙2 − 𝑦̅, … , 𝛽𝑞 = 𝑦̅∙𝑞 − 𝑦̅, где су 𝑦̅∙1 , … , 𝑦̅∙𝑞 просечне
вреднсоти третмана другог фактора.
2
- за 𝜎 2 : 𝑇𝑅2 = ∑𝑘𝑖=1 ∑𝑞𝑗=1[𝑌𝑖𝑗 − 𝑦̅ − 𝑎𝑖 − 𝑏𝑗 ] , тј. резидуални збир квадрата одступања.
− Резидуални збир квадрата одступања је једнак:
2 2
𝑇𝑅2 = ∑𝑘𝑖=1 ∑𝑞𝑗=1(𝑌𝑖𝑗 − 𝑦̅) − 𝑞 ∑𝑘𝑖=1(𝑦̅𝑖∙ − 𝑦̅)2 − 𝑘 ∑𝑞𝑗=1(𝑦̅∙𝑗 − 𝑦̅) .
− Уводимо следеће ознаке:
- 𝑇12 = 𝑞 ∑𝑘𝑖=1(𝑦̅𝑖∙ − 𝑦̅)2 – збир квадрата одступања имеђу третмана I фактора
2
- 𝑇22 = 𝑘 ∑𝑞𝑗=1(𝑦̅∙𝑗 − 𝑦̅) - збир квадрата одступања између третмана II фактора
2
- 𝑇 2 = ∑𝑘𝑖=1 ∑𝑞𝑗=1(𝑌𝑖𝑗 − 𝑦̅) - тотални збир квадрата одступања
=> 𝑇 2 = 𝑇12 + 𝑇22 + 𝑇𝑅2
− За тестирање хипотезе H01(𝛼1 = 𝛼2 = ⋯ = 𝛼𝑘 = 0), тј. хипотезе да први фактор не
(𝑘−1)(𝑞−1) 𝑇12
утиче на обележје Y, користи се статистика 𝐹1 = ∙ 𝑇 2 која има F-расподелу
𝑘−1 𝑅
са (k – 1) и (k – 1)(q – 1) степени слободе.
− За тестирање хипотезе H02(𝛽1 = 𝛽2 = ⋯ = 𝛽𝑞 = 0), тј. хипотезе да други фактор не
(𝑘−1)(𝑞−1) 𝑇22
утиче на обележје Y, користи се статистика 𝐹2 = ∙ 𝑇 2 која има F-расподелу
𝑞−1 𝑅
са (q – 1) и (k – 1)(q – 1) степени слободе.
− Поређењем добијених вредности статистика F1 и F2 из узорка, са критичним
вредностима F01 и F02 добијеним из F-расподеле, доносимо одлуку о прихватању или
одбацивању хипотеза H01 и H02.
29. Непараметарски тестови
− Базирани су на моделима који не укључују предуслове везане за параметре
популације из које узорак потиче.
− Претпоставке карактеристичне за непараметарске тестове су најчешће слабије од
оних код параметарских тестова.
− Могу се користити и закључивања везана за квалитативна обележја.
− Предности:
1. Искази о вероватноћи добијени из већине непараметарских тестова су тачне
вероватноће, осим у случајевима великих узорака
2. Ако је величина узорка мала (n < 30), или ако је n > 30 и користимо ЦГТ, а
расподела на популацији није позната, коришћење непараметарских тестова нема
алтернативу
3. Постоји више непараметарских тестова за узорке добијене из посматрања
различитих популација
4. Погодни су за податке који су по својој природи рангирани
5. Могу се применити и у анализи квалитативних обележја
6. Лакши су за учење и примену од параметарских
− Ако су све претпоставке параметарког модела испуњене у подацима, онда примена
непараметарског теста доводи до губитка информација и лошијих резултата.
28
− Степен губитка је изражен преко моћи (ефикасности) непараметарског теста, нпр.
ако је моћ непараметарског теста 90% значи да тамо где су испуњени услови
примене параметарског теста би тај пратаметарски тест био подједнако ефикасан
као непараметарски, али са 10% мањим узорком.
− t – тест се односи на тестирање хипотезе о очекиваној вредности популације у
случају када је непозната и варијанса, при чему статистика има Студентову
расподелу, ако узорак потиче из популације са Нормалном расподелом.
− Предности примене непараметарских тестова кроз примере везане за t – тест:
1. Предпоставке и захтеви t – теста су нереални за податке који се анализирају
2. Повољније је избећи увођење предпоставки t – теста и на тај начин добити
генералнији закључак
3. Подаци истаживања су, по природи, рангирани и непогодни за аналзу t – тестом
4. Подаци су квалитативни и непогодни за примену t – теста
5. У истраживању је циљ општије испитивање и закључивање о расподели обележја
на популацији које се не односе само на поједине параметре, већ на комплетну
расподелу обележја.
− У овим и сличним случајевима користе се непатаметарски тестови за један узорак
(тест корака).
− Могу се разликовати случајеви када су групе међусобно зависне или независне.
− У случају тестова за две независне групе, тј. независна узорка, независност се
обезбеђује на 2 начина:
1. Узорци су случајно извучени из 2 популације
2. Узорци су добијени тако што се елементи случајног узорка излажу утицајима
једног од два различита третмана, на случајан начин.
− Најчешће коришћени непараметарски тестови су базирани на статистикама које
имају Хи-квадрат расподелу, тзв. Хи – квадрат тестови, а поред њих користе се и
Колмогоров – Смирнов тест, тест корака за један или два узорка, Ман – Витни тест.
30. Хи-квадрат тест
− Врсте Хи-квадрат тестова: сагласности, подобности модела, категоризованих
података и независности.
− Ови тестови се базирају на разликама између измерених и очекиваних фреквенција,
на основу одговарајућег тврђења, формулисаних у оквиру нулте хипотезе.
− Проверава се да ли су разлике мале и настају само као последица стохастичке
природе појаве која се истражује (нулта хипотеза) или су веће и узрокују нарушеност
те претпоставке.
− Мерра која омогућава статистичко тестирање базирана је на Хи-квадрат распподели
(𝑓𝑜 −𝑓𝑒 )2
и дефинисана са: 𝜒 2 = ∑ , где су fo добијене, а fe очекиване фреквенције.
𝑓𝑒
− Вредност статистике ће бити 0 само уколико су вредности добијене и очекиване
статистике једнаке.
− Ако је вредност статистике већа од критичне за дати ниво значајности, нулта
хипотеза се мора одбацити, и закључити да су уочене разлике статистички значајне.
31. Тест сагласности
− Циљ: на основу n података о вредности статистичког обележја добијених на узорку
закључити да ли се обележје на популацији може посматрати као случајна
променљива која има дату расподелу на узорку.
29
− Нека је H0 хипотеза да су подаци о n вредности у узоркуу генерисани случајном
променљивом са потпуно одређеном расподелом P(S) преко које можемо одредити
вероватноћу било ког скупа S.
− Ако је H0 тачна, расподела узорка се може посматрати као статистичка слика
произашла из одређене расподеле са P(S).
− Идеја: скуп могућих вредности променљиве се подели на коначан број k подскупова
и посматра се разлика између очекиваних фреквенција из расподеле P(S) и
реализованих у узорку, па се на основу њих формира χ2 статистика.
− Нека су S1, S2,…, Sk подскупови који су међусобни дисјунктни и прекривају скуп
могућих вредности посматране променљиве и нека су p1,p2,…, pk одговарајуће
вероватноће, тј. 𝑝𝑖 = 𝑃(𝑆𝑖 ), 𝑖 = 1,2, … , 𝑘.
− Кад је H0 тачна, статистике m1,m2,…, mk имају Биномне расподеле, 𝑚𝑖 : 𝐵(𝑛; 𝑝𝑖 ), са
очекиваним вредностима 𝐸(𝑚𝑖 ) = 𝑛𝑝𝑖 .
− Посматра се разлика између реализованих вредности статистика m1,m2,…, mk и
њихових очекиваних вредности np1, np2,…, npk и добија се статистика
(𝑚𝑖 −𝑛𝑝𝑖 )2
𝜒 2 = ∑𝑘𝑖=1 .
𝑛𝑝𝑖
− Када величина узорка расте, расподела статистике χ2 тежи Хи-квадрат расподели са
(k -1) степени слободе, потпуно незавсно од облика расподеле популације.
− Поступак примене Хи-квадрат теста као теста сагласности:
1. Нулта хипотеза: H0: Х има дату расподелу P(S).
Алтернативна хипотеза: H1: Х нема дату расподелу P(S).
2. Из P(S) одређујемо p1,p2,…, pk из узорка m1,m2,…, mk.
3. Одређујемо вредност статистике χ2.
4. Утврђујемо критичну област из Хи-квадрат расподеле, одређујући χ0 тако да је
2
𝑃{𝜒𝑘−1 > 𝜒0 } = 𝛼
5. Доносимо одлуку:
a) χ2 > χ0 одбацујемо H0
b) χ2 < χ0 не одбацујемо H0
32. Тест подобности
− У случају када статистичка расподела садржи известан број непознатих параметара.
− Нулта хипотеза H0 је да је узорак изабран из популације одређене расподелом
𝑃(𝑆; 𝜃1 , … , 𝜃𝑙 ) за неке вредности параметара 𝜃1 , … , 𝜃𝑙 .
− Поделом могућих вредности променљиве Х на дисјунктне подскупове S1, S2,…, Sk
добијамо из узорка статистике m1,m2,…, mk са очекиванм вредностима
𝐸(𝑚𝑖 ) = 𝑛𝑝𝑖 (𝜃1 , … , 𝜃𝑙 ), при чему вероватноће pi зависе од вредности непознатих
параметара.
[𝑚𝑖 −𝑛𝑝𝑖 (𝜃1 ,…,𝜃𝑙 )]2
− 𝜒 2 = ∑𝑘𝑖=1 , расподела ове статистике је непозната јер су 𝜃1 , … , 𝜃𝑙
𝑛𝑝𝑖 (𝜃1 ,…,𝜃𝑙 )
непознати.
30
33. Табеле контигенције
− Хи-квадрат тест се може користити и за решавање проблема зависности две случајне
променљиве, тј. два обележја.
− На елементима статистичког скупа посматрају се два обележја, X и Y.
− Нека су x1, x2,..., xr категорије обележја X,а y1, y2,..., ys категорије обележја Y.
− Њихова независност се проверава преко одговарајуће дводимензионалне расподеле
популације, па када су заједничке расподеле једнаке производу маргиналних
расподела, тј. када важи 𝑝𝑖𝑗 = 𝑝𝑖∙ ∙ 𝑝∙𝑗 ; 𝑖 = 1, … , 𝑟; 𝑗 = 1, … , 𝑠 , обележја X и Y су
независна.
− У пракси је дводимензионална расподела непозната, па је потребно на основу узорка
(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑟 , 𝑦𝑠 ) испитати независност, а то се ради преко табела
контигенције и Хи-квадрат теста независности.
− Нека је 𝑚𝑖𝑗 број елемената код којих обележје Х има i-ту категорију, а обележје Y j-
ту, тада се подаци за цео узорак дају у табели:
X/Y y1 y2 … ys 𝑚𝑖∙
x1 m11 m12 … m1s 𝑚1∙
x2 m21 m22 … m2s 𝑚2∙
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
xr mr1 mr2 … mrs 𝑚𝑟∙
𝑚∙𝑗 𝑚∙1 𝑚∙2 … 𝑚∙𝑠 n
− Желимо да потврдимо нулту хипотезу: H0 : 𝑝𝑖𝑗 = 𝑝𝑖∙ ∙ 𝑝∙𝑗 ; 𝑖 = 1, … , 𝑟; 𝑗 = 1, … , 𝑠, која
је еквивалентна хипотези да су обележја X и Y независна.
𝑚 𝑚 𝑚
− Статистике 𝑛𝑖𝑗 ; 𝑛𝑖∙ ; 𝑛∙𝑗 су оцене непознатих вредности : 𝑝𝑖𝑗 , 𝑝𝑖∙ , 𝑝∙𝑗 .
− Када је H0 тачна, очекиване вредности статистика у табели контигенције су:
𝑚 𝑚
𝐸(𝑚𝑖𝑗 ) = 𝑛𝑝𝑖𝑗 = 𝑛𝑝𝑖∙ 𝑝∙𝑗 , тј. 𝐸(𝑚𝑖𝑗 ) = 𝑖∙𝑛 ∙𝑗.
− Статистика формирана од разлика имеђу утврђених и очекиваних фреквенција биће:
𝑚𝑖∙ 𝑚∙𝑗 2 𝑚𝑖∙ 𝑚∙𝑗 2
(𝑚𝑖𝑗 − ) (𝑚𝑖𝑗 − )
𝜏 = ∑𝑟𝑖=1 ∑𝑠𝑗=1 𝑛
𝑚𝑖∙ 𝑚∙𝑗 = 𝑛 ∑𝑟𝑖=1 ∑𝑠𝑗=1 𝑛
, ова статистика има приближно
𝑚𝑖∙ 𝑚∙𝑗
𝑛
Хи-квадрат расподелу са (r -1)(s – 1) степени слободе.
− Одлуку оприхватању или одбацивању хипотезе доносимо поређењем израчунате
вредности статистике са критичном вредношћу χ0, и ако је:
a) τ > χ0 хипотезу H0 одбацујемо;
b) τ < χ0 хипотезу H0 не одбацујемо.
31
− Укупан број корака у узорку указује да ли је узорак случајан или није.
− Када је број корака у узорку „много мали“ или „много велики“ постоји сумња да ли
је узорак случајан.
− Суштина теста корака је дефинисање правила за број корака који се може сматрати
последицом случајне променљиве.
− Нека је n1 број елемената једне врсте и n2 број елемената друге врсте, тада је
укупан број елемената n = n1 + n2.
− Треба одредити вредност статистике K, тј. број корака, параметри ове статистике
2𝑛1 𝑛2 2𝑛1 𝑛2 (2𝑛1 𝑛2 −𝑛1 −𝑛2 )
су: 𝐸(𝐾) = 𝑛 + 1 и 𝑉𝑎𝑟(𝐾) = (𝑛1 +𝑛2 )2 (𝑛1 +𝑛2 −1)
.
1 +𝑛2
− За велике узорке (n1, n2 > 10) је могуће користити апроксимацију расподеле
статистике K Нормалном расподелом.
𝐾−𝐸(𝐾)
− Статистика 𝜏 = има стандардизовану нормалну расподелу N(0;1).
√𝑉𝑎𝑟(𝐾)
− Тест случајности узорка:
- У случају када посматрамо узорак х1, х2, ..., хn, из било какве популације на којој
се посматра квантитативно обележје.
- Прво треба одредити медијану узорка, тако што од вредности узорка формирамо
неопадајући (варијациони) низ, а за медијану (𝑥̃) узимамо вредност
′
𝑋𝑛+1 , 𝑛 − непарно
2
𝑀𝑒 = {1 ′
(𝑋𝑛 + 𝑋𝑛′ +1 ) , 𝑛 − парно
2 2 2
- Затим се додељују симболи за кораке по редоследу из узорка у зависности од
тога да ли је елемент мањи (1) или већи (0) од медијане.
- Хипотеза H0: узорак х1, х2, ..., хn је случајан.
- Ако је нулта хипотеза тачна онда је за сваки елемент вероватноћа да ће бити
већи од медијане једнака вероватноћи да ће бити мањи, тј.
𝑝 = 𝑃{𝑋𝑖 < 𝑥̃} = 𝑃{𝑋𝑖 > 𝑥̃} = 0.5.
2𝐾−(𝑛+2)
- Статистика 𝜏 = √𝑛 − 1 има приближно стандардизовану Нормалну
√𝑛(𝑛−2)
расподелу.
- Могуће алтернативне хипотезе су:
1. H1: „Случајност у узорку нарушена је због монотоности очекиване вредности
у популацији“
- вредност Х се при узимању узорка мењала монотоно (расла или опадала)
па ће и број корака бити мали
- левострана критична област
2. H1: „Случајност у узорку нарушена је због периодичних промена очекиване
вредности у популацији“
- вредност Х је периодично расла па опадала, па ће број корака бити векики
- деснострана критична област
3. H1: „Узорак није случајан“
- Обострана критична област
32
35. Тест корака за два узорка
− Wаld – Wolfowitz тест корака
− Користи се када желимо да тестирамо да ли су два независна узорка извучена из
исте популације.
− Нека је n1 величина првог узорка, а n2 величина другог узорка.
− Врши се рангирање (сортирање) у неопадајућем редоследу, при чему се води
рачуна о томе који елемент је из ког узорка
− Корак представља низ узастопних елемената из једног узорка који претходи или
следи низ елемената из другог узорка
− Почиње се од узорка који има најмањи податак, а уколико оба узорка имају исти
најмањи податак бира се из узорка са мањим обимом.
− Нулта хипотеза H0: „Узорци су из исте популације“.
Алтернативна хипотеза H1: „Узорци нису из исте популације“. – левострана к.о.
𝐾−𝐸(𝐾)
− Статистика 𝜏 = има стандардизовану нормалну расподелу N(0;1), при чему
√𝑉𝑎𝑟(𝐾)
2𝑛1 𝑛2 2𝑛1 𝑛2 (2𝑛1 𝑛2 −𝑛1 −𝑛2 )
су 𝐸(𝐾) = 𝑛 + 1 и 𝑉𝑎𝑟(𝐾) = (𝑛1 +𝑛2 )2 (𝑛1 +𝑛2 −1)
.
1 +𝑛2
− Критичне вредности за хипотезу H0 одређујемо из функције Нормалне расподеле,
за дати ниво значајности и у складу са алтернативном хипотезом.
36. Mann-Whitney тест
− Може се користити за тестирање да ли су два независна узорка извучена из исте
популације.
− Може се применити у тестирању квантитативних обележја, али и обележја чије је
модалитете могуће рагнирати.
− Један од најмоћнијих непараметарских тестова.
− Претпоставимо да имамо узорке из две популације, и нека су елемети из прве
популације означени са Х, а из друге популације са Y.
− Нулта хипотеза је да обе популације имају исту расподелу, тј.
H0: Fy (z) = Fx (z) за свако z.
− Када је H0 тачно, онда је 𝑝 = 𝑃{𝑋 > 𝑌} = 𝑃{𝑋 < 𝑌} = 0.5, па се нулта хипотеза може
изразити и као H0 : p = 0.5.
− Алтернативна хипотеза може бити формулисана на различите начине:
1. H1 : Расподела прве популације је стохастички већа од расподеле друге
популације, тј H1 : p =P(X > Y) > 0.5 – деснострана критична област
2. H1 : Расподела друге популације је стохастички већа од расподеле прве
популације, тј H1 : p =P(X < Y) > 0.5 – левострана критична област
3. H1 : p =P(X > Y) ≠ 0.5 – обострана критична област
− Нека је m број елемената у узорку Х, а n број елемената у узорку Y.
− Да би се применио U тест треба прво елементе оба узорка уредити у заједнички
растући низ, при чему је потребно сачувати информацију из ког узорка елемент
потиче.
− У следећем кораку се посматра n елемената узорка Y и одређује вредност статистике
UY, која представља број понављања елемената Х испред елемената узорка Y у
заједничком низу, а на сличан начин се одређује и Ux.
− Статистика U теста је мањи од бројева Ux и UY : 𝑈 = min(𝑈𝑥 , 𝑈𝑦 ).
33
− Добијена вредност статистике се пореди са критичном облашћу за алтернативну
хипотезу и дати ниво значајности.
37. Teст Kolmogorov-Smirnov за 1 узорак
− Спада у категорију тестова сагласности.
− Заснива се на утврђивању степена сагласности имеђу расподеле вредности из узорка
(добијени резултати и неке одређене теоријске расподеле).
− Хипотеза H0 је да обележје на популацији из које је узет дат узорак има дату
„теоријску“ расподелу.
− Тест укључује одређивање кумулативне расподеле фреквенција која би се појавила
под претпостављеном теоријском расподелом и поређење те расподеле са
добијеном, тј. измереном-узрокованом, кумулативном расподелом фреквенција.
− Нека је F0(x) потпуно одређена функција расподеле, када је хипотеза H0 тачна,
− F0(x) представља вероватноћу да обележје, у случају да подлеже претпостављеној
расподели, нема вероватноћу већу од реалног броја х, тј. за било коју вредност х
вредност F0(x) је пропорција случајева код којих се очекује да имају вредност која је
једнака или мања од х, када је хипотеза H0 тачна.
𝑘
− 𝑆𝑛 (𝑥) = , где је k број опсервација из узорка које су мање или једнаке х, представља
𝑛
измерену функцију расподеле из случајног узорка са n опсервација, представља
вредности релативних кумулативних фреквенција, често се назива и емпиријска
функција расподеле.
− Када је H0 тачна очекује се да за сваку вредност х, 𝑆𝑛 (𝑥) треба да буде врло блиска
F0(x), тј. очекујемо да разлика између , 𝑆𝑛 (𝑥) и F0(x) буде мала и креће се у границама
случајних грешака.
− Колмогоров – Смирнов тест се фокусира на највећу девијацију.
− Највећа вредност |𝐹0 (𝑥) − 𝑆𝑛 (𝑥)| је максимална девијација D, која представља
статистику теста: 𝐷 = 𝑚𝑎𝑥|𝐹0 (𝑥) − 𝑆𝑛 (𝑥)|.
− Расподела статистике D је позната, а критичне вреднсоти за D се могу пронаћи у
табелама критичних вредности за Колмогоров – Смирнов тест за један узорак.
38. Teст Kolmogorov-Smirnov за 2 узорка
− Да ли два независна узорка потичу из исте поулације (или из популације са истом
расподелом)?
− Осетљив је на било коју разлику у расподелама.
− Односи се на слагање између кумулативних расподела.
− Нулта хипотеза H0: Оба узорка су из исте популације.
− Ако су два узорка извучена из исте популацијске расподеле, може се очекивати да
ће кумулативне расподеле оба узорка бити прилично блиске и обе ће показати само
случајну девијацију од расподеле популације.
− Ако су кумулативне расподеле два узорка много „раздвојене“ у некој тачки, може се
сматрати да су узорци из различитих популација, па је бог тога девијација између
кумулативних фреквенција већа од критичне вредности теста за ниво значајности =>
одбацивање хипотезе H0.
− Нека је 𝑆𝑛1 (𝑥) кумулативна расподела фреквенција за први узорак, обима n1, а 𝑆𝑛2 (𝑥)
кумулативна расподела фреквенција за други узорак, обима n2.
34
𝑘
− Тада је 𝑆𝑛1 (𝑥) = 𝑛1 , при чему је k1 број елемената првог узорка који нису већи од х,
1
𝑘2
а 𝑆𝑛2 (𝑥) = 𝑛 , при чему је k2 број елемената другог узорка који нису већи од х.
2
− Колмогоров – Смирнов статистика је: 𝐷 = 𝑚𝑎𝑥|𝑆𝑛1 (𝑥) − 𝑆𝑛2 (𝑥)|.
− Уколико се овај тест користи на подацима за које унапред није одређен број
интервала треба користити што је могуће више интервала.
− За вредности n1 и n2 мање од 40, за одлучивање о прихватању или одбацивању нулте
хипотезе на одређеном нивоу значајности, критичне вредности се могу наћи у
одговарајућим табелама расподеле статистике за Колмогоров – Смирнов тест за два
узорка.
39. Проста линеарна регресија на основу узорка
− Прост линеарни регресиони модел је модел са две променљиве, од којих је једна
зависна и једна контролисана (објашњавајућа) променљива.
− Један од корака у линеарно регресионом моделу је конструисање дијаграма
зависности, који конструишемо тако што на X осу наносимо вредности независне
променљиве, а на Y осу наносимо вредности зависне променљиве, он нам даје
информације о:
- Типу везе – да ли је детерминистичка или стохастичка
- Да ли је линеарна или криволинијска
- Правцу зависности – да ли се обе променљиве мењају у истом смеру
- Јачини зависности
35
- Очекивану вредност случајне променљиве Y, под условом да је Х = х, представља
права: 𝐸(𝑌/𝑥) = 𝛼𝑥 + 𝛽, коефицијенти 𝛼 и 𝛽 су непознати, а 𝛽 представља
одсечак на Y оси, а коефицијент правца 𝛼 представља просечну промену обележја
Y када се вредност контролисане променљиве Х повећа за једну своју јединицу.
- Непознате параметре оцењујемо са 𝛼̂ и 𝛽̂ и добити оцењени модел: 𝑌̂ = 𝛼̂𝑋𝑖 + 𝛽̂ .
40. Оцена параметара линеарне регресије методом најмањих квадрата
− Треба оценити α и β, тј. пронаћи 𝛼̂ и 𝛽̂ .
− Параметре оцењујемо применом методе најмањих квадрата тако да одступања
између вредности Yi, измерених у узорку, и 𝑌̂𝑖 , израчунатих за вредности 𝑥 = 𝑋𝑖 ,
буду што мања.
− Метода минимизира квадрате одступања и то је функција
2 2
𝐹(𝛼̂, 𝛽̂ ) = ∑𝑛𝑖=1[𝑌𝑖 − 𝑌̂𝑖 ] = ∑𝑛𝑖=1[𝑌𝑖 − (𝛼̂𝑋𝑖 + 𝛽̂ )] = ∑𝑛𝑖=1[𝑌𝑖 − 𝛼̂𝑋𝑖 − 𝛽̂ ] =
∑𝑛𝑖=1[𝑌𝑖 2 − 𝛼̂ 2 𝑋𝑖2 + 𝛽̂ 2 − 2𝑌𝑖 𝛼̂𝑋𝑖 − 2𝑌𝑖 𝛽̂ + 2𝛼̂𝛽̂ 𝑋𝑖 ] =
∑𝑛𝑖=1 𝑌𝑖2 + 𝛼̂ 2 ∑𝑛𝑖=1 𝑋𝑖2 + 𝑛𝛽̂ 2 − 2𝛼̂ ∑ 𝑋𝑖 𝑌𝑖 − 2𝛽̂ ∑ 𝑌𝑖 + 2𝛼̂𝛽̂ ∑ 𝑋𝑖
− Тражи се извод по 𝛼̂ и изједначава са 0:
0 + 2𝛼̂ ∑ 𝑋𝑖2 + 0 − 2 ∑ 𝑋𝑖 𝑌𝑖 + 2𝛽̂ ∑ 𝑋𝑖 = 0 /:2
𝛼̂ ∑ 𝑋𝑖2 + 𝛽̂ ∑ 𝑋𝑖 = ∑ 𝑋𝑖 𝑌𝑖
− Тражи се извод по 𝛽̂ и изједначава са 0:
0 + 0 + 2𝑛𝛽̂ − 0 − 2 ∑ 𝑌𝑖 + 2𝛼̂ ∑ 𝑋𝑖 = 0 /:2
𝛼̂ ∑ 𝑋𝑖 + 𝑛𝛽̂ = ∑ 𝑌𝑖
𝛼̂ ∑ 𝑋𝑖2 + 𝛽̂ ∑ 𝑋𝑖 = ∑ 𝑋𝑖 𝑌𝑖
− Систем нормалних једначина: {
𝛼̂ ∑ 𝑋𝑖 + 𝑛𝛽̂ = ∑ 𝑌𝑖
− Детерминанта система:
∑𝑛𝑖=1 𝑋𝑖2 ∑𝑛𝑖=1 𝑋𝑖 1 ∑𝑋 2
𝐷=| 𝑛 | = 𝑛 ∑ 𝑋𝑖2 − (∑ 𝑋𝑖 )2 = 𝑛2 {𝑛 ∑𝑛𝑖=1 𝑋𝑖2 − ( 𝑛 𝑖 ) } =
∑𝑖=1 𝑋𝑖 𝑛
1
𝑛2 {𝑛 ∑ 𝑋𝑖2 − 𝑥̅ 2 } => 𝐷 = 𝑛2 𝑆𝑥2, при чему је 𝑆𝑥2 варијанса контролисане
променљиве Х.
− Како је D > 0 систем нормалних једначина има јединствено решење и чине га оцене
1
∑ 𝑋𝑌−𝑥̅ 𝑦̅
најмањих квадрата: 𝛼̂ = 𝑛 и 𝛽̂ = 𝑦̅ − 𝛼̂𝑥̅ .
𝑆𝑥2
− Oсобине оцена (𝛼̂ , 𝛽̂ ) најмањих квадрата: 𝑌𝑖 = 𝛼𝑋𝑖 + 𝛽 + 𝜀, 𝐸(𝑌𝑖 ) = 𝛼𝑋𝑖 + 𝛽 и
𝑉𝑎𝑟(𝑌𝑖 ) = 𝜎 2 , јер је 𝐸(𝜀) = 0, а 𝑉𝑎𝑟(𝜀) = 𝜎 2
36
𝐻1 (𝛼 < 0) 𝐻1 (𝛼 > 0) 𝐻1 (𝛼 ≠ 0)
Када нас само занима да
Веза је инверзна, тј. x↑ y↓ Веза је директна, тј. x↑ y↑ ли је коефицијент
или x↓ y↑ или x↓ y↓ статистички значајан или
не
Левострана критична Деснострана критична Обострана критична
област област област
𝐻1 (𝛽 < 0) 𝐻1 (𝛽 > 0) 𝐻1 (𝛽 ≠ 0)
Пресек праве са Y осом је Пресек праве са Y осом је Права пролази кроз
негативан позитиван координатни почетак
Левострана критична Деснострана критична Обострана критична
област област област
Срећно, ПТ
37