Stat Ispit

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 37

Статистика – теорија скрипта

Садржај:
1. Фреквенције (апсолутне, релативне, кумулативне) и графичко представљање
расподела фрекфенција ........................................................................................................ 3
2. Мере централне тенденције .......................................................................................... 6
3. Meре варијабилитета ..................................................................................................... 7
4. Моменти статистичког обележја ................................................................................. 8
5. Пирсонови коефицијенти обележја............................................................................. 8
6. Популација, узорак, статистике, веродостојност узорка ........................................... 9
9. Оцене са минималном варијансом ............................................................................... 12
13. Интервали поверења и општи поступак одређивања интервала поверења ...... 13
14. Интервал поверења за очекивану вредности ........................................................... 14
15. Једнострани и двострани интервал поверења за варијансу .................................. 15
16. Интервал поверења за разлику математичких очекивања ................................... 16
17. Интервал поверења за непознату вероватноћу........................................................ 17
18. Интервал поверења за коефицијент корелације ..................................................... 18
19. Tестирање хипотеза, грешке I и II врсте ................................................................... 18
20. Параметарски тестови, просте и сложене хипотезе ................................................ 19
21. Teстирање хипотеза о математичком очекивању ................................................... 21
22. Тестирање хипотеза о једнакости математичких очекивањa ............................... 22
23. Teстирање хипотеза о варијанси ................................................................................ 23
24. Тестирање хипотеза о количнику варијанси ........................................................... 24
25. Тестирање хипотеза о вероватноћи (пропорцији) ................................................... 25
26. Тестирање хипотеза о коефицијенту корелације .................................................... 25
27. Модели једнофакторске анализе варијансе .............................................................. 26
28. Модели двофакторске анализе варијансе ................................................................. 27
29. Непараметарски тестови .............................................................................................. 28
30. Хи-квадрат тест .............................................................................................................. 29
31. Тест сагласности ............................................................................................................ 29
32. Тест подобности .............................................................................................................. 30
33. Табеле контигенције...................................................................................................... 31
34. Тест корака за један узорак ......................................................................................... 31
35. Тест корака за два узорка............................................................................................. 33
36. Mann-Whitney тест ......................................................................................................... 33
37. Teст Kolmogorov-Smirnov за 1 узорак ........................................................................ 34

1
38. Teст Kolmogorov-Smirnov за 2 узорка ........................................................................ 34
39. Проста линеарна регресија на основу узорка .......................................................... 35
40. Оцена параметара линеарне регресије методом најмањих квадрата ................. 35
41. Тестирање хипотеза за параметар “a“ регресионог модела Y=aX+b+e и
интервал поверења за параметар “a“ .............................................................................. 36
42. Тестирање хипотеза за параметар “b“ регресионог модела Y=aX+b+e и
интервал поверења за параметар “b“ .............................................................................. 37

2
1. Фреквенције (апсолутне, релативне, кумулативне) и графичко представљање
расподела фрекфенција
− X je обележје таквог карактера да на једном елементу статистичког скупа може узети
само једну вредност из скупа бројева {x1,x2, ..., xk} при чему је k коначан али не
сувише велики број, k представља број могућих различитих вредности посматраног
обележја.
− Код таквог обележја све његове вредности на посматраном скупу можемо изразити
расподелом апсолутних фреквенција која се добија тако што се за сваку могућу
вредност обележја xi утврди колико елемената статистичког скупа узима ту
вредност.
− Тада се скуп парова вредности (x1, f1), (x2, f2) , ... ,(xk , fk) назива расподела
апсолутних фреквенција (fi) посматраног обележја X на датом статистичком скупу,
а fi је број елемената статистичког скупа код којих је X= xi.
− Најчешће се расподела даје у виду табеле.

− Ако је X непрекидног типа и ако узима вредност из интервала (а,b), интервал ћемо
поделиити на k подинтервала (a0-a1),(a1-a2),...,(ak-1-ak), при чему је а0=а и аk=b, које
ћемо звати групни интервали, а број и дужина интервала су такви да садрже
максималну количину информација уз њихов минималан број.

− У циљу одређивања оптималног броја k групних интервала за статистички скуп од


N елемената, често се користи Sturges-ово правило: k= 1+3.3logN.
− Aко треба поредити обележје X на два или више статистичких скупова, онда
апсолутне фреквенције не одражавају упоредиве реалне износе, а исто важи и када
обележје X треба упоредити са обележјем Y, када се користе релативне фреквенције.

3
− За сваки групни интервал и за сваку вредност обележја X одредимо релативну
𝑓𝑖
фреквенцију (pi) као количник 𝑝𝑖 = при чему је i∈{1, 2,..., k}
𝑁

− Релативне фреквенције јесу бројеви који задовољавају следеће услове:


1) pi ≥ 0, за свако i∈{1, 2, ..., k};
2) p1 + p2 + ... + pk, = 1, тj. ∑𝑘𝑖=1 𝑝𝑖 = 1.
− У анализама неког обележја X на статистичком скупу често нас интересује одговор
на следеће питање: „Колико има елемената у статистичком скупу код којих обележје
X има вредност мању од неког унапред датог броја x?“, а како би се добио одговор
на ово, и слична питања, користе се кумулативне фреквенције.
− Кумулативна фреквенција (ci) i-тог групног интервала добија се када се све
фреквенције за претходне интервале саберу ci = f1+f2+...+fi, за i∈{1, 2, ..., k}.
− Релативне кумулативне фреквенције (Fi) се добијају дељењем кумулативних
𝑐
фреквенција бројем елемената 𝐹𝑖 = 𝑁𝑖, за свако i∈{1, 2, ..., k}.

− Релативне кумулативне фреквенције се могу одредити и из релативних фреквенција,


𝑓 𝑓 𝑓
из изразаза 𝐹𝑖 = 1 + 2 + ⋯ + 𝑖 , тј. 𝐹𝑖 = ∑𝑖𝑗=1 𝑝𝑗 , за свако i∈{1, 2, ..., k}.
𝑁 𝑁 𝑁
− Релативне кумулативне фреквенције F1, F2, ..., Fk чине један неопадајући низ реалних
бројева из интервала [0,1].
− Графичко приказивање расподела фреквенција:
- На апсциси се наводе вредности за X или границе интервала (за случај
непрекидног типа).
- На ординати се наводе вредности за апсолутне фреквенције.
- Конструишу се правоугаоници такви да висина буде једнака фреквенцији и на тај
начин се добија полигон апсолутних фреквенција.

4
− Хистограми
- Служе за приказ релативних фреквенција.
- Конструишемо их тако што на Х оси наносимо средине групних интервала, а
затим око тих тачака констуишемо правоугаонике чије ће површине бити једнаке
релативним фреквенцијама.
− Ако је дужина i-тог интервала di = ai - ai-1, oнда висина правоугаоника изнад тачке
𝑎 +𝑎 𝑝
𝑥𝑖 = 𝑖 2 𝑖−1, треба да је ℎ𝑖 = 𝑑𝑖, при чему је i∈{1, 2, ..., k}, а pi је одговарајућа
𝑖
релативна фреквенција.

− Кумулативне фреквенције се такође могу приказати и графички.

− На основу хистограма који одговара расподели релативних фреквенција


непрекидног обележја х, може се изабрати крива линија која ће апроксимирати
посматрану расподелу фреквенција, а та крива линија се зове закон вероватноће
или функција густине и представља гранични облик хистограма ако се број
елемената у статистичком скупу неограничено повећава, а дужине групних
интервала на основу којих правимо хистограм неограничено смањују.

5
2. Мере централне тенденције
− То су: средине (аритметичка, хармонијска и геометријска средина), модус и
медијана.
− Аритметичка средина (𝒙 ̅) низа бројева је број који се добије кад се њихов збир
подели са укупним бројем чланова тог низа.
- Ако је Х:
1
1) Дато преко узорка {x1,x2,…,xn}: 𝑥̅ = ∑𝑛𝑖=1 𝑥𝑖
𝑛
1
2) Дато табелом: 𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 ∙ 𝑓𝑖
xi x1 x2 ... xk
fi f1 f2 ... fk
𝑎 +𝑎 1
3) Непрекидно, дато преко интервала: 𝑥𝑖 = 𝑖 2 𝑖−1 ; 𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 ∙ 𝑓𝑖
xi а0-а1 а2-а1 ... ак-ак-1
fi f1 f2 ... fk
𝑓 1
- Веза 𝑥̅ и релативних фреквенција (𝑝𝑖 = 𝑁𝑖 ): 𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 ∙ 𝑓𝑖 = 𝑥̅ = ∑𝑛𝑖=1 𝑥𝑖 ∙ 𝑝𝑖
- Особине 𝑥̅ :
1
1) i=1...N, xi = c: 𝑥̅ = 𝑁 𝑁 ∙ 𝑐 = 𝑐
2) 𝑥̅ > 𝑥 где је х најмања вредност Х у посматраном статистичком скупу
𝑥̅ < 𝑥 где је х највећа вредност Х у посматраном статистичком скупу
1
3) Из 𝑥̅ = 𝑛 ∑ 𝑥𝑖 види се да 𝑥̅ зависи од свих вредности које х узима на датом
статистичком скупу.
− Хармонијска средина (H) је реципрочна вредност аритметичке средине
𝑁 𝑁 1 1 1
реципрочних вредности чланова низа x1...xn: 𝐻 = 1 1 = 𝑛 1 , тј. = ∑𝑛𝑖=1 ,
+⋯+ ∑𝑖=1 𝐻 𝑁 𝑥𝑖
𝑥1 𝑥𝑛 𝑥𝑖
1 1 𝑓
oдносно = ∑𝑛𝑖=1 𝑖.
𝐻 𝑁 𝑥𝑖
- Кошијева теорема: H < G < 𝑥̅
− Геометријска средина (G)
𝑓 𝑓 𝑁
- 𝐺 = 𝑁√𝑋1 𝑋2 … 𝑋𝑁 ,тј. 𝐺 = √𝑥11 … 𝑥𝑘 𝑘 уколико је дато расподелом фреквенција.
1⁄
- 𝐺 = (∏𝑁 𝑖=1 𝑋𝑖 )
𝑁
/log
1 𝑘 1
log 𝐺 = 𝑁 ∑𝑖=1 log 𝑥𝑖 , тј. log 𝐺 = 𝑁 ∑𝑘𝑖=1 𝑓𝑖 log 𝑥𝑖 уколико је дато расподелом
фреквенција.
- Употреба огранчена само на она обележја која су позитивна.

6
𝑋 𝑋𝑇 𝑇−1 𝑋 𝑋 𝑋𝑇 𝑇−1 𝑋𝑇
- Веза са ланчаним индексом 𝑋2 … 𝑋 , за х1,х2...хТ: 𝐺 = 2 3
√𝑋 ∙ 𝑋 … ∙ 𝑋 = √𝑋
1 𝑇−1 1 2 𝑇−1 1

− Модус (Mo) je она вредност Х која има највећу фреквенциу у посматраном


статистичком скупу или она вредност у чијој се околини најчешће појављују
измерене вредности Х на статистичком скупу.
- За Х дато расподелом фреквенција, Мo се узима из средине интервала који има
највећу фреквенцију.
- Може постојати више модуса.
- За Х непрекидно модус је цео интервал.
− Медијана (Me) je вредност обележја Х која посматрани узорак дели на пола.
- Постоји само једна медијана.
- Ако је обележје прекидно:
1. корак: формирамо неопадајући низ 𝑥1′ ≤ 𝑥2′ ≤ 𝑥3′ ≤ ⋯ ≤ 𝑥𝑛′

𝑋𝑛+1 , 𝑛 − непарно
2
2. корак: 𝑀𝑒 = { 1 ′
(𝑋𝑛 + 𝑋𝑛′ +1 ) , 𝑛 − парно
2 2 2
- Ако је обележје непрекидно:
1. корак: наћи интервал s у коме је медијана
𝑎 −𝑎𝑠 𝑛
2. корак: 𝑀𝑒 = 𝑎𝑠 + 𝑠+1 ( 2 − ∑𝑠𝑖=1 𝑓𝑖 )
𝑓 𝑠+1
- as – доња граница
- аs+1 - as – дужина интервала
- fs+1 – колико има елемената у интервалу у ком је Ме
- 𝑠𝑖=1 𝑓𝑖 – колико има елемената до интервала у ком је Ме

3. Meре варијабилитета
− Говоре о томе колико су средње вредности обележја Х добри представници свих
његових вредности на посматраном скупу и о томе колико се сви елементи на
посматраном скупу међусобно разликују.
− Размак варијације (R) је разлика највеће и најмање вредности на статистичком
скупу 𝑅 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛 .
− Квартилна девијација (Q) елиминише утицај екстремних вредности.
- 25% 50% 25% где су Х0,25 доњи и Х0,75 горњи квартил.
хmin Ме = х0,5 хmах
𝑥0,75 − 𝑥0,25
- 𝑄= 2
1
- Aко је Х прекидног типа: 𝑋0,75 = (𝑋3𝑛 + 𝑋3𝑛+1 )
2 4 4
1
𝑋0,25 = 2 (𝑋 + 𝑋 𝑛 𝑛
+1 )
4 4
𝑎𝑞+1 −𝑎𝑞 3𝑛
- Aко је Х непрекидног типа: 𝑋0,75 = 𝑎𝑞 + ( − ∑𝑞𝑖=1 𝑓𝑖 )
𝑓𝑞+1 4
𝑎𝑝+1 −𝑎𝑝 𝑛
𝑋0,25 = 𝑎𝑝 + (4 − ∑𝑝𝑖=1 𝑓𝑖 )
𝑓𝑝+1
− Средња девијација (em) је средње апсолутно одступање, тј. аритметичка средина
апсолутних вредности одступања х од 𝑥̅ на посматраном статистичком скупу.
- em ≥ 0
1
- Ako је X прекидног типа: 𝑒𝑚 = 𝑛 ∑𝑛𝑖=1|𝑥𝑖 − 𝑥̅ |.
1 𝑛
- Ako je X непрекидног типа: 𝑒𝑚 = ∫𝑖=1|𝑥 − 𝑥̅ |𝑓𝑖 .
𝑛

7
− Варијанса (S2) je aритметичка средина квадрата одступања вредности обележја Х
од 𝑥.
̅
1 1
- 𝑆 2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑆 2 = ∑𝑛𝑖=1 𝑥𝑖2 − 𝑥̅ 2 , за х прекидног типа
𝑛 𝑛
1 1
- 𝑆 2 = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖 𝑆 2 = 𝑛 ∑𝑛𝑖=1 𝑥𝑖2 𝑓𝑖 − 𝑥̅ 2 , за х дато табелом
- S2 ≥ 0
- S2 = 0 када су све вредности у узорку исте
− Стандардна девијација случајне променљиве X је позитивна вредност корена
варијансе 𝑆=+𝑆2𝑆 = +√𝑆 2
− Коефицијент варијације (V) је процентуално изражени количник стандардне
𝑆
девијације и аритметичке средиине , 𝑉=𝑆𝑥𝑉 = 𝑥̅ ∙ 100%.

4. Моменти статистичког обележја


− Обичан моменат реда k је математичко очекивање k-тог степена обележја Х
𝑚𝑘 = 𝐸(𝑋 𝑘 ), k∈{0,1, 2, ...},
1
- X прекидно: 𝑚𝑘 = 𝐸(𝑋 𝑘 ) = 𝑛 ∑𝑘𝑖=1 𝑥𝑖𝑘 = ∑𝑘𝑖=1 𝑥𝑖𝑘 𝑝𝑖

- X непрекидно: 𝑚𝑘 = ∫−∞ 𝑥 𝑘 𝑓(𝑥)𝑑𝑥
- Специјално: k = 0, m0 = Е(1) = 1
k = 1, m1 = E(x).
− Централни моменат реда k је очекивана вредност k-тог степена разлике Х и
очекиване вредности m датог обележја Х 𝜇𝑘 = 𝐸(𝑥 − 𝑚)𝑘 , k∈{0,1, 2, ...}.
1
- X прекидно: 𝜇𝑘 = 𝐸(𝑋 − 𝑚)𝑘 = 𝑛 ∑𝑘𝑖=1(𝑥𝑖 − 𝑚)𝑘 = ∑𝑘𝑖=1(𝑥𝑖 − 𝑚)𝑘 𝑝𝑖

- Х непрекидно:𝜇𝑘 = 𝐸(𝑋 − 𝑚)𝑘 = ∫−∞(𝑥 − 𝑚)𝑘 𝑓(𝑥)𝑑𝑥
- Специјално: k = 0, µ0 = E(x-m)k = E(1) = 1
k = 1, µ1 = E(x-m)1 = E(x)-m = m-m = 0
− Веза обичних и централних момената:
(𝑥 − 𝑚)𝑘 = ∑𝑘𝑖=0(−1)𝑘−𝑖 (𝑘𝑖)𝑚𝑘−𝑖 𝑋 𝑖 ;
𝐸(𝑥 − 𝑚)𝑘 = ∑𝑘𝑖=0(−1)𝑘−𝑖 (𝑘𝑖)𝑚𝑘−𝑖 𝐸(𝑥 𝑖 );
𝜇𝑘 = ∑𝑘𝑖=0(−1)𝑘−𝑖 (𝑘𝑖) 𝑚𝑘−𝑖 𝑚𝑖 .
- Специјално: µ2 = E(x-m)2 = m2-m2

5. Пирсонови коефицијенти обележја


− Први Пирсонов коефицијент (коефицијент асиметрије)
𝜇
- 𝛽1 = 𝑆33
1 1
- 𝜇3 = Е(𝑥 − 𝑚)3 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑚)3 = ∑𝑛𝑖=1 𝑋𝑖3 = 𝑚3
𝑛 𝑛
1
- 𝜇3 = 𝑛 ∑𝑛𝑖=1 𝑥𝑖3 𝑓𝑖 − 𝑚3
- Aко је:
1) β1=0 – расподела је симетрична
2) β1<0 – расподела је асиметрична удесно
3) β1>0 – расподела је асиметрична улево
− Други Пирсонов коефицијент (коефицијент спљоштености)
𝜇
- 𝛽2 = 𝑆44
1 1
- 𝜇4 = Е(𝑥 − 𝑚)4 = ∑𝑛 (𝑥 − 𝑚)4 = ∑𝑛𝑖=1 𝑋𝑖4 = 𝑚4
𝑛 𝑖=1 𝑖 𝑛
1
- 𝜇4 = 𝑛 ∑𝑛𝑖=1 𝑥𝑖4 𝑓𝑖 − 𝑚4

8
- Aко је:
1) β2=3 – нормална спљоштеност
2) β2>3 – спљоштеност већа од нормалне
3) β2<3 – спљоштеност мања од нормалне

6. Популација, узорак, статистике, веродостојност узорка


− Обележје је квалитативно или квантитативно својство статистичког скупа које
варира од експеримента до експеримента, па захтева мерење.

a) Ако статистичко обележје на популацији од N елемената можемо представити


табелом, дато обележје и његова расподела у потпуности су одређене.

- Да би расподела обележја х била потпуно одређена, вредност обележја би морала


бити измерена на сваком елементу скупа, због тога је најчешћи случај да је
расподела обележја х непозната.
- Потребно је на одређени начин изабрати подскуп статистичког скупа и над тим
елементима донети закључке о целом скупу.
- Статистички скуп је популација, а изабрани подскуп је узорак.
б) Уколико је посматрани статистички скуп експеримент чији је резултат случајна
променљива Х са датим законом вероватноћа, како бисмо проверили да ли тај закон
заиста одговара експериметну, поновићемо експеримент одређени број пута, а на
основу резултата у овим понављањима донећемо закључак да ли је претпостављена
расподела одговарајућа.
- У овом случају расподела случајне променљиве је популација, а резултати
понављања експеримента узорак.
в) Скуп података којим располажемо можемо посматрати као подскуп неког ширег
скупа, а у таквим случајевима на основу расположивих података о некој појави,
потребно је да донесемо закључке о законитостима посматране појаве у областим за
које немамо податке.
- Скуп расположивих података је узорак, а појава за коју доносимо закључак је
популација.
г) Природне и друштвене појаве често се испитују тако што се формулише одређени
модел којим се објашњава посматрана појава, а проблем исправности тог модела
решава се извршавањем одређеног броја мерења, и на основу резултата, применом
одговарајућих метода аналитичке статистике.
- У овом случају модел је популација, а резултати мерења узорак.
− Врсте узорака:
1. Прост случајни узорак
- Вероватноћа избора једног елемента у узорку не зависи од избора осталих
елемената.
2. Систематски узорак
- На случајан начин врши се избор првог елемента, а затим се из популације бира
сваки k-ти елемент (трећи,пети..).

9
3. Стратификовани узорак
- Ако је популација подељена на стратуме (независне подскупове), избор се врши
за сваки стратум посебно, тако што се из сваког узима одговарајући број
елемената.
4. Узорак скупина
- Елементи популације се деле у скупине.
- На случајан начин врши се избор скупине, а затим се посматрају сви елементи
скупине као елементи узорка (једнофазни узорак), или се у оквиру изабране
скупине врши избор елемената који ће ући у узорак (двофазни узорак)....
− Статистике:
- Узорак (Х1,Х2,...,Хn) је случајна променљива, онда је и свака функција тог узорка
случајна променљива, та функција представља параметар узорка и зове се
статистика,то је функција 𝑍 = 𝐹(𝑋1 , 𝑋2 , … , 𝑋𝑛 ).
- Са променом вредности у узорку, мењаће се и вредност статистике Z.
- Вероватноћа реализације неких вредности узорка се одређује из веродостојности
узорка, што значи да закон вероватноћа функције Z, која је дефинисана на узорку
(Х1,Х2,...,Хn) одређујемо на основу функције веродостојности узорка.
- Вреодостојност узорка за Х прекидног типа:
𝑓(𝑥1 , 𝑥2 , 𝑥3 … , 𝑥𝑛 ) = 𝑃{𝑋1 = 𝑥1 } ∙ … ∙ 𝑃{𝑋𝑛 = 𝑥𝑛 } = 𝑝(𝑥1 )𝑝(𝑥2 ) … 𝑝(𝑥𝑛 );
𝑓(𝑥1 , 𝑥2 , 𝑥3 … , 𝑥𝑛 ) = ∏𝑛𝑖=1 𝑝(𝑥𝑖 ).
- Веродостојност узорка за X непрекидног типа:
𝑓(𝑥1 , 𝑥2 , 𝑥3 … , 𝑥𝑛 ) = ∏𝑛𝑖=1 𝑓(𝑥𝑖 ).
- Како би се одредила расподела, тј. закон вероватноћа једне статистике, потребно
је утврдити све њене могуће вредности, а затим вероватноће свих тих вредности.

7. Средина узорка, варијанса узорка


− Средина узорка:
- Једна од статистика које се најчешће користе.
- Нека је 𝑚 = 𝐸(𝑋) , а варијанса 𝜎 2 = 𝑉𝑎𝑟(𝑋), при чему је Х везано за неки
експеримент.
- Елементи посматраног узорка, величине n, су Х1,Х2,...,Хn.
- Аритметичка средина узорка, тј. средина узорка је:
1 1
𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑋𝑖 = 𝑛 (𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ).
a) Очекивана вредност средине узорка је једнака очекиваној вредности популације,
а њена варијанса је једнака варијанси популације подељеној са величином узорка:
1 1 1
Е(𝑥̅ ) = 𝐸 (𝑛 ∑ 𝑋𝑖 ) = 𝑛 ∑𝑛𝑖=1 𝐸(𝑋𝑖 ) = 𝑛 ∙ 𝑛 ∙ 𝑚 = 𝑚
1 1 1 1 𝜎2
𝑉𝑎𝑟(𝑥̅ ) = 𝑉𝑎𝑟 (𝑛 ∑ 𝑋𝑖 ) = 𝑛 ∙ 𝑛 ∑𝑛𝑖=1 𝑉𝑎𝑟(𝑋𝑖 ) = 𝑛2 ∙ 𝑛 ∙ 𝜎 2 = 𝑛
- На основу ове особине може се закључити да ће се са повећањем величине
узорка варијанса средине узорка смањивати и тећити нули када n→∞, што би
значило да за довољно велики узорак скоро са сигурношћу можемо тврдити да
ће се средина узорка мало разликовати од средине популације.
б) Уколико обележје Х има нормалну расподелу X : N(m;σ2), средина узорка ће
𝜎2
такође имати нормалну расподелу 𝑥̅ : N (m; ).
𝑛
𝑥̅ −𝑚
- Статистика 𝑍 ∗ = 𝜎 √𝑛 ∶ 𝑁(0; 1) је стандардизована средина узорка и има
нормалну расподелу.

10
г) За произвољну популацију и одређивање расподеле средине узорка 𝑥̅ користи се
централна гранична теорема:
- Ако је очекивана вредност популације m, и варијанса σ2, тада расподела
𝜎2
средине 𝑥̅ узорка тежи Нормалној расподели са очекивањем m и варијансом ,
𝑛
𝜎2 𝜎2
кад n неограничено расте: 𝑥̅ → (m; ) када n→∞, тј. 𝑥̅ ̴ (m; ).
𝑛 𝑛
− Варијанса узорка:
- Нека су параметри популације очекивана вредности m, варијанса σ2 , обични
моменти mk и централни моменти µk.
- Ако је (Х1,Х2,...,Хn) прост случајан узорак, таада је варијанса узорка
1
𝑆 2 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑥̅ )2.
𝑛−1
- Очекивана вредност ове статистике је 𝐸(𝑠 2 ) = 𝜎 2 , a варијанса
𝑛
𝜇4 −𝜎4 2(𝜇4 −𝜎4 ) 𝜇4 −3𝜎4
𝑉𝑎𝑟(𝑠 2 ) = − − .
𝑛 𝑛2 𝑛3
− Teорема: Нека су 𝑥̅ и s2 средина и варијанса узорка из популације са Нормалном
расподелом N(m;σ2). Тада важи:
1) 𝑥̅ и s2 су међусобно независне статистике;
2) Средина узорка 𝑥̅ има Нормалну расподелу;
𝑛𝑠2
3) Статистика има Хи-квадрат расподелу са (n – 1) степени слободе.
𝜎2

8. Тачкасте оцене, непристрасне оцене параметара


− Тачкасте оцене:
- Посматрајмо скуп као популацију и обележје Х на тој популацији.
- Нека је θ непознати параметар популације, он се може оценити на простом
случајном узорку (Х1,Х2,...,Xn) из дате популације.
- Оцена 𝜃̂ параметра θ ће бити нека функција дефинисана на узорку, тј. статистика
𝜃̂ = 𝑓(𝑋1 , 𝑋2 , … 𝑋𝑛 ).
- Oвако дефинисана статистика је тачкаста оцена непознатог параметра.
- Важан је избор функције, јер од ње и зависи у којој мери је дата оцена непознатог
параметра „добра“.
− Непристрасне оцене:
- Очекивана вредност статистике 𝑓(𝑋1 , 𝑋2 , … 𝑋𝑛 ) којом се оцењује непознати
параметар θ, пожељно је да тај параметар централне тенденције статистике 𝜃̂ буде
вредност θ, тј. 𝐸(𝜃̂) = 𝜃, јер ту очекујемо да ће се наћи вредност дате статистике.
- Aко је испуњено 𝐸(𝜃̂) = 𝜃, онда за 𝜃̂ = 𝑓(𝑋1 , 𝑋2 , … 𝑋𝑛 ) оцену кажемо да је
непристрасна оцена.
- Пример: Доказано да је Е(𝑥̅ )= m јер се преко средине узорка оцењује популација.
- Ако је:
1) 𝐸(𝜃̂) > 𝜃 – позитивно пристрасна оцена
2) 𝐸(𝜃̂) < 𝜃 – негативно пристрасна оцена
- Пример. Доказаноје да је очекивана вредност статистике
1 𝑛−1
𝑆 2 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑥̅ )2 једнака 𝐸(𝑠 2 ) = 𝑛 𝜎 2 < 𝜎 2
- Непристрасност оцена обезбеђује да на основу већег броја узорака из исте
популације, у просеку, тачно одредимо вредност непозатог параметра.
- Непристрасне оцене 𝜃̂1 , 𝜃̂2 , … , 𝜃̂𝑘 за које важи 𝐸(𝜃̂𝑖 ) = 𝜃 ˄ 𝑉𝑎𝑟(𝜃̂𝑖 ) < 𝜎 2 , тада за
1 1 𝜎2
оцену 𝜃𝑘̅ = ∑𝑘𝑖=1 𝜃̂𝑖 важи 𝐸(𝜃𝑖̅ ) = 𝜃 ˄ 𝑉𝑎𝑟(𝜃̅) = 2 ∑𝑘𝑖=1 𝜎𝑖2 < , у случају када
𝑘 𝑘 𝑘

11
k→∞ варијанса оцене 𝜃𝑘̅ → 0, што значи да ће 𝜃𝑘̅ бити ближе правој вредности
параметра θ.
- Уколико су 𝜃̂1 , 𝜃̂2 , … , 𝜃̂𝑘 пристрасне оцене, тј. ако је 𝐸(𝜃̂) = 𝜃 + 𝛿, онда би оцена
𝜃𝑘̅ била све ближе вредности 𝜃 + 𝛿, а не вредности параметра θ, што значи да што
је пристрасност већа, то су и разлике веће.
9. Оцене са минималном варијансом
− Ограничићемо се на класу непристрасних оцена непознатог параметра θ.
− Потребно је изградити критеријум „ваљаности“ једне такве оцене.
− Неопходно је одредити „блискост“ оцене и непознатог параметра популације.
− Интервал око праве вредности, тј. (θ – λ1; θ+λ2], при чему су бројеви λ1,λ2 ϵ (0;λ),
− Статистиика θ може узети вредности из овог интервала, а нека је вероватноћа да се
то деси 𝑃{𝜃 − 𝜆1 < 𝜃̂ < 𝜃 + λ2 }.
− Посматрајмо статистику 𝜃̂𝑖 = 𝑓(𝑋1 , 𝑋2 , … 𝑋𝑛 ) и вероватноћу 𝑃{𝜃 − 𝜆1 < 𝜃̂1 < 𝜃 + λ2 }.
− Ако је вероватноћа 𝑃{𝜃 − 𝜆1 < 𝜃̂ < 𝜃 + λ2 } увек већа од вероватноће
𝑃{𝜃 − 𝜆1 < 𝜃̂1 < 𝜃 + λ2 } за свако λ1,λ2 ϵ (0;λ), онда је статистика 𝜃̂ боља оцена од
статистике 𝜃̂1, а да би тај услов био испуњен потребно је да варијанса
статистике 𝜃̂ буде мања од варијансе статистике 𝜃̂1.
− Варијанса статистике која представља непристрасну оцену, зове се средња
квадратна грешка оцене.
− Средња квадратна грешка оцене изражава меру концентрисаности оцене око праве
вредности параметра, и пожељно је да та концентрисаност буде што већа, тј. да
средња квадратна грешка оцене буде што мања.
− Да би оцена 𝜃̂ параметра θ била боља од оцене 𝜃̂i истог параметра потребно је:
𝑉𝑎𝑟(𝜃̂ ) = 𝐸(𝜃̂ − 𝜃)2 ≤ 𝑉𝑎𝑟(𝜃̂𝑖 ) = 𝐸(𝜃̂𝑖 − 𝜃)2.
− „Најбоља“ непристрасна оцена непознатог параметра ће бити она чија варијанса
има минималну вредност у класи свих непристрасних оцена, тј. 𝑉𝑎𝑟(𝜃̂) ≤ 𝑉𝑎𝑟(𝜃̂𝑖 )
− Непристрасна оцена са минималном варијансом представља оптималну оцену
параметра θ.
− Пример. 𝑥̅ је оцена са минималном варијанском, тј. оптимална оцена параметра m.
10. Eфикасне оцене
− 𝐸(𝜃̂ − 𝜃)2, тј. средња квадратна грешка параметра се може сматрати мером
ефикасности оцене 𝜃̂.
− Што је та вредност ближа нули, то је оцена ефикаснија.
− Ако посматрамо оцену 𝜃̂0 која ће имати најмању средње квадратну грешку, то је
оцена 𝐸(𝜃̂0 − 𝜃)2 = min 𝐸(𝜃̂ − 𝜃)2.
̂
𝜃
− Ефикасност оцене 𝜃̂ параметра θ је количник минималне средње квадратне
̂ −𝜃)2
𝐸(𝜃
грешке и средње квадратне грешке оцене 𝜃̂, тј. 𝐸𝑓(𝜃̂) = 0 2 . ̂ −𝜃)
𝐸(𝜃
− Aко посматрамо само непристрасне оцене, ефикасност оцене 𝜃̂ је количник
̂0 )
𝑉𝑎𝑟(𝜃
варијанси, тј. 𝐸𝑓(𝜃̂) = при чему је 𝜃̂0 оцена са минималном варијансом.
̂)
𝑉𝑎𝑟(𝜃
− Ефикасност оцене је број који испуњава услов: 0 ≤ 𝐸𝑓(𝜃̂) ≤ 1.
− Када је 𝐸𝑓(𝜃̂) = 1 онда је 𝜃̂ ефикасна оцена параметра θ.

12
11. Oптималне оцене
− „Најбоља“ непристрасна оцена непознатог параметра биће она оцена чија варијанса
има минималну вредност у односу на све остале непристрасне оцене, тј.
𝑉𝑎𝑟(𝜃̂ ) ≤ 𝑉𝑎𝑟(𝜃̂𝑖 ).
− Непристрасна оцена са минималном варијансом представља оптималну оцену
параметра θ у класи непристрасних оцена.
− 𝑥̅ је оцена са минималном варијансом, тј. оптимална оцена параметра m.
− Код Нормалне расподеле код које је очекивана вредности m позната, а варијанса σ2
1
непозната, оцена 𝜎̅ 2 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑚)2је оптимална оцена варијансе σ2.
12. Mетод максималне веродостојности
− Општи метод оцењивања.
− Функција веродостојности узорка 𝐿(𝑥1 , 𝑥2 , … 𝑥𝑛 ; 𝜃1 , 𝜃2 , … , 𝜃𝑘 ) = ∏𝑛𝑖=1(𝑥𝑖 ; 𝜃1 , … , 𝜃𝑘 ),
при чему је 𝑓(𝑥𝑖 ; 𝜃1 , … , 𝜃𝑘 ) модел расподеле случајне прменљиве Х на популацији, а
за измерене вредности у узорку, функција L ће бити функција параметра модела.
− Метод максималне веродостојности је метод избора вредности параметра модела
тако да функција веродостојности има што је могуће већу вредност.
− Како је logL монотоно растућа функција, она има максимум за исте вредности као и
функција L.
− Тачка у којој logL, тј. L, достиже максимум представља решење система једначина
који се добија изједначавањем парцијалних извода логаритма функције L по
𝜕𝑙𝑜𝑔𝐿 𝜕𝑙𝑜𝑔𝐿
непознатим параметрима са нулом, тј. 𝜕𝜃 = 0, … , 𝜕𝜃 = 0.
1 𝑘
− Посматрајмо модел расподеле f(x,θ), код ког постоји само један параметар θ,
функција веродостојности тог узорка је 𝐿(𝑥1 , 𝑥2 , … 𝑥𝑛 ; 𝜃) = ∏𝑛𝑖=1(𝑥𝑖 ; 𝜃),
њен логаритам је log 𝐿(𝑥1 , 𝑥2 , … 𝑥𝑛 ; 𝜃) = ∑𝑛𝑖=1 log 𝑓(𝑥𝑖 ; 𝜃), а једначина на основу које
𝜕𝑙𝑜𝑔𝐿(𝑥1 ,𝑥2 ,…𝑥𝑛 ;𝜃) 𝜕 log 𝑓(𝑥𝑖 ;𝜃)
се добија тражена оцена је = ∑𝑛𝑖=1 = 0.
𝜕𝜃 𝜕𝜃
− Најважније особине оцена добијене применом ове методе су:
1) Ефикасне оцене
- Ако постоји ефикасна оцена 𝜃̂ = 𝜃̂(𝑋1 , … 𝑋𝑛 ) параметра θ тада јединична
𝜕𝑙𝑜𝑔𝐿(𝑋1 ,…𝑋𝑛 ;𝜃) 𝜕 log 𝑓(𝑋𝑖 ;𝜃)
веродостојност = ∑𝑛𝑖=1 = 0 има јединствено решење и
𝜕𝜃 𝜕𝜃
то је баш оцена 𝜃̂.
2) Принцип инваријантности
- Ако је 𝜃̂ = 𝜃̂(𝑋1 , … 𝑋𝑛 ) оцена максималне веродостојности параметра θ тада је
g(𝜃̂) оцена максималне веродостојности функције g(θ).
- Функција g(θ) тачке из скупа могућих вредности параметра θ пресликава у
интервал скупа реалних бројева.
- Особина важи само у случају када постоји више параметара θ1,...θk из
k-димензионалног простора, а функција g те тачке пресликава у
r-димензионални простор (𝑟 ≤ 𝑘).
3) Једнозначност решења
- Једнозначна веродостојност не мора имати само једно решење.
- Пример. Ако Х има униформну расподелу.
13. Интервали поверења и општи поступак одређивања интервала поверења
− Мање рестриктивна метода оцењивања параметара.
− Одређивање интервала поверења за непознати параметар θ популације:

13
- На основу случајног узорка Х1, Х2, ..., Хn одређују се две статистике:
𝑍1 = 𝑓1 (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) и 𝑍2 = 𝑓2 (𝑋1 , 𝑋2 , … , 𝑋𝑛 ), такве да је увек Z1 < Z2.
- Oве две статистике су случајне променљиве које одређују интервал (Z1; Z2], чије
границе се мењају променом узорка.
− Нека је γ вероватноћа да интервал (Z1; Z2] прекрива непознати параметар θ, а (1 – γ)
је вероватноћа да се то не остварује,𝑃{𝑍1 < 𝜃 < 𝑍2 } = 𝛾 и 𝑃{𝜃 ∉ (𝑍1 ; 𝑍2 ]} = 1 − 𝛾.
− Вероватноћа γ је ниво поверења, а интервал (Z1; Z2] је интервал поверења.
− Поступак одређивања интервала поверења:
1. корак: Одређује се функција узорка Х1, Х2, ..., Хn и параметра θ, g(Х1, Х2,..., Хn,θ)
која има следеће особине:
 дефинисана је за сваку вредност θ, непрекидна и монотона
 њена расподела не зависи од непознатог параметра θ
2. корак: За дати ниво поверења γ се одређују вредности g1 и g2 такве да је
𝑔2
∫𝑔1 𝜑(𝑦)𝑑𝑦 = 𝛾. Вредности g1 и g2 такве да за сваку случајну променљиву Y
која има закон вероватноћа φ(y), вероватноћа да се Y нађе у интервалу (g1; g2]
једнака γ, тј. 𝑃{𝑔1 < 𝑌 < 𝑔2 } = 𝛾.
3. корак: Решавањем неједначина 𝑔(𝑋1 , … 𝑋𝑛 ; 𝜃) ≤ 𝑔2 и 𝑔(𝑋1 , … 𝑋𝑛 ; 𝜃) > 𝑔1 , по θ
добија се: 𝑓1 (𝑋1 , … 𝑋𝑛 ; 𝑔1 ) < 𝜃 ≤ 𝑓2 (𝑋1 , … 𝑋𝑛 ; 𝑔2 ). Случајни догађаји
g1 < g(Х1, Х2,..., Хn,θ) ≤ g2 и Z1 < θ ≤ Z2 су догађаји са истим вероватноћама.
4. корак: Пошто статистика g има закон вероватноћа дат функцијом φ(y), онда је
вероватноћа догађаја g1 < g(Х1, Х2,..., Хn,θ) ≤ g2 једнака нивоу поверења γ, што
значи да је 𝑃{𝑍1 < 𝜃 < 𝑍2 } = 𝛾 и 𝑃{𝜃 ∉ (𝑍1 ; 𝑍2 ]} = 1 − 𝛾, па је интервал
поверења за непознати параметар θ и дати ниво поверења γ интервал:
(𝑍1 = 𝑓1 (𝑋1 , … 𝑋𝑛 ; 𝑔1 ); 𝑍2 = 𝑓2 (𝑋1 , … 𝑋𝑛 ; 𝑔2 )] .
− Дужина интервала поверења зависи од нивоа поверења, што значи да се са
повећањем нивоа поверења повећава и дужина интервала поверења, и обрнуто.
− У пракси је најчешће γ = 0,95 или γ = 0,99.
14. Интервал поверења за очекивану вредности
− Претпоставимо да је очекивана вредност m популације непозната и да треба
одредити интервал поверења за тај параметар.
− Нека је Х1, Х2, ..., Хn узорак из такве популације.
1
− Тада средина узорка 𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 има нормалну расподелу са параметрима
𝜎2
𝐸(𝑥̅ ) = 𝑚 и 𝑉𝑎𝑟(𝑥̅ ) = .
𝑛
− Статистика
𝑥̅ −𝑚
− 𝑍 = 𝜎 √𝑛 има стандардизовану Нормалну расподелу са законом вероватноћа
𝑦2
1
𝜑(𝑦) = 𝑒− 2 .
√2𝜋
− За функцију g(Х1, Х2,..., Хn,θ) можемо узети статистику Z.
− Статистика Z зависи и од варијансе популације, при чему постоје два случаја:
1. Нека је варијанса популације позната.
- Из закона вероватноћа статистике Z одредићемо интервал са границом (-z0; z0)
тако да је 𝑃{−𝑧0 ≤ 𝑍 ≤ 𝑧0 } = 𝛾.
- Уз помоћ таблице за функцију Нормалне расподеле одредићемо z0 тако да је
𝛾+1
2𝜙(𝑧0 ) − 1 = 𝛾, тј. 𝜙(𝑧0 ) = 2 .

14
𝑥̅ −𝑚 𝑥̅ −𝑚
- У следећем кораку решавамо неједначине √𝑛 < 𝑧0 и √𝑛 ≥ −𝑧0 и
𝜎 𝜎
𝜎 𝜎
добијамо решење 𝑥̅ − 𝑧0 < 𝑚 ≤ 𝑥̅ + 𝑧0 .
√𝑛 √𝑛
- На основу добијеног можемо тврдити да ће се догађај
𝜎 𝜎
𝑥̅ − 𝑧0 𝑛 < 𝑚 ≤ 𝑥̅ + 𝑧0 𝑛 реализовати са вероватноћом γ, а са вероватноћом
√ √
(1 – γ) се неће реализовати.
𝜎 𝜎
- Интервал поверења за m је интервал са границама (𝑥̅ − 𝑧0 ; 𝑥̅ + 𝑧0 ].
√𝑛 √𝑛
- Исто се одређује и када није позната расподела обележја на популацији, али у
том случају узорак мора бити довољно велики да би се на основу централне
граничне теореме тврдило да статистика Z има приближно Нормалну
расподелу.
2. Нека варијанса популације није позната.
- Статистика Z која зависи од варијансе σ2 се не може користити.
𝑥̅ −𝑚
- Користи се статистика 𝑡 = 𝑠 √𝑛 − 1, која има Студентову расподелу са
(n - 1) степени слободе.
1
- Варијанса узорка s2 је 𝑠 2 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑥̅ )2 .
- Из таблице за Студентову расподелу одређује се број t0 тако да је
𝑃{−𝑡0 < 𝑡𝑛−1 ≤ 𝑡0 } = 𝛾.
𝛾+1
- To je oна вредност 2𝑆𝑛−1 (𝑡0 ) − 1 = 𝛾, тј. 𝑆𝑛−1 (𝑡0 ) = 2 .
𝑥̅ −𝑚 𝑥̅ −𝑚
- Решавањем неједначина √𝑛 − 1 < 𝑡0 и √𝑛 − 1 ≥ −𝑡0 , добија се
𝑠 𝑠
𝑠 𝑠
решење 𝑥̅ − 𝑡0 < 𝑚 ≤ 𝑥̅ + 𝑡0 , за које тврдимо да је
√𝑛−1 √𝑛−1
𝑠 𝑠
𝑃 {𝑥̅ − 𝑡0 < 𝑚 ≤ 𝑥̅ + 𝑡0 } = 𝛾.
√𝑛−1 √𝑛−1
𝑠 𝑠
- Интервал поверења за m је интервал са границама (𝑥̅ − 𝑡0 ; 𝑥̅ + 𝑡0 ].
√𝑛−1 √𝑛−1
- Када популација нема Нормалну расподелу или је она непозната, за довољно
велики узорак се може сматрати да делује централна гранична теорема.
- Студентова расподела се тада апроксимира Нормалном, што значи да
𝑥̅ −𝑚
статистика 𝑠 √𝑛 − 1 има приближно нормалну расподелу, и за довољно
велики узорак интервал поверења ће бити интервал са границама
𝑠 𝑠
(𝑥̅ − 𝑧0 ; 𝑥̅ + 𝑧0 ].
√𝑛−1 √𝑛−1
− За дати ниво поверења, дужина интервала поверења за очекивану вредност m је
обрнуто пропорционална величини узорка.
15. Једнострани и двострани интервал поверења за варијансу
− Посматрајмо узорак Х1, Х2,..., Хn из популације са Нормалном расподелом код које
је варијанса σ2 непозната.
𝑛𝑠2
− За одређивање интервала користи се статистика 𝜎2 која има Хi-квадрат расподелу
са (n – 1) степени слободе.
− Једнострани интервал поверења:
- Горња граница, тј. вредност од које варијанса није већа.
- Из таблице за Хi-квадрат расподеле одредићемо број χ0 тако да је
2
𝑃{𝜒𝑛−1 > 𝜒0 } = 𝛾, односно 𝐾𝑛−1 (𝜒0 ) = 1 − 𝛾.
𝑛𝑠2
- Можемо тврдити да је γ вероватноћа догађаја 𝜎2
≥ 𝜒0 , односно догађаја
𝑛𝑠2
𝜎2 ≤ .
𝜎2

15
𝑛𝑠2
- Пошто варијанса не сме бити негативна, важи 𝑃 {0 < 𝜎 2 ≤ } = 𝛾, и да је
𝜎2
𝑛𝑠2
једностани интервал поверења за варијансу σ2, итервал са границама (0; ].
𝜎2
− Двострани интервал поверења:
𝑛𝑠2
- Користи се иста статистика 𝜎2 и Хi-квадрат расподела.
2
- Одређују се два броја χ1 и χ2, тако да је: 𝑃{𝜒1 < 𝜒𝑛−1 ≤ 𝜒2 } = 𝛾, односно
2 1−𝛾 2 1−𝛾
𝑃{𝜒𝑛−1 < 𝜒1 } = 2 и 𝑃{𝜒𝑛−1 > 𝜒2 } = 2 , као што је приказано на слици

- Вредности χ1 и χ2 се одређују из функција Хi-квадрат расподеле тако да је


1−𝛾 1+𝛾
𝐾𝑛−1 (𝜒1 ) = 2 и 𝐾𝑛−1 (𝜒2 ) = 2 .
𝑛𝑠2 𝑛𝑠2 𝑛𝑠2 𝑛𝑠2
- Решавањем неједначина ≤ 𝜒2 и ≥ 𝜒1 добијамо неједначину ≤ 𝜎2 ≤
𝜎2 𝜎2 𝜒2 𝜒1
односно догађај чија је вероватноћа једнака γ.
𝑛𝑠2 𝑛𝑠2 𝑛𝑠2 𝑛𝑠2
- 𝑃 { 𝜒 ≤ 𝜎2 ≤ } = 𝛾, а интервал поверења је интервал са границама [ ; ].
2 𝜒1 𝜒2 𝜒1

16. Интервал поверења за разлику математичких очекивања


𝜎2 𝜎2
− Ако је познато 𝜎12 и 𝜎22 : 𝑥1 : 𝑁 (𝑚1 ; 𝑛1 ) и 𝑥2 : 𝑁 (𝑚2 ; 𝑛2 )
1 2

𝑥̅ 1 −𝑥̅ 2 −(𝑚1 −𝑚2 )


𝜏= : 𝑁(0; 1)
𝜎2 𝜎2
√ 1+ 2
𝑛1 𝑛2

− 𝑃{−𝑧0 < 𝜏 < 𝑧0 } = 𝛽 .

𝑥̅1 −𝑥̅ 2 −(𝑚1 −𝑚2 ) 𝜎12 𝜎22


- 𝑃 −𝑧0 < < 𝑧0 = 𝛽/ ∙ √ +
2 2 𝑛1 𝑛2
𝜎 𝜎
√ 1+ 2
𝑛1 𝑛2
{ }
𝜎21 𝜎22 𝜎2 𝜎2
- 𝑃 {−𝑧0 √𝑛 + 𝑛 < 𝑥̅ 1 − 𝑥̅ 2 − (𝑚1 − 𝑚2 ) < 𝑧0 √𝑛1 + 𝑛2 } = 𝛽
1 2 1 2

𝜎2 𝜎2 𝜎2 𝜎2
- 𝑃 {𝑥̅ 1 − 𝑥̅2 − 𝑧0 √𝑛1 + 𝑛2 < −(𝑚1 − 𝑚2 ) < 𝑥̅1 − 𝑥̅2 + 𝑧0 √𝑛1 + 𝑛2 } = 𝛽/ ∙ (−1)
1 2 1 2

𝜎2 𝜎2 𝜎2 𝜎2
- 𝑃 {𝑥̅ 1 − 𝑥̅2 − 𝑧0 √𝑛1 + 𝑛2 > 𝑚1 − 𝑚2 > 𝑥̅ 1 − 𝑥̅ 2 + 𝑧0 √𝑛1 + 𝑛2 } = 𝛽
1 2 1 2

− 𝜙(𝑧0 ) − 𝜙(−𝑧0 ) = 𝛽
1+𝛽
2𝜙(𝑧0 ) = 𝛽 => 𝜙(𝑧0 ) = 2

16
𝜎2 𝜎2 𝜎2 𝜎2
− Интервал поверења је: 𝐼𝑚1 − 𝐼𝑚2 = [𝑥̅1 − 𝑥̅ 2 − 𝑧0 √𝑛1 + 𝑛2 ; 𝑥̅ 1 − 𝑥̅2 + 𝑧0 √𝑛1 + 𝑛2 ].
1 2 1 2

− Непознате 𝜎12 и 𝜎22 :


𝑥̅ 1 −𝑥̅ 2 −(𝑚1 −𝑚2 ) 𝑛1 𝑛2
𝜏= √𝑛 (𝑛1 + 𝑛2 − 2): 𝑡𝑛1+𝑛2−2
√𝑛1 𝑆12 +𝑛2 𝑆22 1 +𝑛2

− 𝑃{−𝑡0 < 𝜏 < 𝑡0 } = 𝛽


𝑥̅ 1 −𝑥̅ 2 −(𝑚1 −𝑚2 ) 𝑛1 𝑛2 √𝑛1 𝑆12 +𝑛2 𝑆22
- 𝑃 {−𝑡0 < √𝑛 (𝑛1 + 𝑛2 − 2) < 𝑡0 } = 𝛽/ ∙ 𝑛1 𝑛
√𝑛1 𝑆12 +𝑛2 𝑆22 1 +𝑛2 √𝑛 +𝑛2 (𝑛1 +𝑛2 −2)
1 2

√𝑛1 𝑆12 +𝑛2 𝑆22 √𝑛1 𝑆12 +𝑛2 𝑆22


- 𝑃 {−𝑡0 ∙ 𝑛1 𝑛
< 𝑥̅1 − 𝑥̅ 2 − (𝑚1 − 𝑚2 ) < 𝑡0 ∙ 𝑛1 𝑛
}=𝛽
√𝑛 +𝑛2 (𝑛1 +𝑛2 −2) √𝑛 +𝑛2 (𝑛1 +𝑛2 −2)
1 2 1 2

√𝑛1 𝑆12 +𝑛2 𝑆22 √𝑛1 𝑆12 +𝑛2 𝑆22


- 𝑃 {𝑥̅1 − 𝑥̅2 − 𝑡0 ∙ 𝑛 𝑛
< −(𝑚1 − 𝑚2 ) < 𝑥̅1 − 𝑥̅2 + 𝑡0 ∙ 𝑛 𝑛
}=𝛽
√𝑛 1+𝑛2 (𝑛1 +𝑛2 −2) √𝑛 1+𝑛2 (𝑛1 +𝑛2 −2)
1 2 1 2

√𝑛1 𝑆12 +𝑛2 𝑆22 √𝑛1 𝑆12 +𝑛2 𝑆22


- 𝑃 {𝑥̅1 − 𝑥̅2 − 𝑡0 ∙ 𝑛 𝑛
> 𝑚1 − 𝑚2 > 𝑥̅1 − 𝑥̅2 + 𝑡0 ∙ 𝑛 𝑛
}=𝛽
√𝑛 1+𝑛2 (𝑛1 +𝑛2 −2) √𝑛 1+𝑛2 (𝑛1 +𝑛2 −2)
1 2 1 2

1+𝛽
− 𝐹𝑛1 +𝑛2−2 (𝑡0 ) = 2
√𝑛1 𝑆21+𝑛2 𝑆22 √𝑛1𝑆21+𝑛2 𝑆22
− Интервал поверења је: 𝐼𝑚1 − 𝐼𝑚2 = [𝑥̅1 − 𝑥̅2 − 𝑡0 ∙ 𝑛1 𝑛2
̅1 − 𝑥̅2 + 𝑡0 ∙
;𝑥 𝑛1 𝑛2
]
√𝑛 (𝑛1+𝑛2−2) √𝑛 (𝑛1 +𝑛2 −2)
1 +𝑛2 1 +𝑛2

17. Интервал поверења за непознату вероватноћу


− Када је циљ да се одреди пропорција елемената популације који имају одређену
карактеристику коју остали елементи немају, користи се следећи статистички
модел: Из серије се бирају производи и контролишу.
− Догађај А је да је изабрани производ лош, а догађај 𝐴̅ да је изабрани производ
добар, проценат лоших у серији је p.
− Ово је модел „0 – 1“ расподеле са непознатим параметром p, при чему Х узима
вредност 1 ако се догађај А реализовао, а у супротном узима вредност 0.
− Да би се утврдила вредност p посматра се узорак од n eлемената.
− Нека су X1, X2,… Xn елементи узорка, значи да свака вредност променљиве узима
вредност 0 или 1.
− Статистика 𝑌 = ∑𝑛𝑖=1 𝑋𝑖 представља број лоших производа у узорку, тј. број
понављања експеримената у којима се реализовао догађај А.
1
− Средина узорка 𝑥̅ = 𝑛 𝑌 = 𝑝̂ је оцена вероватноће p.
− На основу Моавр-Лапласове теореме се зна да ће статистика Y имати приближно
Нормалну расподелу за довољно велико n, па ће и статистика 𝑥̅ = 𝑝̂ имати
𝑝(1−𝑝)
Нормалну расподелу са параметрима 𝐸(𝑝̂ ) = 𝑝, 𝑉𝑎𝑟(𝑝̂ ) = 𝑛 .
− Пошто је p непознато, варијанса статистике 𝑝̂ се на основу узорка великог обима
𝑝̂(1−𝑝̂)
оценјује са 𝑉̂ 𝑎𝑟(𝑝̂ ) = 𝑛 .

17
𝑝̂−1
− Статистика 𝜏 = √𝑛 има приближно стандардизовану Нормалну расподелу.
√𝑝̂(1−𝑝̂)
1+𝛾
− Из функције Нормалне расподеле се одређује z0, тако да је 𝜙(𝑧0 ) = .
2
𝑝̂−1 𝑝̂−1
− Решавањем неједначина √𝑛 < 𝑧0 и √𝑝̂(1−𝑝̂) √𝑛 > −𝑧0 добија се неједначина
√𝑝̂(1−𝑝̂)
𝑝̂(1−𝑝̂) 𝑝̂(1−𝑝̂)
𝑝̂ − 𝑧0 √ < 𝑝 < 𝑝̂ + 𝑧0 √ .
𝑛 𝑛
− Према томе интервал поверења за непознату вероватноћу и дати ниво поверења γ је
𝑝̂(1−𝑝̂) 𝑝̂(1−𝑝̂)
интервал са границама (𝑝̂ − 𝑧0 √ ; 𝑝̂ + 𝑧0 √ ).
𝑛 𝑛

18. Интервал поверења за коефицијент корелације


− Посматрамо популацију са дводимензионалном Нормалном расподелом код које је
коефицијент корелације ρ непознат.
− Користимо узорак (X1, Y1), (X2, Y2),…, (Xn, Yn) и узорчки коефицијент корелације
1 𝑛
𝑆𝑥𝑦 ∑ (𝑋 −𝑥̅ )(𝑌𝑖 −𝑦̅)
𝑛 𝑖=1 𝑖
𝑟=𝑆 = који представља оцену коефицијента
𝑥 𝑆𝑦 1
√ ∑𝑛
1
(𝑋 −𝑥̅ )2 √ ∑𝑛 (𝑌 −𝑦̅)2
𝑛 𝑖=1 𝑖 𝑛 𝑖=1 1
корелације у популацији.
1 1+𝑟
− Статистика 𝑍 = 2 ln 1−𝑟 има приближно Нормалну расподелу са параметрима
1 1+𝜌 1
𝐸(𝑍) = 2 ln 1−𝜌, 𝑉𝑎𝑟(𝑍) = 𝑛−3.
− Стандардизацијом статистике Z се добија статистика која има приближно
Нормалну расподелу.
1+𝛾
− Из функције Нормалне расподеле се одређује z0 тако да је 𝜙(𝑧0 ) = 2 .
1+𝑟 1+𝜌 √𝑛−3
− Решавањем неједначина {ln 1−𝑟 − ln 1−𝜌} ∙ < 𝑧0 и
2
1+𝑟 1+𝜌 √𝑛−3 𝑒 2𝑧1 −1 𝑒 2𝑧2 −1
{ln − ln 1−𝜌} ∙ > −𝑧0 добија се неједначина 𝑒 2𝑧1 +1 < 𝜌 < 𝑒 2𝑧2 +1, при чему је
1−𝑟 2
1 1+𝑟 𝑧0 1 1+𝑟 𝑧0
𝑧1 = 2 ln 1−𝑟 − , 𝑧2 = 2 ln 1−𝑟 + .
√𝑛−3 √𝑛−3
− Интервал поверења за коефицијент корелације и дати ниво поверења γ је интервал
𝑒 2𝑧1 −1 𝑒 2𝑧2 −1
са границама ( 𝑒 2𝑧1 +1 ; 𝑒 2𝑧2 +1).

19. Tестирање хипотеза, грешке I и II врсте


− Истраживачи на основу искуства или логичког закључивања формуишу хипотезе о
посматраном феномену.
− Поступак провере истинитости хипотеза је проблем Теорије одлучивања, а односи
се на утврђивање критеријума за доношење одлука о прихватању/одбацивању
хипотезе.
− Ако ту одлуку доносимо на основу статистичких података и применом статистичке
анализе поступак се назиа статистичко тестирање хипотеза.
− Хипотеза H0 се односи на популацију, резултати мерења су резултати узорка, а
поступак за проверу хипотезе на основу узорка је тестирање хипотезе.
− Тестирање хипотезе је поступак одлучивања да ли подаци у узорку иду у прилог
хипотези Н0 или не.
− Постоје две врсте тестова:
1. Параметарски тестови
− Хипотезе се односе на одређене параметре популације;

18
− Поступак тестирања је базиран на неким претпоставкама о расподели
популације;
2. Непараметарски тестови
− Хипотезе се односе на расподеле обележја на популацији;
− Закључци о особинама узорка се доносе без обзира на расподелу популације.
− Хипотеза може да се односи на једну могућу вредност параметара или на једну
одређену расподелу, то је проста хипотеза.
− Грешка првог типа је грешка коју правимо ако одбацимо хипотезу Н0, а она је тачна.
− Грешка другог типа је ако прихватимо хипотезу Н0, а она није тачна.
− Општи поступак при статистичком тестирању хипотезе се своди на то да се скуп
свих могућих вредности за узорак Rn подели на два дела:
- подскуп C (критична област)
- подскуп Rn – C.
− Одлуку о одбацивању Н0 доносимо ако резултети узорка припадају области C, а ако
резултати узорка припадају области Rn – C хипотезу Н0 прихватамо.
− Када је хипотеза тачне, резултати узорка могу припасти критичној области или не.
1. Ако припадну критичној области донећемо погрешан закључак. Вероватноћу тог
догађаја означимо са α, тј. 𝛼 = 𝑃{(𝑋1 , 𝑋2 , … , 𝑋𝑛 )𝜖𝐶/𝐻0 }.
2. Нећемо погрешити ако резултати узорка припадну области Rn – C, а вероватноћа
тачности тог закључка је 1 – α, тј. 1 − 𝛼 = 𝑃{(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ∉ 𝐶/𝐻0 }.
- Погрешан закључак у овом случају је грешка прве врсте, а α је њена вероватноћа
и представља ниво значајности.
− Ако са 𝐻 ̅0 да хипотеза Н0 није тачна.
1. Ако резултати узорка припадну области Rn – C донећемо погрешан закључак јер
ћемо прихватити Н0, вероватноћа погрешног закључка је β, тј. 𝛽 =
̅0 }.
𝑃{(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ∉ 𝐶/𝐻
2. Ако резултати узорка припадају области C на основу општег критеријума ћемо
донети исправан закључак, тј. одбацити Н0, а вероавтноћа тог закључка ће бити
̅0 }.
1-β, тј. 1 − 𝛽 = 𝑃{(𝑋1 , 𝑋2 , … , 𝑋𝑛 )𝜖𝐶/𝐻
- Вероватноћа β је вероватноћа грешке друге врсте, а 1 – β је моћ тестирања.
− Поступак тестирања хипотеза приказан је у табели одлучивања:

− Критична област C утиче на вероватноће тачности донетих закључака, тј. уколико


се она мења, мењаће се и вероватноће грешака прве и друге врсте.
− Проблем се углавном решава тако што се за унапред одређену вероватноћу прве
врсте, тј. нивоа значајности α, изабере критична област која ће довести до најмање
могуће вредности грешке другог типа β.

20. Параметарски тестови, просте и сложене хипотезе


− Параметарски тестови:
- Хипотезе се односе на одеђене параметре популације;
- Поступак тестирања је базиран на неким претпоставкама о расподели популације;

19
- Овакве хипотезе се називају параметарске хипотезе.
− Најчешће се формирају две међусобно искључиве хипотезе: нулта Н0 и
алтернативна Н1.
− Приступа се тестирању хипотезе.
− Из популацје се узима узорак величине n и, на основу вредности у узорку, се доноси
закључак о прихватању или одбацивању нулте хипотезе.
− Прихватање хипотезе Н0 подразумева одбацивање хипотезе Н1 и обрнуто.
− Ако са θ означимо непознати параметар, а са Х1, Х2,..., Хn елементе узорка.
− Најједноставнији случај би био ако знамо да параметар θ може имати једну од две
вредности, нпр. θ0 или θ1 (θ0 < θ1), и тада хипотезе формулишемо на следећи начин:
1. Нулта хипотеза Н0 (θ = θ0);
2. Алтернативна хипотеза Н1(θ = θ1).
- У овом случају су обе хипотезе просте, јер се за параметар θ претпоставља по
једна могућа вредност.
− Поступак при тестирању хипотезе Н0 се састоји од следећих корака:
1. Дефинише се статистика 𝜏 = 𝑓(𝑋1 , … , 𝑋𝑛 ) на узорку, чија је расподела
„концентрисана“ око вредности θ0 када је тачна хипотеза Н0, а око вредности θ1
ако је тачна хипотеза Н1.
Са φ(τ; θ) означимо закон вероватноћа статистике τ,
то је ф-ја која зависи од вредности τ и од непознатог
параметра θ.

2. Могуће вредности статистике τ деле се на два дела избором броја z0 (критична


вредност), који ће бити између θ0 и θ1.
3. Критична вредност z0 одређује се тако да вероватноћа догађаја τ > z0, под условом
да је θ = θ0, буде једнака нивоу значајности α (део површине испод криве φ(τ; θ0),
тј. да буде 𝑃 = (τ > 𝑧0 |𝜃 = 𝜃0 ) = 𝛼.
4. Са слике се види да се вероватноће грешака прве и друге врсте одређују избором
броја z0. Ако се смањује грешка прве врсте, повећава се грешка друге врсте, и
обрнуто. Критична вредност z0 се одређује тако да α буде унапред одређен број,
при чему је грешка друге врсте β једнака површини испод криве φ(τ; θ1).
5. Одлука о прихватању или одбацивању хипотезе Н0 се доноси на следећи начин:
- ако је 𝜏 = 𝑓(𝑋1 , … , 𝑋𝑛 ) < 𝑧0 , усваја се Н0;
- ако је 𝜏 = 𝑓(𝑋1 , … , 𝑋𝑛 ) > 𝑧0 , одбацује се Н0.
− Најчешће се нулта хипотеза формулише као проста, нпр. Н0: „нешто = нечему“
− Алтернативна као сложена, нпр. Н1: „нешто > нечега“, Н1: „нешто < нечега“ или
Н1:“нешто ≠ нечега.
− Чешће се користи тестирање хипотеза тако што се одреди статистика 𝜏 =
𝑓(𝑋1 , … , 𝑋𝑛 ; θ), чије вредности зависе од θ, а закон вероватноћа функције је ф-ја φ(y)
која не зависи од θ.
- За хипотезу Н0(θ = θ0) се из закона вероватноћа одређује критична област C, као
интерзал за који је 𝑃{𝜏 ∈ 𝐶} = 𝛼.
- Даљи поступак је исти као и у претходном случају.
- Ако τ ∈ C H0 се одбацује за дати ниво значајности α.
- Ако τ ∉ C Н0 се прихвата за дати ниво значајности α.

20
21. Teстирање хипотеза о математичком очекивању
− Претпоставимо да је узорак Х1, Х2,..., Хn из популације са Нормалном расподелом,
да је очекивана вредност m непозната и тестирајмо хипотезу да m има одређену
1 𝜎2
вредност m0, тј. Н0 = (m = m0) и 𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 : 𝑁(𝑚; )
𝑛
− Aко је σ познато:
2

- Избор критичне области зависи од алтернативне хипотезе, постоји 3 случаја:


1. Н0 = (m = m0)
Н1 = (m > m0)

- 𝑃{𝜏 > 𝑧0 |𝑚 = 𝑚0 } = 𝛼
- 𝑃{𝜏 < 𝑧0 |𝑚 = 𝑚0 } = 1 − 𝛼
- 𝑃{𝜏 > 𝑧0 |𝑚 > 𝑚0 } = 𝛽 је
вероватноћа грешке друге врсте.
𝑚−𝑚0 𝑚−𝑚0
- 𝑃 {𝜏 − 𝜎 < 𝑧0 − 𝜎 |𝑚 >
- Деснострана критична област √𝑛 √𝑛
C = (z0; +∞)
- Φ(z0) = 1 – α 𝑚0 } = 𝜙(𝑧0 − 𝑑)
- Ако је 𝜏 < 𝑧0 усвојићемо Н0, а - Моћ теста 1 – β = 1 - 𝜙(𝑧0 − 𝑑)
ако је 𝜏 > 𝑧0 одбацићемо Н0.

2. Н0 = (m = m0)
Н1 = (m < m0)
- Левострана критична област
C = (-∞; -z0)
- Φ(-z0) = 1 – α
- Ако је 𝜏 < −𝑧0 одбацићемо Н0, а ако
је 𝜏 > −𝑧0 усвојићемо Н0.
- 𝑃{𝜏 < −𝑧0 |𝑚 = 𝑚0 } = 𝛼
- Моћ теста 1 – β = 1 - 𝜙(𝑧0 − 𝑑)
3. Н0 = (m = m0)
Н1 = (m ≠ m0)
- Ако је |𝜏| > 𝑧0 одбацићемо Н0,
а ако је |𝜏| < 𝑧0 усвојићемо Н0.
𝑥̅ −𝑚0
- 𝜏= 𝜎
√𝑛
- 𝑃{|𝜏| > 𝑧0 |𝑚 = 𝑚0 } = 𝛼
- Обострана критична област C - 𝑃{𝜏 < 𝑧0 |𝑚 ≠ 𝑚0 } = 𝛽
= (-∞; -z0) ∪ (z0; +∞) - 1−𝛽 =
𝛼 1 − 𝑃{𝜏 < 𝑧0 |𝑚 ≠ 𝑚0 } =
- Φ(-z0) =
2
𝛼 𝛼
2 − 𝜙(𝑧0 − 𝑑) − 𝜙(𝑧0 − 𝑑)
- 1 - Φ(z0) = => Φ(z0) = 1 - 2
2

− Aко је σ2 непознато:
𝑥̅ −𝑚
- Користи се статистика 𝑡𝑛−1 = 𝑠 √𝑛 − 1: 𝑡𝑛−1 која има Студентову расподелу
са (n – 1) степени слободе.

21
- Избор критичне области зависи од алтернативне хипотезе, постоји 3 случаја:
1. Н0 = (m = m0)
Н1 = (m > m0)

𝑥̅ −𝑚
- 𝑡𝑛−1 = √𝑛 − 1
𝑠
1
+ (𝑚 − 𝑚0 )√𝑛 − 1 ∙ 𝑠
- 𝑃{𝑡𝑛−1 > 𝑡0 } = 𝛼, тј. 𝑆𝑛−1 (𝑡0 ) = 1 −
𝛼
- Деснострана критична област - Ако је 𝜏 < 𝑡0 усвојићемо Н0, а ако је
C = (t0; +∞) 𝜏 > 𝑡0 одбацићемо Н0.

2. Н0 = (m = m0)
Н1 = (m < m0)

- 𝑃{𝑡𝑛−1 < −𝑡0 } = 𝛼, тј. 𝑆𝑛−1 (𝑡0 ) =


1−𝛼
- Ако је 𝜏 > −𝑡0 усвојићемо Н0, а ако
је 𝜏 < −𝑡0 одбацићемо Н0.
- Левострана критична област C
= (-∞; -t0)

3. Н0 = (m = m0)
Н1 = (m ≠ m0)
- Обострана критична област C = (-∞; -
t0) ∪ (t0; +∞)
- 𝑃{|𝑡𝑛−1 | > 𝑡0 } = 𝛼,
𝛼
тј. 𝑆𝑛−1 (𝑡0 ) = 1 − 2
- Ако је |𝜏| < 𝑡0 усвојићемо Н0, а ако
је |𝜏| > 𝑡0 одбацићемо Н0.

22. Тестирање хипотеза о једнакости математичких очекивањa


− Варијансе познате:
𝑥̅ −𝑥̅
1. Ако је σ12 ≠ σ22: 𝜏 = 1 2 ∶ 𝑁(0; 1)
𝜎 2𝜎 2
√ 1+ 2
𝑛1 𝑛2

𝑥̅ 1 −𝑥̅ 2 𝑛 ∙𝑛
2. Ако је σ12 = σ22 = σ2: 𝜏 = ∙ √𝑛 1+𝑛2 : 𝑁(0; 1)
𝜎2 1 2

− Варијансе непознате:
𝑥̅ 1 −𝑥̅ 2
1. Aко је велики узорак: 𝜏 = ∶ 𝑁(0; 1)
𝑆2 𝑆2
√ 1+ 2
𝑛1 𝑛2

𝑥̅ 1 −𝑥̅ 2 𝑛 ∙𝑛
2. Ако је мали узорак: 𝜏 = ∙ √𝑛 1+𝑛2 ∙ (𝑛1 + 𝑛2 − 2) : 𝑡𝑛1 +𝑛2−2
√𝑛1 𝑆12 +𝑛2 𝑆22 1 2

22
– Тестирање хипотеза:
1. Н0 = (m1 = m2)
Н1 = (m1 > m2)

- Деснострана критична област C = (z0; +∞)

2. Н0 = (m1 = m2)
Н1 = (m1 < m2)

- Левострана критична област C = (-∞; -z0)

3. Н0 = (m1 = m2)
Н1 = (m1 ≠ m2)

- Обострана критична област C = (-∞; -z0) ∪


(z0; +∞)

23. Teстирање хипотеза о варијанси


− Нека је Х статистичко обележје које на популацији има Нормалну расподелу.
− Уколико треба да проверимо неке претпоставке о вредности варијансе, користимо
Хи-квадрат тест.
− Посматрамо следеће хипотезе:
- нулта хипотеза Н0 (σ2 = σ20);
- алтернативна хипотеза Н1 (σ2 > σ20).
− Како бисмо донели закључак о хипотези Н0, посматрамо узорак Х1, Х2,..., Хn.
1
- Оцењујемо варијансу преко статистике 𝑠 2 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑥̅ )2 која представља
варијансу узорка.
- Због тога што је s2 случајна променљива, она може узети било коју вредност из
инвервала (0; ∞), са одређеним законом вероватноћа.
𝑛𝑠2
- Статистика 𝜎2 има Хи-квадрат расподелу са (n – 1) степени слободе
- Ако хипотеза Н0 није тачна, тј. ако је хипотеза Н1 тачна, онда је σ2 > σ20, па се
𝑛𝑠2 𝜎2
ова статистика може записати у облику 𝜏 = , па ће њена очекивана
𝜎2 𝜎02
𝜎2
вредност бити већа од (n – 1), јер је 𝜎2 > 1.
0
- Одређује се критична вредност χ0 тако да за вредности статистике веће од тог
броја Н0 одбацујемо, а за вредности мање од тог броја Н0 прихватамо.

23
− За задати ниво значајности α:
- Вредност χ0 одређујемо из таблица ф-је Хи-квадрат расподела, тако да је
2
𝑃{𝑋𝑛−1 > 𝜒0 } = 𝛼, тј. тако да је 𝐾𝑛−1 (𝜒0 ) = 1 − 𝛼
𝑛𝑠2
- Aко је хипотеза Н0 тачна, статистика τ = 𝜎2 има Хи-квадрат расподелу, па је
вероватноћа 𝑃{𝜏 > 𝜒0 |𝜎 2 = 𝜎02 } = 𝛼.
- Ако је 𝜏 ≤ 𝜒0 усвојићемо Н0, а ако је 𝜏 > 𝜒0 одбацићемо Н0.
- Вероватноћа грешке прве врсте је α.
- Вероватноћа грешке друге врсте је ф-ја
𝑛𝑠2 𝜎2
𝛽 = 𝑃{𝜏 < 𝜒0 |𝜎 2 = 𝜎02 } = 𝑃 { 𝜎2 < 𝜒0 𝜎02 } .
𝜎2
- Moћ теста је ф-ја 1 − 𝛽 = 1 − 𝐾𝑛−1 (𝜒0 02 ), она је монотоно растућа и њена
𝜎
минимална вредност је α.

24. Тестирање хипотеза о количнику варијанси


– Из популација са Нормалном расподелом узимају се два узорка 𝑋1 , 𝑋2 , … , 𝑋𝑛 и
𝑋1′ , 𝑋2′ , … , 𝑋𝑛′ из којих се одређују варијансе.
𝑆12
– Количник варијанси узорака ће у општем случају бити различит од један.
𝑆22
– Потребно је проверити хипотезу 𝐻0 (𝜎12 = 𝜎22 ), при чему су σ12 и σ22 варијансе
популације из којих су узети узорци.
– Одлуку о прихватању или одбацивању хипотезе доносимо користећи F-тест:
𝑛1 𝑆12 𝑛2 𝑆22
- Статистике и имају Хи-квадрат расподелу, прва са (n1 – 1) и друга са
𝜎12 𝜎22
(n2 – 1) степени слободе.
𝑛1 𝑆21
2
𝜎1 (𝑛1 −1) 𝜎2 𝑛 (𝑛 −1)𝑆 2
- Због независности узорака, статистика 𝐹 = 𝑛2 𝑆2
= 𝜎12 ∙ 𝑛1(𝑛2−1)𝑆12 има расподелу
2 2 2 1 2
2
𝜎2 (𝑛2 −1)
са (n1 – 1) и (n2 – 1) степени слободе.
- Из таблице за F-расподелу се одређују критичне вредности.
- Ако је :
1. 𝐻0 (𝜎12 > 𝜎22 )
- F0 одређујемо тако да је 𝑃{𝐹 > 𝐹0 } = 𝛼.
𝑛 (𝑛 −1) 𝑆 2
- Када је 𝐻0 тачна статистика 𝜏 = 𝑛1 (𝑛2−1) ∙ 𝑆12 има F-расподелу са (n1 – 1) и
2 1 2
(n2 – 1) степени слободе.
- Вероватноћа 𝑃{𝜏 > 𝐹0 |𝜎12 = 𝜎22 } = 𝛼
- Ако је:
a) 𝜏 > 𝐹0 хипотезу о 𝐻0 одбацујемо
б) 𝜏 < 𝐹0 хипотезу о 𝐻0 не одбацујемо.

24
25. Тестирање хипотеза о вероватноћи (пропорцији)
– Да би се тестирале хипотезе о вредности вероватноће p, посматра се узорак од n
елемената, нека су елементи тог узорка 𝑋1 , 𝑋2 , … , 𝑋𝑛 , при чемусвака променљива Хi
узима вредности 0 или 1.
– Статистика 𝑌 = ∑𝑛𝑖=1 𝑋𝑖 је број понављања експеримената код којих се реализовао
догађај А.
1
– Средина узорка 𝑥̅ = 𝑛 𝑌 = 𝑝̂ је оцена вероватноће (пропорције) p.
– Желимо да проверимо хипотезу 𝐻0 (𝑝 = 𝑝0 ), при чему је p0 унапред дата вредност.
– За довољно велики узорак статистика 𝑥̅ = 𝑝̂ ће имати приближно Нормалну
𝑝(1−𝑝)
расподелу са параметрима 𝐸(𝑝̂ ) = 𝑝, 𝑉𝑎𝑟(𝑝̂ ) = 𝑛 .
𝑝̂−𝑝0
– Ако је хипотеза 𝐻0 тачна, статистика 𝜏 = √𝑛 има приближно Нормалну
√𝑝0 (1−𝑝0 )
расподелу.
– Ако је 𝐻1 (𝑝 ≠ 𝑝0 ), одредимо z0 тако да је 𝑃{|𝑍| = 𝑧0 } = 𝛼, тј. тако да је
𝛼
𝜙(𝑧0 ) = 1 − 2 .
𝑝̂−𝑝0
– Када је хипотеза 𝐻0 тачна, статистика 𝜏 = √𝑛 има стандардизовану
√𝑝0 (1−𝑝0 )
Нормалну расподелу, па је вероватноћа 𝑃{|𝜏| = 𝑧0 | 𝑝 = 𝑝0 } = 𝛼.
– Ако је:
a) |𝜏| > 𝑧0 хипотезу о 𝐻0 одбацујемо
б) |𝜏| < 𝑧0 хипотезу о 𝐻0 не одбацујемо.

26. Тестирање хипотеза о коефицијенту корелације


– Користе се статистике:
1
1. Средина узорка за Х: 𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑋𝑖
1
2. Средина узорка за Y: 𝑦̅ = 𝑛 ∑𝑛𝑖=1 𝑌𝑖
1
3. Варијанса узорка за X: 𝑆𝑥2 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑥̅ )2
1
4. Варијанса узорка за Y: 𝑆𝑦2 = 𝑛 ∑𝑛𝑖=1(𝑌𝑖 − 𝑦̅)2
1
5. Коваријанса узорака: 𝑆𝑥𝑦 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑥̅ ) ∙ (𝑌𝑖 − 𝑦̅)
𝑆𝑥𝑦
6. Коефицијент корелације узорака: 𝑟 = 𝑆
𝑥 ∙𝑆𝑦
– Најчешће се испитује претпоставка о независности обележја Х и Y, а када је узорак
из Нормалне расподеле, та претпоставка је еквивалентна претпоставци 𝐻0 (𝜌 = 0)
тј. претпоставци да Х и Y нису колинеарне случајне променљиве.
𝑟
– Ако је хипотеза 𝐻0 тачна, онда статистика 𝜏 = √1−𝑟 2 √𝑛 − 2 има Студентову
расподелу са (𝑛 − 2) степени слободе.
– Најчешће је алтенативна хипотеза 𝐻1 (𝜌 ≠ 0), па је критична вредност t0 она
𝛼
вредност која испуњава услов 𝑃{|𝜏𝑛−2 | > 𝑡0 } = 𝛼, тј. 𝑆𝑛−2 (𝑡0 ) = 1 − 2 .
– Пошто статистика τ има Студентову расподелу, онда је вероватноћа
𝑃{|𝜏| > 𝑡0 |𝜌 = 0} = 𝛼
– Ако је:
a) |𝜏| > 𝑡0 хипотезу о 𝐻0 одбацујемо
б) |𝜏| < 𝑡0 хипотезу о 𝐻0 не одбацујемо.

25
27. Модели једнофакторске анализе варијансе
− Посматрамо фактор који има две или више категорија, које називамо третмани.
− Елементи статистичког скупа подељени су у групе, при чему прву гупу чине
елементи на које је деловао први третман фактора, другу групу они на које је деловао
други третман, итд.
− Код сваке групе се мери вредност обележја Y, ако фактор нема утицаја на Y, онда ће
свака група имати карактеристике посматраног обележја, а ако фактор има утицаја
онда ће карактеристике бити различит.
− Као карактеристике обележја Y посматрамо вероватноћу и варијансу.
− k је број третмана посматраног фактора, елементи узорка су подељени у k група,
према третману фактора коме су изложени.
− Елементи се у узорку означавају са Yij, где се први индекс односи на третман.
− Општи линеарни модел је модел са следећим претпоставкама:
1. Линеарност
- m је просечна вредност обележја Y на популацији, па посматрано обележје има
вредност: 𝑌 = 𝑚 + 𝜀 , где је ε случајна променљива.
- Нека су m1, m2,..., mk вредности обележја Y1, Y2,..., Yk по групама.
- Taда су : 𝜏1 = 𝑚1 − 𝑚, 𝜏2 = 𝑚2 − 𝑚, … , 𝜏𝑘 = 𝑚𝑘 − 𝑚 ефекти појединих
третмана фактора, који представљају разлике просечних вредности група и
заједничке просечне вредности.
2. Варијбилитет
- Варијанса обележја Y на целом статистичком скупу је: 𝑉𝑎𝑟(𝑌) = 𝜎 2 .
- Претпоставимо да је варијанса појединих група иста као и варијанса целог
статистичког скупа, тј. 𝑉𝑎𝑟(𝑌1 ) = 𝑉𝑎𝑟(𝑌2 ) = ⋯ = 𝑉𝑎𝑟(𝑌𝑘 ) = 𝜎 2 .
- Ово је претпоставка о хомогености статистичког скупа у односу на посматрано
обележје.
3. Расподела
- ε је случајна променљива која представља ефекте немерљивих фактора, ова
променљива има одређену расподелу.
- Претпоставићемо да има Нормалну расподелу, тј. 𝜀𝑖 : 𝑁(0; 𝜎 2 ).
- Утицај фактора меримо ефектима третмана, при чему ако фактор нема утицаја,
ефекти третмана су једнаки нули.
- Поставља се хипотеза 𝐻0 : (𝜏1 = 𝜏2 = ⋯ = 𝜏𝑘 = 0), што је претпоставка да
фактор нема значајног утицаја на посматрано обележје.
- Алтернативна хипотеза подразумва да постоји разлика у деловању једног
третмана фактора, тј. да је бар једна од вредности 𝜏1 , 𝜏2 , … , 𝜏𝑘 различита од 0.
- Модел мери разлике у обележју Y преко разлика математичких очекивања
група.
- Одлука о прихватању или одбацивању хипотезе H0 зависи од вредности
статистике у оквиру које се појављује укупан варијабилитет, као збир квадрата
одступања вредности обележја од просека, а који се може поделити на између
и унутар група:

26
Извор Збир квадрата Степени Средње квадратно
F-количник
варијације одступања слободе одступање
Третмани 𝑘
𝑇𝑖2
(између 𝑇𝑖2 = ∑ 𝑛𝑖 (𝑦̅𝑖 − 𝑦̅)2 k-1 𝑆𝑖2 =
узорака) 𝑖=1 𝑘−1
Резидуали 𝑘 𝑛𝑗
𝑛 − 𝑘 𝑇𝑖2
2 𝑇𝑢2
(унутар 𝑇𝑢2 = ∑ {∑[𝑦̅𝑖ј − 𝑦̅] } n-k 𝑆𝑢2 = 𝐹=
узорака) 𝑖=1 𝑗=1 𝑛−𝑘 𝑘 − 1 𝑇𝑢2
𝑘 𝑛𝑗
2 𝑇2
Тотал 𝑇 2 = ∑ {∑[𝑌𝑖𝑗 − 𝑦̅] } n-1 𝑆2 =
𝑖=1 𝑗=1 𝑛−1

𝑛−𝑘 𝑇𝑖2
− Статистика 𝐹 = има F-расподелу са (k – 1), (n – k) степени слободе.
𝑘−1 𝑇𝑢2
− Ако је:
a) F > F0, хипотезу о значајном утицају фактора прихватамо, тј. одбацујемо хипотезу
H0
б) F < F0, хипотезу о значајном утицају фактора одбацујемо, тј. прихватамо хипотезу
H0
28. Модели двофакторске анализе варијансе
− Посматрају се два фактора и њихов утицај на обележје у статистичком скупу.
− Нека је F1 први фактор који има k различитих третмана, а F2 други третман који има
q третмана.
− Линеарни модел је следећег облика:
a) Код елемента статистичког скупа на који делује i-ти третман првог и j-ти третман
другог фактора, измерена је вредност обележја Y једнака:
𝑌 = 𝑚 + 𝛼𝑖 + 𝛽𝑗 + 𝜀𝑖𝑗 , 𝑖 = 1, … , 𝑘; 𝑗 = 1, … , 𝑞, при чему је m просечна вредност на
целој популацији, 𝛼𝑖 су ефекти третмана фактора F1, а 𝛽𝑗 ефекти третмана F2.
б) Претпоставимо да су 𝜀𝑖𝑗 независне случајне променљиве са Нормалном
расподелом 𝜀𝑖𝑗 : 𝑁(0; 𝜎 2 ).
− Посматрамо вредности обележја Y на 𝑛 = 𝑘 ∙ 𝑞 елемената узорка, што се може
представити дводимензионалном табелом следећег облика:
Фактор F2
Тотал
Третман Третман 1 Третман 2 ... Третман q
𝑞

Tретман 1 𝑦11 𝑦12 ... 𝑦1𝑞 ∑ 𝑦1𝑗


Ф 𝑗=1
𝑞
а
к Третман 2 𝑦21 𝑦22 ... 𝑦2𝑞 ∑ 𝑦2𝑗
т 𝑗=1
о ... ... ... ... ... ...
р 𝑞

Третман k 𝑦𝑘1 𝑦𝑘2 ... 𝑦𝑘𝑞 ∑ 𝑦𝑘𝑗


F1 𝑗=1
𝑘 𝑘 𝑘 𝑘 𝑞

Тотал ∑ 𝑦𝑖1 ∑ 𝑦𝑖2 ∑ 𝑦𝑖𝑘 ∑ ∑ 𝑦𝑖𝑗


𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑗=1

27
− Параметри модела су m, 𝛼1 , 𝛼2 , … , 𝛼𝑘 ; 𝛽1 , 𝛽2 , … , 𝛽𝑞 и 𝜎 2 .
− Користи се метод најмањих квадрата.
− Оцене параметара су:
1
- за m: 𝑦̅ = ∑𝑘𝑖=1 ∑𝑞𝑗=1 𝑌𝑖𝑗 , где је 𝑦̅ просечна вредност целог узорка;
𝑘𝑞
- за α: 𝛼1 = 𝑦̅1∙ − 𝑦̅, 𝛼2 = 𝑦̅2∙ − 𝑦̅, … , 𝛼𝑘 = 𝑦̅𝑘∙ − 𝑦̅, где су 𝑦̅1∙ , … , 𝑦̅𝑘∙ просечне
вредности третмана првог фактора;
- за β: 𝛽1 = 𝑦̅∙1 − 𝑦̅, 𝛽2 = 𝑦̅∙2 − 𝑦̅, … , 𝛽𝑞 = 𝑦̅∙𝑞 − 𝑦̅, где су 𝑦̅∙1 , … , 𝑦̅∙𝑞 просечне
вреднсоти третмана другог фактора.
2
- за 𝜎 2 : 𝑇𝑅2 = ∑𝑘𝑖=1 ∑𝑞𝑗=1[𝑌𝑖𝑗 − 𝑦̅ − 𝑎𝑖 − 𝑏𝑗 ] , тј. резидуални збир квадрата одступања.
− Резидуални збир квадрата одступања је једнак:
2 2
𝑇𝑅2 = ∑𝑘𝑖=1 ∑𝑞𝑗=1(𝑌𝑖𝑗 − 𝑦̅) − 𝑞 ∑𝑘𝑖=1(𝑦̅𝑖∙ − 𝑦̅)2 − 𝑘 ∑𝑞𝑗=1(𝑦̅∙𝑗 − 𝑦̅) .
− Уводимо следеће ознаке:
- 𝑇12 = 𝑞 ∑𝑘𝑖=1(𝑦̅𝑖∙ − 𝑦̅)2 – збир квадрата одступања имеђу третмана I фактора
2
- 𝑇22 = 𝑘 ∑𝑞𝑗=1(𝑦̅∙𝑗 − 𝑦̅) - збир квадрата одступања између третмана II фактора
2
- 𝑇 2 = ∑𝑘𝑖=1 ∑𝑞𝑗=1(𝑌𝑖𝑗 − 𝑦̅) - тотални збир квадрата одступања
=> 𝑇 2 = 𝑇12 + 𝑇22 + 𝑇𝑅2
− За тестирање хипотезе H01(𝛼1 = 𝛼2 = ⋯ = 𝛼𝑘 = 0), тј. хипотезе да први фактор не
(𝑘−1)(𝑞−1) 𝑇12
утиче на обележје Y, користи се статистика 𝐹1 = ∙ 𝑇 2 која има F-расподелу
𝑘−1 𝑅
са (k – 1) и (k – 1)(q – 1) степени слободе.
− За тестирање хипотезе H02(𝛽1 = 𝛽2 = ⋯ = 𝛽𝑞 = 0), тј. хипотезе да други фактор не
(𝑘−1)(𝑞−1) 𝑇22
утиче на обележје Y, користи се статистика 𝐹2 = ∙ 𝑇 2 која има F-расподелу
𝑞−1 𝑅
са (q – 1) и (k – 1)(q – 1) степени слободе.
− Поређењем добијених вредности статистика F1 и F2 из узорка, са критичним
вредностима F01 и F02 добијеним из F-расподеле, доносимо одлуку о прихватању или
одбацивању хипотеза H01 и H02.
29. Непараметарски тестови
− Базирани су на моделима који не укључују предуслове везане за параметре
популације из које узорак потиче.
− Претпоставке карактеристичне за непараметарске тестове су најчешће слабије од
оних код параметарских тестова.
− Могу се користити и закључивања везана за квалитативна обележја.
− Предности:
1. Искази о вероватноћи добијени из већине непараметарских тестова су тачне
вероватноће, осим у случајевима великих узорака
2. Ако је величина узорка мала (n < 30), или ако је n > 30 и користимо ЦГТ, а
расподела на популацији није позната, коришћење непараметарских тестова нема
алтернативу
3. Постоји више непараметарских тестова за узорке добијене из посматрања
различитих популација
4. Погодни су за податке који су по својој природи рангирани
5. Могу се применити и у анализи квалитативних обележја
6. Лакши су за учење и примену од параметарских
− Ако су све претпоставке параметарког модела испуњене у подацима, онда примена
непараметарског теста доводи до губитка информација и лошијих резултата.

28
− Степен губитка је изражен преко моћи (ефикасности) непараметарског теста, нпр.
ако је моћ непараметарског теста 90% значи да тамо где су испуњени услови
примене параметарског теста би тај пратаметарски тест био подједнако ефикасан
као непараметарски, али са 10% мањим узорком.
− t – тест се односи на тестирање хипотезе о очекиваној вредности популације у
случају када је непозната и варијанса, при чему статистика има Студентову
расподелу, ако узорак потиче из популације са Нормалном расподелом.
− Предности примене непараметарских тестова кроз примере везане за t – тест:
1. Предпоставке и захтеви t – теста су нереални за податке који се анализирају
2. Повољније је избећи увођење предпоставки t – теста и на тај начин добити
генералнији закључак
3. Подаци истаживања су, по природи, рангирани и непогодни за аналзу t – тестом
4. Подаци су квалитативни и непогодни за примену t – теста
5. У истраживању је циљ општије испитивање и закључивање о расподели обележја
на популацији које се не односе само на поједине параметре, већ на комплетну
расподелу обележја.
− У овим и сличним случајевима користе се непатаметарски тестови за један узорак
(тест корака).
− Могу се разликовати случајеви када су групе међусобно зависне или независне.
− У случају тестова за две независне групе, тј. независна узорка, независност се
обезбеђује на 2 начина:
1. Узорци су случајно извучени из 2 популације
2. Узорци су добијени тако што се елементи случајног узорка излажу утицајима
једног од два различита третмана, на случајан начин.
− Најчешће коришћени непараметарски тестови су базирани на статистикама које
имају Хи-квадрат расподелу, тзв. Хи – квадрат тестови, а поред њих користе се и
Колмогоров – Смирнов тест, тест корака за један или два узорка, Ман – Витни тест.
30. Хи-квадрат тест
− Врсте Хи-квадрат тестова: сагласности, подобности модела, категоризованих
података и независности.
− Ови тестови се базирају на разликама између измерених и очекиваних фреквенција,
на основу одговарајућег тврђења, формулисаних у оквиру нулте хипотезе.
− Проверава се да ли су разлике мале и настају само као последица стохастичке
природе појаве која се истражује (нулта хипотеза) или су веће и узрокују нарушеност
те претпоставке.
− Мерра која омогућава статистичко тестирање базирана је на Хи-квадрат распподели
(𝑓𝑜 −𝑓𝑒 )2
и дефинисана са: 𝜒 2 = ∑ , где су fo добијене, а fe очекиване фреквенције.
𝑓𝑒
− Вредност статистике ће бити 0 само уколико су вредности добијене и очекиване
статистике једнаке.
− Ако је вредност статистике већа од критичне за дати ниво значајности, нулта
хипотеза се мора одбацити, и закључити да су уочене разлике статистички значајне.
31. Тест сагласности
− Циљ: на основу n података о вредности статистичког обележја добијених на узорку
закључити да ли се обележје на популацији може посматрати као случајна
променљива која има дату расподелу на узорку.

29
− Нека је H0 хипотеза да су подаци о n вредности у узоркуу генерисани случајном
променљивом са потпуно одређеном расподелом P(S) преко које можемо одредити
вероватноћу било ког скупа S.
− Ако је H0 тачна, расподела узорка се може посматрати као статистичка слика
произашла из одређене расподеле са P(S).
− Идеја: скуп могућих вредности променљиве се подели на коначан број k подскупова
и посматра се разлика између очекиваних фреквенција из расподеле P(S) и
реализованих у узорку, па се на основу њих формира χ2 статистика.
− Нека су S1, S2,…, Sk подскупови који су међусобни дисјунктни и прекривају скуп
могућих вредности посматране променљиве и нека су p1,p2,…, pk одговарајуће
вероватноће, тј. 𝑝𝑖 = 𝑃(𝑆𝑖 ), 𝑖 = 1,2, … , 𝑘.
− Кад је H0 тачна, статистике m1,m2,…, mk имају Биномне расподеле, 𝑚𝑖 : 𝐵(𝑛; 𝑝𝑖 ), са
очекиваним вредностима 𝐸(𝑚𝑖 ) = 𝑛𝑝𝑖 .
− Посматра се разлика између реализованих вредности статистика m1,m2,…, mk и
њихових очекиваних вредности np1, np2,…, npk и добија се статистика
(𝑚𝑖 −𝑛𝑝𝑖 )2
𝜒 2 = ∑𝑘𝑖=1 .
𝑛𝑝𝑖
− Када величина узорка расте, расподела статистике χ2 тежи Хи-квадрат расподели са
(k -1) степени слободе, потпуно незавсно од облика расподеле популације.
− Поступак примене Хи-квадрат теста као теста сагласности:
1. Нулта хипотеза: H0: Х има дату расподелу P(S).
Алтернативна хипотеза: H1: Х нема дату расподелу P(S).
2. Из P(S) одређујемо p1,p2,…, pk из узорка m1,m2,…, mk.
3. Одређујемо вредност статистике χ2.
4. Утврђујемо критичну област из Хи-квадрат расподеле, одређујући χ0 тако да је
2
𝑃{𝜒𝑘−1 > 𝜒0 } = 𝛼
5. Доносимо одлуку:
a) χ2 > χ0 одбацујемо H0
b) χ2 < χ0 не одбацујемо H0
32. Тест подобности
− У случају када статистичка расподела садржи известан број непознатих параметара.
− Нулта хипотеза H0 је да је узорак изабран из популације одређене расподелом
𝑃(𝑆; 𝜃1 , … , 𝜃𝑙 ) за неке вредности параметара 𝜃1 , … , 𝜃𝑙 .
− Поделом могућих вредности променљиве Х на дисјунктне подскупове S1, S2,…, Sk
добијамо из узорка статистике m1,m2,…, mk са очекиванм вредностима
𝐸(𝑚𝑖 ) = 𝑛𝑝𝑖 (𝜃1 , … , 𝜃𝑙 ), при чему вероватноће pi зависе од вредности непознатих
параметара.
[𝑚𝑖 −𝑛𝑝𝑖 (𝜃1 ,…,𝜃𝑙 )]2
− 𝜒 2 = ∑𝑘𝑖=1 , расподела ове статистике је непозната јер су 𝜃1 , … , 𝜃𝑙
𝑛𝑝𝑖 (𝜃1 ,…,𝜃𝑙 )
непознати.

− Фишер је доказао да расподела ове статистике тежи Хи-квадрат расподели са


коригованим бројем степени слободе, умањеним за број оцењених параметара, па се
[𝑚 −𝑛𝑝̂ ]2
тако добија статистика 𝜒 2 = ∑𝑘𝑖=1 𝑖𝑛𝑝̂ 𝑖 , при чему је 𝑝̂ оцењена вероватноћа
𝑖
добијена из 𝑃(𝑆; 𝜃̂1 , … , 𝜃̂𝑙 ), која има приближно Хи-квадрат расподелу са (k - l - 1)
степени слободе.

30
33. Табеле контигенције
− Хи-квадрат тест се може користити и за решавање проблема зависности две случајне
променљиве, тј. два обележја.
− На елементима статистичког скупа посматрају се два обележја, X и Y.
− Нека су x1, x2,..., xr категорије обележја X,а y1, y2,..., ys категорије обележја Y.
− Њихова независност се проверава преко одговарајуће дводимензионалне расподеле
популације, па када су заједничке расподеле једнаке производу маргиналних
расподела, тј. када важи 𝑝𝑖𝑗 = 𝑝𝑖∙ ∙ 𝑝∙𝑗 ; 𝑖 = 1, … , 𝑟; 𝑗 = 1, … , 𝑠 , обележја X и Y су
независна.
− У пракси је дводимензионална расподела непозната, па је потребно на основу узорка
(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑟 , 𝑦𝑠 ) испитати независност, а то се ради преко табела
контигенције и Хи-квадрат теста независности.
− Нека је 𝑚𝑖𝑗 број елемената код којих обележје Х има i-ту категорију, а обележје Y j-
ту, тада се подаци за цео узорак дају у табели:
X/Y y1 y2 … ys 𝑚𝑖∙
x1 m11 m12 … m1s 𝑚1∙
x2 m21 m22 … m2s 𝑚2∙
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
xr mr1 mr2 … mrs 𝑚𝑟∙
𝑚∙𝑗 𝑚∙1 𝑚∙2 … 𝑚∙𝑠 n
− Желимо да потврдимо нулту хипотезу: H0 : 𝑝𝑖𝑗 = 𝑝𝑖∙ ∙ 𝑝∙𝑗 ; 𝑖 = 1, … , 𝑟; 𝑗 = 1, … , 𝑠, која
је еквивалентна хипотези да су обележја X и Y независна.
𝑚 𝑚 𝑚
− Статистике 𝑛𝑖𝑗 ; 𝑛𝑖∙ ; 𝑛∙𝑗 су оцене непознатих вредности : 𝑝𝑖𝑗 , 𝑝𝑖∙ , 𝑝∙𝑗 .
− Када је H0 тачна, очекиване вредности статистика у табели контигенције су:
𝑚 𝑚
𝐸(𝑚𝑖𝑗 ) = 𝑛𝑝𝑖𝑗 = 𝑛𝑝𝑖∙ 𝑝∙𝑗 , тј. 𝐸(𝑚𝑖𝑗 ) = 𝑖∙𝑛 ∙𝑗.
− Статистика формирана од разлика имеђу утврђених и очекиваних фреквенција биће:
𝑚𝑖∙ 𝑚∙𝑗 2 𝑚𝑖∙ 𝑚∙𝑗 2
(𝑚𝑖𝑗 − ) (𝑚𝑖𝑗 − )
𝜏 = ∑𝑟𝑖=1 ∑𝑠𝑗=1 𝑛
𝑚𝑖∙ 𝑚∙𝑗 = 𝑛 ∑𝑟𝑖=1 ∑𝑠𝑗=1 𝑛
, ова статистика има приближно
𝑚𝑖∙ 𝑚∙𝑗
𝑛
Хи-квадрат расподелу са (r -1)(s – 1) степени слободе.
− Одлуку оприхватању или одбацивању хипотезе доносимо поређењем израчунате
вредности статистике са критичном вредношћу χ0, и ако је:
a) τ > χ0 хипотезу H0 одбацујемо;
b) τ < χ0 хипотезу H0 не одбацујемо.

34. Тест корака за један узорак


− Ако се доноси закључак о популацији, коришћењем информација које су садржане
у узорку из те популације, узорак који се користи мора бити случајан.
− Овај тест има за циљ да покаже да ли је узорак случајан или није.
− Сваком елементу узорка се придружује један од два симбола, нпр. + или -, 1 или 0...
− Корак – непрекидан низ идентичних симбола, који следе или претходе низу
различитих симбола.

31
− Укупан број корака у узорку указује да ли је узорак случајан или није.
− Када је број корака у узорку „много мали“ или „много велики“ постоји сумња да ли
је узорак случајан.
− Суштина теста корака је дефинисање правила за број корака који се може сматрати
последицом случајне променљиве.
− Нека је n1 број елемената једне врсте и n2 број елемената друге врсте, тада је
укупан број елемената n = n1 + n2.
− Треба одредити вредност статистике K, тј. број корака, параметри ове статистике
2𝑛1 𝑛2 2𝑛1 𝑛2 (2𝑛1 𝑛2 −𝑛1 −𝑛2 )
су: 𝐸(𝐾) = 𝑛 + 1 и 𝑉𝑎𝑟(𝐾) = (𝑛1 +𝑛2 )2 (𝑛1 +𝑛2 −1)
.
1 +𝑛2
− За велике узорке (n1, n2 > 10) је могуће користити апроксимацију расподеле
статистике K Нормалном расподелом.
𝐾−𝐸(𝐾)
− Статистика 𝜏 = има стандардизовану нормалну расподелу N(0;1).
√𝑉𝑎𝑟(𝐾)
− Тест случајности узорка:
- У случају када посматрамо узорак х1, х2, ..., хn, из било какве популације на којој
се посматра квантитативно обележје.
- Прво треба одредити медијану узорка, тако што од вредности узорка формирамо
неопадајући (варијациони) низ, а за медијану (𝑥̃) узимамо вредност

𝑋𝑛+1 , 𝑛 − непарно
2
𝑀𝑒 = {1 ′
(𝑋𝑛 + 𝑋𝑛′ +1 ) , 𝑛 − парно
2 2 2
- Затим се додељују симболи за кораке по редоследу из узорка у зависности од
тога да ли је елемент мањи (1) или већи (0) од медијане.
- Хипотеза H0: узорак х1, х2, ..., хn је случајан.
- Ако је нулта хипотеза тачна онда је за сваки елемент вероватноћа да ће бити
већи од медијане једнака вероватноћи да ће бити мањи, тј.
𝑝 = 𝑃{𝑋𝑖 < 𝑥̃} = 𝑃{𝑋𝑖 > 𝑥̃} = 0.5.
2𝐾−(𝑛+2)
- Статистика 𝜏 = √𝑛 − 1 има приближно стандардизовану Нормалну
√𝑛(𝑛−2)
расподелу.
- Могуће алтернативне хипотезе су:
1. H1: „Случајност у узорку нарушена је због монотоности очекиване вредности
у популацији“
- вредност Х се при узимању узорка мењала монотоно (расла или опадала)
па ће и број корака бити мали
- левострана критична област
2. H1: „Случајност у узорку нарушена је због периодичних промена очекиване
вредности у популацији“
- вредност Х је периодично расла па опадала, па ће број корака бити векики
- деснострана критична област
3. H1: „Узорак није случајан“
- Обострана критична област

32
35. Тест корака за два узорка
− Wаld – Wolfowitz тест корака
− Користи се када желимо да тестирамо да ли су два независна узорка извучена из
исте популације.
− Нека је n1 величина првог узорка, а n2 величина другог узорка.
− Врши се рангирање (сортирање) у неопадајућем редоследу, при чему се води
рачуна о томе који елемент је из ког узорка
− Корак представља низ узастопних елемената из једног узорка који претходи или
следи низ елемената из другог узорка
− Почиње се од узорка који има најмањи податак, а уколико оба узорка имају исти
најмањи податак бира се из узорка са мањим обимом.
− Нулта хипотеза H0: „Узорци су из исте популације“.
Алтернативна хипотеза H1: „Узорци нису из исте популације“. – левострана к.о.
𝐾−𝐸(𝐾)
− Статистика 𝜏 = има стандардизовану нормалну расподелу N(0;1), при чему
√𝑉𝑎𝑟(𝐾)
2𝑛1 𝑛2 2𝑛1 𝑛2 (2𝑛1 𝑛2 −𝑛1 −𝑛2 )
су 𝐸(𝐾) = 𝑛 + 1 и 𝑉𝑎𝑟(𝐾) = (𝑛1 +𝑛2 )2 (𝑛1 +𝑛2 −1)
.
1 +𝑛2
− Критичне вредности за хипотезу H0 одређујемо из функције Нормалне расподеле,
за дати ниво значајности и у складу са алтернативном хипотезом.
36. Mann-Whitney тест
− Може се користити за тестирање да ли су два независна узорка извучена из исте
популације.
− Може се применити у тестирању квантитативних обележја, али и обележја чије је
модалитете могуће рагнирати.
− Један од најмоћнијих непараметарских тестова.
− Претпоставимо да имамо узорке из две популације, и нека су елемети из прве
популације означени са Х, а из друге популације са Y.
− Нулта хипотеза је да обе популације имају исту расподелу, тј.
H0: Fy (z) = Fx (z) за свако z.
− Када је H0 тачно, онда је 𝑝 = 𝑃{𝑋 > 𝑌} = 𝑃{𝑋 < 𝑌} = 0.5, па се нулта хипотеза може
изразити и као H0 : p = 0.5.
− Алтернативна хипотеза може бити формулисана на различите начине:
1. H1 : Расподела прве популације је стохастички већа од расподеле друге
популације, тј H1 : p =P(X > Y) > 0.5 – деснострана критична област
2. H1 : Расподела друге популације је стохастички већа од расподеле прве
популације, тј H1 : p =P(X < Y) > 0.5 – левострана критична област
3. H1 : p =P(X > Y) ≠ 0.5 – обострана критична област
− Нека је m број елемената у узорку Х, а n број елемената у узорку Y.
− Да би се применио U тест треба прво елементе оба узорка уредити у заједнички
растући низ, при чему је потребно сачувати информацију из ког узорка елемент
потиче.
− У следећем кораку се посматра n елемената узорка Y и одређује вредност статистике
UY, која представља број понављања елемената Х испред елемената узорка Y у
заједничком низу, а на сличан начин се одређује и Ux.
− Статистика U теста је мањи од бројева Ux и UY : 𝑈 = min(𝑈𝑥 , 𝑈𝑦 ).

33
− Добијена вредност статистике се пореди са критичном облашћу за алтернативну
хипотезу и дати ниво значајности.
37. Teст Kolmogorov-Smirnov за 1 узорак
− Спада у категорију тестова сагласности.
− Заснива се на утврђивању степена сагласности имеђу расподеле вредности из узорка
(добијени резултати и неке одређене теоријске расподеле).
− Хипотеза H0 је да обележје на популацији из које је узет дат узорак има дату
„теоријску“ расподелу.
− Тест укључује одређивање кумулативне расподеле фреквенција која би се појавила
под претпостављеном теоријском расподелом и поређење те расподеле са
добијеном, тј. измереном-узрокованом, кумулативном расподелом фреквенција.
− Нека је F0(x) потпуно одређена функција расподеле, када је хипотеза H0 тачна,
− F0(x) представља вероватноћу да обележје, у случају да подлеже претпостављеној
расподели, нема вероватноћу већу од реалног броја х, тј. за било коју вредност х
вредност F0(x) је пропорција случајева код којих се очекује да имају вредност која је
једнака или мања од х, када је хипотеза H0 тачна.
𝑘
− 𝑆𝑛 (𝑥) = , где је k број опсервација из узорка које су мање или једнаке х, представља
𝑛
измерену функцију расподеле из случајног узорка са n опсервација, представља
вредности релативних кумулативних фреквенција, често се назива и емпиријска
функција расподеле.
− Када је H0 тачна очекује се да за сваку вредност х, 𝑆𝑛 (𝑥) треба да буде врло блиска
F0(x), тј. очекујемо да разлика између , 𝑆𝑛 (𝑥) и F0(x) буде мала и креће се у границама
случајних грешака.
− Колмогоров – Смирнов тест се фокусира на највећу девијацију.
− Највећа вредност |𝐹0 (𝑥) − 𝑆𝑛 (𝑥)| је максимална девијација D, која представља
статистику теста: 𝐷 = 𝑚𝑎𝑥|𝐹0 (𝑥) − 𝑆𝑛 (𝑥)|.
− Расподела статистике D је позната, а критичне вреднсоти за D се могу пронаћи у
табелама критичних вредности за Колмогоров – Смирнов тест за један узорак.
38. Teст Kolmogorov-Smirnov за 2 узорка
− Да ли два независна узорка потичу из исте поулације (или из популације са истом
расподелом)?
− Осетљив је на било коју разлику у расподелама.
− Односи се на слагање између кумулативних расподела.
− Нулта хипотеза H0: Оба узорка су из исте популације.
− Ако су два узорка извучена из исте популацијске расподеле, може се очекивати да
ће кумулативне расподеле оба узорка бити прилично блиске и обе ће показати само
случајну девијацију од расподеле популације.
− Ако су кумулативне расподеле два узорка много „раздвојене“ у некој тачки, може се
сматрати да су узорци из различитих популација, па је бог тога девијација између
кумулативних фреквенција већа од критичне вредности теста за ниво значајности =>
одбацивање хипотезе H0.
− Нека је 𝑆𝑛1 (𝑥) кумулативна расподела фреквенција за први узорак, обима n1, а 𝑆𝑛2 (𝑥)
кумулативна расподела фреквенција за други узорак, обима n2.

34
𝑘
− Тада је 𝑆𝑛1 (𝑥) = 𝑛1 , при чему је k1 број елемената првог узорка који нису већи од х,
1
𝑘2
а 𝑆𝑛2 (𝑥) = 𝑛 , при чему је k2 број елемената другог узорка који нису већи од х.
2
− Колмогоров – Смирнов статистика је: 𝐷 = 𝑚𝑎𝑥|𝑆𝑛1 (𝑥) − 𝑆𝑛2 (𝑥)|.
− Уколико се овај тест користи на подацима за које унапред није одређен број
интервала треба користити што је могуће више интервала.
− За вредности n1 и n2 мање од 40, за одлучивање о прихватању или одбацивању нулте
хипотезе на одређеном нивоу значајности, критичне вредности се могу наћи у
одговарајућим табелама расподеле статистике за Колмогоров – Смирнов тест за два
узорка.
39. Проста линеарна регресија на основу узорка
− Прост линеарни регресиони модел је модел са две променљиве, од којих је једна
зависна и једна контролисана (објашњавајућа) променљива.
− Један од корака у линеарно регресионом моделу је конструисање дијаграма
зависности, који конструишемо тако што на X осу наносимо вредности независне
променљиве, а на Y осу наносимо вредности зависне променљиве, он нам даје
информације о:
- Типу везе – да ли је детерминистичка или стохастичка
- Да ли је линеарна или криволинијска
- Правцу зависности – да ли се обе променљиве мењају у истом смеру
- Јачини зависности

− Претпоставке модела су:


- Нека је Y зависна (случајна променљива), а Х контролисана променљива,
линеарни статистички модел ће имати облик 𝑌𝑖 = 𝛼𝑋𝑖 + 𝛽 + 𝜀𝑖 , 𝑖 = 1, … , 𝑛.
- Нека је за свако I = 1,2, … , n 𝐸(𝜀𝑖 ) = 0, 𝑉𝑎𝑟(𝜀𝑖 ) = 𝜎 2 и нека су 𝜀1 , 𝜀2 , … , 𝜀𝑛
међусобно независне случајне променљиве.
- Измерене вредности у узорку су (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ), … , (𝑋𝑛 , 𝑌𝑛 ) и представљају тачан
број тачака у XOY равни:

35
- Очекивану вредност случајне променљиве Y, под условом да је Х = х, представља
права: 𝐸(𝑌/𝑥) = 𝛼𝑥 + 𝛽, коефицијенти 𝛼 и 𝛽 су непознати, а 𝛽 представља
одсечак на Y оси, а коефицијент правца 𝛼 представља просечну промену обележја
Y када се вредност контролисане променљиве Х повећа за једну своју јединицу.
- Непознате параметре оцењујемо са 𝛼̂ и 𝛽̂ и добити оцењени модел: 𝑌̂ = 𝛼̂𝑋𝑖 + 𝛽̂ .
40. Оцена параметара линеарне регресије методом најмањих квадрата
− Треба оценити α и β, тј. пронаћи 𝛼̂ и 𝛽̂ .
− Параметре оцењујемо применом методе најмањих квадрата тако да одступања
између вредности Yi, измерених у узорку, и 𝑌̂𝑖 , израчунатих за вредности 𝑥 = 𝑋𝑖 ,
буду што мања.
− Метода минимизира квадрате одступања и то је функција
2 2
𝐹(𝛼̂, 𝛽̂ ) = ∑𝑛𝑖=1[𝑌𝑖 − 𝑌̂𝑖 ] = ∑𝑛𝑖=1[𝑌𝑖 − (𝛼̂𝑋𝑖 + 𝛽̂ )] = ∑𝑛𝑖=1[𝑌𝑖 − 𝛼̂𝑋𝑖 − 𝛽̂ ] =
∑𝑛𝑖=1[𝑌𝑖 2 − 𝛼̂ 2 𝑋𝑖2 + 𝛽̂ 2 − 2𝑌𝑖 𝛼̂𝑋𝑖 − 2𝑌𝑖 𝛽̂ + 2𝛼̂𝛽̂ 𝑋𝑖 ] =
∑𝑛𝑖=1 𝑌𝑖2 + 𝛼̂ 2 ∑𝑛𝑖=1 𝑋𝑖2 + 𝑛𝛽̂ 2 − 2𝛼̂ ∑ 𝑋𝑖 𝑌𝑖 − 2𝛽̂ ∑ 𝑌𝑖 + 2𝛼̂𝛽̂ ∑ 𝑋𝑖
− Тражи се извод по 𝛼̂ и изједначава са 0:
0 + 2𝛼̂ ∑ 𝑋𝑖2 + 0 − 2 ∑ 𝑋𝑖 𝑌𝑖 + 2𝛽̂ ∑ 𝑋𝑖 = 0 /:2
𝛼̂ ∑ 𝑋𝑖2 + 𝛽̂ ∑ 𝑋𝑖 = ∑ 𝑋𝑖 𝑌𝑖
− Тражи се извод по 𝛽̂ и изједначава са 0:
0 + 0 + 2𝑛𝛽̂ − 0 − 2 ∑ 𝑌𝑖 + 2𝛼̂ ∑ 𝑋𝑖 = 0 /:2
𝛼̂ ∑ 𝑋𝑖 + 𝑛𝛽̂ = ∑ 𝑌𝑖
𝛼̂ ∑ 𝑋𝑖2 + 𝛽̂ ∑ 𝑋𝑖 = ∑ 𝑋𝑖 𝑌𝑖
− Систем нормалних једначина: {
𝛼̂ ∑ 𝑋𝑖 + 𝑛𝛽̂ = ∑ 𝑌𝑖
− Детерминанта система:
∑𝑛𝑖=1 𝑋𝑖2 ∑𝑛𝑖=1 𝑋𝑖 1 ∑𝑋 2
𝐷=| 𝑛 | = 𝑛 ∑ 𝑋𝑖2 − (∑ 𝑋𝑖 )2 = 𝑛2 {𝑛 ∑𝑛𝑖=1 𝑋𝑖2 − ( 𝑛 𝑖 ) } =
∑𝑖=1 𝑋𝑖 𝑛
1
𝑛2 {𝑛 ∑ 𝑋𝑖2 − 𝑥̅ 2 } => 𝐷 = 𝑛2 𝑆𝑥2, при чему је 𝑆𝑥2 варијанса контролисане
променљиве Х.
− Како је D > 0 систем нормалних једначина има јединствено решење и чине га оцене
1
∑ 𝑋𝑌−𝑥̅ 𝑦̅
најмањих квадрата: 𝛼̂ = 𝑛 и 𝛽̂ = 𝑦̅ − 𝛼̂𝑥̅ .
𝑆𝑥2
− Oсобине оцена (𝛼̂ , 𝛽̂ ) најмањих квадрата: 𝑌𝑖 = 𝛼𝑋𝑖 + 𝛽 + 𝜀, 𝐸(𝑌𝑖 ) = 𝛼𝑋𝑖 + 𝛽 и
𝑉𝑎𝑟(𝑌𝑖 ) = 𝜎 2 , јер је 𝐸(𝜀) = 0, а 𝑉𝑎𝑟(𝜀) = 𝜎 2

41. Тестирање хипотеза за параметар “a“ регресионог модела Y=aX+b+e и


интервал поверења за параметар “a“
− H0 (α = 0) – коефицијент није статистички значајан, тј. X не утиче на Y
̂ −𝛼0
𝛼
− Статистика: 𝜏 = ̂
√𝑆𝑥2 (𝑛 − 2): 𝑡𝑛−2 , где је 𝜎̂ = [∑ 𝑌𝑖2 − 𝛼̂ ∑ 𝑋𝑖 𝑌𝑖 − 𝛽̂ ∑ 𝑌𝑖 ].
𝜎
− У зависности од тога какву везу претпостављамо зависи H1:

36
𝐻1 (𝛼 < 0) 𝐻1 (𝛼 > 0) 𝐻1 (𝛼 ≠ 0)
Када нас само занима да
Веза је инверзна, тј. x↑ y↓ Веза је директна, тј. x↑ y↑ ли је коефицијент
или x↓ y↑ или x↓ y↓ статистички значајан или
не
Левострана критична Деснострана критична Обострана критична
област област област

42. Тестирање хипотеза за параметар “b“ регресионог модела Y=aX+b+e и


интервал поверења за параметар “b“
− H0 (β = 0) – коефицијент није статистички значајан, тј. X не утиче на Y
̂ −𝛽0
𝛽
− Статистика: 𝜏 = √𝑆𝑥2 (𝑛 − 2): 𝑡𝑛−2
̂ √𝑆𝑥2 −𝑥̅ 2
𝜎

− У зависности од тога какву везу претпостављамо зависи H1:

𝐻1 (𝛽 < 0) 𝐻1 (𝛽 > 0) 𝐻1 (𝛽 ≠ 0)
Пресек праве са Y осом је Пресек праве са Y осом је Права пролази кроз
негативан позитиван координатни почетак
Левострана критична Деснострана критична Обострана критична
област област област

Срећно, ПТ

37

You might also like