Professional Documents
Culture Documents
Pavlina - Kj@abv - BG: x1 x2 XN
Pavlina - Kj@abv - BG: x1 x2 XN
Нека разполагаме с n на брой наблюдения X1, X2, …, Xn, върху една и съща величина
(метриран признак) . Под хипотеза в статистиката се разбира твърдение, чиято истинност се
съдържа по някакъв начин в типа или в параметрите на разпределението на извадката. Така всяка
хипотеза е еквивалентна на предположение за закона на разпределение на случайния вектор (1, 2,
…, n). Както вече знаем, в статистиката този закон се описва с функцията на правдоподобие.
Задачата за проверка на хипотези започва с формулиране на две хипотези, такива че да имаме
основание да смятаме, че точно едната от тях е вярна. Основната, проверявана хипотеза се нарича
нулева и формално се означава с
Н0 : L ( x1, x 2, …, x n ) = L0 ( x1, x 2, …, x n ).
Когато тя не е вярна, е вярна някоя друга хипотеза, която ще наричаме алтернативна и ще
означаваме с
Н1 : L ( x1, x 2, …, x n ) = L1 ( x1, x 2, …, x n ).
Ако хипотезите се отнасят до типа на разпределението на наблюдаваната величина те се
наричат непараметрични. Ако се отнасят до параметри на известен тип разпределение те се
наричат параметрични.
1
Основните идеи на изложената в тази тема теория, принадлежат най-вече на Джърси Неймън и Егон Пирсън.
82
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
83
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
Вече се запознахме с графичните методи p-p plot и q-q plot за определяне на типа на
разпределението на наблюдаваната величина. Те, обаче са приблизителни. Най-популярният
количествен метод за проверка на типа на разпределението на наблюдаваната величина е 2-
2
Виж §9 на стр.318 от Боян Димитров и Николай Янев, Вероятности и статистика, София, Унив. Издателство
“Климент Охридски”, 1990.
84
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
критерият на Пирсън. Прилага се, както при дискретен така и при непрекъснат метриран
признак.
Първо ще разгледаме случая, когато разполагаме с интервален ред на разпределение,
построен по измерените значения на признака, който наблюдаваме. Нека разполагаме с
извадка от n независими наблюдения върху случайната величина с разпределение F. Данните да
са групирани и разположени в затворен статистически ред на разпределение, с десни краища на
интервалите а1, …, ак. Означаваме с f1, f2, …, fк съответните емпирични честоти в тези групи, а
теоретичните с
np1 := P( < a1 ),
(2) , за m = 2, …, k,
npk := 1- P( < ak).
Да припомним, че от свойствата на вероятностната мярка, сумата от вероятностите на
събития, образуващи пълна група беше единица. По тази причина винаги
(3)
Проверяваме хипотезата
Н0 : F( x ) = F0( x ), т.е. L ( x1, x 2, …, x n ) =
където във функцията на разпределение F0 участват r на брой неизвестни параметъра, оценени от
извадката, срещу алтернативата
Н1 : F( x ) F0( x ), т.е. L ( x1, x 2, …, x n )
с ниво на съгласие .
Като мярка за близостта между разпределението на извадката и теоретичното разпределение
служи разликата между наблюдаваните, емпирични и теоретичните честоти и по-точно величината
Ако нулевата хипотеза е вярна, тази случайна величина ще е близо до нулата и ще има
асимптотично 2 разпределение с k-1-r степени на свобода. В случая, когато нулевата хипотеза
гласи, че извадката е от стандартно нормално разпределена съвкупност дори ще има
3
Cramer H., Mathematical Methods of Statistics, Prienceton, 1946.
85
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
където С се определя от условието - рискът за грешка от първи род да е , т.е. С е 1- квантилът
на 2 разпределението с k-1-r степени на свобода.
Както при всяка проверка на хипотези, след като определим критичната област за нулевата
хипотеза, ако векторът на извадката попадне в тази критична област за нулевата хипотеза,
отхвърляме тази хипотеза. Иначе нямаме основание да я отхвърлим. Може да се случи за две
различни разпределения да получим, че извадката е от техния тип. В този случай, по-точен е
критерият, който има по-голяма мощност.
Фиг. 23 и фиг. 24 илюстрират връзката между рискът за грешка от първи род и критичната
област на нулевата хипотеза.
Фиг. 23.
Фиг. 24.
86
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
Въпроси:
1. Кога е удобно да използваме p-p plot и кога q-q plot?
87
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
Примери:
Пример 1. Извършени са 100 наблюдения над случайна величина . При групировката са
получени следните десни краища на интервалите
0.1493, 0.3526, 0.5559, 0.7592, 0.9624, 1.1657, 1.3690, 1.5723
и съответните абсолютни честоти: 5, 16, 18, 13, 17, 14, 10, 7.
С риск за грешка от първи род
а) 0.05;
б) 0.01
да се провери хипотезата за експоненциалност на резпределението на наблюдаваната величина.
Решение:
а) По тези данни получаваме, че = 0.8496.
При експоненциалното разпределение параметърът е реципрочен на средното, т.е. в случая
той е
,
където а1, …, ак са десните краища на интервалите. Левият квай на първия интервал е нула.
Геометричната интерпретация на рi е дадена на следващата фигура.
Фиг. 25.
88
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
= 36.9836,
С0.05 = 12.5916 и С0.01 = 16.8119,
Т.е. и при двата риска за грешка от първи род получаваме, че извадката е в критичната област за
нулевата хипотеза, т.е. отхвърляме нулевата хипотеза.
Пример 2: По данните от табл. 11, като използвате 2 критерия, проверете хипотезата, че
разпределението на извадката е нормално, с риск за грешка от първи род
а) 0.05;
б) 0.01.
Табл. 11.
Интервали fi аic (aic) npi (fi -npi)2\(npi)
До 22,5 7 -1,841 0,032810779 4,823184565 0,982447463
Над 22,5 до 31,5 11 -1,332 0,091430094 8,617039291 0,658985244
Над 31,5 до 40,5 14 -0,823 0,205253997 16,73211366 0,446114891
Над 40,5 до 49,5 20 -0,314 0,376760519 25,21145883 1,077260278
Над 49,5 до 58,5 23 0,195 0,577303526 29,479822 1,424299413
Над 58,5 до 67,5 31 0,704 0,759283613 26,75107279 0,674865736
Над 67,5 до 76,5 26 1,213 0,88743509 18,83826705 2,722671818
Над 76,5 до 85,5 15 1,722 0,957465241 16,54704181 0,144638442
Общо: 147 х x 147 8,131283286
.
Нормалното разпределение има два параметъра, които в случая са неизвестни, т.е. r = 2.
Техните оценки от извадката са съответно:
89
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
i = 2, …, 7.
Освен това (а1c) = np1 и 1-(а8c) = np8. Попълваме петата колонка от табл. 11.
Ако има много голяма разлика между, току що определените теоретични честоти и
емпирични честоти fi, не е логично да продължаваме проверката тъй като е очевидно, че ще
стигнем до отхвърляне на нулевата хипотеза. Ако втората и петата колони си приличат, можем да
продължим с проверката. Преминаваме към изчисляването на емпиричната характеристика на
критерия
Т.е. и този път извадката не е в критичната област за нулевата хипотеза и принадлежи на нормално
разпределена съвкупност.
90
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
Пример 3: В цех има 10 шивашки машини. Всеки ден в определено време се записва броя на
повредените машини. Проведени са 200 наблюдения, данните са групирани и резултатите са
дадени в първите две колони Табл. 12. Като използвате 2 критерия, проверете хипотезата, че
разпределението на извадката е поасоново с риск за грешка от първи род
а) 0.05;
б) 0.01.
Решение: а) С ниво на съгласие проверяваме хипотезата
Н0 : F( x ) =
срещу алтернативата
Н1 : F( x ) .
Табл. 12.
Брой повредени машини ai Брой дни fi aifi npi npi (об.) (fi -npi(об.) )2\(npi(об.) )
Т.е. през наблюдаваните дни средно на ден са били повредени 1,8 шевни машини.
От дефиницията за ред на разпределение на поасоново разпределена случайна величина
определяме теоретичните честоти на съответните значения. Получаваме, че за i = 0,…, 10
91
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
Попълваме четвъртата колона на Табл. 12. Проверяваме сумата в тази колонка трябва да е
приблизително 200. Получената разлика се дължи на закръглянията. Между, определените
теоретични честоти и емпиричните честоти fi има известна прилика, значи е логично да
продължим проверката.
За да спазим изискването, във всяка група теоретичните честоти npi 5, трябва да обединим
данните от последните шест интервала.
Преминаваме към изчисляването на емпиричната характеристика на критерия. С (об.) в
таблицата сме отразили, че работим с данните за обединените последни шест интервала.
92
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
Фиг. 26.
93
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
Табл. 12.
z 0 1 2 3 4 5 6 7 8 9
0,2 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000001 0,000004
0,3 0,000009 0,000021 0,000046 0,000091 0,000171 0,000303 0,000511 0,000826 0,001285 0,001929
0,4 0,002808 0,003972 0,005476 0,007377 0,009730 0,012589 0,016005 0,020022 0,024682 0,030017
0,5 0,036055 0,042814 0,050306 0,058534 0,067497 0,077183 0,087577 0,098656 0,113094 0,122760
0,6 0,135718 0,149229 0,163255 0,177752 0,192677 0,207987 0,223637 0,239582 0,255780 0,272188
0,7 0,288765 0,305471 0,322265 0,339114 0,355981 0,372833 0,389640 0,406372 0,423002 0,439505
0,8 0,455858 0,472039 0,488028 0,503809 0,519365 0,534682 0,549745 0,564545 0,579071 0,593315
0,9 0,607269 0,620928 0,634285 0,647337 0,660081 0,672515 0,684636 0,696445 0,707941 0,719126
1,0 0,730000 0,740566 0,750825 0,760781 0,770436 0,779794 0,788860 0,797637 0,806130 0,814343
1,1 0,822282 0,829951 0,837356 0,844502 0,851395 0,858040 0,864443 0,870610 0,876546 0,882258
1,2 0,887750 0,893030 0,898102 0,902973 0,907648 0,912134 0,916435 0,920557 0,924506 0,928288
1,3 0,931908 0,935371 0,938682 0,941847 0,944871 0,947758 0,950514 0,953144 0,955651 0,958041
1,4 0,960318 0,962487 0,964551 0,966515 0,968383 0,970159 0,971846 0,973448 0,974969 0,976413
1,5 0,977782 0,978090 0,980310 0,981475 0,982579 0,983623 0,984610 0,985544 0,986427 0,987261
1,6 0,988048 0,988791 0,989492 0,990154 0,990777 0,991364 0,991917 0,992438 0,992928 0,993389
1,7 0,993823 0,994230 0,994612 0,994972 0,995309 0,995625 0,995922 0,996200 0,996460 0,996704
1,8 0,996932 0,997146 0,997346 0,997533 0,997707 0,997870 0,998023 0,998165 0,998297 0,998421
1,9 0,998536 0,998644 0,998744 0,998837 0,998924 0,999004 0,999079 0,999149 0,999213 0,999273
2,0 0,999329 0,999381 0,999429 0,999473 0,999514 0,999553 0,999588 0,999620 0,999651 0,999679
2,1 0,999705 0,999728 0,999750 0,999771 0,999790 0,999807 0,999823 0,999837 0,999851 0,999863
2,2 0,999874 0,999886 0,999895 0,999904 0,999912 0,999920 0,999927 0,999933 0,999939 0,999944
2,3 0,999949 0,999954 0,999958 0,999961 0,999965 0,999968 0,999971 0,999974 0,999976 0,999978
2,4 0,999980 0,999982 0,999984 0,999985 0,999987 0,999988 0,999989 0,999990 0,999991 0,999992
94
Последна редакция 31.10.2022 г.