Professional Documents
Culture Documents
Pavlina - Kj@abv - BG: x1 x2 XN
Pavlina - Kj@abv - BG: x1 x2 XN
Нека разполагаме с n на брой наблюдения X1, X2, …, Xn, върху една и съща величина
(метриран признак) . Под хипотеза в статистиката се разбира твърдение, чиято истинност се
съдържа по някакъв начин в типа или в параметрите на разпределението на извадката. Така всяка
хипотеза е еквивалентна на предположение за закона на разпределение на случайния вектор (1, 2,
…, n). Както вече знаем, в статистиката този закон се описва с функцията на правдоподобие.
Задачата за проверка на хипотези започва с формулиране на две хипотези, такива че да имаме
основание да смятаме, че точно едната от тях е вярна. Основната, проверявана хипотеза се нарича
нулева и формално се означава с
Н0 : L ( x1, x 2, …, x n ) = L0 ( x1, x 2, …, x n ).
Когато тя не е вярна, е вярна някоя друга хипотеза, която ще наричаме алтернативна и ще
означаваме с
Н1 : L ( x1, x 2, …, x n ) = L1 ( x1, x 2, …, x n ).
Ако хипотезите се отнасят до типа на разпределението на наблюдаваната величина те се
наричат непараметрични. Ако се отнасят до параметри на известен тип разпределение те се
наричат параметрични.
1
Основните идеи на изложената в тази тема теория, принадлежат най-вече на Джърси Неймън и Егон Пирсън.
82
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
83
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
(3)
Проверяваме хипотезата
Н0 : F( x ) = F0( x ), т.е. L ( x1, x 2, …, x n ) =
където във функцията на разпределение F0 участват r на брой неизвестни параметъра, оценени от
извадката, срещу алтернативата
Н1 : F( x ) F0( x ), т.е. L ( x1, x 2, …, x n )
2
Виж §9 на стр.318 от Боян Димитров и Николай Янев, Вероятности и статистика, София, Унив. Издателство
“Климент Охридски”, 1990.
84
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
с ниво на съгласие .
Като мярка за близостта между разпределението на извадката и теоретичното разпределение
служи разликата между наблюдаваните, емпирични и теоретичните честоти и по-точно величината
Ако нулевата хипотеза е вярна, тази случайна величина ще е близо до нулата и ще има
асимптотично 2 разпределение с k-1-r степени на свобода. В случая, когато нулевата хипотеза
гласи, че извадката е от стандартно нормално разпределена съвкупност дори ще има
където С се определя от условието - рискът за грешка от първи род да е , т.е. С е 1- квантилът
на 2 разпределението с k-1-r степени на свобода.
Както при всяка проверка на хипотези, след като определим критичната област за нулевата
хипотеза, ако векторът на извадката попадне в тази критична област за нулевата хипотеза,
отхвърляме тази хипотеза. Иначе нямаме основание да я отхвърлим. Може да се случи за две
различни разпределения да получим, че извадката е от техния тип. В този случай, по-точен е
критерият, който има по-голяма мощност.
Фиг. 23 и фиг. 24 илюстрират връзката между рискът за грешка от първи род и критичната
област на нулевата хипотеза.
За да можем да прожим 2 критерия трябва величините npm да не бъдат прекалено малки. Те
трябва да са по-големи или равни на 5. Ако това условие е нарушено обединяваме съответната
група с по-малобройната от съседните и така прилагаме критерия на Пирсън. Да отбележим обаче,
че при пресмятане на неизместените оценки на числовите характеристики на извадката,
претеглените формули изискват равна ширина на интервалите. Ето защо тези характеристики се
пресмятат преди да обединим интервали и по възможност от негрупирани данни.
Когато реда на разпределение е степенен и нулевата хипотеза предполага някакво
конкретно дискретно разпределение, подходът е аналогичен, но с а1, …, ак, означаваме
значенията на признака, по които е извършена групировката. f1, f2, …, fк отново са съответните
емпирични честоти, а теоретичните честоти са
(4) npi := nP( = ai ), за i = 1,…, k.
3
Cramer H., Mathematical Methods of Statistics, Prienceton, 1946.
85
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
При определянето на квантилите е удобно да се използват готови таблици (ако има такива).
За целта е необходимо преди да приложим проверката на хипотези, да стандартизираме извадката.
Така е подходено в първия пример след тази тема.
Фиг. 23.
Фиг. 24.
86
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
Въпроси:
1. Кога е удобно да използваме p-p plot и кога q-q plot?
2. Вярно ли е, че “Колкото интервалите са по-тесни толкова разгледаните методи са по-
точни”. Защо?
3. За какво се използва 2 критерия на Пирсън?
4. Защо С е 1- квантилът на 2 разпределението с k-1-r степени на свобода?
Примери:
Пример 1. Извършени са 100 наблюдения над случайна величина . При групировката са
получени следните десни краища на интервалите
0.1493, 0.3526, 0.5559, 0.7592, 0.9624, 1.1657, 1.3690, 1.5723
и съответните абсолютни честоти: 5, 16, 18, 13, 17, 14, 10, 7.
С риск за грешка от първи род
а) 0.05;
б) 0.01
да се провери хипотезата за експоненциалност на резпределението на наблюдаваната величина.
Решение:
а) По тези данни получаваме, че = 0.8496.
При експоненциалното разпределение параметърът е реципрочен на средното, т.е. в случая
той е
87
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
където а1, …, ак са десните краища на интервалите. Левият квай на първия интервал е нула.
Геометричната интерпретация на рi е дадена на следващата фигура.
Фиг. 25.
= 36.9836,
С0.05 = 12.5916 и С0.01 = 16.8119,
Т.е. и при двата риска за грешка от първи род получаваме, че извадката е в критичната област за
нулевата хипотеза, т.е. отхвърляме нулевата хипотеза.
Пример 2: По данните от табл. 11, като използвате 2 критерия, проверете хипотезата, че
разпределението на извадката е нормално, с риск за грешка от първи род
а) 0.05;
б) 0.01.
Табл. 11.
Интервали fi аic (aic) npi (fi -npi)2\(npi)
До 22,5 7 -1,841 0,032810779 4,823184565 0,982447463
Над 22,5 до 31,5 11 -1,332 0,091430094 8,617039291 0,658985244
Над 31,5 до 40,5 14 -0,823 0,205253997 16,73211366 0,446114891
Над 40,5 до 49,5 20 -0,314 0,376760519 25,21145883 1,077260278
Над 49,5 до 58,5 23 0,195 0,577303526 29,479822 1,424299413
Над 58,5 до 67,5 31 0,704 0,759283613 26,75107279 0,674865736
Над 67,5 до 76,5 26 1,213 0,88743509 18,83826705 2,722671818
Над 76,5 до 85,5 15 1,722 0,957465241 16,54704181 0,144638442
Общо: 147 х x 147 8,131283286
88
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
.
Нормалното разпределение има два параметъра, които в случая са неизвестни, т.е. r = 2.
Техните оценки от извадката са съответно:
и
i = 2, …, 7.
Освен това (а1c) = np1 и 1-(а8c) = np8. Попълваме петата колонка от табл. 11.
Ако има много голяма разлика между, току що определените теоретични честоти и
емпирични честоти fi, не е логично да продължаваме проверката тъй като е очевидно, че ще
стигнем до отхвърляне на нулевата хипотеза. Ако втората и петата колони си приличат, можем да
продължим с проверката. Преминаваме към изчисляването на емпиричната характеристика на
критерия
89
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
Т.е. и този път извадката не е в критичната област за нулевата хипотеза и принадлежи на нормално
разпределена съвкупност.
Пример 3: В цех има 10 шивашки машини. Всеки ден в определено време се записва броя на
повредените машини. Проведени са 200 наблюдения, данните са групирани и резултатите са
дадени в първите две колони Табл. 12. Като използвате 2 критерия, проверете хипотезата, че
разпределението на извадката е поасоново с риск за грешка от първи род
а) 0.05;
б) 0.01.
Решение: а) С ниво на съгласие проверяваме хипотезата
Н0 : F( x ) =
срещу алтернативата
Н1 : F( x ) .
Табл. 12.
Брой повредени машини ai Брой дни fi aifi npi npi (об.) (fi -npi(об.) )2\(npi(об.) )
90
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
Т.е. през наблюдаваните дни средно на ден са били повредени 1,8 шевни машини.
От дефиницията за ред на разпределение на поасоново разпределена случайна величина
определяме теоретичните честоти на съответните значения. Получаваме, че за i = 0,…, 10
Попълваме четвъртата колона на Табл. 12. Проверяваме сумата в тази колонка трябва да е
приблизително 200. Получената разлика се дължи на закръглянията. Между, определените
теоретични честоти и емпиричните честоти fi има известна прилика, значи е логично да
продължим проверката.
За да спазим изискването, във всяка група теоретичните честоти npi 5, трябва да обединим
данните от последните шест интервала.
Преминаваме към изчисляването на емпиричната характеристика на критерия. С (об.) в
таблицата сме отразили, че работим с данните за обединените последни шест интервала.
91
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
92
Последна редакция 31.10.2022 г.
Чернова на лекции по Въведение в статистиката
Павлина Йорданова pavlina_kj@abv.bg
Фиг. 26.
Табл. 12.
z 0 1 2 3 4 5 6 7 8 9
0,2 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000001 0,000004
0,3 0,000009 0,000021 0,000046 0,000091 0,000171 0,000303 0,000511 0,000826 0,001285 0,001929
0,4 0,002808 0,003972 0,005476 0,007377 0,009730 0,012589 0,016005 0,020022 0,024682 0,030017
0,5 0,036055 0,042814 0,050306 0,058534 0,067497 0,077183 0,087577 0,098656 0,113094 0,122760
0,6 0,135718 0,149229 0,163255 0,177752 0,192677 0,207987 0,223637 0,239582 0,255780 0,272188
0,7 0,288765 0,305471 0,322265 0,339114 0,355981 0,372833 0,389640 0,406372 0,423002 0,439505
0,8 0,455858 0,472039 0,488028 0,503809 0,519365 0,534682 0,549745 0,564545 0,579071 0,593315
0,9 0,607269 0,620928 0,634285 0,647337 0,660081 0,672515 0,684636 0,696445 0,707941 0,719126
1,0 0,730000 0,740566 0,750825 0,760781 0,770436 0,779794 0,788860 0,797637 0,806130 0,814343
1,1 0,822282 0,829951 0,837356 0,844502 0,851395 0,858040 0,864443 0,870610 0,876546 0,882258
1,2 0,887750 0,893030 0,898102 0,902973 0,907648 0,912134 0,916435 0,920557 0,924506 0,928288
1,3 0,931908 0,935371 0,938682 0,941847 0,944871 0,947758 0,950514 0,953144 0,955651 0,958041
1,4 0,960318 0,962487 0,964551 0,966515 0,968383 0,970159 0,971846 0,973448 0,974969 0,976413
1,5 0,977782 0,978090 0,980310 0,981475 0,982579 0,983623 0,984610 0,985544 0,986427 0,987261
1,6 0,988048 0,988791 0,989492 0,990154 0,990777 0,991364 0,991917 0,992438 0,992928 0,993389
1,7 0,993823 0,994230 0,994612 0,994972 0,995309 0,995625 0,995922 0,996200 0,996460 0,996704
1,8 0,996932 0,997146 0,997346 0,997533 0,997707 0,997870 0,998023 0,998165 0,998297 0,998421
1,9 0,998536 0,998644 0,998744 0,998837 0,998924 0,999004 0,999079 0,999149 0,999213 0,999273
2,0 0,999329 0,999381 0,999429 0,999473 0,999514 0,999553 0,999588 0,999620 0,999651 0,999679
2,1 0,999705 0,999728 0,999750 0,999771 0,999790 0,999807 0,999823 0,999837 0,999851 0,999863
2,2 0,999874 0,999886 0,999895 0,999904 0,999912 0,999920 0,999927 0,999933 0,999939 0,999944
2,3 0,999949 0,999954 0,999958 0,999961 0,999965 0,999968 0,999971 0,999974 0,999976 0,999978
2,4 0,999980 0,999982 0,999984 0,999985 0,999987 0,999988 0,999989 0,999990 0,999991 0,999992
93
Последна редакция 31.10.2022 г.