Professional Documents
Culture Documents
Лекції нові
Лекції нові
1. Класифікація варіант
1
в кількісну варіанту 2) дуже слабкий (2бали)
3) слабкий (3 бали)
4) помірний (4бали)
5) досить сильний (5 бали)
6) сильний (6 балів)
7) дуже сильний (7 балів)
8) руйнівний (8 балів)
9) спустошувальний (9 балів)
10 ) знищувальний (10 балів)
11) катастрофа (11 балів)
12) сильна катастрофа (12 балів)
2. Статистичний матеріал
3
x(1) = min ( x1 ,.........., x n )
.....................................
x( n ) = max ( x1 ,.........., x n )
В силу обмеженої точності деякі спостереження можуть бути одинакові. так
упорядковані спостереження (1) записуємо у формі ряду:
x(1) x( 2) ............... x( n ) (3)
Ряд (3) називається варіаційним рядом для спостережень (1) над одновимірною
неперервною мінливою величиною.
n
б) Згруповані дані. Якщо статистичний матеріал середній або великий, то
знайдемо найменше та найбільше зі спостереження
x(1) = min ( x1 ,......., x n ), x( n ) = max ( x1 ,..........., x n )
Означення. Різниці між найбільшим і найменшим елементами статистичного
матеріалу називається розмахом статистичного матеріалу
= x( n ) − x(1) 2 r n 2 r +1
Інтервал розмаху ділимо досить довільним способом на (r + 1) однакові або
неоднакові інтервали, де r − натуральне , r = 1, 2,......
4
Центри одержаних інтервалів позначимо в зростаючому порядку через
z1 ,......., z i ,.........z r +1.
Нехай на інтервалі з центром в т. z i попадає n i спостережень.
Очевидно, що n1 + n2 + ......... nr +1 = n
Тоді статистичний матеріал представимо у вигляді таблиці з двох рядків:
1-й в зростаючому порядку- центри інтервалів
2-й - відповідні частоти
z1 z 2 ......................z i ......................z r +1
n1 n2 .....................ni ......................nr +1 n
5
СТАТИСТИКИ
Нехай x1 , …, x n (1) ряд незалежних спостережень проведених в
однакових умовах над одновимірною кількісною мінливою величиною.
Табличне та графічне представлення статистичного матеріалу все ж
містить немало інформації(елементів).
Тому друге питання, що виникає відносно статистичного матеріалу таке:
як охарактеризувати статистичний матеріал одним або кількома числами.
Вже давно зауважено, що статистичний матеріал взагалі групується в
одному або кількох місцях, в околі одного або кількох значень. Причому в
околі цих значень він більш або менш розсіяний, а також форма розсіяння може
бути досить різна. Тому числові характеристики поділяються на три групи:
1. Числові характеристики центральної тенденції ( локації ). До них
відноситься:
а) медіана ( M e )
б) мода ( M o )
в) середнє арифметичне ( x )
2. Числові характеристики розсіяння. До них відноситься:
а) варіанса ( s 2 )
б) стандарт ( s )
в) розмах ( )
г) варація ( v )
д) інтерквантильність широт
3. Числові характеристики форми: До них відноситься:
а) асиметрія ( 1 )
б) ексцес ( 2 )
Кожна з перерахованих числових характеристик є деякою функцією від
елементів статистичного матеріалу.
Означення. Функція від елементів статистичного матеріалу називається
статистикою.
Таким чином ми розглянемо три групи статистик.
1. статистики центральної тенденції
2. статистики розсіяння
3. статистики форми
x − a = (x − a ) + (x − a )
n
f (a ) = i i i
i =1 xi a xi a
тільки тоді, коли число елементів статистичного матеріалу більших від a рівне
числу елементів статистичного матеріалу менших від a , тобто, коли a = M e .
7 12 5 0 1
Середнє арифметичне.
Означення. Середнім арифметичним називається сума всіх елементів
статистичного матеріалу, поділена на обсяг статистичного матеріалу,
позначається x :
x1 + x 2 + + x n 1 n
x= = xi
n n i =1
Доведення. З означення:
1 n 1 n
x == xi x(1) = x(1)
n i =1 n i =1
1 n 1 n
x == xi x (n ) = x (n )
n i =1 n i =1
n n n 1 n
Доведення. (xi − x ) = xi − x = n xi −nx = nx − nx = 0 .
i =1 i =1 i =1 n i =1
i =1
n
f (a ) = −2 (xi − a ) = −2(nx − na ) = 2n(a − x ) = 0
i =1
a=x - точка підозріла на екстремум
f (a ) = 2n 0 - точка мінімуму.
i =1
s2 =
n −1
s = s2
Очевидно, що
C 01 = x n C99 = x 99n
100 100
Покладемо, за означенням, m0 = 1 .
Очевидно, що 1-ий початковий момент збігається із середнім арифметичним і
позначається
m1 = x
2-й центральний 2 = s 2
3-й центральний і 4-й центральний 3 ; 4 .
2 = (
1 n 2
i
n i =1
x − 2 x i x + x)2
=
1 n 2
xi − 2 xx + x 2 = m2 − m12 .
n i =1
Статистики форми.
Для характеристики форми мінливості статистичного матеріалу (1) , Фішер увів
дві статистики: 1) асиметрію і 2) ексцес.
Означення. Асиметрією або скошеністю статистичного матеріалу (1)
називається відношення 3-го центрального моменту до 2-го центрального
моменту в степені півтора
3
As = 1 =
23 2
Якщо As 0 ( 1 0 ), то статистичний матеріал скошений вправо і має додатну
асиметрію.
Якщо As 0 ( 1
0 ), то статистичний матеріал скошений вправо і має додатну
асиметрію.
Якщо As = 0 ( 1 = 0 ), то статистичний матеріал симетричний.
M a(k ) ( ) = M ( − a ) .
k
k ( ) = M ( − M ( ))k .
4. як робити прогнози
Надалi будемо цiкавитись 3) причому будемо цiкавитись статистичними
методами для одновимiрної кiлькiсної мiнливої величини
1
Остання система рiвнянь називається системою рiвнянь правдоподiбностi
Кожне розв’язання системи рiвнянь правдоподiбностi, що залежить вiд
вибiркових значень 𝑥1 , . . . .𝑥𝑛 називається оцiнкою максимальної правдоподiбностi
для 𝛼1 , . . . , 𝛼𝑠 . Ми не будемо розглядати умов iснування розв’язку системи
рiвнянь правдоподiбностi, питань єдиностi, способах знаходження розв’язку
в загальному випадку. У конкретних випадках на цi питання дамо вiдповiдi
по змозi i до кiнця.
Таким чином, метод максимуму правдоподiбностi полягає в тому, що за
оцiнку невiдомих параметрiв приймаємо такi розв’язки системи (3), вiдно-
сно 𝛼1 , . . . , 𝛼𝑘 ,
Приклад 1 Методом максимуму правдоподiбностi оцiнити на основi
заданої вибiрки параметри нормального розподiлу (сподiвання та диспер-
сiю)
𝑛 ⃒ 𝑛
2 1 ∑︁ 2⃒ 1 ∑︁ 𝑛−1 2
(𝑥 − 𝑥)2 ≡
⃒
𝜎 = (𝑥𝑖 − 𝑎) ⃒ = 𝑠
𝑛 𝑖=1 𝑎=𝑥 𝑛 𝑖=1 𝑛
Розв’язок єдиний, а чи вiе надає max:
Оскiльки,
⃒ 2 ⃒ ⃒ ⃒
⃒ 𝜕 ln 𝐿 𝜕 2 ln 𝐿 ⃒ ⃒− 𝑛2 𝑠2 0 ⃒
⃒ 𝜕𝑎2 𝜕𝑎 2 𝜕𝜎 2 ⃒ ⃒ 𝑛−1
= ⃒ > 0 ̸= 0
⃒
⃒ 𝜕 2 ln 𝐿 2
𝜕 ln 𝐿 ⎨
⎧
𝑛 3
− 2(𝑛−1)
⃒ ⃒
⃒ 𝜕𝑎2 𝜕𝜎2 (𝜕𝜎 2 )2 ⃒ 𝑎 = 𝑥 ⃒ 0 2 𝑠4 ⃒
⎩𝜎 2 = 𝑛−1 2
𝑠
𝑛
2
𝜕 2 ln 𝐿 ⃒⃒⎧ 𝑛2
⃒
=− <0
𝜕𝑎2 ⃒⎪ ⎨𝑎 = 𝑥 (𝑛 − 1)𝑠2
⎩𝜎 2 =
⎪ 𝑛−1
(𝑛−1)𝑠2
𝑛−1
То при 𝑎 = 𝑥 i 𝜎 2 = (𝑛−1)𝑠 2 функцiя правдоподiбностi нормального розпо-
2-ий крок.
𝑛
∑︁
ln 𝐿 = 𝑛 ln 𝐿𝜆 − 𝜆 𝑥𝑖
𝑖=1
1
∑︀𝑛
𝜆 = 𝑛1 𝑖=1 𝑥𝑖 ≡ 𝑥 ⇒ 𝜆 = 𝑥1 - розв’язок єдиний, а чи подає максимум
треба взяти другу похiдну.
⃒
2 ⃒
Оскiльки 𝜕 𝜕𝑥ln2𝐿 ⃒⃒ = −𝑛𝑥2 < 0 друга похiдна вiд’ємна i маємо макси-
1
𝜆= 𝑥
мум.
Таким чином методом максимуму правдоподiбностi параметр експонен-
цiального розподiлу оцiнюється оберненою величиною середнього арифме-
тичного.
Приклад 3. ММП оцiнити параметр розподiлу Пуасона на основi ви-
бiрки (Тобто знайти оцiнку для сподiвання 𝜆)
Нехай 𝑥1 , . . . , 𝑥𝑛 - вибiрка з генеральної сукупностi пуасонiвської розпо-
дiленої змiнної
𝜆𝑗
𝒫{𝜉 = 𝑗} = 𝑒−𝜆 (𝑗 = 0, 1, 2, . . . ; 𝜆 > 0)
𝑗!
3
Функцiя правдоподiбностi у нашому випадку приймає вигляд
∑︀𝑛
−𝑛 𝜆 𝑖=1 𝑥𝑖
𝐿=𝑒
𝑥1 !𝑥2 ! . . . 𝑥𝑛 !
Звiдси
𝑛
∑︁ 𝑛
∑︁
ln 𝐿 = −𝑛𝜆 + ( 𝑥𝑖 ) − ln (𝑥𝑖 !)
𝑖=1 𝑖=1
Звiдси
𝑛
∑︁ 𝑛
∑︁
ln 𝐿 = −𝑛 ln (𝜆) − 𝑥𝑖 + (𝜆 − 1) ln 𝑥𝑖
𝑖=1 𝑖=1
4
𝑛
1 ∑︁
𝜓(𝜆) = ln 𝑥𝑖
𝑛 𝑖=1
має єдиний розв’язок
𝑛
1 ∑︁
𝜆 = 𝜓 −1 ( ln 𝑥𝑖 )
𝑛 𝑖=1
𝜕 2 ln 𝐿
= −𝑛𝜓 ′ (𝜆) > 0
𝜕𝜆2
i похiдна всюди невiд’ємна, то при 𝜆 = функцiя правдоподiбностi має
максимум. Але вираз досить складний для практичного застосування. Тому
постараємось оцiнити невiдомий параметр 𝜆 методом моментiв.
Перший початковий момент розподiлу (А) збiгається iз сподiванням i
рiвний
∫︁ ∞ ∫︁ ∞
1 1
𝑚1 = 𝐸𝜉 = 𝑥 = 𝑥𝑒𝜆−1 𝑑𝑥 = 𝜆
0 (𝜆)𝑒𝜆−1 𝑑𝑥 (𝜆) 0
Вiдомо, що перший∑︀емпiричний початковий момент збiгається iз сере-
𝑛
днiм арифметичним 𝑛1 𝑖=1 𝑥𝑖 = 𝑥. Таким чином оцiнкою невiдомого пара-
метра 𝜆, згiдно з методом моментiв є вибiркове середнє
𝜆=𝑥
Ця оцiнка значно простiша вiд отриманої
Слiд пiдкреслити, що оцiнка параметрiв одержанi ММП мають взагалi
бiльше властивостей, нiж оцiнки одержанi методом моментiв.
5
Критерій порівняння експерименту
Часто потрібно порівняти між собою два різні виробничі методи або два методи оброки. Ряд спостережень
відносно одного способу обробки назвемо контрольним, а відносно іншого способу обробки рядом спостережень
оброки. Для вияснення того, що ряд спостережень обробки істотно відрізняється від контрольного ряду спостережень
форму маємо нульову гіпотезу (𝐻𝑖 : нема істотної різниці між обома рядами спостережень). Сформульовану гіпотезу
перевіряємо за допомогою відповідного критерію.
Критерій знаків
Нехай 𝑥1 , 𝑦1 … 𝑥𝑖 , 𝑦𝑖 … 𝑥𝑛 , 𝑦𝑛 ряд незалежних пар незалежних у кожній парі спостережень над деякою
абсолютною неперервною статистичною змінною. Потрібно перевірити гіпотезу про те, що розподіли у кожній парі
однакові. Тезу перевіряємо за допомогою відповідного критерію.
ℱ𝑖 (𝑥) = 𝐺𝑖 (𝑥) (𝑖 = 1, 𝑛)
1
Якщо гіпотеза істина (вірна), то імовірність того, що Ρ 𝑥𝑖 = 𝑦𝑖 = 0, Ρ 𝑥𝑖 − 𝑦𝑖 > 0 = Ρ 𝑥𝑖 −𝑦𝑖 < 0 = (𝑖 = 1, 𝑛)
2
За статистику приймемо число дод-х різниць 𝑥𝑖 − 𝑦𝑖 , яке позначимо ℋ(+) , очевидно, що стат. ℋ(+) є
випадкова змінна і вона біномно розподілена, значить імов.
𝐶𝑛𝑘
Бін. розп. 𝐶𝑛𝑘 𝑝𝑘 𝑞 𝑛−𝑘 . . Ρ ℋ + =𝑘 = 𝑘 = 0,1, … , 𝑛
2𝑛
1 1
𝑝 = то і 𝑞 =
2 2
На основі цього розподілу визначаємо причину обл-ть гіпотези при заданому рівні значущості 𝛼. Оскільки
статистика ℋ(+) дискретна, то абл. прийому гіпотези (𝑚1 , 𝑚2 ) визначаємо системою нерівностей, де 𝑚1 - найбільше, а
𝑚2 - найменше значення, що задовольняють нерівність.
𝐶𝑛𝑘 𝛼 𝐶𝑘 𝛼 1
σ𝑚 1 −1
𝑘=0 ≤ 2 , σ𝑛𝑘=𝑚2+1 2𝑛𝑛 ≤ 2 (2 𝛼) (*)
2𝑛
0, 1 𝑚1 , …, 𝑚2 n
𝑛
𝜇−2
Ρ | | < 𝑧𝛼 = 1 − 𝛼
𝑛 2
2
𝑛 𝑛
Ρ{ − 0,98 𝑛 < 𝜇 < + 0,98 𝑛} = 0,95
2 2
𝜇−𝑛𝑝
(За інтегральною теоремою Муавра-Лапласа) Ρ{𝛼 < < 𝛽}
𝑛𝑝𝑞
𝑧𝛼 - табульована при 𝛼 = 0,05 𝑧𝛼 = 1,96
2 2
𝛼 𝛼
2 2
1−𝛼
−𝑧𝛼 𝑧𝛼
2 2
кр. обл. обл. прийому кр. обл.
Отже обл. прийому гіпотез визначається числами
𝑛
𝑚1 = [2 − 0,98 𝑛] – ціла частина числа
𝑛
𝑚2 = {2 + 0,98 𝑛} – (ціла частина числа) з доповненням до цілого числа
𝑚1 = 8 − 0,98 ∗ 4 = 4,08 = 4
𝑚2 = {8 + 0,98 ∗ 4} = 8 + 3,92 = 11,92 = 12
(𝑚1 , 𝑚2 ) = (4,12)
Заув. У результаті обмеженої точності вимірювань може трапитись, що деякі пари мають одинакові елементи.
Тоді такі пари пропускаємо. Число спостережень при цьому зменшується на число пропущених пар.
Якщо 𝐻(+) емпіричне < ніж 𝑚1 або > 𝑚2 то гіпотезу відкидаємо.
Приклад. Дано 21 пару незалежних у кожній парі спостережень над абсолютно неперервною статистичною
змінною.
𝑊(𝑥/𝑦) = σ𝑚
𝑖=1 число 𝑥𝑘 < 𝑦𝑖 , 𝑘 = 1, 𝑛
𝑊 𝑦/𝑥 = 1 + 2 + 3 + 3 + 3 + 3 + 5 + 5 = 22, 𝑦≤𝑥
Аналогічно, число інверсій 𝑥 відносно 𝑦
𝑊 𝑥/𝑦 = 2 + 3 + 4 + 7 + 7 + 9 + 9 = 41, 𝑥≤𝑦
Очевидно, що статистика 𝑊 𝑦/𝑥 може приймати цілочисельні значення від 0 (коли
всі 𝑥 - и розташовані перед всіма 𝑦 - ами) до 𝑚 𝑛 (коли всі 𝑥 – и більші від усіх 𝑦 – ків),
тобто
0 ≤ 𝑊 𝑦/𝑥 ≤ 𝑚 𝑛.
Точно також
0 ≤ 𝑊 𝑥/𝑦 ≤ 𝑚 𝑛.
Неважко перевірити, що
𝑊 𝑦/𝑥 + 𝑊 𝑥/𝑦 = 𝑚 𝑛.
Це служить контролем правильності обчислення: 22 + 41 = 9 * 7 = 63
Статистики 𝑊 𝑦/𝑥 і 𝑊 𝑥/𝑦 виступають симетрично, тому досить обмежитись
однією з них, яку позначимо W. Вількоксон 1945 знайшов розподіл статистики W. На
основі цього розподілу визначаємо критерій області для гіпотези, подібно ж у випадку
критерію знаків. Зазначимо, що при 𝑚 ≥ 4 і 𝑛 ≥ 4 , але так, що 𝑚 + 𝑛 ≥ 20 розподіл
статистики Вількоксона досить добре наближається нормальним розподілом з
параметрами (тобто зі сподіванням і дисперсією), відповідно
𝑚𝑛 𝑚𝑛
𝑎 = 𝐸𝑊 = 𝜎 2 = 𝐷𝑊 = (𝑚 + 𝑛 + 1)
2 12
У даному випадку при рівні значущості α = 0.05, область прийому гіпотези розташована
між 𝛼 − 1,96𝜎 і 𝛼 + 1,96𝜎
Критичні позначення W для малих 𝑚 і 𝑛 табульовано при різних рівнях значущості
α.
Якщо емпіричне значення статистики Вількоксона попадає в область критичної
гіпотези, то кажемо, що гіпотеза не суперечить експериментальним даним.
Приклад
Дано 2 незалежні вибірки незалежних спостережень над двома неперервними
популяціями: одна вибірка обсягом 𝑚 = 10, а друга - 𝑛 = 15, відповідно:
𝑚 = 10 n= 15
Перевірити Н про те, що:
(𝑋)𝑥1 2,3 𝑌 𝑦1 2,2 𝑦9 2,7 популяції, з яких взято вибірки
𝑥2 1,7 𝑦2 4,0 𝑦10 1,6 однаково розподілені: ℱ 𝑥 ≡
𝒢 𝑥 .
𝑥3 2,4 𝑦3 1,4 𝑦11 3,4
𝑥4 2,7 𝑦4 2,9 𝑦12 2,5
𝑥5 0,8(2) 𝑦5 2,3 𝑦13 0,6(1)
𝑥6 1,2(5) 𝑦6 1,9 𝑦14 2,6
𝑥7 1,5(7) 𝑦7 1,4 𝑦15 0,9(3)
𝑥8 1,7 𝑦8 2,9
𝑥9 0,9(4)
𝑥10 2,6
Позначимо елементи першої вибірки через 𝑥1 , … , 10, а другої − 𝑦1, … , 𝑦15 . Тоді,
спільний варіаційний ряд буде таким:
𝑦13 𝑥5 𝑦15 𝑥9 𝑥6 𝑦3 𝑥7 𝑦 𝑥 𝑥 𝑦 𝑦 𝑥 𝑦 𝑦 𝑥 𝑦 𝑦 𝑦 𝑥 𝑥 𝑦 𝑦 𝑦 𝑦
Як видно число інверсій 𝑦– ів відносно 𝑥– ів рівне.
𝑊 𝑦/𝑥 = 1 + 2 + 2 + 3 + 4 + 4 + 6 + 8 + 11 + 11 = 52
10∙15
Оскільки 𝛼 = = 75
2
10∙15
𝜎2 = 10 + 15 + 1 = 325 𝜎 = 325 = 18,027,
12
То область прийому гіпотези при п’ятипроцентному рівні значущості буде
𝛼 − 1,96𝜎; 𝛼 + 1,96𝜎 = (39,66; 110,34)
Отже, гіпотеза про однаковий неперервний розподіл обох популяцій, з яких взято
вибірки не суперечить вибірковим даним. Н прийнято.
Зауваження.
Якщо при застосуванні критерії знаків зустрічаються пари з однаковими
елементами, то при пропускають, а об’єм вибірки зменшується.
Критерій порівняння експерименту
Часто потрібно порівняти між собою два різні виробничі методи або два методи оброки. Ряд спостережень
відносно одного способу обробки назвемо контрольним, а відносно іншого способу обробки рядом спостережень
оброки. Для вияснення того, що ряд спостережень обробки істотно відрізняється від контрольного ряду спостережень
форму маємо нульову гіпотезу (𝐻𝑖 : нема істотної різниці між обома рядами спостережень). Сформульовану гіпотезу
перевіряємо за допомогою відповідного критерію.
Критерій знаків
Нехай 𝑥1 , 𝑦1 … 𝑥𝑖 , 𝑦𝑖 … 𝑥𝑛 , 𝑦𝑛 ряд незалежних пар незалежних у кожній парі спостережень над деякою
абсолютною неперервною статистичною змінною. Потрібно перевірити гіпотезу про те, що розподіли у кожній парі
однакові. Тезу перевіряємо за допомогою відповідного критерію.
ℱ𝑖 (𝑥) = 𝐺𝑖 (𝑥) (𝑖 = 1, 𝑛)
1
Якщо гіпотеза істина (вірна), то імовірність того, що Ρ 𝑥𝑖 = 𝑦𝑖 = 0, Ρ 𝑥𝑖 − 𝑦𝑖 > 0 = Ρ 𝑥𝑖 −𝑦𝑖 < 0 = (𝑖 = 1, 𝑛)
2
За статистику приймемо число дод-х різниць 𝑥𝑖 − 𝑦𝑖 , яке позначимо ℋ(+) , очевидно, що стат. ℋ(+) є
випадкова змінна і вона біномно розподілена, значить імов.
𝐶𝑛𝑘
Бін. розп. 𝐶𝑛𝑘 𝑝𝑘 𝑞 𝑛−𝑘 . . Ρ ℋ + =𝑘 = 𝑘 = 0,1, … , 𝑛
2𝑛
1 1
𝑝 = то і 𝑞 =
2 2
На основі цього розподілу визначаємо причину обл-ть гіпотези при заданому рівні значущості 𝛼. Оскільки
статистика ℋ(+) дискретна, то абл. прийому гіпотези (𝑚1 , 𝑚2 ) визначаємо системою нерівностей, де 𝑚1 - найбільше, а
𝑚2 - найменше значення, що задовольняють нерівність.
𝐶𝑛𝑘 𝛼 𝐶𝑘 𝛼 1
σ𝑚 1 −1
𝑘=0 ≤ 2 , σ𝑛𝑘=𝑚2+1 2𝑛𝑛 ≤ 2 (2 𝛼) (*)
2𝑛
0, 1 𝑚1 , …, 𝑚2 n
𝑛
𝜇−2
Ρ | | < 𝑧𝛼 = 1 − 𝛼
𝑛 2
2
𝑛 𝑛
Ρ{ − 0,98 𝑛 < 𝜇 < + 0,98 𝑛} = 0,95
2 2
𝜇−𝑛𝑝
(За інтегральною теоремою Муавра-Лапласа) Ρ{𝛼 < < 𝛽}
𝑛𝑝𝑞
𝑧𝛼 - табульована при 𝛼 = 0,05 𝑧𝛼 = 1,96
2 2
𝛼 𝛼
2 2
1−𝛼
−𝑧𝛼 𝑧𝛼
2 2
кр. обл. обл. прийому кр. обл.
Отже обл. прийому гіпотез визначається числами
𝑛
𝑚1 = [2 − 0,98 𝑛] – ціла частина числа
𝑛
𝑚2 = {2 + 0,98 𝑛} – (ціла частина числа) з доповненням до цілого числа
𝑚1 = 8 − 0,98 ∗ 4 = 4,08 = 4
𝑚2 = {8 + 0,98 ∗ 4} = 8 + 3,92 = 11,92 = 12
(𝑚1 , 𝑚2 ) = (4,12)
Заув. У результаті обмеженої точності вимірювань може трапитись, що деякі пари мають одинакові елементи.
Тоді такі пари пропускаємо. Число спостережень при цьому зменшується на число пропущених пар.
Для доведення гіпотези використовується перевірка знаків. Число додатних знаків
рівне 9: Н(+)=9; З таблиці Т-9 відчитуємо межі області прийому гіпотези при рівні
значущості α=0,05 і обсязі спостереження n=21. Дістаємо 𝑚1 , 𝑚2 = (6, 15). Оскільки
число додатних знаків різниць попадає в область прийому гіпотези, то гіпотеза не
суперечить статистичним даним. Нормальне наближення дає ті самі межі.
𝑊(𝑥/𝑦) = σ𝑚
𝑖=1 число 𝑥𝑘 < 𝑦𝑖 , 𝑘 = 1, 𝑛
𝑊 𝑦/𝑥 = 1 + 2 + 3 + 3 + 3 + 3 + 5 + 5 = 22, 𝑦≤𝑥
Аналогічно, число інверсій 𝑥 відносно 𝑦
𝑊 𝑥/𝑦 = 2 + 3 + 4 + 7 + 7 + 9 + 9 = 41, 𝑥≤𝑦
Очевидно, що статистика 𝑊 𝑦/𝑥 може приймати цілочисельні значення від 0 (коли
всі 𝑥 - и розташовані перед всіма 𝑦 - ами) до 𝑚 𝑛 (коли всі 𝑥 – и більші від усіх 𝑦 – ків),
тобто
0 ≤ 𝑊 𝑦/𝑥 ≤ 𝑚 𝑛.
Точно також
0 ≤ 𝑊 𝑥/𝑦 ≤ 𝑚 𝑛.
Неважко перевірити, що
𝑊 𝑦/𝑥 + 𝑊 𝑥/𝑦 = 𝑚 𝑛.
Це служить контролем правильності обчислення: 22 + 41 = 9 * 7 = 63
Статистики 𝑊 𝑦/𝑥 і 𝑊 𝑥/𝑦 виступають симетрично, тому досить обмежитись
однією з них, яку позначимо W. Вількоксон 1945 знайшов розподіл статистики W. На
основі цього розподілу визначаємо критерій області для гіпотези, подібно ж у випадку
критерію знаків. Зазначимо, що при 𝑚 ≥ 4 і 𝑛 ≥ 4 , але так, що 𝑚 + 𝑛 ≥ 20 розподіл
статистики Вількоксона досить добре наближається нормальним розподілом з
параметрами (тобто зі сподіванням і дисперсією), відповідно
𝑚𝑛 𝑚𝑛
𝑎 = 𝐸𝑊 = 𝜎 2 = 𝐷𝑊 = (𝑚 + 𝑛 + 1)
2 12
У даному випадку при рівні значущості α = 0.05, область прийому гіпотези розташована
між 𝛼 − 1,96𝜎 і 𝛼 + 1,96𝜎
Критичні позначення W для малих 𝑚 і 𝑛 табульовано при різних рівнях значущості
α.
Якщо емпіричне значення статистики Вількоксона попадає в область критичної
гіпотези, то кажемо, що гіпотеза не суперечить експериментальним даним.
Приклад
Дано 2 незалежні вибірки незалежних спостережень над двома неперервними
популяціями: одна вибірка обсягом 𝑚 = 10, а друга - 𝑛 = 15, відповідно:
𝑚 = 10 n= 15
Перевірити Н про те, що:
(𝑋)𝑥1 2,3 𝑌 𝑦1 2,2 𝑦9 2,7 популяції, з яких взято вибірки
𝑥2 1,7 𝑦2 4,0 𝑦10 1,6 однаково розподілені: ℱ 𝑥 ≡
𝒢 𝑥 .
𝑥3 2,4 𝑦3 1,4 𝑦11 3,4
𝑥4 2,7 𝑦4 2,9 𝑦12 2,5
𝑥5 0,8(2) 𝑦5 2,3 𝑦13 0,6(1)
𝑥6 1,2(5) 𝑦6 1,9 𝑦14 2,6
𝑥7 1,5(7) 𝑦7 1,4 𝑦15 0,9(3)
𝑥8 1,7 𝑦8 2,9
𝑥9 0,9(4)
𝑥10 2,6
Позначимо елементи першої вибірки через 𝑥1 , … , 10, а другої − 𝑦1, … , 𝑦15 . Тоді,
спільний варіаційний ряд буде таким:
𝑦13 𝑥5 𝑦15 𝑥9 𝑥6 𝑦3 𝑥7 𝑦 𝑥 𝑥 𝑦 𝑦 𝑥 𝑦 𝑦 𝑥 𝑦 𝑦 𝑦 𝑥 𝑥 𝑦 𝑦 𝑦 𝑦
Як видно число інверсій 𝑦– ів відносно 𝑥– ів рівне.
𝑊 𝑦/𝑥 = 1 + 2 + 2 + 3 + 4 + 4 + 6 + 8 + 11 + 11 = 52
10∙15
Оскільки 𝛼 = = 75
2
10∙15
𝜎2 = 10 + 15 + 1 = 325 𝜎 = 325 = 18,027,
12
То область прийому гіпотези при п’ятипроцентному рівні значущості буде
𝛼 − 1,96𝜎; 𝛼 + 1,96𝜎 = (39,66; 110,34)
Отже, гіпотеза про однаковий неперервний розподіл обох популяцій, з яких взято
вибірки не суперечить вибірковим даним. Н прийнято.
Зауваження.
Якщо при застосуванні критерії знаків зустрічаються пари з однаковими
елементами, то при пропускають, а об’єм вибірки зменшується.
Трифакторний варіансний аналіз
Нехай дані про деяку мінливу величину класифікуються за трьома
ознаками: на 𝑚 груп за ознакою А, на 𝑛 груп за ознакою В і на 𝑙 груп за ознакою
С. Дістаємо 𝑚𝑛𝑙 класифікаційних підгруп. Припустимо, що в кожній групі є
тільки одне спостереження. Позначимо через x𝑖𝑗𝑘 – спостереження. В і-тій групі
за ознакою А, 𝑗-тій групі за ознакою B і в 𝑘-тій групі за ознакою C. Всі
𝑚𝑛𝑙 спостережень можна розмістити в 𝑙 таблиць вигляду двофакторного
варіансного аналізу (𝑚𝑛). У кожній з 𝑙 – таблиць третій індекс 𝑘 сталий, (𝑘=1, 2,
…, 𝑙). Перший індекс – індекс довготи, другий – широти, третій – глибини .
Введемо середні: 𝑥𝑖𝑗∙ ; 𝑥𝑖∙𝑘 ; 𝑥∙𝑗𝑘 ; 𝑥𝑖∙∙ ; 𝑥∙𝑗∙ ; 𝑥∙∙𝑘 ; 𝑥∙∙∙ ∗
де наприклад,
𝑙
1
𝑥𝑖𝑗∙ = 𝑥𝑖𝑗𝑘 , 𝑖 = 1, 𝑚 , 𝑗 = 1, 𝑛 ;
𝑙
𝑘=1
𝑛 𝑙
1
𝑥𝑖∙∙ = 𝑥𝑖𝑗𝑘 , 𝑖 = 1, 𝑚 ;
𝑛𝑙
𝑗=1 𝑘=1
𝑚 𝑛 𝑙
1
𝑥∙∙∙ = 𝑥𝑖𝑗𝑘
𝑚𝑛𝑙
𝑖=1 𝑗=1 𝑘=1
Спостереження 𝑥𝑖𝑗𝑘 та середні ∗ зв̕’язані алгебраїчною тотожністю
𝑚 𝑛 𝑙 𝑚 𝑛
2 2 2
𝑥𝑖𝑗𝑘 − 𝑥∙∙∙ = 𝑛𝑙 𝑥𝑖∙∙ − 𝑥∙∙∙ + 𝑚𝑙 𝑥∙𝑗∙ − 𝑥∙∙∙ +
𝑖=1 𝑗=1 𝑘=1 𝑖=1 𝑗=1
𝑙 𝑚 𝑛
2 2
+𝑚𝑛 𝑥∙∙𝑘 − 𝑥∙∙∙ + 𝑙 𝑥𝑖𝑗∙ − 𝑥𝑖∙∙ − 𝑥∙𝑗∙ + 𝑥∙∙∙ +
𝑘=1 𝑖=1 𝑗=1
𝑚 𝑙 𝑛 𝑙
2 2
+𝑛 𝑥𝑖∙𝑘 − 𝑥𝑖∙∙ − 𝑥∙∙𝑘 + 𝑥∙∙∙ + 𝑚 𝑥∙𝑗𝑘 − 𝑥∙𝑗∙ − 𝑥∙∙𝑘 + 𝑥∙∙∙ +
𝑖=1 𝑘=1 𝑗=1 𝑘=1
𝑚 𝑛 𝑙
2
+ 𝑥𝑖𝑗𝑘 − 𝑥𝑖𝑗∙ − 𝑥𝑖∙𝑘 − 𝑥∙𝑗𝑘 + 𝑥𝑖∙∙ + 𝑥∙𝑗∙ + 𝑥∙∙𝑘 − 𝑥∙∙∙ . ∗∗
𝑖=1 𝑗=1 𝑘=1
Тотожність ∗∗ випливає з тотожності
𝑥𝑖𝑗𝑘 − 𝑥∙∙∙ = 𝑥𝑖∙∙ − 𝑥∙∙∙ + 𝑥∙𝑗∙ − 𝑥∙∙∙ + 𝑥∙∙𝑘 − 𝑥∙∙∙ +
+ 𝑥𝑖𝑗∙ − 𝑥𝑖∙∙ − 𝑥∙𝑗∙ + 𝑥∙∙∙ + 𝑥𝑖∙𝑘 − 𝑥𝑖∙∙ − 𝑥∙∙𝑘 + 𝑥∙∙∙ + 𝑥∙𝑗𝑘 − 𝑥∙𝑗∙ − 𝑥∙∙𝑘 + 𝑥∙∙∙ +
+ 𝑥𝑖𝑗𝑘 − 𝑥𝑖𝑗∙ − 𝑥𝑖∙𝑘 − 𝑥∙𝑗𝑘 + 𝑥𝑖∙∙ + 𝑥∙𝑗∙ + 𝑥∙∙𝑘 − 𝑥∙∙∙ .
Співвідношення ∗∗ показує, що повна девіація розкладається на 7
девіацій: перші три характеризують відповідно мінливість між групами ознаки
А, ознаки В та ознаки С, дальші три оцінюють взаємодію (інтеракція) АВ, АС,
ВС відповідно, остання виражає залишкову мінливість, яку можна вважати
взаємодією другого порядку, АВС. Тотальну мінливість назвемо мінливістю
нульового порядку, ; мінливість між групами – мінливістю 1 – го порядку
𝐴, 𝐵, 𝐶 ; мінливість взаємодії – мінливістю 2 – го порядку 𝐴𝐵, 𝐴𝐶, 𝐵𝐶 ;
залишкова мінливість – мінливістю 3 – го порядку 𝐴𝐵𝐶 .
У тотожності ∗∗ сума зліва має 𝑚𝑛𝑙-1 ступенів вільності.
𝑑. 𝑓. = 𝑚 − 1, 𝑑. 𝑓. = 𝑛 − 1, 𝑑. 𝑓. = 𝑙 − 1;
𝑑. 𝑓. = 𝑚𝑛 − 𝑚 − 𝑛 + 1 = 𝑚 − 1 𝑛 − 1 ,
𝑑. 𝑓. = 𝑚𝑙 − 𝑚 − 𝑙 + 1 = 𝑚 − 1 𝑙 − 1 ,
𝑑. 𝑓. = 𝑛𝑙 − 𝑛 − 𝑙 + 1 = 𝑛 − 1 𝑙 − 1 ;
𝑑. 𝑓. = 𝑚𝑛𝑙 − 𝑚𝑛 − 𝑚𝑙 − 𝑛𝑙 + 𝑚 + 𝑛 + 𝑙 − 1 = 𝑚 − 1 𝑛 − 1 𝑙 − 1 .
Число ступенів вільності девіацій, що виступають у тотожності ∗∗
утворюють тотожність:
𝑚𝑛𝑙 − 1 = 𝑚 − 1 + 𝑛 − 1 + 𝑙 − 1 + 𝑚 − 1 𝑛 − 1 + 𝑚 − 1 𝑙 − 1 +
+ 𝑛−1 𝑙−1 + 𝑚−1 𝑛−1 𝑙−1 .
𝑑. 𝑓. = 𝑚 − 1, 𝑚 − 1 𝑛 − 1 𝑙 − 1 та
𝑑. 𝑓. = 𝑚 − 1 𝑛 − 1 , 𝑚 − 1 𝑛 − 1 𝑙 − 1 .
𝑚 𝑛 𝑙
Дослідні Сорти
центри
1 2 3 4 5 Разом
Т1 Т2 Т1 Т2 Т1 Т2 Т1 Т2 Т1 Т2 Т1 Т2
1 -6 -4 -4 -2 -10 -7 -3 -5 1 0 -22 -18
2 -2 -1 -5 -1 -3 -4 -4 -1 -2 1 -16 -6
3 3 2 -2 3 -4 0 4 1 3 3 4 9
4 3 6 3 2 6 3 -1 5 6 8 17 24
Значення 𝑥𝑖.. 𝑥.𝑗. 𝑥..𝑘 𝑥1𝑗. 𝑥2𝑗. 𝑥3𝑗. 𝑥4𝑗. 𝑥𝑖.1 𝑥𝑖.2 𝑥.𝑗1 𝑥.𝑗2
змінного
індексу
1 -4,0 0,125 -0,85 -5,0 -1,5 2,5 4,5 -4,4 -3,6 -0,50 0,75
2 -2,2 -0,75 0,45 -3,0 -3,0 0,5 2,5 -3,2 -1,2 -2,00 0,5
3 1,3 -2,375 -8,5 -3,5 -2,0 4,5 0,8 1,8 -2,75 -2,00
4 4,1 -0,5 -4,0 -2,5 2,5 2,0 3,4 4,8 -1,00 0,00
2,5 0,5 -0,5 3,0 7,0 2,00 3,00
Девіації, ступені вільності та варіанси для різних мінливостей
розмістимо в таблиці 3.
Табл. 3
Мінливість Девіація d.f. Варіанса
Між центрами А 381,8 3 130,60
Між сортами В 100,15 4 25,04
Між добривами Т 16,90 1 16,9
Інтеракція(взаємодія) АВ 62,45 12 5,20
Інтеракція(взаємодія) АТ 2,10 3 0,70
Інтеракція(взаємодія) ВТ 3,85 4 0,96
Залишкове 61,15 12 5,10
Повне 638,40 39 -
За допомогою варіансного аналізу перевірити гіпотезу про можливий
вплив вказаних факторів на врожайність збіжжя.
На основі даних табл. 3 спершу розглядаємо варіансні відношення
Фішера для ітерації із залишковою варіансою при рівні значущості α = 0,05:
5,20 5,10 5,10
Емпіричне 5,10
= 1,02,
0,70
= 7,29
0,36
= 5,32
1. Коваріація
Розглянемо довільний двовимірний випадковий вектор з
компонентами ξ, η, для яких відомі їх сподівання і дисперсії Е(ξ), Е(η), D(ξ),
D(η): і нехай α = const деяка стала, α > 0.
Задача
Знайти зв’язок між компонентам ξ та η ?
З цією метою розглянемо випадкову змінну (0)
Знайдемо її дисперсію: за означенням дисперсії та властивостями
сподівання:
Означення
Коваріацією між випадковими змінними ξ та η називається сподівання
добутку відхилень цих змінних від своїх сподівань
(1)
(1*)
Якщо ξ та η – незалежні, то
Дійсно, для незалежних випадкових змінних маємо
(2)
(3)
(4)
(5)
3. Регресія
Знайдемо таке α, при якому випадкова змінна ξ має найменшу дисперсію.
Обчислимо перші дві похідні по α з виразу (5)
(6)
(8)
Значення α, що мінімізує дисперсію випадкової змінної, називається
регресією η відносно ξ.
Означення
Регресією випадкової змінної η відносно випадкової змінною ξ називають
добуток кореляції між цими змінними на відношення стандарту η до
стандарту ξ.
(9)
(11)
тобто (14)
(16)
Аналогічно до рівностей (1), (2), (9), (10) знайдемо вибіркову коверіацію між
компонентами
1
𝐶12 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) (3)
𝑛−1
Отже,
2 2 2
𝑆1[23…𝑚 = 𝑆12 [1-𝑟12
2
] [1-𝑟13[2 ]… [1-𝑟1𝑚[23…(𝑚−1) ] (2)
Таким чином, варіанса (m-1)-го виражається через варіансу нульового порядку
та кореляції від нульових до (m-2)-го порядку.
Аналогічно одержуємо варіанси вищих порядків для інших випадкових змінних
без (незрозуміло) на решту змінних (коли інші змінні фіксовані).
Наприклад,
2 2
𝑆3[12 = 𝑆12 [1-𝑟13
2
] [1-𝑟23[1 ]
Арифметичний квадратний корінь із варіанси відповідного порядку називають
стандартом того же порядку. Наприклад, 𝑆1 – стандарт (m-1)-го порядку, () –
стандарт нульового порядку.
Запишемо співвідношення (2) у вигляді
2 2
𝑆1[23…𝑚 = 𝑆12 [1-𝑅1(23…𝑚) ], (3)