Download as pdf or txt
Download as pdf or txt
You are on page 1of 195

Statystyka matematyczna

Adam Krawiec

Instytut Ekonomii i Zarządzania UJ

wersja 0.7.4 (5.01.2017)


Statystyka matematyczna

dr hab. Adam Krawiec

Katedra Ekonomii Matematycznej

pokój: 2.350

e-mail: adam.krawiec@uj.edu.pl

konsultacje: środa, godz. 10.30-11.30


Podręczniki

• A. Zeliaś. Metody statystyczne. PWE, Warszawa, 2000.


• J. Jóźwiak, J. Podgórski. Statystyka od podstaw. PWE,
Warszawa, 1997.
• Z. Hellwig. Elementy rachunku prawdopodobieństwa
i statystyki matematycznej. PWN, Warszawa, 1998.
• A. D. Aczel. Statystyka w zarządzaniu. PWN, Warszawa,
2005.
Zbiory zadań

• A. Zeliaś, B. Pawełek, S. Wanat. Metody statystyczne.


Zadania i sprawdziany. PWE, Warszawa, 2002.
• W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska,
M. Wasilewski. Rachunek prawdopodobieństwa i statystyka
matematyczna w zadaniach. PWN, Warszawa, 1999. (część I
i II)
• J. Greń. Statystyka matematyczna. Modele i zadania, wyd. 8.
PWN, Warszawa 1984.
Blogi

• SmarterPoland.pl (http://smarterpoland.pl/)
• Blog Statystyczny (https://www.statystyczny.pl/)
Wymagania wstępne

1. Statystyka opisowa
• miary położenia, zmienności, asymetrii, . . .
• regresja liniowa
2. Rachunek prawdopodobieństwa
• definicje prawdopodobieństwa;
• własności prawdopodobieństwa;
• prawdopodobieństwo warunkowe; prawdopodobieństwo
całkowite, wzór Bayesa;
• zmienne losowe dyskretne i ciągłe;
• rozkłady zmiennych losowych;
• twierdzenia graniczne.
3. Analiza matematyczna i algebra liniowa
• pochodna funkcji,
• całka nieoznaczona i oznaczona;
• rachunek macierzowy.
Program kursu

I. Prawdopodobieństwo i jego rozkłady


1. Podstawy rachunku prawdopodobieństwa
• definicje i własności prawdopodobieństwa
• twierdzenie Bayesa
2. Zmienne losowe
• zmienna losowa dyskretna i ciągła;
• funkcja i gęstość rozkładu prawdopodobieństwa, dystrybuanta;
• parametry rozkładu zmiennej losowej.
3. Rozkłady teoretyczne zmiennej losowej
• dyskretne — jednopunktowy, dwupunktowy, dwumianowy
Bernoulliego, Poissona, hipergeometryczny, geometryczny.
• ciągłe — jednostajny, normalny, Studenta, chi-kwadrat, F.
• rozkład wielowymiarowej zmiennej losowej, rozkłady brzegowe.
• twierdzenia graniczne.
II. Teoria estymacji
• estymator i jego własności,
• estymacja punktowa i przedziałowa (wartość średnia,
wariancja, wskaźnik struktury),
• estymacja współczynnika korelacji i parametrów regresji
liniowej.
III. Weryfikacja hipotez statystycznych
• testy statystyczne,
• hipotezy parametryczne — test dla wartości średniej, test
istotności wariancji, etc.
• hipotezy nieparametryczne — test zgodności χ2 , test
niezależności χ2 .
IV. Statystyka bayesowska
Definicje prawdopodobieństwa

Klasyczna definicja prawdopodobieństwa


Niech E będzie przestrzenią zdarzeń elementarnych, i A zdarzeniem
losowym. Jeśli m(A) to liczba zdarzeń elementarnych sprzyjających
zdarzeniu A i n(E ) to liczba wszystkich zdarzeń elementarnych,
wtedy
m(A)
P(A) = .
n(E )

Częstościowa definicja prawdopodobieństwa


Jeśli n to liczba wykonanych doświadczeń i mA liczba doświadczeń,
w których zdarzenie A miało miejsce, wtedy
mA
P(A) = lim .
n→∞ n
Aksjomatyczna definicja prawdopodobieństwa
Niech Ω będzie zbiorem wszystkich zdarzeń elementarnych.
Prawdopodobieństwem nazywamy funkcję, która każdemu
zdarzeniu A ⊂ Ω przyporządkowuje liczbę P(A) tak, by spełnione
były warunki
• P(A) ­ 0,
• P(Ω) = 1,
• jeśli A ∩ B = ∅, to P(A ∪ B) = P(A) + P(B).
Własności prawdopodobieństwa
Jeśli P jest prawdopodobieństwem określonych na podzbiorach Ω,
to dla dowolnych zdarzeń A, B ⊂ Ω prawdziwe są związki
1. Prawdopodobieństwo zdarzenia niemożliwego równa się zeru

P(∅) = 0.

2. Jeżeli zdarzenie A pociąga zdarzenie B, A ⊂ B, to

P(A) ¬ P(B).

3. Prawdopodobieństwo dowolnego zdarzenia jest nie większe od


jedności
P(A) ¬ 1, A dowolne.
4. Jeżeli zdarzenie A pociąga zdarzenie B, A ⊂ B, to

P(B \ A) = P(B) − P(A).


5. Jeżeli zdarzenia A1 , . . . , An są rozłączne parami, to

P(A1 ∪ . . . ∪ An ) = P(A1 ) + · · · + P(An ).

6. Suma prawdopodobieństw zdarzeń przeciwnych równa się


jedności
P(A) + P(A0 ) = 1.
7. Prawdopodobieństwo alternatywy dwóch dowolnych zdarzeń
(czyli prawdopodobieństwo zajścia co najmniej jednego z tych
zdarzeń) jest równe sumie prawdopodobieństw tych zdarzeń
pomniejszonej o prawdopodobieństwo ich koniunkcji, czyli

P(A ∪ B) = P(A) + P(B) − P(A ∩ B).


Prawdopodobieństwo warunkowe

Zakładamy, że P(B) > 0, wtedy

P(A ∩ B)
P(A|B) =
P(B)

Gdy zdarzenia A i B są niezależne, to P(A ∩ B) = P(A) P(B),


i zdarzenie B nie wpływa na prawdopodobieństwo zdarzenia A

P(A ∩ B) P(A) P(B)


P(A|B) = = = P(A).
P(B) P(B)
Prawdopodobieństwo zupełne

Jeśli zdarzenia Ai , i = 1, . . . , n wykluczają się parami i ich suma


jest zdarzeniem pewnym, wtedy zdarzenia te tworzą układ zupełny.

Prawdopodobieństwo zupełne
n
X
P(B) = P(Ai )P(B|Ai ).
i=1
Przykład
Mamy trzy grupy studentów: 15, 20 i 25 osób.
Prawdopodobieństwo dostania „5” wynosi 20% w pierwszej grupie;
12,5% w drugiej i 10% w trzeciej. Jakie jest prawdopodobieństwo,
że losowo wybrany student z tych trzech grup dostanie „5”?

P(Ai ) — prawdopodobieństwo wybrania studenta z grupy i


15 1 20 1 25 5
P(A1 ) = = , P(A2 ) = = , P(A3 ) = =
60 4 60 3 60 12
P(B|Ai ) — prawdopodobieństwo, że student z grupy i dostanie
„5”
1 1 1
P(B|A1 ) = , P(B|A2 ) = , P(B|A3 ) = .
5 8 10
P(B) — prawdopodobieństwo, że student dostanie „5”
n
X 1 1 1 1 5 1 2
P(B) = P(Ai )P(B|Ai ) = · + · + · = = 0,133
i=1
4 5 3 8 12 10 15
Wzór Bayesa
Ze wzoru na prawdopodobieństwo zupełne wynika wzór Bayesa

P(Ai )P(B|Ai )
P(Ai |B) = Pn ,
i=1 P(Ai )P(B|Ai )

• P(Ai |B) — prawdopodobieństwo a posteriori;


• P(Ai ) — prawdopodobieństwo a priori;
Pn
• i=1 P(Ai )P(B|Ai ) — prawdopodobieństwo warunkowe
zdarzenia B.
Dodatkowa informacja, że może mieć miejsce zdarzenie B,
powoduje, że prawdopodobieństwo zdarzenia Ai jest większe lub
mniejsze niż sądziliśmy, gdy informacja o zdarzeniu B nie była
brana pod uwagę.

Prawdopodobieństwo a priori w praktyce jest trudne do oceny i


wielu badaczy określa to prawdopodobieństwo subiektywnie.
Przykład

Korzystamy z danych w poprzednim przykładzie. Student dostał


„5”. Jakie jest prawdopodobieństwo, że uczył się w pierwszej
grupie?

P(A1 |B) — prawdopodobieństwo, że student uczył się pierwszej


grupie pod warunkiem, że dostał „5”

P(A1 )P(B|A1 )
P(A1 |B) = P3
i=1 P(Ai )P(B|Ai )
1 1 1
· 3
= 1 1 14 15 5 1 = 20
2 = = 0,375.
4 · 5 + 3 · 8 + 12 · 10 15
8
Zamiast zdarzeń A i B mamy dane D i hipotezy Hi .

P(D|Hi ) to prawdopodobieństwo otrzymania danych D pod


warunkiem, że prawdziwa jest hipoteza Hi
P(D ∩ Hi )
P(D|Hi ) = ⇒ P(D ∩ Hi ) = P(Hi ) P(D|Hi )
P(Hi )
Analogicznie
P(Hi )P(D|Hi )
P(Hi |D) = Pn
i=1 P(Hi )P(D|Hi )

Prawdopodobieństwo hipotezy Hi wyrażone jest przez:


• prawdopodobieństwo uzyskania danych D przy jej
prawdziwości, czyli P(D|Hi ),
• stopień naszego zaufania do hipotezy Hi (niezależny od
eksperymentu, w którym uzyskaliśmy dane D), czyli P(Hi ),
• całkowite prawdopodobieństwo uzyskania danych D dla
wszystkich możliwych hipotez Hi .
Podstawowe definicje

Badanie statystyczne — Zespół czynności, zmierzających do


uzyskania za pomocą metod statystycznych informacji
charakteryzujących zbiorowość objętą badaniem.

Populacja generalna (zbiorowość generalna, zbiorowość


statystyczna) — Zbiór (agregat) dowolnych elementów (osób,
przedmiotów, zdarzeń) powiązanych ze sobą logicznie
(posiadających wspólną cechę stałą), ale nieidentycznych z punktu
widzenia badanej cechy (lub cech).

Próba (próbka) — część, tj. podzbiór populacji, podlegający


bezpośrednio badaniu ze względu na ustaloną cechę, w celu
wyciągnięcia wniosków o kształtawaniu się wartości tej cechy w
populacji.
Badanie całkowite (wyczerpujące, pełne) — Badanie
statystyczne w którym, obserwacji podlegają wszystkie elementy
zbiorowości generalnej.

Badanie częściowe — Badanie statystyczne, w którym obserwacji


podlega tylko część zbiorowości generalnej, tj. próba, a wyniki
badania są uogólniane na całą zbiorowość generalną (populację
generalną).
Losowy wybór próby — Technika pobierania próby z badanej
populacji generalnej, która spełnia dwa następujące warunki:
1) każda jednostka populacji ma dodatnie i znane
prawdopodobieństwo dostania się do próby;
2) dla każdego zespołu jednostek populacji można ustalić
prawdopodobieństwo tego, że w całości znajdzie się on w populacji.

Nielosowy wybór próby — Technika wyboru próby, która nie


spełnia choć jednego z dwóch warunków określonych w definicji
losowego wyboru próby. Najpopularniejszymi technikami
nielosowego wyboru próby są: wybór przypadkowy, wybór dogodny,
wybór celowy i wybór kwotowy.
Próba losowa — Próba pobrana za pomocą odpowiednich technik
probabilistycznych (losowy wybór próby).

Próba reprezentatywna — Próba, której struktura ze względu na


badane cechy (zmienne) jest zbliżona do struktury populacji
statystycznej, z której pochodzi. Reprezentatywność próby (próba
reprezentatywna) można uzyskać stosując zarówno losowe
(probabilistyczne) jak i nielosowe (nieprobabilistyczne) techniki
wyboru próby, np próba kwotowa.
Próba duża — Próba losowa o wystarczającej liczebności, aby
rozkład statystyki z próby mógł być z dobrym przybliżeniem
zastąpiony przez jej rozkład graniczny.

Próba mała — Próba losowa o zbyt małej liczebności, aby rozkład


statystyki z próby mógł być z dobrym przybliżeniem zastąpiony
przez jej rozkład graniczny.

Źródło: GUS: Podstawowe pojęcia statystyczne


Zmienna losowa

Zmienna losowa to taka zmienna, która przyjmuje w wyniku


doświadczenia różne wartości z określonym prawdopodobieństwem.

Zmienna losowa (związana z pewnym doświadczeniem), to taka


zmienna, która w wyniku doświadczenia przyjmuje wartość
liczbową zależną od przypadku, a więc nie dającą się ustalić przed
przeprowadzeniem doświadczenia.
Zmienna losowa skokowa (dyskretna)

Zmienna losowa dyskretna X przyjmuje skończoną liczbę


wartości xi z przyporządkowanym im prawdopodobieństwem pi

P(X = xi ) = pi .

Rozkład prawdopodobieństwa zmiennej losowej dyskretnej


jest funkcją pi = f (xi ).
Dystrybuanta zmiennej losowej
Dystrybuanta zmiennej losowej skokowej X to funkcja, której
wartości są równe prawdopodobieństwu, że zmienna losowa
przyjmie wartości mniejsze od określonej liczby x

F (x) = P(X < x).

Jest to skumulowane prawdopodobieństwo, że X < x.

Własności dystrybuanty

0 ¬ F (x) ¬ 1, dla każdego x,


F (x) = 0, dla x ¬ x1
F (x) = 1, dla x > xk ,

gdzie X = {x1 , x2 , . . . , xk }.
Zmienna losowa ciągła

Zbiór możliwych wartości zmiennej losowej ciągłej jest


nieskończony i nieprzeliczalny.

Zmienną losową typu ciągłego nazywamy zmienną losową X , dla


której istnieje taka nieujemna funkcja f (x), że dystrybuanta
zmiennej losowej X dana jest wzorem
Z x
F (x) = P(X < x) = f (t) dt.
−∞

Funkcja f (x) to funkcja gęstości prawdopodobieństwa zmiennej


losowej ciągłej.
Funkcja gęstości prawdopodobieństwa

Własności funkcji gęstości prawdopodobieństwa


• f (x) ­ 0,
R +∞
• −∞ f (x) dx = 1.

Prawdopodobieństwo, że wartość zmiennej losowej X należy do


przedziału (a, b) wynosi
Z b
P(a < x < b) = f (x) dx = F (b) − F (a),
a

czyli prawdopodobieństwo to równa się różnicy dystrybuant.


Parametry rozkładu zmiennej losowej skokowej

Wartość oczekiwana zmiennej losowej skokowej


n
X
E (X ) = µ = p1 x1 + p2 x2 + · · · + pn xn = pi x i
i=1

Wariancja zmiennej losowej skokowej

D 2 (X ) = σ 2 = p1 (x1 − µ)2 + p2 (x2 − µ)2 + · · · + pn (xn − µ)2


n
X
= pi (xi − µ)2 = E [X − E (X )]2 .
i=1

Wariancję można także przedstawić jako

D 2 (X ) = E (X 2 ) − [E (X )]2 .
Parametry rozkładu zmiennej losowej ciągłej

Wartość oczekiwana zmiennej losowej ciągłej


Z +∞
E (X ) = µ = x f (x) dx.
−∞

Wariancja zmiennej losowej ciągłej


Z +∞
2 2
D (X ) = σ = (x − µ)2 f (x) dx = E [X − E (X )]2 .
−∞

Wariancję można także przedstawić jako


Z +∞ Z +∞ 2
2 2
D (X ) = x f (x) dx − xf (x) dx = E (X 2 )−[E (X )]2 .
−∞ −∞
Własności parametrów rozkładu zmiennych losowych
Niech X i Y to zmienne losowe, a C to stała.

Twierdzenia o wartości oczekiwanej

E (C ) = C
E (CX ) = CE (X )
E (X ± Y ) = E (X ) ± E (Y )
E (XY ) = E (X )E (Y ), gdy zmienne X i Y są niezależne.

Twierdzenia o wariancji

D 2 (C ) = 0
D 2 (CX ) = C 2 D 2 (X )
D 2 (X ± Y ) = D 2 (X ) + D 2 (Y ), gdy zmienne X i Y są niezależne.
Miary zróżnicowania zmiennej losowej

Odchylenie standardowe — przeciętne odchylenie wartości


zmiennej losowej od wartości oczekiwanej
q √
D(X ) = D 2 (X ) lub σ = σ2.

Współczynnik zmienności — względne zróżnicowanie wartości


zmiennej losowej X jest określone przez

D(X )
V (X ) = .
|E (X )|
Momenty statystyczne

Parametry opisowe takie jak wartość oczekiwana, wariancja należą


do grupy parametrów zwanych momentami statystycznymi.

Dzielą się one na


• momenty absolutne
• momenty względne
oraz na
• momenty zwykłe
• momenty centralne
Momentem absolutnym rzędu k nazywa się wartość przeciętną
zmiennej losowej |X − C |k , gdzie C oznacza dowolną liczbę
rzeczywistą, zwaną punktem odniesienia, natomiast k jest liczbą
naturalną.

Momentem względnym rzędu k lub krótko — momentem


rzędu k nazywa się wartość przeciętną zmiennej losowej (X − C )k .

Momenty, których punkt odniesienia C = 0, nazywają się


momentami zwykłymi. Momenty te oznacza się mk , to znaczy

mk = E (X )k .

Momenty, których punkt odniesienia C = E (X ), nazywają się


momentami centralnymi. Momenty centralne oznacza się µk

µk = E [X − E (X )]k .
Wartość oczekiwana jest momentem zwykłym pierwszego rzędu

m1 = E (X )1 = E (X ).

Wariancja jest momentem centralnym drugiego rzędu

µ2 = E (X − E (X ))2 = E (X − m1 )2 = D 2 (X ).

Każdy momenty centralny można wyrazić za pomocą momentów


zwykłych

µ0 = E (X − m1 )0 = m0 = 1
µ1 = E (X − m1 )1 = m1 − m1 = 0
µ2 = E (X − m1 )2 = m2 − m12 = D 2 (X )
µ3 = E (X − m1 )3 = m3 − 3m2 m1 + 2m13 .
Skośność

Skośność (współczynnik asymetrii)


µ3
A= 3/2
µ2

rozkład lewostronnie skośny A<0


rozkład symetryczny A=0
rozkład prawostronnie skośny A > 0.
Kurtoza

Kurtoza (współczynnik spłaszczenia)


µ4
K=
µ22

lub nadwyżka kurtozy (częściej obecnie używana i nazywana po


prostu kurtozą)
µ4
K = 2 − 3.
µ2

rozkład platokurtyczny K <0


rozkład mezokurtyczny K =0
rozkład leptokurtyczny K > 0.
Rozkłady zmiennej losowej

Empiryczny rozkład zmiennej losowej


• szereg rozdzielczy,
• histogram,
• kwantyl,
• wykres pudełkowy.

Rozkład teoretyczny zmiennej losowej


• funkcja rozkładu prawdopodobieństwa (rozkład dyskretny),
• funkcja gęstości prawdopodobieństwa (rozkład ciągły).
Rozkłady dyskretne

• rozkład jednopunktowy
• rozkład dwupunktowy
• rozkład dwumianowy
• rozkład Poissona
• rozkład geometryczny
• rozklad hipergeometryczny
Rozkład jednopunktowy

Zmienna losowa X przyjmuje tylko jedną wartość

P(X = x0 ) = 1

Dystrybuanta F (x) tego rozkładu jest dana wzorem


(
0, dla x ¬ x0 ,
F (x) =
1, dla x > x0 .

Wartość przeciętna i wariancja rozkładu

E (X ) = x0 , D 2 (X ) = 0.
Rozkład dwupunktowy

Zmienna losowa skokowa X przybiera tylko dwie wartości

P(X = x1 ) = 1 − p = q
P(X = x2 ) = p.

Dystrybuanta F (x) tego rozkładu jest dana wzorem



0,

 dla x ¬ x1 ,
F (x) = q, dla x1 < x ¬ x2 ,


1, dla x > x2 .
Zmienna zero-jedynkowa

Szczególnym przypadkiem rozkładu dwupunktowego jest rozkład


zmiennej losowej zero-jedynkowej, gdzie x1 = 0 i x2 = 1.
Dystrybuanta F (x) tego rozkładu jest dana wzorem

0,

 dla x ¬ 0,
F (x) = q, dla 0 < x ¬ 1,


1, dla x > 1.

Wartość przeciętna i wariancja rozkładu

E (X ) = p, D 2 (X ) = pq.
Rozkład dwumianowy (Bernoulliego)
Jest to rozkład zmiennej losowej skokowej X , która przyjmuje
wartość k sukcesów z n prób, z prawdopodobieństwem
!
n k n−k
P(X = k) = p q ,
k

gdzie p to prawdopodobieństwo sukcesu i q = 1 − p.

Dystrybuanta
X
F (x) = P(X < x) = P(X = k).
0¬k<x

Wartość oczekiwana i wariancja rozkładu

E (X ) = np, D 2 (X ) = npq.
Rozkład Poissona

Jeżeli n jest duże (n > 100), a p jest małe (p ¬ 0,02) i iloczyn


np = λ jest pewną stałą, to dobrym przybliżeniem rozkładu
dwumianowego jest rozkład Poissona

λk −λ
P(X = k) ' e
k!
Dystrybuanta
X
F (x) = P(X < x) = P(X = k).
0¬k<x

Wartość przeciętna i wariancja rozkładu

E (X ) = np = λ, D 2 (X ) = np = λ.
Rozkład geometryczny

Rozkład geometryczny opisuje prawdopodobieństwo zdarzenia, że


proces Bernoulliego odniesie pierwszy sukces dokładnie w k-tej
próbie.
P(X = k) = (1 − p)k−1 p.
Wartość przeciętna i wariancja rozkładu
1 1−p
E (X ) = , D 2 (X ) = .
p p2
Rozkład hipergeometryczny
Prawdopodobieństwo sukcesu zmienia się w kolejnych
doświadczeniach (np. losowanie bez zwracania).

Z populacji generalnej, liczącej N elementów, wylosowano


(losowanie zależne) n elementową próbę. Jeśli wiadomo, że M
elementów w populacji generalnej ma pewną cechę C , a pozostałe
N − M elementów inną cechę C̄ , to prawdopodobieństwo, że r
elementów w próbie ma cechę C wynosi
M  N−M 
r n−r
P(X = r ) = N
.
n

Wartość przeciętna i wariancja rozkładu


M N −n
E (X ) = n = np, D 2 (X ) = np(1 − p) .
N N −1
Rozkłady typu ciągłego — parametry
Funkcja gęstości prawdopodobieństwa najczęściej zależy od
pewnych stałych zwanych parametrami. Ogólnie wyróżniamy
następujące rodzaje parametrów
• parametr skali α — gęstość prawdopodobieństwa zmiennej X

1 x
 
f , α>0
α α
X
nowa zmienna U = α, gęstość rozkładu zmiennej U, to f (U);
• parametr przesunięcia λ — gęstość prawdopod. zmiennej X

f (x − λ)

nowa zmienna T = X − λ, gęstość rozkładu zmiennej T to


f (t).
• parametr kształtu — parametr, który nie jest ani parametrem
skali ani parametrem przesunięcia.
Liczba stopni swobody

Inną wielkością charakteryzującą niektóre rozkłady ciągłe jest


liczba stopni swobody.

Liczba stopni swobody to liczba niezależnych obserwacji


(informacji), z których możemy otrzymać nowy parametr
(informację).

Chcemy obliczyć wariancję pewnej zmiennej. Mamy n niezależnych


obserwacji. Estymujemy jeden parametr – średnią arytmetyczną.
Do obliczenia zmienności, pozostało mam tylko n − 1 obserwacji,
więc liczba stopni swobody wynosi n − 1.
Najważniejsze rozkłady ciągłej zmiennej losowej
• rozkład równomierny typu ciągłego,
• rozkład wykładniczy,
• rozkład gamma,
• rozkład normalny,
• rozkład Studenta
• rozkład chi-kwadrat,
• rozkład F ,
• rozkład Weibulla,
• rozkład Pareta.
Rozkład jednostajny (równomierny, jednorodny)

Zmienna losowa X może przyjmować każdą wartość rzeczywistą z


przedziału [a, b]. Gęstość prawdopodobieństwa tej zmiennej losowej
ma postać
(
c, dla a ¬ x ¬ b,
f (x) =
0, dla x < a lub x > b.

Wartość przeciętna i wariancja rozkładu


b+a 1
E (X ) = , D 2 (X ) = (b − a)2 .
2 12
Funkcja gamma

Funkcja specjalna Γ argumentu p zespolonego o części rzeczywistej


dodatniej nazywamy całkę
Z ∞
Γ(p) = x p−1 e −x dx, Re p > 0.
0

Gdy p jest liczbą rzeczywistą dodatnią, obliczając powyższą całkę


przez części, otrzymujemy

Γ(p + 1) = p Γ(p), p>0

Gdy p jest liczbą naturalną p = n, n ∈ N , to

Γ(n + 1) = n!.
Rozkład gamma

Rozkład gamma zmiennej losowej X ma dwa parametry: parametr


kształtu α i parametr skali β. Oznacza się go symbolem Γ(α, β).
Funkcja gęstości prawdopodobieństwa ma postać

1 α−1 e −x/β ,
Γ(α)β α x dla x > 0,

f (x) =
0, dla x ¬ 0.

Wartość przeciętna i wariancja rozkładu

E (X ) = αβ, D 2 (X ) = αβ 2 .
Rozkład wykładniczy

Szczególny przypadek rozkładu gamma dla α = 1 i β = 1/λ


nazywa się rozkładem wykładniczym E (λ).

Zmienna losowa X ma rozkład wykładniczy o parametrze λ > 0


(parametr skali), jeśli jej gęstość prawdopodobieństwa f ma postać
(
1
exp − λx ,

λ dla x ­ 0,
f (x) =
0, dla pozostałych x.

Wartość oczekiwana i wariancja rozkładu

E (X ) = λ, D 2 (X ) = λ2 .

Jest to rozkład prawdopodobieństwa, że zmienna losowa zmieni


stan w czasie x. Na przykład czas bezawaryjnej pracy urządzenia.
Rozkład normalny
Zmiennej losowej X o rozkładzie normalnym (Gaussa-Laplace’a),
co zapisujemy jako X ∼ N(µ, σ), przypisujemy gęstość
prawdopodobieństwa
" 2 #
1 1 x −µ

f (x) = √ exp − , x ∈ R.
σ 2π 2 σ

Dystrybuanta rozkładu normalnego


Z x " 2 #
1 1 t −µ

F (x) = P(X < x) = √ exp − dt.
σ 2π −∞ 2 σ

Wartość przeciętna i wariancja rozkładu

E (X ) = µ, D 2 (X ) = σ 2 .
Zmienna standaryzowana

Zmienna losowa standaryzowana


X −µ
U=
σ
Gęstość prawdopodobieństwa zmiennej losowej standaryzowanej
1 1
 
f (u) = √ exp − u 2 , −∞ < u < ∞.
2π 2
Reguła trzech sigm

Własności rozkładu normalnego

P(µ − σ < X < µ + σ) = 0,6826


P(µ − 2σ < X < µ + 2σ) = 0,9545
P(µ − 3σ < X < µ + 3σ) = 0,9973.

Reguła trzech sigm — praktycznie wszystkie obserwacje mieszczą


się w przedziale (µ − 3σ, µ + 3σ); obserwacje nie należące do tego
przedziału w praktyce eliminuje się jako nietypowe.
Rozkład Studenta (rozkład t)
Funkcja gęstości rozkładu t
!− ν+1
Γ( ν+1 ) t2 2
f (t) = √ 2 ν 1+ ,
νπΓ( 2 ) ν

gdzie ν jest oznaczeniem liczby stopni swobody.

Wartość oczekiwana i wariancja rozkładu


(
niezdefiniowana dla ν ¬ 1
E (Y ) =
0 dla ν > 1,

niezdefinowana

 dla n ¬ 1
2
D (Y ) = ∞ dla 1 < n ¬ 2

 ν

dla n > 2.
ν−2
Rozkład chi-kwadrat

Dany jest ciąg niezależnych zmiennych losowych o rozkładzie


Xi ∼ N(0, 1), i ∈ 1, . . . , n.

Wtedy zmienna losowa


n
X
Y ∼ Xi2
i=1

ma rozkład chi-kwadrat o n stopniach swobody χ2 (n).

Rozkład χ2 jest szczególnym przypadkiem rozkładu gamma.


Funkcja gęstości prawdopodobieństwa rozkładu χ2 (n) zmiennej y

1 n n
f (y ) = y 2 −1 e − 2 , y > 0.
2n/2 Γ(n/2)

gdzie n jest oznaczeniem liczby stopni swobody.

Wartość oczekiwana i wariancja rozkładu

E (Y ) = n, D 2 (Y ) = 2n.
Rozkład F

Niezależne zmienne losowe Y1 i Y2 mają rozkład χ2 o d1 i d2


stopniach swobody. Wtedy zmienna losowa
Y1
d1
F (d1 , d2 ) = Y2
d2

ma rozkład F (także nazywany rozkładem Snedecora-Fischera) o


d1 i d2 stopniach swobody.
Inne rozkłady typu ciągłego

Z pośród wielu rozkładów zmiennej losowej ciągłej w analizie


problemów ekonomicznych wykorzystujemy
• rozkład logarytmiczno-normalny,
• rozkład Weibulla,
• rozkład Pareta.
Rozkład logarytmiczno-normalny
Niech zmienna losowa X ma rozkład normalny, wtedy zmienna
Y = e X podlega rozkładowi logarytmiczno-normalnemu, którego
gęstość jest dana przez
1 1
 
2
f (y ) = √ exp − (ln y ) , −∞ < u < ∞.
2πy 2
Wielowymiarowe zmienne losowe

Wtedy gdy mierzymy dwie lub więcej wielkości naraz, może


interesować nas ich łączny rozkład, a nie tylko rozkład każdej
wielkości z osobna.

Będą nas interesować dwa rodzaje rozkładów


• rozkłady łączne,
• rozkłady brzegowe.
Rozkłady dyskretne

Mamy dwie zmienne losowe X i Y . Parę X , Y traktujemy jako


dwuwymiarową zmienną losową (wektor losowy).

Funkcja łącznego rozkładu prawdopodobieństwa

pij = P(X = xi , Y = yj ) = f (xi , yj ).

Dystrybuanta

F (xi , yj ) = P(X < xi , Y < yj ).


Rozkłady ciągłe

Dystrybuanta dwuwymiarowej zmiennej losowej ciągłej


Z x Z y
F (x, y ) = P(X < x, Y < y ) = f (w , v ) dw dv .
−∞ −∞

Funkcja f (w , v ) jest dwuwymiarową funkcją gęstości


prawdopodobieństwa

Liczba zmiennych losowych może być dowolna i wtedy mówimy o


n-wymiarowym rozkładzie (lub dystrybuancie) zmiennej losowej
(liczba zmiennych losowych może być także nieskończona).
Rozkład brzegowy

Rozkład brzegowy dla dyskretnych zmiennych losowych


X X
pi · = P(X = xi ) = P(X = xi , Y = yj ) = pij
j j
X X
p· j = P(Y = yj ) = P(X = xi , Y = yj ) = pij .
i i

Rozkład brzegowy dla zmiennych losowych ciągłych (X , Y )


Z +∞
fX (x) = f (x, y ) dy
−∞
Z +∞
fY (y ) = f (x, y ) dx
−∞
Niezależność ciągłych zmiennych losowych

Zmienne losowe X i Y są od siebie niezależne, jeżeli dla każdej


pary liczb x1 , x2 oraz y1 , y2

P(x1 ¬ X ¬ x2 , y1 ¬ Y ¬ y2 ) = P(x1 ¬ X ¬ x2 )P(y1 ¬ Y ¬ y2 ).


P (x2 )
P (x1 )

0.4
P

0.2

0
−1 4
P (x1 , x2 )
0 3
0.15
1 2
0.1
2 1
x1 x2
5 · 10−2
3 0
0
4 −1
Momenty dwuwymiarowych zmiennych losowych

Niech jako przykład posłuży nam wartość oczekiwana.

Dla wektora zmiennych losowych dyskretnych


XX
EZ = E (XY ) = g (x, y )pij .
i j

Dla wektora zmiennych losowych ciągłych


Z +∞ Z +∞
EZ = E (XY ) = g (x, y )f (x, y ) dxdy .
−∞ −∞
Współczynnik korelacji

Suma wartości oczekiwanych

E (X + Y ) = E (X ) + E (Y )

Suma wariancji

D 2 (X + Y ) = D 2 (X ) + D 2 (Y ) + 2[E (XY ) − E (X )E (Y )].

Jeśli wariancje obu zmiennych losowych istnieją, to możemy


zdefiniować współczynnik korelacji

E (XY ) − E (X )E (Y )
ρXY = q .
D 2 (X ) · D 2 (Y )

Jeśli zmienne losowe są niezależne, to są nieskorelowane.


Prawa wielkich liczb

Prawo wielkich liczb Bernoulliego zostało sformułowane przez


Jakuba Bernoulliego na przełomie XVII i XVIII wieku.

Z prawdopodobieństwem dowolnie bliskim 1 można się spodziewać,


iż z przy dostatecznie wielkiej liczbie powtórzeń eksperymentu
losowego, z których każdy kończy się sukcesem lub porażką
częstość wystąpienia sukcesu sukcesu w serii eksperymentów będzie
się dowolnie mało różniła od jego prawdopodobieństwa.

Niech Sn będzie liczbą sukcesów w n próbach Bernoulliego z


prawdopodobieństwem sukcesu p
Sn n→∞
−→ p.
n
Słabe prawo wielkich liczb
Niech {Xn } będzie ciągiem zmiennych losowych, dla których
EXi = µi < ∞ dla i ∈ N oraz
n n
1X 1X
X̄n = Xi , E X̄n = EXi .
n i=1 n i=1

Jeśli dla losowego ciągu {Xn } i dla dowolnego ε

lim P(|X̄n − E X̄n | ­ ε) = 0,


n→∞

to mówimy, że dla tego ciągu zachodzi słabe prawo wielkich liczb.


Centralne twierdzenia graniczne

Twierdzenie (Lindeberga-Lévy’ego)
Jeżeli {Xn } jest losowym ciągiem niezależnych zmiennych losowych
o jednakowym rozkładzie, o wartości przeciętnej µ i skończonej
wariancji 0 < D 2 Xn = σ 2 < ∞, to ciąg (Fn ) dystrybuant
standaryzowanych średnich arytmetycznych X̄n (albo
standaryzowanych sum ni=1 Xi )
P

Pn
X̄n − µ i=1 Xn − nµ
Yn = = √
√σ σ n
n

jest zbieżny do dystrybuanty Φ rozkładu N(0, 1).


Innymi słowy rozkład standaryzowanej średniej arytmetycznej z
próby dąży do rozkładu normalnego N(0, 1), gdy liczebność n
próby dąży do nieskończoności.
Twierdzenie (Moivre’a-Laplace’a)
Jeśli {Xn } jest ciągiem zmiennych losowych o rozkładzie
dwumianowym z parametrami (n, p), 0 < p < 1 (a więc o wartości
przeciętnej E (Xn ) = np i wariancji D 2 (Xn ) = npq oraz Yn jest
ciągiem standaryzowanych zmiennych losowych
Xn − np
Yn = √ ,
npq

to dla każdej pary wartości y1 < y2 zachodzi wzór


!
Xn − np
lim P y1 < √ < y2 = Φ(y2 ) − Φ(y1 ).
n→∞ npq
Wnioskowanie statystyczne

Rodzaje wnioskowania statystycznego


• estymacja parametrów,
• weryfikacja (testowanie) hipotez statystycznych.
Estymacja

Estymacja statystyczna — szacowanie wartości nieznanych


parametrów rozkładu populacji generalnej.

Estymator — statystyka z próby służąca oszacowaniu nieznanej


wartości parametru populacji.

Ocena parametru — konkretna wartość, jaką przyjmie estymator,


wyliczona dla określonego zbioru obserwacji (próby losowej).
Własności estymatorów

• estymator zgodny — im większa próba, tym dokładniejszy


szacunek tego parametru

dla każdego  > 0 lim P(|Tn − Θ| < ) = 1.


n→∞

• estymator nieobciążony — oszacowanie parametru bez błędu


systematycznego
E (Tn ) = Θ.
• estymator efektywny — estymator o możliwie małej wariancji;
estymator o najmniejszej wariancji spośród wszystkich
nieobciążonych estymatorów jest estymatorem
najefektywniejszym.
Rodzaje estymacji

Estymacja punktowa polega na tym, że za wartość parametru Θ


przyjmuje się obliczoną na podstawie n-elementowej próby losowej
wartość estymatora tego parametru, czyli Θ = tn .

Estymacja przedziałowa parametru Θ polega na budowaniu


takiego przedziału liczbowego, zwanego przedziałem ufności, aby
z odpowiednio bliskim jedności prawdopodobieństwem 1 − α
można było oczekiwać, że wartość interesującego nas parametru Θ
znajduje się w tym przedziale

P(a < Θ < b) = 1 − α.


Estymacja wartości oczekiwanej — średnia arytmetyczna

Średnia z próby X̄ — estymator wartości średniej w populacji


n
1X
X̄ = Xi .
n i=1

to estymator zgodny, nieobciążony i najefektywniejszym.

n n n
!
1X 1 X 1X 1
E (X̄ ) = E Xi = E Xi = E (Xi ) = nµ = µ.
n i=1 n i=1 n i=1 n

n n
!
2 2 1X 1 X 2 1 2 σ2
D (X̄ ) = D Xi = D (Xi ) = nσ = .
n i=1 n2 i=1 n2 n
Estymacja wartości oczekiwanej — mediana

Do oszacowania wartości oczekiwanej tej zmiennej można użyć


mediany.

Mediana jest
• estymatorem zgodnym,
• mniej efektywnym niż średnia arytmetyczna

σ2
D 2 (X̄ ) n 2
e(Me) = ≈ πσ 2
= ≈ 0,64,
D 2 (Me) 2n
π

dlatego mediana jest rzadziej używana do szacowania


parametru µ.
Standaryzowana zmienna losowa X̄

Zmienna losowa X ma rozkład normalny X ∼ N(µ, σ).

Załóżmy, że znamy wartość parametru σ.


Zmienna losowa X̄ ma rozkład normalny: X̄ ∼ N(µ, √σn ).

Zmienna losowa X̄ w postaci standaryzowanej U o rozkładzie


U ∼ N(0, 1)
X̄ − µ X̄ − µ √
U= = n.
D(X̄ ) σ
Standaryzowana zmienna losowa X̄ — model II

Gdy nie znamy µ i σ, wtedy


q odchylenie standardowe jest
1 Pn
estymowane z próby, S = n i=1 (Xi − X̄ )2 .

Zmienną losową X̄ przekształcamy do nowej zmiennej losowej

X̄ − µ √
T = n−1
S
o rozkładzie Studenta z ν = n − 1 stopniami swobody.
Standaryzowana zmienna losowa X̄ — model III

Dla dużej próby n > 30 zamiast zmiennej losowej T o rozkładzie t,


wykorzystujemy zmienną losową o rozkładzie normalnym

X̄ − µ √
U= n,
S
q P
1 n
gdzie S = n i=1 (Xi − X̄ )2 .
Estymacja wariancji — model I

Niech X1 , . . . , Xn to ciąg zmiennych o rozkładzie N(µ, σ), wtedy


zmienna losowa
n n  n
Xi − µ 2 1 X nS∗2
X X 
χ2 = U2 = = (Xi − µ) 2
=
i=1 i=1
σ σ 2 i=1 σ2

gdzie
n
1X
S∗2 = (Xi − µ)2
n i=1
estymator zgodny, nieobciążony
n
!
1X
E (S∗2 ) =E (Xi − µ)2 = σ2
n i=1
Estymacja wariancji — model II
Gdy nie znamy średniej µ, obliczamy X̄ z próby, estymator
wariancji ma postać

1 Pn
estymator obciążony S 2 = n i=1 (Xi − X̄ )2 ,
n
!
2 1X n−1 2
E (S ) = E (Xi − X̄ )2 = σ
n i=1 n

1 Pn
estymator nieobciążony S̃ 2 = n−1 i=1 (Xi − X̄ )2 .
n
!
2 1 X
E (S̃ ) = E (Xi − X̄ )2 = σ2
n − 1 i=1

n
S̃ 2 = n−1 S
2 — poprawka Bessela n/(n − 1).
Estymacja wskaźnika struktury
Niech zbiorowość generalna ma rozkład zero-jedynkowy (np. pewna
cecha, może być również jakościowa, występuje lub nie).

Wskaźnik struktury z próby


m
p̂ =
n
gdzie m to liczba sukcesów w n-elementowej próbie.

Gdy próba mała – rozkład dwumianowy.

Gdy próba duża – rozkład dwumianowy możemy zastąpić


rozkładem normalnym
p̂ − p
U=q .
p(1−p)
n
Estymacja przedziałowa
Przedziałem ufności dla parametru θ na poziomie ufności 1 − α
(0 < α < 1) nazywamy przedział (θ1 , θ2 ) spełniający warunki
• jego końce θ1 = θ1 (X1 , . . . , Xn ), θ2 = θ2 (X1 , . . . , Xn ) są
funkcjami próby losowej i nie zależą od szacowanego
parametru θ;
• prawdopodobieństwo pokrycia przez ten przedział nieznanego
parametru θ jest równe 1 − α, tzn.
P(θ1 (X1 , . . . , Xn ) < θ < θ2 (X1 , . . . , Xn )) = 1 − α

Liczbę 1 − α nazywamy współczynnikiem ufności.

Przedziałem ufności nazywamy taki przedział, który z zadanym z


góry prawdopodobieństwem 1 − α, zwanym współczynnikiem
(poziomem) ufności, pokrywa nieznaną wartość szacowanego
parametru
PΘ (Θ ∈ Ĉ (X )) = 1 − α.
sample run
0 20 40 60 80 100

8.0
8.5
9.0
9.5
10.0
Przedział ufności dla średniej — model I
Zakładamy, że zmienna losowa X ma rozkład N(µ, σ), gdzie
średnia µ jest nieznana, ale odchylenie standardowe σ
w populacji jest znane.

Estymator X̄ ma rozkład N(µ, √σn ).

X̄ −µ √
Zmienna standaryzowana U = σ n ma rozkład N(0, 1) i wtedy

P(−uα < U < uα ) = 1 − α.

X̄ −µ √
Po podstawieniu U = σ n i przekształceniu

σ σ
 
P X̄ − uα √ < µ < X̄ + uα √ = 1 − α.
n n
Przedział ufności dla średniej — model II

Zakładamy, że zmienna losowa X ma rozkład N(µ, σ), gdzie


średnia µ jest nieznana, i również odchylenie standardowe σ
w populacji nie jest znane.

Statystyka T = X̄ S−µ n − 1 ma rozkład t-Studenta z ν = n − 1
stopniami swobody i wtedy

P(−tα < T < tα ) = 1 − α.

X̄ −µ √
Po podstawieniu T = S n − 1 i przekształceniu

S S
 
P X̄ − tα √ < µ < X̄ + tα √ = 1 − α.
n−1 n−1
Przedział ufności dla wariancji

Niech X ma rozkład N(µ, σ), przy czym µ i σ są nieznane.

Estymatorem parametru σ 2 jest wariancja z próby S 2 . Przedział


ufności dla σ 2 może być zbudowany na podstawie statystyki

nS 2
χ2 = ,
σ2
która ma rozkład chi-kwadrat o n − 1 stopniach swobody.

Dla przyjętego współczynnika ufności 1 − α przedział ufności ma


postać  
P χ21− α < χ2 < χ2α = 1 − α.
2 2
Przedział ufności dla wariancji

nS 2
Po podstawieniu χ2 = σ2
i przekształceniu
 
nS 2 nS 2
P  2 < σ 2 < 2  = 1 − α.
χα χ1− α
2 2
Przedział ufności dla odchylenia standardowego
Przedział ufności dla odchylenia standardowego σ otrzymujemy,
biorąc pierwiastki kwadratowe dla wszystkich członów nierówności
podwójnej
v v 
u 2
u nS u nS 2
u
P t 2 < σ < t  = 1 − α.
χα 2
χ1− α
2 2

Gdy n jest duże (n > 30), estymator S parametru σ ma


asymptotyczny rozkład N(σ, √σ2n ). Wtedy przybliżony przedział
ufności wynosi
!
S S
P <σ< = 1 − α.
1 + √u2n
α
1 − √u2n
α
Przedział ufności dla wskaźnika

Gdy n jest małe (n < 30), korzystamy z dokładnego rozkładu


estymatora
m
p̂ =
n
jakim jest rozkład dwumianowy
q ze średnią E (p̂) = p i odchyleniem
p(1−p)
standardowym D(p̂) = n .

Istnieją tablice, z których można odczytać granice przedziału


ufności dla p, przy zadanym 1 − α, m i n.
Przedział ufności dla wskaźnika

Gdy n jest duże (n > 100), a p > 0,05, to estymator p̂ = m/n ma



q
p(1−p)
rozkład asymptotycznie normalny o parametrach N p, n ,
a statystyka U = qp̂−p ma rozkład normalny N(0, 1).
p(1−p)
n
 
p̂ − p
P −uα < q < uα  ' 1 − α.
p(1−p)
n

Przedział ufności
 s s 
p(1 − p) p(1 − p) 
P p̂ − uα < p < p̂ + uα ' 1 − α,
n n

gdzie p zastępujemy wartością wskaźnika otrzymaną z próby p̂.


Liczebność próby
Przedział ufności w przypadku estymacji przedziałowej średniej
można przedstawić jako
σ
µ = X̄ ± uα √ = X̄ ± d.
n

Długość przedziału wynosi d = 2uα √σn . Widzimy, że zależy on od


wielkości próby losowej n.

Przy zadanym z góry poziomie ufności (1 − α) możemy określić jak


duża powinna być próba, by maksymalny błąd szacunku wartości
średniej nie był większy niż d

σ uα2 σ 2
uα √ ¬ d ⇒ n­ .
n d2
Przykład

Pan Kowalski ubiega się o mandat do Sejmu. Jego sztab wyborczy


chce na poziomie ufności 1 − α = 0,95 oszacować procent
wyborców, którzy poprą kandydaturę pana Kowalskiego. Ile osób
należy wylosować niezależnie do próby, aby błąd szacunku nie
przekroczył d = 3%?
s
p(1 − p) uα2 p(1 − p)
uα ¬d ⇒ n­ .
n d2
Z tablic dla 1 − α = 0,95 mamy wartość uα = 1,96. Jeśli d = 0,03
to
(1,96)2
n­ = 1067,07
4(0,03)2
Do próby należy wylosować minimalnie 1068 osób.
Przykład

Pan Kowalski ubiega się o mandat do Sejmu. Jego sztab wyborczy


chce na poziomie ufności 1 − α = 0,95 oszacować procent
wyborców, którzy poprą kandydaturę pana Kowalskiego. Ile osób
należy wylosować niezależnie do próby, aby błąd szacunku nie
przekroczył d = 3%?
s
p(1 − p) uα2 p(1 − p)
uα ¬d ⇒ n­ .
n d2
Z tablic dla 1 − α = 0,95 mamy wartość uα = 1,96. Jeśli d = 0,03
to
(1,96)2
n­ = 1067,07
4(0,03)2
Do próby należy wylosować minimalnie 1068 osób.
Metody estymacji parametrów

Problem:
Chcemy wyznaczyć parametry a1 , . . . , ap zmiennej losowej X .

• metoda momentów
• metoda największej wiarygodności
• metoda najmniejszych kwadratów – minimum odpowiednio
skonstruowanej funkcji obserwacji i parametrów,
Metoda momentów

Metoda momentów polega na porównaniu momentów – najczęściej


kolejnych – rozkładu zmiennej losowej X (będących funkcjami
nieznanych parametrów) z momentami próby. Otrzymuje się, w ten
sposób, układ równań, którego rozwiązanie wyznacza estymatory.
Niech momentem zwykłym rzędu k będzie
hk (a1 , . . . , ap ),
natomiast momentem z próby x1 , . . . , xn rzędu k
n
1X
mk = xk.
n i=1 i

Jeśli p momentów zwykłych rzędów k1 , . . . , kp porówna się z


momentami zmiennej losowej odpowiednich rzędów, to otrzyma się
układ p równań
mk1 = hk1 (a1 , . . . , ap )
..
.
mkp = hkp (a1 , . . . , ap )
przy czym rzędy momentów dobierane są tak, aby istniało
jednoznaczne rozwiązanie układu równań. Poszczególne
rozwiązania względem parametrów aj wyznaczają estymatory.
Przykład

Załóżmy, że mamy n realizacji x1 , . . . , xn zmiennych losowych o


rozkładzie N(a, σ 2 ). Wyznaczmy estymator parametru a metodą
momentów.

Moment rozkładu pierwszego rzędu wynosi h1 (a) = a, natomiast


moment z próby m1 = x̄. W tym przypadku zamiast ukladu
równań mamy jedno równanie

m1 = h1 (a).

Po podstawieniu m1 = x̄ otrzymuje się równanie x̄ = a, którego


rozwiązanie â = x̄ jest estymatorem parametru a.
Metoda największej wiarygodności

Niech funkcją wiarygodności próby x1 , . . . , xn będzie

L = Πni=1 fi (xi ; a1 , . . . , ap ),

gdzie funkcja fi (xi ; a1 . . . , ap ) jest gęstością prawdopodobieństwa


obserwacji i, gdzie i = 1, . . . , n.

Maksimum funkcji L spełnia układ równań


∂ ln L
= 0, j = 1, . . . , p,
∂aj

którego rozwiązanie wyznacza estymatory âj .


Przykład I
Załóżmy, że pobrano n elementową próbę prostą pobraną z
populacji o rozkładzie wykładniczym

f (x; a) = ae −ax , a > 0, x > 0.

Wyznaczmy estymator największej wiarygodności parametru a.

Funkcja wiarygodności
P
L = Πni=1 f (xi ; a) = an e −a(x1 +x2 +···xn ) = an e −a xi

więc
n
X
ln L = n ln a − a xi .
i=1
Przyrównując pochodną tej funkcji do zera
n
∂ ln L n X
= − xi = 0
∂a a i=1
Przykład II

i rozwiązując równanie względem parametru a, otrzymujemy

n 1
â = Pn = .
i=1 xi x̄
Metoda najmniejszych kwadratów

Niech x1 , . . . , xn będzie zbiorem zaobserwowanych wartości


n-elementowej próby prostej, której rozkład zależy od nieznanych
parametrów a1 , . . . , ap .

Metoda najmniejszych kwadratów (NK) polega na takim wyborze


ocen parametrów âj , które minimalizują wyrażenie
n
X
Q = min [xi − g (a1 , . . . , ap )]2 .
aj
i=1
Przykład I

Załóżmy, że mamy próbę prostą x1 , . . . , xn pochodzącą ze


zmiennych losowych o tej samej wartości oczekiwanej równej a
oraz tej samej wariancji. Znajdźmy „najbliżej” położony punkt od
x1 , . . . , xn , w sensie metryki euklidesowej. W tym celu wyznacza się
taką ocenę â parametru a, która minimalizuje różnicę kwadratów
n
X
Q(a) = min (xi − a)2
a
i=1
Przykład II
Dodając i odejmując x̄ do wyrażenia pod sumą
n
X
Q(a) = [(xi − x̄) + (x̄ − a)]2
i=1
n
X n
X
= (xi − x̄)2 + 2(x̄ − a) (xi − x̄) + n(x̄ − a)2
i=1 i=1
n
X
= (xi − x̄)2 + n(x̄ − a)2 ,
i=1
Pn
gdzie wykorzystano równość i=1 (xi − x̄) = 0.

Wyrażenie Q(a) osiąga minimum, gdy


∂Q
= −2n(x̄ − a) = 0,
∂a
stąd ostatecznie
â = x̄.
Regresja liniowa

y β0 + β1 x
ε

b0 + b1 x

E(y) = β0 + β1 x

ŷ = b0 + b1 x

x
x
E(y)

β0 + β1 x

E(y3 )

E(y2 ) N(β0 + β1 x3 , σ 2 )

E(y1 ) N(β0 + β1 x2 , σ 2 )

N(β0 + β1 x1 , σ 2 )

x
x1 x2 x3
Model regresji liniowej

Zdefiniujmy model regresji liniowej

y = f (x1 , . . . , xp ; a1 , . . . , ap ; ε) = a1 x1 + · · · + ap xp + ε.

Przypomnijmy, że liniowość w nazwie „regresji liniowej” oznacza


liniowość funkcji f względem parametrów modelu aj .

Estymację parametrów aj przeprowadza się na podstawie


obserwacji zmiennych objaśniających xi , zmiennej objaśnianej yi ,
i = 1, . . . , n. Zakładamy, że

n > p,

liczba obserwacji powinna być większa od liczby wyznaczanych


parametrów.
Minimalizujemy funkcję
n
X
Q= [xi − g (a1 , . . . , ap )]2 .
i=1

ze względu na parametry aj .

W szczególnym przypadku

y = a0 + a1 x + ε

szukamy rozwiązania nastepującego problemu


n
X
min [yi − (a0 + a1 xi )]2 .
a0 ,a1
i=1
Metoda najmniejszych kwadratów pozwala na szacowanie
parametrów regresji liniowej β0 i β1

y = β0 + β1 x + ε

Estymatory b0 i b1 równania

ŷ = b0 + b1 x

są dane wzorami
Pn
i=1 (xi − x̄)(yi − ȳ )
b1 = Pn 2
, b0 = ȳ − b1 x̄.
i=1 (xi − x̄)
Regresja liniowa
Estymatory mają rozkład normalny b0 ∼ N(β0 , σ02 ) oraz
b1 ∼ N(β1 , σ12 ), gdzie
Pn
x2 1
σ̂02 = Pn i=1 i σ̂ 2 , σ̂12 = Pn σ̂ 2
n i=1 (xi − x̄)2 n i=1 (x i − x̄) 2

gdzie
n
1 X
σ̂ 2 = (yi − b0 − b1 xi )2 .
n − 2 i=1
Przedziały ufności dla obu parametrów

[b0 − tn−2;α/2 σ̂0 , b0 + tn−2;α/2 σ̂0 ]

[b1 − tn−2;α/2 σ̂1 , b1 + tn−2;α/2 σ̂1 ]


gdzie 1 − α to poziom ufności.
Hipoteza statystyczna

Hipoteza statystyczna to każde przypuszczenie dotyczące


rozkładu lub charakterystyk rozkładu określonej zmiennej losowej.

Weryfikacją hipotezy nazywamy wnioskowanie statystyczne o


słuszności sformułowanej hipotezy.

Zbiór hipotez dopuszczalnych Ω — nasza wiedza a priori często


pozwala na określenie takiego zbioru.

Na przykład wiemy, że populacja generalna ma rozkład normalny,


to do zbioru Ω hipotez dopuszczalnych należą wszystkie rozkłady
normalne różniące się wartością średnią i odchyleniem
standardowym.
Rodzaje hipotez

Hipotezy parametryczne — zbiór hipotez dopuszczalnych Ω,


którego elementy różnią się między sobą co najwyżej wartościami
parametrów.

Hipotezy nieparametryczne — zbiór hipotez dopuszczalnych Ω,


którego elementy różnią się nie tylko wartościami parametrów, lecz
także postacią funkcyjną.
Hipotezy
Hipoteza zerowa — hipoteza sprawdzana, weryfikowana;
oznaczana
H0 : treść hipotezy

Hipoteza alternatywna — hipoteza przeciwna do hipotezy


zerowej; oznaczana
H1 : treść hipotezy

Na przykład weryfikujemy hipotezę, że parametr populacji Θ jest


równy Θ0

H0 : Θ = Θ0
H1 : Θ 6= Θ0
Weryfikacja hipotezy statystycznej
decyzja
sytuacja przyjęcia H0 odrzucenia H0
H0 prawdziwa decyzja prawidłowa błąd I rodzaju
H0 fałszywa błąd II rodzaju decyzja prawidłowa
Błędem I rodzaju nazywamy błąd wnioskowania polegający na
odrzuceniu hipotezy, gdy w rzeczywistości jest ona prawdziwa;
prawdopodobieństwo popełnienia błędu pierwszego rodzaju
oznaczamy α.

Błędem II rodzaju nazywamy błąd wnioskowania polegający na


nieodrzuceniu hipotezy, gdy w rzeczywistości jest ona fałszywa;
prawdopodobieństwo popełnienia błędu drugiego rodzaju β.

Zmniejszenie prawdopodobieństwa α popełnienia błędu pierwszego


rodzaju powoduje wzrost prawdopodobieństwa β popełnienia błędu
drugiego rodzaju i odwrotnie.
Poziomem istotności nazywamy dowolną liczbę z przedziału
(0, 1) określającą prawdopodobieństwo popełnienia błędu I rodzaju
(oznaczenie: α)

Mocą testu nazywamy prawdopodobieństwo odrzucenia


testowanej hipotezy, gdy jest ona nieprawdziwa, czyli
prawdopodobieństwo nie popełnienia błędu II rodzaju (oznaczenie:
1 − β).
Testy statystyczne

Test statystyczny — reguła postępowania, za pomocą której, na


podstawie wyników próby losowej, decydujemy o braku podstaw do
odrzucenia lub odrzuceniu sprawdzanej hipotezy.

Rodzaje testów
• testy parametryczne,
• testy nieparametryczne,
• testy niezależności służą do weryfikacji zależności cech,
• testy zgodności mają na celu ustalenie typu rozkładu
rozważanej zmiennej losowej.
Testy istotności

Test istotności pozwala na odrzucenie hipotezy sprawdzanej z


małym ryzykiem popełnienia błędu pierwszego rodzaju lub
stwierdzenia, że brak jest podstaw do jej odrzucenia.

Ponieważ w teście istotności uwzględnia się jedynie błąd


pierwszego rodzaju, a nie rozpatruje się konsekwencji popełnienia
błędu drugiego rodzaju, w wyniku zastosowania tego testu nie
podejmuje się decyzji o przyjęciu sprawdzanej hipotezy.
Obszary krytyczne
Obszarem krytycznym testu nazywamy taki zbiór Q możliwych
wartości statystyki Zn , że zaobserwowane w próbie losowej wartości
statystyki należącej do zbioru Q powodować będzie odrzucenie
sprawdzanej hipotezy.

W przypadku testu istotności zbiór Q powinien być tak


skonstruowany, aby była spełniona nierówność

P(zn ∈ Q|H0 ) ¬ α,

gdzie α jest ustalonym z góry, dowolnie małym


prawdopodobieństwem (poziomem istotności).

W zależności od sformułowanej hipotezy alternatywnej H1


wyróżniamy trzy obszary krytyczne testu: dwustronny,
prawostronny i lewostronny.
Prawdopodobieństwo testowe — wartość p

Każdej wartości zmiennej losowej (statystyki) odpowiada


prawdopodobieństwo, że zmienna losowa przyjmie wartość większą
niż ta wartość. Jest to prawdopodobieństwo testowe nazywane
także wartością p (p-value).

Jeśli wartość p jest mniejsza niż poziom istotności α, to odrzucamy


hipotezę zerową.
Wartość p — interpretacja

Jak prawdopodobne jest otrzymanie naszego zbioru danych, jeżeli


hipoteza zerowa jest prawdziwa.

Uwaga: Wartość p nic nie mówi o odrzuceniu lub braku podstaw


do odrzucenia hipotezy zerowej.
Test dla wartości średniej – model I
Niech populacja generalna ma rozkład normalny o nieznanej
wartości średniej µ i znanym odchyleniu standardowym σ.

Hipoteza zerowa i alternatywna testu

H0 : µ = µ0
H1 : µ 6= µ0 .

Statystyka ma standaryzowany rozkład normalny

X̄ − µ0 √
U= n.
σ
Dwustronny obszar krytyczny dla poziomu istotności α

P(|U| ­ uα ) = α.
Test dla wartości średniej – model II
Niech populacja generalna ma rozkład normalny o nieznanej
wartości średniej µ i nieznanym odchyleniu standardowym σ.
Wtedy
q estymujemy odchylenie standardowe z próby
1 Pn
S = n i=1 (Xi − X̄ )2 .
Hipoteza zerowa i alternatywna testu

H0 : µ = µ0
H1 : µ 6= µ0 .

Statystyka testowa
X̄ − µ0 √
T = n−1
S
ma rozkład Studenta o ν = n − 1 stopniach swobody.
Dwustronny obszar krytyczny dla poziomu istotności α

P(|T | ­ tα ) = α.
Test dla wartości średniej – model III
Niech populacja generalna ma nieznany rozkład oraz próba jest
duża q
(n > 30). Wtedy estymujemy odchylenie standardowe z próby
S = n1 ni=1 (Xi − X̄ )2 .
P

Hipoteza zerowa i alternatywna testu

H0 : µ = µ0
H1 : µ 6= µ0 .

Statystyka testowa
X̄ − µ0 √
U= n.
S
ma rozkład normalny.

Z powyższego założenia wynika, że dla dużej próby statystykę


testową o rozkładzie Studenta w modelu II możemy zastąpić
powyższą statystyką o rozkladzie normalnym.
Przykład

W 40 wylosowanych zakładach pewnej gałęzi przemysłowej


zbadano koszty materiałowe (X ) przy produkcji pewnego wyrobu i
otrzymano średnią wynoszącą x̄ = 550 zł. Zakładając, że poziom
kosztów materiałowych ma rozkład X ∼ N(µ, 160), zweryfikować
hipotezę – na poziomie istotności α = 0,05 — że średnie koszty
materiałowe przy produkcji tego wyrobu wynoszą 600 zł.
Rozwiązanie
Określamy hipotezę zerową i alternatywną
H0 : µ = 600
H1 : µ 6= 600
Dla poziomu istotności α = 0,05 odczytujemy z tablic rozkładu
normalnego wartość krytyczną uα = 1,96.

Obszar krytyczny
(−∞, −1,96i ∪ h1,96, ∞)
Znamy odchylenie standardowe σ, więc liczymy statystykę
X̄ − µ0 √ 550 − 600 √
u= n= 40 = −1,976.
σ 160
Statystyka u znajduje się w obszarze krytycznym,
| − 1,976| > 1,96,
więc odrzucamy hipotezę H0 .
Rozwiązanie z wykorzystaniem wartości p

Po obliczeniu wartości statystyki

X̄ − µ0 √ 550 − 600 √
u= n= 40 = −1,976
σ 160
zamiast szukać wartości krytycznej, znajdujemy wartość p w
tablicach (lub program komputerowy podaje nam tą wartość) dla
1,976
wartość p = 0,0240774.
Uwaga: dwustronny obszar krytyczny wartość p = 0,0481548.

Ponieważ α = 0,05 > wartość p = 0,048, więc odrzucamy hipotezę


zerową na poziomie istotności α = 0,05.
Test hipotezy o równości dwóch średnich – model I
Dane są dwie populacje o rozkładach normalnych N(µ1 , σ1 ) i
N(µ2 , σ2 ) i odchylenia standardowe σ1 i σ2 są znane.

Hipoteza zerowa i alternatywna testu


H0 : µ = µ0
H1 : µ 6= µ0 .
r !
σ12 σ22
Zmienna X̄1 − X̄2 ma rozkład normalny N 0, n1 + n2 ,
natomiast statystyka postaci
X̄1 − X̄2
U=r
σ12 σ22
n1 + n2

ma standaryzowany rozkład normalny N(0, 1).

Obszar krytyczny jest dany przez P(|U| ­ uα ) = α.


Test hipotezy o równości dwóch średnich – model II
W przypadku gdy nie znamy odchylenia standardowego σ1 i σ2 w
populacjach generalnych,
q P estymujemy odchylenia standardowe dla
1 n
obu prób Si = n j=1 (Xij − X̄i )2 .

Hipoteza zerowa i alternatywna testu

H0 : µ1 = µ2
H1 : µ1 6= µ2 .

Statystyka testowa

X̄1 − X̄2
T =r
n1 S12 +n2 S22
 
1 1
n1 +n2 −2 n1 + n2

ma rozkład Studenta o ν = n1 + n2 − 2 stopniach swobody.


Test hipotezy o równości dwóch średnich – model III

Model III jest przybliżeniem modelu II.

Dla dużych prób (n > 30) możemy statystykę testową o rozkładzie


Studenta możemy zastąpić statystyką o rozkładzie normalnym

X̄1 − X̄2
U=r
S12 S22
n1 + n2
Przykład

W zbadanej losowo próbie 150 rodzin zamieszkałych w Krakowie


średnie miesięczne wydatki na mieszkanie wynosiły 250 zł z
odchyleniem standardowym równym 100 zł. W podobnej 100
elementowej próbie rodzin zamieszkałych we Wrocławiu średnie
wydatki wynosi 200 zł, a odchylenie standardowe — 80 zł. Czy
otrzymane wyniki potwierdzają hipotezę, że średnie wydatki w
Krakowie nie są wyższe niż we Wrocławiu? Przyjąć poziom
istotności α = 0,05.
Rozwiązanie
Określamy hipotezę zerową i alternatywną
H0 : µ1 = µ2
H1 : µ1 6= µ2
Statystyka
X̄1 − X̄2 250 − 200
u=r =q 2 = 4,374.
2
σ1 2
σ2 100 802
+ 150 + 100
n1 n2

Wartość krytyczna dla poziomu istotności α = 0,05 w teście


dwustronnym wynosi 1,96. Ponieważ wartość statystyki znajduje
się w obszarze krytycznym, więc odrzucamy H0 .

Podobnie, dla u = 4,374 wartość p jest równa 6,09952 · 10−6 (dla


dwustronnego obszaru krytycznego 1,2199 · 10−5 ). Odrzucamy
hipotezę zerową, bo wartość p jest mniejsza niż poziom istotności
α = 0,05.
Test istotności dla wariancji

Zakładamy, że populacja generalna ma rozkład normalny o


nieznanych parametrach N(µ, σ).

Określamy hipotezę zerową i alternatywną

H0 : σ 2 = σ02
H1 : σ 2 > σ02

Statystyka testowa
Pn
2 i=1 (Xi − X̄ )2 nS 2
χ = = .
σ02 σ02

ma rozkład chi-kwadrat z ν = n − 1 stopni swobody.


Test istotności dla wariancji

Prawostronny obszar krytyczny jest wyznaczony przez


P(χ2 ­ χ2α ) ¬ α.

Jeśli χ2 ∈ [χ2α , ∞), to odrzucamy hipotezę zerową. Jeżeli χ2 < χ2α


to brak podstaw do odrzucenia H0 .
Przykład

W zakładzie Z otrzymano następujące dane o 20 pracownikach:


średnia wzrostu x̄ = 170,2 i wariancja wzrostu s 2 = 4,16. Czy
można stwierdzić, że wariancja wzrostu jest większa niż 5,1 na
poziomie istotności α = 0,05, przy założeniu, że wzrost ma rozkład
normalny N(µ, σ). Wartości parametrów µ i σ są nieznane.
Dwie wariancje

Badamy dwie populacje o rozkładzie normalnym z nieznanymi


parametrami N(µ1 , σ1 ) i N(µ2 , σ2 ).
Określamy hipotezę zerową i alternatywną

H0 : σ12 = σ22
H1 : σ12 > σ22

Statystyka testowa
S12
F =
S22
ma rozkład F -Snedecora z ν1 = n1 − 1 i ν2 = n2 − 1 stopniami
swobody.
Dwie wariancje

Prawostronny obszar krytyczny jest wyznaczony przez


P(F ­ Fα ) = α.

Jeśli F ∈ [Fα , ∞), to odrzucamy hipotezę zerową. Jeżeli F < Fα to


brak podstaw do odrzucenia H0 .
Przykład

W dwóch firmach wylosowano po 121 pracowników w celu


zbadania ich czasu dojazdu do pracy. Pierwsza firma była
zlokalizowana poza miastem, druga w centrum miasta. Wariancja
czasu dojazdu do pracy w pierwszej firmie wynosiła 110 min2 ,
wariancja w drugiej firmie — 50 min2 . Przyjmując poziom
istotności α = 0,05, zweryfikować hipotezę H0 , że wariancje czasu
dojazdu do pracy w obu firmach są takie same.
Testowanie hipotezy o wskaźniku struktury

Niech populacja generalna ma rozkład dwupunktowy z parametrem


p oznaczającym prawdopodobieństwo, że badana zmienna X w
populacji przyjmuje wyróżnioną wielkość.
Określamy hipotezę zerową i alternatywną

H0 : p = p 0
H1 : p 6= p0

Sprawdzianem hipotezy jest wskaźnik struktury


m
p̂ = .
n
dla dużej próby (n ­ 100).
Powyższa
 q statystyka
 ma asymptotyczny rozkład normalny
p(1−p)
N p, n . Jeśli p = p0 to wskaźnik z próby p0 też ma
 q 
p0 (1−p0 )
rozkład normalny N p0 , n i statystyka

p̂ − p0
U=q
p0 (1−p0 )
n

ma asymptotyczny rozkład normalny N(0, 1).

Obszar krytyczny jest dany przez P(|U| ­ uα ) = α. Jeśli |u| ­ uα ,


to odrzucamy hipotezę zerową. Jeżeli |u| < uα to brak podstaw do
odrzucenia H0 .
Przykład

Hipoteza głosi, że wadliwość produkcji pewnego wyrobu wynosi


10%. W celu sprawdzenia tej hipotezy wylosowano niezależnie
próbę n = 150 wyrobów i otrzymano w niej m = 20 wyrobów
wadliwych. Na poziomie istotności α = 0,05 sprawdzić tę hipotezę.
Testowanie hipotezy o dwóch wskaźnikach struktury
Określamy hipotezę zerową i alternatywną
H0 : p 1 = p 2
H1 : p1 6= p2
Statystyka testowa ma postać
p̂1 − p̂2
U=q
p̂(1−p̂)
n
gdzie p̂1 = m1 /n1 , p̂2 = m2 /n2 , n = n1 n2 /(n1 + n2 ),
p̂ = (m1 + m2 )/(n1 + n2 ).

Statystyka ta ma asymptotyczny rozkład normalny N(0, 1). Dla


przyjętego poziomu istotności α odczytujemy z tablic rozkładu
normalnego krytyczną wartość uα . Obszar krytyczny jest określony
przez P(|U| ­ uα ) = α. Jeśli |u| ­ uα , to odrzucamy hipotezę
zerową na korzyść hipotezy alternatywnej H1 . Jeżeli |u| < uα to
brak podstaw do odrzucenia hipotezy zerowej H0 .
ANOVA — testy analizy wariancji

Literatura
Greń (1984) §2.8, §2.9

Testy analizy wariancji są podstawowym narzędziem statystyki


eksperymentalnej. Testy te pozwalają na sprawdzenie, czy pewne
czynniki, które można dowolnie regulować w toku eksperymentu,
wywierają wpływ, a jeśli tak, to jak wielki, na kształtowanie się
średnich wartości badanych cech mierzalnych.

Istotą analizy wariancji jest rozbicie na addytywne składniki


(których liczba wynika z potrzeb eksperymentu) sumy kwadratów
wariancji całego zbioru wyników.

W praktyce chodzi o sprawdzenie hipotezy o równości średnich


wielu prób.
Dla różnych rodzajów doświadczeń istnieją odrębne schematy
analizy wariancji. Najprostsze przypadki mające zastosowanie
w statystyce ogólnej nie tylko doświadczalnej.
• klasyfikacja pojedyńcza (jednoczynnikowa analiza wariancji)
— poszczególne próby są charakteryzowane przez jeden
czynnik zewnętrzny.
• klasyfikacja wielokrotna (wieloczynnikowa analiza wariancji)
— poszczególne próby są charakteryzowane przez więcej niż
jeden czynnik zewnętrzny.
ANOVA ma szersze zastosowanie niż test Studenta, który
stosujemy do porównania średnich tylko dwóch prób.
Założenia:
1. analizowana zmienna jest zmienną ilościową;
2. każda z k niezależnych populacji ma rozkład normalny
N(µi , σi ), gdzie i = 1, 2, . . . , k;
3. rozkłady te mają równe wariancje (założenie jednorodności
wariancji): σ12 = σ22 = . . . = σk2 = σ 2 .
Klasyfikacja pojedyńcza

Jednoczynnikowa analiza wariancji polega na tym, że sumę


kwadratów wariancji ogólnej rozbija się tu jedynie na dwa składniki
mierzące zmienność między grupami (populacjami) i wewnątrz
grup. Porównując testem F wariancję między grupami z wariancją
wewnętrzną grup rozstrzygamy, czy średnie grupowe różnią się
istotnie od siebie czy nie.

Jeżeli podział na grupy np. przebiegał ze względu na różne


poziomy badanego czynnika, to można w ten sposób wykryć wpływ
poziomu na efekt wartości badanej cechy.
Z k populacji losujemy próby zawierające ni elementów. Łącznie
mamy n = ki=1 ni niezależnych obserwacji.
P

Hipoteza zerowa i alternatywna mają postać:

H0 : µ1 = µ2 = . . . = µk
H1 : co najmniej dwie średnie nie są sobie równe

Przyjmujemy poziom istotności α.


Niech xij oznacza j wartość w i próbie.

Obliczamy
• średnie grupowe
ni
1 X
x̄i = xij
ni j=1
• średnią ogólną
n X 1n
1X
x̄ =
n i=1 j=1
• sumę kwadratów między grupami (efekty)
k
X
SSefekty = (x̄i − x̄)2 ni
i=1
• suma kwadratów wewnątrz grup (błąd)
ni
k X
X
SSbłąd = (xij − x̄i )2
i=1 j=1
Jeśli zdefiniujemy całkowitą sumę kwadratów
ni
k X
X
SScałkowita = (xij − x̄)2
i j=1

to jest ona sumą powyższych sum kwadratów

SScałkowita = SSefekty + SSbłąd

i mają one odpowiednio liczbę stopni swobody

(n − 1) = (k − 1) + (n − k).

Całkowita zmienność ma dwa źródła: zmienność między grupami


(efekty) i zmienność wewnątrz grup (składnik losowy).
Obliczamy statystykę F
2 1
ŝefekty k−1 SSefekty
F = 2 = 1 .
ŝbłąd n−k SSbłąd

Całość obliczeń możemy zapisać w tzw. tablicy analizy wariancji

źródło suma stopnie wariancja test F


zmienności kwadratów swobody
między SSefekty k −1 2
ŝefekty F
grupami
wewnątrz SSbłąd n−k 2
ŝbłąd
grup
Dla ustalonego z góry poziomu istotności α i liczby stopni swobody
k − 1, n − k, odczytujemy z tablic wartość krytyczną Fα ,
spełniającą równość P(F ­ Fα ) = α.

Porównujemy obliczoną wartość F z wartością krytyczną i


• jeśli F ­ Fα , to hipotezę H0 o równości średnich w badanych
populacjach należy odrzucić
• gdy F < Fα , to nie ma podstaw do odrzucenia hipotezy H0 .
Wieloczynnikowa analiza wariancji

W zastosowaniach zachodzi nieraz potrzeba klasyfikacji wyników


obserwacji według wielu naraz kryteriów. Rozpatrzmy przykład
klasyfikacji podwójnej, gdy na realizację badanej zmiennej losowej
mogą wpływać dwa niezależne czynniki dające addytywne
(sumujące się) efekty.

W tym przypadku podstawą testu analizy wariancji jest rozbicie


sumy kwadratów wariancji wyników próby na trzy skladniki
odpowiadające zmienności wywołanej pierwszym czynnikiem,
drugim czynnikiem oraz zmienności resztowej.
Klasyfikację n obserwacji zmiennej X na r grup według przyjętego
pierwszego kryterium (czynnik A) i na k grup według drugiego
kryterium (czynnik B) możemy zapisać jako tablicę

B 1 2 ... k
A
1 x11 x12 ... x1k
2 x21 x22 ... x2k
.. .. .. .. ..
. . . . .
r xr 1 xr 2 ... xrk
Obliczamy średnie
• dla obserwacji w grupach wyróżnionych ze względu na
czynnik A (w wierszach)
k
1X
x̄i· = xij
k j=1

• dla obserwacji w grupach wyróżnionych ze względu na


czynnik B (w kolumnach)
r
1X
x̄·j = xij
r i=1

• ogólną
r X k
1 X
x̄ = xij .
rk i=1 j=1
Obliczamy sumy kwadratów
• dla całkowitej zmienności
r X
X k
SScała = (xij − x̄)2 ,
i=1 j=1

• dla zmienności między wierszami (czynnik A)


r
X
SSefekty,A = k (x̄i· − x̄)2 ,
i=1

• dla zmienności między kolumnami (czynnik B)


k
X
SSefekty,B = r (x̄·j − x̄)2 ,
j=1

• dla zmienności resztowej


r X
X k
SSresztowa = (xij −x̄i· −x̄·j +x̄)2 = SScała −SSefekty,A −SSefekty,B
i=1 j=1
Obliczamy statystyki
• dla czynnika A

2 1
ŝefekty,A r −1 SSefekty,A
FA = 2 = 1 .
ŝresztowa (r −1)(k−1) SSresztowa

• dla czynnika B

2 1
ŝefekty,B k−1 SSefekty,B
FB = 2 = 1 .
ŝresztowa (r −1)(k−1) SSresztowa
Całość obliczeń możemy zapisać w tzw. tablicy analizy wariancji

źródło suma stopnie wariancja test F


zmienności kwadratów swobody
między SSefekty,A r −1 2
ŝefekty,A FA
wierszami
(czynnik A)
między SSefekty,B k −1 2
ŝefekty,B FB
kolumnami
(czynnik B)
resztowa SSresztowa (r − 1)(k − 1) 2
ŝresztowa
(błąd losowy)
Przeprowadzamy dwa testy.

Dla sprawdzenia wpływu czynnika A:

H0 : µ1 = µ2 = . . . = µr
H1 : co najmniej dwie średnie nie są sobie równe

Dla ustalonego z góry poziomu istotności α i liczby stopni swobody


r − 1, (r − 1)(k − 1), odczytujemy z tablic wartość krytyczną Fα ,
spełniającą równość P(F ­ Fα ) = α.

Porównujemy obliczoną statystyką FA z wartością krytyczną Fα .


Jeżeli FA ­ Fα , to odrzucamy hipotezę zerową.
Dla sprawdzenia wpływu czynnika B:

H0 : µ1 = µ2 = . . . = µk
H1 : co najmniej dwie średnie nie są sobie równe

Dla ustalonego z góry poziomu istotności α i liczby stopni swobody


k − 1, (r − 1)(k − 1), odczytujemy z tablic wartość krytyczną Fα ,
spełniającą równość P(F ­ Fα ) = α.

Porównujemy obliczoną statystyką FB z wartością krytyczną Fα .


Jeżeli FB ­ Fα , to odrzucamy hipotezę zerową.
Testy nieparametryczne

Nieparametryczne testy istotności można podzielić na trzy


zasadnicze grupy
• testy zgodności (w tym testy normalności)
• testy niezależności
• testy losowości próby
W odniesieniu do tych testów zakładamy
• liczebność próby powinna być duża,
• próba powinna być próba prostą (losowanie niezależne),
• dopuszczalny poziom istotności α jest równe 0,05 lub 0,01.
Test zgodności χ2

Test zgodności χ2 pozwala na sprawdzenie hipotezy, że populacja


generalna ma określony typ rozkładu.

Z próby losowej o wielkości n szacujemy parametry rozkładu. Dla


rozkładu o takich parametrach obliczamy prawdopodobieństwo pi
dla wartości zmiennej losowej xi (dla przedziału dla rozkładu
ciągłego)
k k
X (fi − npi )2 X (fi − fˆi )2
χ2 = = .
i=1
npi i=1 fˆi
Liczba stopni swobody statystyki wynosi ν = k − s − 1, gdzie k
jest liczbą wariantów (przedziałów dla rozkładu ciągłego) zmiennej
losowej, s jest liczbą parametrów rozkładu teoretycznego, których
wartość szacowano z próby.
W powyższej statystyce sprawdzamy jak duża jest suma
względnych różnic między wartościami obserwowanymi fi i
wartościami hipotetycznymi npi = fˆi .

Dla zadanego poziomu istotności α i danej liczbie stopni swobody


ν = k − s − 1, w tablicach znajdujemy wartość krytyczną statystyki
χ2α .

Jeśli różnica (wartość statystyki χ2 ) jest większa niż wartość


krytyczna χ2α , to odrzucamy hipotezę zerową.

χ2 > χ2α .
Przykład

Pobrano próbę w sposób losowy niezależną próbę n = 280


niemowląt, zbadano je ze względu na liczbę zachorowań i
otrzymano

liczba zachorowań xi 0 1 2 3 4 5
liczba niemowląt fi 157 69 35 17 1 1
Na poziomie istotności α = 0,05 należy zweryfikować hipotezę H0 ,
że rozkład zachorowań niemowląt jest rozkładem dwumianowym.
Rozwiązanie przykładu

Najpierw z próby liczymy p̂, która jest najlepszą oceną parametru p


rozkładu dwumianowego
x̄ 0,711
E (X ) = x̄ = np ⇔ p̂ = = = 0,14
n 5
Następnie liczymy prawdopodobieństwa dla r = 0, 1, 2, 3, 4, 5
!
5
P(X = r ) = 0,14r 0,865−r
r

i odpowiednie częstości hipotetyczne

fˆi = npi .
xi fi pi fˆi
0 157 0,4704 131,71
1 69 0,3829 107,21
2 35 0,1247 34,91
3 17 — 0,0203 5,68 —
4 1 — = 19 0,0017 0,47 — = 6,18
5 1 — 0,0001 0,03 —
Następnie liczymy statystykę testową
k
X (fi − fˆi )2
χ2 = = 45,07.
i=1 fˆi
Liczba stopni swobody wynosi ν = k − s − 1 = 4 − 1 − 1 = 2.
Poziom istotności α = 0,05.
Wartość krytyczna statystyki χ2α = 5,991.

Ponieważ
χ2 = 45,069 > 5,991 = χ2α ,
to odrzucamy hipotezę zerową.
Test Kołmogorowa

Hipoteza zerowa: cecha X typu ciągłego ma dystrybuantę F0 (x).

Statystyka testu

Dn = sup |F0 (x) − Sn (x)|,


x

gdzie Sn (x) jest dystrybuantą empiryczną ustaloną na podstawie


uporządkowanej próbki x(1) ¬ x(2) ¬ . . . ¬ x(n) w następujący
sposób: 
0 dla x < x(1)


Sn (x) = kn dla x(k) ¬ x < x(k+1)

1 dla x ­ x .

(n)
Obliczamy
i − 1

i
dn+ = max − F0 (x(i) , dn− = max F0 (x(i) −

1¬i¬n n 1¬i¬n n
i wybieramy
dn = max(dn− , dn+ ).
Przy danym poziomie istotności α oraz n odczytujemy z tablic taką
wartość krytyczną dn (1 − α) statystyki Kołmogorowa Dn , która
spełnia nierówność

P(Dn ­ dn (1 − α)) = α.

Obszarem krytycznym jest przedział hdn (1 − α); 1i. Jeśli

dn ­ dn (1 − α)

to odrzucamu weryfikowaną hipotezę na przyjętym poziomie


istotności.
Test niezależności χ2

Test niezależności χ2 Pearsona służy do badania niezależności


dwóch lub więcej cech.

X y1 y2 ni·
x1 n11 n12 n1·
x2 n21 n22 n2·
n·j n·1 n·2 n

Liczebności oczekiwane (hipotetyczne) w sytuacji, gdyby badane


cechy były niezależne, obliczamy ze wzoru
ni· n·j ni· n·j
n̂ij = npij = npi· p·j = n = .
n n n
Testy normalności rozkładu

• test Shapiro-Wilka,
• test Jarque’a-Bery
• i kilkanaście innych.
Test Shapiro-Wilka

H0 : zmienna ma rozkład normalny


H1 : zmienna nie ma rozkładu normalnego.

Statystyka ma postać
hP i2
[n/2]
t=1 at (n)(e(n−t+1) − e(t) )
W = Pn 2
.
t=1 (et − ē)

Jeśli W ­ Wα , to nie ma podstaw do odrzucenia H0 .


Test Jarque’a-Bery
H0 : zmienna ma rozkład normalny
H1 : zmienna nie ma rozkładu normalnego

Współczynnik asymetrii: A = M3 /S 3
i kurtoza: K = M4 /S 4 , gdzie Mp = n1 ni=1 (ei − ē)p
P
q P
1 n
iS= n i=1 (ei − ē)2 .

Statystyka Jarque’a-Bery ma postać


1 1
 
JB = n A2 + (K − 3)2
6 24

i ma asymptotyczny rozkład χ2 z 2 stopniami swobody.

Jeśli JB ¬ χ2∗ , to nie ma podstaw do odrzucenia H0 .


Test niezależności χ2

Statystyka testowa
r X
k
X (nij − n̂ij )2
χ2 =
i=1 j=1
n̂ij

ma asymptotyczny rozkład χ2 z ν = (r − 1)(k − 1) stopniami


swobody. Obszar krytyczny jest jednostronny i na poziomie
istotności α wyznaczony przez nierówność χ2 ­ χ2α , tak że
zachodzi relacja
P(χ2 ­ χ2α ) ¬ α

Jeżeli χ2 ­ χ2α , to odrzucamy hipotezę zerową. W przeciwnym


przypadku stwierdzamy brak podstaw do odrzucenia hipotezy H0 o
niezależności cech.
Przykład

Sformułowano hipotezę, że wadliwość produkcji nie zależy od


metody produkcji. Wylosowano niezależnie próbę n = 300 sztuk
określonego wyrobu i otrzymano następujące wyniki badania
jakości dla dwóch metod produkcji

jakość metoda I metoda II ni·


dobra 70 125 195
zła 20 85 105
n·j 90 210 300

Zweryfikować hipotezę zerową na poziomie istotności α = 0,05.


Rozwiązanie przykładu

Formułujemy hipotezę zerową i alternatywną

H0 : wadliwość nie zależy od metody produkcji


H1 : wadliwość zależy od metody produkcji

Obliczamy wartości teoretyczne n̂ij

jakość metoda I metoda II ni·


dobra 58,5 136,5 195
zła 31,5 73,5 105
n·j 90 210 300
(70 − 58,5)2 (125 − 136,5)2 (20 − 31,5)2
χ2 = + +
58,5 136,5 31,5
(85 − 73,5)2
+ = 9,227
73,5

Dla α = 0,05 i ν = (r − 1)(k − 1) = 1 stopni swobody wartość


krytyczna χ2α = 3,841.

W naszym przypadku χ2 = 9,227 > 3,841 = χ2α , a więc hipotezę


H0 , że wadliwość produkcji nie zależy od metody produkcji
odrzucamy.
Przypadek szczególny

Jeśli tablica ma wymiar 2 × 2 wtedy można oznaczyć ją następująco

X y1 y2 ni·
x1 a b a+b
x2 c d c +d
n·j a+c b+d n

i statystyka χ2 ma postać

n(ad − bc)2
χ2 = .
(a + b)(a + c)(b + d)(c + d)
Testy o dwóch populacjach

Drugim obok testów zgodności podstawowym rodzajem testów


nieparametrycznych są testy dla sprawdzenia hipotezy, że dwie
populacje populacje mają ten sam rozkład (czyli że próby
pochodzą z jednej populacji)

Zastępują test parametryczny dla dwóch średnich, kiedy nie można


przyjąć założeń stosowalności takiego testu parametrycznego

Mają mniejszą moc od testów parametrycznych.

Są one wszystkie testami istotności.


Testy serii

Zastosowania testu serii


• test serii losowości próby
• test serii dla sprawdzenia hipotezy, że dwie próby pochodzą z
jednej populacji
• test serii dla sprawdzenia hipotezy o liniowej postaci funkcji
regresji.
Testy znaków

Testy te służą do weryfikacji hipotezy, że dwie analizowane próby


pochodzą z różnych populacji. Wymagają one założenia, że
analizowane zmienne mogą być uporządkowane od wartości
najmniejszej do wartości największej (tzn. są mierzone na skali
porządkowej).

Ich interpretacja jest taka sama, jak w przypadku testu t-Studenta


dla prób niezależnych.

Można wyróżnić dwie grupy testów:


1. do porównanie dwóch prób zależnych (zmiennych),
2. do porównanie dwóch prób niezależnych (grup).
Test znaków
Test znaków dla par (wyniki porównywalnych dwu jednakowo
licznych prób stanowią pary odpowiadających sobie wzajemnie
liczb).

Dwie populacje generalne o ciągłych dystrybuantach F1 (x) i F2 (x).

H0 : F1 (x) = F2 (x)
H1 : dystrybuanty F1 (x), F2 (x) są różne
Statystyka: badamy znak różnicy par wyników w obu próbach i
znajdujemy liczbę tych znaków, których jest mniej; oznaczamy tę
liczbę przez r .

z tablicy rozkładu liczby znaków odczytujemy dla ustalonego z góry


poziomu istotności α i dla liczby par wyników n wartość krytyczną
rα , taką że P{r ¬ rα } = α.
Testy do porównanie dwóch prób niezależnych

• test U Manna-Whitneya
• test serii Walda i Wolfowitza
• test dla dwóch prób Kołmogorowa i Smirnowa
test U Manna-Whitneya

Stosujemy go w celu porównania dwóch grup danych, gdy


• dane są mierzalne (ilościowe), ale ich rozkład zdecydowanie
odbiega od rozkładu normalnego (czyli nie jest spełnione
założenie testu t-Studenta)
• dane są typu porządkowego - w tym przypadku hipoteza
zerowa zakłada, że rozkłady danych w analizowanych grupach
nie różnią się istotnie; dla danych porządkowych nie można
bowiem obliczać wartości średniej, a prawidłową miarą
tendencji centralnej jest mediana.
Test sumy rang
Z k populacji generalnych o rozkładach z ciągłymi dystrybuantami
F1 (x), F2 (x), . . . , Fk (x) losujemy niezależnie ni elementów do
próby (i = 1, 2, . . . , k).
H0 : F1 (x) = F2 (x) = . . . = Fk (x)
P
Wszystkim wynikom prób w liczbie n = ni nadajemy rangi od 1
do n (przy jednakowych wynikach dajemy średnią z mających
kolejno nastąpić rang). Dla każdej próby oddzielnie wyznaczamy
sumy rang Ti (i = 1, 2, . . . , k). Wyznaczmy wartość statystyki
k
12 X Ti2
χ2 = − 3(n + 1)
n(n + 1) i=1 ni

Statystyka ma asymptotczny rozkład χ2 o k − 1 stopniach


swobody. Z tablic rozkładu χ2 dla przyjętego z góry poziomu
istotności α i k − 1 stopni swobody odczytujemy wartość krytyczną
χ2α , tak by zachodziło P{χ2 ­ χ2α } = α. Jeżeli χ2 ­ χ2α , to
hipotezę zerową nalezy odrzucić.‘
Testy losowości próby

• test serii.
Test serii
Ustalamy wartość oczekiwaną (np. medianę z próby). Obserwacje
tworzą pewien ciąg, w którym jest n1 dodatnich (większych niż
mediana) i n2 ujemnych (mniejszych niż mediana) elementów.
Serią jest sekwencja elementów o tym samym znaku. Określamy
liczbę serii w ciągu S.

H0 : reszty mają charakter losowy,


H1 : reszty nie mają charakteru losowego.

W tablicach dla n1 i n2 oraz przyjętego poziomu istotności α (α/2


i 1 − α/2) odczytujemy krytyczne liczby serii S1∗ i S2∗ . Jeśli

S1∗ < S < S2∗ ,

to nie ma podstaw do odrzucenia hipotezy zerowej H0 .


DODATKI
Alfabet grecki

A α alfa I ι jota P ρ rho


B β beta K κ kappa Σ σ sigma
Γ γ gamma Λ λ lambda T τ tau
∆ δ delta M µ mi Υ υ ypsilon
E , ε epsilon N ν ni Φ φ, ϕ fi
Z ζ dzeta Ξ ξ ksi X χ chi
H η eta O o omikron Ψ ψ psi
Θ θ, ϑ teta Π π pi Ω ω omega

You might also like