Professional Documents
Culture Documents
Statystyka Wykå Ady 2016
Statystyka Wykå Ady 2016
Adam Krawiec
pokój: 2.350
e-mail: adam.krawiec@uj.edu.pl
• SmarterPoland.pl (http://smarterpoland.pl/)
• Blog Statystyczny (https://www.statystyczny.pl/)
Wymagania wstępne
1. Statystyka opisowa
• miary położenia, zmienności, asymetrii, . . .
• regresja liniowa
2. Rachunek prawdopodobieństwa
• definicje prawdopodobieństwa;
• własności prawdopodobieństwa;
• prawdopodobieństwo warunkowe; prawdopodobieństwo
całkowite, wzór Bayesa;
• zmienne losowe dyskretne i ciągłe;
• rozkłady zmiennych losowych;
• twierdzenia graniczne.
3. Analiza matematyczna i algebra liniowa
• pochodna funkcji,
• całka nieoznaczona i oznaczona;
• rachunek macierzowy.
Program kursu
P(∅) = 0.
P(A) ¬ P(B).
P(A ∩ B)
P(A|B) =
P(B)
Prawdopodobieństwo zupełne
n
X
P(B) = P(Ai )P(B|Ai ).
i=1
Przykład
Mamy trzy grupy studentów: 15, 20 i 25 osób.
Prawdopodobieństwo dostania „5” wynosi 20% w pierwszej grupie;
12,5% w drugiej i 10% w trzeciej. Jakie jest prawdopodobieństwo,
że losowo wybrany student z tych trzech grup dostanie „5”?
P(Ai )P(B|Ai )
P(Ai |B) = Pn ,
i=1 P(Ai )P(B|Ai )
P(A1 )P(B|A1 )
P(A1 |B) = P3
i=1 P(Ai )P(B|Ai )
1 1 1
· 3
= 1 1 14 15 5 1 = 20
2 = = 0,375.
4 · 5 + 3 · 8 + 12 · 10 15
8
Zamiast zdarzeń A i B mamy dane D i hipotezy Hi .
P(X = xi ) = pi .
Własności dystrybuanty
gdzie X = {x1 , x2 , . . . , xk }.
Zmienna losowa ciągła
D 2 (X ) = E (X 2 ) − [E (X )]2 .
Parametry rozkładu zmiennej losowej ciągłej
E (C ) = C
E (CX ) = CE (X )
E (X ± Y ) = E (X ) ± E (Y )
E (XY ) = E (X )E (Y ), gdy zmienne X i Y są niezależne.
Twierdzenia o wariancji
D 2 (C ) = 0
D 2 (CX ) = C 2 D 2 (X )
D 2 (X ± Y ) = D 2 (X ) + D 2 (Y ), gdy zmienne X i Y są niezależne.
Miary zróżnicowania zmiennej losowej
D(X )
V (X ) = .
|E (X )|
Momenty statystyczne
mk = E (X )k .
µk = E [X − E (X )]k .
Wartość oczekiwana jest momentem zwykłym pierwszego rzędu
m1 = E (X )1 = E (X ).
µ2 = E (X − E (X ))2 = E (X − m1 )2 = D 2 (X ).
µ0 = E (X − m1 )0 = m0 = 1
µ1 = E (X − m1 )1 = m1 − m1 = 0
µ2 = E (X − m1 )2 = m2 − m12 = D 2 (X )
µ3 = E (X − m1 )3 = m3 − 3m2 m1 + 2m13 .
Skośność
• rozkład jednopunktowy
• rozkład dwupunktowy
• rozkład dwumianowy
• rozkład Poissona
• rozkład geometryczny
• rozklad hipergeometryczny
Rozkład jednopunktowy
P(X = x0 ) = 1
E (X ) = x0 , D 2 (X ) = 0.
Rozkład dwupunktowy
P(X = x1 ) = 1 − p = q
P(X = x2 ) = p.
E (X ) = p, D 2 (X ) = pq.
Rozkład dwumianowy (Bernoulliego)
Jest to rozkład zmiennej losowej skokowej X , która przyjmuje
wartość k sukcesów z n prób, z prawdopodobieństwem
!
n k n−k
P(X = k) = p q ,
k
Dystrybuanta
X
F (x) = P(X < x) = P(X = k).
0¬k<x
E (X ) = np, D 2 (X ) = npq.
Rozkład Poissona
λk −λ
P(X = k) ' e
k!
Dystrybuanta
X
F (x) = P(X < x) = P(X = k).
0¬k<x
E (X ) = np = λ, D 2 (X ) = np = λ.
Rozkład geometryczny
1 x
f , α>0
α α
X
nowa zmienna U = α, gęstość rozkładu zmiennej U, to f (U);
• parametr przesunięcia λ — gęstość prawdopod. zmiennej X
f (x − λ)
Γ(n + 1) = n!.
Rozkład gamma
E (X ) = αβ, D 2 (X ) = αβ 2 .
Rozkład wykładniczy
E (X ) = λ, D 2 (X ) = λ2 .
E (X ) = µ, D 2 (X ) = σ 2 .
Zmienna standaryzowana
1 n n
f (y ) = y 2 −1 e − 2 , y > 0.
2n/2 Γ(n/2)
E (Y ) = n, D 2 (Y ) = 2n.
Rozkład F
Dystrybuanta
0.4
P
0.2
0
−1 4
P (x1 , x2 )
0 3
0.15
1 2
0.1
2 1
x1 x2
5 · 10−2
3 0
0
4 −1
Momenty dwuwymiarowych zmiennych losowych
E (X + Y ) = E (X ) + E (Y )
Suma wariancji
E (XY ) − E (X )E (Y )
ρXY = q .
D 2 (X ) · D 2 (Y )
Twierdzenie (Lindeberga-Lévy’ego)
Jeżeli {Xn } jest losowym ciągiem niezależnych zmiennych losowych
o jednakowym rozkładzie, o wartości przeciętnej µ i skończonej
wariancji 0 < D 2 Xn = σ 2 < ∞, to ciąg (Fn ) dystrybuant
standaryzowanych średnich arytmetycznych X̄n (albo
standaryzowanych sum ni=1 Xi )
P
Pn
X̄n − µ i=1 Xn − nµ
Yn = = √
√σ σ n
n
n n n
!
1X 1 X 1X 1
E (X̄ ) = E Xi = E Xi = E (Xi ) = nµ = µ.
n i=1 n i=1 n i=1 n
n n
!
2 2 1X 1 X 2 1 2 σ2
D (X̄ ) = D Xi = D (Xi ) = nσ = .
n i=1 n2 i=1 n2 n
Estymacja wartości oczekiwanej — mediana
Mediana jest
• estymatorem zgodnym,
• mniej efektywnym niż średnia arytmetyczna
σ2
D 2 (X̄ ) n 2
e(Me) = ≈ πσ 2
= ≈ 0,64,
D 2 (Me) 2n
π
X̄ − µ √
T = n−1
S
o rozkładzie Studenta z ν = n − 1 stopniami swobody.
Standaryzowana zmienna losowa X̄ — model III
X̄ − µ √
U= n,
S
q P
1 n
gdzie S = n i=1 (Xi − X̄ )2 .
Estymacja wariancji — model I
gdzie
n
1X
S∗2 = (Xi − µ)2
n i=1
estymator zgodny, nieobciążony
n
!
1X
E (S∗2 ) =E (Xi − µ)2 = σ2
n i=1
Estymacja wariancji — model II
Gdy nie znamy średniej µ, obliczamy X̄ z próby, estymator
wariancji ma postać
1 Pn
estymator obciążony S 2 = n i=1 (Xi − X̄ )2 ,
n
!
2 1X n−1 2
E (S ) = E (Xi − X̄ )2 = σ
n i=1 n
1 Pn
estymator nieobciążony S̃ 2 = n−1 i=1 (Xi − X̄ )2 .
n
!
2 1 X
E (S̃ ) = E (Xi − X̄ )2 = σ2
n − 1 i=1
n
S̃ 2 = n−1 S
2 — poprawka Bessela n/(n − 1).
Estymacja wskaźnika struktury
Niech zbiorowość generalna ma rozkład zero-jedynkowy (np. pewna
cecha, może być również jakościowa, występuje lub nie).
8.0
8.5
9.0
9.5
10.0
Przedział ufności dla średniej — model I
Zakładamy, że zmienna losowa X ma rozkład N(µ, σ), gdzie
średnia µ jest nieznana, ale odchylenie standardowe σ
w populacji jest znane.
X̄ −µ √
Zmienna standaryzowana U = σ n ma rozkład N(0, 1) i wtedy
X̄ −µ √
Po podstawieniu U = σ n i przekształceniu
σ σ
P X̄ − uα √ < µ < X̄ + uα √ = 1 − α.
n n
Przedział ufności dla średniej — model II
X̄ −µ √
Po podstawieniu T = S n − 1 i przekształceniu
S S
P X̄ − tα √ < µ < X̄ + tα √ = 1 − α.
n−1 n−1
Przedział ufności dla wariancji
nS 2
χ2 = ,
σ2
która ma rozkład chi-kwadrat o n − 1 stopniach swobody.
nS 2
Po podstawieniu χ2 = σ2
i przekształceniu
nS 2 nS 2
P 2 < σ 2 < 2 = 1 − α.
χα χ1− α
2 2
Przedział ufności dla odchylenia standardowego
Przedział ufności dla odchylenia standardowego σ otrzymujemy,
biorąc pierwiastki kwadratowe dla wszystkich członów nierówności
podwójnej
v v
u 2
u nS u nS 2
u
P t 2 < σ < t = 1 − α.
χα 2
χ1− α
2 2
Przedział ufności
s s
p(1 − p) p(1 − p)
P p̂ − uα < p < p̂ + uα ' 1 − α,
n n
σ uα2 σ 2
uα √ ¬ d ⇒ n .
n d2
Przykład
Problem:
Chcemy wyznaczyć parametry a1 , . . . , ap zmiennej losowej X .
• metoda momentów
• metoda największej wiarygodności
• metoda najmniejszych kwadratów – minimum odpowiednio
skonstruowanej funkcji obserwacji i parametrów,
Metoda momentów
m1 = h1 (a).
L = Πni=1 fi (xi ; a1 , . . . , ap ),
Funkcja wiarygodności
P
L = Πni=1 f (xi ; a) = an e −a(x1 +x2 +···xn ) = an e −a xi
więc
n
X
ln L = n ln a − a xi .
i=1
Przyrównując pochodną tej funkcji do zera
n
∂ ln L n X
= − xi = 0
∂a a i=1
Przykład II
n 1
â = Pn = .
i=1 xi x̄
Metoda najmniejszych kwadratów
y β0 + β1 x
ε
b0 + b1 x
E(y) = β0 + β1 x
ŷ = b0 + b1 x
x
x
E(y)
β0 + β1 x
E(y3 )
E(y2 ) N(β0 + β1 x3 , σ 2 )
E(y1 ) N(β0 + β1 x2 , σ 2 )
N(β0 + β1 x1 , σ 2 )
x
x1 x2 x3
Model regresji liniowej
y = f (x1 , . . . , xp ; a1 , . . . , ap ; ε) = a1 x1 + · · · + ap xp + ε.
n > p,
ze względu na parametry aj .
W szczególnym przypadku
y = a0 + a1 x + ε
y = β0 + β1 x + ε
Estymatory b0 i b1 równania
ŷ = b0 + b1 x
są dane wzorami
Pn
i=1 (xi − x̄)(yi − ȳ )
b1 = Pn 2
, b0 = ȳ − b1 x̄.
i=1 (xi − x̄)
Regresja liniowa
Estymatory mają rozkład normalny b0 ∼ N(β0 , σ02 ) oraz
b1 ∼ N(β1 , σ12 ), gdzie
Pn
x2 1
σ̂02 = Pn i=1 i σ̂ 2 , σ̂12 = Pn σ̂ 2
n i=1 (xi − x̄)2 n i=1 (x i − x̄) 2
gdzie
n
1 X
σ̂ 2 = (yi − b0 − b1 xi )2 .
n − 2 i=1
Przedziały ufności dla obu parametrów
H0 : Θ = Θ0
H1 : Θ 6= Θ0
Weryfikacja hipotezy statystycznej
decyzja
sytuacja przyjęcia H0 odrzucenia H0
H0 prawdziwa decyzja prawidłowa błąd I rodzaju
H0 fałszywa błąd II rodzaju decyzja prawidłowa
Błędem I rodzaju nazywamy błąd wnioskowania polegający na
odrzuceniu hipotezy, gdy w rzeczywistości jest ona prawdziwa;
prawdopodobieństwo popełnienia błędu pierwszego rodzaju
oznaczamy α.
Rodzaje testów
• testy parametryczne,
• testy nieparametryczne,
• testy niezależności służą do weryfikacji zależności cech,
• testy zgodności mają na celu ustalenie typu rozkładu
rozważanej zmiennej losowej.
Testy istotności
P(zn ∈ Q|H0 ) ¬ α,
H0 : µ = µ0
H1 : µ 6= µ0 .
X̄ − µ0 √
U= n.
σ
Dwustronny obszar krytyczny dla poziomu istotności α
P(|U| uα ) = α.
Test dla wartości średniej – model II
Niech populacja generalna ma rozkład normalny o nieznanej
wartości średniej µ i nieznanym odchyleniu standardowym σ.
Wtedy
q estymujemy odchylenie standardowe z próby
1 Pn
S = n i=1 (Xi − X̄ )2 .
Hipoteza zerowa i alternatywna testu
H0 : µ = µ0
H1 : µ 6= µ0 .
Statystyka testowa
X̄ − µ0 √
T = n−1
S
ma rozkład Studenta o ν = n − 1 stopniach swobody.
Dwustronny obszar krytyczny dla poziomu istotności α
P(|T | tα ) = α.
Test dla wartości średniej – model III
Niech populacja generalna ma nieznany rozkład oraz próba jest
duża q
(n > 30). Wtedy estymujemy odchylenie standardowe z próby
S = n1 ni=1 (Xi − X̄ )2 .
P
H0 : µ = µ0
H1 : µ 6= µ0 .
Statystyka testowa
X̄ − µ0 √
U= n.
S
ma rozkład normalny.
Obszar krytyczny
(−∞, −1,96i ∪ h1,96, ∞)
Znamy odchylenie standardowe σ, więc liczymy statystykę
X̄ − µ0 √ 550 − 600 √
u= n= 40 = −1,976.
σ 160
Statystyka u znajduje się w obszarze krytycznym,
| − 1,976| > 1,96,
więc odrzucamy hipotezę H0 .
Rozwiązanie z wykorzystaniem wartości p
X̄ − µ0 √ 550 − 600 √
u= n= 40 = −1,976
σ 160
zamiast szukać wartości krytycznej, znajdujemy wartość p w
tablicach (lub program komputerowy podaje nam tą wartość) dla
1,976
wartość p = 0,0240774.
Uwaga: dwustronny obszar krytyczny wartość p = 0,0481548.
H0 : µ1 = µ2
H1 : µ1 6= µ2 .
Statystyka testowa
X̄1 − X̄2
T =r
n1 S12 +n2 S22
1 1
n1 +n2 −2 n1 + n2
X̄1 − X̄2
U=r
S12 S22
n1 + n2
Przykład
H0 : σ 2 = σ02
H1 : σ 2 > σ02
Statystyka testowa
Pn
2 i=1 (Xi − X̄ )2 nS 2
χ = = .
σ02 σ02
H0 : σ12 = σ22
H1 : σ12 > σ22
Statystyka testowa
S12
F =
S22
ma rozkład F -Snedecora z ν1 = n1 − 1 i ν2 = n2 − 1 stopniami
swobody.
Dwie wariancje
H0 : p = p 0
H1 : p 6= p0
p̂ − p0
U=q
p0 (1−p0 )
n
Literatura
Greń (1984) §2.8, §2.9
H0 : µ1 = µ2 = . . . = µk
H1 : co najmniej dwie średnie nie są sobie równe
Obliczamy
• średnie grupowe
ni
1 X
x̄i = xij
ni j=1
• średnią ogólną
n X 1n
1X
x̄ =
n i=1 j=1
• sumę kwadratów między grupami (efekty)
k
X
SSefekty = (x̄i − x̄)2 ni
i=1
• suma kwadratów wewnątrz grup (błąd)
ni
k X
X
SSbłąd = (xij − x̄i )2
i=1 j=1
Jeśli zdefiniujemy całkowitą sumę kwadratów
ni
k X
X
SScałkowita = (xij − x̄)2
i j=1
(n − 1) = (k − 1) + (n − k).
B 1 2 ... k
A
1 x11 x12 ... x1k
2 x21 x22 ... x2k
.. .. .. .. ..
. . . . .
r xr 1 xr 2 ... xrk
Obliczamy średnie
• dla obserwacji w grupach wyróżnionych ze względu na
czynnik A (w wierszach)
k
1X
x̄i· = xij
k j=1
• ogólną
r X k
1 X
x̄ = xij .
rk i=1 j=1
Obliczamy sumy kwadratów
• dla całkowitej zmienności
r X
X k
SScała = (xij − x̄)2 ,
i=1 j=1
2 1
ŝefekty,A r −1 SSefekty,A
FA = 2 = 1 .
ŝresztowa (r −1)(k−1) SSresztowa
• dla czynnika B
2 1
ŝefekty,B k−1 SSefekty,B
FB = 2 = 1 .
ŝresztowa (r −1)(k−1) SSresztowa
Całość obliczeń możemy zapisać w tzw. tablicy analizy wariancji
H0 : µ1 = µ2 = . . . = µr
H1 : co najmniej dwie średnie nie są sobie równe
H0 : µ1 = µ2 = . . . = µk
H1 : co najmniej dwie średnie nie są sobie równe
χ2 > χ2α .
Przykład
liczba zachorowań xi 0 1 2 3 4 5
liczba niemowląt fi 157 69 35 17 1 1
Na poziomie istotności α = 0,05 należy zweryfikować hipotezę H0 ,
że rozkład zachorowań niemowląt jest rozkładem dwumianowym.
Rozwiązanie przykładu
fˆi = npi .
xi fi pi fˆi
0 157 0,4704 131,71
1 69 0,3829 107,21
2 35 0,1247 34,91
3 17 — 0,0203 5,68 —
4 1 — = 19 0,0017 0,47 — = 6,18
5 1 — 0,0001 0,03 —
Następnie liczymy statystykę testową
k
X (fi − fˆi )2
χ2 = = 45,07.
i=1 fˆi
Liczba stopni swobody wynosi ν = k − s − 1 = 4 − 1 − 1 = 2.
Poziom istotności α = 0,05.
Wartość krytyczna statystyki χ2α = 5,991.
Ponieważ
χ2 = 45,069 > 5,991 = χ2α ,
to odrzucamy hipotezę zerową.
Test Kołmogorowa
Statystyka testu
P(Dn dn (1 − α)) = α.
dn dn (1 − α)
X y1 y2 ni·
x1 n11 n12 n1·
x2 n21 n22 n2·
n·j n·1 n·2 n
• test Shapiro-Wilka,
• test Jarque’a-Bery
• i kilkanaście innych.
Test Shapiro-Wilka
Statystyka ma postać
hP i2
[n/2]
t=1 at (n)(e(n−t+1) − e(t) )
W = Pn 2
.
t=1 (et − ē)
Współczynnik asymetrii: A = M3 /S 3
i kurtoza: K = M4 /S 4 , gdzie Mp = n1 ni=1 (ei − ē)p
P
q P
1 n
iS= n i=1 (ei − ē)2 .
Statystyka testowa
r X
k
X (nij − n̂ij )2
χ2 =
i=1 j=1
n̂ij
X y1 y2 ni·
x1 a b a+b
x2 c d c +d
n·j a+c b+d n
i statystyka χ2 ma postać
n(ad − bc)2
χ2 = .
(a + b)(a + c)(b + d)(c + d)
Testy o dwóch populacjach
H0 : F1 (x) = F2 (x)
H1 : dystrybuanty F1 (x), F2 (x) są różne
Statystyka: badamy znak różnicy par wyników w obu próbach i
znajdujemy liczbę tych znaków, których jest mniej; oznaczamy tę
liczbę przez r .
• test U Manna-Whitneya
• test serii Walda i Wolfowitza
• test dla dwóch prób Kołmogorowa i Smirnowa
test U Manna-Whitneya
• test serii.
Test serii
Ustalamy wartość oczekiwaną (np. medianę z próby). Obserwacje
tworzą pewien ciąg, w którym jest n1 dodatnich (większych niż
mediana) i n2 ujemnych (mniejszych niż mediana) elementów.
Serią jest sekwencja elementów o tym samym znaku. Określamy
liczbę serii w ciągu S.