Professional Documents
Culture Documents
Estymacja Wykład
Estymacja Wykład
• Zbieranie danych
• Analizowanie danych
• Wnioskowanie na podstawie danych
demon Laplace’a
efekt motyla
Przedmiotem badań statystycznych są tzw. procesy masowe. Z tą analizą wiążą się dwa
podstawowe pojęcia:
Cecha = zmienna charakteryzująca badane obiekty (wzrost, waga, wielkość kredytu, liczba
dzieci, poziom cukru we krwi, miesięczne wydatki na rozrywkę).
George Gallup
ZMIENNA LOSOWA
Wyniki 𝑥1 , 𝑥2 , … , 𝑥𝑛 to
zaobserwowane wartości n-
elementowej próby.
• Średnia z próby
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑋̅ =
𝑛
• Wariancja z próby
2
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
𝑆 =
𝑛−1
ROZKŁAD CHI-KWADRAT
Jeśli zmienne 𝑋1 , 𝑋2 , … , 𝑋𝑛 są niezależne o rozkładzie N(0;1), to
𝑌 = 𝑋12 + 𝑋22 + ⋯ + 𝑋𝑛2
ma rozkład chi-kwadrat z n stopniami swobody
• 𝐸𝑋 = 𝑛
• 𝐷 2 𝑋 = 2𝑛
Przykładowo, dla 𝑛 = 6:
𝑘 = 0,87
𝑘 = 1,64
Zmienna
(𝒏 − 𝟏)𝑺𝟐
𝝈𝟐
ma rozkład 𝝌 𝟐 (𝒏 − 𝟏).
ROZKŁAD t-STUDENTA
Jeśli zmienne 𝑋 𝑖 𝑌𝑛 są niezależne, X o rozkładzie N(0;1),
https://upload.wikimedia.org/wikipedia/commons/c/cf/Student_densite_best.JPG
Zwyczajowo tablice podają, dla ustalonej liczby stopni swobody, pola dwóch skrajnych
„ogonów”. Tablice podają wartości 𝑃(|𝑇𝑛 | > 𝑘) = 𝛼
Dla 𝑛 = 10:
𝑃(|𝑇| > 𝑘) = 0,1 → 𝑘 = 1,81
PRZYKŁAD
Załóżmy, że zmienne 𝑋1 , 𝑋2 , … , 𝑋64 oraz 𝑌1 , 𝑌2 , … , 𝑌49 są niezależne 𝑋𝑖 ~𝑁(235; 40) i
𝑌𝑖 ~𝑁(190; 35). Oblicz:
𝑃(𝑋̅64 < 𝑌̅49 + 35,5).
40
𝑋𝑖 ~𝑁(235; 40) → 𝑋̅64 ~𝑁 (235; ) => 𝑋̅64 ~𝑁(235; 5)
√64
35
𝑌𝑖 ~𝑁(235; 40) → 𝑌̅49 ~𝑁 (190; ) => 𝑌̅49 ~𝑁(190; 5)
√49
𝑋̅64 − 𝑌̅49 ~𝑁 (235 − 190; √52 + 52 ) = 𝑁(45; 5√2)
𝑍 − 45 35,5 − 45
𝑃(𝑋̅64 < 𝑌̅49 + 35,5) = 𝑃(𝑋̅64 − 𝑌̅49 < 35,5) = 𝑃(𝑍 < 35,5) = 𝑃 ( < )=
5√2 5√2
= 𝑃(𝑊 < −1,34) = Φ(−1,34) = 1 − Φ(1,34) =
OGÓLNIE
𝜎𝑋 2 𝜎𝑌 2
𝑋̅ − 𝑌̅~𝑁 (𝜇𝑋 − 𝜇𝑌 ; √ + )
𝑛 𝑚
ROZKŁAD F
Jeżeli zmienne losowe X i Y są niezależne oraz 𝑋~𝜒 2 (𝑘) i 𝑌~𝜒 2 (𝑙), to zmienna
𝑋
𝐹= 𝑘
𝑌
𝑙
ma rozkład F Snedecora - Fishera o k i l stopniach swobody, co będziemy zapisywać: 𝐹~𝐹(𝑘; 𝑙)
file:///C:/Users/imk%20wat/Downloads/F-distribution_pdf.svg
FORMUŁOWANIE PYTAŃ ZBIERANIE DANYCH
DECYZJA/WNIOSKI
• Estymacja punktowa − 𝑝 ≈ ⋯ ;
ESTYMACJA PUNKTOWA
ESTYMATOR NIEOBCIAŻONY
̂ 𝒏 jest estymatorem nieobciążonym parametru 𝚯, jeśli 𝑬(𝚯
𝚯 ̂ 𝒏 ) = 𝚯.
̂𝑛 ) − Θ.
Obciążeniem estymatora nazywamy 𝐵𝑛 (Θ) = 𝐸(Θ
̂𝑛 ) − Θ) = 0, to estymator nazywamy ASYMPTOTYCZNIE
Jeżeli lim 𝐵𝑛 (Θ) = lim (𝐸(Θ
𝑛→∞ 𝑛→∞
NIEOBCIĄŻONYM.
𝐸(𝑆 2 ) = 𝜎 2
∑𝑛 ̅ 2
𝑖=1(𝑋𝑖 −𝑋) 𝜎2
Gdybyśmy użyli estymatora 𝑆 2 = otrzymalibyśmy obciążenie − .
𝑛 𝑛
𝜎2
Ponieważ lim = 0 , to jest to estymator asymptotycznie nieobciążony.
𝑛→∞ 𝑛
∑𝑛 ̅ 2
𝑖=1(𝑋𝑖 −𝑋)
Do analiz statystycznych używamy estymatora wariancji postaci 𝑆 2 = 𝑛−1
PRZYKŁAD
Weźmy próbę prostą 𝑋1 , 𝑋2 , 𝑋3 , 𝑋4 , która pochodzi z populacji o rozkładzie normalnym z
wartością oczekiwaną 𝜇 i odchyleniem standardowym 𝜎.
̂1 ) < 𝐷 2 (Θ
𝐷 2 (Θ ̂2 )
Gdy estymujemy jeden parametr (przy ogólnych założeniach, które spełniają wszystkie
omawiane przez nas rozkłady) wariancja dowolnego nieobciążonego estymatora spełnia
NIERÓWNOŚĆ RAO-CRAMERA
1
̂𝑛 ) ≥
𝐷 2 (Θ 2
𝜕
𝑛𝐸 ( 𝑙𝑛𝑓(𝑋; Θ))
𝜕Θ
Informacja Fishera
Zatem, jeśli dla pewnego estymatora otrzymamy równość, to estymator ten jest
najefektywniejszy.
̃𝑛 )
𝐷 2 (Θ
̂𝑛 =
𝑒𝑓Θ , ̂𝑛 ≤ 1
0 < 𝑒𝑓Θ
̂𝑛 )
𝐷 2 (Θ
𝜎 2
Ponieważ wariancja średniej ma właśnie taką wartość: 𝐷 2 (𝑋̅) = 𝑛 , to średnia 𝑋̅ jest
najefektywniejszym estymatorem parametru 𝜇.
• Metoda momentów
• Metoda największej wiarogodności
Momenty teoretyczne:
𝒎𝒌 = 𝑬(𝑿𝒌)
Momenty empiryczne:
𝟏
𝑴𝒌 = ∑ 𝒙𝒌𝒊
𝒏
𝒊
Moment empiryczny rzędu jeden to średnia: 𝑀1 = 𝑋̅. Natomiast do momentu empirycznego
∑𝑛 ̅ 2
𝑖=1 (𝑋𝑖 −𝑋) ∑𝑛 2 ̅2
𝑖=1 𝑋𝑖 −𝑛𝑋
rzędu dwa wykorzystujemy wzór na wariancję z próby 𝑆 2 = = ,
𝑛 −1 𝑛−1
1 𝑛−1
otrzymując 𝑀2 = 𝑛 ∑𝑖 𝑥𝑖2 = 𝑆 2 + 𝑋̅ 2
𝑛
PRZYKŁAD
UWAGA 2 Estymatory uzyskane metodą momentów nie mają zbyt dużej efektywności.
Ponieważ funkcja 𝑙𝑛 (𝐿(Θ; 𝑥1 , 𝑥2, … , 𝑥𝑛 )) osiąga wartość największą dla tych samych
wartości, co funkcja 𝐿(Θ; 𝑥1 , 𝑥2, … , 𝑥𝑛 ), postępujemy następująco:
▪ Są zgodne
▪ Asymptotycznie nieobciążone
▪ Asymptotycznie najefektywniejsze
Wariancja 𝜎 2 02
∑𝑛𝑖=1(𝑋𝑖 − 𝜇)2 zgodny Dla rozkładu normalnego
𝑆 =
𝑛 nieobciążony również najefektywniejszy
∑𝑖=1(𝑋𝑖 − 𝑋̅)2
𝑛
zgodny Dla rozkładu normalnego
𝑆2 = nieobciążony asymptotycznie
𝑛−1
najefektywniejszy
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 zgodny
𝑛 asymptotycznie
nieobciążony
Wskaźnik struktury 𝑝 𝑚 zgodny
𝑛 nieobciążony
najefektywniejszy
ESTYMACJA PRZEDZIAŁOWA
𝜎 2 – wariancja
𝜎 – odchylenie standardowe
PRÓBA
𝑝 – frakcja elementów wyróżnionych
Parametry z próby:
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑋̅ = 𝑋̅ – średnia z próby
𝑛
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)
2 𝑆 2 – wariancja z próby
2
𝑆 =
𝑛 −1 𝑆 – odchylenie standardowe z próby
̅; 𝝈𝟐 ≈ 𝒔𝟐 ; 𝝈 ≈ 𝒔; ; 𝒑 ≈ 𝒑
𝝁≈𝒙 ̂.
𝜎2
𝐸(𝑋̅) = 𝜇 𝐷 2 (𝑋̅) =
𝑛
̅−𝜇
𝑋
𝑈= 𝜎 ~𝑁(0; 1)
√𝑛
Szukamy najkrótszego (symetrycznego) przedziału:
̅ −𝜇
𝑋
𝑃 (−𝑘 < 𝜎 < 𝑘) = 1 − 𝛼
√𝑛
Przekształcamy formułę tak, aby otrzymać po środku 𝜇.
𝜎 𝜎
𝑃 (−𝑘 ∙ < 𝑋̅ − 𝜇 < 𝑘 ∙
) =1−𝛼
√𝑛 √𝑛
𝜎 𝜎
𝑃 (−𝑘 ∙ − 𝑋̅ < −𝜇 < 𝑘 ∙ − 𝑋̅ ) = 1 − 𝛼
√ 𝑛 √ 𝑛
𝜎 𝜎
𝑃 (𝑘 ∙ + 𝑋̅ > 𝜇 > −𝑘 ∙ + 𝑋̅ ) = 1 − 𝛼
√𝑛 √𝑛
𝜎 𝜎
𝑃 (𝑋̅ − 𝑘 ∙ < 𝜇 < 𝑋̅ + 𝑘 ∙ ) = 1 − 𝛼
√𝑛 √𝑛
𝝈 𝝈
̅ −𝒌∙
Przedział ma postać: (𝑿 ̅ +𝒌∙
;𝑿 ), co równoważnie możemy zapisać:
𝒏
√ √𝒏
𝝈
̅ ±𝒌∙
𝑿
√𝒏
𝛼
Jak określić 𝑘? 𝑘: Φ(𝑘) = 1 − 2 . (Dla poziomu ufności 95% 𝑘 = 1,96.)
Przykład
W poprzednim przykładzie błąd bezwzględny wynosi 34,3, a błąd względny ok. 7,66%.
Jeśli chcemy zwiększyć precyzję oszacowania, możemy zwiększyć liczność próby. Minimalną
liczność próby 𝑛0 , jeśli długość przedziału ma być nie większa niż 𝑙 = 2∆ liczymy ze wzoru:
𝜎 𝑘∙𝜎 2
𝑘∙ ≤ ∆ → 𝑛0 ≥ ( )
√𝑛 0 ∆
𝑋̅ − 𝜇
𝜎 ~𝑁(0; 1)
√𝑛
𝑋̅ − 𝜇
~𝑡(𝑛 − 1)
𝑆
√𝑛
𝑋̅−𝜇
𝑆 ~𝑁(0; 1) dla dużej próby
√𝑛
𝑋̅ − 𝜇
𝑇= ~𝑡(𝑛 − 1)
𝑆
√𝑛
Szukamy przedziału:
̅ −𝜇
𝑋
𝑃 (−𝑘 < < 𝑘) = 1 − 𝛼
𝑆
√𝑛
Przekształcamy formułę tak, aby otrzymać po środku 𝜇.
𝑠 𝑠
𝑃 (−𝑘 ∙ < 𝑋̅ − 𝜇 < 𝑘 ∙) =1−𝛼
√𝑛 √𝑛
𝑠 𝑠
𝑃 (−𝑘 ∙ − 𝑋̅ < −𝜇 < 𝑘 ∙ − 𝑋̅ ) = 1 − 𝛼
√𝑛 √𝑛
𝑠 𝑠
𝑃 (𝑘 ∙ + 𝑋̅ > 𝜇 > −𝑘 ∙ + 𝑋̅ ) = 1 − 𝛼
√𝑛 √𝑛
𝑠 𝑠
𝑃 (𝑋̅ − 𝑘 ∙ < 𝜇 < 𝑋̅ + 𝑘 ∙ )= 1−𝛼
√𝑛 √𝑛
𝑠 𝑠
̅−𝑘∙
Przedział ma postać: (𝑋 ; 𝑋̅ + 𝑘 ∙ )
√𝑛 √𝑛
Przykład
𝑋̅ = 61
𝑠=3
𝑛=5
𝛼 = 0,1 → 𝑃(|𝑇| > 𝑘) = 0,1 → 𝑘 = 2,13
UWAGA
Pojęcie dużej próby w różnych dziedzinach zdefiniowane jest w różny sposób. Najczęściej
przyjmuje się 𝑛 ≥ 100.
(𝑛 − 1)𝑆 2 2
~𝜒 (𝑛 − 1)
𝜎2
(𝑛 − 1)𝑆2
𝑃 (𝑢1 < < 𝑢2 ) = 1 − 𝛼
𝜎2
1 𝜎2 1
𝑃( < 2 < ) = 1−𝛼
𝑢2 (𝑛 − 1)𝑆 𝑢1
2 2
(𝑛 − 1)𝑆 (𝑛 − 1)𝑆
𝑃( < 𝜎2 < )=1−𝛼
𝑢2 𝑢1
(𝒏−𝟏)𝑺 (𝒏−𝟏)𝑺𝟐 𝟐 𝛼
Przedział ufności dla wariancji 〈 𝒖 ; 𝒖 〉, gdzie 𝑃(𝑌𝑛−1 > 𝑢2 ) = 2 , 𝑃(𝑌𝑛−1 > 𝑢1 ) = 1 −
𝟐 𝟏
𝛼
.
2
Przykład
Wykonano 8 pomiarów liczby skrętów dla losowo wybranych odcinków przędzy o długości
1m i otrzymano 𝑋̅ = 100, 𝑆 2 = 134,2. Zakładając, że dane pochodzą z rozkładu normalnego
zbuduj 95% przedział ufności dla wariancji oraz odchylenia standardowego.
𝟐
(𝒏−𝟏)𝑺 (𝒏−𝟏)𝑺 𝟐 𝛼
Przedział ufności dla wariancji 〈 𝒖 ; 𝒖 〉, gdzie 𝑃(𝑌𝑛−1 > 𝑢2 ) = 2 , 𝑃(𝑌𝑛−1 > 𝑢1 ) = 1 −
𝟐 𝟏
𝛼
.
2
𝒏=𝟖
𝜶 = 𝟎, 𝟎𝟓
𝑷(𝒀𝟕 > 𝒖𝟐 ) = 𝟎, 𝟎𝟐𝟓 → 𝒖𝟐 = 𝟏𝟔, 𝟎𝟏 ,
𝑷(𝒀𝟕 > 𝒖𝟏 ) = 𝟎, 𝟗𝟕𝟓 → 𝒖𝟏 = 𝟏, 𝟔𝟗
Przedział ufności dla wariancji ma zatem postać:
7 ∙ 134,2 7 ∙ 134,2
〈 ; 〉 → 〈58,68; 555,86〉
16,01 1,69
Przedział ufności dla odchylenia standardowego jest postaci:
MODEL 5
Zakładamy, że próba prosta 𝑋1 , 𝑋2 , … , 𝑋𝑛 pochodzi z rozkładu dowolnego z nieznaną
wariancją i 𝑛 ≥ 100
𝒌∙𝑺 𝟐 𝒌∙𝑺 𝟐 𝛼
Przedział ufności dla wariancji 〈(𝑺 − √𝟐𝒏) ; (𝑺 + √𝟐𝒏) 〉gdzie 𝑘: Φ(𝑘) = 1 − 2 .
MODEL 6
Przykład
Fabryka zakupiła nowe urządzenie do produkcji pewnego detalu. Wylosowano 500 z nich i
okazało się, ze 20 nie spełnia norm jakości. Podaj przedział ufności dla wadliwości. Przyjąć
poziom ufności 0,95. Jak liczną próbę należałoby pobrać, aby oszacować wadliwość z
dokładnością 0,01.
𝑛 = 500
𝑚 = 20
20
𝑤= = 0,04
500
𝛼
𝛼 = 0,05 → Φ(𝑘) = 1 − → Φ(𝑘) = 0,975 → 𝑘 = 1,96
2
Zatem przedział ufności dla p jest postaci:
0,04 ∙ 0,96
0,04 ± 1,96 ∙ √
500
1,96 2
Zatem w naszym przypadku 𝑛0 ≥ ( ) ∙ 0,04 ∙ 0,96 ≈ 1475,2. Co oznacza, że minimalna
0,01
liczność próby to 1476.