Estymacja Wykład

STATYSTYKA → poznanie struktury określonej zbiorowości
• Zbieranie danych
• Analizowanie danych
• Wnioskowanie na podstawie danych
KAŻDA WIELKOŚĆ, KTÓRĄ MIERZYMY OBARCZONA JEST BŁĘDEM
▪ Niedoskonałość narzędzia pomiarowego

▪ Niedoskonałość metody pomiarowej
▪ Omylność eksperymentatora
OPTYMALNE PODEJMOWANIE DECYZJI W WARUNKACH NIEPEWNOŚCI = STATYSTYKA
demon Laplace’a
efekt motyla
Przedmiotem badań statystycznych są tzw. procesy masowe. Z tą analizą wiążą się dwa
podstawowe pojęcia:
▪ Zbiorowość statystyczna = populacja – zbiór elementów podobnych ze względu na

pewne kryteria
▪ Próba losowa – podzbiór populacji. Jej struktura powinna być zbliżona do struktury
populacji, aby wyniki uzyskane z próby można uogólnić do całej populacji
Cecha = zmienna charakteryzująca badane obiekty (wzrost, waga, wielkość kredytu, liczba
dzieci, poziom cukru we krwi, miesięczne wydatki na rozrywkę).
Badanie statystyczne może być:
▪ Całościowe – obejmujące całą populację

▪ Częściowe – obejmujące próbę losową
George Gallup
ZMIENNA LOSOWA
W RACHUNKU PRAWDOPODOBIEŃSTWA W STATYSTYCE
Ma znany rozkład. Nie zakładamy pełnej znajomości

rozkładu.
Wykorzystywany do obliczania
prawdopodobieństw Zmienna losowa = cecha statystyczna
elementów badanej zbiorowości.
POPULACJA Losujemy n elementów
(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) i badamy je ze
względu na pewną cechę-zmienna
losowa, np. wzrost, wielkość
PRÓBA LOSOWA
zarobków, poziom IQ.
Wyniki 𝑥1 , 𝑥2 , … , 𝑥𝑛 to
zaobserwowane wartości n-
elementowej próby.
CEL STATYSTYKI MATEMATYCZNEJ: na podstawie próby wyciągamy wnioski dotyczące

badanej cechy w całej populacji. (Badanie pełne często wiąże się z wysokimi kosztami lub jest
niszczące).
Próbę losową (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) nazywamy PRÓBĄ PROSTĄ, jeśli zmienne 𝑋1 , 𝑋2 , … , 𝑋𝑛 są
niezależne i każda ma rozkład taki, jak rozkład badanej cechy.
Dowolną funkcję 𝑔(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) nazywamy STATYSTYKĄ. Jako funkcja zmiennej losowej
też jest zmienną losową. Jej rozkład zależy od rozkładów 𝑋1 , 𝑋2 , … , 𝑋𝑛 , ale też od postaci
funkcji 𝑔.
PODSTAWOWE STATYSTYKI
• Średnia z próby
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑋̅ =
𝑛
• Wariancja z próby
2
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
𝑆 =
𝑛−1
• Odchylenie standardowe z próby

𝑆 = √𝑆 2
• Wariancja z próby dla danej wartości oczekiwanej
∑𝑛 (𝑋𝑖 − 𝜇)2
𝑆 02 = 𝑖=1
𝑛
ROZKŁAD NIEKTÓRYCH STATYSTYK
Jeżeli zmienne losowe 𝑋1 , 𝑋2 , … , 𝑋𝑛 są niezależne i pochodzą z rozkładu 𝑁(𝜇; 𝜎), to
𝜎
𝑋̅~𝑁 (𝜇; )
√𝑛
Po standaryzacji:
𝑋̅ − 𝜇
𝜎 ~𝑁(0; 1)
√𝑛
ROZKŁAD CHI-KWADRAT
Jeśli zmienne 𝑋1 , 𝑋2 , … , 𝑋𝑛 są niezależne o rozkładzie N(0;1), to
𝑌 = 𝑋12 + 𝑋22 + ⋯ + 𝑋𝑛2
ma rozkład chi-kwadrat z n stopniami swobody
• 𝐸𝑋 = 𝑛
• 𝐷 2 𝑋 = 2𝑛
Przykładowo, dla 𝑛 = 6:
𝑃(𝑌 > 𝑘) = 0,99 →
𝑘 = 0,87
𝑃(𝑌 < 𝑘) = 0,05 →
𝑘 = 1,64
Zmienna
(𝒏 − 𝟏)𝑺𝟐
𝝈𝟐
ma rozkład 𝝌 𝟐 (𝒏 − 𝟏).
Statystyki 𝑋̅ oraz 𝑆 2 są zmiennymi niezależnymi.
ROZKŁAD t-STUDENTA
Jeśli zmienne 𝑋 𝑖 𝑌𝑛 są niezależne, X o rozkładzie N(0;1),
𝑌𝑛 o rozkładzie chi-kwadrat z n stopniami swobody, to

𝑋
𝑇=
√𝑌𝑛
𝑛
ma rozkład t-Studenta z n stopniami swobody.
• 𝐸𝑋 = 0, 𝑛 > 1
𝑛
• 𝐷 2 𝑋 = 𝑛−2 , 𝑛 > 2
https://upload.wikimedia.org/wikipedia/commons/c/cf/Student_densite_best.JPG
Zwyczajowo tablice podają, dla ustalonej liczby stopni swobody, pola dwóch skrajnych
„ogonów”. Tablice podają wartości 𝑃(|𝑇𝑛 | > 𝑘) = 𝛼
Dla 𝑛 = 10:
𝑃(|𝑇| > 𝑘) = 0,1 → 𝑘 = 1,81
𝑃(𝑇 > 𝑘) = 0,01 → 𝑘 = 2,76

𝑃(𝑇 ≤ 𝑘) = 0,1 → 𝑘 = −1,37
Jaki rozkład ma
𝑋̅ − 𝜇
?
𝑆
√𝑛
𝑋̅ − 𝜇
𝜎
𝑋̅ − 𝜇 √𝑛
= ~𝑡(𝑛 − 1)
𝑆 (𝑛 − 1)𝑆 2
√𝑛 √ 𝜎2
𝑛−1
Dla dużych n
𝑋̅ − 𝜇
~𝑁(0; 1)
𝑆
√𝑛
PRZYKŁAD
Załóżmy, że zmienne 𝑋1 , 𝑋2 , … , 𝑋64 oraz 𝑌1 , 𝑌2 , … , 𝑌49 są niezależne 𝑋𝑖 ~𝑁(235; 40) i
𝑌𝑖 ~𝑁(190; 35). Oblicz:
𝑃(𝑋̅64 < 𝑌̅49 + 35,5).
40
𝑋𝑖 ~𝑁(235; 40) → 𝑋̅64 ~𝑁 (235; ) => 𝑋̅64 ~𝑁(235; 5)
√64
35
𝑌𝑖 ~𝑁(235; 40) → 𝑌̅49 ~𝑁 (190; ) => 𝑌̅49 ~𝑁(190; 5)
√49
𝑋̅64 − 𝑌̅49 ~𝑁 (235 − 190; √52 + 52 ) = 𝑁(45; 5√2)
𝑍 − 45 35,5 − 45
𝑃(𝑋̅64 < 𝑌̅49 + 35,5) = 𝑃(𝑋̅64 − 𝑌̅49 < 35,5) = 𝑃(𝑍 < 35,5) = 𝑃 ( < )=
5√2 5√2
= 𝑃(𝑊 < −1,34) = Φ(−1,34) = 1 − Φ(1,34) =
OGÓLNIE
Jeśli zmienne 𝑋1 , 𝑋2 , … , 𝑋𝑛 oraz 𝑌1 , 𝑌2 , … , 𝑌𝑚 są niezależne 𝑋𝑖 ~𝑁(𝜇𝑋 ; 𝜎𝑋 ) i 𝑌𝑖 ~𝑁(𝜇𝑌 ; 𝜎𝑌 ), to
𝜎𝑋 2 𝜎𝑌 2
𝑋̅ − 𝑌̅~𝑁 (𝜇𝑋 − 𝜇𝑌 ; √ + )
𝑛 𝑚
ROZKŁAD F
Jeżeli zmienne losowe X i Y są niezależne oraz 𝑋~𝜒 2 (𝑘) i 𝑌~𝜒 2 (𝑙), to zmienna
𝑋
𝐹= 𝑘
𝑌
𝑙
ma rozkład F Snedecora - Fishera o k i l stopniach swobody, co będziemy zapisywać: 𝐹~𝐹(𝑘; 𝑙)
file:///C:/Users/imk%20wat/Downloads/F-distribution_pdf.svg
FORMUŁOWANIE PYTAŃ ZBIERANIE DANYCH
MODELOWANIE CZYSZCZENIE DANYCH
ESTYMACJA TESTOWANIE HIPOTEZ
DECYZJA/WNIOSKI
Chcemy określić prawdopodobieństwo wyrzucenia orła (𝑝) dla konkretnej monety.
• Estymacja punktowa − 𝑝 ≈ ⋯ ;
• Estymacja przedziałowa – 𝑝 ∈ (… . ; … ) z pewnym dużym prawdopodobieństwem;

• Testowanie hipotez – odpowiedź na pytanie: czy 𝑝 = 0,5 czy może 𝑝 > 0,5.
ESTYMACJA PUNKTOWA
Załóżmy, że rozkład cechy w populacji zależy od nieznanego parametru Θ. Np. 𝜇, 𝜎, 𝑝.
Szacowanie parametry w oparciu o 𝑛-elementową próbę = ESTYMACJA

Każda statystyka 𝑔(𝑋1 , 𝑋2 , … , 𝑋𝑛 ), którą przyjmujemy jako ocenę nieznanego parametru
nazywamy estymatorem parametru Θ i oznaczamy Θ ̂. Statystyka 𝑔(𝑋1 , 𝑋2 , … , 𝑋𝑛 ), jako
funkcja zmiennych losowych, jest również zmienną losową.
CECHY DOBRYCH ESTYMATORÓW
ESTYMATOR ZGODNY
Wraz ze wzrostem wielkości próby wzrasta dokładność oszacowania:

̂ 𝒏 − 𝚯| < 𝜺) = 𝟏
𝐥𝐢𝐦 𝑷(|𝚯
𝒏→∞
Istnieje nieskończenie wiele estymatorów zgodnych. Na przykład

𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑋̅ =
𝑛
̂ 𝑛 = 𝛼𝑛 𝑋̅, 𝛼𝑛 → 1 jest też
jest estymatorem zgodnym, ale każdy estymator postaci Θ
zgodny.
W praktyce zgodność sprawdza się korzystając z faktu, że estymator (asymptotycznie)
nieobciążony, którego wariancja dąży do zera, jest estymatorem zgodnym.
ESTYMATOR NIEOBCIAŻONY
̂ 𝒏 jest estymatorem nieobciążonym parametru 𝚯, jeśli 𝑬(𝚯
𝚯 ̂ 𝒏 ) = 𝚯.
̂𝑛 ) − Θ.
Obciążeniem estymatora nazywamy 𝐵𝑛 (Θ) = 𝐸(Θ
̂𝑛 ) − Θ) = 0, to estymator nazywamy ASYMPTOTYCZNIE
Jeżeli lim 𝐵𝑛 (Θ) = lim (𝐸(Θ
𝑛→∞ 𝑛→∞
NIEOBCIĄŻONYM.
Czy średnia z próby jest estymatorem nieobciążonym parametru 𝜇?
Jeśli 𝑋1 , 𝑋2 , … , 𝑋𝑛 jest próbą prostą z rozkładu o wartości oczekiwanej 𝜇, to

𝑛 𝑛
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 1 1
𝐸(𝑋̅) = 𝐸 ( ) = ∑ 𝐸(𝑋𝑖 ) = ∑ 𝜇 = 𝜇
𝑛 𝑛 𝑛
𝑖=1 𝑖=1
Czy wariancja z próby jest estymatorem nieobciążonym parametru 𝜎 2?

∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
𝑆2 =
𝑛−1
𝐸(𝑆 2 ) = 𝜎 2
Zatem 𝑺𝟐 jest estymatorem nieobciążonym.
∑𝑛 ̅ 2
𝑖=1(𝑋𝑖 −𝑋) 𝜎2
Gdybyśmy użyli estymatora 𝑆 2 = otrzymalibyśmy obciążenie − .
𝑛 𝑛
𝜎2
Ponieważ lim = 0 , to jest to estymator asymptotycznie nieobciążony.
𝑛→∞ 𝑛
∑𝑛 ̅ 2
𝑖=1(𝑋𝑖 −𝑋)
Do analiz statystycznych używamy estymatora wariancji postaci 𝑆 2 = 𝑛−1
Dla danego parametru może istnieć wiele estymatorów nieobciążonych.
PRZYKŁAD
Weźmy próbę prostą 𝑋1 , 𝑋2 , 𝑋3 , 𝑋4 , która pochodzi z populacji o rozkładzie normalnym z
wartością oczekiwaną 𝜇 i odchyleniem standardowym 𝜎.
Rozważmy cztery estymatory:

𝑈1 = 𝑋1 + 𝑋4
𝑋1 + 𝑋2 + 𝑋3 + 𝑋4
𝑈2 =
4
𝑋1 + 2 𝑋2 + 𝑋3 − 2 𝑋4
𝑈3 =
2
𝑋1 + 2 𝑋2 + 3𝑋3 + 4 𝑋4
𝑈4 =
10
Które z nich są nieobciążone?

𝐸(𝑈1 ) = 2𝜇, 𝐸(𝑈2 ) = 𝜇, 𝐸(𝑈3 ) = 𝜇, 𝐸(𝑈4 ) = 𝜇.
Ponieważ estymatory 𝑈2 , 𝑈3 oraz 𝑈4 są nieobciążonymi estymatorami parametru 𝜇, to w jaki

sposób wybrać najlepszy z nich?
Policzmy wariancję każdego z estymatorów:
𝜎 2 5𝜎 2
𝐷 2 (𝑈2) = =
4 20
5𝜎 2 50𝜎 2
𝐷 2 (𝑈3 ) = =
2 20
2𝜎 2 8𝜎 2
𝐷 2 (𝑈2 ) = =
5 20
Najlepszym estymatorem będzie ten o najmniejszej wariancji.
̂1 oraz Θ
Jeśli Θ ̂ 2 są dwoma nieobciążonymi estymatorami parametru Θ, to mówimy, że
estymator
̂1 jest efektywniejszym estymatorem niż estymator Θ
Θ ̂2 , jeżeli
̂1 ) < 𝐷 2 (Θ
𝐷 2 (Θ ̂2 )
Estymator nieobciążony, który ma najmniejszą wariancję spośród wszystkich nieobciążonych

estymatorów danego parametru nazywamy estymatorem najefektywniejszym.
Gdy estymujemy jeden parametr (przy ogólnych założeniach, które spełniają wszystkie
omawiane przez nas rozkłady) wariancja dowolnego nieobciążonego estymatora spełnia
NIERÓWNOŚĆ RAO-CRAMERA
1
̂𝑛 ) ≥
𝐷 2 (Θ 2
𝜕
𝑛𝐸 ( 𝑙𝑛𝑓(𝑋; Θ))
𝜕Θ
Informacja Fishera
Zatem, jeśli dla pewnego estymatora otrzymamy równość, to estymator ten jest
najefektywniejszy.
̃ 𝑛 jest estymatorem najefektywniejszym, a Θ

Jeżeli Θ ̂𝑛 innym nieobciążonym estymatorem,
wówczas definiujemy efektywność estymatora Θ ̂𝑛 :
̃𝑛 )
𝐷 2 (Θ
̂𝑛 =
𝑒𝑓Θ , ̂𝑛 ≤ 1
0 < 𝑒𝑓Θ
̂𝑛 )
𝐷 2 (Θ
̂ 𝑛 = 1, to estymator jest asymptotycznie najefektywniejszy.

Jeżeli lim 𝑒𝑓Θ
𝑛→∞
PRZYKŁAD
Minimalna wariancja estymatora nieobciążonego wartości oczekiwanej 𝜇 z nieówności Rao-

𝜎2
Cramera wynosi .
𝑛
𝜎 2
Ponieważ wariancja średniej ma właśnie taką wartość: 𝐷 2 (𝑋̅) = 𝑛 , to średnia 𝑋̅ jest
najefektywniejszym estymatorem parametru 𝜇.
Ponieważ 𝑋̅ jest nieobciążonym estymatorem 𝜇 oraz lim 𝐷 2 (𝑋̅) = 0, to 𝑋̅ jest estymatorem

𝑛→∞
zgodnym.
METODY WYZNACZANIA ESTYMATORÓW
• Metoda momentów
• Metoda największej wiarogodności
METODA MOMENTÓW polega na porównaniu momentów z próby do odpowiednich

momentów teoretycznych (będących funkcjami nieznanych parametrów). Zwykle
wykorzystuje tyle momentów, ile jest szacowanych parametrów.
Momenty teoretyczne:
𝒎𝒌 = 𝑬(𝑿𝒌)
Moment rzędu k zmiennej losowej X.
Moment teoretyczny rzędu jeden to wartość oczekiwana: 𝑚1 = 𝐸(𝑋). Natomiast do

momentu teoretycznego rzędu dwa wykorzystujemy wzór na wariancję, otrzymując 𝑚2 =
𝐸(𝑋 2 ) = 𝐷 2 (𝑋) + (𝐸𝑋)2
Momenty empiryczne:
𝟏
𝑴𝒌 = ∑ 𝒙𝒌𝒊
𝒏
𝒊
Moment empiryczny rzędu jeden to średnia: 𝑀1 = 𝑋̅. Natomiast do momentu empirycznego
∑𝑛 ̅ 2
𝑖=1 (𝑋𝑖 −𝑋) ∑𝑛 2 ̅2
𝑖=1 𝑋𝑖 −𝑛𝑋
rzędu dwa wykorzystujemy wzór na wariancję z próby 𝑆 2 = = ,
𝑛 −1 𝑛−1
1 𝑛−1
otrzymując 𝑀2 = 𝑛 ∑𝑖 𝑥𝑖2 = 𝑆 2 + 𝑋̅ 2
𝑛
PRZYKŁAD
o Dla rozkładu wykładniczego z parametrem a mamy:

▪ Moment teoretyczny (pierwszego rzędu)
1
𝑚1 = 𝐸(𝑋) =
𝑎
▪ Moment empiryczny
1
𝑀1 = ∑ 𝑥𝑖1 = 𝑋̅
𝑛
𝑖
Zatem
1 1
≅ 𝑋̅ → 𝑎̂ = ̅
𝑎 𝑋
UWAGA 1 Estymatory uzyskane metodą momentów nie zawsze są jednoznaczne. Na
przykład w rozkładzie Poissona 𝜆̂ = 𝑋̅ i 𝜆̂ = 𝑆 2 .
UWAGA 2 Estymatory uzyskane metodą momentów nie mają zbyt dużej efektywności.
METODA NAJWIĘKSZEJ WIAROGODNOŚCI

Dla uproszczenia rozpatrzmy przypadek, gdy nieznany jest tylko jeden parametr.
Tworzymy tzw. funkcję wiarogodności daną wzorem:

𝑛
∏ 𝑝(Θ; 𝑥𝑖 ) 𝑑𝑙𝑎 𝑠𝑘𝑜𝑘𝑜𝑤𝑒𝑗

𝑖=1
𝐿(Θ; 𝑥1 , 𝑥2, … , 𝑥𝑛 ) = 𝑛
∏ 𝑓(Θ; 𝑥𝑖 ) 𝑑𝑙𝑎 𝑐𝑖ą𝑔ł𝑒𝑗

{ 𝑖=1
̂ , dla którego funkcja 𝐿(Θ; 𝑥1 , 𝑥2, … , 𝑥𝑛 ) przyjmuje
Estymatorem parametru Θ jest takie Θ
wartość największą.
Ponieważ funkcja 𝑙𝑛 (𝐿(Θ; 𝑥1 , 𝑥2, … , 𝑥𝑛 )) osiąga wartość największą dla tych samych
wartości, co funkcja 𝐿(Θ; 𝑥1 , 𝑥2, … , 𝑥𝑛 ), postępujemy następująco:
1. Wyznaczamy logarytm funkcji wiarogodności 𝑙𝑛 (𝐿(Θ; 𝑥1 , 𝑥2, … , 𝑥𝑛 ))

2. Obliczamy pochodną funkcji 𝑙𝑛 (𝐿(Θ; 𝑥1 , 𝑥2, … , 𝑥𝑛 )) po parametrze Θ.
3. Sprawdzamy, gdzie się pochodna zeruje.
4. Sprawdzamy znak drugiej pochodnej, aby się upewnić, że istotnie jest to maksimum.
UWAGA Estymatory uzyskane metodą największej wiarogodności mają wiele korzystnych

własności (dla wszystkich omawianych rozkładów z wyjątkiem równomiernego).
▪ Są zgodne
▪ Asymptotycznie nieobciążone
▪ Asymptotycznie najefektywniejsze
Najczęściej stosowanymi estymatorami w badaniach statystycznych cech ilościowych są

estymatory wartości oczekiwanej i wariancji z populacji. Natomiast gdy mamy do czynienia z
cechami jakościowymi najczęściej szacujemy frakcję elementów wyróżnionych w populacji
zwanej też wskaźnikiem struktury. W istocie estymujemy parametr p w rozkładzie
dwumianowym 𝐵(𝑛; 𝑝). Jeśli szacujemy 𝑝 na podstawie 𝑛-elementowej próby przyjmujemy
𝑚
𝑝̂ = 𝑛 , gdzie 𝑚 jest liczbą elementów wyróżnionych w próbie.
PRZEGLĄD PODSTAWOWYCH ESTYMATORÓW

Nieznany parametr Estymator Własności Uwagi
populacji
Wartość oczekiwana 𝜇 ∑ 𝑥𝑖 zgodny Dla rozkładu normalnego
𝑋̅ =
𝑛 nieobciążony również najefektywniejszy
Wariancja 𝜎 2 02
∑𝑛𝑖=1(𝑋𝑖 − 𝜇)2 zgodny Dla rozkładu normalnego
𝑆 =
𝑛 nieobciążony również najefektywniejszy
∑𝑖=1(𝑋𝑖 − 𝑋̅)2
𝑛
zgodny Dla rozkładu normalnego
𝑆2 = nieobciążony asymptotycznie
𝑛−1
najefektywniejszy
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 zgodny
𝑛 asymptotycznie
nieobciążony
Wskaźnik struktury 𝑝 𝑚 zgodny
𝑛 nieobciążony
najefektywniejszy
ESTYMACJA PRZEDZIAŁOWA
Nieznane parametry populacji (które chcemy oszacować):

POPULACJA
𝜇 – wartość oczekiwana
𝜎 2 – wariancja
𝜎 – odchylenie standardowe
PRÓBA
𝑝 – frakcja elementów wyróżnionych
Parametry z próby:
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑋̅ = 𝑋̅ – średnia z próby
𝑛
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)
2 𝑆 2 – wariancja z próby
2
𝑆 =
𝑛 −1 𝑆 – odchylenie standardowe z próby
𝑝̂ – frakcja elementów wyróżnionych z próby
Powyższe statystyki (funkcje zmiennych losowych) są punktowymi estymatorami

parametrów 𝜇, 𝜎 2 , 𝜎, tzn., jeśli dla konkretnych danych obliczymy wartości tych statystyk, to:
̅; 𝝈𝟐 ≈ 𝒔𝟐 ; 𝝈 ≈ 𝒔; ; 𝒑 ≈ 𝒑
𝝁≈𝒙 ̂.
Nie znamy dokładności tych oszacowań.
ESTYMACJA PRZEDZIAŁOWA – PRZEDZIAŁY UFNOŚCI

Estymacja przedziałowa polega na stworzeniu przedziału liczbowego, który będzie zawierał
nieznaną, wartość szacowanego parametru populacji (np. 𝜇) z określonym dużym
prawdopodobieństwem.
Definicja
Przedziałem ufności na poziomie 1 − 𝛼 dla nieznanego parametru populacji Θ nazywamy
przedział losowy (𝑉1 ; 𝑉2 ) taki, że
𝑃 (𝑉1 < Θ < 𝑉2 ) = 1 − 𝛼
Przedział taki nazywamy również 100(1 − α)% przedziałem ufności.
UWAGA Liczbę 1 − 𝛼 nazywamy poziomem ufności;

Najczęściej 𝛼 wynosi 0,05. Rzadziej 0,1, 0,01, etc.
Jak budujemy przedziały ufności?

Korzystamy ze statystyk (funkcji zmiennych losowych, np. 𝑋̅ czy 𝑆 2 ).
PRZEDZIAŁY UFNOŚCI DLA WARTOŚCI OCZEKIWANEJ
MODEL 1 Zakładamy, że próba prosta 𝑋1 , 𝑋2 , … , 𝑋𝑛 pochodzi z rozkładu normalnego ze znaną

wariancją.
Przypomnienie:
𝜎2
𝐸(𝑋̅) = 𝜇 𝐷 2 (𝑋̅) =
𝑛
̅−𝜇
𝑋
𝑈= 𝜎 ~𝑁(0; 1)
√𝑛
Szukamy najkrótszego (symetrycznego) przedziału:
̅ −𝜇
𝑋
𝑃 (−𝑘 < 𝜎 < 𝑘) = 1 − 𝛼
√𝑛
Przekształcamy formułę tak, aby otrzymać po środku 𝜇.
𝜎 𝜎
𝑃 (−𝑘 ∙ < 𝑋̅ − 𝜇 < 𝑘 ∙
) =1−𝛼
√𝑛 √𝑛
𝜎 𝜎
𝑃 (−𝑘 ∙ − 𝑋̅ < −𝜇 < 𝑘 ∙ − 𝑋̅ ) = 1 − 𝛼
√ 𝑛 √ 𝑛
𝜎 𝜎
𝑃 (𝑘 ∙ + 𝑋̅ > 𝜇 > −𝑘 ∙ + 𝑋̅ ) = 1 − 𝛼
√𝑛 √𝑛
𝜎 𝜎
𝑃 (𝑋̅ − 𝑘 ∙ < 𝜇 < 𝑋̅ + 𝑘 ∙ ) = 1 − 𝛼
√𝑛 √𝑛
𝝈 𝝈
̅ −𝒌∙
Przedział ma postać: (𝑿 ̅ +𝒌∙
;𝑿 ), co równoważnie możemy zapisać:
𝒏
√ √𝒏
𝝈
̅ ±𝒌∙
𝑿
√𝒏
𝛼
Jak określić 𝑘? 𝑘: Φ(𝑘) = 1 − 2 . (Dla poziomu ufności 95% 𝑘 = 1,96.)
Przykład
Badano długość czasu snu studentów. Wybrano losowo 16 studentów otrzymując 𝑋̅ =

448 𝑚𝑖𝑛.. Zakładając, że czas snu ma rozkład normalny z odchyleniem standardowym 70,
zbuduj 95% przedział ufności dla wartości oczekiwanej.
Potrzebne dane do stworzenia przedziału ufności:
𝑋̅ = 448
𝜎 = 70
𝑛 = 16
0,05
𝛼 = 0,05 → Φ(𝑘) = 1 − = 0,975 → 𝑘 = 1,96
2
Przedział ma zatem postać:
𝜎 𝜎 70 70
(𝑋̅ − 𝑘 ∙ ; 𝑋̅ + 𝑘 ∙ ) → (448 − 1,96 ∙ ; 448 + 1,96 ∙ ) → (413,7; 482,3)
√𝑛 √𝑛 √16 √16
Co możemy zapisywać alternatywnie w wersji 448 ± 34,3
• Jak się zmieni długość przedziału, gdy zwiększymy liczność próby?
Przedział stanie się krótszy = precyzja oszacowania się zwiększy
• Jak się zmieni długość przedziału, gdy zwiększymy poziom ufności?
Przedział stanie się dłuższy = precyzja oszacowania się zmniejszy

Zmiana dokładności przedziału ufności w zależności od zmiany poziomu ufności (przy
ustalonej liczności n=42 i odchyleniu standardowym σ=3,5).
Zmiana dokładności przedziału ufności w zależności od zmiany rozmiaru próby (przy

ustalonym poziomie ufności 95% i odchyleniu standardowym σ=3,5).
Błąd bezwzględny (∆)=połowa długości przedziału ufności

∆
Błąd względny 𝛿 = 𝑋̅ ∙ 100%
W poprzednim przykładzie błąd bezwzględny wynosi 34,3, a błąd względny ok. 7,66%.
Jeśli chcemy zwiększyć precyzję oszacowania, możemy zwiększyć liczność próby. Minimalną
liczność próby 𝑛0 , jeśli długość przedziału ma być nie większa niż 𝑙 = 2∆ liczymy ze wzoru:
𝜎 𝑘∙𝜎 2
𝑘∙ ≤ ∆ → 𝑛0 ≥ ( )
√𝑛 0 ∆
W poprzednim przykładzie, jeżeli chcielibyśmy uzyskać dokładność 20 minut, to minimalna

liczność próby musiałaby wynosić 48.
UWAGA
Jeżeli 𝑋𝑖 ~𝑁(𝜇; 𝜎), to
𝑋̅ − 𝜇
𝜎 ~𝑁(0; 1)
√𝑛
𝑋̅ − 𝜇
~𝑡(𝑛 − 1)
𝑆
√𝑛
𝑋̅−𝜇
𝑆 ~𝑁(0; 1) dla dużej próby
√𝑛
MODEL 2 Zakładamy, że próba prosta 𝑋1 , 𝑋2 , … , 𝑋𝑛 pochodzi z rozkładu normalnego z

nieznaną wariancją.
𝑋̅ − 𝜇
𝑇= ~𝑡(𝑛 − 1)
𝑆
√𝑛
Szukamy przedziału:
̅ −𝜇
𝑋
𝑃 (−𝑘 < < 𝑘) = 1 − 𝛼
𝑆
√𝑛
Przekształcamy formułę tak, aby otrzymać po środku 𝜇.
𝑠 𝑠
𝑃 (−𝑘 ∙ < 𝑋̅ − 𝜇 < 𝑘 ∙) =1−𝛼
√𝑛 √𝑛
𝑠 𝑠
𝑃 (−𝑘 ∙ − 𝑋̅ < −𝜇 < 𝑘 ∙ − 𝑋̅ ) = 1 − 𝛼
√𝑛 √𝑛
𝑠 𝑠
𝑃 (𝑘 ∙ + 𝑋̅ > 𝜇 > −𝑘 ∙ + 𝑋̅ ) = 1 − 𝛼
√𝑛 √𝑛
𝑠 𝑠
𝑃 (𝑋̅ − 𝑘 ∙ < 𝜇 < 𝑋̅ + 𝑘 ∙ )= 1−𝛼
√𝑛 √𝑛
𝑠 𝑠
̅−𝑘∙
Przedział ma postać: (𝑋 ; 𝑋̅ + 𝑘 ∙ )
√𝑛 √𝑛
Jak określić 𝑘? 𝑘: 𝑃(|𝑇| > 𝑘) = 𝛼 𝑇~𝑡(𝑛 − 1)
Przykład
Czas trwania pewnej reakcji ma rozkład normalny. Dokonano 5 pomiarów otrzymując 𝑥̅ = 61

oraz 𝑠 2 = 9. Zbuduj 90% przedział ufności dla 𝜇.
Potrzebne dane do stworzenia przedziału ufności:
𝑋̅ = 61
𝑠=3
𝑛=5
𝛼 = 0,1 → 𝑃(|𝑇| > 𝑘) = 0,1 → 𝑘 = 2,13
Przedział ma zatem postać:

𝑠 𝑠 3 3
(𝑋̅ − 𝑘 ∙ ; 𝑋̅ + 𝑘 ∙ ) → (61 − 2,13 ∙ ; 61 + 2,13 ∙ ) → (58,14; 63,86)
√𝑛 √𝑛 √5 √5
Co możemy zapisywać alternatywnie w wersji 61 ± 2,86

MODEL 3 Zakładamy, że próba prosta 𝑋1 , 𝑋2 , … , 𝑋𝑛 pochodzi z dowolnego rozkładu oraz
próba jest duża, 𝑛 ≥ 100.
𝑠 𝑠 𝛼
Przedział ufności dla 𝜇 ∶ (𝑋̅ − 𝑘 ∙ ; 𝑋̅ + 𝑘 ∙ ), gdzie 𝑘: Φ(𝑘) = 1 − 2 .
𝑛
√ √ 𝑛
UWAGA
Pojęcie dużej próby w różnych dziedzinach zdefiniowane jest w różny sposób. Najczęściej
przyjmuje się 𝑛 ≥ 100.
PRZEDZIAŁY UFNOŚCI DLA WARIANCJI (ODCHYLENIA STANDARDOWEGO)
MODEL 4 Zakładamy, że próba prosta 𝑋1 , 𝑋2 , … , 𝑋𝑛 pochodzi z rozkładu normalnego z

nieznaną wariancją.
Konstrukcję opieramy na statystyce
(𝑛 − 1)𝑆 2 2
~𝜒 (𝑛 − 1)
𝜎2
(𝑛 − 1)𝑆2
𝑃 (𝑢1 < < 𝑢2 ) = 1 − 𝛼
𝜎2
1 𝜎2 1
𝑃( < 2 < ) = 1−𝛼
𝑢2 (𝑛 − 1)𝑆 𝑢1
2 2
(𝑛 − 1)𝑆 (𝑛 − 1)𝑆
𝑃( < 𝜎2 < )=1−𝛼
𝑢2 𝑢1
(𝒏−𝟏)𝑺 (𝒏−𝟏)𝑺𝟐 𝟐 𝛼
Przedział ufności dla wariancji 〈 𝒖 ; 𝒖 〉, gdzie 𝑃(𝑌𝑛−1 > 𝑢2 ) = 2 , 𝑃(𝑌𝑛−1 > 𝑢1 ) = 1 −
𝟐 𝟏
𝛼
.
2
Przykład
Wykonano 8 pomiarów liczby skrętów dla losowo wybranych odcinków przędzy o długości
1m i otrzymano 𝑋̅ = 100, 𝑆 2 = 134,2. Zakładając, że dane pochodzą z rozkładu normalnego
zbuduj 95% przedział ufności dla wariancji oraz odchylenia standardowego.
𝟐
(𝒏−𝟏)𝑺 (𝒏−𝟏)𝑺 𝟐 𝛼
Przedział ufności dla wariancji 〈 𝒖 ; 𝒖 〉, gdzie 𝑃(𝑌𝑛−1 > 𝑢2 ) = 2 , 𝑃(𝑌𝑛−1 > 𝑢1 ) = 1 −
𝟐 𝟏
𝛼
.
2
𝒏=𝟖
𝜶 = 𝟎, 𝟎𝟓
𝑷(𝒀𝟕 > 𝒖𝟐 ) = 𝟎, 𝟎𝟐𝟓 → 𝒖𝟐 = 𝟏𝟔, 𝟎𝟏 ,
𝑷(𝒀𝟕 > 𝒖𝟏 ) = 𝟎, 𝟗𝟕𝟓 → 𝒖𝟏 = 𝟏, 𝟔𝟗
Przedział ufności dla wariancji ma zatem postać:
7 ∙ 134,2 7 ∙ 134,2
〈 ; 〉 → 〈58,68; 555,86〉
16,01 1,69
Przedział ufności dla odchylenia standardowego jest postaci:
〈√58,68; √555,86〉 → 〈7,66; 23,6〉.
MODEL 5
Zakładamy, że próba prosta 𝑋1 , 𝑋2 , … , 𝑋𝑛 pochodzi z rozkładu dowolnego z nieznaną
wariancją i 𝑛 ≥ 100
𝒌∙𝑺 𝟐 𝒌∙𝑺 𝟐 𝛼
Przedział ufności dla wariancji 〈(𝑺 − √𝟐𝒏) ; (𝑺 + √𝟐𝒏) 〉gdzie 𝑘: Φ(𝑘) = 1 − 2 .
PRZEDZIAŁY UFNOŚCI DLA FRAKCJI/PROPORCJI/WSKAŹNIKA STRUKTURY
MODEL 6
Przedział ufności dla proporcji zakłada dużą liczność próby:

𝑾(𝟏−𝑾)
𝑾 ± 𝒌√ 𝒏
𝒎
𝑾=
𝒏
𝛼
gdzie m oznacza liczbę elementów wyróżnionych, natomiast 𝑘: Φ(𝑘 ) = 1 − 2 .
Przykład
Fabryka zakupiła nowe urządzenie do produkcji pewnego detalu. Wylosowano 500 z nich i
okazało się, ze 20 nie spełnia norm jakości. Podaj przedział ufności dla wadliwości. Przyjąć
poziom ufności 0,95. Jak liczną próbę należałoby pobrać, aby oszacować wadliwość z
dokładnością 0,01.
𝑛 = 500
𝑚 = 20
20
𝑤= = 0,04
500
𝛼
𝛼 = 0,05 → Φ(𝑘) = 1 − → Φ(𝑘) = 0,975 → 𝑘 = 1,96
2
Zatem przedział ufności dla p jest postaci:
0,04 ∙ 0,96
0,04 ± 1,96 ∙ √
500
→ 0,04 ± 0,017 → 〈0,023; 0,057〉

Dokładność wynosi 0,017. Jeżeli chcielibyśmy uzyskać dokładność 0,01, to minimalną liczność
próby policzymy z zależności:
𝑾(𝟏−𝑾) 𝑘 2
𝒌√ 𝑛0
≤ 𝟎, 𝟎𝟏 → 𝑛0 ≥ (0,01 ) ∙ 𝑊 ∙ (1 − 𝑊)
1,96 2
Zatem w naszym przypadku 𝑛0 ≥ ( ) ∙ 0,04 ∙ 0,96 ≈ 1475,2. Co oznacza, że minimalna
0,01
liczność próby to 1476.

Estymacja Wykład

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estymacja Wykład

Uploaded by

Copyright:

Available Formats

STATYSTYKA → poznanie struktury określonej zbiorowości

KAŻDA WIELKOŚĆ, KTÓRĄ MIERZYMY OBARCZONA JEST BŁĘDEM

▪ Niedoskonałość narzędzia pomiarowego

OPTYMALNE PODEJMOWANIE DECYZJI W WARUNKACH NIEPEWNOŚCI = STATYSTYKA

▪ Zbiorowość statystyczna = populacja – zbiór elementów podobnych ze względu na

Badanie statystyczne może być:

▪ Całościowe – obejmujące całą populację

W RACHUNKU PRAWDOPODOBIEŃSTWA W STATYSTYCE

Ma znany rozkład. Nie zakładamy pełnej znajomości

CEL STATYSTYKI MATEMATYCZNEJ: na podstawie próby wyciągamy wnioski dotyczące

• Odchylenie standardowe z próby

𝑃(𝑌 > 𝑘) = 0,99 →

𝑃(𝑌 < 𝑘) = 0,05 →

Statystyki 𝑋̅ oraz 𝑆 2 są zmiennymi niezależnymi.

𝑌𝑛 o rozkładzie chi-kwadrat z n stopniami swobody, to

𝑃(𝑇 > 𝑘) = 0,01 → 𝑘 = 2,76

Jeśli zmienne 𝑋1 , 𝑋2 , … , 𝑋𝑛 oraz 𝑌1 , 𝑌2 , … , 𝑌𝑚 są niezależne 𝑋𝑖 ~𝑁(𝜇𝑋 ; 𝜎𝑋 ) i 𝑌𝑖 ~𝑁(𝜇𝑌 ; 𝜎𝑌 ), to

MODELOWANIE CZYSZCZENIE DANYCH

ESTYMACJA TESTOWANIE HIPOTEZ

Chcemy określić prawdopodobieństwo wyrzucenia orła (𝑝) dla konkretnej monety.

• Estymacja przedziałowa – 𝑝 ∈ (… . ; … ) z pewnym dużym prawdopodobieństwem;

Załóżmy, że rozkład cechy w populacji zależy od nieznanego parametru Θ. Np. 𝜇, 𝜎, 𝑝.

Szacowanie parametry w oparciu o 𝑛-elementową próbę = ESTYMACJA

Wraz ze wzrostem wielkości próby wzrasta dokładność oszacowania:

Istnieje nieskończenie wiele estymatorów zgodnych. Na przykład

Czy średnia z próby jest estymatorem nieobciążonym parametru 𝜇?

Jeśli 𝑋1 , 𝑋2 , … , 𝑋𝑛 jest próbą prostą z rozkładu o wartości oczekiwanej 𝜇, to

Czy wariancja z próby jest estymatorem nieobciążonym parametru 𝜎 2?

Zatem 𝑺𝟐 jest estymatorem nieobciążonym.

Dla danego parametru może istnieć wiele estymatorów nieobciążonych.

Rozważmy cztery estymatory:

Które z nich są nieobciążone?

Ponieważ estymatory 𝑈2 , 𝑈3 oraz 𝑈4 są nieobciążonymi estymatorami parametru 𝜇, to w jaki

Estymator nieobciążony, który ma najmniejszą wariancję spośród wszystkich nieobciążonych

̃ 𝑛 jest estymatorem najefektywniejszym, a Θ

̂ 𝑛 = 1, to estymator jest asymptotycznie najefektywniejszy.

Minimalna wariancja estymatora nieobciążonego wartości oczekiwanej 𝜇 z nieówności Rao-

Ponieważ 𝑋̅ jest nieobciążonym estymatorem 𝜇 oraz lim 𝐷 2 (𝑋̅) = 0, to 𝑋̅ jest estymatorem

METODY WYZNACZANIA ESTYMATORÓW

METODA MOMENTÓW polega na porównaniu momentów z próby do odpowiednich

Moment rzędu k zmiennej losowej X.

Moment teoretyczny rzędu jeden to wartość oczekiwana: 𝑚1 = 𝐸(𝑋). Natomiast do

o Dla rozkładu wykładniczego z parametrem a mamy:

METODA NAJWIĘKSZEJ WIAROGODNOŚCI

Tworzymy tzw. funkcję wiarogodności daną wzorem:

∏ 𝑝(Θ; 𝑥𝑖 ) 𝑑𝑙𝑎 𝑠𝑘𝑜𝑘𝑜𝑤𝑒𝑗

∏ 𝑓(Θ; 𝑥𝑖 ) 𝑑𝑙𝑎 𝑐𝑖ą𝑔ł𝑒𝑗

1. Wyznaczamy logarytm funkcji wiarogodności 𝑙𝑛 (𝐿(Θ; 𝑥1 , 𝑥2, … , 𝑥𝑛 ))

UWAGA Estymatory uzyskane metodą największej wiarogodności mają wiele korzystnych

Najczęściej stosowanymi estymatorami w badaniach statystycznych cech ilościowych są

PRZEGLĄD PODSTAWOWYCH ESTYMATORÓW

Nieznane parametry populacji (które chcemy oszacować):

𝑝̂ – frakcja elementów wyróżnionych z próby

Powyższe statystyki (funkcje zmiennych losowych) są punktowymi estymatorami

Nie znamy dokładności tych oszacowań.

ESTYMACJA PRZEDZIAŁOWA – PRZEDZIAŁY UFNOŚCI

UWAGA Liczbę 1 − 𝛼 nazywamy poziomem ufności;

Jak budujemy przedziały ufności?

PRZEDZIAŁY UFNOŚCI DLA WARTOŚCI OCZEKIWANEJ

MODEL 1 Zakładamy, że próba prosta 𝑋1 , 𝑋2 , … , 𝑋𝑛 pochodzi z rozkładu normalnego ze znaną

Badano długość czasu snu studentów. Wybrano losowo 16 studentów otrzymując 𝑋̅ =

Co możemy zapisywać alternatywnie w wersji 448 ± 34,3

• Jak się zmieni długość przedziału, gdy zwiększymy liczność próby?