Download as pdf or txt
Download as pdf or txt
You are on page 1of 24

STATYSTYKA → poznanie struktury określonej zbiorowości

• Zbieranie danych
• Analizowanie danych
• Wnioskowanie na podstawie danych

KAŻDA WIELKOŚĆ, KTÓRĄ MIERZYMY OBARCZONA JEST BŁĘDEM

▪ Niedoskonałość narzędzia pomiarowego


▪ Niedoskonałość metody pomiarowej
▪ Omylność eksperymentatora

OPTYMALNE PODEJMOWANIE DECYZJI W WARUNKACH NIEPEWNOŚCI = STATYSTYKA

demon Laplace’a
efekt motyla

Przedmiotem badań statystycznych są tzw. procesy masowe. Z tą analizą wiążą się dwa
podstawowe pojęcia:

▪ Zbiorowość statystyczna = populacja – zbiór elementów podobnych ze względu na


pewne kryteria
▪ Próba losowa – podzbiór populacji. Jej struktura powinna być zbliżona do struktury
populacji, aby wyniki uzyskane z próby można uogólnić do całej populacji

Cecha = zmienna charakteryzująca badane obiekty (wzrost, waga, wielkość kredytu, liczba
dzieci, poziom cukru we krwi, miesięczne wydatki na rozrywkę).

Badanie statystyczne może być:

▪ Całościowe – obejmujące całą populację


▪ Częściowe – obejmujące próbę losową

George Gallup

ZMIENNA LOSOWA

W RACHUNKU PRAWDOPODOBIEŃSTWA W STATYSTYCE

Ma znany rozkład. Nie zakładamy pełnej znajomości


rozkładu.
Wykorzystywany do obliczania
prawdopodobieństw Zmienna losowa = cecha statystyczna
elementów badanej zbiorowości.
POPULACJA Losujemy n elementów
(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) i badamy je ze
względu na pewną cechę-zmienna
losowa, np. wzrost, wielkość
PRÓBA LOSOWA
zarobków, poziom IQ.

Wyniki 𝑥1 , 𝑥2 , … , 𝑥𝑛 to
zaobserwowane wartości n-
elementowej próby.

CEL STATYSTYKI MATEMATYCZNEJ: na podstawie próby wyciągamy wnioski dotyczące


badanej cechy w całej populacji. (Badanie pełne często wiąże się z wysokimi kosztami lub jest
niszczące).
Próbę losową (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) nazywamy PRÓBĄ PROSTĄ, jeśli zmienne 𝑋1 , 𝑋2 , … , 𝑋𝑛 są
niezależne i każda ma rozkład taki, jak rozkład badanej cechy.
Dowolną funkcję 𝑔(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) nazywamy STATYSTYKĄ. Jako funkcja zmiennej losowej
też jest zmienną losową. Jej rozkład zależy od rozkładów 𝑋1 , 𝑋2 , … , 𝑋𝑛 , ale też od postaci
funkcji 𝑔.
PODSTAWOWE STATYSTYKI

• Średnia z próby
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑋̅ =
𝑛
• Wariancja z próby

2
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
𝑆 =
𝑛−1

• Odchylenie standardowe z próby


𝑆 = √𝑆 2
• Wariancja z próby dla danej wartości oczekiwanej
∑𝑛 (𝑋𝑖 − 𝜇)2
𝑆 02 = 𝑖=1
𝑛
ROZKŁAD NIEKTÓRYCH STATYSTYK
Jeżeli zmienne losowe 𝑋1 , 𝑋2 , … , 𝑋𝑛 są niezależne i pochodzą z rozkładu 𝑁(𝜇; 𝜎), to
𝜎
𝑋̅~𝑁 (𝜇; )
√𝑛
Po standaryzacji:
𝑋̅ − 𝜇
𝜎 ~𝑁(0; 1)
√𝑛

ROZKŁAD CHI-KWADRAT
Jeśli zmienne 𝑋1 , 𝑋2 , … , 𝑋𝑛 są niezależne o rozkładzie N(0;1), to
𝑌 = 𝑋12 + 𝑋22 + ⋯ + 𝑋𝑛2
ma rozkład chi-kwadrat z n stopniami swobody
• 𝐸𝑋 = 𝑛
• 𝐷 2 𝑋 = 2𝑛

Przykładowo, dla 𝑛 = 6:

𝑃(𝑌 > 𝑘) = 0,99 →

𝑘 = 0,87

𝑃(𝑌 < 𝑘) = 0,05 →

𝑘 = 1,64
Zmienna

(𝒏 − 𝟏)𝑺𝟐
𝝈𝟐
ma rozkład 𝝌 𝟐 (𝒏 − 𝟏).

Statystyki 𝑋̅ oraz 𝑆 2 są zmiennymi niezależnymi.

ROZKŁAD t-STUDENTA
Jeśli zmienne 𝑋 𝑖 𝑌𝑛 są niezależne, X o rozkładzie N(0;1),

𝑌𝑛 o rozkładzie chi-kwadrat z n stopniami swobody, to


𝑋
𝑇=
√𝑌𝑛
𝑛
ma rozkład t-Studenta z n stopniami swobody.
• 𝐸𝑋 = 0, 𝑛 > 1
𝑛
• 𝐷 2 𝑋 = 𝑛−2 , 𝑛 > 2

https://upload.wikimedia.org/wikipedia/commons/c/cf/Student_densite_best.JPG
Zwyczajowo tablice podają, dla ustalonej liczby stopni swobody, pola dwóch skrajnych
„ogonów”. Tablice podają wartości 𝑃(|𝑇𝑛 | > 𝑘) = 𝛼

Dla 𝑛 = 10:
𝑃(|𝑇| > 𝑘) = 0,1 → 𝑘 = 1,81

𝑃(𝑇 > 𝑘) = 0,01 → 𝑘 = 2,76


𝑃(𝑇 ≤ 𝑘) = 0,1 → 𝑘 = −1,37
Jaki rozkład ma
𝑋̅ − 𝜇
?
𝑆
√𝑛
𝑋̅ − 𝜇
𝜎
𝑋̅ − 𝜇 √𝑛
= ~𝑡(𝑛 − 1)
𝑆 (𝑛 − 1)𝑆 2
√𝑛 √ 𝜎2
𝑛−1
Dla dużych n
𝑋̅ − 𝜇
~𝑁(0; 1)
𝑆
√𝑛

PRZYKŁAD
Załóżmy, że zmienne 𝑋1 , 𝑋2 , … , 𝑋64 oraz 𝑌1 , 𝑌2 , … , 𝑌49 są niezależne 𝑋𝑖 ~𝑁(235; 40) i
𝑌𝑖 ~𝑁(190; 35). Oblicz:
𝑃(𝑋̅64 < 𝑌̅49 + 35,5).
40
𝑋𝑖 ~𝑁(235; 40) → 𝑋̅64 ~𝑁 (235; ) => 𝑋̅64 ~𝑁(235; 5)
√64
35
𝑌𝑖 ~𝑁(235; 40) → 𝑌̅49 ~𝑁 (190; ) => 𝑌̅49 ~𝑁(190; 5)
√49
𝑋̅64 − 𝑌̅49 ~𝑁 (235 − 190; √52 + 52 ) = 𝑁(45; 5√2)

𝑍 − 45 35,5 − 45
𝑃(𝑋̅64 < 𝑌̅49 + 35,5) = 𝑃(𝑋̅64 − 𝑌̅49 < 35,5) = 𝑃(𝑍 < 35,5) = 𝑃 ( < )=
5√2 5√2
= 𝑃(𝑊 < −1,34) = Φ(−1,34) = 1 − Φ(1,34) =

OGÓLNIE

Jeśli zmienne 𝑋1 , 𝑋2 , … , 𝑋𝑛 oraz 𝑌1 , 𝑌2 , … , 𝑌𝑚 są niezależne 𝑋𝑖 ~𝑁(𝜇𝑋 ; 𝜎𝑋 ) i 𝑌𝑖 ~𝑁(𝜇𝑌 ; 𝜎𝑌 ), to

𝜎𝑋 2 𝜎𝑌 2
𝑋̅ − 𝑌̅~𝑁 (𝜇𝑋 − 𝜇𝑌 ; √ + )
𝑛 𝑚
ROZKŁAD F

Jeżeli zmienne losowe X i Y są niezależne oraz 𝑋~𝜒 2 (𝑘) i 𝑌~𝜒 2 (𝑙), to zmienna
𝑋
𝐹= 𝑘
𝑌
𝑙
ma rozkład F Snedecora - Fishera o k i l stopniach swobody, co będziemy zapisywać: 𝐹~𝐹(𝑘; 𝑙)

file:///C:/Users/imk%20wat/Downloads/F-distribution_pdf.svg
FORMUŁOWANIE PYTAŃ ZBIERANIE DANYCH

MODELOWANIE CZYSZCZENIE DANYCH

ESTYMACJA TESTOWANIE HIPOTEZ

DECYZJA/WNIOSKI

Chcemy określić prawdopodobieństwo wyrzucenia orła (𝑝) dla konkretnej monety.

• Estymacja punktowa − 𝑝 ≈ ⋯ ;

• Estymacja przedziałowa – 𝑝 ∈ (… . ; … ) z pewnym dużym prawdopodobieństwem;


• Testowanie hipotez – odpowiedź na pytanie: czy 𝑝 = 0,5 czy może 𝑝 > 0,5.

ESTYMACJA PUNKTOWA

Załóżmy, że rozkład cechy w populacji zależy od nieznanego parametru Θ. Np. 𝜇, 𝜎, 𝑝.

Szacowanie parametry w oparciu o 𝑛-elementową próbę = ESTYMACJA


Każda statystyka 𝑔(𝑋1 , 𝑋2 , … , 𝑋𝑛 ), którą przyjmujemy jako ocenę nieznanego parametru
nazywamy estymatorem parametru Θ i oznaczamy Θ ̂. Statystyka 𝑔(𝑋1 , 𝑋2 , … , 𝑋𝑛 ), jako
funkcja zmiennych losowych, jest również zmienną losową.
CECHY DOBRYCH ESTYMATORÓW
ESTYMATOR ZGODNY

Wraz ze wzrostem wielkości próby wzrasta dokładność oszacowania:


̂ 𝒏 − 𝚯| < 𝜺) = 𝟏
𝐥𝐢𝐦 𝑷(|𝚯
𝒏→∞

Istnieje nieskończenie wiele estymatorów zgodnych. Na przykład


𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑋̅ =
𝑛
̂ 𝑛 = 𝛼𝑛 𝑋̅, 𝛼𝑛 → 1 jest też
jest estymatorem zgodnym, ale każdy estymator postaci Θ
zgodny.
W praktyce zgodność sprawdza się korzystając z faktu, że estymator (asymptotycznie)
nieobciążony, którego wariancja dąży do zera, jest estymatorem zgodnym.

ESTYMATOR NIEOBCIAŻONY
̂ 𝒏 jest estymatorem nieobciążonym parametru 𝚯, jeśli 𝑬(𝚯
𝚯 ̂ 𝒏 ) = 𝚯.

̂𝑛 ) − Θ.
Obciążeniem estymatora nazywamy 𝐵𝑛 (Θ) = 𝐸(Θ
̂𝑛 ) − Θ) = 0, to estymator nazywamy ASYMPTOTYCZNIE
Jeżeli lim 𝐵𝑛 (Θ) = lim (𝐸(Θ
𝑛→∞ 𝑛→∞
NIEOBCIĄŻONYM.

Czy średnia z próby jest estymatorem nieobciążonym parametru 𝜇?

Jeśli 𝑋1 , 𝑋2 , … , 𝑋𝑛 jest próbą prostą z rozkładu o wartości oczekiwanej 𝜇, to


𝑛 𝑛
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 1 1
𝐸(𝑋̅) = 𝐸 ( ) = ∑ 𝐸(𝑋𝑖 ) = ∑ 𝜇 = 𝜇
𝑛 𝑛 𝑛
𝑖=1 𝑖=1

Czy wariancja z próby jest estymatorem nieobciążonym parametru 𝜎 2?


∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
𝑆2 =
𝑛−1

𝐸(𝑆 2 ) = 𝜎 2

Zatem 𝑺𝟐 jest estymatorem nieobciążonym.

∑𝑛 ̅ 2
𝑖=1(𝑋𝑖 −𝑋) 𝜎2
Gdybyśmy użyli estymatora 𝑆 2 = otrzymalibyśmy obciążenie − .
𝑛 𝑛

𝜎2
Ponieważ lim = 0 , to jest to estymator asymptotycznie nieobciążony.
𝑛→∞ 𝑛

∑𝑛 ̅ 2
𝑖=1(𝑋𝑖 −𝑋)
Do analiz statystycznych używamy estymatora wariancji postaci 𝑆 2 = 𝑛−1

Dla danego parametru może istnieć wiele estymatorów nieobciążonych.

PRZYKŁAD
Weźmy próbę prostą 𝑋1 , 𝑋2 , 𝑋3 , 𝑋4 , która pochodzi z populacji o rozkładzie normalnym z
wartością oczekiwaną 𝜇 i odchyleniem standardowym 𝜎.

Rozważmy cztery estymatory:


𝑈1 = 𝑋1 + 𝑋4
𝑋1 + 𝑋2 + 𝑋3 + 𝑋4
𝑈2 =
4
𝑋1 + 2 𝑋2 + 𝑋3 − 2 𝑋4
𝑈3 =
2
𝑋1 + 2 𝑋2 + 3𝑋3 + 4 𝑋4
𝑈4 =
10

Które z nich są nieobciążone?


𝐸(𝑈1 ) = 2𝜇, 𝐸(𝑈2 ) = 𝜇, 𝐸(𝑈3 ) = 𝜇, 𝐸(𝑈4 ) = 𝜇.

Ponieważ estymatory 𝑈2 , 𝑈3 oraz 𝑈4 są nieobciążonymi estymatorami parametru 𝜇, to w jaki


sposób wybrać najlepszy z nich?
Policzmy wariancję każdego z estymatorów:
𝜎 2 5𝜎 2
𝐷 2 (𝑈2) = =
4 20
5𝜎 2 50𝜎 2
𝐷 2 (𝑈3 ) = =
2 20
2𝜎 2 8𝜎 2
𝐷 2 (𝑈2 ) = =
5 20
Najlepszym estymatorem będzie ten o najmniejszej wariancji.
̂1 oraz Θ
Jeśli Θ ̂ 2 są dwoma nieobciążonymi estymatorami parametru Θ, to mówimy, że
estymator
̂1 jest efektywniejszym estymatorem niż estymator Θ
Θ ̂2 , jeżeli

̂1 ) < 𝐷 2 (Θ
𝐷 2 (Θ ̂2 )

Estymator nieobciążony, który ma najmniejszą wariancję spośród wszystkich nieobciążonych


estymatorów danego parametru nazywamy estymatorem najefektywniejszym.

Gdy estymujemy jeden parametr (przy ogólnych założeniach, które spełniają wszystkie
omawiane przez nas rozkłady) wariancja dowolnego nieobciążonego estymatora spełnia
NIERÓWNOŚĆ RAO-CRAMERA
1
̂𝑛 ) ≥
𝐷 2 (Θ 2
𝜕
𝑛𝐸 ( 𝑙𝑛𝑓(𝑋; Θ))
𝜕Θ

Informacja Fishera
Zatem, jeśli dla pewnego estymatora otrzymamy równość, to estymator ten jest
najefektywniejszy.

̃ 𝑛 jest estymatorem najefektywniejszym, a Θ


Jeżeli Θ ̂𝑛 innym nieobciążonym estymatorem,
wówczas definiujemy efektywność estymatora Θ ̂𝑛 :

̃𝑛 )
𝐷 2 (Θ
̂𝑛 =
𝑒𝑓Θ , ̂𝑛 ≤ 1
0 < 𝑒𝑓Θ
̂𝑛 )
𝐷 2 (Θ

̂ 𝑛 = 1, to estymator jest asymptotycznie najefektywniejszy.


Jeżeli lim 𝑒𝑓Θ
𝑛→∞
PRZYKŁAD

Minimalna wariancja estymatora nieobciążonego wartości oczekiwanej 𝜇 z nieówności Rao-


𝜎2
Cramera wynosi .
𝑛

𝜎 2
Ponieważ wariancja średniej ma właśnie taką wartość: 𝐷 2 (𝑋̅) = 𝑛 , to średnia 𝑋̅ jest
najefektywniejszym estymatorem parametru 𝜇.

Ponieważ 𝑋̅ jest nieobciążonym estymatorem 𝜇 oraz lim 𝐷 2 (𝑋̅) = 0, to 𝑋̅ jest estymatorem


𝑛→∞
zgodnym.

METODY WYZNACZANIA ESTYMATORÓW

• Metoda momentów
• Metoda największej wiarogodności

METODA MOMENTÓW polega na porównaniu momentów z próby do odpowiednich


momentów teoretycznych (będących funkcjami nieznanych parametrów). Zwykle
wykorzystuje tyle momentów, ile jest szacowanych parametrów.

Momenty teoretyczne:

𝒎𝒌 = 𝑬(𝑿𝒌)

Moment rzędu k zmiennej losowej X.

Moment teoretyczny rzędu jeden to wartość oczekiwana: 𝑚1 = 𝐸(𝑋). Natomiast do


momentu teoretycznego rzędu dwa wykorzystujemy wzór na wariancję, otrzymując 𝑚2 =
𝐸(𝑋 2 ) = 𝐷 2 (𝑋) + (𝐸𝑋)2

Momenty empiryczne:
𝟏
𝑴𝒌 = ∑ 𝒙𝒌𝒊
𝒏
𝒊
Moment empiryczny rzędu jeden to średnia: 𝑀1 = 𝑋̅. Natomiast do momentu empirycznego
∑𝑛 ̅ 2
𝑖=1 (𝑋𝑖 −𝑋) ∑𝑛 2 ̅2
𝑖=1 𝑋𝑖 −𝑛𝑋
rzędu dwa wykorzystujemy wzór na wariancję z próby 𝑆 2 = = ,
𝑛 −1 𝑛−1
1 𝑛−1
otrzymując 𝑀2 = 𝑛 ∑𝑖 𝑥𝑖2 = 𝑆 2 + 𝑋̅ 2
𝑛

PRZYKŁAD

o Dla rozkładu wykładniczego z parametrem a mamy:


▪ Moment teoretyczny (pierwszego rzędu)
1
𝑚1 = 𝐸(𝑋) =
𝑎
▪ Moment empiryczny
1
𝑀1 = ∑ 𝑥𝑖1 = 𝑋̅
𝑛
𝑖
Zatem
1 1
≅ 𝑋̅ → 𝑎̂ = ̅
𝑎 𝑋
UWAGA 1 Estymatory uzyskane metodą momentów nie zawsze są jednoznaczne. Na
przykład w rozkładzie Poissona 𝜆̂ = 𝑋̅ i 𝜆̂ = 𝑆 2 .

UWAGA 2 Estymatory uzyskane metodą momentów nie mają zbyt dużej efektywności.

METODA NAJWIĘKSZEJ WIAROGODNOŚCI


Dla uproszczenia rozpatrzmy przypadek, gdy nieznany jest tylko jeden parametr.

Tworzymy tzw. funkcję wiarogodności daną wzorem:


𝑛

∏ 𝑝(Θ; 𝑥𝑖 ) 𝑑𝑙𝑎 𝑠𝑘𝑜𝑘𝑜𝑤𝑒𝑗


𝑖=1
𝐿(Θ; 𝑥1 , 𝑥2, … , 𝑥𝑛 ) = 𝑛

∏ 𝑓(Θ; 𝑥𝑖 ) 𝑑𝑙𝑎 𝑐𝑖ą𝑔ł𝑒𝑗


{ 𝑖=1
̂ , dla którego funkcja 𝐿(Θ; 𝑥1 , 𝑥2, … , 𝑥𝑛 ) przyjmuje
Estymatorem parametru Θ jest takie Θ
wartość największą.

Ponieważ funkcja 𝑙𝑛 (𝐿(Θ; 𝑥1 , 𝑥2, … , 𝑥𝑛 )) osiąga wartość największą dla tych samych
wartości, co funkcja 𝐿(Θ; 𝑥1 , 𝑥2, … , 𝑥𝑛 ), postępujemy następująco:

1. Wyznaczamy logarytm funkcji wiarogodności 𝑙𝑛 (𝐿(Θ; 𝑥1 , 𝑥2, … , 𝑥𝑛 ))


2. Obliczamy pochodną funkcji 𝑙𝑛 (𝐿(Θ; 𝑥1 , 𝑥2, … , 𝑥𝑛 )) po parametrze Θ.
3. Sprawdzamy, gdzie się pochodna zeruje.
4. Sprawdzamy znak drugiej pochodnej, aby się upewnić, że istotnie jest to maksimum.

UWAGA Estymatory uzyskane metodą największej wiarogodności mają wiele korzystnych


własności (dla wszystkich omawianych rozkładów z wyjątkiem równomiernego).

▪ Są zgodne
▪ Asymptotycznie nieobciążone
▪ Asymptotycznie najefektywniejsze

Najczęściej stosowanymi estymatorami w badaniach statystycznych cech ilościowych są


estymatory wartości oczekiwanej i wariancji z populacji. Natomiast gdy mamy do czynienia z
cechami jakościowymi najczęściej szacujemy frakcję elementów wyróżnionych w populacji
zwanej też wskaźnikiem struktury. W istocie estymujemy parametr p w rozkładzie
dwumianowym 𝐵(𝑛; 𝑝). Jeśli szacujemy 𝑝 na podstawie 𝑛-elementowej próby przyjmujemy
𝑚
𝑝̂ = 𝑛 , gdzie 𝑚 jest liczbą elementów wyróżnionych w próbie.

PRZEGLĄD PODSTAWOWYCH ESTYMATORÓW


Nieznany parametr Estymator Własności Uwagi
populacji
Wartość oczekiwana 𝜇 ∑ 𝑥𝑖 zgodny Dla rozkładu normalnego
𝑋̅ =
𝑛 nieobciążony również najefektywniejszy

Wariancja 𝜎 2 02
∑𝑛𝑖=1(𝑋𝑖 − 𝜇)2 zgodny Dla rozkładu normalnego
𝑆 =
𝑛 nieobciążony również najefektywniejszy
∑𝑖=1(𝑋𝑖 − 𝑋̅)2
𝑛
zgodny Dla rozkładu normalnego
𝑆2 = nieobciążony asymptotycznie
𝑛−1
najefektywniejszy
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 zgodny
𝑛 asymptotycznie
nieobciążony
Wskaźnik struktury 𝑝 𝑚 zgodny
𝑛 nieobciążony
najefektywniejszy
ESTYMACJA PRZEDZIAŁOWA

Nieznane parametry populacji (które chcemy oszacować):


POPULACJA
𝜇 – wartość oczekiwana

𝜎 2 – wariancja

𝜎 – odchylenie standardowe
PRÓBA
𝑝 – frakcja elementów wyróżnionych

Parametry z próby:
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑋̅ = 𝑋̅ – średnia z próby
𝑛
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)
2 𝑆 2 – wariancja z próby
2
𝑆 =
𝑛 −1 𝑆 – odchylenie standardowe z próby

𝑝̂ – frakcja elementów wyróżnionych z próby

Powyższe statystyki (funkcje zmiennych losowych) są punktowymi estymatorami


parametrów 𝜇, 𝜎 2 , 𝜎, tzn., jeśli dla konkretnych danych obliczymy wartości tych statystyk, to:

̅; 𝝈𝟐 ≈ 𝒔𝟐 ; 𝝈 ≈ 𝒔; ; 𝒑 ≈ 𝒑
𝝁≈𝒙 ̂.

Nie znamy dokładności tych oszacowań.

ESTYMACJA PRZEDZIAŁOWA – PRZEDZIAŁY UFNOŚCI


Estymacja przedziałowa polega na stworzeniu przedziału liczbowego, który będzie zawierał
nieznaną, wartość szacowanego parametru populacji (np. 𝜇) z określonym dużym
prawdopodobieństwem.
Definicja
Przedziałem ufności na poziomie 1 − 𝛼 dla nieznanego parametru populacji Θ nazywamy
przedział losowy (𝑉1 ; 𝑉2 ) taki, że
𝑃 (𝑉1 < Θ < 𝑉2 ) = 1 − 𝛼
Przedział taki nazywamy również 100(1 − α)% przedziałem ufności.

UWAGA Liczbę 1 − 𝛼 nazywamy poziomem ufności;


Najczęściej 𝛼 wynosi 0,05. Rzadziej 0,1, 0,01, etc.

Jak budujemy przedziały ufności?


Korzystamy ze statystyk (funkcji zmiennych losowych, np. 𝑋̅ czy 𝑆 2 ).

PRZEDZIAŁY UFNOŚCI DLA WARTOŚCI OCZEKIWANEJ

MODEL 1 Zakładamy, że próba prosta 𝑋1 , 𝑋2 , … , 𝑋𝑛 pochodzi z rozkładu normalnego ze znaną


wariancją.
Przypomnienie:

𝜎2
𝐸(𝑋̅) = 𝜇 𝐷 2 (𝑋̅) =
𝑛
̅−𝜇
𝑋
𝑈= 𝜎 ~𝑁(0; 1)
√𝑛
Szukamy najkrótszego (symetrycznego) przedziału:

̅ −𝜇
𝑋
𝑃 (−𝑘 < 𝜎 < 𝑘) = 1 − 𝛼
√𝑛
Przekształcamy formułę tak, aby otrzymać po środku 𝜇.
𝜎 𝜎
𝑃 (−𝑘 ∙ < 𝑋̅ − 𝜇 < 𝑘 ∙
) =1−𝛼
√𝑛 √𝑛
𝜎 𝜎
𝑃 (−𝑘 ∙ − 𝑋̅ < −𝜇 < 𝑘 ∙ − 𝑋̅ ) = 1 − 𝛼
√ 𝑛 √ 𝑛
𝜎 𝜎
𝑃 (𝑘 ∙ + 𝑋̅ > 𝜇 > −𝑘 ∙ + 𝑋̅ ) = 1 − 𝛼
√𝑛 √𝑛
𝜎 𝜎
𝑃 (𝑋̅ − 𝑘 ∙ < 𝜇 < 𝑋̅ + 𝑘 ∙ ) = 1 − 𝛼
√𝑛 √𝑛

𝝈 𝝈
̅ −𝒌∙
Przedział ma postać: (𝑿 ̅ +𝒌∙
;𝑿 ), co równoważnie możemy zapisać:
𝒏
√ √𝒏
𝝈
̅ ±𝒌∙
𝑿
√𝒏
𝛼
Jak określić 𝑘? 𝑘: Φ(𝑘) = 1 − 2 . (Dla poziomu ufności 95% 𝑘 = 1,96.)

Przykład

Badano długość czasu snu studentów. Wybrano losowo 16 studentów otrzymując 𝑋̅ =


448 𝑚𝑖𝑛.. Zakładając, że czas snu ma rozkład normalny z odchyleniem standardowym 70,
zbuduj 95% przedział ufności dla wartości oczekiwanej.
Potrzebne dane do stworzenia przedziału ufności:
𝑋̅ = 448
𝜎 = 70
𝑛 = 16
0,05
𝛼 = 0,05 → Φ(𝑘) = 1 − = 0,975 → 𝑘 = 1,96
2
Przedział ma zatem postać:
𝜎 𝜎 70 70
(𝑋̅ − 𝑘 ∙ ; 𝑋̅ + 𝑘 ∙ ) → (448 − 1,96 ∙ ; 448 + 1,96 ∙ ) → (413,7; 482,3)
√𝑛 √𝑛 √16 √16

Co możemy zapisywać alternatywnie w wersji 448 ± 34,3

• Jak się zmieni długość przedziału, gdy zwiększymy liczność próby?

Przedział stanie się krótszy = precyzja oszacowania się zwiększy

• Jak się zmieni długość przedziału, gdy zwiększymy poziom ufności?

Przedział stanie się dłuższy = precyzja oszacowania się zmniejszy


Zmiana dokładności przedziału ufności w zależności od zmiany poziomu ufności (przy
ustalonej liczności n=42 i odchyleniu standardowym σ=3,5).

Zmiana dokładności przedziału ufności w zależności od zmiany rozmiaru próby (przy


ustalonym poziomie ufności 95% i odchyleniu standardowym σ=3,5).

Błąd bezwzględny (∆)=połowa długości przedziału ufności



Błąd względny 𝛿 = 𝑋̅ ∙ 100%

W poprzednim przykładzie błąd bezwzględny wynosi 34,3, a błąd względny ok. 7,66%.

Jeśli chcemy zwiększyć precyzję oszacowania, możemy zwiększyć liczność próby. Minimalną
liczność próby 𝑛0 , jeśli długość przedziału ma być nie większa niż 𝑙 = 2∆ liczymy ze wzoru:
𝜎 𝑘∙𝜎 2
𝑘∙ ≤ ∆ → 𝑛0 ≥ ( )
√𝑛 0 ∆

W poprzednim przykładzie, jeżeli chcielibyśmy uzyskać dokładność 20 minut, to minimalna


liczność próby musiałaby wynosić 48.
UWAGA

Jeżeli 𝑋𝑖 ~𝑁(𝜇; 𝜎), to

𝑋̅ − 𝜇
𝜎 ~𝑁(0; 1)
√𝑛
𝑋̅ − 𝜇
~𝑡(𝑛 − 1)
𝑆
√𝑛
𝑋̅−𝜇
𝑆 ~𝑁(0; 1) dla dużej próby
√𝑛

MODEL 2 Zakładamy, że próba prosta 𝑋1 , 𝑋2 , … , 𝑋𝑛 pochodzi z rozkładu normalnego z


nieznaną wariancją.

𝑋̅ − 𝜇
𝑇= ~𝑡(𝑛 − 1)
𝑆
√𝑛

Szukamy przedziału:

̅ −𝜇
𝑋
𝑃 (−𝑘 < < 𝑘) = 1 − 𝛼
𝑆
√𝑛
Przekształcamy formułę tak, aby otrzymać po środku 𝜇.
𝑠 𝑠
𝑃 (−𝑘 ∙ < 𝑋̅ − 𝜇 < 𝑘 ∙) =1−𝛼
√𝑛 √𝑛
𝑠 𝑠
𝑃 (−𝑘 ∙ − 𝑋̅ < −𝜇 < 𝑘 ∙ − 𝑋̅ ) = 1 − 𝛼
√𝑛 √𝑛
𝑠 𝑠
𝑃 (𝑘 ∙ + 𝑋̅ > 𝜇 > −𝑘 ∙ + 𝑋̅ ) = 1 − 𝛼
√𝑛 √𝑛
𝑠 𝑠
𝑃 (𝑋̅ − 𝑘 ∙ < 𝜇 < 𝑋̅ + 𝑘 ∙ )= 1−𝛼
√𝑛 √𝑛
𝑠 𝑠
̅−𝑘∙
Przedział ma postać: (𝑋 ; 𝑋̅ + 𝑘 ∙ )
√𝑛 √𝑛

Jak określić 𝑘? 𝑘: 𝑃(|𝑇| > 𝑘) = 𝛼 𝑇~𝑡(𝑛 − 1)

Przykład

Czas trwania pewnej reakcji ma rozkład normalny. Dokonano 5 pomiarów otrzymując 𝑥̅ = 61


oraz 𝑠 2 = 9. Zbuduj 90% przedział ufności dla 𝜇.

Potrzebne dane do stworzenia przedziału ufności:

𝑋̅ = 61
𝑠=3
𝑛=5
𝛼 = 0,1 → 𝑃(|𝑇| > 𝑘) = 0,1 → 𝑘 = 2,13

Przedział ma zatem postać:


𝑠 𝑠 3 3
(𝑋̅ − 𝑘 ∙ ; 𝑋̅ + 𝑘 ∙ ) → (61 − 2,13 ∙ ; 61 + 2,13 ∙ ) → (58,14; 63,86)
√𝑛 √𝑛 √5 √5

Co możemy zapisywać alternatywnie w wersji 61 ± 2,86


MODEL 3 Zakładamy, że próba prosta 𝑋1 , 𝑋2 , … , 𝑋𝑛 pochodzi z dowolnego rozkładu oraz
próba jest duża, 𝑛 ≥ 100.
𝑠 𝑠 𝛼
Przedział ufności dla 𝜇 ∶ (𝑋̅ − 𝑘 ∙ ; 𝑋̅ + 𝑘 ∙ ), gdzie 𝑘: Φ(𝑘) = 1 − 2 .
𝑛
√ √ 𝑛

UWAGA

Pojęcie dużej próby w różnych dziedzinach zdefiniowane jest w różny sposób. Najczęściej
przyjmuje się 𝑛 ≥ 100.

PRZEDZIAŁY UFNOŚCI DLA WARIANCJI (ODCHYLENIA STANDARDOWEGO)

MODEL 4 Zakładamy, że próba prosta 𝑋1 , 𝑋2 , … , 𝑋𝑛 pochodzi z rozkładu normalnego z


nieznaną wariancją.

Konstrukcję opieramy na statystyce

(𝑛 − 1)𝑆 2 2
~𝜒 (𝑛 − 1)
𝜎2

(𝑛 − 1)𝑆2
𝑃 (𝑢1 < < 𝑢2 ) = 1 − 𝛼
𝜎2

1 𝜎2 1
𝑃( < 2 < ) = 1−𝛼
𝑢2 (𝑛 − 1)𝑆 𝑢1

2 2
(𝑛 − 1)𝑆 (𝑛 − 1)𝑆
𝑃( < 𝜎2 < )=1−𝛼
𝑢2 𝑢1

(𝒏−𝟏)𝑺 (𝒏−𝟏)𝑺𝟐 𝟐 𝛼
Przedział ufności dla wariancji 〈 𝒖 ; 𝒖 〉, gdzie 𝑃(𝑌𝑛−1 > 𝑢2 ) = 2 , 𝑃(𝑌𝑛−1 > 𝑢1 ) = 1 −
𝟐 𝟏
𝛼
.
2
Przykład
Wykonano 8 pomiarów liczby skrętów dla losowo wybranych odcinków przędzy o długości
1m i otrzymano 𝑋̅ = 100, 𝑆 2 = 134,2. Zakładając, że dane pochodzą z rozkładu normalnego
zbuduj 95% przedział ufności dla wariancji oraz odchylenia standardowego.
𝟐
(𝒏−𝟏)𝑺 (𝒏−𝟏)𝑺 𝟐 𝛼
Przedział ufności dla wariancji 〈 𝒖 ; 𝒖 〉, gdzie 𝑃(𝑌𝑛−1 > 𝑢2 ) = 2 , 𝑃(𝑌𝑛−1 > 𝑢1 ) = 1 −
𝟐 𝟏
𝛼
.
2

𝒏=𝟖
𝜶 = 𝟎, 𝟎𝟓
𝑷(𝒀𝟕 > 𝒖𝟐 ) = 𝟎, 𝟎𝟐𝟓 → 𝒖𝟐 = 𝟏𝟔, 𝟎𝟏 ,
𝑷(𝒀𝟕 > 𝒖𝟏 ) = 𝟎, 𝟗𝟕𝟓 → 𝒖𝟏 = 𝟏, 𝟔𝟗
Przedział ufności dla wariancji ma zatem postać:
7 ∙ 134,2 7 ∙ 134,2
〈 ; 〉 → 〈58,68; 555,86〉
16,01 1,69
Przedział ufności dla odchylenia standardowego jest postaci:

〈√58,68; √555,86〉 → 〈7,66; 23,6〉.

MODEL 5
Zakładamy, że próba prosta 𝑋1 , 𝑋2 , … , 𝑋𝑛 pochodzi z rozkładu dowolnego z nieznaną
wariancją i 𝑛 ≥ 100
𝒌∙𝑺 𝟐 𝒌∙𝑺 𝟐 𝛼
Przedział ufności dla wariancji 〈(𝑺 − √𝟐𝒏) ; (𝑺 + √𝟐𝒏) 〉gdzie 𝑘: Φ(𝑘) = 1 − 2 .

PRZEDZIAŁY UFNOŚCI DLA FRAKCJI/PROPORCJI/WSKAŹNIKA STRUKTURY

MODEL 6

Przedział ufności dla proporcji zakłada dużą liczność próby:


𝑾(𝟏−𝑾)
𝑾 ± 𝒌√ 𝒏
𝒎
𝑾=
𝒏
𝛼
gdzie m oznacza liczbę elementów wyróżnionych, natomiast 𝑘: Φ(𝑘 ) = 1 − 2 .

Przykład

Fabryka zakupiła nowe urządzenie do produkcji pewnego detalu. Wylosowano 500 z nich i
okazało się, ze 20 nie spełnia norm jakości. Podaj przedział ufności dla wadliwości. Przyjąć
poziom ufności 0,95. Jak liczną próbę należałoby pobrać, aby oszacować wadliwość z
dokładnością 0,01.
𝑛 = 500
𝑚 = 20
20
𝑤= = 0,04
500
𝛼
𝛼 = 0,05 → Φ(𝑘) = 1 − → Φ(𝑘) = 0,975 → 𝑘 = 1,96
2
Zatem przedział ufności dla p jest postaci:

0,04 ∙ 0,96
0,04 ± 1,96 ∙ √
500

→ 0,04 ± 0,017 → 〈0,023; 0,057〉


Dokładność wynosi 0,017. Jeżeli chcielibyśmy uzyskać dokładność 0,01, to minimalną liczność
próby policzymy z zależności:
𝑾(𝟏−𝑾) 𝑘 2
𝒌√ 𝑛0
≤ 𝟎, 𝟎𝟏 → 𝑛0 ≥ (0,01 ) ∙ 𝑊 ∙ (1 − 𝑊)

1,96 2
Zatem w naszym przypadku 𝑛0 ≥ ( ) ∙ 0,04 ∙ 0,96 ≈ 1475,2. Co oznacza, że minimalna
0,01
liczność próby to 1476.

You might also like