Download as pdf or txt
Download as pdf or txt
You are on page 1of 32

Metody statystyczne –

teoria estymacji
Małgorzata Ćwil
mcwil@kozminski.edu.pl
Wnioskowanie statystyczne

• szacowanie nieznanych wartości


parametrów rozkładu badanej cechy 𝑿
w populacji lub szacowanie postaci
Estymacja rozkładu zmiennej losowej 𝑿 w populacji
na podstawie rozkładu empirycznego
uzyskanego z pobranej próby

• sprawdzanie określonych, wysuniętych


Weryfikacja przypuszczeń odnośnie parametrów
badanej cechy 𝑿 w populacji generalnej
hipotez lub jej typu rozkładu na podstawie
statystycznych wyników otrzymanych z próby
Wnioskowanie statystyczne

Weryfikacja hipotez
Estymacja
statystycznych

Przypuszczenie
Wyniki próby losowej
dotyczące populacji

Wnioski dotyczące Weryfikacja na


populacji podstawie próby
Szacowanie prawdopodobieństw
Podaj krańce przedziału, w którym z prawdopodobieństwem 90% znajdzie się dana wartość:
Szacowanie prawdopodobieństw
Podaj krańce przedziału, w którym z prawdopodobieństwem 90% znajdzie się dana wartość:
• Rok założenia ALK
• Średnia odległość Ziemi od Słońca [km]
• Obecny rok w kalendarzu żydowskim
• Liczba gmin w Polsce (stan na 1.01.2019)
• Populacja Chin [mln.]
• Liczba studentów w Państwa grupie
• Gęstość zaludnienia Warszawy [os./km^2]
• Czas trwania Powstania Warszawskiego [dni]
• Największa liczba dzieci urodzonych przez jedną kobietę
• Liczba ksiąg Pisma Świętego
Szacowanie prawdopodobieństw
• Rok założenia ALK = 1993 r.
• Średnia odległość Ziemi od Słońca = 149 598 261 km
• Obecny rok w kalendarzu żydowskim = 5780
• Liczba gmin w Polsce (stan na 1.01.2019) = 2477
• Populacja Chin [mln.] = 1420
• Liczba studentów w Państwa grupie = 37
• Gęstość zaludnienia Warszawy [os./km^2] = 3412
• Czas trwania Powstania Warszawskiego [dni] = 63
• Największa liczba dzieci urodzonych przez jedną kobietę = 69
• Liczba ksiąg Pisma Świętego = 73
Przykład
• Chcielibyśmy poznać, jaki jest średni staż pracy pracowników
naukowo–dydaktycznych zatrudnionych we wszystkich
uczelniach wyższych w Polsce.
• Badanie całkowite/częściowe?
Przykład
• 𝑿 – zmienna losowa obrazująca staż pracy pracowników
naukowo-dydaktycznych w Polsce
• Interesuje nas EX – możemy oszacować tą wartość
• szacowanie nieznanego parametru polega na konstrukcji tzw.
„optymalnych estymatorów”, statystyk z próby dających
możliwie najlepsze przybliżenie poszukiwanej wartości
nieznanego parametru. W ogólnych rozważaniach przyjęło się
oznaczać estymowany (szacowany) parametr przez 𝜣
• Estymator, który służy do oszacowania szukanej wartości
parametru 𝜣 przyjęło się oznaczać przez 𝑻𝒏
• Szukamy możliwie najlepszego estymatora
Estymator
• statystyka służąca do oszacowania nieznanej wartości
szacowanego parametru 𝜣 populacji generalnej
• Jej rozkład prawdopodobieństwa zależy od szacowanego
parametru 𝜣
Przykład
Jeżeli populacja generalna ma rozkład normalny
z nieznanymi parametrami, tzn.
𝑿:𝑵(μ,𝝈), to wówczas statystyki:
1) średnia arytmetyczna z próby
2) w wariancja z próby
są estymatorami odpowiednio wartości średniej
𝝁 i wariancji 𝝈𝟐.
Estymacja
• jako wartość parametru 𝜣
przyjmuje się wartość jego
Punktowa estymatora 𝑻𝒏 , otrzymaną z
danej 𝒏−elementowej próby

• poszukiwanie pewnego
przedziału zawierającego
Przedziałowa nieznany parametr 𝜣, który
zwany jest przedziałem ufności
Własności dobrego estymatora
1) Nieobciążony
wartość oczekiwana rozkładu estymatora jest równa wartości
szacowanego parametru

2) zgodny
jeśli rośnie liczebność próby, rośnie też prawdopodobieństwo, że
oszacowanie przy pomocy estymatora będzie przyjmować wartości
coraz bliższe wartości szacowanego parametru

3) efektywny
estymator o najmniejszej wariancji

4) dostateczny (wystarczalny)
wykorzystuje wszystkie informacje o szacowanym parametrze, które są
zawarte w danych
Estymacja punktowa
Estymacja punktowa
• obliczenie na podstawie pobranej próby losowej
wartości estymatora 𝑻𝒏 szacowanego parametru
𝜣 dostarcza nam jedną, konkretną ocenę
estymowanego parametru 𝜣
Prawdopodobieństwo tego, że otrzymana wartość estymatora 𝑻𝒏 będzie
równa wartości szacowanego parametru 𝜣 jest jednak bardzo niewielkie, a
w przypadku zmiennych losowych (populacji) ciągłych jest zawsze równe
zeru.
Jeżeli populacja generalna jest ciągła (jej rozkład jest rozkładem ciągłym), to
przy estymacji punktowej popełniamy błąd z prawdopodobieństwem
równym jedności.
Błąd standardowy i względny
• Błąd standardowy 𝑺𝑬 = 𝑫𝑿– odchylenie standardowe 𝝈
estymatora
• Błąd względny 𝑹𝑿 – stosunek błędu standardowego 𝑺𝑬
podzielonego przez wartość estymowanego parametru
otrzymanego w próbie
Przykład
Estymacja przedziałowa
Estymacja przedziałowa
• Budowa przedziałów ufności, które zamiast jednej konkretnej
oceny wartości parametru 𝜣 podają cały przedział takich
możliwych ocen szacowanego parametru.
Poziom ufności
• 𝟏−𝜶
• przedział liczbowy, który z zadanym z góry prawdopodobieństwem
pokrywa wartość szacowanego parametru 𝜣
• prawdopodobieństwo pokrywania przez zbudowany przedział ufności
wartości szacowanego parametru 𝜣

• Współczynnik ufności 𝟏−𝜶 przyjmuje się z góry, jako dowolnie duże


prawdopodobieństwo
Precyzja oszacowania
• Im większy współczynnik ufności 𝟏−𝜶 , tym szerszy będzie zbudowany
przedział ufności, a tym samym pogarszać się będzie precyzja naszego
oszacowania
• Im krótszy jest przedział ufności, tym precyzja estymacji jest większa
• maksymalny błąd oszacowania = jest to połowa długości przedziału

• Im większa jest liczebność próby, tym krótszy jest przedział ufności -


precyzja oszacowania jest większa
Ufność oszacowania
• nazywamy iloczyn: (𝟏−𝜶)∙𝟏𝟎𝟎% . Mówimy wówczas, że
zbudowany przedział ufności pokrywa wartość parametru 𝜣 z
wiarygodnością (𝟏−𝜶)∙𝟏𝟎𝟎%

Np. współczynnik ufności wynosi: 𝟏−𝜶 = 𝟎,𝟗𝟓,


Wówczas iloczyn: (𝟏−𝜶)∙𝟏𝟎𝟎% = 𝟗𝟓%
Oznacza to, że mamy 95% pewność (ufność), że dla jednej konkretnej próby otrzymany
przedział liczbowy (𝒂,𝒃) zawiera w sobie szacowany parametr 𝜣.
Ryzyko popełnienia błędu

• prawdopodobieństwo 𝜶, czyli
prawdopodobieństwo nie pokrywania przez
przedział ufności szacowanego parametru 𝜣

Np. Jeżeli na przykład współczynnik ufności 𝟏−𝜶 =𝟎,𝟗, mamy 𝟏𝟎%


ryzyka, że wartość parametru 𝜣 znajduje się poza zbudowanym
przedziałem liczbowym (𝒂,𝒃)
Wartość krytyczna
• liczbę 𝒖𝜶 taka, że pole powierzchni pod krzywą
gęstości w granicach (−𝒖𝜶,𝒖𝜶) jest równe
prawdopodobieństwu 𝟏−𝜶 , czyli dokładnie
współczynnikowi ufności
𝑷(−𝒖𝜶 < 𝑼 < 𝒖𝜶 )= 𝟏−𝛂
Przedziały ufności dla wartości
średniej 𝝁
populacji generalnej
Model 1.
Założenia:
𝟏) 𝑿∶𝑵(𝝁 ,𝝈)
badana cecha w populacji generalnej ma rozkład
normalny z parametrami 𝝁 ,𝝈
𝟐) 𝝈
odchylenie standardowe rozkładu jest znane
Model 1. – przedział ufności dla wartości średniej

Wartość krytyczną 𝒖𝜶 odczytujemy z tablic dystrybuanty 𝜱


rozkładu normalnego 𝑵(𝟎,𝟏)

W estymacji można wyznaczyć niezbędną liczebność próby, potrzebną


do oszacowania nieznanego parametru 𝜣 z zadaną z góry precyzją
oszacowania, czyli z danym maksymalnym błędem szacunku 𝒅
Model 2.
Założenia:
𝟏) 𝑿∶𝑵(𝝁 ,𝝈)
Badana cecha w populacji generalnej ma rozkład
normalny z parametrami 𝝁 ,𝝈
𝟐) 𝝈
odchylenie standardowe rozkładu jest nieznane
𝟑) 𝒏<30
próba jest mała
Model 2. – przedział ufności dla wartości średniej

Wartość krytyczną 𝒕𝜶 odczytujemy z tablic rozkładu t-Studenta


dla miary ryzyka 𝜶 i dla (𝒏−𝟏) liczby stopni swobody

Niezbędna liczebność próby, potrzebna do oszacowania


nieznanego parametru 𝜣 z zadaną z góry precyzją oszacowania,
czyli z danym maksymalnym błędem szacunku 𝒅
Model 3.
𝟏) 𝑿∶𝑵(𝝁 ,𝝈) lub inny
Badana cecha w populacji generalnej ma rozkład
normalny z parametrami 𝝁 ,𝝈 lub dowolny inny
𝟐) 𝝈
odchylenie standardowe rozkładu jest nieznane
𝟑) 𝒏 ≥ 𝟑𝟎
próba jest duża
Model 3. – przedział ufności dla wartości średniej

Wartość krytyczną 𝒖𝜶 odczytujemy z tablic dystrybuanty 𝜱 rozkładu


normalnego 𝑵(𝟎,𝟏)

Nieznaną wartość odchylenia standardowego 𝝈 w modelu


przybliżamy wartością odchylenia standardowego 𝑺, policzoną na
podstawie próby

Niezbędna liczebność próby, potrzebna do oszacowania nieznanego


parametru 𝜣 z zadaną z góry precyzją oszacowania, czyli z danym
maksymalnym błędem szacunku 𝒅
Względny błąd szacunku
SPSS

Analiza -> Opis statystyczny -> Eksploracja

You might also like