Professional Documents
Culture Documents
Raport 2
Raport 2
Raport 2
Alicja Jordan
2023-11-06
Powtarzamy eksperyment 10 000 razy i na tej podstawie szacujemy wariancję, błąd średniokwadratowy oraz
obciążenie analizowanego estymatora. Otrzymane wyniki przedstawimy w poniższej tabeli:
• Oszacowanie estymatora rośnie wraz z wartością p, co jest zgodne z intuicją, ponieważ przy większym
p istnieje większa szansa na uzyskanie wyników większych lub równych 3.
• Wariancja i błąd średniokwadratowy oszacowań są niskie dla p bliskiego 0.5 i rosną wraz z oddalaniem
się od 0.5 w obie strony. Oznacza to, że estymacje są bardziej zmienne i mniej precyzyjne dla wartości
p bliskich 0 lub 1.
• Wartość oczekiwana estymatora dla p=0.5 jes równa 0.52, co jest bardzo bliskie rzeczywistej wartości
P (X ≥ 3), oznacza to, że estymator jest nieobciążony. Warto zwrócić uwagę, że to właśnie dla tej
wartości p mamy najmniejsze obciążenie.
1
Rozkład dwumianowy (n=20)
Dla n=20 wygenerowaliśmy próby z rozkładu dwumianowego b(5, p) dla p równych kolejno 0.1, 0.3, 0.5,
0.7 i 0.9. Na podstawie tych prób szacujemy wartość estymatora największej wiarogodności dla wielkości
P (X ≥ 3), gdzie X ∼ b(5, p). Otrzymane wyniki przedstawimy w poniższej tabeli:
Powtarzamy eksperyment 10 000 razy i na tej podstawie szacujemy wariancję, błąd średniokwadratowy oraz
obciążenie analizowanego estymatora. Otrzymane wyniki przedstawimy w poniższej tabeli:
Powtarzamy eksperyment 10 000 razy i na tej podstawie szacujemy wariancję, błąd średniokwadratowy oraz
obciążenie analizowanego estymatora. Otrzymane wyniki przedstawimy w poniższej tabeli:
2
Porównanie otrzymanych wyników dla n=50, n=20 oraz n=100
Analizując wyniki dla różnych wartości n w rozkładzie dwumianowym b(5, p), można zauważyć pewne
różnice:
Podsumowując, można zauważyć, że im większa wartość n, tym oszacowania są bardziej precyzyjne, a wari-
ancja i błąd średniokwadratowy są niższe. Dla wartości p bliskich 0.5, wartości te są najniższe, co oznacza,
że estymacje są najbardziej precyzyjne wokół tego punktu. Dla n=20, mamy wyższe wariancje i błędy, co
oznacza mniejszą precyzję oszacowań, zwłaszcza dla p bliskiego 0.5. Dla n=100, precyzja oszacowań jest
zbliżona do przypadku n=50.
λ x=0 x=1 x=2 x=3 x=4 x=5 x=6 x=7 x=8 x=9 x=10
0.5 0.64 0.24 0.1 0.02 0 0 0 0 0 0 0
1 0.42 0.38 0.2 0 0 0 0 0 0 0 0
2 0.12 0.28 0.26 0.14 0.1 0.04 0.02 0.04 0 0 0
5 0 0 0.06 0.14 0.24 0.12 0.16 0.16 0.02 0.06 0.04
3
• Dla małych wartości λ (0.5 i 1), prawdopodobieństwa P (X = x) są wysokie tylko dla niewielkich
x. Oznacza to, że w tych przypadkach jest mało prawdopodobne uzyskanie większej liczby zdarzeń,
ponieważ rozkład Poissona jest silnie skoncentrowany wokół λ.
Powtarzamy eksperyment 10 000 razy i na tej podstawie szacujemy wariancję, błąd średniokwadratowy oraz
obciążenie analizowanego estymatora. Otrzymane wyniki przedstawimy w poniższej tabeli:
Dla λ = 0.5 mamy:
Dla λ = 1 mamy:
Dla λ = 2 mamy:
4
x Wariancja Błąd średniokwadratowy Obciążenie estymatora
6 0.0002344 0.01531 -0.0000838
7 0.0000686 0.0082825 0.0000049
8 0.0000168 0.0040999 -0.0000153
9 0.000004 0.0020097 0.0000131
10 0.000001 0.0009988 0.0000118
Dla λ = 5 mamy:
Analizując uzyskane wyniki w zależności od wyboru parametru λ w rozkładzie Poissona, możemy zauważyć
kilka ważnych obserwacji:
1. Wariancja: Współczynniki wariancji dla różnych wartości λ rosną w miarę zwiększania x, co jest
zgodne z oczekiwaniami. Wartości λ reprezentują intensywność zdarzeń w rozkładzie Poissona. Im
większe λ, tym bardziej zmienne są dane, co prowadzi do większej wariancji. Zauważmy, że wariancje
są najwyższe dla x bliskich λ, co jest zgodne z charakterystyką rozkładu Poissona.
2. Błąd średniokwadratowy: Błąd średniokwadratowy jest miarą ogólnej jakości estymatora. Dla
małych wartości λ (0.5 i 1), błąd średniokwadratowy jest stosunkowo niski dla x bliskich λ. Jednak
dla większych wartości λ (2 i 5), błąd rośnie znacząco dla x bliskich λ. To wynika z faktu, że rozkład
Poissona jest coraz mniej skoncentrowany wokół λ, co prowadzi do większych błędów estymacji.
3. Obciążenie estymatora: Obciążenie estymatora dla wszystkich przypadków jest niewielkie i bliskie
zeru. To oznacza, że estymatory największej wiarygodności są obciążone w stosunku do wartości
rzeczywistych parametrów λ, ale obciążenie jest małe i nie wpływa znacząco na jakość estymacji.
5
λ x=0 x=1 x=2 x=3 x=4 x=5 x=6 x=7 x=8 x=9 x=10
0.5 0.8 0.2 0 0 0 0 0 0 0 0 0
1 0.4 0.45 0.1 0.05 0 0 0 0 0 0 0
2 0.15 0.15 0.25 0.2 0.25 0 0 0 0 0 0
5 0 0.1 0.2 0 0.25 0.2 0.15 0.1 0 0 0
λ x=0 x=1 x=2 x=3 x=4 x=5 x=6 x=7 x=8 x=9 x=10
0.5 0.57 0.34 0.08 0.01 0 0 0 0 0 0 0
1 0.35 0.4 0.16 0.08 0.01 0 0 0 0 0 0
2 0.12 0.23 0.29 0.17 0.1 0.05 0.03 0.01 0 0 0
5 0.02 0.04 0.08 0.16 0.12 0.2 0.15 0.08 0.05 0.04 0.04
6
Podsumowując, większa wartość n powoduje bardziej precyzyjne oszacowania dla rozkładu Poissona, a niższa
wartość n powoduje większe wariancje i mniej precyzyjne oszacowania. Ogólnie rzecz biorąc, rozkład Poissona
jest silniej skoncentrowany wokół swojej wartości oczekiwanej λ, co wpływa na precyzję oszacowań.
θ ˆ
Wartość I(θ)
0.5 200
1 50
2 12.5
5 2
7
θ Y
0.5 200
1 50
2 12.5
5 2
Następnie powtórzymy doświadczenie 10 000 razy i narysujemy histogram oraz wykres kwantylowo-
kwantylowy.
Frequency
1500
0 1000
0
−20 0 20 40 −20 0 20 40
Wartosci Y Wartosci Y
Frequency
1500
1500
0
−20 0 10 20 30 40 −20 0 10 20 30 40
Wartosci Y Wartosci Y
8
Q−Q plot Y dla theta = 0.5 Q−Q plot Y dla theta = 1
Sample Quantiles
Sample Quantiles
20
20
−20
−20
−4 −2 0 2 4 −4 −2 0 2 4
Sample Quantiles
20
10
−20
−20
−4 −2 0 2 4 −4 −2 0 2 4
Dla poprawienia czytelności histogramów zdecydowaliśmy się podzielić dane na 20 klas (słupków) przy
użyciu argumentu ‘breaks=20’. Natomiast na wykresach Q-Q wykorzystaliśmy funkcję ‘qqnorm’ i dodaliśmy
czerwoną linię przy pomocy argumentu ‘qqline’, która była wyznaczana na podstawie danych i reprezentowała
teoretyczne kwantyle dla każdego wykresu.
Analizując powyższe wykresy, można dojść do wniosku, że rozkład zmiennej Y jest zbliżony do rozkładu
normalnego. Na histogramach przedstawionych dla różnych wartości θ widzimy, że rozkłady danych wykazują
pewne podobieństwo do rozkładu normalnego. Ponadto, bliskość punktów na wykresach Q-Q do czerwonej
linii (linii teoretycznych kwantyli) jest wskaźnikiem, że dane są zgodne z rozkładem normalnym. Im bliżej
punkty danych są tej linii, tym większa zgodność z rozkładem normalnym. Na wykresach Q-Q dla różnych
wartości θ obserwujemy, że punkty danych są stosunkowo blisko linii teoretycznych kwantyli, co sugeruje, że
rozkład Y jest zbliżony do rozkładu normalnego
θ ˆ
Wartość I(θ)
0.5 80
1 20
2 5
5 0.8
9
Generujemy niezależnie 20 obserwacji z rozkładu beta z parametrami θ i 1. Wyznaczamy wartość estymatora
największej wiarogodności parametru θ i definiujemy nową zmienną Y = (nI(θ))( ˆ θ̂ − θ), obliczamy jej
p
θ Y
0.5 80
1 20
2 5
5 0.8
Następnie powtórzymy doświadczenie 10 000 razy i narysujemy histogram oraz wykres kwantylowo-
kwantylowy.
Frequency
1000
0
−10 0 10 20 30 40 −10 0 10 20 30 40
Wartosci Y Wartosci Y
Frequency
1000
1000
0
−10 0 10 20 30 −10 0 10 20 30 40
Wartosci Y Wartosci Y
10
Q−Q plot Y dla theta = 0.5 Q−Q plot Y dla theta = 1
Sample Quantiles
Sample Quantiles
20
20
−10
−10
−4 −2 0 2 4 −4 −2 0 2 4
Sample Quantiles
20
20
−10
−10
−4 −2 0 2 4 −4 −2 0 2 4
Analizując powyższe wykresy, można dojść do wniosku, że rozkład zmiennej Y nie jest zbliżony do rozkładu
normalnego. Na histogramach przedstawionych dla różnych wartości θ widzimy, że rozkłady danych nie
wykazują widocznego podobieństwa do rozkładu normalnego. Ponadto, bliskość punktów na wykresach
Q-Q do czerwonej linii (linii teoretycznych kwantyli) jest wskaźnikiem, że dane są zgodne z rozkładem
normalnym. Na wykresach Q-Q dla różnych wartości θ obserwujemy, że punkty danych są odległe linii
teoretycznych kwantyli, co sugeruje, że rozkład Y nie jest rozkładem normalnym.
θ ˆ
Wartość I(θ)
0.5 400
1 100
2 25
5 4
Generujemy niezależnie 100 obserwacji z rozkładu beta z parametrami θ i 1. Wyznaczamy wartość estymatora
ˆ
największej wiarogodności parametru θ i definiujemy nową zmienną Y = (nI(θ))(θ̂ − θ), obliczamy jej
p
11
θ Y
0.5 400
1 100
2 25
5 4
Następnie powtórzymy doświadczenie 10 000 razy i narysujemy histogram oraz wykres kwantylowo-
kwantylowy.
Frequency
1000
1000
0
0
−40 −20 0 20 40 60 −40 −20 0 20 40
Wartosci Y Wartosci Y
Frequency
1000
1000
0
Wartosci Y Wartosci Y
12
Q−Q plot Y dla theta = 0.5 Q−Q plot Y dla theta = 1
Sample Quantiles
Sample Quantiles
40
20
0
−40
−40
−4 −2 0 2 4 −4 −2 0 2 4
Sample Quantiles
40
20
−40 0
−20
−4 −2 0 2 4 −4 −2 0 2 4
Analizując powyższe wykresy, można dojść do wniosku, że rozkład zmiennej Y jest bardzo zbliżony do
rozkładu normalnego. Na histogramach przedstawionych dla różnych wartości θ widzimy, że rozkłady danych
wykazują duże podobieństwo do rozkładu normalnego. Ponadto, bliskość punktów na wykresach Q-Q do
czerwonej linii (linii teoretycznych kwantyli) jest wskaźnikiem, że dane są zgodne z rozkładem normalnym.
Na wykresach Q-Q dla różnych wartości θ obserwujemy, że punkty danych są bardzo blisko linii teoretycznych
kwantyli, co sugeruje, że rozkład Y jest rozkładem normalnym.
(i) θˆ1 = X̄ = 1
Pn
n i=1 Xi
i−1
i
wi = ϕ(Φ−1 ) − ϕ(Φ−1 )
n n
przy czym ϕ jest gęstością, a Φ dystrybuantą standardowego rozkładu normalnego N (0, 1).
13
Otrzymane wyniki przedstawimy w poniższej tabeli:
Powtarzamy eksperyment 10 000 razy i na tej podstawie szacujemy wariancję, błąd średniokwadratowy oraz
obciążenie analizowanego estymatora. Otrzymane wyniki przedstawimy w poniższych tabelach:
Dla L(1, 1) mamy:
Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.0404238 0.0404238 0.0012555
θˆ2 0.0245017 0.0245017 0.0007369
θˆ3 0.0620811 0.0620811 -0.0003114
θˆ4 4.3448995 4.3448995 2.0145059
Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.0404741 0.0404741 -0.0002047
θˆ2 0.024325 0.024325 -0.0013604
θˆ3 0.0624342 0.0624342 0.0016378
θˆ4 61.2339542 61.2339542 7.8068118
Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.1584246 0.1584246 0.0041936
θˆ2 0.0997955 0.0997955 0.003478
θˆ3 0.2464729 0.2464729 0.0065467
θˆ4 5.5620595 5.5620595 2.1037944
Analizując wyniki, można wskazać, który estymator jest optymalny w różnych przypadkach i dlaczego:
14
2. Dla rozkładu Laplace’a z θ = 4 i σ = 1:
• Wartości estymatorów θˆ1 i θˆ2 pozostają stabilne, dokładne i mają niską wariancję, niski błąd
średniokwadratowy oraz bliskie zeru obciążenie, co oznacza, że są nadal dobrymi estymatorami.
• Estymator θˆ3 wykazuje wyższą wariancję, wyższy błąd średniokwadratowy i bliskie zeru obciąże-
nie, ale jest w miarę akceptowalny.
• Estymator θˆ4 ma znacznie wyższą wariancję, wyższy błąd średniokwadratowy i wyższe obciążenie,
co czyni go mniej optymalnym estymatorem w tym przypadku.
3. Dla rozkładu Laplace’a z θ = 1 i σ = 2:
• Wartość estymatora θˆ2 pozostaje stabilna, dokładna i ma niską wariancję, niski błąd średniok-
wadratowy oraz bliskie zeru obciążenie, co czyni go najlepszym estymatorem w tym przypadku.
• Estymator ^θˆ1 wykazuje niską wariancję i niski błąd średniokwadratowy, ale bliskie zeru obciąże-
nie, co oznacza, że jest również dobrym estymatorem.
• Estymator θˆ3 wykazuje wyższą wariancję i wyższy błąd średniokwadratowy, ale jest nadal akcep-
towalny.
• Estymator θˆ4 ma znacznie wyższą wariancję, wyższy błąd średniokwadratowy i wyższe obciążenie,
co czyni go mniej optymalnym estymatorem w tym przypadku.
Podsumowując, w zależności od parametrów rozkładu Laplace’a, różne estymatory mogą być optymalne.
Ogólnie rzecz biorąc, w przypadkach, gdy stabilność, dokładność i niska wariancja są ważne, estymatory
θˆ1 (średnia arytmetyczna) i θˆ2 (mediana) są często optymalnymi wyborami. Estymatory θˆ3 i θˆ4 mogą być
mniej optymalne ze względu na wyższą wariancję, błąd średniokwadratowy i obciążenie.
Porównawszy otrzymane wyżej wyniki z rezultatami z listy 1, zadania pierwszego, możemy zauważyć, że
estymatory wydają się być bardziej efektywne i dokładne w przypadku rozkładu normalnego w porównaniu
do rozkładu Laplace’a. Rozkład Laplace’a charakteryzuje się większą zmiennością i może prowadzić do mniej
stabilnych i precyzyjnych estymacji.
(i) θˆ1 = X̄ = 1
Pn
n i=1 Xi
i−1
i
wi = ϕ(Φ −1
) − ϕ(Φ −1
)
n n
przy czym ϕ jest gęstością, a Φ dystrybuantą standardowego rozkładu normalnego N (0, 1).
15
Parametry θ i σ θˆ1 θˆ2 θˆ3 θˆ4
Powtarzamy eksperyment 10 000 razy i na tej podstawie szacujemy wariancję, błąd średniokwadratowy oraz
obciążenie analizowanego estymatora. Otrzymane wyniki przedstawimy w poniższych tabelach:
Dla L(1, 1) mamy:
Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.0979034 0.0979034 -0.001312
θˆ2 0.0645979 0.0645979 -0.0023132
θˆ3 0.1624978 0.1624978 0.0008209
θˆ4 6.7676081 6.7676081 2.4166156
Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.1017127 0.1017127 0.0042555
θˆ2 0.0665736 0.0665736 0.0040313
θˆ3 0.1672071 0.1672071 0.0055214
θˆ4 72.6478875 72.6478875 8.4662316
Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.3943569 0.3943569 0.0103719
θˆ2 0.2644848 0.2644848 0.0124008
θˆ3 0.6373831 0.6373831 0.0074453
θˆ4 11.9146259 11.9146259 2.8573397
(i) θˆ1 = X̄ = 1
Pn
n i=1 Xi
i−1
i
wi = ϕ(Φ−1 ) − ϕ(Φ−1 )
n n
przy czym ϕ jest gęstością, a Φ dystrybuantą standardowego rozkładu normalnego N (0, 1).
16
Otrzymane wyniki przedstawimy w poniższej tabeli:
Powtarzamy eksperyment 10 000 razy i na tej podstawie szacujemy wariancję, błąd średniokwadratowy oraz
obciążenie analizowanego estymatora. Otrzymane wyniki przedstawimy w poniższych tabelach:
Dla L(1, 1) mamy:
Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.0195359 0.0195359 -0.0008367
θˆ2 0.0114549 0.0114549 -0.0011379
θˆ3 0.0270957 0.0270957 -0.002155
θˆ4 4.6976502 4.6976502 2.1323674
Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.0201891 0.0201891 -0.0023454
θˆ2 0.0116874 0.0116874 -0.0008563
θˆ3 0.027965 0.027965 -0.0013701
θˆ4 63.1811414 63.1811414 7.9388773
Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.0804269 0.0804269 -0.0055227
θˆ2 0.0457491 0.0457491 -0.0032963
θˆ3 0.11056 0.11056 -0.0064313
θˆ4 5.9881904 5.9881904 2.3178336
17
• Dla estymatora θˆ2 (mediana), wariancje i błędy średniokwadratowe są również niskie, a obciążenie
bliskie zeru lub bardzo bliskie zeru.
• Dla estymatora θˆ3 (ważony średniokwadratowy), wariancje są wyższe niż dla poprzednich estyma-
torów, błąd średniokwadratowy jest również wyższy, a obciążenie bliskie zeru lub bardzo bliskie
zeru.
• Dla estymatora θˆ4 (ważony kwantyl), wariancje i błędy średniokwadratowe są znacznie wyższe niż
dla poprzednich estymatorów, a obciążenie jest wysokie.
2. Rozkład Laplace’a (n=20):
• Dla estymatora θˆ1 , wariancje są nadal stosunkowo niskie, a błąd średniokwadratowy jest również
niski. Obciążenie jest bliskie zeru lub bardzo bliskie zeru.
• Dla estymatora θˆ2 , wariancje i błędy średniokwadratowe są niskie, a obciążenie jest bliskie zeru
lub bardzo bliskie zeru.
• Dla estymatora θˆ3 , wariancje są wyższe niż dla n=50, błąd średniokwadratowy jest również wyższy,
a obciążenie bliskie zeru lub bardzo bliskie zeru.
• Dla estymatora θˆ4 , wariancje i błędy średniokwadratowe są znacznie wyższe niż dla n=50, a
obciążenie jest wysokie.
3. Rozkład Laplace’a (n=100):
• Dla estymatora θˆ1 , wariancje są nadal stosunkowo niskie, a błąd średniokwadratowy jest również
niski. Obciążenie jest bliskie zeru lub bardzo bliskie zeru.
• Dla estymatora θˆ2 , wariancje i błędy średniokwadratowe są niskie, a obciążenie jest bliskie zeru
lub bardzo bliskie zeru.
• Dla estymatora θˆ3 , wariancje są wyższe niż dla n=50, ale niższe niż dla n=20. Błąd średniok-
wadratowy jest również wyższy niż dla n=50, ale niższy niż dla n=20. Obciążenie jest bliskie zeru
lub bardzo bliskie zeru.
• Dla estymatora θˆ4 , wariancje i błędy średniokwadratowe są znacznie wyższe niż dla n=50, ale
niższe niż dla n=20. Obciążenie jest nadal wysokie.
Podsumowując, większa wartość n powoduje niższe wariancje i błędy średniokwadratowe oraz bardziej sta-
bilne estymatory w przypadku rozkładu Laplace’a. Obciążenie estymatorów zazwyczaj pozostaje bliskie zeru
lub bardzo bliskie zeru, ale może być wyższe dla estymatora θˆ4 . Dla mniejszych próbek (n=20) wariancje i
błędy są wyższe, a estymatory są mniej precyzyjne.
18