Raport 2

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 18

Raport_2

Alicja Jordan

2023-11-06

Rozkład dwumianowy (n=50)


Dla n=50 wygenerowaliśmy próby z rozkładu dwumianowego b(5, p) dla p równych kolejno 0.1, 0.3, 0.5,
0.7 i 0.9. Na podstawie tych prób szacujemy wartość estymatora największej wiarogodności dla wielkości
P (X ≥ 3), gdzie X ∼ b(5, p). Otrzymane wyniki przedstawimy w poniższej tabeli:

Wartość p Oszacowanie estymatora


0.1 0.02
0.3 0.16
0.5 0.52
0.7 0.78
0.9 1

Powtarzamy eksperyment 10 000 razy i na tej podstawie szacujemy wariancję, błąd średniokwadratowy oraz
obciążenie analizowanego estymatora. Otrzymane wyniki przedstawimy w poniższej tabeli:

Wartość p Wariancja Błąd średniokwadratowy Obciążenie estymatora


0.1 0.0001674 0.0085554 -0.091586
0.3 0.0026816 0.0212727 -0.13635
0.5 0.0049663 0.0049659 -0.000328
0.7 0.0027059 0.0214363 0.13686
0.9 0.0001716 0.0085237 0.09139

Analizując powyższe wyniki, możemy wyciągnąć następujące wnioski:

• Oszacowanie estymatora rośnie wraz z wartością p, co jest zgodne z intuicją, ponieważ przy większym
p istnieje większa szansa na uzyskanie wyników większych lub równych 3.

• Wariancja i błąd średniokwadratowy oszacowań są niskie dla p bliskiego 0.5 i rosną wraz z oddalaniem
się od 0.5 w obie strony. Oznacza to, że estymacje są bardziej zmienne i mniej precyzyjne dla wartości
p bliskich 0 lub 1.

• Wartość oczekiwana estymatora dla p=0.5 jes równa 0.52, co jest bardzo bliskie rzeczywistej wartości
P (X ≥ 3), oznacza to, że estymator jest nieobciążony. Warto zwrócić uwagę, że to właśnie dla tej
wartości p mamy najmniejsze obciążenie.

1
Rozkład dwumianowy (n=20)
Dla n=20 wygenerowaliśmy próby z rozkładu dwumianowego b(5, p) dla p równych kolejno 0.1, 0.3, 0.5,
0.7 i 0.9. Na podstawie tych prób szacujemy wartość estymatora największej wiarogodności dla wielkości
P (X ≥ 3), gdzie X ∼ b(5, p). Otrzymane wyniki przedstawimy w poniższej tabeli:

Wartość p Oszacowanie estymatora


0.1 0.05
0.3 0.2
0.5 0.45
0.7 0.8
0.9 1

Powtarzamy eksperyment 10 000 razy i na tej podstawie szacujemy wariancję, błąd średniokwadratowy oraz
obciążenie analizowanego estymatora. Otrzymane wyniki przedstawimy w poniższej tabeli:

Wartość p Wariancja Błąd średniokwadratowy Obciążenie estymatora


0.1 0.0004118 0.0088308 -0.091755
0.3 0.006907 0.025689 -0.13705
0.5 0.0125429 0.0125425 0.00092
0.7 0.0067691 0.0255895 0.13719
0.9 0.0004414 0.0087542 0.091175

Rozkład dwumianowy (n=100)


Dla n=100 wygenerowaliśmy próby z rozkładu dwumianowego b(5, p) dla p równych kolejno 0.1, 0.3, 0.5,
0.7 i 0.9. Na podstawie tych prób szacujemy wartość estymatora największej wiarogodności dla wielkości
P (X ≥ 3), gdzie X ∼ b(5, p). Otrzymane wyniki przedstawimy w poniższej tabeli:

Wartość p Oszacowanie estymatora


0.1 0
0.3 0.13
0.5 0.5
0.7 0.85
0.9 0.99

Powtarzamy eksperyment 10 000 razy i na tej podstawie szacujemy wariancję, błąd średniokwadratowy oraz
obciążenie analizowanego estymatora. Otrzymane wyniki przedstawimy w poniższej tabeli:

Wartość p Wariancja Błąd średniokwadratowy Obciążenie estymatora


0.1 0.0000832 0.0084516 -0.091479
0.3 0.0013463 0.0198006 -0.135847
0.5 0.0024758 0.0024757 0.000418
0.7 0.001369 0.0200423 0.136651
0.9 0.0000848 0.0084415 0.091415

2
Porównanie otrzymanych wyników dla n=50, n=20 oraz n=100
Analizując wyniki dla różnych wartości n w rozkładzie dwumianowym b(5, p), można zauważyć pewne
różnice:

1. Rozkład dwumianowy (n=50):


• Oszacowanie estymatora rośnie wraz z wartością p, co jest zgodne z intuicją, ponieważ większa
wartość p oznacza większą szansę na uzyskanie wyników większych lub równych 3.
• Dla wartości n=50, wariancja i błąd średniokwadratowy są stosunkowo niskie, zwłaszcza dla p
bliskiego 0.5. To sugeruje, że oszacowania są precyzyjne w tym przypadku.
2. Rozkład dwumianowy (n=20):
• Dla n=20, oszacowanie estymatora również rośnie wraz z wartością p, ale wariancja i błąd śred-
niokwadratowy są wyższe niż dla n=50. Dla p bliskiego 0.5, wartości te są znacznie wyższe niż
dla n=50. Oznacza to, że oszacowania są mniej precyzyjne dla n=20, zwłaszcza w przypadku
wartości p bliskich 0.5.
3. Rozkład dwumianowy (n=100):
• Dla n=100, oszacowanie estymatora również rośnie wraz z wartością p, podobnie jak w poprzed-
nich przypadkach. Jednak wariancja i błąd średniokwadratowy są niższe niż dla n=20 i podobne
do tych dla n=50. Dla p bliskiego 0.5, wartości te są nadal relatywnie niskie, co sugeruje, że
oszacowania są precyzyjne.

Podsumowując, można zauważyć, że im większa wartość n, tym oszacowania są bardziej precyzyjne, a wari-
ancja i błąd średniokwadratowy są niższe. Dla wartości p bliskich 0.5, wartości te są najniższe, co oznacza,
że estymacje są najbardziej precyzyjne wokół tego punktu. Dla n=20, mamy wyższe wariancje i błędy, co
oznacza mniejszą precyzję oszacowań, zwłaszcza dla p bliskiego 0.5. Dla n=100, precyzja oszacowań jest
zbliżona do przypadku n=50.

Rozkład Poissona (n=50)


Dla n=50 wygenerowaliśmy próby z rozkładu Poissona o parametrze λ równym kolejno 0.5, 1, 2, 5. Na
podstawie tych prób wyznaczamy wartość estymatora największej wiarogodności wielkości P (X = x), x =
0, 1, ..., 10, gdzie X ∼ π(λ).Otrzymane wyniki przedstawimy w poniższej tabeli:

λ x=0 x=1 x=2 x=3 x=4 x=5 x=6 x=7 x=8 x=9 x=10
0.5 0.64 0.24 0.1 0.02 0 0 0 0 0 0 0
1 0.42 0.38 0.2 0 0 0 0 0 0 0 0
2 0.12 0.28 0.26 0.14 0.1 0.04 0.02 0.04 0 0 0
5 0 0 0.06 0.14 0.24 0.12 0.16 0.16 0.02 0.06 0.04

Analizując powyższe wyniki, możemy wyciągnąć następujące wnioski:

• Wartości λ reprezentują intensywność zdarzeń w rozkładzie Poissona. Zwiększając λ, zwiększa


się średnia liczba oczekiwanych zdarzeń, ale jednocześnie maleją prawdopodobieństwa uzyskania
konkretnych x. To jest charakterystyczne dla rozkładu Poissona, ponieważ zwiększając intensywność,
zdarzenia stają się bardziej skoncentrowane wokół λ, a prawdopodobieństwa dla x > λ maleją.

3
• Dla małych wartości λ (0.5 i 1), prawdopodobieństwa P (X = x) są wysokie tylko dla niewielkich
x. Oznacza to, że w tych przypadkach jest mało prawdopodobne uzyskanie większej liczby zdarzeń,
ponieważ rozkład Poissona jest silnie skoncentrowany wokół λ.

• Dla większych wartości λ (2 i 5), prawdopodobieństwa P (X = x) są wyższe dla x bliskich λ. To


oznacza, że w tych przypadkach istnieje większa szansa na uzyskanie liczby zdarzeń zbliżonej do λ, ale
bardzo mało prawdopodobne jest uzyskanie liczby znacznie większej niż λ.

Powtarzamy eksperyment 10 000 razy i na tej podstawie szacujemy wariancję, błąd średniokwadratowy oraz
obciążenie analizowanego estymatora. Otrzymane wyniki przedstawimy w poniższej tabeli:
Dla λ = 0.5 mamy:

x Wariancja Błąd średniokwadratowy Obciążenie estymatora


0 0.0047612 0.0690012 0.0002153
1 0.0042344 0.0650721 -0.0004353
2 0.0014253 0.0377535 0.0002317
3 0.0002496 0.0158 0.0000739
4 0.0000304 0.0055167 -0.0000535
5 0.0000026 0.0016079 -0.000036
6 0.0000004 0.0005998 0.0000048
7 0 0 -0.0000009
8 0 0 -0.0000001
9 0 0 0
10 0 0 0

Dla λ = 1 mamy:

x Wariancja Błąd średniokwadratowy Obciążenie estymatora


0 0.0046402 0.0681188 0.0003386
1 0.0047416 0.0688591 -0.0009674
2 0.0030228 0.0549802 -0.0000877
3 0.0011357 0.0337 0.0003668
4 0.0003049 0.0174615 0.0002077
5 0.000063 0.0079351 0.0001343
6 0.0000101 0.0031769 0.0000071
7 0.0000015 0.0012306 0.000003
8 0.0000001 0.0003464 -0.0000031
9 0 0.0002 0.000001
10 0 0 -0.0000001

Dla λ = 2 mamy:

x Wariancja Błąd średniokwadratowy Obciążenie estymatora


0 0.0023416 0.0483902 -0.0003253
1 0.0039642 0.0629621 0.0004654
2 0.0040074 0.0633042 0.0005394
3 0.0029435 0.0542539 -0.000343
4 0.001621 0.0402619 -0.0000855
5 0.0006789 0.0260566 -0.0001834

4
x Wariancja Błąd średniokwadratowy Obciążenie estymatora
6 0.0002344 0.01531 -0.0000838
7 0.0000686 0.0082825 0.0000049
8 0.0000168 0.0040999 -0.0000153
9 0.000004 0.0020097 0.0000131
10 0.000001 0.0009988 0.0000118

Dla λ = 5 mamy:

x Wariancja Błąd średniokwadratowy Obciążenie estymatora


0 0.0001339 0.0115695 0.0000621
1 0.0006429 0.025356 0.0003523
2 0.0015185 0.0389676 -0.0007603
3 0.0024422 0.0494184 0.0000101
4 0.0028997 0.053849 -0.0001514
5 0.0029239 0.0540735 0.0006406
6 0.0025272 0.0502716 -0.0003188
7 0.001906 0.0436579 -0.0004529
8 0.0012193 0.0349182 0.000428
9 0.0007109 0.0266622 -0.0000756
10 0.0003578 0.0189149 0.0002112

Analizując uzyskane wyniki w zależności od wyboru parametru λ w rozkładzie Poissona, możemy zauważyć
kilka ważnych obserwacji:

1. Wariancja: Współczynniki wariancji dla różnych wartości λ rosną w miarę zwiększania x, co jest
zgodne z oczekiwaniami. Wartości λ reprezentują intensywność zdarzeń w rozkładzie Poissona. Im
większe λ, tym bardziej zmienne są dane, co prowadzi do większej wariancji. Zauważmy, że wariancje
są najwyższe dla x bliskich λ, co jest zgodne z charakterystyką rozkładu Poissona.
2. Błąd średniokwadratowy: Błąd średniokwadratowy jest miarą ogólnej jakości estymatora. Dla
małych wartości λ (0.5 i 1), błąd średniokwadratowy jest stosunkowo niski dla x bliskich λ. Jednak
dla większych wartości λ (2 i 5), błąd rośnie znacząco dla x bliskich λ. To wynika z faktu, że rozkład
Poissona jest coraz mniej skoncentrowany wokół λ, co prowadzi do większych błędów estymacji.
3. Obciążenie estymatora: Obciążenie estymatora dla wszystkich przypadków jest niewielkie i bliskie
zeru. To oznacza, że estymatory największej wiarygodności są obciążone w stosunku do wartości
rzeczywistych parametrów λ, ale obciążenie jest małe i nie wpływa znacząco na jakość estymacji.

Podsumowując, estymatory największej wiarygodności dla P (X = x) zachowują się zgodnie z oczekiwaniami


w zależności od wartości λ. Dla małych λ, lepsze wyniki uzyskujemy dla x bliskich λ, a dla większych λ,
lepsze wyniki uzyskujemy dla x dalekich od λ. Wartości λ wpływają na wariancję i błąd estymatora, ale
ogólnie estymatory te są skuteczne w estymacji prawdopodobieństw w rozkładzie Poissona.

Rozkład Poissona (n=20)


Dla n=20 wygenerowaliśmy próby z rozkładu Poissona o parametrze λ równym kolejno 0.5, 1, 2, 5. Na
podstawie tych prób wyznaczamy wartość estymatora największej wiarogodności wielkości P (X = x), x =
0, 1, ..., 10, gdzie X ∼ π(λ).Otrzymane wyniki przedstawimy w poniższej tabeli:

5
λ x=0 x=1 x=2 x=3 x=4 x=5 x=6 x=7 x=8 x=9 x=10
0.5 0.8 0.2 0 0 0 0 0 0 0 0 0
1 0.4 0.45 0.1 0.05 0 0 0 0 0 0 0
2 0.15 0.15 0.25 0.2 0.25 0 0 0 0 0 0
5 0 0.1 0.2 0 0.25 0.2 0.15 0.1 0 0 0

Rozkład Poissona (n=100)


Dla n=50 wygenerowaliśmy próby z rozkładu Poissona o parametrze λ równym kolejno 0.5, 1, 2, 5. Na
podstawie tych prób wyznaczamy wartość estymatora największej wiarogodności wielkości P (X = x), x =
0, 1, ..., 10, gdzie X ∼ π(λ).Otrzymane wyniki przedstawimy w poniższej tabeli:

λ x=0 x=1 x=2 x=3 x=4 x=5 x=6 x=7 x=8 x=9 x=10
0.5 0.57 0.34 0.08 0.01 0 0 0 0 0 0 0
1 0.35 0.4 0.16 0.08 0.01 0 0 0 0 0 0
2 0.12 0.23 0.29 0.17 0.1 0.05 0.03 0.01 0 0 0
5 0.02 0.04 0.08 0.16 0.12 0.2 0.15 0.08 0.05 0.04 0.04

Porównanie otrzymanych wyników dla n=50, n=20 oraz n=100


Analizując wyniki dla różnych wartości λ w rozkładzie Poissona, można zauważyć pewne różnice:

1. Rozkład Poissona (n=50):


• Wartości λ reprezentują intensywność zdarzeń w rozkładzie Poissona. Zwiększając λ, średnia
liczba oczekiwanych zdarzeń rośnie, ale prawdopodobieństwa uzyskania konkretnych x maleją.
Jest to charakterystyczne dla rozkładu Poissona, gdzie zwiększając λ, zdarzenia stają się bardziej
skoncentrowane wokół λ, a prawdopodobieństwa dla x > λ maleją.
• Dla małych wartości λ (0.5 i 1), prawdopodobieństwa P(X = x) są wysokie tylko dla niewielkich x.
Oznacza to, że w tych przypadkach jest mało prawdopodobne uzyskanie większej liczby zdarzeń,
ponieważ rozkład Poissona jest silnie skoncentrowany wokół λ.
• Dla większych wartości λ (2 i 5), prawdopodobieństwa P(X = x) są wyższe dla x bliskich λ. To
oznacza, że w tych przypadkach istnieje większa szansa na uzyskanie liczby zdarzeń zbliżonej do
λ, ale mało prawdopodobne jest uzyskanie liczby znacznie większej niż λ.
2. Rozkład Poissona (n=20):
• Dla n=20, obserwujemy podobne zależności co dla n=50, ale wariancje wyników są wyższe, a
oszacowania bardziej zmienne. Dla wartości λ bliskich 0.5 i 1, prawdopodobieństwa P(X = x) są
wysokie tylko dla niewielkich x, ale są mniej precyzyjne niż dla n=50. Dla większych wartości λ
(2 i 5), prawdopodobieństwa P(X = x) są wyższe dla x bliskich λ, ale są mniej precyzyjne niż dla
n=50.
3. Rozkład Poissona (n=100):
• Dla n=100, obserwujemy podobne zależności co dla n=50, ale wariancje wyników są niższe, a
oszacowania są bardziej precyzyjne. Dla wartości λ bliskich 0.5 i 1, prawdopodobieństwa P(X
= x) są wysokie tylko dla niewielkich x, ale są bardziej precyzyjne niż dla n=20. Dla większych
wartości λ (2 i 5), prawdopodobieństwa P(X = x) są wyższe dla x bliskich λ, ale są bardziej
precyzyjne niż dla n=20.

6
Podsumowując, większa wartość n powoduje bardziej precyzyjne oszacowania dla rozkładu Poissona, a niższa
wartość n powoduje większe wariancje i mniej precyzyjne oszacowania. Ogólnie rzecz biorąc, rozkład Poissona
jest silniej skoncentrowany wokół swojej wartości oczekiwanej λ, co wpływa na precyzję oszacowań.

Liczby losowe czy pseudolosowe


W wyborze między liczbami losowymi a liczbami pseudolosowymi istnieje kilka aspektów, które wymagają
analizy i oceny w zależności od konkretnej aplikacji i kontekstu. W niniejszym tekście omówimy ten wybór,
koncentrując się na istotnych kwestiach naukowych i technicznych.
Liczby losowe są danymi, które nie wykazują żadnych wzorców ani zależności i wydają się pochodzić z
zupełnie przypadkowych procesów. Generowanie liczb losowych jest często oparte na zjawiskach przyrod-
niczych, takich jak szumy elektryczne czy mechaniczne, co daje poczucie absolutnej losowości. Jednakże
w rzeczywistości, w kontekście komputerowym, generowanie zupełnie losowych liczb jest trudne, a nawet
niemożliwe.
Z tego powodu często stosuje się liczby pseudolosowe. Są to liczby generowane przy użyciu matematycznych
algorytmów, które pozornie wykazują własności losowe. Kluczową cechą liczb pseudolosowych jest ich de-
terministyczny charakter - oznacza to, że te same parametry początkowe (ziarno lub “seed”) prowadzą do
generowania identycznych sekwencji liczb. Wynikające z tego powtarzalności stanowią główną przewagę
liczb pseudolosowych, szczególnie w kontekstach, w których istnieje potrzeba odtwarzalności, np. w naukach
przyrodniczych, inżynierii czy symulacjach komputerowych.
Wybór między liczbami losowymi a pseudolosowymi zależy od celu i wymagań konkretnej aplikacji. W przy-
padku badań naukowych, gdzie kontrola i powtarzalność są kluczowe, liczby pseudolosowe są preferowane.
Z drugiej strony, w grach komputerowych, gdzie istotna jest nieprzewidywalność i emocje graczy, stosuje się
często liczby losowe.
Warto również zaznaczyć, że zarówno liczby losowe, jak i pseudolosowe mają swoje ograniczenia i nie są
zupełnie losowe w sensie matematycznym. Istnieje także stały rozwój w dziedzinie generacji liczb losowych,
dążący do bardziej zaawansowanych technik, takich jak użycie sprzętu kryptograficznego w celu zwiększenia
losowości. Podsumowując, wybór między liczbami losowymi a pseudolosowymi zależy od potrzeb konkretnego
projektu i zakresu powtarzalności, kontrolowalności oraz stopnia przewidywalności, jakie można akceptować
w danej aplikacji naukowej czy technicznej. Ostatecznie, oba rodzaje liczb pełnią ważną rolę w dzisiejszej
informatyce i naukach przyrodniczych.

Rozkład beta (n=50)


Dla n=50 wygenerowaliśmy próby z rozkładu beta z parametrami θ i 1. Powtarzamy eksperyment 10 000
ˆ informacji Fishera parametru θ.Otrzymane
razy i na tej podstawie wyznaczamy wartość estymatora I(θ)
wyniki przedstawimy w poniższej tabeli:

θ ˆ
Wartość I(θ)
0.5 200
1 50
2 12.5
5 2

Generujemy niezależnie 50 obserwacji z rozkładu beta z parametrami θ i 1. Wyznaczamy wartość estymatora


ˆ
największej wiarogodności parametru θ i definiujemy nową zmienną Y = (nI(θ))(θ̂ − θ), obliczamy jej
p

wartość na podstawie zaobserwowanej próby oraz wyniku z tabeli powyżej.

7
θ Y
0.5 200
1 50
2 12.5
5 2

Następnie powtórzymy doświadczenie 10 000 razy i narysujemy histogram oraz wykres kwantylowo-
kwantylowy.

Histogram Y dla theta = 0.5 Histogram Y dla theta = 1


Frequency

Frequency

1500
0 1000

0
−20 0 20 40 −20 0 20 40

Wartosci Y Wartosci Y

Histogram Y dla theta = 2 Histogram Y dla theta = 5


Frequency

Frequency
1500

1500
0

−20 0 10 20 30 40 −20 0 10 20 30 40

Wartosci Y Wartosci Y

8
Q−Q plot Y dla theta = 0.5 Q−Q plot Y dla theta = 1
Sample Quantiles

Sample Quantiles
20

20
−20

−20
−4 −2 0 2 4 −4 −2 0 2 4

Theoretical Quantiles Theoretical Quantiles

Q−Q plot Y dla theta = 2 Q−Q plot Y dla theta = 5


Sample Quantiles

Sample Quantiles
20

10
−20

−20
−4 −2 0 2 4 −4 −2 0 2 4

Theoretical Quantiles Theoretical Quantiles

Dla poprawienia czytelności histogramów zdecydowaliśmy się podzielić dane na 20 klas (słupków) przy
użyciu argumentu ‘breaks=20’. Natomiast na wykresach Q-Q wykorzystaliśmy funkcję ‘qqnorm’ i dodaliśmy
czerwoną linię przy pomocy argumentu ‘qqline’, która była wyznaczana na podstawie danych i reprezentowała
teoretyczne kwantyle dla każdego wykresu.
Analizując powyższe wykresy, można dojść do wniosku, że rozkład zmiennej Y jest zbliżony do rozkładu
normalnego. Na histogramach przedstawionych dla różnych wartości θ widzimy, że rozkłady danych wykazują
pewne podobieństwo do rozkładu normalnego. Ponadto, bliskość punktów na wykresach Q-Q do czerwonej
linii (linii teoretycznych kwantyli) jest wskaźnikiem, że dane są zgodne z rozkładem normalnym. Im bliżej
punkty danych są tej linii, tym większa zgodność z rozkładem normalnym. Na wykresach Q-Q dla różnych
wartości θ obserwujemy, że punkty danych są stosunkowo blisko linii teoretycznych kwantyli, co sugeruje, że
rozkład Y jest zbliżony do rozkładu normalnego

Rozkład beta (n=20)


Dla n=20 wygenerowaliśmy próby z rozkładu beta z parametrami θ i 1. Powtarzamy eksperyment 10 000
ˆ informacji Fishera parametru θ.Otrzymane
razy i na tej podstawie wyznaczamy wartość estymatora I(θ)
wyniki przedstawimy w poniższej tabeli:

θ ˆ
Wartość I(θ)
0.5 80
1 20
2 5
5 0.8

9
Generujemy niezależnie 20 obserwacji z rozkładu beta z parametrami θ i 1. Wyznaczamy wartość estymatora
największej wiarogodności parametru θ i definiujemy nową zmienną Y = (nI(θ))( ˆ θ̂ − θ), obliczamy jej
p

wartość na podstawie zaobserwowanej próby oraz wyniku z tabeli powyżej.

θ Y
0.5 80
1 20
2 5
5 0.8

Następnie powtórzymy doświadczenie 10 000 razy i narysujemy histogram oraz wykres kwantylowo-
kwantylowy.

Histogram Y dla theta = 0.5 Histogram Y dla theta = 1


0 600 1400
Frequency

Frequency

1000
0

−10 0 10 20 30 40 −10 0 10 20 30 40

Wartosci Y Wartosci Y

Histogram Y dla theta = 2 Histogram Y dla theta = 5


Frequency

Frequency
1000

1000
0

−10 0 10 20 30 −10 0 10 20 30 40

Wartosci Y Wartosci Y

10
Q−Q plot Y dla theta = 0.5 Q−Q plot Y dla theta = 1
Sample Quantiles

Sample Quantiles

20
20
−10

−10
−4 −2 0 2 4 −4 −2 0 2 4

Theoretical Quantiles Theoretical Quantiles

Q−Q plot Y dla theta = 2 Q−Q plot Y dla theta = 5


Sample Quantiles

Sample Quantiles
20

20
−10

−10
−4 −2 0 2 4 −4 −2 0 2 4

Theoretical Quantiles Theoretical Quantiles

Analizując powyższe wykresy, można dojść do wniosku, że rozkład zmiennej Y nie jest zbliżony do rozkładu
normalnego. Na histogramach przedstawionych dla różnych wartości θ widzimy, że rozkłady danych nie
wykazują widocznego podobieństwa do rozkładu normalnego. Ponadto, bliskość punktów na wykresach
Q-Q do czerwonej linii (linii teoretycznych kwantyli) jest wskaźnikiem, że dane są zgodne z rozkładem
normalnym. Na wykresach Q-Q dla różnych wartości θ obserwujemy, że punkty danych są odległe linii
teoretycznych kwantyli, co sugeruje, że rozkład Y nie jest rozkładem normalnym.

Rozkład beta (n=100)


Dla n=100 wygenerowaliśmy próby z rozkładu beta z parametrami θ i 1. Powtarzamy eksperyment 10 000
ˆ informacji Fishera parametru θ.Otrzymane
razy i na tej podstawie wyznaczamy wartość estymatora I(θ)
wyniki przedstawimy w poniższej tabeli:

θ ˆ
Wartość I(θ)
0.5 400
1 100
2 25
5 4

Generujemy niezależnie 100 obserwacji z rozkładu beta z parametrami θ i 1. Wyznaczamy wartość estymatora
ˆ
największej wiarogodności parametru θ i definiujemy nową zmienną Y = (nI(θ))(θ̂ − θ), obliczamy jej
p

wartość na podstawie zaobserwowanej próby oraz wyniku z tabeli powyżej.

11
θ Y
0.5 400
1 100
2 25
5 4

Następnie powtórzymy doświadczenie 10 000 razy i narysujemy histogram oraz wykres kwantylowo-
kwantylowy.

Histogram Y dla theta = 0.5 Histogram Y dla theta = 1


Frequency

Frequency
1000

1000
0

0
−40 −20 0 20 40 60 −40 −20 0 20 40

Wartosci Y Wartosci Y

Histogram Y dla theta = 2 Histogram Y dla theta = 5


Frequency

Frequency
1000

1000
0

−40 −20 0 20 40 60 −20 0 20 40

Wartosci Y Wartosci Y

12
Q−Q plot Y dla theta = 0.5 Q−Q plot Y dla theta = 1
Sample Quantiles

Sample Quantiles

40
20

0
−40

−40
−4 −2 0 2 4 −4 −2 0 2 4

Theoretical Quantiles Theoretical Quantiles

Q−Q plot Y dla theta = 2 Q−Q plot Y dla theta = 5


Sample Quantiles

Sample Quantiles
40

20
−40 0

−20
−4 −2 0 2 4 −4 −2 0 2 4

Theoretical Quantiles Theoretical Quantiles

Analizując powyższe wykresy, można dojść do wniosku, że rozkład zmiennej Y jest bardzo zbliżony do
rozkładu normalnego. Na histogramach przedstawionych dla różnych wartości θ widzimy, że rozkłady danych
wykazują duże podobieństwo do rozkładu normalnego. Ponadto, bliskość punktów na wykresach Q-Q do
czerwonej linii (linii teoretycznych kwantyli) jest wskaźnikiem, że dane są zgodne z rozkładem normalnym.
Na wykresach Q-Q dla różnych wartości θ obserwujemy, że punkty danych są bardzo blisko linii teoretycznych
kwantyli, co sugeruje, że rozkład Y jest rozkładem normalnym.

Porównanie otrzymanych wyników dla n=50, n=20 oraz n=100

Rozkład Laplace’a (n=50)


Dla n=50 wygenerowaliśmy próby z rozkładu Laplace’a z parametrem przesunięcia θ i skali σ. Na ich
podstawie obliczymy wartości estymatora parametru θ postaci:

(i) θˆ1 = X̄ = 1
Pn
n i=1 Xi

(ii) θˆ2 = M e{X1 , ..., Xn }


(iii) θˆ3 = i=1 wi Xi ,
Pn Pn
i=1 wi = 1, 0 ≤ wi ≤ 1, i = 1, . . . , n

(iv) θˆ4 = i=1 wi Xi:n , gdzie X1:n ≤ . . . ≤ Xn:n są uporządkowanymi obserwacjami X1 , . . . , Xn


P n

i−1
   
i
wi = ϕ(Φ−1 ) − ϕ(Φ−1 )
n n
przy czym ϕ jest gęstością, a Φ dystrybuantą standardowego rozkładu normalnego N (0, 1).

13
Otrzymane wyniki przedstawimy w poniższej tabeli:

Parametry θ i σ θˆ1 θˆ2 θˆ3 θˆ4


θ = 1, σ = 1 1.4516891 1.3746757 1.4457416 1.1935684
θ = 4, σ = 1 4.0143475 3.9746073 4.0056196 3.738391
θ = 1, σ = 2 0.7078014 0.964591 0.7608577 0.2622265

Powtarzamy eksperyment 10 000 razy i na tej podstawie szacujemy wariancję, błąd średniokwadratowy oraz
obciążenie analizowanego estymatora. Otrzymane wyniki przedstawimy w poniższych tabelach:
Dla L(1, 1) mamy:

Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.0404238 0.0404238 0.0012555
θˆ2 0.0245017 0.0245017 0.0007369
θˆ3 0.0620811 0.0620811 -0.0003114
θˆ4 4.3448995 4.3448995 2.0145059

Dla L(4, 1) mamy:

Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.0404741 0.0404741 -0.0002047
θˆ2 0.024325 0.024325 -0.0013604
θˆ3 0.0624342 0.0624342 0.0016378
θˆ4 61.2339542 61.2339542 7.8068118

Dla L(1, 2) mamy:

Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.1584246 0.1584246 0.0041936
θˆ2 0.0997955 0.0997955 0.003478
θˆ3 0.2464729 0.2464729 0.0065467
θˆ4 5.5620595 5.5620595 2.1037944

Analizując wyniki, można wskazać, który estymator jest optymalny w różnych przypadkach i dlaczego:

1. Dla rozkładu Laplace’a z θ = 1 i σ = 1:


• Wartości estymatorów θˆ1 (średnia arytmetyczna) i θˆ2 (mediana) wykazują niską wariancję, niski
błąd średniokwadratowy i bliskie zeru obciążenie. Oba te estymatory są stabilne i dokładne.
• Estymator θˆ3 (ważony średniokwadratowy) również wykazuje niską wariancję, niski błąd śred-
niokwadratowy i bliskie zeru obciążenie, co oznacza, że jest to kolejny dobry estymator.
• Natomiast estymator θˆ4 (ważony kwantyl) ma znacznie wyższą wariancję, wyższy błąd średniok-
wadratowy i znacznie wyższe obciążenie, co czyni go mniej optymalnym estymatorem w tym
przypadku.

14
2. Dla rozkładu Laplace’a z θ = 4 i σ = 1:
• Wartości estymatorów θˆ1 i θˆ2 pozostają stabilne, dokładne i mają niską wariancję, niski błąd
średniokwadratowy oraz bliskie zeru obciążenie, co oznacza, że są nadal dobrymi estymatorami.
• Estymator θˆ3 wykazuje wyższą wariancję, wyższy błąd średniokwadratowy i bliskie zeru obciąże-
nie, ale jest w miarę akceptowalny.
• Estymator θˆ4 ma znacznie wyższą wariancję, wyższy błąd średniokwadratowy i wyższe obciążenie,
co czyni go mniej optymalnym estymatorem w tym przypadku.
3. Dla rozkładu Laplace’a z θ = 1 i σ = 2:
• Wartość estymatora θˆ2 pozostaje stabilna, dokładna i ma niską wariancję, niski błąd średniok-
wadratowy oraz bliskie zeru obciążenie, co czyni go najlepszym estymatorem w tym przypadku.
• Estymator ^θˆ1 wykazuje niską wariancję i niski błąd średniokwadratowy, ale bliskie zeru obciąże-
nie, co oznacza, że jest również dobrym estymatorem.
• Estymator θˆ3 wykazuje wyższą wariancję i wyższy błąd średniokwadratowy, ale jest nadal akcep-
towalny.
• Estymator θˆ4 ma znacznie wyższą wariancję, wyższy błąd średniokwadratowy i wyższe obciążenie,
co czyni go mniej optymalnym estymatorem w tym przypadku.

Podsumowując, w zależności od parametrów rozkładu Laplace’a, różne estymatory mogą być optymalne.
Ogólnie rzecz biorąc, w przypadkach, gdy stabilność, dokładność i niska wariancja są ważne, estymatory
θˆ1 (średnia arytmetyczna) i θˆ2 (mediana) są często optymalnymi wyborami. Estymatory θˆ3 i θˆ4 mogą być
mniej optymalne ze względu na wyższą wariancję, błąd średniokwadratowy i obciążenie.
Porównawszy otrzymane wyżej wyniki z rezultatami z listy 1, zadania pierwszego, możemy zauważyć, że
estymatory wydają się być bardziej efektywne i dokładne w przypadku rozkładu normalnego w porównaniu
do rozkładu Laplace’a. Rozkład Laplace’a charakteryzuje się większą zmiennością i może prowadzić do mniej
stabilnych i precyzyjnych estymacji.

Rozkład Laplace’a (n=20)


Dla n=20 wygenerowaliśmy próby z rozkładu Laplace’a z parametrem przesunięcia θ i skali σ. Na ich
podstawie obliczymy wartości estymatora parametru θ postaci:

(i) θˆ1 = X̄ = 1
Pn
n i=1 Xi

(ii) θˆ2 = M e{X1 , ..., Xn }

(iii) θˆ3 = i=1 wi Xi ,


Pn Pn
i=1 wi = 1, 0 ≤ wi ≤ 1, i = 1, . . . , n

(iv) θˆ4 = i=1 wi Xi:n , gdzie X1:n ≤ . . . ≤ Xn:n są uporządkowanymi obserwacjami X1 , . . . , Xn


Pn

i−1
   
i
wi = ϕ(Φ −1
) − ϕ(Φ −1
)
n n

przy czym ϕ jest gęstością, a Φ dystrybuantą standardowego rozkładu normalnego N (0, 1).

Otrzymane wyniki przedstawimy w poniższej tabeli:

Parametry θ i σ θˆ1 θˆ2 θˆ3 θˆ4


θ = 1, σ = 1 0.8222414 0.9605057 0.694573 0.5857989
θ = 4, σ = 1 4.0526165 4.2330905 4.167195 3.7536273
θ = 1, σ = 2 0.8326024 0.7282423 0.9376901 0.4840544

15
Parametry θ i σ θˆ1 θˆ2 θˆ3 θˆ4

Powtarzamy eksperyment 10 000 razy i na tej podstawie szacujemy wariancję, błąd średniokwadratowy oraz
obciążenie analizowanego estymatora. Otrzymane wyniki przedstawimy w poniższych tabelach:
Dla L(1, 1) mamy:

Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.0979034 0.0979034 -0.001312
θˆ2 0.0645979 0.0645979 -0.0023132
θˆ3 0.1624978 0.1624978 0.0008209
θˆ4 6.7676081 6.7676081 2.4166156

Dla L(4, 1) mamy:

Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.1017127 0.1017127 0.0042555
θˆ2 0.0665736 0.0665736 0.0040313
θˆ3 0.1672071 0.1672071 0.0055214
θˆ4 72.6478875 72.6478875 8.4662316

Dla L(1, 2) mamy:

Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.3943569 0.3943569 0.0103719
θˆ2 0.2644848 0.2644848 0.0124008
θˆ3 0.6373831 0.6373831 0.0074453
θˆ4 11.9146259 11.9146259 2.8573397

Rozkład Laplace’a (n=100)


Dla n=100 wygenerowaliśmy próby z rozkładu Laplace’a z parametrem przesunięcia θ i skali σ. Na ich
podstawie obliczymy wartości estymatora parametru θ postaci:

(i) θˆ1 = X̄ = 1
Pn
n i=1 Xi

(ii) θˆ2 = M e{X1 , ..., Xn }

(iii) θˆ3 = i=1 wi Xi ,


Pn Pn
i=1 wi = 1, 0 ≤ wi ≤ 1, i = 1, . . . , n

(iv) θˆ4 = i=1 wi Xi:n , gdzie X1:n ≤ . . . ≤ Xn:n są uporządkowanymi obserwacjami X1 , . . . , Xn


Pn

i−1
   
i
wi = ϕ(Φ−1 ) − ϕ(Φ−1 )
n n
przy czym ϕ jest gęstością, a Φ dystrybuantą standardowego rozkładu normalnego N (0, 1).

16
Otrzymane wyniki przedstawimy w poniższej tabeli:

Parametry θ i σ θˆ1 θˆ2 θˆ3 θˆ4


θ = 1, σ = 1 1.1381831 1.0205329 1.0823398 0.862602
θ = 4, σ = 1 4.090285 4.0921915 4.0588864 3.827967
θ = 1, σ = 2 0.9422268 1.168045 1.3310316 0.3977788

Powtarzamy eksperyment 10 000 razy i na tej podstawie szacujemy wariancję, błąd średniokwadratowy oraz
obciążenie analizowanego estymatora. Otrzymane wyniki przedstawimy w poniższych tabelach:
Dla L(1, 1) mamy:

Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.0195359 0.0195359 -0.0008367
θˆ2 0.0114549 0.0114549 -0.0011379
θˆ3 0.0270957 0.0270957 -0.002155
θˆ4 4.6976502 4.6976502 2.1323674

Dla L(4, 1) mamy:

Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.0201891 0.0201891 -0.0023454
θˆ2 0.0116874 0.0116874 -0.0008563
θˆ3 0.027965 0.027965 -0.0013701
θˆ4 63.1811414 63.1811414 7.9388773

Dla L(1, 2) mamy:

Obciążenie
Estymator Wariancja Błąd średniokwadratowy estymatora
θˆ1 0.0804269 0.0804269 -0.0055227
θˆ2 0.0457491 0.0457491 -0.0032963
θˆ3 0.11056 0.11056 -0.0064313
θˆ4 5.9881904 5.9881904 2.3178336

Porównanie otrzymanych wyników dla n=50, n=20 oraz n=100


Analizując wyniki dla różnych parametrów θ i σ w rozkładzie Laplace’a oraz różnych estymatorów, można
zauważyć pewne różnice:

1. Rozkład Laplace’a (n=50):


• Dla estymatora θˆ1 (średnia arytmetyczna), wariancje są stosunkowo niskie, co oznacza, że jest
on stosunkowo stabilny. Błąd średniokwadratowy jest również niski, a obciążenie bliskie zeru lub
bardzo bliskie zeru.

17
• Dla estymatora θˆ2 (mediana), wariancje i błędy średniokwadratowe są również niskie, a obciążenie
bliskie zeru lub bardzo bliskie zeru.
• Dla estymatora θˆ3 (ważony średniokwadratowy), wariancje są wyższe niż dla poprzednich estyma-
torów, błąd średniokwadratowy jest również wyższy, a obciążenie bliskie zeru lub bardzo bliskie
zeru.
• Dla estymatora θˆ4 (ważony kwantyl), wariancje i błędy średniokwadratowe są znacznie wyższe niż
dla poprzednich estymatorów, a obciążenie jest wysokie.
2. Rozkład Laplace’a (n=20):
• Dla estymatora θˆ1 , wariancje są nadal stosunkowo niskie, a błąd średniokwadratowy jest również
niski. Obciążenie jest bliskie zeru lub bardzo bliskie zeru.
• Dla estymatora θˆ2 , wariancje i błędy średniokwadratowe są niskie, a obciążenie jest bliskie zeru
lub bardzo bliskie zeru.
• Dla estymatora θˆ3 , wariancje są wyższe niż dla n=50, błąd średniokwadratowy jest również wyższy,
a obciążenie bliskie zeru lub bardzo bliskie zeru.
• Dla estymatora θˆ4 , wariancje i błędy średniokwadratowe są znacznie wyższe niż dla n=50, a
obciążenie jest wysokie.
3. Rozkład Laplace’a (n=100):
• Dla estymatora θˆ1 , wariancje są nadal stosunkowo niskie, a błąd średniokwadratowy jest również
niski. Obciążenie jest bliskie zeru lub bardzo bliskie zeru.
• Dla estymatora θˆ2 , wariancje i błędy średniokwadratowe są niskie, a obciążenie jest bliskie zeru
lub bardzo bliskie zeru.
• Dla estymatora θˆ3 , wariancje są wyższe niż dla n=50, ale niższe niż dla n=20. Błąd średniok-
wadratowy jest również wyższy niż dla n=50, ale niższy niż dla n=20. Obciążenie jest bliskie zeru
lub bardzo bliskie zeru.
• Dla estymatora θˆ4 , wariancje i błędy średniokwadratowe są znacznie wyższe niż dla n=50, ale
niższe niż dla n=20. Obciążenie jest nadal wysokie.

Podsumowując, większa wartość n powoduje niższe wariancje i błędy średniokwadratowe oraz bardziej sta-
bilne estymatory w przypadku rozkładu Laplace’a. Obciążenie estymatorów zazwyczaj pozostaje bliskie zeru
lub bardzo bliskie zeru, ale może być wyższe dla estymatora θˆ4 . Dla mniejszych próbek (n=20) wariancje i
błędy są wyższe, a estymatory są mniej precyzyjne.

18

You might also like