Download as pdf or txt
Download as pdf or txt
You are on page 1of 9

Raport_3

Alicja Jordan

2023-11-07

PU dla średniej - znana wariancja


Postać przedziału ufności dla średniej w modelu normalnym o znanej wariancji na poziomie ufności 1 − α
wynika z:

1. Rozkład próbkowy średniej: Załóżmy, że mamy próbkę X1 , X2 , . . . , Xn pochodzącą z populacji


o rozkładzie normalnym o średniej µ i znanej wariancji σ 2 . Wówczas średnia próbka X̄ również ma
2
rozkład normalny o średniej µ i wariancji σn .

σ2
 
X̄ ∼ N µ,
n

2. Normalizacja rozkładu: Aby uzyskać przedział ufności, normalizujemy rozkład X̄ poprzez odjęcie
średniej i podzielenie przez odchylenie standardowe.

X̄ − µ
Z= ∼ N (0, 1)
√σ
n

3. Obliczanie wartości krytycznej: Wartość krytyczna Z α2 dla poziomu ufności 1 − α jest taka, że
prawdopodobieństwo, że zmienna losowa Z jest mniejsza niż Z α2 wynosi 1 − α2 .
 α
P Z < −Z α2 =
2
α
Oznacza to, że Z α2 jest kwantylem rzędu 1 − 2 rozkładu normalnego standardowego.
4. Budowa przedziału ufności: Teraz, mając znormalizowany rozkład Z, możemy skonstruować
przedział ufności dla µ:
!
X̄ − µ
P −Z α2 < < Z α2 =1−α
√σ
n

Przekształcamy to równanie, aby uzyskać przedział ufności dla µ:


 
σ σ
P X̄ − Z α2 · √ < µ < X̄ + Z α2 · √ =1−α
n n

Ostatecznie przedział ufności dla średniej µ przy założeniu znanej wariancji σ 2 na poziomie ufności 1 − α
ma postać:
σ
X̄ ± Z α2 · √
n

1
PU(znana wariancja) i ich długości dla różnych rozkładów (n=50)
Generujemy próby o n=50 obserwacjach i obliczamy dla nich przedziały ufności na poziomie ufności 0.95
oraz długości tychże przedziałów. Wyniki przedstawiamy w poniższej tabeli:

Rozkład Przedział ufności Długość przedziału ufności


N (0, 1) [-0.13, 0.3309] 0.4609
N (0, 2) [-0.2138, 0.5457] 0.7595
N (0, 3) [-0.6961, 0.1678] 0.8639
L(0, 1) [-0.13, 0.3309] 0.4609
L(0, 2) [-0.8608, 0.9555] 1.8163
L(0, 3) [-0.9592, 2.1973] 3.1565
C(0, 1) [-7.293, 9.1772] 16.4702
C(0, 2) [-2.0717, 1.5954] 3.6672
C(0, 3) [-5.1002, 11.4254] 16.5256
Exp(0, 1) [0.5706, 0.9966] 0.426
Exp( 12 ) [1.4321, 2.543] 1.1109
Exp( 13 ) [1.8503, 3.1314] 1.2811
χ2 (1) [0.5377, 1.5329] 0.9953
χ2 (2) [1.4428, 2.5478] 1.105
χ2 (3) [2.3431, 3.6898] 1.3467

Powtórzenie doświadczenia 10 000 razy


Doświadczenie powtarzamy 10 000 razy i szacujemy prawdopodobieństwo pokrycia nieznanej średniej przez
przedział ufności oraz jego długość. Otrzymane wyniki przedstawiamy w poniższej tabeli:

Rozkład Szacowane prawdopodobieństwo Długość przedziału


N (0, 1) 0.951 0.554
N (0, 2) 0.951 1.109
N (0, 3) 0.951 1.663
L(0, 1) 0.953 1.006
L(0, 2) 0.953 2.011
L(0, 3) 0.953 3.017
C(0, 1) 0.1805 0.554
C(0, 2) 0.1805 1.109
C(0, 3) 0.1805 1.663
Exp(1) 0.9534 0.554
Exp( 12 ) 0.9534 1.109
Exp( 13 ) 0.9534 1.663
χ2 (1) 0.9521 0.784
χ2 (2) 0.9527 1.109
χ2 (3) 0.9523 1.358

Wnioski
Dla rozkładów normalnych i logistycznych uzyskane prawdopodobieństwo pokrycia wynosiło około 95%, a
długość przedziałów rosła z rozszerzaniem się rozkładu. Dla rozkładu Cauchy’ego zaobserwowano znacznie
niższe prawdopodobieństwo pokrycia (około 18%), co jest związane z jego ekstremalnymi właściwościami.

2
Rozkład wykładniczy oraz chi-kwadrat również potwierdziły teoretyczne założenia, utrzymując praw-
dopodobieństwo pokrycia na poziomie 95%. Ogólnie rzecz biorąc, wyniki wskazują na skuteczność estymacji
przedziałów ufności, przy czym różnice wynikają z charakterystyki konkretnych rozkładów.

PU dla średniej - nieznana wariancja



Wiemy, że µ oraz σ są nieznane. Chcemy oszacować µ. Wiemy, że dla zadania 1 otrzymaliśmy n(X̄ −µ)/σ ∼
N (0, 1). Wiemy także, że rozkład N (0, 1) nie zależy od µ, ale funkcja centralna
√ zależy od σ. Jednak tym
razem σ jest nieznana, a nawet nie jest estymowana. W takim przypadku n(X̄ − µ)/σ nie może być funkcją
centralną. Szukamy innej funkcji centralnej.
√ √
Przypomnijmy, że n(X̄ − µ)/S ma rozkład t-Studenta z n − 1 stopniami swobody, czyli n(X̄ − µ)/S ∼
t(n − 1). Zauważmy, że po lewej stronie mamy µ, natomiast po prawej stronie
√ nie ma ani µ, ani σ. Zatem
udało się znaleźć funkcję centralną. Wygląda ona następująco: Q(X, µ) = n(X̄ − µ)/S.
Teraz zajmiemy się przedziałem, do którego należy µ:
√ 
P tn−1 (β) ≤ n(X̄ − µ)/S ≤ tn−1 (1 − α + β) = 1 − α

Po wykonaniu obliczeń otrzymamy:


 
tn−1 (1 − α + β) tn−1 (β)
P X̄ − √ S ≤ µ ≤ X̄ − √ S =1−α
n n

Ponieważ rozkład t-Studenta jest symetryczny, to tn−1 (1 − α + β) = −tn−1 (β), więc 1 − α + β = 1 − β, co


daje β = α/2. Ostatecznie przedział ufności wygląda następująco:
 
tn−1 (1 − α/2) tn−1 (α/2)
µ ∈ X̄ − √ S, X̄ − √ S
n n

PU (nieznana wariancja) i ich długości dla różnych rozkładów


(n=50)
Generujemy próby o n=50 obserwacjach i obliczamy dla nich przedziały ufności na poziomie ufności 0.95
oraz długości tychże przedziałów. Wyniki będziemy przedstawiać w tabelach.

Rozkład Przedział ufności Długość przedziału ufności


N (0, 1) [-0.1358, 0.3367] 0.4726
N (0, 2) [-0.2235, 0.5553] 0.7788
N (0, 3) [-0.707, 0.1788] 0.8858
L(0, 1) [-0.2326, 0.8708] 1.1034
L(0, 2) [-0.8838, 0.9785] 1.8623
L(0, 3) [-0.9991, 2.2373] 3.2364
C(0, 1) [-7.5014, 9.3857] 16.8871
C(0, 2) [-2.1182, 1.6418] 3.76
C(0, 3) [-5.3093, 11.6345] 16.9439
Exp(0, 1) [0.5652, 1.002] 0.4368
Exp( 12 ) [1.4181, 2.557] 1.139
Exp( 13 ) [1.8341, 3.1476] 1.3136
χ2 (1) [0.5251, 1.5455] 1.0205
χ2 (2) [1.4288, 2.5618] 1.133

3
Rozkład Przedział ufności Długość przedziału ufności
χ2 (3) [2.326, 3.7069] 1.3808

Powtórzenie doświadczenia 10 000 razy


Doświadczenie powtarzamy 10 000 razy i szacujemy prawdopodobieństwo pokrycia nieznanej średniej przez
przedział ufności oraz jego długość. Otrzymane wyniki przedstawiamy w poniższej tabeli:

Rozkład Szacowane prawdopodobieństwo Długość przedziału


N (0, 1) 0.9491 0.565
N (0, 2) 0.9491 1.131
N (0, 3) 0.9491 1.696
L(0, 1) 0.9547 1.023
L(0, 2) 0.9547 2.045
L(0, 3) 0.9547 3.068
C(0, 1) 0.982 21.694
C(0, 2) 0.982 43.389
C(0, 3) 0.982 65.083
Exp(1) 0.9342 0.558
Exp( 12 ) 0.9342 1.115
Exp( 13 ) 0.9342 1.673
χ2 (1) 0.9194 0.779
χ2 (2) 0.9354 1.115
χ2 (3) 0.9413 1.375

Wnioski
Dla rozkładów normalnych i logistycznych uzyskane prawdopodobieństwo pokrycia wynosiło około 94.91%
i 95.47% odpowiednio, a długość przedziałów rosła z rozszerzaniem się rozkładu. Dla rozkładu Cauchy’ego
zaobserwowano znaczne prawdopodobieństwo pokrycia (ok. 98.2%), co może wynikać z wpływu wartości
odstających. Równocześnie długość przedziałów tego rozkładu utrzymuje się na wyjątkowo dużym poziomie.
Estymacje dla rozkładu wykładniczego oraz chi-kwadrat również potwierdzają teoretyczne założenia, przy
czym różnice między powtórzeniami wynikają głównie z charakterystyki poszczególnych rozkładów. Warto
zauważyć, że dla rozkładu Cauchy’ego, mimo wysokiego prawdopodobieństwa pokrycia, długość przedziałów
jest istotnie większa, co podkreśla jego wyjątkowe właściwości wrażliwości na obserwacje odstające.

PU dla wariancji - znana średnia


W celu wyznaczenia przedziału ufności dla wariancji w modelu normlanym o znanej średniej, zaczynamy od
wyznaczenia funkcji centralnej. Sprawdzimy czy wcześniej uzyskane funkcje będą odpowiednie.
√ √
Najpierw sprawdzamy funckję: n(X̄ − µ)/ σ 2 ∼ N (0, 1). Wiemy, że wartość µ z lewej strony jest znana
oraz, że σ 2 to estymowany parametr. Po prawej stronie nie mamy σ 2 . Wnioskujemy, że mogłaby być to
funkcja centralna. Jednakże przedział ufności dla niej ma postać σ 2 ∈ (n(X̄ −µ)2 /z(1−α/2), ∞), co oznacza,
że przedział jest zbyt szeroki, aby wyciągnąć z niego poprawne wnioski.

Sprawdzimy następującą funkcję: 4 n(X̄ − µ)/S ∼ t(n − 1). Nie mamy σ 2 po lewej stronie, stąd wniosek,
że nie może być ona funkcją centralną.
Z uwagi na niewystarczającą efektywność rozkładu t-Studenta oraz normalnego, spróbujemy z rozkładem
chi-kwadrat.

4
Niech X1 , . . . , Xn ∼ N (µ, σ 2 ), w szczególności Xi ∼ N (µ, σ 2 ) po standaryzacji otrzymamy (Xi − µ)/σ ∼
N (0, 1). Liczba stopni swobody w rozkładzie chi-kwadrat to liczba składników sumy.
n  2
X Xi − µ
∼ χ2n
i=1
σ

Oznaczymy jako M2 . Czyli n · M2 /σ 2 ∼ χ2n . Po prawej stronie nie ma σ 2 . Po lewej stronie jest σ 2 i jest µ.
Czyli n · M2 /σ 2 = Q(X, σ 2 ) może być funkcją centralną.
Powtarzając wcześniejsze rozumowania otrzymujemy:
 
n · M2
P χ2n (β) ≤ ≤ χ2
n (1 − α + β) =1−α
σ2

 
n · M2 n · M2
σ2 ∈ 2
, 2
χn (1 − α/2) χn (α/2)

Używając R Studio obliczamy minimalną wartość funkcji h(β) otrzymujemy, że β = α/2. Zatem ostatecznie
nasz przedział ufności wynosi:  
2 n · M2 n · M2
σ ∈ ,
χ2n (1 − α/2) χ2n (α/2)

PU (znana średnia) i ich długości dla różnych rozkładów (n=50)


Generujemy próby o n=50 obserwacjach i obliczamy dla nich przedziały ufności na poziomie ufności 0.95
oraz długości tychże przedziałów. Wyniki będziemy przedstawiać w tabelach.

Rozkład Przedział ufności Długość przedziału ufności


N (0, 1) [-0.1358, 0.3367] 0.4726
N (0, 2) [-0.2235, 0.5553] 0.7788
N (0, 3) [-0.707, 0.1788] 0.8858
L(0, 1) [-0.2326, 0.8708] 1.1034
L(0, 2) [-0.8838, 0.9785] 1.8623
L(0, 3) [-0.9991, 2.2373] 3.2364
C(0, 1) [-7.5014, 9.3857] 16.8871
C(0, 2) [-2.1182, 1.6418] 3.76
C(0, 3) [-5.3093, 11.6345] 16.9439
Exp(0, 1) [0.5652, 1.002] 0.4368
Exp( 12 ) [1.4181, 2.557] 1.139
Exp( 13 ) [1.8341, 3.1476] 1.3136
χ2 (1) [0.5251, 1.5455] 1.0205
χ2 (2) [1.4288, 2.5618] 1.133
χ2 (3) [2.326, 3.7069] 1.3808

Powtórzenie doświadczenia 10 000 razy


Doświadczenie powtarzamy 10 000 razy i szacujemy prawdopodobieństwo pokrycia nieznanej średniej przez
przedział ufności oraz jego długość. Otrzymane wyniki przedstawiamy w poniższej tabeli:

5
Rozkład Szacowane prawdopodobieństwo Długość przedziału
N (0, 1) 0.9501 0.845
N (0, 2) 0.9501 3.381
N (0, 3) 0.9501 7.607
L(0, 1) 0.8835 2.779
L(0, 2) 0.8835 11.115
L(0, 3) 0.8835 25.009
C(0, 1) 0 113449
C(0, 2) 0 453797
C(0, 3) 0 1021044
Exp(1) 0.7096 0.844
Exp( 12 ) 0.7096 3.376
Exp( 13 ) 0.7096 7.595
χ2 (1) 0.5743 1.677
χ2 (2) 0.7092 3.341
χ2 (3) 0.7761 5.071

Wnioski
Dla rozkładów normalnych i wykładniczych uzyskane wyniki są zgodne z oczekiwaniami, natomiast dla
rozkładu Cauchy’ego obserwujemy zerowe prawdopodobieństwo pokrycia, co wynika z jego dużego wpływu
wartości odstających. Szacowane prawdopodobieństwa dla rozkładu logistycznego są niższe niż oczekiwane,
co może być efektem jego skośności. Dla rozkładu chi-kwadrat zaobserwowano zmienne rezultaty, zwiększając
się wraz z ilością stopni swobody. Podsumowując, wyniki te potwierdzają wpływ charakterystyki rozkładu
na skuteczność przedziałów ufności oraz ich podatność na specyficzne właściwości danego rozkładu.

PU dla wariancji - nieznana średnia


W celu wyznaczenia przedziału ufności dla wariancji w modelu normalnym o nieznanej średniej powtarzamy
wcześniejsze rozumowanie, pamiętając, że wartość średniej nie jest przez nas znana. Korzystamy z rozkładu
chi-kwadrat o n − 1 stopniach swobody, finalnie otrzymując przedział ufności postaci:
 
n · M2 n · M2
,
χ2n−1 (1 − α2 ) χ2n−1 ( α2 )

PU (nieznana średnia) i ich długości dla różnych rozkładów (n=50)


Generujemy próby o n=50 obserwacjach i obliczamy dla nich przedziały ufności na poziomie ufności 0.95
oraz długości tychże przedziałów. Wyniki będziemy przedstawiać w tabelach.

Rozkład Przedział ufności Długość przedziału ufności


N (0, 1) [0.4823, 1.0734] 0.591
N (0, 2) [1.3099, 2.9151] 1.6052
N (0, 3) [1.6946, 3.7712] 2.0766
L(0, 1) [2.6296, 5.8518] 3.2223
L(0, 2) [7.4903, 16.6689] 9.1786
L(0, 3) [22.6232, 50.3458] 27.7226
C(0, 1) [615.93, 1370.6926] 754.7626
C(0, 2) [30.5346, 67.9518] 37.4172

6
Rozkład Przedział ufności Długość przedziału ufności
C(0, 3) [620.0785, 1379.9246] 759.8462
Exp(0, 1) [0.4121, 0.917] 0.5049
Exp( 12 ) [2.8019, 2.557] 3.4334
Exp( 13 ) [3.7267, 3.1476] 4.5667
χ2 (1) [2.2491, 5.0052] 2.7561
χ2 (2) [2.7725, 6.1698] 3.3974
χ2 (3) [4.1182, 9.1646] 5.0464

Powtórzenie doświadczenia 10 000 razy


Doświadczenie powtarzamy 10 000 razy i szacujemy prawdopodobieństwo pokrycia nieznanej średniej przez
przedział ufności oraz jego długość. Otrzymane wyniki przedstawiamy w poniższej tabeli:

Rozkład Szacowane prawdopodobieństwo Długość przedziału


N (0, 1) 0.9516 0.855
N (0, 2) 0.9516 3.42
N (0, 3) 0.9516 7.695
L(0, 1) 0.8853 2.812
L(0, 2) 0.8853 11.248
L(0, 3) 0.8853 25.309
C(0, 1) 0 114799
C(0, 2) 0 459198
C(0, 3) 0 1033195
Exp(1) 0.7083 0.854
Exp( 12 ) 0.7083 3.416
Exp( 13 ) 0.7083 7.686
χ2 (1) 0.5722 1.713
χ2 (2) 0.7073 3.416
χ2 (3) 0.7734 5.147

Wnioski
Dla rozkładów normalnych oraz wykładniczych uzyskane prawdopodobieństwo pokrycia oscyluje wokół
95%, co jest zgodne z oczekiwaniami. Natomiast dla rozkładu Cauchy’ego obserwujemy zerowe praw-
dopodobieństwo pokrycia, co podkreśla jego nadzwyczajną podatność na wpływ wartości odstających.
W przypadku rozkładu logistycznego, szacowane prawdopodobieństwa są niższe niż oczekiwane, co może
wynikać z charakterystyki rozkładu. Dla rozkładu chi-kwadrat zauważamy zmienne rezultaty, zwiększające
się wraz z ilością stopni swobody. Ogólnie rzecz biorąc, wyniki te potwierdzają, że skuteczność przedziałów
ufności jest zależna od specyfiki danego rozkładu oraz jego parametrów. Długość przedziałów dla wszystkich
rozkładów wzrasta wraz ze wzrostem rozproszenia danych, co jest zgodne z oczekiwaniami.

Asymptotyczny przedział ufności


Chcemy wyznaczyć asymptotyczny przedział ufności. Niech X1 , X2 , . . . , Xn będą zmiennymi losowymi z
rozkładu Bernoulliego o nieznanym parametrze p. Wtedy µ = E(X1 ), σ 2 = p(1 − p). Niech p̂ = X będzie
proporcją jednynek do zer, czyli proporcją pozytywnych odpowiedzi z CTG. Mamy, że dla n → ∞:
√ p−p d
np → N (0, 1)
p(1 − p)

7
Gdy podstawimy p := p, to
√ p−p d
np → N (0, 1)
p(1 − p)

Stąd funkcja centralna spełnia


!
p−p
P −z1− α2 ̸∈ p √ ≈1−α
p(1 − p)/ n

Przekształcając, uzyskujemy, że asympotutyczny przedział ufności ma postać:


r r !
p̂(1 − p̂) p̂(1 − p̂)
p ∈ p̂ − z1− α2 ; p̂ + z1− α2 ≈1−α
n n

Eksperyment numeryczny - asymptotyczny przedział ufności


Generujemy próby o n=50 obserwacjach, ich podstawie szacujemy prawdopodobieństwo pokrycia nieznanej
proporcji dodatnich obserwacji przez asymptotyczny przedział ufności na poziomie ufności 0.95 oraz długość
tego przedziału. Uzyskane wyniki przedstawiamy w poniższej tabeli:

Rozkład Szacowane prawdopodobieństwo Długość przedziału


N (0, 1) 0.9363 0.274
N (0, 2) 0.9363 0.274
N (0, 3) 0.9363 0.274
L(0, 1) 0.9351 0.274
L(0, 2) 0.9351 0.274
L(0, 3) 0.9351 0.274
C(0, 1) 0.9351 0.274
C(0, 2) 0.9351 0.274
C(0, 3) 0.9351 0.274

Wnioski
Wyniki z eksperymentu numerycznego dla asymptotycznego przedziału ufności (n = 50) prezentują niewielkie
różnice dla różnych rozkładów. Szacowane prawdopodobieństwo pokrycia wynosi około 93.63%, a długość
przedziału utrzymuje się na stałym poziomie w okolicach 0.274. Dla wszystkich rozkładów (normalnego, lo-
gistycznego, Cauchy’ego) oraz różnych parametrów skala (1, 2, 3), uzyskane wyniki są zaskakująco zbliżone.
W przypadku asymptotycznego przedziału ufności, nie obserwujemy znacznych różnic pomiędzy rozkładami
czy ich parametrami, co może wynikać z asymptotycznej natury tego podejścia, które działa dobrze dla
większych prób. Długość przedziału pozostaje stała, co może wskazywać na pewną niezależność od charak-
terystyki rozkładu przy dostatecznie dużym n.

Analiza eksperymentu dla n=20, n=50 i n=100


Przy porównywaniu wyników dla trzech różnych wielkości prób (n = 20, n = 50, i n = 100), korzystamy z
centralnego twierdzenia granicznego (CTG) jako fundamentalnego narzędzia statystycznego. CTG mówi, że
suma lub średnia niezależnych i identycznie rozkładających się próbek z populacji o dowolnym rozkładzie,
oczekiwanej wartości µ i wariancji σ 2 , zbliża się asymptotycznie do rozkładu normalnego w miarę wzrostu
liczności próby (n).

8
Formalnie, niech X̄ będzie średnią próbki, a S jej odchyleniem standardowym. Dla dużych wartości n, X̄
można przybliżyć rozkładem normalnym za pomocą równania:

X̄ − µ
Z=
√S
n

gdzie Z to zmienna losowa o standardowym rozkładzie normalnym. W przypadku większych n, mianownik


√S maleje, co prowadzi do mniejszego rozrzutu wartości X̄ wokół µ.
n

Dla małych prób (n = 20), CTG nie musi być jeszcze wyraźnie zauważalne, co oznacza, że rozkład próbki
może być bardziej podatny na wpływ czynników losowych. W rezultacie, dla mniejszych n, możemy oczeki-
wać większej zmienności w wynikach i szerszych przedziałów ufności.
Podsumowując, różnice w precyzji oszacowań pomiędzy małą (n = 20), średnią (n = 50), a dużą (n = 100)
próbą wynikają głównie z działania CTG. W miarę wzrostu liczności próby, zgodnie z CTG, oczekujemy, że
precyzja oszacowań wzrośnie, co przełoży się na węższe przedziały ufności. Różnice między wartościami n
będą wpływać na stopień zbliżenia rozkładu próbki do rozkładu normalnego oraz na zmienność wyników.

You might also like