02 - Zmienne Losowe - X

You might also like

Download as ppt, pdf, or txt
Download as ppt, pdf, or txt
You are on page 1of 50

Zastosowanie

Dla ustalenia liczby ryb w jeziorze odławiamy pewną liczbę ryb, np.
1000sztuk. Złapane ryby znakujemy i wpuszczamy je do jeziora. Po
upływie pewnego czasu dokonujemy odłowu uzyskując np.: 1200 ryb,
wśród których było 25 znakowanych.

B C
N liczba ryb = liczba kul w urnie
( )( ) B ryby znakowane = kule białe
PN  N b c
C ryby nieznakowane = kule czarne
( n) n ryby odłowione = liczba losowań zależnych
b wyłowione znakowane =wylosowane białe
c wyłowione nieznakowane = wylosowane czarne
Prawdopodobieństwo wylosowania b kul białych i c kul
czarnych w n losowaniach
Cd. ryby
Aby na podstawie tych danych empirycznych oszacować liczbę ryb w
jeziorze zastosujemy zasadę największej wiarygodności, polegającej
na wyznaczeniu takiej liczby N, aby prawdopodobieństwo PN miało
wartość największą.

PN ( Bb )( nNbB ) ( nN 1 ) N 2  nN  BN  Bn
 N * B N 1 B 
PN 1 (n ) (b )(nb ) N ( N  B  n  b)
PN/P N-1 >1 dla N<B*n/b
PN osiąga największą
PN/P N-1 <1 dla N> B*n/b wartość dla N = [B n/b]
Zmienne losowe
Zmienna losowa

Definicja Niech będzie przestrzenią zdarzeń elementarnych. Każdą


funkcję określoną na zbiorze  i o wartościach w zbiorze liczb
rzeczywistych nazywać będziemy zmienną losową.
Nazwa zmiennej Wartość zmiennej
Przykład 1 Rzut jedną kostką.
dla zdarzenia wi

X(wi) = i
3 2 1 4 5 6 Zmienne
Y(wi) = 1 gdy i parzyste Y(wi) =0 gdy i nieparzyste dyskretne

Przykład 2 Rzut dwoma kostkami.


X(wij) = i+j
Zdarzenia elementarne wij= (i,j) , gdzie
i, j =1,2,3,4,5,6
Y(wij) = i/j
Z(wij) = max(i,j)
Niezależność zmiennych
losowych
Definicję tę można
Przykład
uogólnić na dowolny
XK (data) - liczba stłuczek samochodowych w Krakowie
ciąg zmiennych
XW (data) - liczba stłuczek samochodowych w Warszawie
losowych
Ilość stłuczek w Warszawie nie powinna mieć wpływu na liczbę
stłuczek w Krakowie. Intuicyjnie te zmienne są niezależne.
Definicja Powiemy, że dwie zmienne losowe X i Y są niezależne jeżeli
dla dowolnych przedziałów I, J w zbiorze liczb rzeczywistych
P (XI i Y J) = P(XI) * P(Y J)

W przypadku zmiennych dyskretnych : niezależność wyraża się


warunkiem:
P(X=x i Y= y) = P(X=x) * P(Y=y) dla dowolnych x,y  R.
Przykład Zmienne X i Z
nie są niezależne
Rozważmy doświadczenie z
rzutem dwoma kostkami do gry.

Definiujemy zmienne losowe X , Y i Z : X(i,j)= i , Y(i,j) = j, Z(i,j)=i+j

Zdarzenie A= „liczba oczek na X 3


kostce 1 jest nie większa niż 3”

Zdarzenie B = „liczba oczek na Y 5


drugiej kostce wynosi co najmniej 5

Uwaga P(A) = 1/2 = P(X  3) P(B) =1/3 =P(Y 5)


tzn. X i Y są zmiennymi
Dla dowolnych k i l mamy niezależnymi
P(X=k i Y=l) = 1/36 = P(X=k) * P(X=l)
Rozkład prawdopodobieństwa
Niech X będzie zmienną losową określoną w przestrzeni .

Definicja Funkcję fX określoną na zbiorze R i o wartościach


w zbiorze [0,1] taką, że
fX(x) = P(X=x) dla x R
nazywamy rozkładem prawdopodobieństwa zmiennej losowej X

Przykład Rozważmy zmienne X, Y, Z rozpatrywane


w przykładzie z rzutem dwoma kostkami do gry.
1/36 dla x=2 i x= 12
2/36 dla x=3 i x=11
1/6 dla 3/36 dla x=4 i x=10
fX(x) = x=1,2,3,4,5,6 fZ (x) = 4/36 dla x=5 i x=9
5/36 dla x=6 i x=8
0 dla pozostałych x 6/36 dla x=7
0 dla pozostałych x
Przykład
Rzucamy n-krotnie monetą . Niech
Xi (w i-tym rzucie wypadł orzeł) = 1 Orzeł Reszka
Xi (w i-tym rzucie wypadła reszka) = 0
Mamy P( Xi = 1)= 1/2
Niech Sn= X1 + X2 +...+ Xn
Liczba orłów w n rzutach monetą
k orłów
w n rzutach monetą
Rozkład
Rozkłady prawdopodobieństwa zmiennych są następujące:dwumianowy

1/2 dla x=0,1


fXi(x) = fSn(x) =
0 dla pozostałych x
Dystrybuanta
Definicja Niech X będzie zmienną losową określoną na dowolnej
przestrzeni zdarzeń losowych . Dystrybuantą zmiennej X
nazywamy funkcję F : R  [0,1] taką, że
FX(x) = P(X  x) dla x  R Dystrybuanta akumuluje
wartości rozkładu
W przypadku zmiennej losowej dyskretnej prawdopodobieństwa
mamy FX(x) =  y  x fX(y)

Przykład 1
Dystrybuanta zmiennej 5/6
losowej X w rzucie jedną 4/6
3/6
kostką do gry:

1 2 3 4 5 6 7 8
Przykłady

Przykład Zliczanie liczby orłów w n rzutach monetą.


Dystrybuanta każdej ze zmiennych Xi jest określona:
FX(y) = 0 gdy y <0 FX (y) = 1/2 gdy 0y <1 FX (y)=1 dla y  1
Dystrybuanta zmiennej S ma postać
Zmienna
jednostajna
Przykład Wybieramy losowo liczbę z przedziału [0,1).  = [0,1).
Niech U będzie zmienną losową taką że dla x [0,1), U(x)=x.
P( U[a,b))= b-a b>a i b,a [0,1) Dystrybuanta FU(y) = P(U  y)

To nie jest 0 gdy y<0


dyskretna zmienna FU(y) = y gdy 0 y<1
losowa 1 gdy y 1
Wartość oczekiwana

Definicja  - skończona przestrzeń zdarzeń elementarnych, X


zmienna losowa określona w . Wartością oczekiwaną zmiennej X
nazywamy liczbę E(X) =  w X(w)* P({w}).

Jeśli wszystkie zdarzenia elementarne są jednakowo


prawdopodobne, to P({w}) = 1/card() czyli




X ( )
E( X ) 
card ()

Przykład Rzucamy jedną kostką do gry. Liczba wyrzuconych


oczek X jest zmienną losową o wartościach 1,2,3,4,5,6 i ma
rozkład jednostajny P(X=i)=1/6.
Zatem E(X)= (1+2+...6)/6 = 3.5
Wartość oczekiwana zmiennej dyskretnej

Niech X będzie zmienną losową dyskretną określoną w pewnej przestrzeni


zdarzeń elementarnych
  {xi : i  1,2,..., n}
n
EX   xi P ( X  xi )
i 1

fX ( xi )  P ( X  xi )  pi

n n
EX   xi fX ( xi )   xi pi
i 1 i 1
Przykład
W pewnej loterii sprzedaje się n losów, z których n1 wygrywa sumę
x1 zł., n2 - wygrywa x2 zł., ...nk losów wygrywa xk zł.
Loterię nazywamy sprawiedliwą, jeśli suma wygranych jest
równa ilości pieniędzy uzyskanych ze sprzedaży biletów.

Jaka powinna być cena jednego losu, żeby loteria była sprawiedliwa?

Zmienna losowa przypisująca losowi wygraną ma rozkład


prawdopodobieństwa f :
f(x1)=P(X=x1) = n1/n , f(x2)=P(X=x2) = n2/n ... f(xk)=P(X=xk) = nk/n
Wartość oczekiwana zmiennej X , EX=  i=1...k (xi *ni/n)=  i=1...k (xi *ni)/n

Suma wygranych =
 i=1...k xi *ni 1 los = EX zł Zysk = n *EX
Przykład

2,40
1,20 4,80

5 biletów po 1,20zł 4 bilety po 2,40 zł


6 biletów po 4,80 zł

W tramwaju zgasło światło i pasażer skasował losowo wyciągnięty


bilet. Jaka jest wartość oczekiwana jego opłaty za przejazd?

bilet X Rozkład prawdopodobieństwa fX:


Cena tego
biletu f(1,20)= 5/15 f(2,40)= 4/15 f(4,80)= 6/15

EX = 1,20 *5/15 + 2,40* 4/15+ 4,80 * 6/15 = 2,96


Własności wartości oczekiwanej
- przestrzeń zdarzeń, w której określone są zmienne losowe X i Y.
Twierdzenie 1 Twierdzenie 2
E(cX) = c E(X) Jeśli X i Y są niezależnymi
E(X + Y) = E(X) + E(Y) zmiennymi losowymi, to
E(a) = a E(X * Y) = E(X) * E(Y).
E(X – E(X)) = 0

Dowód Tw. 2:
E(X*Y) = w Y(w) *X(w) * P({w}) =  xX(),y Y() x*y P(X=x i Y=y) =
 xX(),y Y() x*y P(X = x ) * P ( y = y ) =
 xX() x* P(X=x) *( yY() y * P(Y=y) ) = E(X) * E(Y).
Wariancja
Rozważmy dwie zmienne o rozkładach {(100,1/2), (100,1/2)}, {(2,1/3),
(-1,2/3)} Mamy EX = EY = 0. Chociaż zmienne bardzo się
różnią, to wartości oczekiwane są takie same.
Nowy parametr, który
charakteryzuje rozrzut wartości
zmiennej losowej.

Definicja: D2X = E((X-EX)2)


Niech X ma rozkład prawdopodobieństwa {(xi,pi)} i=1,...n.
Oznaczmy EX= m. Wtedy D2X = ((x1- m)2*p1 +...+ (xn –m)2 *pn.
Prawdopodobieństwo zdarzenia,
Co to znaczy, że D2X że X przyjmuje wartość dużo
jest małą liczbą? różniącą się od m jest małe.

Twierdzenie D2X = E(X2) – (EX) 2


Przykład
Rozważmy zmienną losową o rozkładzie zero-jedynkowym

X 
1 z prawdop . p
0 z prawdop . 1 p

Wtedy EX = p oraz
D2X = E((X- EX)2) = (1-p) 2 p +(0-p) 2(1-p) = p(1-p)

Definicja Liczbę   D 2 X nazywamy


odchyleniem standardowym zmiennej X. dyspersja
Własności wariancji
Twierdzenie
D2(c) = 0
D2 (cX) = c 2 D2 (X)
D2(X + Y) = D2(X) + D2(Y) o ile X i Y są niezależne
Dowód
D2(X+Y) = E((X+Y - E(X+Y)) 2 )= E((X-EX + Y-EY) 2)=
E((X-EX)2 +2(X-EX)(Y-EY) + (Y-EY) 2)=
E ((X-EX)2 ) + E(2(X-EX)(Y-EY)) + E((Y-EY)2) =D2(X) + D2(Y).

Ponieważ X i Y są niezależne więc


również (X-c) i (Y-c) są E(2(X-EX)(Y-EY))= 0
zmiennymi niezależnymi.

Wniosek Jeżeli zmienne X i Y są niezależne, to


D2(X-Y) = D2(X+Y).
ZMIENNE LOSOWE CIĄGŁE
Są to zmienne, które mogą przyjmować wartości z nieprzeliczalnego zbioru
wartości (przy założeniu, że będą mierzone z wystarczającą dokładnością).

Zmienna ciągła jest opisywana dwoma funkcjami:


• funkcją gęstości f(X) a
• dystrybuantą F(X) F (a)   f ( x)dx

Twierdzenie: P(X=a) = O

b a b
P(a  X  b)  F (b)  F (a )   f ( x)dx   f ( x)dx   f ( x)dx
  a

Definicje:

E( X )   xf ( x)dx

dystrybuanta funkcja gęstości Funkcja dystrybuanty

1
f(a)

F(a)

dystrybuanta

Interpretacja wykresu
• całe pole pod funkcją gęstości ma powierzchnię równą 1
• wartość funkcji dystrybuanty zmienia się wraz z wartością „x” w sposób
pokazany strzałką (prawa granica pola przesuwa się)

• znajomość funkcji dystrybuanty umożliwia rozwiązywanie zadań typu:


P(X<a), P(X>a), P(7<X<11) itd.
Rozkład prostokątny
(rozkład równomierny, jednostajny, amodalny).
Jego funkcja gęstości ma stałą wartość w przedziale (a, b), natomiast dla
pozostałych wartości ma wartość równą 0.
1
f (X ) 
ba

a=0
b=8

ab 2
E( X )  (b  a )
2 D2 ( X ) 
12
Rozkład trójkątny f(X)
2 dystrybuanta
Rozkład ten opisują trzy wartości
zmiennej: ca funkcja gęstości

a — najmniejsza przewidywana
b — najbardziej prawdopodobna
a b c X
c — największa przewidywana xi

Zalety rozkładu
• łatwy do matematycznego przetwarzania
• nadaje się do modelowania wszystkich rozkładów jednomodalnych
• zrozumiały dla osób nie znających statystyki
ZMIENNE LOSOWE WIELOWYMIAROWE
Badamy pewną zbiorowość ze względu na kilka cech ( np. dwie)
ZMIENNE LOSOWE WIELOWYMIAROWE
PARAMETRY ROZKŁADU ZMIENNYCH LOSOWYCH
DWUWYMIAROWYCH

Moment zwykły rzędu r+s mr+s=E(XrYs)



 xi j
r
i
s
y pij
j

mrs   

 x
r s
y f ( x, y )dxdy
 

m10  E ( X 1Y 0 )  E ( X ) m01  E ( X 0Y 1 )  E (Y )

m11  E ( X 1Y 1 )  E ( XY )
PARAMETRY ROZKŁADU ZMIENNYCH LOSOWYCH
DWUWYMIAROWYCH

Moment centralny rzędu r+s


 rs  E ( X  EX ) r (Y  EY ) s 

 2
 20  E ( X  EX ) (Y  EY )  D X 0
 2

 02  E ( X  EX ) 0 (Y  EY ) 2   D 2Y

11  E ( X  EX )(Y  EY )  cov( X , Y )   XY


KOWARIANCJA



 ( x  m
i j
10 )( y  m01 ) pij
cov( X , Y )   

  (x  m 10 )( y  m01 ) f ( x, y )dxdy
 

Współczynnik korelacji

11 cov( X , Y ) cov( X , Y )


  
 20  02 D 2 ( X ) D 2 (Y )  XY

1    1
Współczynnik korelacji dla zmiennych
losowych liniowo zależnych
PY  aX  b  1
D 2Y  D 2 (aX  b)  a 2 D 2 X
Y  aX  b EY  aEX  b

cov( X , Y )  E ( X  EX )(Y  EY )  E ( X  EX )(aX  b  aEX  b)


 E ( X  EX )( aX  aEX )  aE ( XX )  aE ( X  EX )  aE ( X  EX )  aEX  EX

 aEX 2  a( EX ) 2  a( EX ) 2  a( EX ) 2  aEX 2  a( EX ) 2  aD 2 X

11 cov(X , Y ) aD 2 X aD 2 X a
 XY      1
 20  02 2 2
D ( X ) D (Y ) 2 2 2
D ( X )a D ( X ) a D X a
2 2
Funkcja regresji zmiennej losowej Y względem
zmiennej losowej X.
g ( x)  E (Y X  x) g ( x)  E (Y X  x)   yf ( y x)dy


f ( y x) rozkład warunkowy
E Y  g ( x)  min
2
Dla funkcji regresji zachodzi własność
Własność ta jest podstawą szacowania metodą najmniejszych kwadratów funkcji
regresji II rodzaju, tzn. funkcji g(x) o przyjętym z góry typie i o parametrach
wyznaczonych tak, by dla wyników (xi,yi) (i=1,2,...,n) n-elementowej próby z
dwuwymiarowego rozkładu (X,Y) zachodziło minimum funkcji:
n
S   yi  g ( xi ) g ( x)  x  
2

i 1

Parametr  liniowej funkcji regresji g(x) nazywa się


współczynnikiem regresji liniowej.

X,Y – stochastycznie niezależne


cov( X , X )  E( X  EX )(Y  EY )  E ( X  EX ) E (Y  EY )  ( EX  EX )( EY  EY )  0
Parametry pozycyjne rozkładu zmiennej
losowej
Dla dowolnej liczby p ( 0 < p < 1 ) kwantylem rzędu p rozkładu zmiennej
losowej X nazywamy liczbę xp spełniającą nierówności:

PX  x p  p oraz PX  x p  1  p


Jeżeli istnieje (dla zmiennej losowej skokowej) więcej niż
jedna taka liczba xp , to przyjmuje się najmniejszą z nich.
Dla zmiennej ciągłej mamy równość p=F(xp).
Podstawowymi kwantylami ważnymi zmiennej losowej X w
praktyce statystycznej są:
Centyle (p = 0.01 i 99 wielokrotności tej liczby )
Decyle (p = 0.1 i 9 wielokrotności tej liczby )
Kwartyle (p = 0.25 i 3 wielokrotności tej liczby )
Najczęściej używanym kwantylem jest x0.5 mediana
Podstawowe rozkłady skokowe
Rozkład dwupunktowy
P ( X  1)  p P ( X  0)  q  1  p
EX  p 2
D X  pq
Rozkład dwumianowy (Bernoulliego).
a)      dokonuje się n niezależnych powtórzeń pewnego doświadczenia
losowego.
b)      w każdym doświadczeniu mogą zajść tylko dwa wykluczające się
Pzdarzenia
( A)  p : A ( sukces) i P
A’( (porażka)
A' )  q  1  p
c)       oraz
Zmienna losowa przyjmuje wartości równe liczbie sukcesów w n doświadczeniach
 n  k nk
P{ X  k }  
k p q EX  np
 
2
D X  npq
Rozkład Poissona

W schemacie doświadczeń typu Bernoulliego liczba niezależnych doświadczeń


n
Prawdopodobieństwo sukcesu p maleje tak, że
np    const
Przy takim założeniu funkcja prawdopodobieństwa zmiennej losowej o rozkładzie
dwumianowym dąży do funkcji prawdopodobieństwa w tzw. Rozkładzie
Poissona: k e   2
PX  k  
k! dla k = 1,2,… EX    D X
Model rozpadu radioaktywnego.

Rad rozpada się w radon. Rozpadające się jądro radu wysyła cząsteczkę α.
Odległości między atomami są stosunkowo duże, można zatem przyjąć, że jądra
rozpadają się niezależnie od stanu sąsiednich atomów.
Załóżmy, że prawdopodobieństwo p(t) rozpadu danego atomu radu w pewnym
przedziale czasu o długości t zależy tylko od długości tego przedziału. Jeżeli łącznie
jest n atomów ( w jednym gramie 10 ) to średnia liczba cząsteczek wysyłanych w
czasie t jest równa a = np(t). Jak pokazują doświadczenia, liczba ta przy t = 1 s jest
rzędu 1010, zatem p(1) = 10-12
Sukces – rozpad atomu radu. Liczba wyemitowanych cząsteczek jest równa licznie
sukcesów w n doświadczeniach Bernoulliego.
Prawdopodobieństwo sukcesu p = p(t). Parametry n i p są takie, że faktycznym
rozkładem prawdopodobieństwa zmiennej losowej X(t) – liczba wysłanych w czasie
t cząsteczek będzie rozkład Poissona z parametrem a = np(t):
 
Podstawowe rozkłady ciągłe
Rozkład gamma Rozkład beta
Rozkład t-Studenta
Rozkład χ2
Rozkład normalny ( rozkład Gaussa)

( x m) 2 2
1 
2 2
1 ( x  m)
f ( x)  e  exp( 2
)
 2  2 2
EX  m D2 X   2 N(m,)

Unormowany rozkład Gaussa

X m 1 x2
U N(0,1) f ( x)  exp( )
 2 2
Centralne twierdzenie graniczne
ROZKŁAD.NORMALNY
 
Daje w wyniku normalny rozkład łączny dla danej średniej i normalnego
odchylenia. Funkcja ta ma bardzo szeroki zakres zastosowań w statystyce,
łącznie z badaniem hipotez.
Składnia

ROZKŁAD.NORMALNY(x;średnia;odchylenie_std;skumulowany)

X   jest to wartość, dla której chcemy mieć rozkład.


Średnia   jest to średnia arytmetyczna rozkładu.
Odchylenie_std   jest to standardowe odchylenie rozkładu.
Skumulowany   jest to wartość logiczna, która określa rodzaj funkcji. Jeżeli
skumulowany ma wartość PRAWDA, wówczas funkcja
ROZKŁAD.NORMALNY daje w wyniku łączną funkcję rozkładu, a jeśli
FAŁSZ, wówczas funkcja ta daje w wyniku funkcję gęstości
prawdopodobieństwa.
ROZKŁAD.NORMALNY.S

Oblicza standardowy skumulowany rozkład (dystrybuantę)


normalny o zadanych parametrach. Rozkład ten ma średnią
zero i odchylenie standardowe równe jeden. Funkcję tę należy
stosować zamiast tabeli obszarów standardowych krzywych
normalnych.
Składnia
ROZKŁAD.NORMALNY.S(z)

Z   jest to wartość, dla której chcemy określić rozkład.


ROZKŁAD.NORMALNY.ODW

Oblicza wartość funkcji odwrotnej skumulowanego rozkładu


normalnego.
Składnia.

ROZKŁAD.NORMALNY.ODW(prawdopodobieństwo;średnia;odchylenie_std)

Prawdopodobieństwo   jest to prawdopodobieństwo


odpowiadające rozkładowi normalnemu.
Średnia   jest to średnia arytmetyczna rozkładu.
Odchylenie_std   jest to standardowe odchylenie rozkładu

ROZKŁAD.NORMALNY.S.ODW(prawdopodobieństwo)
0.5

0.4

0.3
dnorm( x  1  1)

dnorm( x  2  1)

dnorm( x   3  1)

dnorm( x   4  1)
0.2

0.1

0 0
30 0 30
 30 x 30
1.2
1.2

1.1

0.9

0.8

pnorm( x  0  1) 0.7
pnorm( x  2  1)
0.6
pnorm( x   3  1)

pnorm( x   4  1) 0.5

0.4

0.3

0.2

0.1

0 0
10 8 6 4 2 0 2 4 6 8 10
 10 x 10
1.2

1.1
1
1

0.8

dnorm( x   2  1) 0.6

dnorm( x  0  3)

dnorm( x  2  0.4)

dnorm( x  3  0.8)
0.4

0.2

0 0
10 8 6 4 2 0 2 4 6 8 10
 10 x x x x 10
0
10 8 6 4 2 0 2 4 6 8
x
1.2
1.2

1.1

0.9

0.8

pnorm( x   2  1) 0.7

pnorm( x  0  3)
0.6
pnorm( x  2  0.4)

pnorm( x  3  0.8) 0.5

0.4

0.3

0.2

0.1

0 0
10 8 6 4 2 0 2 4 6 8 10
 10 x x x x 10
Paradoks Bertranda

b) 1/3 c) 1/4
a) 1/2

You might also like