Professional Documents
Culture Documents
W01 Wprowadzenie Rozklady Pstwa
W01 Wprowadzenie Rozklady Pstwa
dominika.kaczorowska@pwr.edu.pl
Podstawowe pojęcia
z rachunku prawdopodobieństwa
rachunek prawdopodobieństwa – możliwość uogólniania wyników
otrzymanych z próby losowej na całą populację generalną
rachunek prawdopodobieństwa stanowi teoretyczną podstawę
wnioskowania statystycznego
Przejście od opisu statystycznego do wnioskowania statystycznego
wymaga rozróżniania używanych pojęć, w zależności od zakresu
przeprowadzonej analizy, a mianowicie:
Podstawowe pojęcia
z rachunku prawdopodobieństwa
Statystyka
opisowa matematyczna
• opis statystyczny • wnioskowanie statystyczne
• cechy zmienne • zmienne losowe
• warianty cech • realizacja zmiennych
• częstości empiryczne • prawdopodobieństwo teoretyczne
• rozkłady empiryczne • rozkłady teoretyczne
• parametry • statystyki
Podstawowe pojęcia
z rachunku prawdopodobieństwa
zmienna losowa - jednoznaczne przyporządkowanie każdemu
zdarzeniu elementarnemu wartości liczbowej.
Zmienne losowe przyjmujące skończoną lub nieskończoną, ale
przeliczalną liczbę wartości nazywamy skokowymi lub dyskretnymi.
W przypadku, gdy możliwe wartości zmiennej losowej tworzą przedział
ze zbioru liczb rzeczywistych - nazywamy ją ciągłą.
Przykładami zmiennej losowej skokowej są: liczba dzieci w rodzinie,
liczba ziaren w kłosie itp., a ciągłej: wzrost, waga, wiek itp.
Podstawowe pojęcia
z rachunku prawdopodobieństwa
ZMIENNA LOSOWA SKOKOWA
Przyjęło się oznaczać zmienne losowe dużymi literami z końca alfabetu,
np. X, Y, Z.
Konkretne wartości przybierane przez te zmienne (zwane realizacjami)
oznacza się odpowiednio małymi literami: x, y, z.
Przyporządkowanie wszystkim możliwym wartościom (realizacjom)
zmiennej losowej X odpowiadających im - sumujących się do jedności -
prawdopodobieństw, określa rozkład zmiennej losowej skokowej.
Podstawowe pojęcia
z rachunku prawdopodobieństwa
ZMIENNA LOSOWA SKOKOWA
Przyporządkowanie to nosi również nazwę funkcji rozkładu
prawdopodobieństwa zmiennej losowej skokowej. Oznaczając przez xi
(i = 1, 2, ..., k) możliwe wartości zmiennej losowej X, jej funkcję
prawdopodobieństwa zapiszemy następująco:
𝑃 𝑋 = 𝑥𝑖 = 𝑝𝑖 (i = 1, 2, …, n)
gdzie: 𝑝𝑖 ≥ 0, σ𝑛𝑖=1 𝑝𝑖 = 1
Podstawowe pojęcia
z rachunku prawdopodobieństwa
Przykładowo, zmienną losową skokową jest liczba oczek otrzymanych w
rzucie kostką do gry. Zbiór wartości przyjmowanych przez tę zmienną
jest skończony i równy 6. Zmienna ta każdą wartość przyjmuje z
jednakowym prawdopodobieństwem. Rozkład prawdopodobieństwa
tej zmiennej można przedstawić tabelarycznie
xi 1 2 3 4 5 6
𝒊=𝟏
1 1 1 1 1 1
pi 1
6 6 6 6 6 6
Podstawowe pojęcia
z rachunku prawdopodobieństwa
Rozkład prawdopodobieństwa zmiennej losowej skokowej można
również przedstawić graficznie za pomocą diagramu.
Na osi odciętych odkłada się wartości przyjmowane przez zmienną
losowa X, a na osi rzędnych - odpowiadające im prawdopodobieństwa.
pi
1
6
xi
0 1 2 3 4 5 6
Podstawowe pojęcia
z rachunku prawdopodobieństwa
Do charakterystyki rozkładu zmiennej losowej można również użyć
dystrybuanty.
Dystrybuantą - oznaczaną symbolem F(x) - nazywamy funkcję
określającą prawdopodobieństwo tego, że zmienna losowa X przyjmie
wartości mniejsze od ustalonego x, czyli:
𝐹 𝑥 = 𝑃 𝑋 < 𝑥 , 𝑥𝜖𝑅
0 𝑑𝑙𝑎 𝑥 < 𝑥1
𝑝1 𝑑𝑙𝑎 𝑥1 < 𝑥 ≤ 𝑥2
𝐹 𝑥 = 𝑝1 + 𝑝2 𝑑𝑙𝑎 𝑥2 < 𝑥 ≤ 𝑥3
… … …
𝑝1 + 𝑝2 + 𝑝𝑛−1 𝑑𝑙𝑎 𝑥𝑛−1 < 𝑥 ≤ 𝑥𝑛
𝑝1 + 𝑝2 + ⋯ + 𝑝𝑛 = 1 𝑑𝑙𝑎 𝑥 > 𝑥𝑛
Podstawowe pojęcia
z rachunku prawdopodobieństwa
Z relacji wynikają następujące własności dystrybuanty zmiennej
losowej skokowej:
1) 0 ≤ F(x) ≤ 1
2) jest funkcją niemalejącą i przedziałami stałą
3) jest funkcją lewostronnie ciągłą
4) lim F x = 0 oraz lim F x = 1
x→−∞ x→∞
5) P a < X ≤ b = P X ≤ b − P X < a = F b − F(a)
Podstawowe pojęcia
z rachunku prawdopodobieństwa
Znając rozkład prawdopodobieństwa zmiennej losowej X można wyznaczyć jej
dystrybuantę i odwrotnie. W doświadczeniu polegającym na rzucie kostką do gry, zapis
dystrybuanty przyjmie postać:
0 𝑑𝑙𝑎 𝑥 < 1
1
𝑑𝑙𝑎 1 < 𝑥 ≤ 2
6
2
𝑑𝑙𝑎 2 < 𝑥 ≤ 3
6
3
𝐹 𝑥 = 𝑑𝑙𝑎 3 < 𝑥 ≤ 4
6
4
𝑑𝑙𝑎 4 < 𝑥 ≤ 5
6
5
𝑑𝑙𝑎 5 < 𝑥 ≤ 6
6
1 𝑑𝑙𝑎 𝑥 > 6
Podstawowe pojęcia
z rachunku prawdopodobieństwa
Graficzny obraz dystrybuanty rozpatrywanej zmiennej losowej
przedstawia rys.
F(x)
1
5
6
4
6
3
6
2
6
1
6
xi
1 2 3 4 5 6
Podstawowe pojęcia
z rachunku prawdopodobieństwa
Znając rozkład prawdopodobieństwa lub dystrybuantę zmiennej
losowej mamy pełną informację o niej.
Niekiedy interesują nas tylko niektóre własności, charakteryzujące
zmienną w sposób syntetyczny.
Tego rodzaju charakterystyki noszą nazwę parametrów rozkładu.
Podstawowymi parametrami rozkładu zmiennej losowej X są: wartość
oczekiwana, wariancja i odchylenie standardowe.
Podstawowe pojęcia
z rachunku prawdopodobieństwa
W przypadku zmiennej losowej skokowej, wartość oczekiwana -
oznaczana symbolem E(X) - dana jest wzorem:
𝑛
𝐸 𝑥 = 𝑥𝑖 𝑝𝑖
𝑖=1
𝐷2 𝑋 = 𝐸 𝑋 2 − 𝐸 𝑋 2 = 𝑥𝑖2 𝑝𝑖 − 𝐸 𝑋 2
𝑖=1
𝐹 𝑥 = 𝑃 𝑋 < 𝑥 = න 𝑓 𝑢 𝑑𝑢
−∞
gdzie f(u) jest funkcją gęstości zmiennej losowej X
Podstawowe pojęcia
z rachunku prawdopodobieństwa
Dystrybuanta jest funkcją ciągłą i spełnia następujące warunki:
1.0 ≤ F(x) ≤ 1,
2. F(x) jest funkcją niemalejącą,
3. lim 𝐹 𝑥 = 0 oraz lim 𝐹 𝑥 = 1
𝑥→−∞ 𝑥→∞
Jeżeli gęstość f(x) zmiennej losowej X jest ciągła, wówczas zachodzi
relacja:
F'(x) = f(x),
gdzie: F'(x) oznacza pochodną dystrybuanty F(x).
Podstawowe pojęcia
z rachunku prawdopodobieństwa
Dla zmiennej losowej ciągłej zachodzi:
P(X-a)=0
oraz
𝑏
න 𝑓 𝑥 𝑑𝑥 = 1
−∞
Podstawowe pojęcia
z rachunku prawdopodobieństwa
mamy więc
∞ 0 4 ∞
1 24
න 𝑓 𝑥 𝑑𝑥 = න 0𝑑𝑥 + න 𝐶𝑥𝑑𝑥 + න 0𝑑𝑥 = 𝐶 𝑥 |0 = 8𝐶 = 1
2
−∞ −∞ 0 4
więc
1
𝐶=
8
Podstawowe pojęcia
z rachunku prawdopodobieństwa
Dystrybuantę wyznaczamy ze wzoru 𝑥
𝐹 𝑥 = 𝑃 𝑋 < 𝑥 = න 𝑓 𝑢 𝑑𝑢
−∞
𝑥 𝑥1 1 2 𝑥 1 2
𝐹 𝑥 = −∞ 𝑓 𝑢 𝑑𝑢 = 0 8 𝑢𝑑𝑢 = 𝑥 |0 = 𝑥 dla 0 < 𝑥 ≤ 4
16 16
𝑢=𝑥
0 𝑑𝑙𝑎 𝑥 ≤ 0
1 2
𝐹 𝑥 = 𝑥 𝑑𝑙𝑎 0 < 𝑥 ≤ 4
16
0 𝑑𝑙𝑎 𝑥 > 4
Podstawowe pojęcia
z rachunku prawdopodobieństwa
Szukane prawdopodobieństwo obliczamy następująco
4 1 3
𝑃 1≤𝑋 ≤2 =𝐹 2 −𝐹 1 = − =
16 16 16
Wartość oczekiwana zmiennej losowej typu ciągłego jest określona
wzorem:
∞
𝐸 𝑋 = න 𝑥𝑓 𝑥 𝑑𝑥
−∞
Wariancja zmiennej losowej ciągłej jest dana wzorem:
2 ∞ 2
𝐷 𝑋 = −∞ 𝑥−𝐸 𝑋 𝑓 𝑥 𝑑𝑥
Podstawowe pojęcia
z rachunku prawdopodobieństwa
Własności wartości oczekiwanej i wariancji zmiennej losowej typu
ciągłego są takie same jak dla zmiennej losowej dyskretnej.
Niech zmienna losowa ciągła X będzie określona dystrybuantą
8
𝐹 𝑋 = ൝ 1 − 𝑥 3 𝑑𝑙𝑎 𝑥 ≥ 2
0 𝑑𝑙𝑎 𝑥 < 2
Naszym zadaniem jest wyznaczenie wartości oczekiwanej i wariancji tej
zmiennej
Jak wynika z wcześniejszych wzorów, do wyznaczenia E(X) oraz D2(X)
niezbędna jest znajomość postaci funkcji gęstości zmiennej losowej X.
Wykorzystujemy wzór: F’(X)=f(x)
Podstawowe pojęcia
z rachunku prawdopodobieństwa
24
𝑓 𝑥 = 𝐹′ 𝑋 = ൝ 𝑥2 𝑑𝑙𝑎 𝑥 ≥ 2
0 𝑑𝑙𝑎 𝑥 < 2
Stąd ∞ ∞ ∞ ∞
24 24 𝑑𝑥
𝐸 𝑋 = න 𝑥𝑓 𝑥 𝑑𝑥 = න 𝑥 4 𝑑𝑥 = න 3 𝑑𝑥 = 24 න 3 = 3
𝑥 𝑥 𝑥
−∞ 2 2 2
∞ ∞
2
24(𝑥 − 3)
𝐷2 𝑋 = න 𝑥 − 𝐸 𝑋 2 𝑓 𝑥 𝑑𝑥 = න 4
𝑑𝑥 = 3
𝑥
−∞ 2
Rozkłady zmiennych
losowych
Rozkłady zmiennych losowych
Rozkład dwumianowy (Bernoulliego)
Rozkład dwumianowy opiera się na tzw. schemat doświadczeń
Bernoulliego.
Rozpatruje się w nim n (n ≥ 2) niezależnych eksperymentów, których
rezultatem może być sukces lub porażka.
Prawdopodobieństwo sukcesu w pojedynczym doświadczeniu wynosi
p, a prawdopodobieństwo porażki 1 - p = q.
Zmienną losową X definiuje się tu jako liczbę uzyskanych sukcesów.
Jest to zatem zmienna losowa skokowa, przyjmująca wartości: k = 0, 1,
2, ..., n.
Rozkłady zmiennych losowych
Rozkład dwumianowy (Bernoulliego)
Prawdopodobieństwo tego, że zmienna losowa X przyjmie wartość k,
wyraża się wzorem:
𝑛 𝑘 𝑛−𝑘
𝑃 𝑋=𝑘 = 𝑝 𝑞
𝑘
𝑛 𝑛!
gdzie: 𝑘 = jest liczbą kombinacji k-elementowych z n-
𝑘! 𝑛−𝑘 !
elementowego zbioru.
Rozkłady zmiennych losowych
Rozkład dwumianowy (Bernoulliego)
Określona wzorem funkcja rozkładu prawdopodobieństwa zmiennej
losowej X nazywana jest rozkładem dwumianowym (binominalnym,
Bernoulliego) z parametrami n oraz p.
Rozkład dwumianowy jest więc rozkładem dwuparametrycznym.
Wartość oczekiwana oraz wariancja zmiennej losowej X o rozkładzie
dwumianowym są odpowiednio równe:
E(X) = np oraz D2(X)=npq
Rozkłady zmiennych losowych
Rozkład dwumianowy (Bernoulliego)
Załóżmy, że zmienna losowa skokowa X ma rozkład dwumianowy z
wartością oczekiwaną 0,5 oraz n = 5. Naszym zadaniem jest obliczenie
prawdopodobieństw: a) P(X = 2), b) P(X ≥ 2).
𝐸(𝑋) 0,5
W rozkładzie dwumianowym E(X)=np. Stąd 𝑝 = = = 0,1
𝑛 5
𝑛
Wykorzystując wzór 𝑃 𝑋 = 𝑘 = 𝑘
𝑝𝑘 𝑞 𝑛−𝑘 mamy
5
a) 𝑃 𝑋 = 2 = 2
0,12 0,93 = 0,0729
b) P(X ≥ 2) = P(X=2) + P(X=3) + P(X=4) + P(X=5) =
0,0729+0,0081+0,00045+0,00001=0,08146
Rozkłady zmiennych losowych
Rozkład Poissona
Jeśli prawdopodobieństwo pojawienia się sukcesu w pojedynczym
doświadczeniu bardzo małe (p ≤ 0,2), a liczba przeprowadzonych
doświadczeń duża (n ≥ 20), to zmienna losowa X określana jako liczba
sukcesów podlega - w przybliżeniu - rozkładowi Poissona. Zmienna
losowa X ma rozkład Poissona, jeżeli:
λ𝑘 −λ
𝑃 𝑋=𝑘 = 𝑒 k = 0, 1, 2, …, n
𝑘!
gdzie λ=np. to jednocześnie wartość oczekiwana i wariancja tego
rozkładu, e zaś jest podstawą logarytmów naturalnych (e=2,718).
Rozkład Poissona zależy zatem od jednego parametru λ
Rozkłady zmiennych losowych
Rozkład Poissona
Załóżmy, że centrala telefoniczna w malej firmie obsługuje 100
abonentów. Prawdopodobieństwo tego, że abonent zgłosi się do
centrali w ciągu godziny, jest równe 0,02.
Obliczyć prawdopodobieństwo tego, że w ciągu godziny będą co
najmniej cztery zgłoszenia.
Zmienną losową X jest tu liczba abonentów zgłaszających się do centrali
w ciągu godziny. Zmienna ta ma rozkład Poissona z λ = 2 (λ = np
=100·0,02 = 2). Szukane prawdopodobieństwo wynosi zatem:
𝑃 𝑋 ≥4 =1− 𝑃 𝑋 =0 +𝑃 𝑋 =1 +𝑃 𝑋 =2 +𝑃 𝑋 =3
20 −2 21 −2 22 −2 23 −2
=1− 𝑒 + 𝑒 + 𝑒 + 𝑒
0! 1! 2! 3!
= 1 – (0,1353 + 0,2707 + 0,2707 + 0,1804) = 0,1429
Rozkłady zmiennych losowych
Rozkład normalny
Kluczową rolę w statystyce matematycznej odgrywa rozkład normalny,
zwany także rozkładem Gaussa-Laplace’a.
Jego znaczenie wynika przede wszystkim stąd, że przy nieograniczonym
wzroście liczby niezależnych doświadczeń, wszystkie rozkłady
teoretyczne (zarówno zmiennych losowych, jak i ciągłych) są szybko
zbieżne do rozkładu normalnego.
Ponadto we wnioskowaniu statystycznym opartym na wynikach badań
prób losowych popełniane są błędy, których rozkład jest normalny lub
granicznie normalny.
Rozkłady zmiennych losowych
Rozkład normalny
Zmienna losowa ciągła X ma rozkład normalny, jeśli jej funkcja gęstości
prawdopodobieństwa ma postać:
1 −(𝑥−𝑚)2
𝑓 𝑥 = 𝑒 2𝜎2 , 𝑥𝜖𝑅 , 𝜎 > 0
𝜎 2𝜋
gdzie: m = E(X), σ = D(X), π = 3,14, e = 2,718
Rozkłady zmiennych losowych
Rozkład normalny
Rozkład normalny charakteryzują dwa parametry: m i σ, które są
odpowiednio wartością oczekiwaną i odchyleniem standardowym.
Dla zmiennej losowej X o rozkładzie normalnym z parametrem m i σ
stosuje się oznaczenie N(m,σ).
Tak więc zapis N(2;0,5) oznacza, że zmienna losowa X ma rozkład
normalny o średniej 2 i odchyleniu standardowym 0,5.
Wykres funkcji gęstości prawdopodobieństwa zmiennej losowej X nosi
nazwę krzywej normalnej lub krzywej Gaussa-Laplace'a
Rozkłady zmiennych losowych
Rozkład normalny
Rozkłady zmiennych losowych
Rozkład normalny
Z rysunku wynika, że parametr m rozkładu normalnego przesuwa
krzywą wzdłuż osi odciętych, a parametr σ powoduje, że krzywa staje
się bardziej spłaszczona lub wysmukła. Im mniejsza jest wartość σ, tym
bardziej rozkład jest skupiony wokół wartości oczekiwanej E(X) = m.
Dystrybuanta rozkładu normalnego określona jest wzorem:
𝑥
1 −(𝑡−𝑚)2
𝐹 𝑋 = න 𝑒 2𝜎2 𝑑𝑡
𝜎 2𝜋
−∞
Rozkłady zmiennych losowych
Rozkład normalny
Wykorzystywanie dystrybuanty do obliczania prawdopodobieństw
natrafia na trudności rachunkowe. Dla uniknięcia tego mankamentu
stosuje się przekształcenie zwane standaryzacją. Jeśli zmienna losowa
ciągła X ma rozkład normalny N(m, σ), to zmienna standaryzowana Z
ma postać:
𝑋−𝑚
𝑍=
𝜎
Zmienna losowa Z ma standaryzowany rozkład normalny określony
całkowicie przez dwa parametry: wartość oczekiwaną E(Z) = 0 oraz
wariancję i odchylenie standardowe D²(Z) = D(Z) = 1, co zapisujemy w
skrócie: N(0,1). Wartości funkcji gęstości prawdopodobieństwa i
dystrybuanty rozkładu N(0,1) są stablicowane.
Rozkłady zmiennych losowych
Rozkład normalny
Niech wzrost populacji mężczyzn ma rozkład normalny N(172;6).
Naszym zadaniem jest obliczenie prawdopodobieństwa tego, że wzrost
przypadkowo wybranego mężczyzny będzie zawarty między 190 cm a
200 cm.
Jeśli zmienna losowa X ma rozkład N(m, σ), to:
P(x1 < X < x₂)=P(z₁ < Z < z₂) = F(z₂) - F(z₁).
Interesuje nas prawdopodobieństwo będące różnicą dystrybuant
standaryzowanych wartości cechy. Wartości standaryzowanej zmiennej
losowej są równe:
190−172 200−172
𝑧1 = = 3 oraz 𝑧2 = = 4,67
6 6
Rozkłady zmiennych losowych
Rozkład normalny
Z tablic dystrybuanty rozkładu normalnego N(0,1) odczytujemy: F(z1) =
F(3) = 0,9987 oraz F(z2) = F(4,67) = 1. Prawdopodobieństwo tego, że
wzrost przypadkowo wybranego mężczyzny będzie zawarty w
przedziale 190 cm a 200 cm, wynosi:
P(100 < X < 200) = P(z1 < Z < z2)=F(z2)-F(z1)=1 - 0,9987 = 0,0013
Oznacza to, że 13 mężczyzn spośród 10 000 ma wzrost z interesującego
nas przedziału.
Rozkłady zmiennych losowych
Rozkład normalny
Jeśli zmienna losowa ciągła X ma rozkład normalny, to ok. 68% jej
realizacji mieści się w granicach jednego odchylenia standardowego od
średniej, ok. 95% - w granicach dwóch odchyleń standardowych od
średniej oraz ok. 99,73% - w granicach trzech odchyleń standardowych,
gdyż:
P(m-σ < X < m+σ)=P(-1< Z< 1) = F(1) - F(-1) = 0,8413 - 0,1587 = 0,6826;
P(m-2σ < X < m +2σ) = P(-2< Z< 2) = F(2) - F(-2)=0,97725 -0,2275 =
0,99545;
P(m-3σ < X < m+3σ)=P(-3< Z< 3) = F(3) - F(-3) = 0,99865 - 0,00135 =
0,9973.
Rozkłady zmiennych losowych
Rozkład normalny
Tak więc niemal wszystkie realizacje zmiennej losowej ciągłej zawierają
się w granicach trzech odchyleń standardowych od średniej.
W statystyce własność ta nosi nazwę reguły trzech sigm.
Reguła ta jest często wykorzystywana do eliminacji obserwacji
nietypowych.
Za obserwacje nietypowe uznaje się te, których wartość różni się od
średniej o więcej niż 3 odchylenia standardowe.
Rozkłady zmiennych losowych
Rozkład normalny
TWIERDZENIE 1
Jeżeli zmienne losowe X1, X2, …, Xn są niezależne i zmienna losowa Xi dla
i = 1, 2, …, n ma rozkład N(mi, σi), to zmienna losowa Y = X1 + X2 + … + Xn
ma rozkład
𝑁 𝑚1 + 𝑚2 + ⋯ + 𝑚𝑛 , 𝜎12 + 𝜎22 + ⋯ + 𝜎𝑛2