Statystyka Matematyczna: 2. Zmienne Losowe I Teoria Prawdopodobieństwa

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 34

STATYSTYKA MATEMATYCZNA

1. Wykład wstępny
2. Zmienne losowe i teoria prawdopodobieństwa
3. Populacje i próby danych
4. Testowanie hipotez i estymacja parametrów
5. Najczęściej wykorzystywane testy statystyczne I
6. Najczęściej wykorzystywane testy statystyczne II
7. Regresja liniowa
8. Regresja nieliniowa
9. Określenie jakości dopasowania równania regresji liniowej i nieliniowej
10. Korelacja
11. Elementy statystycznego modelowania danych
12. Porównywanie modeli
13. Analiza wariancji
14. Analiza kowariancji
15. Podsumowanie dotychczasowego materiału, wspólna analiza przykładów, dyskusja
wstęp

1. Zmienna losowa

2. Funkcja gęstości prawdopodobieństwa

3. Dystrybuanta

4. Statystyki opisowe

5. Przykładowe rozkłady

Copyright ©2020, Joanna Szyda


zmienna losowa
zmienna losowa random variable

zmienna → funkcja, przyjmuje różne wartości

losowa → wartości są określone przez przypadek

zmienna losowa → X

konkretna wartość (realizacja) → x

zmienna losowa dyskretna → wartości przeliczalne

→ pomiar w skali nominalnej (brak uporządkowania) np.?

→ pomiar w skali porządkowej (uporządkowanej) np.?

zmienna losowa ciągła → dowolne wartości z przedziału ±∞


Copyright ©2021, Joanna Szyda
zmienna losowa random variable

zmienna losowa dyskretna zmienna losowa ciągła

• liczba szczeniąt w miocie • wysokość konia w kłębie


X W
• X=x czyli X=7 • W=w czyli W=167
• X  { 1, 2, 3, 4, 5, 6, 7, 8, 9 } • W  [ 150, 190 ]
Copyright ©2020, Joanna Szyda
funkcja (gęstości) prawdopodobieństwa
funkcja (gęstości) prawdopodobieństwa probability (density) function

zmienna losowa dyskretna zmienna losowa ciągła

• funkcja prawdopodobieństwa • funkcja gęstości prawdopodobieństwa


• jakie jest prawdopodobieństwo • jakie jest prawdopodobieństwo uzyskania
uzyskania danej wartości wartości z danego przedziału
• X  { 1, 2, 3, 4, 5, 6, 7, 8, 9 } • W  [ 150, 190 ]
• P(X=xi) • f(w)
• np. urodzenie 5 szczeniąt: • np. wys. w kłębie  [160,165]
P(X=5)
165

 f (w)dw = 0.12
160 Copyright ©2020, Joanna Szyda
funkcja (gęstości) prawdopodobieństwa probability (density) function

zmienna losowa dyskretna zmienna losowa ciągła

9
0.25  P( X = xi ) = 1 +

0.20
i =1  f (w)dw = 1
−

f (w)
0.15
P(X=x)

0.10

0.05

0.00
1 2 3 4 5 6 7 8 9
liczba szczeniąt x wysokość w kłębie w

Copyright ©2020, Joanna Szyda


funkcja (gęstości) prawdopodobieństwa probability (density) function

zmienna losowa dyskretna zmienna losowa ciągła

f (w,z)
w
P(x,y)

y
z
x

prawdopodobieństwo
łączne, warunkowe
Copyright ©2020, Joanna Szyda
dystrybuanta
dystrybuanta cumulative distribution function

zmienna losowa dyskretna zmienna losowa ciągła

• dystrybuanta • dystrybuanta
• jakie jest prawdopodobieństwo • jakie jest prawdopodobieństwo
uzyskania wartości mniejszej lub uzyskania wartości mniejszej lub
równej x równej w
• X  { 1, 2, 3, 4, 5, 6, 7, 8, 9 } • W  [ 150, 190 ]
w
• F(x) = P(Xx) •F (w) =  f (w)dw
−
• np. urodzenie maksymalnie 5 • np. maksymalna wys. w kłębie 170
szczeniąt
170
F(5)=P(X5)=0.40 F (170 ) =  f (w)dw = 0.69
−
Copyright ©2020, Joanna Szyda
dystrybuanta cumulative distribution function

zmienna losowa dyskretna zmienna losowa ciągła

F (w →  ) = 1
9
1.50
 P( X = x ) = 1
i =1
i

1.00
P(X≤x)

F (w)
0.50

0.00
1 2 3 4 5 6 7 8 9
maks. liczba szczeniąt x wysokość w kłębie w

Copyright ©2021, Joanna Szyda


dystrybuanta cumulative distribution function

zmienna losowa dyskretna

• prawdopodobieństwo urodzenia 1 szczeniaka:


F(1)=P(X1)=0.03 1.20

1.00
• prawdopodobieństwo urodzenia maksymalnie
9 szczeniaków: 0.80

P(Xx)
F(9)=P(X9)=1 0.60

• prawdopodobieństwo urodzenia maksymalnie 0.40

3 szczeniaków: 0.20

F(3)=P(X3)=0.03+0.04+0.06 0.00
1 2 3 4 5 6 7 8 9
• prawdopodobieństwo urodzenia 4 lub 5 maks. liczba szczeniąt x
szczeniaków:
F(5)-F(3)
Copyright ©2020, Joanna Szyda
dystrybuanta cumulative distribution function

zmienna losowa ciągła

• prawdopodobieństwo wystąpienia osobnika


o wysokości w kłębie maksymalnie 150 cm:
F(150)=P(W150)=0.11
• prawdopodobieństwo wystąpienia osobnika

F (w)
o wysokości w kłębie maksymalnie 190 cm:
F(190)=P(W190)≈1.00
• prawdopodobieństwo wystąpienia osobnika
o wysokości w kłębie 160-170 cm:
F(170)-F(160)=0.32
wysokość w kłębie w
• prawdopodobieństwo wystąpienia osobnika
o wysokości w kłębie powyżej 165 cm:
1-F(165)=0.62
Copyright ©2022, Joanna Szyda
STATYSTYKI OPISOWE
wartość oczekiwana i wariancja

wartość oczekiwana wariancja

• przebieg funkcji
• kształt rozkładu funkcji
(gęstości)
prawdopodobieństwa

mediana
modalna

Copyright ©2022, Joanna Szyda


wartość oczekiwana expected value
Wartość oczekiwana (średnia)
• E(X)
• liczba, wokół której skupiają się poszczególne wartości X
• wartość średnia

zmienna losowa dyskretna zmienna losowa ciągła

• E(X)=5.72 szczeniąt → liczba • E(W)=167 cm → większość


urodzonych szczeniąt jest bliska 5 koni ma wys. w kłębie 167 cm
9
• E ( X ) =  pi xi +
i =1 • E (W ) =  wf (w)dw
−
• E(X)= 0.03·1 + 0.04·2 + 0.06·3 +
0.10·4 + 0.17·5 + 0.22·6 +
0.23·7 + 0.10·8 + 0.05·9
Copyright ©2022, Joanna Szyda
wariancja variance

Wariancja
→ V(X), Var(X),  X2
→ liczba określająca rozproszenie wartości zmiennej wokół wartości oczekiwanej
→ odchylenie standardowe, V ( X ),  X , s.d .( X )

zmienna losowa dyskretna zmienna losowa ciągła

V ( X ) = E X − E ( X ) V (W ) = E W − E (W )
2 2

Copyright ©2022, Joanna Szyda


zmienna standaryzowana Z-score

standaryzacja zmiennej X

X − E(X )
Z=
V (X )

• Z i X maja taki sam kształt rozkłądu


• Różnice:
― E(X)=n E(Z)=0
― Var(X)=m Var(Z) = 1
Copyright ©2022, Joanna Szyda
momenty

Momenty rozkładu

• n-ty moment

• n-ty moment centralny

• 1szy moment • wartość oczekiwana

• 2gi moment centralny • wariancja

• 3ci moment centralny • skośność

• 4ty moment centralny • kurtoza

Copyright ©2022, Joanna Szyda


mediana median

Mediana → x
~
→ liczba, która dzieli funkcję gęstości na połowy
→ mniej zależna od odstających obserwacji niż śr.

zmienna losowa dyskretna zmienna losowa ciągła

• P(X  m)  ½ i P(X  m)  ½ • f(w)=½


0.30

0.20

f (w)
P(X=x)

0.10

0.00
1 2 3 4 5 6 7 8 9
liczba szczeniąt x wysokość w kłębie w
Copyright ©2022, Joanna Szyda
modalna mode
Modalna → liczba, która występuje najczęściej
→ może istnieć więcej niż jedna modalna
→ może nie być wartości modalnej

zmienna losowa dyskretna zmienna losowa ciągła


• wartość x o najwyższym • wartość w dla której f(w) jest
prawdopodobieństwie najwyższe
0.25

0.20

f (w)
P(X=x)

0.15

0.10

0.05

0.00
1 2 3 4 5 6 7 8 9

liczba szczeniąt x wysokość w kłębie w


Copyright ©2022, Joanna Szyda
statystyki opisowe

w. oczekiwana
modalna
mediana

rozkład symetryczny

1 2 3 4 5 6 7 modalna

mediana

w. oczekiwana

rozkład skośny
1 2 3 4 5 6 7

Copyright ©2022, Joanna Szyda


statystyki opisowe

1 2 3 4 5 6 7 duża wariancja

1 2 3 4 5 6 7 mała wariancja
Copyright ©2022, Joanna Szyda
STATYSTYKI OPISOWE

5 number data summary

Copyright ©2020, Joanna Szyda


STATYSTYKI OPISOWE

wykres pudełkowy box plot

maksimum

3 kwartyl:
75% danych
mediana:
50% danych
1 kwartyl:
25% danych

minimum

obserwacja odstająca
Copyright ©2020, Joanna Szyda
STATYSTYKI OPISOWE

https://www.khanacademy.org/math/probability/random-variables-
topic/random_variables_prob_dist/v/probability-density-functions

Copyright ©2020, Joanna Szyda


PRZYKŁADOWE ROZKŁADY
ROZKŁAD NORMALNY

1 1 𝑥−𝜇 2

𝑓 𝑥 = 𝑒 𝜎2
2
𝜎 2𝜋

𝑥 ∈ −∞, +∞

𝑁 𝜇, 𝜎 2

E(x) = mediana = modalna

• Bardzo często spotykany w danych biologicznych


• Np. wydajność mleka
• Np. masa ciała prosięcia w 4 tygodniu życia

Copyright ©2021, Joanna Szyda


rozkład t Studenta
William Gosset
𝑘+1 𝑘+1
pseudonim „student” Γ 𝑥2

2
2
𝑓 𝑥 = 1+
𝑘 𝑘
𝑘𝜋Γ 2

𝑥 ∈ −∞, +∞

𝑡𝑘

𝐸 𝑥 =0

𝑘
𝑉𝑎𝑟 𝑥 =
𝑘−2
• Kształt zależny od stopni swobody
• Dla wielu stopni swobody zbliżony do rozkładu normalnego
www.geo.fu-berlin.de/en/v/soga/Basics-of-statistics Hartmann, K., Krois, J., Waske, B. (2018): E-Learning Project SOGA: Statistics and Geospatial Data Analysis. Department of Earth Sciences, Freie Universitaet Berlin. Copyright ©2022, Joanna Szyda
rozkład 2

𝑘
𝑥 2−1 −
𝑥
𝑓 𝑥 = 𝑘 𝑒 2
𝑘
22 Γ 2

𝑥 ∈ 0, +∞

𝜒𝑘2

𝐸 𝑥 =𝑘

𝑉𝑎𝑟 𝑥 = 2𝑘
• Skośny
• Kształt zależny od liczby stopni swobody

www.geo.fu-berlin.de/en/v/soga/Basics-of-statistics Hartmann, K., Krois, J., Waske, B. (2018): E-Learning Project SOGA: Statistics and Geospatial Data Analysis. Department of Earth Sciences, Freie Universitaet Berlin. Copyright ©2022, Joanna Szyda
ROZKŁAD DWUMIANOWY

n x
f ( x ) =   p (1 − p )
n− x

 x
x  [0, n]
E ( x ) = np
Var ( x ) = np(1 − p )

• Liczba "sukcesów" (x) w n próbach


• Np. liczba urodzonych ogierków w 10 wyźrebieniach
• Dla dużej liczby prób kształt zbliżony do rozkładu normalnego

Copyright ©2020, Joanna Szyda


ROZKŁAD POISSONA

x
f (x ) = e −
x!
x  [0, n]
E (x ) = 
Var ( x ) = 
• Liczba "sukcesów" (x) w danym przedziale czasu
• np. liczba odchowanych prosiąt w 2 tyg. po urodzeniu
• Przykład: http://www.youtube.com/watch?v=Fk02TW6reiA
Copyright ©2020, Joanna Szyda
1. Zmienna losowa

2. Funkcja gęstości prawdopodobieństwa

3. Dystrybuanta

4. Statystyki opisowe

5. Przykładowe rozkłady

You might also like