Download as pdf or txt
Download as pdf or txt
You are on page 1of 49

STATYSTYKA

Plan wykładu cz. I Statystyka:

1.Wprowadzenie do statystyki. Analiza struktury zjawisk.


2.Badanie zależności między zmiennymi.
3.Analiza dynamiki zjawisk, indeksy indywidualne i agregatowe.
Literatura

 M. Sobczyk: Statystyka, PWN, Warszawa (dowolne wydanie).


 J. Józwiak, J. Podgórski: Statystyka od podstaw, PWE, Warszawa (dowolne wydanie).
 M. Balcerowicz-Szkutnik, W. Szkutnik, E. Sojka: Wnioskowanie statystyczne w
przykładach i zadaniach, UE Katowice 2016.
 G. Trzpiot, G. Kończak: Metody statystyczne z wykorzystaniem programów
komputerowych, AE Katowice, 2004.
 G. Trzpiot, G. Kończak: Statystyka opisowa i matematyczna z arkuszem kalkulacyjnym Excel,
AE, Katowice.
 J. Czempas: Podstawy statystyki, Dąbrowa Górnicza 2000.
 M. Balcerowicz-Szkutnik, W. Szkutnik: Podstawy statystyki w przykładach i zadaniach,
Śląska Wyższa Szkoła Zarządzania Katowice, 2006.
STATYSTYKA – to nauka, która zajmuje się metodami
zbierania, opracowywania, prezentacji i analizy
danych o zjawiskach masowych. Podstawowym
zadaniem statystyki jest badanie prawidłowości
zachodzących w zjawiskach masowych.

ETAPY BADANIA STATYSTYCZNEGO:

I. PLANOWANIE BADANIA

II. OBSERWACJA STATYSTYCZNA

III. OPRACOWANIE I PREZENTACJA


MATERIAŁU STATYSTYCZNEGO

IV. OPIS I WNIOSKOWANIE STATYSTYCZNE


I. PLANOWANIE BADANIA

Planując badanie statystyczne należy określić:


- Cel badania
- Przedmiot badania
- Zakres badania

Przedmiot badania – to pewna zbiorowość statystyczna


(populacja generalna).
Populacja generalna – to zbiór elementów (przedmiotów,
osób fizycznych lub prawnych) posiadających wiele cech
wspólnych i przynajmniej jedną cechę rozróżniającą
elementy tego zbioru pomiędzy sobą.

Jednostka statystyczna – dowolny element populacji.


Przykład 1.
Badamy wydatki gospodarstw domowych w Katowicach na
lekarstwa w lutym 2020 roku celem zdiagnozowania
kondycji zdrowotnej tych gospodarstw.

Zbiorowość:
Jednostka statystyczna:
• Przykład 2.
Badamy czas rozwiązywania testu ze statystyki przez
studentów UE celem zdiagnozowania czasu
niezbędnego do rozwiązania całego testu.

Zbiorowość:
Jednostka statystyczna:
Zakres badania

- Badanie pełne – polega na tym, że badaniu podlega


zbiorowość statystyczna związana z celem badania
(rejestracje [urodzenia, zgony], spisy [spisy ludności, spisy
rolne, inwentarzowe]). Badanie pełne jest badaniem bardzo
kosztownym.

- Badanie częściowe – polega na tym, że badaniu podlega


wybrana część zbiorowości statystycznej (nazywana próbą
statystyczną).
Sposoby losowania próby:

- Dobór celowy elementów do próby wykorzystujemy w


badaniach, które mają na celu porównywanie stanu
bieżącego z poprzednim [np. badamy i porównujemy
sprzedaż]
- Dobór losowy elementów do próby stosujemy wówczas,
gdy chcemy zebrać nowe informacje o przedmiocie
badania.
Losowanie indywidualne
Losowanie zespołowe
Losowanie warstwowe

Próba reprezentatywna – jest to taka próba, której


elementy odzwierciedlają strukturę jednostek w populacji.
II. OBSERWACJA STATYSTYCZNA

W tym etapie badania statystycznego określamy jakie cechy


będą podlegać badaniom, w jakich skalach będą
przeprowadzane, jakie badanie przeprowadzimy (ankieta czy
źródła wtórne), kontrola zebranego materiału (kontrola
merytoryczna ankiet, sprawdzenie czy nie ma braków
odpowiedzi).
CECHY STATYSTYCZNE
STAŁE ZMIENNE
Rzeczowe Ilościowe:
Czasowe •Skokowe
•Ciągłe
Przestrzenne Jakościowe
Cechy stałe – są to cechy, które nie podlegają badaniom
(cechy wspólne dążą do identyfikacji danej jednostki
statystycznej ze zbiorowością statystyczną),
np. badamy rolników pod wzg. źródła utrzymania – praca
na roli; albo status bycia studentem

Cechą zmienną nazywamy każdą właściwość ze względu


na którą badamy zbiorowość. Wyróżniamy cechy:
- jakościowe – których wartości nie można wyrazić za
pomocą liczb, jedynie słownie np. płeć, wykształcenie;
- ilościowe skokowe – liczby całkowite np. liczba dzieci w
rodzinie, wielkość sprzedaży w szt., liczba zdanych
egzaminów;
- ilościowe ciągłe – dowolna liczba rzeczywista np.
miesięczne wynagrodzenie w tys zł, wzrost, wiek.
SKALE STATYSTYCZNE

Nominalna – dla cech jakościowych, skala stosująca


wyłącznie opis słowny, pozwala na klasyfikację wartości
badanej cechy na pewne podzbiory np. płeć.

Porządkowa – stosowana jest głównie dla cech


jakościowych, skala służąca do porządkowania danych np.
wykształcenie.

Przedziałowa (interwałowa) – stosowana dla cech


ilościowych, skala nie ma stałego zera, przedziały mają
ustaloną długość np. skale temperaturowe.

Stosunkowa (proporcjonalna, ilorazowa) – charakteryzuje


się tym, że przedziały mają ustaloną długość.
Cechy mierzalne – to cechy, które można zmierzyć,
wyrażane w różnych jednostkach np. w szt., w tonach, w
euro, opisane są na skali interwałowej lub ilorazowej.

Cechy niemierzalne – to cechy, które nie można zmierzyć,


można jedynie stwierdzić, który z wariantów cechy
występuje u danej jednostki, np. płeć, zawód. Liczba
wariantów cechy niemierzalnej jest skończona. Cechy
opisane są w skali nominalnej lub porządkowej.
Przykład:
Dane są informacje dotyczące pracowników naukowo-dydaktycznych
na UE w Katowicach:

Pracownik Specjalność Płeć Wiek Stanowisko

A Gospodarka K 45 profesor
przestrzenna
B Architektura M 32 adiunkt

C Wzornictwo M 41 adiunkt

D Budownictwo M 52 profesor

E Grafika K 28 asystent
III. OPRACOWANIE I PREZENTACJA
MATERIAŁU STATYSTYCZNEGO

Zebrany materiał statystyczny można przedstawić:


- w postaci szeregu statystycznego;
- w postaci tablic statystycznych;
- w postaci wykresów statystycznych.

Tablica statystyczna – jest to struktura zawierająca więcej


niż jeden szereg statystyczny.

Wykresy statystyczne:
- wykres słupkowy
- histogram
- diagram
- wielobok liczebności
- krzywa liczebności.
SZEREGI STATYSTYCZNE
1. Szeregi szczegółowe xi ; 13, 20, 4, 5, 5, 7, 10, 9, 14, 5
(wyliczające)
2.Szeregi rozdzielcze Szereg rozdz. punktowy
(strukturalne) xi – cecha, ni – liczebność cechy
- dla cechy mierzalnej xi ni
(ilościowej) 2 3
* punktowe 3 3
* przedziałowe 8 2
-dla cechy niemierzalnej Szereg rozdzielczy przedziałowy
(jakościowej) xi ni
0-2 3
2-6 3
6-12 2
3. Szeregi czasowe ti - czas
(dynamiczne) yi - wartość badanej cechy
* momentów obrazują ti yi
poziom zjawiska dla 2006 50
wybranego punktu czasowego
( w dniu, o godzinie 2007 56
np.codzienny kurs walut) 2008 53
* okresów, poziom zjawiska 2009 60
za pewien okres (za rok, za
dany kwartał, za pierwsze
półrocze)
IV. OPIS I WNIOSKOWANIE STATYSTYCZNE

Opis statystyczny – dotyczy wyników z wylosowanej


próby statystycznej, jest to wartość badanych cech na
podstawie próby statystycznej.
Statystyka opisowa
- Analiza struktury zbiorowości
- Analiza współzależności cech
- Analiza zmian zjawisk w czasie

Wnioskowanie statystyczne - to przenoszenie wyników


badań z próby na populację statystyczną .
Metody:
- estymacja parametrów populacji
- weryfikacja hipotez statystycznych.
Przykład.
Badano pracowników pod względem wieku, dane uzyskano
z kartotek pracowniczych.

• Dane:
18 50 37 21 48 35 19 27 59 31
29 44 50 21 48 31 20 29 57 57

• Dane uporządkowane:
18 19 20 21 21 27 29 29 31 31 35
37 44 48 48 50 50 57 57 59
Rozkład wieku pracowników
wiek Liczba
zatrudnionych
18 1 2,5

19 1 2

20 1 1,5

21 2 1

27 1 0,5

29 2 0

31 2
35 1
Liczba zatrudnionych
37 1 18 19 20 21 27 29 31 35 37 44 48
44 1 50 57 59
48 2
50 2
57 2
59 1
Tabela 1.
Częstości absolutne, względne i procentowe
10
wiek ni wi w Sku 8

% mul 6
4
. wi
2
0-20 3 0,15 15 15 0
ni

0-20 20-40 40-60


20-40 9 0,45 45 60 15%

40-60 8 0,40 40 100 40%

suma 20 1,00 100

45%
0-20 20-40 40-60
Liczebność względna (udział procentowy)

xi ni wi
1-3 10 10% lub 0,1
3-6 30 30%
6-9 40 40%
9-12 20 20%

suma 100
Miary

Przeciętne Koncentracji
Zróżnicowania Asymetrii
(średnie) Kurtoza
(rozproszenia)

Klasyczne Pozycyjne Klasyczne Pozycyjne Klasyczne Pozycyjne

współczynnik współczynnik
klasyczny γ3 pozycyjny AQ
(gamma 3)
-dominanta D -wariancja S2 -odchylenie <-1;1>
<-2;2>
ćwiartkowe Q
-kwartyle: -odchylenie
kwartyl pierwszy standardowe S -współczynnik
Q1 zmienności VQ
-współczynnik współczynnik skośności Pearsona
kwartyl drugi Q2 zmienności Vs
=Me As
kwartyl trzeci Q3 <-1;1>
ANALIZA STRUKTURY ZBIOROWOŚCI
Do opisu zbiorowości statystycznej służą parametry statystyczne.
Parametry dzielimy na:
- miary przeciętne
- miary zmienności
- miary asymetrii
- miary koncentracji.
MIARY POZIOMU PRZECIĘTNEGO
KLASYCZNE POZYCYJNE

-Średnia -Dominanta (moda, modalna)


arytmetyczna -Kwantyle
-Średnia *kwartyl pierwszy Q1
geometryczna *kwartyl drugi Q2 ,mediana Me
-Średnia harmoniczna *kwartyl trzeci Q3
Średnia arytmetyczna dla szeregu wyliczającego:
n

x =
x
i 1
i

n
Średnia arytmet. dla szeregu rozdzielczego punktowego:
n

x = 
xi ni
i 1
n
gdzie: n – suma liczebności ni
ni – liczebność i-tej wartości cechy.
Średnia arytmet. dla szeregu rozdzielczego przedziałowego:
n

=  xˆ n
i 1
i i

x n
gdzie: n – suma liczebności ni ; ni – liczebność i-tej wartości
cechy;
xi^ środek i-tego przedziału.
Własności średniej arytmetycznej:
- jest wypadkową wartości wszystkich obserwacji z próby;

- suma odchyleń (różnic) wartości cechy od średniej jest


równa zero

(x  x ) =
i
i 0

- powiększenie wszystkich wartości w próbie o pewną stałą


powiększy średnią arytmetyczną o tą stałą

- suma wartości zmiennej równa jest iloczynowi średniej


arytmetycznej i liczebności próby

-na poziom średniej silny wpływ mają wartości ekstremalne.


MIARY POZYCYJNE
Dominanta – wartość cechy, która występuje w próbie
najczęściej.
Np. 2; 4; 5; 4; 8; 7; 10; 4; 6; 11 D=

Dominanta dla szeregu rozdzielczego przedziałowego


(przedziały klasowe są jednakowej rozpiętości):

n n
Dx  D D 1
*  xD
(n  n )  (n  n
D
D D 1 D
)
D 1
gdzie: xD – początek przedziału dominanty;
nD – liczebność przedziału dominanty;
nD-1 – liczebność przedziału poprzedzającego
przedział dominanty;
nD+1 – liczebność przedziału następnego po
przedziale dominanty;
Δ xD – rozpiętość przedziału dominanty.
Dominanta dla szeregu rozdzielczego przedziałowego
(przedziały klasowe nie są jednakowej rozpiętości):

wyliczamy gęstość : n
g  i
i x i

gdzie: ni – liczebność i-tego przedziału;


Δ xi – rozpiętość i-tego przedziału.

I wówczas dominantę obliczamy ze wzoru:


g g
Dx  D D 1
*  xD
(g  g )  (g  g
D
)
D D 1 D D 1
MEDIANA – (wartość środkowa) jest to wartość cechy,
która dzieli próbę na dwie części w taki sposób, że połowa
wartości jest nie większa oraz połowa wartości jest nie
mniejsza od mediany.

Kwartyle dla szeregu rozdzielczego przedziałowego:


0,5 N  cumni 1
Q2 = Me = xMe + ΔxMe
n Me

0,25N  cumni 1
Q1 = xQ1 + ΔxQ1
nQ1

0,75N  cumni 1
Q3 = xQ3 + ΔxQ3
n Q3
MIARY ZMIENNOŚCI (zróżnicowania)
KLASYCZNE POZYCYJNE

- wariancja S2 - odchylenie ćwiartkowe Q

- odchylenie standardowe S - współczynnik zmienności VQ

- współczynnik zmienności VS
Wariancja dla szeregu wyliczającego:
N

(x) =  xi x
 2
S2 ( )
i 1

Wariancja dla szeregu rozdzielczego punktowego:


N

S2 (x) =  xi x  ni
(
i 1
 ) 2

Wariancja dla szeregu rozdzielczego przedziałowego:


N
S2 (x) =  xˆi x  ni
(
i 1
 ) 2

N
Wariancja nie ma interpretacji merytorycznej.
Należy obliczyć pierwiastek z wariancji – czyli odchylenie
standardowe, które mówi o odchyleniu wartości badanej
cechy od wartości przeciętnej (średniej).

Odchylenie standardowe to pierwiastek z wariancji:


2
S(x) = S ( x)
Im większe wartości wariancji (odchylenia standardowego)
tym większe zróżnicowanie wartości w próbie.
Współczynnik zmienności:

Vs (x) = S ( x)  100%
x
Współczynnik zmienności używany jest do porównań cech
statystycznych, zbiorowości.

Przyjmuje się, że jeżeli współczynnik zmienności nie


przekracza 10% to cechy wykazują zróżnicowanie
statystycznie nieistotne.
Odchylenie ćwiartkowe:
Q Q
Q= 3 1

2
Mierzy poziom zróżnicowania tylko części jednostek,
pozostałej po odrzuceniu 25% jednostek o wartościach
najmniejszych i 25% jednostek o wartościach największych.

Odchylenie ćwiartkowe określa odchylenie wartości cechy


od mediany.

Współczynnik zmienności (pozycyjny):

Q
VQ (x) =  100%
Me
Typowy obszar zmienności:
To obszar w którym
miary klasyczne: mieści się około 67%
wszystkich jednostek
badanej zbiorowości

x  S ( x)  Xtyp  x  S ( x)

miary pozycyjne:

Me  Q  Xtyp  Me  Q
Jeżeli całą zbiorowość podzielimy według
określonych kryteriów na r grup , to wariancja
dla całej zbiorowości, tzw. wariancja ogólna,
będzie suma dwóch składników:

1.Średniej arytmetycznej wewnątrzgrupowych


wariancji wartości cechy, tzw. wariancji
wewnątrzgrupowej.

2. Wariancji średnich grupowych wartości tej


zmiennej, tzw. wariancji międzygrupowej.
( x)  S j ( x)  S ( x j )
2 2 2
S Wariancja
międzygrupowa

Wariancja
wewnątrzgrupowa

s s

S n  xj x nj

2 2
j j
( )
j 1 j 1
( x)  ( x j) 
2 2
S j s S s

n
j 1
j n
j 1
j

Średnia
ogólna
MIARY ASYMETRII

KLASYCZNE POZYCYJNE

- Współczynnik  3
- Współczynnik Yuelle’a-
Kendall’a AQ

Współczynnik skośności Pearsona


As
• Współczynnik skośności Pearsona
<-1, 1>
xD
As 
S ( x)
• Współczynnik Yulle’a-Kendall’a - wsp. pozycyjny
(Q  Q )  (Q  Q ) <-1,1>

A  3 2 2 1

(Q  Q )  (Q  Q )
Q
3 2 2 1

• Współczynnik klasyczny asymetrii

 M ( x)
<-2,2>
( x)  3
3
3
S ( x)
• Dla szeregu wyliczającego:
N

 ( xi 
i 1
x )3
M3(x) = N

• Dla szeregu rozdzielczego punktowego:


N

 ( xi 
i 1
x ) 3  ni
M3 (x) = N

• Dla szeregu rozdzielczego przedziałowego:


N

(x
ˆi 
i 1
x ) 3  ni
M3 (x) =
N
• Jeżeli rozkład jest symetryczny to As = 0
• Jeżeli rozkład ma asymetrię lewostronną to AS<0
• Jeżeli rozkład ma asymetrię prawostronną to AS>0

Im dalej od zera tym silniejsza asymetria.

Pozycyjny współczynnik asymetrii określa siłę i


kierunek asymetrii jednostek znajdujących się
między pierwszym a trzecim kwartylem, więc w
zawężonym obszarze zmienności cechy.
Miary koncentracji
• Miary koncentracji określają stopień skupienia
poszczególnych jednostek zbiorowości ze względu na
badaną cechę zmienną wokół średniej arytmetycznej tej
zmiennej (kurtoza) lub stopień nierównomierności
podziału zjawiska w zbiorowości.

Podział miar koncentracji:


- skupienie zbiorowości wokół średniej (kurtoza):
• czwarty moment centralny,
• czwarty moment centralny standaryzowany;
- nierównomierny podział zjawiska w zbiorowości:
• wielobok koncentracji Lorenza,
• współczynnik koncentracji.
MIARY SPŁASZCZENIA I KONCENTRACJI
• Zbiorowość statystyczną analizuje się ze
względu na stopień skupienia poszczególnych
wartości wokół średniej arytmetycznej.
Miarą skupienia jest współczynnik skupienia
(kurtoza).
Współczynnik skupienia jest standaryzowanym
momentem centralnym czwartego rzędu, danym
wzorem:
K  M44
S
gdzie: M4 – moment centralny czwartego rzędu
• Dla szeregu wyliczającego:
N

 ( xi  x )4
M4 = i 1
N

• Dla szeregu rozdzielczego punktowego:


N

M4 =
 xi x  ni
(
i 1
 ) 4

N
• Dla szeregu rozdzielczego przedziałowego:
N

(x
ˆi  x ) 4  ni
M4 = i 1
N
• Im wyższa wartość współczynnika skupienia, tym
krzywa liczebności jest bardziej wysmukła.
Oznacza to większe skupienie wartości cechy
wokół średniej. Małe wartości wsp. skupienia
wskazują na spłaszczenie rozkładu, a więc
mniejsze skupienie wartości cechy wokół średniej.
Kurtoza (eksces)
Koncentracja, rozumiana jako stopień skupienia poszczególnych jednostek zbiorowości ze
względu na badaną cechę zmienną wokół średniej arytmetycznej tej zmiennej, oznacza
deformację rozkładu w związku ze spłaszczeniem lub smukłością krzywej liczebności. Im
bardziej krzywa liczebności jest wysmukła, tym koncentracja (stopień skupienia) jest
silniejsza, a im bardziej krzywa liczebności jest spłaszczona, tym koncentracja (stopień
skupienia) jest słabsza.

You might also like