Wykład 1

STATYSTYKA
Pojęcia podstawowe
 Zbiorowość statystyczna – zespół jednostek obserwacji nie

identycznych ale stanowiących jedną logiczną całość
 Próbka – część zbiorowości, która podlega bezpośrednio
badaniu empirycznemu ze względu na ustaloną cechę.
 Próbka losowa – próbka, której jednostki dobrane zostały
losowo.
 Próbka reprezentatywna – próbka, której wewnętrzna budowa
nie różni się istotnie od wewnętrznej budowy zbiorowości
generalnej.
Pojęcia podstawowe
 Cecha badana – właściwość jednostek zbiorowości, która może

służyć jako kryterium pozwalające odróżnić poszczególne jednostki
zbiorowości. Cechy dzielimy na mierzalne i niemierzalne. Wśród cech
mierzalnych występują skokowe i ciągłe.
 Cechy niemierzalne (Jakościowe) – cechy, które nie dają się opisać
liczbowo, a jedynie za pomocą określeń słownych.
 Cechy mierzalne (Ilościowe) – Cechy które możemy opisać za
pomocą liczb (wartości). Skokowe – cecha która może przyjmować
skończoną lub przeliczalną ilość wartości. Ciągłe – cecha, której
zmienność w danym przedziale jest ciągła tzn. między dowolnymi
dwoma wartościami mogą występować wartości pośrednie.
Badanie statystyczne
Nasilenie badanej cechy określa się w

procesie pomiaru, który jest wstępnym
elementem badania i polega na przypisaniu
cechom statystycznym określonych symboli
(liczb, liter itp.)
W naukach społecznych wyróżnia się cztery

skale pomiarowe:
 skala nominalna – obiektom przynależącym do tej samej

kategorii przypisuje się tę samą liczbę. Na podstawie danych
można określić czy obiekt X jest równy, czy różny od obiektu Y,
 skala porządkowa (rangowa) – przypisanie obiektom liczb

pozwala uporządkować je pod względem nasilenia cechy. Na
podstawie danych można wskazać, że nasilenie cechy u
obiektu X jest większe (mniejsze) niż u obiektu Y, ale nie
można powiedzieć o ile, bo skala nie ma stałej jednostki
pomiaru,
 skala przedziałowa (interwałowa) – przypisanie obiektom

liczb pozwala oprócz uporządkowania ich pod względem
nasilenia cechy na stwierdzenie, o ile nasilenie cechy dla
obiektu X jest większe (mniejsze) od nasilenia tej cechy dla
obiektu Y,
 skala ilorazowa (stosunkowa) – przypisanie obiektom liczb

pozwala uporządkować je pod względem nasilenia cechy,
stwierdzić o ile nasilenie cechy dla obiektu X jest większe
(mniejsze) od nasilenia tej cechy dla obiektu Y, oraz wskazać
ile razy to nasilenie jest większe (mniejsze).
 Omawiane skale możemy uporządkować od

najsłabszej do najsilniejszej:
 skala nominalna,
 skala porządkowa,
 skala przedziałowa,
 skala ilorazowa
W zależności od skali, w jakiej mierzymy dane zmienne,

nazywamy je odpowiednio zmiennymi nominalnymi,
porządkowymi, przedziałowymi, bądź ilorazowymi.
 Przykłady zmiennych:
 a) nominalna, np. płeć,
 b) porządkowa, np. wykształcenie,
 c) przedziałowa, np. ocena,
 d) ilorazowa, np. waga.
W zależności od typu skali pomiarowej

możemy odpowiadać (lub nie) na różne
pytania dotyczące relacji obiektów
opisywanych na tych skalach.
I tak:
TYP SKALI POMIAROWEJ
Rodzaje pytań: NOMINALNA PORZĄDKOWA PRZEDZIAŁOWA ILORAZOWA

Czy obiekt X jest różny
TAK TAK TAK TAK
od obiektu Y?
Czy obiekt X jest lepszy
NIE TAK TAK TAK
od obiektu Y?
O ile obiekt X jest lepszy
NIE NIE TAK TAK
od obiektu Y?
Ile razy obiekt X jest
NIE NIE NIE TAK
lepszy od obiektu Y?
Zależnie od typu zmiennej, możemy wyliczyć

lub nie różne miary, które tą zmienną
charakteryzują.
I tak:
TYP ZMIENNEJ
SKALA NOMINALNA PORZĄDKOWA PRZEDZIAŁOWA

ILORAZOWA
Miary tendencji modalna modalna, modalna,
centralnej mediana mediana, średnia
Miary kwantyle wariancja,
rozproszenia odchylenie standardowe
Miary współczynnik współczynniki współczynniki
współzależności siły związku 1) siły związku 3) siły związku
2) korelacji rang 4) korelacji rang
5) korelacji liniowej
Etapy badania statystycznego
przygotowanie badania, w którego zakres wchodzi

zdefiniowanie celu i oraz wskazanie metod badania, określenie
zbiorowości statystycznej, jednostki statystycznej oraz cech
podlegających badaniu,
obserwacja statystyczna, czyli proces zbierania danych
statystycznych. Zbiór danych zgromadzonych w wyniku
obserwacji tworzy materiał statystyczny,
opracowanie materiału statystycznego, które obejmuje dwie
podstawowe czynności: grupowanie i zliczanie.
Etapy badania statystycznego
 prezentacja materiału statystycznego, która odbywa się z

wykorzystaniem szeregów, tablic oraz wykresów statystycznych.
 opis statystyczny (ma charakter sumaryczny i dotyczy jedynie
danej zbiorowości statystycznej, jego przedmiotem są obserwacje
pochodzące z badania pełnego) lub wnioskowanie statystyczne
(ma miejsce wtedy, kiedy badanie jest reprezentacyjne, a jego
wyniki uogólniane są na całą populację, z której pochodzi próba)
Prezentacja wyników – szereg punktowy
Wartości cechy możemy ustawić w dwojaki

sposób albo pogrupować wyniki od
najmniejszego do największego tworząc w ten
sposób – Szereg punktowy lub przy dużej
ilości wyników grupując te wyniki w Szereg
rozdzielczy
Prezentacja wyników – szereg punktowy
Przykład szeregu punktowego

Wśród 16 ankietowanych turystów odnotowano
liczbę wyjść w góry w ciągu ostatniego tygodnia i
otrzymano następujące wyniki:
1,0,2,3,3,2,1,2,3,4,3,2,3,4,0,1.
Uporządkowany szereg punktowy będzie miał postać:
0,0,1,1,1,2,2,2,2,3,3,3,3,3,4,4.
Szereg rozdzielczy
Szereg rozdzielczy jest to tablica, która pozwala na grupowanie

wyników w pewne ich klasy co w znacznym stopniu ułatwia
posługiwanie się nimi.
Podstawowy szereg ma następującą budowę:
Numer klasy Od … do Środek klasy Liczebność
…… …… …… ……
…… …… …… ……
Szereg rozdzielczy
Podstawą do zbudowania takiego szeregu jest odpowiednie

pogrupowanie wyników w klasy. W tym celu konieczne jest
ustalenie dla danej próby: rozstęp próby, ilości klas, długości
klas, początku klasy dolnej.
R  xmax  xmin
Ilość klas k jest uzależniona od n i najczęściej ustala się ją za
pomocą wzorów:
k  n.
Szereg rozdzielczy
 W zależności od ilości pomiarów liczbę klas możemy odczytać

również z następującej tabeli;
Liczba pomiarów Liczba klas

30-60 6-8
60-100 7-10
100-200 9-12
200-500 11-17
500-1500 16-25
Szereg rozdzielczy
 Długość klasy b ustalamy wykorzystując następujący

wzór :
R
b 
k
Szereg rozdzielczy
Dolną granicę 1 klasy uzależniamy od dokładności

pomiarów , xmin-(1/2), lub możemy przyjąć wynik
najmniejszy przy założeniu, że skrajne wyniki
(pokrywające się z granicą klasy) zaliczamy do klasy o
numerze wyższym.
Szereg rozdzielczy
Ważną rolę w dalszej analizie szeregu odgrywają

środki klas. Oznaczane , obliczamy je dodając do
siebie końce klasy i dzieląc wynik przez 2.
ac
xi 
2
Wskaźnik struktury
Czasami dobrze jest posługiwać się częstością występowania

danej odmiany cechy częstość tę możemy oznaczyć wi i
nazywamy Wskaźnikiem struktury, czyli wskaźnik struktury
można zdefiniować jako:
ni
wi 
n
Wskaźnik struktury
Oprócz wskaźnika struktury rozważa się też tzw.

Skumulowany wskaźnik struktury postaci:
nisk
wisk  , i  1,2,3,..., k
n
Wskaźnik struktury
gdzie:
nisk –liczba jednostek, których cechy
odpowiadają wartościom nie większym niż xi.
Szereg rozdzielczy przykład
Z całej produkcji pewnego zakładu, pobrano próbkę 42 części i

przebadano pod względem ich długości , otrzymując
następujące wyniki w (mm):
404,406,420,478,440,378,468,437,452,421,414,403,406,462,4
28,431,414,437,405,390,425,425,425,425,360,406,462,408,39
0,457,406,409,410,420,426,438,439,426,438,430,425,431.
Przedstaw powyższe wyniki w postaci szeregu rozdzielczego.
Szereg rozdzielczy przykład
 R=478-360=118
 K=7 (można ustalić inną liczbę klas, np. 6 lub 8)
 b= R  118  16,8...  17
k 7
 
x1  360  0,5  359,5
Przykład wyglądu szeregu
numer klasy i Klasy od do Środek klasy xi liczebność klasy ni ni

Częstość wi 
n
1 359,5-376,5 368 1 0,024
2 376,5-393,5 385 3 0,071
3 393,5-410,5 402 10 0,238
4 410,5-427,5 419 12 0,286
5 427,5-444,5 436 10 0,238
6 444,5-461,5 453 2 0,048
7 461,5-478,5 470 4 0,095
n=42
Przykład wyglądu szeregu
numer klasy i Klasy od do środek klasy xi liczebność wi *100 (w %)

klasy ni
1 360-377 368,5 1 2,4
2 377-394 385,5 3 7,1
3 394-411 402,5 10 23,8
4 411-428 419,5 12 28,6
5 428-445 436,5 10 23,8
6 445-462 453,5 2 4,8
7 462-479 470,5 4 9,5
n=42
Wskaźnik struktury
Rozkład empiryczny – przyporządkowanie

kolejnym wartościom cechy statystycznej
odpowiadających im częstości (liczebności).
Dystrybuanta empiryczna –
przyporządkowanie kolejnym wartościom
cechy statystycznej odpowiadającym im
częstości skumulowanych (liczebności
skumulowanych).
Graficzna prezentacja szeregu (histogram)
Histogram
14
12
10
8
6
4
2
0
Graficzna prezentacja szeregu (krzywa częstości)
0 ,3 5
0 ,3
0 ,2 5
0 ,2
0 ,1 5
0 ,1
0 ,0 5
0
368 385 402 419 436 453 470
Graficzna prezentacja wyników
Obrazowym przedstawieniem wskaźnika struktury (w%) jest

wykres kołowy.
Procentowy udział wyników
360-377
9,5 2,4
7,1 377-394
4,8
394-411
23,8
23,8 411-428
428-445
28,6 445-462
462-479
MIARY PRZECIĘTNE (ŚREDNIE)
Średnia arytmetyczna:
Niech pomiary x1,...,xn będą wynikami badanej cechy w n-
elementowej próbie.
Średnią arytmetyczną liczb x1,...,xn nazywamy liczbę określoną
wzorem:
1 1 n
x   xi  ( x1  ...  xn )
n i 1 n
 Jeżeli wyniki zgrupowane są w szereg rozdzielczy, to

średnia arytmetyczna wyraża się wzorem:
1 k
x
n
 i
x i
i 1
n
Uwagi o średniej
 W pewnych przypadkach średnia obliczona za pomocą

wykorzystania środków przedziałów klasowych jest
obarczona istotnym błędem. Zachodzi to w sytuacji gdy
największe liczebności skupiają się wokół najniższych lub
najwyższych wartości cechy. W takim przypadku należy
zrezygnować z obliczania średnich na podstawie szeregu
rozdzielczego na rzecz obliczania bezpośrednio z danych
indywidualnych lub inaczej zbudować szereg pomijając
mało istotne dane.
Uwagi o średniej
 Podobnie średnia arytmetyczna może nie być

wielkością reprezentatywną dla całego zbioru danych
(jej wartość poznawcza może być minimalna), dzieje
się tak gdy ustalimy tę średnią ze zbiorów
niejednorodnych. Dla przykładu jeżeli obliczymy
średnią arytmetyczną zarobków 6 pracowników, z
których 4 zarabia miesięcznie 1000 złotych a 2 6000
złotych to otrzymamy średnią, która o niczym nie
mówi.
Uwagi o średniej
 Taka analiza jest oczywiście nonsensem,

gdyż połączyliśmy pracowników, którzy
należą do zupełnie innych grup
zarobkowych, a obliczona średnia nie jest
reprezentatywna dla całej zbiorowości
pracowników. O tym, które zbiory
statystyczne uznajemy za jednorodne, a
które nie powinien decydować zdrowy
rozsądek.
Uwagi o średniej
Weźmiemy dwie miejscowości :

miasto A ma 60000 mieszkańców, a gęstość zaludnienia wynosi
400 osób/km2
miasto B ma 60000 mieszkańców, a gęstość zaludnienia wynosi
600 osób/km2
obliczmy średnią gęstość zaludnienia w obu miejscowościach wg
średniej arytmetycznej ilość osób na km2 wynosi

400  600
 500
2
Uwagi o średniej
ale czy to zostało prawidłowo policzone

obszary jakie zajmują miejscowości A i B wynoszą
odpowiednio:
60000
xA   150
400
60000
xB   100
600
Uwagi o średniej
średnia gęstość zaludnienia z obu miejscowości

wyliczona prawidłowo odbiega od średniej i wynosi :
120000
śr   480
150  100
Średnia harmoniczna:
Średnią harmoniczną dla różnych od 0 liczb x1,...,xn nazywamy
odwrotność średniej arytmetycznej odwrotności tych liczb:
1
1 n
1  n
1
h
n  xi

 ;
xi
0
 i 1  i 1
Dla szeregu rozdzielczego:
1
1 ni  k
h  
 n i 1 x i 
Średnia geometryczna:
Średnią geometryczną dodatnich liczb x1,...xn nazywamy
następujące wyrażenie:
n
g n
x
i 1
i  ( x1  ...  xn )
n
Miary przeciętne (średnie)
Średnia geometryczna dla szeregu
n n1 nk
g  x 1  ...  x k
x i oznacza środek i-tej klasy ; ni jej liczebność ; k

ilość klas. We wszystkich wzorach.
Miary pozycyjne (moda)
Wartością modalną (dominantą) lub modą próbki

x1,...,xn o powtarzających się wartościach nazywamy
najczęściej powtarzającą się wartość o ile taka
istnieje i nie jest wartością minimalną ani
maksymalną. ( dla szeregów rozdzielczych
dominanta istnieje jeśli najliczniejszymi klasami nie
są pierwsza lub ostatnia)
Obliczanie mody: Dla szeregu punktowego

odczytujemy najczęściej powtarzający się wynik.
Dla szeregu rozdzielczego obliczanie mody przebiega
dwu etapowo:
 1) ustalamy klasę, w której jest moda (najliczniejsza
klasa o ile nie jest pierwsza ani ostatnia)
 2) obliczamy modę korzystając ze wzoru:
nl  nl 1
D  mo  xl  b
(nl  nl 1 )  (nl  nl 1 )
gdzie:
xl - dolna granica klasy, w której jest moda,
l - numer tej klasy,
nl-1,nl+1 - liczebności klas sąsiednich,
nl - liczebność klasy z modą,
b - długość klasy.
Miary pozycyjne (moda wyznaczanie graficzne)
Modę możemy wyznaczyć graficznie w

następujący sposób: łączymy koniec klasy
poprzedzającej klasę z modą z końcem klasy
modalnej, następnie łączymy początek klasy
modalnej z początkiem klasy następnej, punkt
przecięcia rzutujemy na oś, na której zaznaczamy
klasy i odczytujemy wartość modalną
Miary pozycyjne (moda wyznaczanie graficzne)
m0-moda
Jeśli liczebności klas sąsiednich są równe, to

modą nazywamy środek najliczniejszej klasy.
Miary pozycyjne (mediana)
Medianą lub wartością środkową me próbki x1,...,xn nazywamy

środkową wartość w uporządkowanej nie malejąco próbce
czyli:
 x( n 1) / 2 n  nieparzyste

me   1
 2 ( x n / 2  x ( n / 2 ) 1 ) n  parzyste
Jeżeli dane są pogrupowane w szereg rozdzielczy to

obliczenie mediany jest dwuetapowe
 ustalamy klasę w której jest mediana:
1) jeśli n jest nieparzyste to obliczamy d=(n+1)/2

2) jeśli n jest parzyste to obliczamy d=n/2
Mediana znajduje się w klasie w której jest wartość
xd .
Do obliczenia mediany wykorzystujemy następujący wzór:
b n m 1
me  xl  (   ni )
nm 2 i 1
gdzie:
xl - dolna granica klasy wyznaczonej w etapie
pierwszym,
b - długość klasy,
nm - liczebność klasy zawierającej medianę,
m - numer klasy zawierającej medianę.
Miary pozycyjne (kwartyle)
Kwartyl I (Q1) dzieli zbiorowość uporządkowaną na dwie części w

ten sposób, że 25 % jednostek ma wartości cechy niższe a 75
% ma wartości cechy wyższe od Q1.



Q1
Kwartyl III (Q3) dzieli zbiorowość uporządkowaną na dwie części

w ten sposób, że 75 % jednostek ma wartości cechy niższe a 25
% ma wartości cechy wyższe od kwartyla trzeciego.


Q3
Dla szeregu rozdzielczego kwartyle obliczamy

dwu etapowo : na początku ustalamy klasy z
kwartylami ( dla dolnego to klasa w którą
wpada wynik (n/4) , a górnego wynik (3/4)n )
a następnie wykorzystujemy wzory:
Miary pozycyjne (kwartyl I (dolny))
q 1
b n
Q1  xl  (   ni )
nQ1 4 i 1
Miary pozycyjne (kwartyl I (dolny))
gdzie:
xl - dolna granica klasy zawierającej kwartyl dolny
( klasa w którą wpada wynik ćwiartkowy),
- liczebność klasy zawierającej kwartyl dolny,
nq-Q1 numer klasy zawierającej kwartyl dolny;
Miary pozycyjne (kwartyl III (górny))
q 1
b 3n
Q3  xl  (   ni )
nQ3 4 i 1
Miary pozycyjne (kwartyl III (górny))
gdzie:
xl - dolna granica klasy zawierającej kwartyl górny
( klasa w którą wpada wynik ¾ n),
n-Qliczebność
3 klasy zawierającej kwartyl górny,
q- numer klasy zawierającej kwartyl górny.
MIARY ROZPROSZENIA
Do miar rozproszenia zaliczamy :

1) Rozstęp
2) Odchylenie standardowe
3) Odchylenie przeciętne
4) Odchylenie ćwiartkowe
MIARY ROZPROSZENIA
Miarami rozproszenia nazywamy takie

parametry wartości badanej cechy, które
ukazują nam jak wyniki badań rozkładają się
względem pewnych parametrów badanych
dla próbki np. mediany, mody, średniej
arytmetycznej itp.
MIARY ROZPROSZENIA
Szczególną rolę odgrywa odchylenie

standardowe s od średniej
arytmetycznej, które definiujemy jako
pierwiastek z wariancji.
MIARY ROZPROSZENIA
Wariancją s2 próbki x1,..xn nazywamy średnią

arytmetyczną kwadratów odchyleń poszczególnych
wartości xi od średniej arytmetycznej:
1 2
n
s   xi  x
2 2
n i 1
MIARY ROZPROSZENIA
Dla szeregu rozdzielczego:
1 k
s   ( x i  x) ni
2 2
n i 1
MIARY ROZPROSZENIA
Odchyleniem przeciętnym od wartości danego parametru a

nazywamy średnią arytmetyczną wartości bezwzględnych
odchyleń poszczególnych wartości xi od tego parametru czyli:
1 n
d   xi  a
n i 1
MIARY ROZPROSZENIA
Dla danych zgrupowanych w szereg

rozdzielczy:
1 k
d   x i  a ni
n i 1
MIARY ROZPROSZENIA
Odchyleniem ćwiartkowym nazywamy

wartość Q określoną wzorem:
Q3  Q1
Q
2
MIARY ROZPROSZENIA (uwagi)
Jeżeli uwzględnimy 2/3 jednostek to wyniki

typowe będą w przedziale:
x  s  xtyp  x  s
Odchylenie standardowe służy często do klasyfikacji

danych jednostek. Pod względem ich odbiegania od
typowości (normalności)
-
2
s -
s +
s +
2
s
x
T
y
p
ow
e
wy
n
ik
i
 Ogólnie Q<d<s.
 Oczywiście posługiwanie się tymi miarami ma sens tylko
w przypadku analizy jednej cechy i jej wewnętrznego
zróżnicowania. Niestety jeżeli chcemy porównać
dyspersję w dwóch różnych strukturach, dla dwóch
różnych cech musimy posłużyć się względnymi miarami
zmienności. Szczególnie jeżeli chcemy dowiedzieć się
względem jakiej cechy jest bardziej zróżnicowana dana
zbiorowość.
WZGLĘDNE MIARY ROZPROSZENIA
Do względnych miar zmienności zaliczamy

współczynnik zmienności, oraz współczynnik
nierównomierności, które są określone
następująco:
Współczynnik zmienności:
s
  100%
x
Współczynnik nierównomierności (zmienności

względem odchylenia przeciętnego):
d1
H  100%
x
Współczynnik zmienności względem

odchylenia ćwiartkowego:
Q
Q  100%
me
Miary asymetrii
Najbardziej uniwersalną miarą do określenia asymetrii jest

tzw. współczynnik asymetrii.
M3
As  3
s
Miary asymetrii
Gdzie M3 jest momentem centralnym rzędu 3 i

wyraża się wzorem:
1
 
k
3
M 3   x i  x ni
n i 1
Miary asymetrii
Obliczając współczynnik asymetrii As możemy

też skorzystać z następujących przybliżonych
związków (szczególnie wtedy, gdy interesuje
nas tylko ogólny rozkład wyników):
Miary asymetrii
x  mo
As  lub
s
Q3  Q1  2me
As  lub
2Q
3(me  mo )
As 
2s
Miary asymetrii
Jeżeli As >0 to jest asymetria prawostronna; Jeżeli

As<0 to lewostronna; Jeżeli As =0 to mamy
symetrię.
1. asymetria lewostronna - więcej jest wyników

większych od średniej.
2. asymetria prawostronna więcej jest wyników
mniejszych od średniej.
3. As=0 mamy symetrię wyników względem
średniej
Miary asymetrii (uwagi)
Gdy szeregi są skrajnie asymetryczne, wtedy

szczególną rolę odgrywa analiza koncentracji
zjawiska. W takich przypadkach analiza szeregu za
pomocą poznanych miar jest często trudna lub w
ogóle niemożliwa. Wtedy zbadanie stopnia
koncentracji staje się podstawową czynnością, którą
musimy wykonać aby ocenić rozkład wartości cechy.
Służy do tego współczynnik koncentracji, który
obliczamy następująco:
Współczynnik koncentracji kurtoza
M4
K 4
s
Współczynnik koncentracji kurtoza
Gdzie
1 k
M 4   ( x i  x) ni
4
n i 1
Współczynnik spłaszczenia
Kolejnym wskaźnikiem związanym z koncentracją

wyników wokół średniej jest współczynnik
spłaszczenia nazywany ekscesem obliczany ze wzoru:
M4
g2  K  3  4  3
s
Analiza podobieństwa struktur
Do pomiaru podobieństwa struktur stosuje

się różne miary. Jedną z nich jest wskaźnik
podobieństwa struktur, określony wzorem:
k
w p   min w1i , w2i ,
i 1
Im podany współczynnik bliski jedności, tym struktury

badanych zbiorowości są bardziej podobne.
Przykład
Płace pracowników sieci hoteli „GRAND HOTEL” w
Rzeszowie i Przemyślu przedstawia tabela poniżej:

Numer klasy Place Liczba zatrudnionych (ni)

i xi Rzeszów Przemyśl
1 [800; 1000) 20 18
2 [1000; 1200) 8 8
3 [1200; 1400) 12 8
4 [1400; 1600) 10 6
Razem: 50 40
Źródło: dane umowne
Rozwiązanie:
Numer Place Liczba zatrudnionych (ni) w1i w2i min
klasy
I xi Rzeszów Przemyśl Rzeszów Przemyśl
1 [800; 1000) 20 18 0,4 0,45 0,4
2 [1000; 1200) 8 8 0,16 0,2 0,16
3 [1200; 1400) 12 8 0,24 0,2 0,2
4 [1400; 1600) 10 6 0,2 0,15 0,15
Razem: 50 40 Razem: 0,91
Płace pracowników sieci hoteli „GRAND HOTEL” w

Rzeszowie i Przemyślu są bardzo zbliżone.
Dokładniejszym sposobem porównywania jest

osobne przeanalizowanie statystyczne cech dla
każdej zbiorowości i zestawienie tych wyników.
Dla zobrazowania tej analizy posłużymy się
następującym przykładem z książki Heleny Kossyk -
Rokickiej „Statystyka nie jest trudna”.
Przykład: Załóżmy, że w trakcie badań

statystycznych prowadzonych nad wysokością
dodatkowych zarobków lekarzy i pracowników
wyższych uczelni uzyskano wyniki, które
można przedstawić w następującej tabeli.
Miernik Jednostka Wielkość

Lekarze Naukowcy
x zł 1364 1039
me zł 1368 980
mo zł 1482 880
Q1 zł 1057 780
Q3 zł 1599 1246
S zł 439 354
V % 32,2 34,1
xtyp(2/3) zł [952,1803] [685,1393]
As - -0,27 0,45
Powyższe zestawienie pokazuje, że:

 Przeciętny poziom dodatkowych zarobków jest u lekarzy
wyższy niż u naukowców.
 Ponieważ dla lekarzy A <0, a dla naukowców A >0 zatem
s s
wśród lekarzy przeważają ci, którzy zarabiają więcej od
średniej a wśród naukowców ci, którzy zarabiają mniej od
średniej.
 Obszar zmienności typowych wynagrodzeń jest dla
lekarzy większy i przesunięty bardziej w prawo w stronę
zarobków wyższych.
 Nie ma istotnych różnic w względnej przeciętnej
zmienności (V) tych wynagrodzeń wzg. Wartości
przeciętnej.
Przedziały ufności dla średniej
Przedział ufności jest to przedział liczbowy

określający przy z góry zadanym błędzie α do
jakiego przedziału należy średnia wartość.
Jego wyznaczane jest związane z strukturą
wyników i ich rozkładem. W zależności od tego
mamy 3 modele wyznaczania przedziału ufności:
Model 1. Badana cecha X ma rozkład normalny N(,)

gdzie -jest nieznane ,-jest znane.
Wtedy przedział ufności wyraża się następująco:
1  1 
[ x  u (1   ) , x  u (1   ) ]
2 n 2 n
Algorytm wyznaczania:
 obliczyć x (średnią arytmetyczną)

 odczytujemy z tablicy kwantyli rozkładu normalnego
kwantyl rzędu 1- 2 ;  u (1   )  przy zadanych n, 
 2 
n-liczebność próbki,
-odchylenie standartowe wyznaczamy przedział
ufności.
Model 2. Cecha X ma rozkład normalny N(,) gdzie , -są

nieznane. Wtedy przedział ufności ma postać:
 s  s
[ x  t (1  , n  1) , x  t (1  , n  1) ]
2 n 1 2 n 1
Algorytm:
 z próby wyliczamy x, s
 odczytujemy z tablicy kwantyli rozkładu t-studenta

o n-1 stopniach swobody wartość kwantyla rzędu 1- 2 ;
  
 t (1  , n  1) .
 2 
 wyznaczamy przedział
Model 3. Cecha X ma dowolny rozkład o nieznanych  i 2 . próba

liczy ponad 100 elementów. Wtedy przedział ma postać:

 s *
 s *
[ X  u (1  ) , X  u (1  ) ]
2 n 2 n
Algorytm:
 obliczamy X,s
* 2 1 2
 obliczamy (s ) = s (n-liczba wyników).
n 1
 odczytujemy z tablicy kwantyli rozkładu normalnego
kwantyl rzędu 1  2
 wyznaczamy przedział.
Normalność rozkładu
Do rozstrzygnięcia tej kwestii służą testy statystyczne.

Do testów najczęściej używanych zaliczają się Test
Kołmogorowa – Smirnowa (K-S), test K-S z
poprawką Lillieforsa oraz test (W) Shapiro – Wilka.
Normalność rozkładu
Test K-S oparty jest na porównaniu rozkładu w

próbie z teoretycznym rozkładem normalnym
zatem do jego stosowania potrzebna jest
znajomość średniej i odchylenia standardowego
w całej populacji, gdy tego nie znamy stosujemy
test K-S z poprawką Lilleforsa.
Test W jest bardziej polecany do próbek o
mniejszej liczebności niż 2 tysiące.
Jak to się robi w STATISTICA
 Przykład. Przeprowadź pełną analizę

statystyczną czasu dojazdu do pracy
pracowników pewnego zakładu jeśli po
przeprowadzeniu badania dotyczącego czasu
dojazdu do pracy 50 pracowników tego
zakładu uzyskano następujące wyniki w
minutach.
9 43 26 33 33 33 27 37 50 32
10 22 27 27 30 30 42 43 44 33
34 39 27 28 11 11 54 57 31 32
30 33 9 31 18 24 60 40 42 48
34 36 29 14 34 29 36 36 49 62
wpisywanie danych
deklarujemy ilość przypadków = ilość danych ( u nas 50)
nazywamy zmienne
wpisujemy dane w kolumnie
dostajemy okno
Tworzenie szeregu rozdzielczego

na głównym pasku wybieramy Statystyka
wybieramy moduł statystyki podstawowe i

tabele
wybieramy Statystyki opisowe, normalność,

ustalamy liczbę klas i tabela liczności daje w
wyniku szereg rozdzielczy postaci
Miary
W statystyki opisowe wybieramy więcej,

ustalamy które miary nas interesują i
podsumowanie
Dostajemy zestawienie
Sprawdzenie normalności i histogram
W statystykach opisowych wybieramy

normalność zaznaczamy właściwe testy i
histogram
Dostajemy:
Histogram: czas dojazdu do pracy

K-S d=,11661, p> .20; Lilliefors p<,10
Shapiro-Wilk W=,96171, p=,10486
20
18
16
14
Liczba obs.
12
10
8
6
4
2
0
0 10 20 30 40 50 60 70
X <= Granica klasy
Zmienna: czas dojazdu do pracy, Rozkład: Normalny

20
18
16
Liczba obserwacji
14
12
10
8
6
4
2
0
0 10 20 30 40 50 60 70
Kategoria (górna granica)

Wykład 1

Uploaded by

Copyright:

Available Formats

You might also like

Wykład 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Wykład 1

Uploaded by

Copyright:

Available Formats

STATYSTYKA

 Zbiorowość statystyczna – zespół jednostek obserwacji nie

 Cecha badana – właściwość jednostek zbiorowości, która może

Nasilenie badanej cechy określa się w

W naukach społecznych wyróżnia się cztery

 skala nominalna – obiektom przynależącym do tej samej

 skala porządkowa (rangowa) – przypisanie obiektom liczb

 skala przedziałowa (interwałowa) – przypisanie obiektom

 skala ilorazowa (stosunkowa) – przypisanie obiektom liczb

 Omawiane skale możemy uporządkować od

W zależności od skali, w jakiej mierzymy dane zmienne,

W zależności od typu skali pomiarowej

TYP SKALI POMIAROWEJ

Rodzaje pytań: NOMINALNA PORZĄDKOWA PRZEDZIAŁOWA ILORAZOWA

Zależnie od typu zmiennej, możemy wyliczyć

SKALA NOMINALNA PORZĄDKOWA PRZEDZIAŁOWA

przygotowanie badania, w którego zakres wchodzi

 prezentacja materiału statystycznego, która odbywa się z

Wartości cechy możemy ustawić w dwojaki

Przykład szeregu punktowego

Szereg rozdzielczy jest to tablica, która pozwala na grupowanie

Numer klasy Od … do Środek klasy Liczebność

Podstawą do zbudowania takiego szeregu jest odpowiednie

 W zależności od ilości pomiarów liczbę klas możemy odczytać

Liczba pomiarów Liczba klas

 Długość klasy b ustalamy wykorzystując następujący

Dolną granicę 1 klasy uzależniamy od dokładności

Ważną rolę w dalszej analizie szeregu odgrywają

Czasami dobrze jest posługiwać się częstością występowania

Oprócz wskaźnika struktury rozważa się też tzw.

Z całej produkcji pewnego zakładu, pobrano próbkę 42 części i

numer klasy i Klasy od do Środek klasy xi liczebność klasy ni ni

numer klasy i Klasy od do środek klasy xi liczebność wi *100 (w %)

Rozkład empiryczny – przyporządkowanie

Obrazowym przedstawieniem wskaźnika struktury (w%) jest

Procentowy udział wyników

 Jeżeli wyniki zgrupowane są w szereg rozdzielczy, to

 W pewnych przypadkach średnia obliczona za pomocą

 Podobnie średnia arytmetyczna może nie być

 Taka analiza jest oczywiście nonsensem,

Weźmiemy dwie miejscowości :

ale czy to zostało prawidłowo policzone

średnia gęstość zaludnienia z obu miejscowości

Dla szeregu rozdzielczego:

Średnia geometryczna dla szeregu

x i oznacza środek i-tej klasy ; ni jej liczebność ; k

Wartością modalną (dominantą) lub modą próbki

Obliczanie mody: Dla szeregu punktowego

Modę możemy wyznaczyć graficznie w

Jeśli liczebności klas sąsiednich są równe, to

Medianą lub wartością środkową me próbki x1,...,xn nazywamy

Jeżeli dane są pogrupowane w szereg rozdzielczy to

1) jeśli n jest nieparzyste to obliczamy d=(n+1)/2

Do obliczenia mediany wykorzystujemy następujący wzór:

Kwartyl I (Q1) dzieli zbiorowość uporządkowaną na dwie części w

Kwartyl III (Q3) dzieli zbiorowość uporządkowaną na dwie części

Dla szeregu rozdzielczego kwartyle obliczamy

Do miar rozproszenia zaliczamy :