Wykład 1

You might also like

Download as ppt, pdf, or txt
Download as ppt, pdf, or txt
You are on page 1of 114

STATYSTYKA

Pojęcia podstawowe

 Zbiorowość statystyczna – zespół jednostek obserwacji nie


identycznych ale stanowiących jedną logiczną całość
 Próbka – część zbiorowości, która podlega bezpośrednio
badaniu empirycznemu ze względu na ustaloną cechę.
 Próbka losowa – próbka, której jednostki dobrane zostały
losowo.
 Próbka reprezentatywna – próbka, której wewnętrzna budowa
nie różni się istotnie od wewnętrznej budowy zbiorowości
generalnej.
Pojęcia podstawowe

 Cecha badana – właściwość jednostek zbiorowości, która może


służyć jako kryterium pozwalające odróżnić poszczególne jednostki
zbiorowości. Cechy dzielimy na mierzalne i niemierzalne. Wśród cech
mierzalnych występują skokowe i ciągłe.
 Cechy niemierzalne (Jakościowe) – cechy, które nie dają się opisać
liczbowo, a jedynie za pomocą określeń słownych.
 Cechy mierzalne (Ilościowe) – Cechy które możemy opisać za
pomocą liczb (wartości). Skokowe – cecha która może przyjmować
skończoną lub przeliczalną ilość wartości. Ciągłe – cecha, której
zmienność w danym przedziale jest ciągła tzn. między dowolnymi
dwoma wartościami mogą występować wartości pośrednie.
Badanie statystyczne

Nasilenie badanej cechy określa się w


procesie pomiaru, który jest wstępnym
elementem badania i polega na przypisaniu
cechom statystycznym określonych symboli
(liczb, liter itp.)

W naukach społecznych wyróżnia się cztery


skale pomiarowe:
Badanie statystyczne

 skala nominalna – obiektom przynależącym do tej samej


kategorii przypisuje się tę samą liczbę. Na podstawie danych
można określić czy obiekt X jest równy, czy różny od obiektu Y,

 skala porządkowa (rangowa) – przypisanie obiektom liczb


pozwala uporządkować je pod względem nasilenia cechy. Na
podstawie danych można wskazać, że nasilenie cechy u
obiektu X jest większe (mniejsze) niż u obiektu Y, ale nie
można powiedzieć o ile, bo skala nie ma stałej jednostki
pomiaru,
Badanie statystyczne

 skala przedziałowa (interwałowa) – przypisanie obiektom


liczb pozwala oprócz uporządkowania ich pod względem
nasilenia cechy na stwierdzenie, o ile nasilenie cechy dla
obiektu X jest większe (mniejsze) od nasilenia tej cechy dla
obiektu Y,

 skala ilorazowa (stosunkowa) – przypisanie obiektom liczb


pozwala uporządkować je pod względem nasilenia cechy,
stwierdzić o ile nasilenie cechy dla obiektu X jest większe
(mniejsze) od nasilenia tej cechy dla obiektu Y, oraz wskazać
ile razy to nasilenie jest większe (mniejsze).
Badanie statystyczne

 Omawiane skale możemy uporządkować od


najsłabszej do najsilniejszej:
 skala nominalna,
 skala porządkowa,
 skala przedziałowa,
 skala ilorazowa
Badanie statystyczne

W zależności od skali, w jakiej mierzymy dane zmienne,


nazywamy je odpowiednio zmiennymi nominalnymi,
porządkowymi, przedziałowymi, bądź ilorazowymi.
 Przykłady zmiennych:
 a)      nominalna, np. płeć,
 b)      porządkowa, np. wykształcenie,
 c)      przedziałowa, np. ocena,
 d)      ilorazowa, np. waga.
Badanie statystyczne

W zależności od typu skali pomiarowej


możemy odpowiadać (lub nie) na różne
pytania dotyczące relacji obiektów
opisywanych na tych skalach.
I tak:
Badanie statystyczne

TYP SKALI POMIAROWEJ

Rodzaje pytań: NOMINALNA PORZĄDKOWA PRZEDZIAŁOWA ILORAZOWA


Czy obiekt X jest różny
TAK TAK TAK TAK
od obiektu Y?
Czy obiekt X jest lepszy
NIE TAK TAK TAK
od obiektu Y?
O ile obiekt X jest lepszy
NIE NIE TAK TAK
od obiektu Y?
Ile razy obiekt X jest
NIE NIE NIE TAK
lepszy od obiektu Y?
Badanie statystyczne

Zależnie od typu zmiennej, możemy wyliczyć


lub nie różne miary, które tą zmienną
charakteryzują.
I tak:
Badanie statystyczne

TYP ZMIENNEJ

SKALA NOMINALNA PORZĄDKOWA PRZEDZIAŁOWA


ILORAZOWA
Miary tendencji modalna modalna, modalna,
centralnej mediana mediana, średnia
Miary kwantyle wariancja,
rozproszenia odchylenie standardowe
Miary współczynnik współczynniki współczynniki
współzależności siły związku 1) siły związku 3) siły związku
2) korelacji rang 4) korelacji rang
5) korelacji liniowej
Etapy badania statystycznego

przygotowanie badania, w którego zakres wchodzi


zdefiniowanie celu i oraz wskazanie metod badania, określenie
zbiorowości statystycznej, jednostki statystycznej oraz cech
podlegających badaniu,
obserwacja statystyczna, czyli proces zbierania danych
statystycznych. Zbiór danych zgromadzonych w wyniku
obserwacji tworzy materiał statystyczny,
opracowanie materiału statystycznego, które obejmuje dwie
podstawowe czynności: grupowanie i zliczanie.
Etapy badania statystycznego

 prezentacja materiału statystycznego, która odbywa się z


wykorzystaniem szeregów, tablic oraz wykresów statystycznych.
 opis statystyczny (ma charakter sumaryczny i dotyczy jedynie
danej zbiorowości statystycznej, jego przedmiotem są obserwacje
pochodzące z badania pełnego) lub wnioskowanie statystyczne
(ma miejsce wtedy, kiedy badanie jest reprezentacyjne, a jego
wyniki uogólniane są na całą populację, z której pochodzi próba)
Prezentacja wyników – szereg punktowy

Wartości cechy możemy ustawić w dwojaki


sposób albo pogrupować wyniki od
najmniejszego do największego tworząc w ten
sposób – Szereg punktowy lub przy dużej
ilości wyników grupując te wyniki w Szereg
rozdzielczy
Prezentacja wyników – szereg punktowy

Przykład szeregu punktowego


Wśród 16 ankietowanych turystów odnotowano
liczbę wyjść w góry w ciągu ostatniego tygodnia i
otrzymano następujące wyniki:
1,0,2,3,3,2,1,2,3,4,3,2,3,4,0,1.
Uporządkowany szereg punktowy będzie miał postać:
0,0,1,1,1,2,2,2,2,3,3,3,3,3,4,4.
Szereg rozdzielczy

Szereg rozdzielczy jest to tablica, która pozwala na grupowanie


wyników w pewne ich klasy co w znacznym stopniu ułatwia
posługiwanie się nimi.
Podstawowy szereg ma następującą budowę:

Numer klasy Od … do Środek klasy Liczebność

…… …… …… ……
…… …… …… ……
Szereg rozdzielczy

Podstawą do zbudowania takiego szeregu jest odpowiednie


pogrupowanie wyników w klasy. W tym celu konieczne jest
ustalenie dla danej próby: rozstęp próby, ilości klas, długości
klas, początku klasy dolnej.

R  xmax  xmin
Ilość klas k jest uzależniona od n i najczęściej ustala się ją za
pomocą wzorów:

k  n.
Szereg rozdzielczy

 W zależności od ilości pomiarów liczbę klas możemy odczytać


również z następującej tabeli;

Liczba pomiarów Liczba klas


30-60 6-8
60-100 7-10
100-200 9-12
200-500 11-17
500-1500 16-25
Szereg rozdzielczy

 Długość klasy b ustalamy wykorzystując następujący


wzór :

R
b 
k
Szereg rozdzielczy

Dolną granicę 1 klasy uzależniamy od dokładności


pomiarów , xmin-(1/2), lub możemy przyjąć wynik
najmniejszy przy założeniu, że skrajne wyniki
(pokrywające się z granicą klasy) zaliczamy do klasy o
numerze wyższym.
Szereg rozdzielczy

Ważną rolę w dalszej analizie szeregu odgrywają


środki klas. Oznaczane , obliczamy je dodając do
siebie końce klasy i dzieląc wynik przez 2.

ac
xi 
2
Wskaźnik struktury

Czasami dobrze jest posługiwać się częstością występowania


danej odmiany cechy częstość tę możemy oznaczyć wi i
nazywamy Wskaźnikiem struktury, czyli wskaźnik struktury
można zdefiniować jako:

ni
wi 
n
Wskaźnik struktury

Oprócz wskaźnika struktury rozważa się też tzw.


Skumulowany wskaźnik struktury postaci:

nisk
wisk  , i  1,2,3,..., k
n
Wskaźnik struktury

gdzie:
nisk –liczba jednostek, których cechy
odpowiadają wartościom nie większym niż xi.
Szereg rozdzielczy przykład

Z całej produkcji pewnego zakładu, pobrano próbkę 42 części i


przebadano pod względem ich długości , otrzymując
następujące wyniki w (mm):
404,406,420,478,440,378,468,437,452,421,414,403,406,462,4
28,431,414,437,405,390,425,425,425,425,360,406,462,408,39
0,457,406,409,410,420,426,438,439,426,438,430,425,431.
Przedstaw powyższe wyniki w postaci szeregu rozdzielczego.
Szereg rozdzielczy przykład

 R=478-360=118
 K=7 (można ustalić inną liczbę klas, np. 6 lub 8)

 b= R  118  16,8...  17
k 7

 
x1  360  0,5  359,5
Przykład wyglądu szeregu

numer klasy i Klasy od do Środek klasy xi liczebność klasy ni ni


Częstość wi 
n
1 359,5-376,5 368 1 0,024
2 376,5-393,5 385 3 0,071
3 393,5-410,5 402 10 0,238
4 410,5-427,5 419 12 0,286
5 427,5-444,5 436 10 0,238
6 444,5-461,5 453 2 0,048
7 461,5-478,5 470 4 0,095
n=42
Przykład wyglądu szeregu

numer klasy i Klasy od do środek klasy xi liczebność wi *100 (w %)


klasy ni
1 360-377 368,5 1 2,4
2 377-394 385,5 3 7,1
3 394-411 402,5 10 23,8
4 411-428 419,5 12 28,6
5 428-445 436,5 10 23,8
6 445-462 453,5 2 4,8
7 462-479 470,5 4 9,5
n=42
Wskaźnik struktury

Rozkład empiryczny – przyporządkowanie


kolejnym wartościom cechy statystycznej
odpowiadających im częstości (liczebności).

Dystrybuanta empiryczna –
przyporządkowanie kolejnym wartościom
cechy statystycznej odpowiadającym im
częstości skumulowanych (liczebności
skumulowanych).
Graficzna prezentacja szeregu (histogram)
Histogram

14
12
10
8
6
4
2
0
Graficzna prezentacja szeregu (krzywa częstości)

0 ,3 5
0 ,3
0 ,2 5
0 ,2
0 ,1 5
0 ,1
0 ,0 5
0
368 385 402 419 436 453 470
Graficzna prezentacja wyników

Obrazowym przedstawieniem wskaźnika struktury (w%) jest


wykres kołowy.

Procentowy udział wyników

360-377
9,5 2,4
7,1 377-394
4,8
394-411
23,8
23,8 411-428
428-445
28,6 445-462
462-479
MIARY PRZECIĘTNE (ŚREDNIE)

Średnia arytmetyczna:
Niech pomiary x1,...,xn będą wynikami badanej cechy w n-
elementowej próbie.
Średnią arytmetyczną liczb x1,...,xn nazywamy liczbę określoną
wzorem:

1 1 n
x   xi  ( x1  ...  xn )
n i 1 n
MIARY PRZECIĘTNE (ŚREDNIE)

 Jeżeli wyniki zgrupowane są w szereg rozdzielczy, to


średnia arytmetyczna wyraża się wzorem:

1 k
x
n
 i
x i
i 1
n
Uwagi o średniej

 W pewnych przypadkach średnia obliczona za pomocą


wykorzystania środków przedziałów klasowych jest
obarczona istotnym błędem. Zachodzi to w sytuacji gdy
największe liczebności skupiają się wokół najniższych lub
najwyższych wartości cechy. W takim przypadku należy
zrezygnować z obliczania średnich na podstawie szeregu
rozdzielczego na rzecz obliczania bezpośrednio z danych
indywidualnych lub inaczej zbudować szereg pomijając
mało istotne dane.
Uwagi o średniej

 Podobnie średnia arytmetyczna może nie być


wielkością reprezentatywną dla całego zbioru danych
(jej wartość poznawcza może być minimalna), dzieje
się tak gdy ustalimy tę średnią ze zbiorów
niejednorodnych. Dla przykładu jeżeli obliczymy
średnią arytmetyczną zarobków 6 pracowników, z
których 4 zarabia miesięcznie 1000 złotych a 2 6000
złotych to otrzymamy średnią, która o niczym nie
mówi.
Uwagi o średniej

 Taka analiza jest oczywiście nonsensem,


gdyż połączyliśmy pracowników, którzy
należą do zupełnie innych grup
zarobkowych, a obliczona średnia nie jest
reprezentatywna dla całej zbiorowości
pracowników. O tym, które zbiory
statystyczne uznajemy za jednorodne, a
które nie powinien decydować zdrowy
rozsądek.
Uwagi o średniej

Weźmiemy dwie miejscowości :


miasto A ma 60000 mieszkańców, a gęstość zaludnienia wynosi
400 osób/km2
miasto B ma 60000 mieszkańców, a gęstość zaludnienia wynosi
600 osób/km2
obliczmy średnią gęstość zaludnienia w obu miejscowościach wg
średniej arytmetycznej ilość osób na km2 wynosi
 

400  600
 500
2
Uwagi o średniej

ale czy to zostało prawidłowo policzone


obszary jakie zajmują miejscowości A i B wynoszą
odpowiednio:

60000
xA   150
400

60000
xB   100
600
Uwagi o średniej

średnia gęstość zaludnienia z obu miejscowości


wyliczona prawidłowo odbiega od średniej i wynosi :

120000
śr   480
150  100
MIARY PRZECIĘTNE (ŚREDNIE)

Średnia harmoniczna:
Średnią harmoniczną dla różnych od 0 liczb x1,...,xn nazywamy
odwrotność średniej arytmetycznej odwrotności tych liczb:

1
1 n
1  n
1
h
n  xi

 ;
xi
0
 i 1  i 1
MIARY PRZECIĘTNE (ŚREDNIE)

Dla szeregu rozdzielczego:

1
1 ni  k
h  
 n i 1 x i 
MIARY PRZECIĘTNE (ŚREDNIE)

Średnia geometryczna:
Średnią geometryczną dodatnich liczb x1,...xn nazywamy
następujące wyrażenie:

n
g n
x
i 1
i  ( x1  ...  xn )
n
Miary przeciętne (średnie)

Średnia geometryczna dla szeregu

n n1 nk
g  x 1  ...  x k

x i oznacza środek i-tej klasy ; ni jej liczebność ; k


ilość klas. We wszystkich wzorach.
Miary pozycyjne (moda)

Wartością modalną (dominantą) lub modą próbki


x1,...,xn o powtarzających się wartościach nazywamy
najczęściej powtarzającą się wartość o ile taka
istnieje i nie jest wartością minimalną ani
maksymalną. ( dla szeregów rozdzielczych
dominanta istnieje jeśli najliczniejszymi klasami nie
są pierwsza lub ostatnia)
Miary pozycyjne (moda)

Obliczanie mody: Dla szeregu punktowego


odczytujemy najczęściej powtarzający się wynik.
Dla szeregu rozdzielczego obliczanie mody przebiega
dwu etapowo:
 1) ustalamy klasę, w której jest moda (najliczniejsza
klasa o ile nie jest pierwsza ani ostatnia)
 2) obliczamy modę korzystając ze wzoru:
Miary pozycyjne (moda)

nl  nl 1
D  mo  xl  b
(nl  nl 1 )  (nl  nl 1 )
Miary pozycyjne (moda)

gdzie:
xl - dolna granica klasy, w której jest moda,
l - numer tej klasy,
nl-1,nl+1 - liczebności klas sąsiednich,
nl - liczebność klasy z modą,
b - długość klasy.
Miary pozycyjne (moda wyznaczanie graficzne)

Modę możemy wyznaczyć graficznie w


następujący sposób: łączymy koniec klasy
poprzedzającej klasę z modą z końcem klasy
modalnej, następnie łączymy początek klasy
modalnej z początkiem klasy następnej, punkt
przecięcia rzutujemy na oś, na której zaznaczamy
klasy i odczytujemy wartość modalną
Miary pozycyjne (moda wyznaczanie graficzne)

m0-moda

Jeśli liczebności klas sąsiednich są równe, to


modą nazywamy środek najliczniejszej klasy.
Miary pozycyjne (mediana)

Medianą lub wartością środkową me próbki x1,...,xn nazywamy


środkową wartość w uporządkowanej nie malejąco próbce
czyli:

 x( n 1) / 2 n  nieparzyste

me   1
 2 ( x n / 2  x ( n / 2 ) 1 ) n  parzyste
Miary pozycyjne (mediana)

Jeżeli dane są pogrupowane w szereg rozdzielczy to


obliczenie mediany jest dwuetapowe
 ustalamy klasę w której jest mediana:

1) jeśli n jest nieparzyste to obliczamy d=(n+1)/2


2) jeśli n jest parzyste to obliczamy d=n/2
Mediana znajduje się w klasie w której jest wartość
xd .
Miary pozycyjne (mediana)

Do obliczenia mediany wykorzystujemy następujący wzór:

b n m 1
me  xl  (   ni )
nm 2 i 1
Miary pozycyjne (mediana)

gdzie:
xl - dolna granica klasy wyznaczonej w etapie
pierwszym,
b - długość klasy,
nm - liczebność klasy zawierającej medianę,
m - numer klasy zawierającej medianę.
Miary pozycyjne (kwartyle)

Kwartyl I (Q1) dzieli zbiorowość uporządkowaną na dwie części w


ten sposób, że 25 % jednostek ma wartości cechy niższe a 75
% ma wartości cechy wyższe od Q1.




Q1
Miary pozycyjne (kwartyle)

Kwartyl III (Q3) dzieli zbiorowość uporządkowaną na dwie części


w ten sposób, że 75 % jednostek ma wartości cechy niższe a 25
% ma wartości cechy wyższe od kwartyla trzeciego.



Q3
Miary pozycyjne (kwartyle)

Dla szeregu rozdzielczego kwartyle obliczamy


dwu etapowo : na początku ustalamy klasy z
kwartylami ( dla dolnego to klasa w którą
wpada wynik (n/4) , a górnego wynik (3/4)n )
a następnie wykorzystujemy wzory:
Miary pozycyjne (kwartyl I (dolny))

q 1
b n
Q1  xl  (   ni )
nQ1 4 i 1
Miary pozycyjne (kwartyl I (dolny))

gdzie:
xl - dolna granica klasy zawierającej kwartyl dolny
( klasa w którą wpada wynik ćwiartkowy),
b - długość klasy,
- liczebność klasy zawierającej kwartyl dolny,
nq-Q1 numer klasy zawierającej kwartyl dolny;
Miary pozycyjne (kwartyl III (górny))

q 1
b 3n
Q3  xl  (   ni )
nQ3 4 i 1
Miary pozycyjne (kwartyl III (górny))

gdzie:
xl - dolna granica klasy zawierającej kwartyl górny
( klasa w którą wpada wynik ¾ n),
b - długość klasy,
n-Qliczebność
3 klasy zawierającej kwartyl górny,
q- numer klasy zawierającej kwartyl górny.
MIARY ROZPROSZENIA

Do miar rozproszenia zaliczamy :


1) Rozstęp
2) Odchylenie standardowe
3) Odchylenie przeciętne
4) Odchylenie ćwiartkowe
MIARY ROZPROSZENIA

Miarami rozproszenia nazywamy takie


parametry wartości badanej cechy, które
ukazują nam jak wyniki badań rozkładają się
względem pewnych parametrów badanych
dla próbki np. mediany, mody, średniej
arytmetycznej itp.
MIARY ROZPROSZENIA

Szczególną rolę odgrywa odchylenie


standardowe s od średniej
arytmetycznej, które definiujemy jako
pierwiastek z wariancji.
MIARY ROZPROSZENIA

Wariancją s2 próbki x1,..xn nazywamy średnią


arytmetyczną kwadratów odchyleń poszczególnych
wartości xi od średniej arytmetycznej:

1 2
n
s   xi  x
2 2

n i 1
MIARY ROZPROSZENIA

Dla szeregu rozdzielczego:

1 k
s   ( x i  x) ni
2 2

n i 1
MIARY ROZPROSZENIA

Odchyleniem przeciętnym od wartości danego parametru a


nazywamy średnią arytmetyczną wartości bezwzględnych
odchyleń poszczególnych wartości xi od tego parametru czyli:

1 n
d   xi  a
n i 1
MIARY ROZPROSZENIA

Dla danych zgrupowanych w szereg


rozdzielczy:

1 k
d   x i  a ni
n i 1
MIARY ROZPROSZENIA

Odchyleniem ćwiartkowym nazywamy


wartość Q określoną wzorem:

Q3  Q1
Q
2
MIARY ROZPROSZENIA (uwagi)

Jeżeli uwzględnimy 2/3 jednostek to wyniki


typowe będą w przedziale:

x  s  xtyp  x  s
MIARY ROZPROSZENIA (uwagi)

Odchylenie standardowe służy często do klasyfikacji


danych jednostek. Pod względem ich odbiegania od
typowości (normalności)

-
2
s -
s +
s +
2
s

x
T
y
p
ow
e
wy
n
ik
i
MIARY ROZPROSZENIA (uwagi)

 Ogólnie Q<d<s.
 Oczywiście posługiwanie się tymi miarami ma sens tylko
w przypadku analizy jednej cechy i jej wewnętrznego
zróżnicowania. Niestety jeżeli chcemy porównać
dyspersję w dwóch różnych strukturach, dla dwóch
różnych cech musimy posłużyć się względnymi miarami
zmienności. Szczególnie jeżeli chcemy dowiedzieć się
względem jakiej cechy jest bardziej zróżnicowana dana
zbiorowość.
WZGLĘDNE MIARY ROZPROSZENIA

Do względnych miar zmienności zaliczamy


współczynnik zmienności, oraz współczynnik
nierównomierności, które są określone
następująco:
WZGLĘDNE MIARY ROZPROSZENIA

Współczynnik zmienności:

s
  100%
x
WZGLĘDNE MIARY ROZPROSZENIA

Współczynnik nierównomierności (zmienności


względem odchylenia przeciętnego):

d1
H  100%
x
WZGLĘDNE MIARY ROZPROSZENIA

Współczynnik zmienności względem


odchylenia ćwiartkowego:

Q
Q  100%
me
Miary asymetrii

Najbardziej uniwersalną miarą do określenia asymetrii jest


tzw. współczynnik asymetrii.

M3
As  3
s
Miary asymetrii

Gdzie M3 jest momentem centralnym rzędu 3 i


wyraża się wzorem:

1
 
k
3
M 3   x i  x ni
n i 1
Miary asymetrii

Obliczając współczynnik asymetrii As możemy


też skorzystać z następujących przybliżonych
związków (szczególnie wtedy, gdy interesuje
nas tylko ogólny rozkład wyników):
Miary asymetrii

x  mo
As  lub
s
Q3  Q1  2me
As  lub
2Q
3(me  mo )
As 
2s
Miary asymetrii

Jeżeli As >0 to jest asymetria prawostronna; Jeżeli


As<0 to lewostronna; Jeżeli As =0 to mamy
symetrię.

1. asymetria lewostronna - więcej jest wyników


większych od średniej.
2. asymetria prawostronna więcej jest wyników
mniejszych od średniej.
3. As=0 mamy symetrię wyników względem
średniej
Miary asymetrii (uwagi)

Gdy szeregi są skrajnie asymetryczne, wtedy


szczególną rolę odgrywa analiza koncentracji
zjawiska. W takich przypadkach analiza szeregu za
pomocą poznanych miar jest często trudna lub w
ogóle niemożliwa. Wtedy zbadanie stopnia
koncentracji staje się podstawową czynnością, którą
musimy wykonać aby ocenić rozkład wartości cechy.
Służy do tego współczynnik koncentracji, który
obliczamy następująco:
Współczynnik koncentracji kurtoza

M4
K 4
s
Współczynnik koncentracji kurtoza

Gdzie

1 k
M 4   ( x i  x) ni
4

n i 1
Współczynnik spłaszczenia

Kolejnym wskaźnikiem związanym z koncentracją


wyników wokół średniej jest współczynnik
spłaszczenia nazywany ekscesem obliczany ze wzoru:

M4
g2  K  3  4  3
s
Analiza podobieństwa struktur

Do pomiaru podobieństwa struktur stosuje


się różne miary. Jedną z nich jest wskaźnik
podobieństwa struktur, określony wzorem:

k
w p   min w1i , w2i ,
i 1
Analiza podobieństwa struktur

Im podany współczynnik bliski jedności, tym struktury


badanych zbiorowości są bardziej podobne.

Przykład
Płace pracowników sieci hoteli „GRAND HOTEL” w
Rzeszowie i Przemyślu przedstawia tabela poniżej:
 
Analiza podobieństwa struktur

Numer klasy Place Liczba zatrudnionych (ni)


i xi Rzeszów Przemyśl
1 [800; 1000) 20 18
2 [1000; 1200) 8 8
3 [1200; 1400) 12 8
4 [1400; 1600) 10 6
Razem: 50 40
Źródło: dane umowne
Analiza podobieństwa struktur

Rozwiązanie:
Numer Place Liczba zatrudnionych (ni) w1i w2i min
klasy
I xi Rzeszów Przemyśl Rzeszów Przemyśl
1 [800; 1000) 20 18 0,4 0,45 0,4
2 [1000; 1200) 8 8 0,16 0,2 0,16
3 [1200; 1400) 12 8 0,24 0,2 0,2
4 [1400; 1600) 10 6 0,2 0,15 0,15
Razem: 50 40 Razem: 0,91
Analiza podobieństwa struktur

Płace pracowników sieci hoteli „GRAND HOTEL” w


Rzeszowie i Przemyślu są bardzo zbliżone.

Dokładniejszym sposobem porównywania jest


osobne przeanalizowanie statystyczne cech dla
każdej zbiorowości i zestawienie tych wyników.
Dla zobrazowania tej analizy posłużymy się
następującym przykładem z książki Heleny Kossyk -
Rokickiej „Statystyka nie jest trudna”.
Analiza podobieństwa struktur

Przykład: Załóżmy, że w trakcie badań


statystycznych prowadzonych nad wysokością
dodatkowych zarobków lekarzy i pracowników
wyższych uczelni uzyskano wyniki, które
można przedstawić w następującej tabeli.
Analiza podobieństwa struktur

Miernik Jednostka Wielkość


Lekarze Naukowcy
x zł 1364 1039
me zł 1368 980
mo zł 1482 880
Q1 zł 1057 780
Q3 zł 1599 1246
S zł 439 354
V % 32,2 34,1
xtyp(2/3) zł [952,1803] [685,1393]
As - -0,27 0,45
Analiza podobieństwa struktur

Powyższe zestawienie pokazuje, że:


 Przeciętny poziom dodatkowych zarobków jest u lekarzy
wyższy niż u naukowców.
 Ponieważ dla lekarzy A <0, a dla naukowców A >0 zatem
s s
wśród lekarzy przeważają ci, którzy zarabiają więcej od
średniej a wśród naukowców ci, którzy zarabiają mniej od
średniej.
 Obszar zmienności typowych wynagrodzeń jest dla
lekarzy większy i przesunięty bardziej w prawo w stronę
zarobków wyższych.
 Nie ma istotnych różnic w względnej przeciętnej
zmienności (V) tych wynagrodzeń wzg. Wartości
przeciętnej.
Przedziały ufności dla średniej

Przedział ufności jest to przedział liczbowy


określający przy z góry zadanym błędzie α do
jakiego przedziału należy średnia wartość.
Jego wyznaczane jest związane z strukturą
wyników i ich rozkładem. W zależności od tego
mamy 3 modele wyznaczania przedziału ufności:
Przedziały ufności dla średniej

Model 1. Badana cecha X ma rozkład normalny N(,)


gdzie -jest nieznane ,-jest znane.
Wtedy przedział ufności wyraża się następująco:

1  1 
[ x  u (1   ) , x  u (1   ) ]
2 n 2 n
Przedziały ufności dla średniej

Algorytm wyznaczania:

 obliczyć x (średnią arytmetyczną)


 odczytujemy z tablicy kwantyli rozkładu normalnego
kwantyl rzędu 1- 2 ;  u (1   )  przy zadanych n, 
 2 

n-liczebność próbki,
-odchylenie standartowe wyznaczamy przedział
ufności.
Przedziały ufności dla średniej

Model 2. Cecha X ma rozkład normalny N(,) gdzie , -są


nieznane. Wtedy przedział ufności ma postać:

 s  s
[ x  t (1  , n  1) , x  t (1  , n  1) ]
2 n 1 2 n 1
Przedziały ufności dla średniej

Algorytm:
 z próby wyliczamy x, s
 odczytujemy z tablicy kwantyli rozkładu t-studenta

o n-1 stopniach swobody wartość kwantyla rzędu 1- 2 ;
  
 t (1  , n  1) .
 2 
 wyznaczamy przedział
Przedziały ufności dla średniej

Model 3. Cecha X ma dowolny rozkład o nieznanych  i 2 . próba


liczy ponad 100 elementów. Wtedy przedział ma postać:
 

 s *
 s *
[ X  u (1  ) , X  u (1  ) ]
2 n 2 n
Przedziały ufności dla średniej

Algorytm:
 obliczamy X,s
* 2 1 2
 obliczamy (s ) = s (n-liczba wyników).
n 1
 odczytujemy z tablicy kwantyli rozkładu normalnego
kwantyl rzędu 1  2
 wyznaczamy przedział.
Normalność rozkładu

Do rozstrzygnięcia tej kwestii służą testy statystyczne.


Do testów najczęściej używanych zaliczają się Test
Kołmogorowa – Smirnowa (K-S), test K-S z
poprawką Lillieforsa oraz test (W) Shapiro – Wilka.
Normalność rozkładu

Test K-S oparty jest na porównaniu rozkładu w


próbie z teoretycznym rozkładem normalnym
zatem do jego stosowania potrzebna jest
znajomość średniej i odchylenia standardowego
w całej populacji, gdy tego nie znamy stosujemy
test K-S z poprawką Lilleforsa.
Test W jest bardziej polecany do próbek o
mniejszej liczebności niż 2 tysiące.
Jak to się robi w STATISTICA

 Przykład. Przeprowadź pełną analizę


statystyczną czasu dojazdu do pracy
pracowników pewnego zakładu jeśli po
przeprowadzeniu badania dotyczącego czasu
dojazdu do pracy 50 pracowników tego
zakładu uzyskano następujące wyniki w
minutach.
Jak to się robi w STATISTICA

9 43 26 33 33 33 27 37 50 32
10 22 27 27 30 30 42 43 44 33
34 39 27 28 11 11 54 57 31 32
30 33 9 31 18 24 60 40 42 48
34 36 29 14 34 29 36 36 49 62
Jak to się robi w STATISTICA
wpisywanie danych

deklarujemy ilość przypadków = ilość danych ( u nas 50)

nazywamy zmienne

wpisujemy dane w kolumnie

dostajemy okno
Jak to się robi w STATISTICA
Jak to się robi w STATISTICA

Tworzenie szeregu rozdzielczego 


na głównym pasku wybieramy Statystyka
Jak to się robi w STATISTICA

wybieramy moduł statystyki podstawowe i


tabele

wybieramy Statystyki opisowe, normalność,


ustalamy liczbę klas i tabela liczności daje w
wyniku szereg rozdzielczy postaci
Jak to się robi w STATISTICA
Jak to się robi w STATISTICA

Miary

W statystyki opisowe wybieramy więcej,


ustalamy które miary nas interesują i
podsumowanie
Dostajemy zestawienie
Jak to się robi w STATISTICA
Jak to się robi w STATISTICA

Sprawdzenie normalności i histogram

W statystykach opisowych wybieramy


normalność zaznaczamy właściwe testy i
histogram
Dostajemy:
Jak to się robi w STATISTICA

Histogram: czas dojazdu do pracy


K-S d=,11661, p> .20; Lilliefors p<,10
Shapiro-Wilk W=,96171, p=,10486
20
18
16
14
Liczba obs.

12
10
8
6
4
2
0
0 10 20 30 40 50 60 70
X <= Granica klasy
Jak to się robi w STATISTICA

Zmienna: czas dojazdu do pracy, Rozkład: Normalny


20
18
16
Liczba obserwacji

14
12
10
8
6
4
2
0
0 10 20 30 40 50 60 70
Kategoria (górna granica)

You might also like