Download as pdf or txt
Download as pdf or txt
You are on page 1of 69

Wnioskowanie statystyczne

Małgorzata Ćwil
mcwil@kozminski.edu.pl
Treści kształcenia
• Statystyka opisowa i matematyczna. Empiryczny rozkład cechy statystycznej i
podstawowe miary opisowe – repetytorium.
• Zmienna losowa i jej rozkład. Wybrane teoretyczne rozkłady zmiennych losowych
skokowych i ciągłych.
• Metody doboru jednostek do próby. Pojęcie rozkładu statystyki z próby losowej.
Centralne twierdzenie graniczne i jego zastosowanie. Rozkłady wybranych
statystyk z próby losowej.
• Estymacja: pojęcie estymatora, estymacja punktowa i przedziałowa. Przedziały
ufności dla wybranych parametrów struktury, ocena dokładności oszacowania i
ustalanie minimalnej liczebności próby.
• Weryfikacja hipotez statystycznych: rodzaje hipotez, błędy popełniane przy
weryfikacji hipotez, procedura testu istotności. Weryfikacja hipotez dotyczących
wybranych parametrów struktury, jednoczynnikowa analiza wariancji- testy
istotności, wybrane testy zgodności.
• Wnioskowanie w analizie korelacji i regresji: test niezależności stochastycznej,
przedziały ufności i testy istotności dla współczynnika korelacji i współczynnika
regresji liniowej.
Lektury
• Bielecka A., Statystyka dla menedżerów. Teoria i
praktyka, Oficyna a Wolters Kluwer business,
Warszawa 2011.
• Maksimowicz-Ajchel A., Zarys statystyki, WSiP,
Warszawa 2013.
• Bedyńska, S., & Cypryańska, M. (Eds.).
(2013). Statystyczny drogowskaz: Praktyczne
wprowadzenie do wnioskowania statystycznego.
Wydawnictwo Akademickie Sedno.
Zaliczenie - wnioskowanie

Forma Wpływ na ocenę


Egzamin pisemny 50%
Praca grupowa:
30%
raport statystyczny
Obecność, aktywność 20%
Zaliczenie - wnioskowanie

Forma Wpływ na ocenę


Egzamin pisemny 50 p.
Praca grupowa:
30 p.
raport statystyczny
Obecność, aktywność 25 p.
Co to jest statystyka?

Czy statystyce można wierzyć?


Czy statystykę można wykorzystać w praktyce?
Co to jest statystyka?
• Nauka:

- o poznawaniu państwa
status (łac.) = państwo

- zajmująca się badaniem ilościowych prawidłowości


zbiorowości, zjawisk masowych
- będąca działem matematyki stosowanej
Co to jest statystyka?

• Zbiór danych liczbowych dotyczących pewnych


zjawisk

Np.:
statystyka urodzeń/zgonów
statystyka sportowa
statystyka wypadków drogowych
statystyka dochodu narodowego
Co to jest statystyka?

• Parametr charakteryzujący zbiorowość

Np.:
przeciętne miesięczne wynagrodzenie absolwentów ALK,
dominujący wiek pracowników danej firmy,
odsetek osób popierających politykę państwa
Statystyka

Czy statystyce można wierzyć?


Uwaga!
350

300

250

200

150

100

50

0
2008 2009 2010 2011 2012 2013

330

310

290

270

250

230

210

190
2008 2009 2010 2011 2012 2013
Statystyka
Olga Tokarczuk,
Prowadź swój pług przez kości umarłych

„Młodzi ludzie bezrefleksyjnie i z religijną gorliwością


wierzą w statystykę. Wystarczy podać im coś w
procentach albo ujęte jako prawdopodobieństwo, a już
to biorą za dobrą monetę”
Statystyczne ABC
Zbiorowość
Podzbiorowość
Populacja będąca
przedmiotem Jednostka
Grupa osób
badania podobnych ze Najmniejszy
względu na pewne element
właściwości zbiorowości, N
Podział statystyki
• Zbieranie danych
Statystyka • Prezentacja danych
• Analiza struktury zbiorowości,
opisowa współzależności, dynamiki zjawisk

• Metody wnioskowania o
Statystyka właściwościach zbiorowości
statystycznej na podstawie
matematyczna danych z próby
• Wykorzystuje rachunek prawd.
Opis statystyczny
Zbiorowość statystyczna

Cecha X
Cecha Y

Cecha Z
Wnioskowanie statystyczne
Zbiorowość statystyczna Próba

Cecha X próbkowanie

Cecha Y X, Y, Z

wnioskowanie
Cecha Z
Zbiorowość próbna = próba
• Podzbiór populacji generalnej,
• Obejmuje część elementów populacji,
wybranych w określony sposób
• Podlega badaniu statystycznemu
• Wynik jest uogólniany na zbiorowość
generalną (gdy próba reprezentatywna,
dobrana w sposób losowy)
Badanie częściowe
• Nielosowy dobór jednostek do próby
- dobór jednostek typowych
np. typowa Polka = wiek 30-35 lat, średnie wykształcenie,
mieszka w mieście 100-200 tys. mieszkańców
- dobór kwotowy
struktura próbki = struktura zbiorowości
- dobór metodą kuli śnieżnej
badane jednostki wskazują kolejne do badania
- dobór przypadkowy (≠ losowy!)
Nie zawsze istnieje możliwość zbadania całej
populacji statystycznej

• Badana populacja ulega zniszczeniu lub


wyginięciu podczas badania statystycznego
• Zbiorowość jest zbyt liczna
• Koszty i czas
Cecha statystyczna
• Cecha statystyczna = zmienna statystyczna
• Właściwość elementów populacji, ze względu
na którą prowadzimy badanie statystyczne
• Warianty cechy = wartości cechy
Przykład
• Populacja: samochody osobowe, których
właścicielami są studenci ALK
• Jednostki:
• Cechy:
• Podzbiorowości:
Klasyfikacja cech statystycznych

Cechy
statystyczne

Stałe Zmienne

Rzeczowe Czasowe Przestrzenne Ilościowe Jakościowe

Ciągłe Skokowe
Rodzaje cech statystycznych
Cechy
Stałe/zmienne statystyczne

Stałe Zmienne

Stałe – wspólne dla wszystkich jednostek zbiorowości


(rzeczowe, czasowe, przestrzenne)

Zmienne – różnicują jednostki w ramach zbiorowości


Rodzaje cech statystycznych
Cechy
Jakościowe/ilościowe zmienne

Ilościowe Jakościowe

Jakościowe – niemierzalne, warianty są wyrażone za


pomocą słów, klasyfikują do poszczególnych kategorii

Ilościowe – mierzalne, można mierzyć za pomocą liczb


Rodzaje cech statystycznych
Cechy
ilościowe
Skokowe/ciągłe/quasi-ciągłe Quasi-
Ciągłe Skokowe
ciągłe

Skokowe – warianty wyrażone za pomocą liczb należących


do zbioru przeliczalnego, skończonego

Ciągłe – warianty wyrażone za pomocą liczb rzeczywistych

Quasi-ciągłe – z natury skokowa, ale traktowana jak ciągła


W jaki sposób mierzyć
cechy statystyczne?
Pomiar statystyczny
Skale pomiarowe

Nominalna

Porządkowa

Przedziałowa (interwałowa)

Stosunkowa (ilorazowa)
Skala nominalna
• identyfikacja badanej jednostki ze względu
na posiadanie lub nie określonych
wariantów (typów) cechy
• słaba

Np.:
- kierunek studiów,
- zajmowane stanowisko,
- źródło informacji
Skala porządkowa
• Jak nominalna + porządkowanie według
intensywności posiadania danej cechy,
intensywność nie jest dokładnie zmierzona
• Relacje mniejszości, równości, większości,
• Skala słaba

Np.:
- zdolność kredytowa firmy: mała/średnia/duża,
- cena: bardzo wysoka/wysoka/dość
wysoka/średnia/dość niska/niska
Skala przedziałowa (interwałowa)
• Jak porządkowa + jednostka miary do ustalania
różnic między poszczególnymi wariantami cechy,
odstępy na skali takie same
• Początek skali stanowi tzw. zero względne
• Można wykonywać operacje dodawania i
odejmowania
• Skala silna

Np.:
- zdolność kredytowa firmy: skala 1-10,
- stopień zadowolenia klienta z obsługi: skala 0 –100
Skala ilorazowa (stosunkowa)
• Jak przedziałowa + naturalna jednostka miary z
zerem absolutnym
• Możliwość obliczenia stosunku pomiaru dwóch
jednostek
• Skala silna

Np.:
• koszty funkcjonowania biura
• czas dostawy
• wysokość funduszu socjalnego
• staż pracy w firmie
• wiek pracownika
Wybór skali pomiarowej decyduje o
możliwościach wyboru odpowiednich form
prezentacji i analizy.

Największe możliwości opracowań


zebranych danych występują w przypadku
skali stosunkowej, najmniejsze – w skali
nominalnej.
Przykład – zadowolenie klientów
• Skala nominalna
zadowolony/niezadowolony

• Skala porządkowa
bardzo niezadowolony/średnio niezadowolony/
średnio zadowolony/bardzo zadowolony

• Skala przedziałowa

0 10
Badanie statystyczne
• proces, którego celem jest zebranie danych,
przetworzenie ich oraz interpretacja wyników
Zakres badania

• Obejmuje wszystkie jednostki badanej zbiorowości


Badanie •

Wysokie koszty, długi czas
Brak generalizacji wyników
pełne • Np. Spis Narodowy

• Obejmuje tylko część jednostek badanej


Badanie zbiorowości
• Niższe koszty, krótszy czas
częściowe • Generalizacja wyników na populację
Źródło badania

• Desk research
• Dane były zebrane wcześniej na inne potrzeby
Źródło •

Źródła wewnętrzne firmy/zewnętrzne
Niskie koszty, szybki dostęp
wtórne • Niedostosowane do potrzeb danego badania

• Field research
• Informacje zbierane specjalnie na
Źródło potrzeby określonego badania
• Konieczność dotarcia do jednostek
pierwotne badanych
• Wysokie koszty, bardziej czasochłonne
Etapy badań statystycznych

Zbieranie Prezentacja Analiza


Projektowanie
danych danych wyników
Projektowanie badania
Problem Podmiot
Cel badania
badawczy badania

Przedmiot
Źródło danych Zakres badania
badania

Przygotowanie
Czas trwania
organizacyjno-
badania
techniczne
Miary statystyczne

• Kryterium podziału: informacje, jakie


przynoszą o rozkładzie cechy w zbiorowości

Miary
statystyczne

Miary poziomu Miary Miary Miary


wartości dyspersji skośności spłaszczenia
Miary statystyczne
• Kryterium podziału: zakres danych, jakie są
potrzebne do ich wyliczenia
Miary
statystyczne

Miary Miary
klasyczne pozycyjne

• Klasyczne – do wyliczenia wykorzystuje się wartości cechy


zaobserwowane u wszystkich jednostek
• Pozycyjne – niektórych jednostek
Rodzaj miary: Klasyczne (wszystkie jednostki) Pozycyjne (wybrane jednostki)
Miary poziomu Absolutne
(przeciętne, • średnia arytmetyczna •dominanta
tendencji •mediana,
centranej, • średnia geometryczna •kwantyle  kwartyle , decyle , percentyle itp.
średnie)

Miary Absolutne Stosunkowe Absolutne Stosunkowe


zróżnicowania ( o ile?) (jak bardzo?) ( o ile?) (jak bardzo?)
(dyspersji, •odchylenie •współczynnik • rozstęp • współczynniki
zmienności, przeciętne zmienności klasyczny zmienności pozycyjne
rozproszenia) • odchylenie
•wariancja międzykwartylowe

•odchylenie • odchylenie
standardowe ćwiartkowe
Miary asymetrii Absolutne Stosunkowe Absolutne Stosunkowe
(skośności) (jaki jest (jaki jest (jaki jest kierunek?) (jaki jest
kierunek?) kierunek i siła) kierunek i siła)
•miernik asymetrii • współczynnik •miernik asymetrii •współczynniki
klasyczny asymetrii klasyczny pozycyjny asymetrii pozycyjne
Miary Absolutne Stosunkowe
spłaszczenia • miernik kurtozy • współczynnik
(kurtozy) kurtozy
Średnia arytmetyczna
• wypadkowa wartości cechy spotykanych u wszystkich jednostek
badanej zbiorowości; wartość cechy przypadająca na jedną jednostkę
przy równomiernym rozłożeniu ogólnej sumy wartości cechy na
wszystkie badane jednostki; wartość abstrakcyjna.
n

x i
Szereg prosty X = i =1
N
k

x i  ni k
X = i =1
=  xi  ni
,
Szereg punktowy k

n i =1
i
i =1

 xi ni
o
r
Szereg przedziałowy X  i =1
=  xi ni
o ,
r

 nii =1
i =1

=ŚREDNIA(…)
Przykład
Niech xi będzie wielkością sprzedaży (w tys. zł.) w 2010 r. 10 pracowników
zatrudnionych w firmie sprzedającej farmaceutyki.

i 1 2 3 4 5 6 7 8 9 10 Razem
xi 251 150 102 61 52 71 82 183 202 159 1313

Średnia roczna sprzedaż przypadająca na każdego z handlowców

251 + 150 + .... + 159 1313


X= = = 131,3 tys.zł .
10 10
Przykład
Wyjazdy zagraniczne pracowników firmy:
Średnia arytmetyczna liczby wyjazdów zagranicznych

57
Przykład
Wyjazdy zagraniczne pracowników firmy
Liczba Liczba
wyjazdów pracowników
n i` x i ni xi ni`
0 25 0,25 0 25= 0 0  0,25= 0,00
1 35 0,35 1 35= 35 1  0,35= 0,35
2 23 0,23 2 23= 46 2  0,23= 0,46
3 10 0,1 3 10= 30 3  0,10= 0,30
4 7 0,07 4 7= 28 4  0,07= 0,28
100 1 139 1,39
k =5

x i  ni k =5
139
X =  xi  ni = 1,39
,
X = i =1
k =5
= = 1,39
 ni
100 i =1

i =1
58
-
Przykład
Zużycie paliwa samochodów na 100 km
-
Przykład
Zużycie paliwa samochodów na 100 km
xio − xi1 ni n i` xio xio ni xio ni`

4 - 6 8 0,1111 5 5  8 = 40 5  0,1111= 0,5555


6 - 8 20 0,2778 7 7 20 =140 7  0,2778=1,9445
8 - 10 11 0,1528 9 9 11 = 99 9  0,1528=1,3750
10 -12 19 0,2639 11 1119 =209 11  0,2639=2,9028
12 -14 8 0,1111 13 13  8=104 13  0,1111=1,4444
14 -16 6 0,0833 15 15 6 =90 15  0,0833=1,2500
Razem 72 1,0000 682 9,4722

r =6

 x i ni
o
r =6
X   xi ni = 9,472
682 o ,
X  i =1
r =6
 = 9,472
 ni
72 i =1

i =1
Mediana
• wartość cechy, która dzieli zbiorowość na dwie
liczebnie równe części
• wartość cechy, jaką posiada jednostka zajmująca
pozycję środkową w uporządkowanym ciągu wartości
• 50% jednostek ma wartości cechy mniejsze lub równe
od mediany, 50% jednostek ma cechy większe lub
równe medianie

„pokaż kotku co masz w środku”

=MEDIANA(…)
Mediana w szeregu prostym

liczebność nieparzysta liczebność parzysta

x N / 2 + x( N +2)/ 2
M = x( N +1) / 2 M=
2
Mediana

Brak wpływu Najpierw ->


wartości skrajnych uporządkować
Dla zmiennych o
charakterze
porządkowym
Łatwo wyznaczyć
Średnia vs mediana
Mieszkasz w miasteczku, w którym jest 1000 mieszkańców. Wszyscy
mieszkańcy w przybliżeniu zarabiają 80,000 zł rocznie.
Dla uproszczenia przyjmijmy, że średnia arytmetyczna i mediana w
przybliżeniu wynoszą 80,000 zł.
Pewnego dnia jeden z najbogatszych Polaków decyduje się, żeby
przeprowadzić się do Twojego miasteczka. Jego zarobki w obecnym roku
wynoszą 1 miliard zł.

Jak zmienią się miary tendencji centralnej?

Mediana 1 = 80 000
Mediana 2 = 80 000

Średnia 1 = 80 000
Średnia 2 = 1 080 000
Dominanta
- wartość modalna, moda, ang. Mode
- wartość (lub wariant) cechy, która występuje
najczęściej wśród wartości (wariantów)
jednostek badanej zbiorowości,
- wartość cechy, wokół której skupia się
najwięcej jednostek badanej zbiorowości

=WYST.NAJCZĘSCIEJ.WART(…)
Miary dyspersji
Pięciu pracowników pewnej firmy ma staż pracy odpowiednio (w latach):
6, 3, 0, 2, 4
6 + 3 + 0 + 2 + 4 15
Średni staż pracy w tej grupie osób X = = =3
5 5
Każdy z pracowników odchyla się od średniego stażu o : +3, 0, -3, -1, +1.
Jakie jest średnie odchylenie od wartości średniej ?

i 1 2 3 4 5 Razem
N
xi 6 3 0 2 4 15  (x i − X)
i =1
=0
N
xi − X +3 0 -3 -1 +1 0
Miary dyspersji
Rozwiązanie problemu

Wariant I

( xi − X ) 2 9 0 9 1 1 20

 (x )
5
2
i −X
i =1 20
= =4
Wariant II 5 5

xi − X 3 0 3 1 1 8
5

x
i =1
i −X
8
= = 1,6
5 5
Wariancja
Średnia arytmetyczna kwadratów odchyleń poszczególnych
wartości cechy od jej średniej arytmetycznej.

Szereg prosty Szereg punktowy Szereg przedziałowy

 (x )  (x )  (x )
N k r
2
− X ni
2 2
−X
o
i − X ni i
S 2 (x ) 
i
S (x ) = S 2 (x ) = i =1 i =1
2 i =1
k r
N n
i =1
i n i =1
i

N k

x 2
i x 2
i ni r

 xi0 ni
2

S 2 (x ) = S 2 (x ) =
2 2
i =1
−X
i =1
k
−X S 2 (x )  i =1
−X
2

N
 ni
r

i =1
n i =1
i

Wzór uproszczony:
=WARIANCJA(…)
S ( x) = X − ( X )
2 2 2
Odchylenie standardowe
- przeciętnie odchylenie wartości cechy od jej średniej arytmetycznej;
- pierwiastek kwadratowy ze średniej arytmetycznej kwadratów
odchyleń poszczególnych wartości cechy jednostek badanej
zbiorowości od jej średniej arytmetycznej.

S ( x) = + S ( x) 2

Przeciętne odchylenie wstaw nazwę cechy


od średniej równej wstaw wartość średniej arytmetycznej
wynosi wstaw odchylenie standardowe.
=ODCH.STAND.POPUL(…)
Współczynnik zmienności
- względna, klasyczna miara zróżnicowania cechy

• Współczynnik zmienności zazwyczaj podaje się w procentach.


• Współczynnik zmienności jest stosowany najczęściej przy
porównywaniu zróżnicowania cechy w dwóch różnych
rozkładach.
Współczynnik asymetrii

Ustala kierunek i siłę asymetrii


• Klasyczny
 (x )
N
1 3
i −X
N
Vskl = i =1

Vskl  (−2;+2) S (x ) 3

Słaba asymetria rozkładu: Vskl  (0;0,65)


Asymetria umiarkowana: Vskl  0,65;1,3)
Silna asymetria rozkładu: Vskl  1,3;2)
=SKOŚNOŚĆ(…)
Współczynnik kurtozy
• Współczynnik spłaszczenia, współczynnik ekscesu
• Dla danych niepogrupowanych

 (x − X )
N
1 4
i
N
Vkurt = i =1
4
−3
S ( x)

Rozkład wysmukły: Vkurt  0


Rozkład spłaszczony: Vkurt  0
Rozkład normalny
Jeżeli współczynnik asymetrii i kurtozy należy do
przedziału:
<-1; 1>
To możemy przyjąć, że rozkład jest w
przybliżeniu rozkładem normalnym
SPSS
• Analiza -> Opis statystyczny -> Statystyki
opisowe

• Analiza -> Opis statystyczny -> Częstości

• Analiza -> Opis statystyczny -> Eksploracja


Rozkład normalny
Jeżeli cecha przyjmuje rozkład normalny ->
stosujemy średnie
Jeżeli cecha nie przyjmuje rozkładu normalnego
-> stosujemy mediany
Pudełko z wąsami

Jednostki nietypowe:

x nietyp  Q3.4 + 1,5  (Q3.4 − Q1.4 )

x nietyp  Q1.4 − 1,5  (Q3.4 − Q1.4 )


Wykres ramkowy: STAŻ
28

22

16
STAŻ

10

Min-Maks.
25%-75%
-2
kierownicze niekierownicze Mediana

Stanowisko
Histogram

You might also like