Download as pdf or txt
Download as pdf or txt
You are on page 1of 220

Projekt pn.

„Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych”

realizowany w ramach Poddziałania 4.1.1 Programu Operacyjnego Kapitał Ludzki

Joanna Karłowska-Pik

Statystyka matematyczna
z IBM SPSS Statistics
dla humanistów i przyrodników
Wersja z dnia 14 czerwca 2014

Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego


Wstęp

Skrypt Statystyka matematyczna z IBM SPSS Statistics dla humanistów i przy-


rodników jest rozszerzeniem skryptu Statystyka matematyczna. Ćwiczenia la-
boratoryjne realizowane z wykorzystaniem pakietu IBM SPSS Statistics. Ni-
niejsze rozszerzenie powstało na potrzeby uczestników kursu Statystyka dla
humanistów i przyrodników.
Zajęcia są prowadzone w oparciu o program IBM SPSS Statistics w wersji
21.0.0.1 (najnowszej). Skrót SPSS tłumaczy się jako Statistical Package for
the Social Sciences, ale metody zaimplementowane we wspomnianym opro-
gramowaniu już od dawna są stosowane poza kręgiem nauk społecznych.
Wraz z konkurencyjnym programem Statistica i darmowym środowiskiem
R pakiet SPSS należy do najczęściej wykorzystywanych narzędzi analitycz-
nych zarówno na polskich i zagranicznych uczelniach wyższych, jak i w wielu
firmach różnych branż.
Licencja posiadana przez Uniwersytet Mikołaja Kopernika pozwala na
instalację programu IBM SPSS Statistics na komputerach domowych pra-
cowników i studentów, co jest szczególnie ważne w przypadku prowadzenia
zajęć zdalnych. Jedynym warunkiem udostępnienia programu studentom jest
zapoznanie ich z warunkami umowy licencyjnej oraz podpisanie przez nich
stosownego oświadczenia. Wzory oświadczeń oraz dostęp do oprogramowa-
niem mają osoby prowadzące zajęcia. 14-dniowa wersja próbna jest dostępna
na stronie SPSS Statistics Desktop firmy IBM pod adresem

http://www-03.ibm.com/software/products/en/spss-stats-base/
(dostęp z dnia 04.03.2014).

Wykorzystywane w ćwiczeniach pliki danych są dostępne na platformie


Moodle lub są plikami przykładowymi programu, które można znaleźć w ka-
talogu

C:\\Program Files\IBM\SPSS\Statistics\21\Samples\Polish.

Praca ze skryptem polega na przeczytaniu części teoretycznej, samodziel-


nym wykonaniu ćwiczeń, porównaniu otrzymanych wyników z zamieszczony-

3
mi rozwiązaniami i w przypadku rozbieżności ponownym wykonaniu zamiesz-
czonych w ćwiczeniu poleceń. Skrypt jest skierowany do osób posługujących
się systemem Windows w stopniu co najmniej podstawowym oraz posiada-
jących elementarną wiedzę z zakresu teorii prawdopodobieństwa.
Gwiazdką oznaczono tematy nieobowiązkowe przeznaczone dla osób szcze-
gólnie zainteresowanych metodami statystycznymi i oprogramowaniem SPSS.

4
Rozdział 1.

Metody wyboru próby

Populacja to określony teoretycznie zbiór elementów badania odpowiadają-


cy pojęciu przestrzeni elementarnej w teorii prawdopodobieństwa. Definiując
populację, należy bardzo starannie ją opisać. Jeśli tematem badania byłoby
nieostre pojęcie „Amerykanie”, to wyodrębnienie populacji zawierałoby defi-
nicję elementu „Amerykanie” (na przykład poprzez obywatelstwo, zamiesz-
kanie) oraz czasu odnoszącego się do badania (Amerykanie kiedy?). [1, str.
218].
Operat losowania to materiał jednoznacznie odwzorowujący badaną
zbiorowość statystyczną. Jest to kompletny wykaz jednostek badanej zbio-
rowości statystycznej, którym przydzielono odpowiednie symbole identyfika-
cyjne (najczęściej liczby) w celu dokonania wyboru próby. Podstawową rolą
operatu losowania jest zapewnienie dotarcia do każdej jednostki populacji,
umożliwienie każdej jednostce dostanie się do próby i uniknięcie podwójne-
go badania niektórych jednostek (w przypadku badań pełnych). Operatorem
losowania mogą być listy grup studenckich, komputerowa baza danych klien-
tów firmy, wyciąg z rejestru NIP czy REGON, itp.
(za http://www.stat.gov.pl/gus/definicje PLK HTML.htm?id=POJ-7255.htm,
dostęp z dnia 05.03.2014).
Nieformalnie próbę definiujemy jako pewien podzbiór elementów całej
populacji. Przede wszystkim musi być to próba reprezentatywna dla całej
populacji w tym sensie, że dowolny obiekt ma dodatnie prawdopodobieństwo
znalezienia się w niej. [. . .] Warunek wyboru próby reprezentatywnej dla roz-
patrywanej populacji jest warunkiem koniecznym dla poprawności wyciąga-
nych wniosków o tej populacji. Czasami rozpatruje się postulat mocniejszy od
reprezentatywności mówiący, że wszystkie próby o ustalonej liczności powinny
mieć takie samo prawdopodobieństwo wyboru. [. . .] postulat ten jest spełniony
dla [. . .] schematu prostego losowania bez zwracania, a nie jest prawdziwy w
przypadku innych naturalnych schematów losowania. [6, str. 399 i 400].

5
W statystyce próbą losową prostą o liczności n nazywamy ciąg nieza-
leżnych zmiennych losowych X1 , X2 , . . . , Xn o jednakowym rozkładzie. Kon-
kretny ciąg wartości x1 , x2 , . . . , xn próby losowej X1 , X2 , . . . , Xn jest nazywa-
ny realizacją próby losowej. Próbę losową prostą otrzymujemy realizując
schemat losowania ze zwracaniem. Natomiast nie otrzymamy jej realizując
schemat losowania bez zwracania. Tyko gdy liczność populacji jest bardzo
duża, możemy przyjąć, że w schemacie losowania bez zwracania otrzymamy
przybliżenie próby losowej prostej.

Podstawowe schematy losowania prób

• Schemat prostego losowania ze zwracaniem – raczej rzadki, ale dający


rzeczywiście próbę losową prostą.

• Schemat prostego losowania bez zwracania – zapewnia, że wszystkie


próby o ustalonej liczności mają takie samo prawdopodobieństwo wy-
boru.

• Schemat losowania Bernoulliego – każdy element populacji klasyfikuje-


my do próby z pewnym ustalonym prawdopodobieństwem p niezależnie
od pozostałych. W wyniku otrzymujemy próbę losową prostą, ale liczba
elementów takiej próby jest losowa.

• Schemat losowania systematycznego – nie spełnia postulatu przypisania


tego samego prawdopodobieństwa podzbiorom o jednakowej liczebno-
ści.

• Schemat losowania warstwowego.

• Schemat losowania grupowego.

• Schemat losowania wielostopniowego.

Więcej informacji na temat schematów losowania można znaleźć w książce


E. Babbiego [1].
Uwagi: Zasadniczo w podstawowych metodach statystycznych zakłada się,
że dysponujemy próbą losową prostą. Dla prób złożonych (losowanie warstwo-
we, grupowe itp.) należy stosować bardziej złożone analizy dostępne w modu-
le Complex Samples programu IBM SPSS Statistics. Z menu należy wybrać
Analiza –> Próby złożone...

6
Rozdział 2.

Podstawy pracy w IBM SPSS


Statistics

2.1. Instalacja oprogramowania


Do instalacji podstawowej wersji potrzebna jest 1 płyta dvd z programem
oraz 1 płyta cd zawierająca Bonus Pack. Po uruchomieniu płyty (setup.exe,
najlepiej na koncie użytkownika z prawami administratora) pojawia się menu,
z którego wybieramy Instalacja IBM SPSS Statistics 21 (uruchomie-
nie instalatora może trwać dłuższą chwilę). Następnie w oknie IBM SPSS
Statistics 21 – InstallShield Wizard:
• Czytamy informacje i klikamy Dalej.
• Zaznaczamy Licencja typu Site i klikamy Dalej.
• Czytamy informacje o licencji i zaznaczamy Akceptuję warunki
umowy licencyjnej i klikamy Dalej.
• Wpisujemy:
– Nazwa użytkownika – imię i nazwisko,
– Organizacja – nazwa uniwersytetu.
• Klikamy Dalej.
• Wybieramy języki pomocy (domyślnie jest to język polski) i klikamy
Dalej.
• Odpowiadamy na pytanie o JAWS dla oprogramowania odczytu ekra-
nu (oprogramowanie dla osób niewidomych czytające treści z ekranu
komputera). Domyślna odpowiedź: Nie. Klikamy Dalej.

7
• Wskazujemy folder docelowy, domyślnie:

C:\\Program Files\IBM\SPSS\Statistics\21\

i klikamy Dalej.

• Klikamy Instaluj.

Po zakończeniu otrzymujemy komunikat o pomyślnej instalacji. Po naci-


śnięciu OK przystępujemy do autoryzacji.
Uwagi:

• Domyślnie mamy zaznaczone Kliknij tutaj, aby zarejestrować


się... Możemy to odznaczyć, jeśli nie chcemy rejestrować się na stronie
producenta (ale wówczas nie będziemy mieli dostępu np. do aktualizacji
oprogramowania).

• W celu dokonania autoryzacji konieczne jest podłączenie komputera do


internetu!

Autoryzacja produktu wymaga wprowadzenia kodu – można go otrzymać


od osób prowadzących zajęcia.

• Wybieramy Uzyskaj teraz licencję. Klikamy Dalej.

• Wprowadzamy kod. Klikamy Dalej.

• Otrzymujemy komunikat, że autoryzacja powiodła się i pomyślnie prze-


tworzono wszystkie kody. Klikamy Dalej i Zakończ.

• W oknie powitalnym klikamy Zakończ (możliwa jest instalacja Essen-


tials for Python, Essentials for R oraz wtyczki integracji dla systemu
Microsoft.Net, ale nie będą one potrzebne w czasie realizowanych przez
nas zajęć).

Uwagi: Po upływie okresu ważności kodu, należy uzyskać nowy kod i wpro-
wadzić go, wybierając Start –> Wszystkie programy –> IBM SPSS
Statistics –> Kreator autoryzacji licencji. Nie trzeba instalować
programu ponownie (chyba, że pojawiła się nowa wersja).
Przystępujemy do instalacji materiałów znajdujących się na płycie PS
Bonus Pack (autosetup.exe). Są tam m.in. mapy do kartogramów, nowe style
tabel i samouczek IBM SPSS Statistics.

• Klikamy Instaluj PS Bonus Pack do IBM SPSS Statistics 21.

8
• Postępujemy zgodnie z zaleceniami kreatora instalacji Bonus Packa
i klikamy Dalej.
• Czytamy warunki umowy licencyjnej i klikamy Zgadzam się.
• Wybieramy katalog docelowy dla Bonus Packa, domyślnie

C:\\Program Files\IBM\SPSS\Statistics\21\

i klikamy Zainstaluj.
• Pojawia się komunikat o konieczności zainstalowania Essentials for Py-
thon (wtyczka SPSSa do języka Python). Klikamy OK.
• W oknie kreatora instalacji dla Essentials for Python czytamy infor-
macje o licencji i klikamy Next.
• Czytamy treść umowy licencyjnej, zaznaczamy I accept the terms
in the license agreement i klikamy Next.
• Czytamy informację o instalowanych elementach i klikamy Next.
• Wskazujemy katalog, w którym zainstalowaliśmy IBM SPSS Statistics
21 i klikamy Next.
• Czytamy, gdzie zostanie zainstalowany Python, i klikamy Install.
• Otrzymujemy komunikat o pomyślnej instalacji Pythona i klikamy Fi-
nish.
• Otrzymujemy komunikat o pomyślnej instalacji Bonus Packa. Możemy
od razu uruchomić program IBM SPSS Statistics 21, zaznaczając tę
opcję. Klikamy Zakończ.
Uwagi:
• W przypadku komunikatu, że zapora systemu Windows zablokowała
niektóre funkcje tego programu, można kliknąć Anuluj.
• Przy pytaniu o sposób kodowania znaków, można kliknąć Użyj kodo-
wania Unicode.
• Warto zwrócić uwagę, że na płycie z Bonus Packiem znajduje się sa-
mouczek programu IBM SPSS Statistics zawierający wiele prezentacji
multimedialnych, które mogą w przyszłości ułatwić naukę pracy z pro-
gramem.

9
2.2. Uruchamianie oprogramowania
Program uruchamiamy, klikając dwukrotnie odpowiednią ikonę, bądź wybie-
rając Start –> Wszystkie programy –> IBM SPSS Statistics –>
IBM SPSS Statistics 21.
Po uruchomieniu programu pojawia się okno dialogowe. Można od razu
z niego coś wybrać lub kliknąć Anuluj.
Program pozwala na pracę z następującymi oknami:

• Okno danych. Plik –> Otwórz –> Dane... Pliki danych programu
IBM SPSS Statistics mają rozszerzenie .sav.

• Okno raportów. Plik –> Otwórz –> Raport... Pliki raportów


programu IBM SPSS Statistics mają rozszerzenie .spv.

• Okno poleceń. Plik –> Otwórz –> Polecenia... Pliki poleceń


programu IBM SPSS Statistics mają rozszerzenie .sps.

• Okno edytora skryptów. Plik –> Otwórz –> Skrypt... Pliki skryp-
tów programu IBM SPSS Statistics mają rozszerzenie .wwd bądź .py.

2.3. Okno danych


Okno ma postać arkusza z danymi. Bezpośrednio nad wierszem zawierającym
nazwy zmiennych znajduje się pole, w którym można odczytać pozycję (czyli
numer wiersza i nazwę kolumny) aktywnej komórki, oraz pole, w którym
można edytować zawartość tej komórki.
Kolumny w arkuszu danych są nazywane zmiennymi, a wiersze obser-
wacjami. Po najechaniu myszką na nazwę zmiennej pojawia się etykieta
z opisem zmiennej.
W pasku ikon jako czwarta od prawej strony znajduje się ikona Etykiety
wartości, która pozwala na zamianę wartości zmiennych na ich etykiety i na
odwrót.

10
U dołu arkusza znajdują się dwie zakładki pozwalające na przełączanie
się z arkusza danych do arkusza specyfikacji zmiennych. Dla każdej zmiennej
określone są tam:

• Nazwa– krótka nazwa zmiennej, długości do 64 bajtów, nie może


zawierać spacji, nie może zaczynać się cyfrą, ani kończyć kropką, nie
może zawierać znaków specjalnych;

• Typ – po uaktywnieniu tej komórki pojawiają się ..., wystarczy kliknąć


na nie myszką i otwiera się okienko, pozwalające zmienić typ zmiennej
na np. numeryczny, tekstowy, dolar, itp.

• Szerokość – liczba znaków, którą maksymalnie będą miały wpisywa-


ne dane;

• Dziesiętne – liczba widocznych miejsc dziesiętnych, wpisuje się tylko


dla danych liczbowych;

• Etykieta – pełna charakteryzacja zmiennej, można tutaj wpisać do-


kładną informację o rodzaju danych umieszczonych w danej kolumnie;

• Wartości – jeżeli zmienna przyjmuje tylko kilka powtarzających się


wartości (najczęściej tekstowych), np. kolor oczu: niebieskie, zielone,
piwne, brązowe, to możemy je oznaczyć liczbami i w tym polu zdefi-
niować etykiety tych wartości;

• Braki danych – wartości zmiennej, które program ma traktować jako


braki danych i nie wliczać ich np. do wyznaczanych statystyk.

11
• Kolumny – liczba znaków w kolumnie (szerokość kolumny), powinna
być tak dobrana, żeby mieściły się dane i nazwy zmiennych;

• Wyrównanie – wyrównanie danych: do lewej, do prawej lub central-


nie;

• Poziom pomiaru – można wybrać:

– ilościowy, gdy ważne jest, żeby dane porównywać i móc wykony-


wać na nich działania, np. A jest dwa razy cięższy niż B;
– porządkowy, gdy ważne będzie porównywanie danych, np. oceny
na koniec roku szkolnego;
– nominalny, gdy na danych nie wykonujemy żadnych operacji, np.
numer PESEL, nazwisko.

• Rola – służy do oznaczenia roli danej zmiennej w analizie. Efekt wybo-


ru roli jest taki, że w trakcie analizy w niektórych oknach dialogowych
zmienne będą się już automatycznie pojawiać w odpowiednich polach.
Domyślnie ustawiana jest rola Wejście. Ustawienie roli ma na celu
tylko ułatwienie korzystania z programu.

Dokładniejszego wyjaśnienia wymaga typ zmiennej, oznaczenie braków


danych oraz wybór odpowiedniego poziomu pomiaru.
Dysponujemy kilkoma typami zmiennych. Najbardziej popularnym jest
typ numeryczny. Mają go wszystkie zmienne typowo liczbowe np. waga,
wzrost, liczba dzieci, ale również zmienne jakościowe, tj. mające wartości bę-
dące kategoriami. Najczęściej bowiem różnym kategoriom takich zmiennych
przypisuje się kolejne wartości liczbowe, np. 1 – mężczyzna, 2 – kobieta.
Ułatwia to wprowadzanie danych. W polu Wartości definiuje się wówczas
jaka wartość zmiennej odpowiada której kategorii. Typ tekstowy pozostawia
się dla danych, które faktycznie zostały wpisane jako tekst. Warto zauwa-
żyć jak wiele jest możliwości wyboru konkretnego typu daty, czy dolara (dla
kwot z oznaczeniem waluty). Typ użytkownika pozwala z kolei na wprowa-
dzenie danych z dowolnym oznaczeniem, np. symbolem % czy PLN. Trzeba
go jednak wcześniej zdefiniować w opcjach programu (patrz rozdział Opcje
użytkownika).
Funkcjonalność pola Braki danych wyjaśnimy na przykładzie. Wy-
obraźmy sobie, że pracujemy w komitecie wyborczym kandydata X. Robi-
my sondaż na temat jego szans na wygranie wyborów. Poza odpowiedziami
typu „głosuję na kandydata X, Y, Z” mogą pojawić się odpowiedzi „nie
wiem na kogo zagłosuję” oraz „nie idę na wybory”. Są to ważne informacje,

12
mogą one pomóc nam zdecydować, czy dalej prowadzić kampanię wybor-
czą (gdy w przewadze będą odpowiedzi „nie wiem na kogo zagłosuję”), czy
z niej zrezygnować (gdy w przewadze będą odpowiedzi „nie idę na wybory”).
Wprowadzając dane, oznaczamy:

• 1 – będę głosować na kandydata X,

• 2 – będę głosować na kandydata Y,

• 3 – będę głosować na kandydata Z,

• 8 – nie wiem na kogo zagłosuję,

• 9 – nie idę na wybory.

Zazwyczaj te dodatkowe odpowiedzi umieszcza się na końcu skali, jako 8,


9, czy 98, 99. Teraz trzeba program poinformować, że przy robieniu analiz,
np. wykonywaniu wykresów poparcia dla kandydatów, nie ma uwzględniać
wartości 8 i 9 – są to zdefiniowane braki danych (w przeciwieństwie do syste-
mowych braków danych, czyli po prostu pustych pól). Robimy to wypełniając
pole Braki danych. Jak brak danych może występować cały przedział (np.
błędy pomiarów).
Dla poprawnego wykonania analizy danych kluczowe jest ustawienie od-
powiedniego poziomu pomiaru. Złe dobranie poziomu pomiaru może skut-
kować brakiem dostępu do odpowiedniego wykresu czy testu statystycznego.
Zasadniczo wyróżnia się zmienne (cechy) jakościowe i ilościowe. Zmienne
jakościowe mają wartości będące kategoriami, przy czym kategorie te mo-
gą mieć jakiś naturalny porządek czy kolejność (poziom porządkowy) lub nie
(poziom nominalny). Zmienne ilościowe są zmiennymi typowo liczbowymi jak
wzrost, waga, czy wysokość zarobków. Poniżej cytujemy fragmenty rozdzia-
łu 6. podręcznika J. Koronackiego i J. Mielniczuka Statystyka dla studentów
kierunków technicznych i przyrodniczych [6].
Zacząć wypada od zwrócenia uwagi na to, że dane jakościowe mogą być
dwojakiego typu. Mogą mianowicie opisywać cechy nominalne lub uporządko-
wane [...]
Niech [...] interesującą nas cechą będzie wyznanie religijne, populacją zaś,
w której chcemy poznać rozkład tej cechy, niech będą mieszkańcy Warsza-
wy w zadanym roku. Cechę tę opisują następujące kategorie: katolik, prawo-
sławny, ewangelik, żyd oraz kategoria „inne wyznania”, z której wymieniania
rezygnujemy. [...] Wyznanie religijne jest cechą nominalną, nie ma bowiem
żadnej relacji jakoś porządkującej kategorie wyznaniowe – są to po prostu róż-
ne kategorie i tyle. Tak samo rzecz ma się z takimi cechami jak kolor włosów,

13
nazwa miejscowości, w której może być zameldowany mieszkaniec wojewódz-
twa pomorskiego, czy zawód.
Inaczej jest, gdy interesującą nas cechą jest stopień sympatii do pewnej
partii politycznej, przy czym cecha ta może występować na pięciu poziomach:
nienawidzę, nie lubię, jest mi obojętna, lubię, bardzo lubię. Ów stopień sym-
patii jest ewidentnie uporządkowany, ponieważ możliwe poziomy sympatii po-
trafimy uporządkować od najgłębszej antypatii do wielkiej sympatii. Podobnie
mamy do czynienia z cechą uporządkowaną, gdy pytamy nie o kolor włosów,
a o to, czy ktoś jest łysy, ma mało włosów, ma typową liczbę włosów na
głowie, czy też ma gęstą czuprynę. [...]
Przyglądając się uważniej podanym przykładom cech jakościowych musi-
my dostrzec, iż różnią się co do statusu nie tylko tym, że są albo nominalne,
albo uporządkowane. Cechy nominalne są cechami fundamentalnie jakościo-
wymi w tym sensie, że nie mają żadnych związków z cechami ilościowymi.
Przy tym cecha taka pozostaje fundamentalnie jakościową także wtedy, gdy
jej kategorie zakodujemy z jakiegoś względu jako liczby – liczba odgrywa wów-
czas jedynie rolę nazwy i nie ma żadnego sensu np. odejmowanie jednej liczby
od drugiej [...]
W przeciwieństwie do cech nominalnych, cechy uporządkowane mają –
w mniejszym lub większym stopniu – związek z pewnymi cechami ilościowy-
mi. W przypadku sympatii do określonej partii politycznej można zauważyć,
że niejako w tle mamy na myśli jakąś cechę mierzalną o nieskończenie wielu
wartościach. Możemy powiedzieć, że między nienawiścią a miłością do partii
politycznej (nie ma tu nic do rzeczy, że takie skrajne uczucia w odniesie-
niu do partii politycznej nie są racjonalne) istnieje continuum różnych stopni
sympatii. Ponieważ jednak owej intuicji mierzalności sympatii na skali o nie-
skończenie wielu wartościach nie umiemy sprecyzować, nie tylko mamy rację
cechę tę uznając za jakościową, ale też uznając jej związek z jakąś cechą ilo-
ściową za bardzo niejasny.
Z kolei taka cecha jak fakt mieszkania na wsi lub w małym, średnim czy
dużym mieście może mieć mocny i dobrze określony związek z cechą ilościo-
wą, a mianowicie z liczbą mieszkańców miast Pomorza. Otóż interesująca
nas tu cecha jakościowa mogła powstać przez ustalenie, iż małymi miastami
nazywamy miasta o liczebności mieszkańców do 50 000, natomiast miastami
średnimi są miasta zamieszkiwane przez więcej niż 50 000, ale nie więcej niż
200 000 osób. A zatem cechy ewidentnie jakościowe mogą powstawać przez
dyskretyzację jakiejś cechy ilościowej [...]
W niniejszym wprowadzeniu musimy jeszcze poruszyć dwie kwestie inter-
pretacyjne – traktowania danych jakościowych jako ilościowych i odwrotnie,
traktowania cech ilościowych tak jakby były jakościowymi.
Oceniamy studentów, stosując stopnie z pozoru liczbowe [...] Dziwi nas, że

14
np. Anglosasi stosują wyłącznie oceny literowe [...] A przecież oceny opisują
cechę jakościową! Student, który ma trójkę nie jest o 1 lepszy od studenta
z dwóją [...] Jeszcze śmieszniej brzmiałoby stwierdzenie, że student czwórko-
wy jest 2 razy lepszy od dwójkowego. [...] Gdy zatem mamy dokonać anali-
zy danych z pozoru liczbowych, trzeba zacząć od sprawdzenia, czy nie są to
w istocie kody kategorii jakościowych i jeśli tak, to – gdy jest to tylko możliwe
– postępować zgodnie z procedurami właściwymi dla danych jakościowych.
Niekiedy usprawiedliwia się pogwałcenie podanej właśnie reguły, trzeba
jednak zawsze zachować krytycyzm wobec takiego, metodologicznie niepopraw-
nego postępowania. Na przykład, jeżeli ocenom z kolokwiów, testów i ustnych
odpowiedzi w ciągu semestru trudno jest nadać obiektywny, ilościowy cha-
rakter, wypada pozostać przy ocenach porządkowych. Jeżeli są to oceny za-
kodowane liczbowo, trudno na koniec semestru postąpić inaczej niż wystawić
ocenę równą średniej z ocen uzyskanych w ciągu semestru, mimo, że jest to
krok arbitralny, a jego ścisłe uzasadnienie nie istnieje. [...]
Przejdźmy teraz do drugiej z wymienionych kwestii interpretacyjnych, czy-
li do traktowania zmiennych ilościowych jako jakościowych. Niekiedy, gdy
zmienna ilościowa przyjmuje bardzo mało wartości, nie jest błędem meto-
dologicznym potraktowanie takiej zmiennej jako jakościowej. Można powie-
dzieć, że nieraz uzasadnione jest potraktowanie możliwych wartości zmiennej
ilościowej jako różnych kategorii zmiennej jakościowej o uporządkowanych
wartościach. Co więcej, dyskretyzację zmiennej ilościowej [...] można rów-
nież potraktować jako przekształcenie tej zmiennej w uporządkowaną cechę
jakościową. [...]
Podkreślmy jeszcze, że traktowanie oryginalnych zmiennych ilościowych
jako uporządkowanych cech jakościowych zawsze wymaga usprawiedliwienia
przez cel, jakiemu ma służyć. [...] Trzeba jednak zawsze pamiętać, że potrak-
towanie zmiennej ilościowej jako jakościowej uniemożliwia uzyskanie odpo-
wiedzi na wszelkie pytania wymagające ilościowego charakteru zmiennej.
I jeszcze jeden cytat (D.J. Sheskin, Handbook of Parametric and Nonpa-
rametric Statistical Procedures [12, str. 2], tłumaczenie własne):
Mimo że w praktyce IQ i wiele innych ludzkich charakterystyk mierzonych
testami psychologicznymi (takich jak obawa, introwertyzm-ekstrawertyzm itp.)
są traktowane jako zmienne mierzone na skali przedziałowej, wielu badaczy
będzie argumentować, że bardziej właściwa będzie dla nich skala porządkowa.
Taki argument będzie bazować na fakcie, że takie miary nie spełniają wy-
magań skali przedziałowej, ponieważ nie można wykazać, że równe różnice
liczbowe w różnych punktach skali są porównywalne.

Ćwiczenie 2.1. Przyjrzyj się danym i zmiennym zamieszczonym w pliku


Employee data.sav (plik przykładowy programu).

15
a) Sprawdź, ilu respondentów przebadano.

b) Najedź myszką na nazwy zmiennych (kolumn) i zapoznaj się z etykietami


zmiennych.

c) Kliknij kilka razy ikonę Etykiety wartości.

d) Co opisuje zmienna minority? Jakie przyjmuje wartości? Które z nich są


traktowane jako braki danych? Jaki jest poziom tej zmiennej?

Rozwiązanie. Wybieramy z menu Plik –> Otwórz –> Dane i otwiera-


my plik Employee data.sav z katalogu

C:\\Program Files\IBM\SPSS\Statistics\21\Samples\Polish.

a) Przebadano 474 respondentów.

b) Kolejne zmienne to

• id – kod pracownika,
• gender – płeć pracownika,
• bdate – data urodzenia,
• educ – wykształcenie (w latach nauki),
• jobcat – grupa pracownicza,
• salary – wynagrodzenie bieżące,
• salbegin – wynagrodzenie początkowe,
• jobtime – czas pracy (miesiące),
• prevexp – poprzednie zatrudnienie (miesiące),
• minority – przynależność do mniejszości.

c) Ikona Etykiety wartości zmienia np. wartości 1, 2, 3 zmiennej jobcat


na etykiety odpowiednio Urzędnik, Ochroniarz i Menedżer.

d) Zmienna minority opisuje przynależność do mniejszości. Przyjmuje war-


tości 0 – Nie, 1 – Tak oraz 9 – Brak. 9 jest brakiem danych. Zmienna ma
poziom nominalny.


W IBM SPSS Statistics własności zmiennych ustawiamy w oknie edytora
danych, w zakładce Zmienne. Program oferuje nam pewne udogodnienie.

16
Uzyskujemy je, wybierając z menu Dane –> Definiuj własności zmien-
nych... W pierwszym oknie dialogowym wybieramy zmienne, które nas in-
teresują. Wartości tych zmiennych są wówczas skanowane i na ich podsta-
wie program wyświetla właściwości zmiennych i proponuje poziom pomiaru.
W przypadku dużych zbiorów danych możemy ograniczyć liczbę skanowa-
nych obserwacji. W przypadku zmiennych o wielu możliwych wartościach
(np. zmienne ilościowe), możemy ograniczyć liczbę skanowanych wartości.
W drugim oknie dialogowym dla każdej z wybranych zmiennych możemy
uzupełnić jej właściwości, w szczególności ustawić poziom pomiaru (uwaga:
program sugeruje poziom pomiaru tylko i wyłącznie na podstawie liczby róż-
nych wartości zmiennej występujących w pliku, w szczególności przy małej
liczbie różnych wartości będzie sugerował poziom nominalny lub porządkowy
– nie zawsze powinniśmy się z tym zgadzać). Bardzo użyteczna jest możliwość
dopisania brakujących etykiet oraz oznaczenia braków danych.

Ćwiczenie 2.2. Wczytaj dane z pliku respondenci.sav (plik dostepny na


Moodle). Zeskanuj wszystkie zmienne, sprawdź, jaki jest sugerowany przez
program poziom pomiaru. Czy zgadzasz się z tymi sugestiami? Zwróć uwa-
gę, czy każda zmienna ma zdefiniowane wszystkie kategorie i zadeklarowane
braki danych.

Rozwiązanie. Otwieramy plik respondenci.sav, a następnie wybieramy Da-


ne –> Definiuj własności zmiennych... W pierwszym oknie dialogo-
wym przerzucamy wszystkie zmienne do pola z prawej strony i wybieramy
Dalej.
W drugim oknie dialogowym, w polu z lewej strony będziemy kolejno
wybierać zmienne, aby w polu z prawej strony zdefiniować ich wszystkie
własności.

• Wybieramy zmienną płeć. Widzimy, że ma ona etykietę Płeć respon-


denta i poziom pomiaru ilościowy. Klikamy Zasugeruj... Program su-
geruje nam poziom nominalny i jest to właściwy poziom dla zmiennej
płeć. Po kliknięciu Dalej poziom zostaje zmieniony. W tabeli zamiesz-
czonej z prawej strony widzimy, że w pliku jest 21 obserwacji o wartości
1 – mężczyzna i 29 o wartości 2 – kobieta. Nie ma innych wartości, nie
ma braków danych.

• Wybieramy zmienną wiek. Ma ona etykietę Wiek respondenta i poziom


pomiaru ilościowy. Po kliknięciu Zasugeruj... okazuje się, że jest to
zgodne z sugestiami programu. Przeglądamy wartości zmiennej poka-
zane w tabeli. Ostatnią z nich jest wartość 999 – nie wiem. Musimy ją
oznaczyć jako brak danych, stawiając ptaszek w kolumnie Braki.

17
• Wybieramy zmienną dzieci. Ma ona etykietę Liczba dzieci i poziom
pomiaru ilościowy. Klikamy Zasugeruj... Ze względu na niewielką
liczbę przyjmowanych wartości program sugeruje poziom porządkowy
lub nominalny. Nie powinniśmy się na to zgadzać. Należy pozostawić
poziom ilościowy. Przeglądając tabelę wartości, widzimy wartość 99 –
nie wiem. Oznaczamy ją jako brak danych.

• Ostatnią zmienną jest zadowolenie. Zmienna ta ma etykietę Poziom za-


dowolenia z życia i poziom pomiaru ilościowy. Klikamy Zasugeruj...
Proponowany poziom to porządkowy lub nominalny. Decydujemy się na
ten pierwszy, gdyż kolejne kategorie to „bardzo niezadowolony”, „nie-
zadowolony”, „średnio zadowolony”. W tabeli z podglądem widzimy,
że zmienna przyjmuje wartość 0 – trudno powiedzieć. Oznaczamy ją
jako brak danych. Poza tym zmienna przyjmuje wartości 4 i 5, które
nie mają żadnych etykiet. Możemy je dodać, jeśli oczywiście wiemy, jak
dane były wprowadzane. Załóżmy, że 4 oznaczała „zadowolony”, a 5 –
„bardzo zadowolony”.

Po zdefiniowaniu własności wszystkich zmiennych klikamy OK. 

2.4. Okno raportu


Wyniki analizy danych pojawiają się zawsze w formie nowego okna – okna
raportu. Najważniejszą jego cechą jest menu, które zawiera wszystkie pozycje
menu okna danych. Umożliwia to dalszą analizę zmiennych bez konieczności
powrotu do tabeli danych.
Pakiet IBM SPSS Statistics umożliwia nam tworzenie prezentacji wyni-
ków analizy. Każdy fragment raportu: tytuły, tabele, wykresy, możemy edy-
tować poprzez zmianę ich zawartości, zmianę koloru, czcionki, wielkości, itp.
Chcąc uaktywnić element raportu należy kliknąć na niego myszką raz, aby
go zaznaczyć, a potem dwa razy, aby go edytować. Jeśli fragment jest gotowy
do edycji, to otacza go ramka narysowana przerywaną linią.
Jeżeli zaznaczony element zawiera tekst, to pojawia się pasek pozwalający
na zmianę czcionki, jej rozmiaru i koloru. W tabelach można edytować każdą
wpisaną w nie wartość, ale również sam wygląd i kształt tabeli. Edycji tabeli
dokonujemy, klikając prawym klawiszem myszki i wybierając Właściwości
tabeli... Możemy w ten sposób określić własny format tabeli (kolorystykę,
obramowania, czcionki itp.), a następnie zapisać go i wykorzystywać przy
kolejnych tabelach. Możliwość zapisywania formatów tabel a także ich otwie-
rania lub korzystania z gotowych formatów zaproponowanych przez twórców
oprogramowania uzyskujemy poprzez kliknięcie prawym klawiszem myszki na

18
aktywowanej tabeli i wybranie Szablony TableLook... Do przestawiania
wierszy i kolumn tabeli służy panel przestawiania.
Najwięcej możliwości mamy przy obróbce graficznej wykresów. Po uak-
tywnieniu fragmentu zawierającego wykres pojawia się edytor wykresu. Da-
je on nam możliwość zmiany np. słupków wykresu, ich wypełnienia, koloru,
kształtu; linii, ich grubości, koloru, stylu; osi układu oraz tekstu. Aby do-
konać zmian należy najpierw element, który chcemy edytować, zaznaczyć
kliknięciem myszką, a następnie wybrać odpowiednie opcje. Tu również ma-
my możliwość korzystania z gotowych szablonów lub zapisywania własnych.
Wystarczy w oknie edycji wykresu wybrać Plik –> Zapisz szablon wy-
kresu... lub Plik –> Zastosuj szablon wykresu... Dostępne szablony
znajdują się w katalogu C://Program Files/IBM/SPSS/Statistics/21/Looks.
W raporcie można zamieszczać własne komentarze. Aby dodać tekst na-
leży kliknąć na element raportu, pod którym tekst miałby się pojawić, a na-
stępnie wybrać Wstaw –> Nowy tekst.

Ćwiczenie 2.3. Otwórz plik Employee data.sav. Wybierz z menu: Anali-


za –> Opis statystyczny –> Częstości... Do pola Zmienne przerzuć
zmienną educ (wykształcenie). Kliknij Statystyki... i zaznacz średnią oraz
minimum i maksimum. Kliknij Dalej. Kliknij Wykresy... i zaznacz Wy-
kresy słupkowe. Kliknij Dalej i OK. W otrzymanym raporcie:

a) Zmień czcionkę tytułu „Częstości” na inną i ustal jej kolor na czerwony.

b) Uaktywnij tabelę statystyk. Kliknij na napis „Minimum”. Kliknij prawym


klawiszem myszki i wybierz Co to jest?

c) Edytuj tabelę częstości. W tytule zmień czcionkę na Comic Sans MS w ko-


lorze czerwonym. W opisie wierszy i kolumn ustaw czcionkę w kolorze
granatowym, a dla danych ustaw błękitne tło.

d) Edytuj wykres. Ustaw efekt 3W. Zmień kolor wykresu na fioletowy i wy-
bierz deseń w ukośne paski. Zachowując proporcje, zmień rozmiar wykresu
tak, aby miał on wysokość przekraczającą 500 pkt. Dokonaj transpozycji
wykresu tak, aby słupki były narysowane poziomo.

e) Pod wykresem wstaw tekst „To jest wstępna analiza zmiennej wykształ-
cenie (w latach nauki)”.

Rozwiązanie. Raport bezpośrednio po pojawieniu się zawiera następujące


elementy:

19
a) Klikamy raz na napis „Częstości”, by go zaznaczyć, a następnie dwa razy,

20
by go aktywować. Zaznaczamy napis myszką i zmieniamy czcionkę na
Comic Sans MS, a jej kolor na czerwony (ikona z paletą).
b) Po wybraniu opcji Co to jest? pojawia się definicja minimum.
c)

Edycja tabeli odbywa się poprzez jej kliknięcie (w celu zaznaczenia), po-
dwójne kliknięcie (w celu aktywowania), a następnie kliknięcie na tabeli
prawym klawiszem myszki i wybranie opcji Właściwości tabeli...
Następnie wybieramy zakładkę Formaty. Wybierając odpowiedni ele-
ment z listy Obszar lub klikając na odpowiednie miejsce tabeli na pod-
glądzie, dokonujemy jego edycji.

21
d) Klikamy wykres najpierw raz, a następnie dwa razy. Pojawia się wówczas
osobne okno edycji wykresu oraz okno właściwości (jeśli go nie ma, nale-
ży na oknie edycji wykresu kliknąć prawym klawiszem myszki i wybrać
Właściwości).

W oknie edycji wykresu klikamy na słupki, a następnie w oknie właściwo-


ści wybieramy zakładkę Efekty i kąty i zaznaczamy tam efekt 3-W.
Klikamy Zastosuj.

Następnie wybieramy zakładkę Wypełnienia i obramowania i zmie-


niamy kolor słupków oraz deseń. W zakładce Rozmiar wykresu może-
my odpowiednio ustawić jego wysokość (uwaga: wybór jednostki pkt, cm
czy cale jest dokonywany w menu Edycja –> Opcje). Zamiany słupków
na poziome dokonujemy, używając odpowiedniej ikony.

22
e) Klikamy na wykres, a następnie wybieramy z menu Wstaw –> Nowy
tekst. W otrzymane pole tekstowe wpisujemy podane w zadaniu zdanie.

Finalnie raport ma postać

23


2.5. Okno poleceń


Okno poleceń pozwala na zapisywanie wykonywanych czynności w języku
poleceń. Jest to bardzo użyteczne ze względu na

• możliwość szybkiego wykonania powtórnie wcześniej przygotowanej ana-


lizy,

• możliwość powtórzenia fragmentu analizy,

• możliwość skopiowania wybranych fragmentów analizy, zmiany nazwy


zmiennej i wykonania ich dla nowej zmiennej,

• możliwość wykonania jakiegoś polecenia od razu dla kilku zmiennych,

• integrację języka poleceń ze środowiskiem R.

Podstawowe informacje o pliku poleceń:

• Plik poleceń otwieramy, wybierając z menu Plik –> Nowy –> Po-
lecenia.

• Materiały o składni poleceń dostępne są po wyborze z menu Pomoc


–> Materiały o składni poleceń.

24
• Polecenia wpisujemy do okna poleceń „ręcznie” lub korzystamy z inter-
fejsu graficznego i klikamy Wklej zamiast OK (wtedy okno edytora
poleceń otworzy się automatycznie).

• Polecenia kończą się kropką.

• Komentarze wpisujemy po znaku * i kończymy znakiem kropki bądź


pustą linią. Możemy również tekst, który chcemy zakomentować, zazna-
czyć myszką i kliknąć ikonkę z symbolem ukośnika i gwiazdki Prze-
łącznik komentarzy i poleceń.

• Polecenia uruchamiamy, zaznaczając je myszką i klikając ikonkę zielonej


strzałki Uruchom zaznaczenie.

• Polecenia uruchamiają się tylko na aktywnym zbiorze danych, tj. takim


który zawiera przynajmniej jedną obserwację. Musimy zatem albo mieć
wczytany konkretny zbiór danych, albo do pustego pliku danych wpisać
jakąkolwiek wartość (którą później można usunąć).

Ćwiczenie 2.4. Wykonaj raport z ćwiczenia 2.3 (statystyki i wykres) i klik-


nij na koniec Wklej zamiast OK. Zaznacz kod, który pojawił się w oknie
poleceń i uruchom go. Zobacz efekt tego działania w pliku z raportem. Na-
stępnie skopiuj zaznaczony kod, wklej go niżej w okno poleceń, zmień nazwę
zmiennej z educ na jobtime i uruchom zmieniony fragment kodu. Sprawdź
efekt działania w pliku raportu.
Przydatne polecenia:
• NUMERIC zmienna (Fm.n). – tworzy zmienną numeryczną o m zna-
kach i n miejscach po przecinku (jeśli nie podamy, to domyślnie będzie
8 znaków, w tym 2 po przecinku).

• STRING zmienna (Am). – tworzy zmienną tekstową o m znakach.

25
• VARIABLE LABELS zmienna ’etykieta’. – tworzy etykietę zmiennej
(puste apostrofy czyszczą etykietę).

• VALUE LABELS zmienna wartość1 ’etykieta1’ wartość2 ’etykieta2’ ...


wartośćN ’etykietaN’. – tworzy etykiety wartości zmiennej.

• VALUE LABELS zmienna ”. – czyści etykiety wartości podanej zmien-


nej.

• MISSING VALUES zmienna (wartość1 wartość2 ... wartośćN). – ozna-


cza wartości wartość1, wartość2, ..., wartośćN zmiennej jako braki da-
nych (dla zmiennych tekstowych wartości podajemy w apostrofach).

• MISSING VALUES zmienna (wartość1 THRU wartość2). – oznacza


wszystkie wartości z przedziału od wartość1 do wartość2 jako braki
danych.

• MISSING VALUE zmienna (). – czyści ustawienie braków danych dla


zmiennej.

• VARIABLE LEVEL zmienna (poziom). – ustawia poziom pomiaru


zmiennej (NOMINAL – nominalny, ORDINAL – porządkowy, SCALE
– ilościowy).

• FORMATS zmienna (format). – zmienia format zmiennej na podany.

• DELETE VARIABLES zmienna. – usuwa zmienną.

Przy definiowaniu lub pracy na zmiennych pomocne mogą być słowa ALL
i TO. Pierwsze oznacza wykonanie polecenia dla wszystkich zmiennych, dru-
gie dla zmiennych ze zdefiniowanego zakresu zmienna1 TO zmiennaN, przy
czym przez zakres należy rozumieć zakres od zmiennej zmienna1 do zmien-
naN według kolejności występowania w pliku danych, np. sex TO age. Jeśli
chcemy korzystając ze słówka TO stworzyć nowe zmienne, to mogą mieć
one dowolny tekstowy początek nazwy, ale koniec nazwy powinien być licz-
bą, np. produkt1 TO produkt15 poprzedzone poleceniem tworzącym zmienne
spowoduje pojawienie się w pliku 15 nowych zmiennych.

2.6. Okno skryptów*


Skrypty to programy, najczęściej pozwalające na wykonanie pewnych ope-
racji na plikach raportów. Skryty są pisane w języku podobnym do Visual
Basica, ale po zmianie ustawień (Edycja –> Opcje) można również używać

26
języka Python. Program IBM SPSS Statistics zawiera kilka przykładowych
skryptów.

Ćwiczenie 2.5. W wykonanym wcześniej raporcie zaznacz kliknięciem ta-


belę częstości. Otwórz skrypt

C:\\Program Files\IBM\SPSS\Statistics\21\Samples\
ExportTablesToExcelFiles.wwd.

Przeczytaj opis zamieszczony na górze skryptu. Skrypt ma na celu przeniesie-


nie tabel z raportu do pliku Excela. Spróbuj przenieść do Excela zaznaczoną
tabelę, uruchamiając skrypt przyciskiem z zieloną strzałką (Start/Resume).

2.7. Tworzenie zbiorów danych


Pliki tworzymy, wybierając Plik –> Nowy –> Dane... Pliki danych za-
pisujemy z rozszerzeniem *.sav. Dobrze jest zacząć tworzenie nowego zbioru
danych od zdefiniowania zmiennych w zakładce Zmienne. Jeśli jakaś zmien-
na będzie miała w tej zakładce zdefiniowane wartości, to po przejściu do
zakładki Dane i wciśnięciu ikony Etykiety wartości, wartości zmiennej
będzie można wybierać z rozwijanej listy.

27
Ćwiczenie 2.6. Utwórz własny plik uczniowie.sav zawierający dane 10 uczniów
biorących udział w badaniu. Plik powinien zawierać następujące dane: na-
zwisko ucznia, imię ucznia, datę urodzenia, wiek w momencie przeprowadza-
nia wywiadu, płeć (dziewczynka, chłopiec), typ szkoły (np. 1 – podstawowa,
2 – gimnazjum, 3 – średnia). Następnie, używając języka poleceń, utwórz
5 zmiennych numerycznych lubię1, . . . , lubię5 o etykietach kolejno Stosu-
nek respondenta do czytania książek, oglądania filmów, spacerów, uprawiania
sportu, słuchania muzyki i wartościach 1 – bardzo nie lubię, 2 – nie lubię, 3 –
jest mi to obojętne, 4 – lubię, 5 – bardzo lubię, 9 – nie wiem. Oznacz 9 jako
brak danych. Wszystkim zmiennym przypisz odpowiedni poziom pomiaru.

2.8. Import danych z plików tekstowych


• Otwieramy dany plik np. w Notatniku, aby poznać jego strukturę. Za-
mykamy plik.

• Wybieramy w IBM SPSS Statistics: Plik –> Czytaj dane teksto-


we..., otwieramy żądany plik.

• Uruchamia się kreator importu tekstu, w którym odpowiadamy na ko-


lejne pytania i klikamy Dalej. U dołu mamy podgląd, w jaki sposób
przy aktualnych ustawieniach wczyta się plik. W kreatorze pojawia się
pojęcie formatu predefiniowanego – jest to użyteczne przy wczytywa-
niu większej liczby plików zorganizowanych w ten sam sposób. Format

28
predefiniowany uzyskuje się po przejściu wszystkich kroków kreatora
i zapisaniu takiego formatu na końcu. Można go użyć przy wczytywa-
niu kolejnych plików – skraca to liczbę kroków w kreatorze.

Ćwiczenie 2.7. Zaimportuj do arkusza danych SPSSa plik tekstowy de-


mo.txt (plik przykładowy programu).

Rozwiązanie. Wybieramy Plik –> Czytaj dane tekstowe... i otwie-


ramy plik demo.txt.

Krok 1. Nie mamy predefiniowanego formatu.

Krok 2. Nasze zmienne są separowane i mają nazwy zapisane na początku pliku.

Krok 3. Pierwsza obserwacja rozpoczyna się w wierszu 2. Każdy wiersz zawiera


tylko jedną obserwacje i wszystkie zamierzamy importować.

Krok 4. Jedynym separatorem zmiennych jest tabulator. W pliku nie ma żad-


nego kwalifikatora tekstu.

Krok 5. W tym kroku możemy kliknąć każdą ze zmiennych zamieszczonych


w podglądzie i zmienić jej nazwę lub ustawić format. Wszystkie zmien-
ne mają format liczbowy.

Krok 6. Kończymy wczytywanie danych.


Uwagi: Program IBM SPSS Statistics korzysta z lokalnych ustawień syste-
mu. Oznacza to, że dla systemu Windows w polskiej wersji językowej, a co
za tym idzie dla zainstalowanego na nim programu IBM SPSS Statistics, se-
paratorem miejsc dziesiętnych jest przecinek, a nie kropka. Dane, w których
separatorem miejsc dziesiętnych jest kropka będą przez program wczytywane
jako tekstowe, a nie numeryczne, co oznacza, że nie da się na nich wykony-
wać żadnych działań i analiz. Najlepszym i najprostszym rozwiązaniem jest
zamiana separatora z kropki na przecinek przed wczytaniem pliku do pro-
gramu.

2.9. Import danych z plików formatu Excel


• Otwieramy zadany plik w programie Excel, aby poznać jego strukturę.
Zamykamy plik.

29
• Wybieramy w IBM SPSS Statistics: Plik –> Otwórz –> Dane...,
zmieniamy na dole ustawienie na Pliki typu: Excel i otwieramy
żądany plik.

• Pojawia się okno dialogowe, w którym należy zaznaczyć, czy w orygi-


nalnym pliku nazwy zmiennych znajdowały się w pierwszym wierszu
danych, wybrać odpowiedni arkusz pliku *.xls i ewentualnie podać za-
kres danych, które chcemy wczytać. Klikamy OK.

• Specyfikujemy zmienne.

Ćwiczenie 2.8. Zaimportuj do arkusza danych SPSSa plik demo.xls (plik


przykładowy programu).

Rozwiązanie. Otwieramy plik demo.xls w programie Excel i zapoznajemy


się z jego strukturą. Zamykamy program.
Wybieramy Plik –> Otwórz –> Dane... W oknie dialogowym zmie-
niamy typ plików na Excel. Otwieramy żądany plik. Zaznaczamy opcje Czy-
taj nazwy zmiennych z pierwszego wiersza danych. 

2.10. Wczytywanie danych z baz danych*


• Otwieramy bazę w programie Microsoft Access, aby obejrzeć jej struk-
turę. Zamykamy.

• Wybieramy Plik –> Przejmij bazę danych –> Nowa kweren-


da...

30
• Otwiera się kreator przejmowania baz danych. Spośród zdefiniowanych
źródeł baz danych wybieramy MS Access Database, klikając dwukrot-
nie myszką. Uwaga: mogą wystąpić problemy, jeśli przy 64-bitowym
systemie Windows (a tym samym instalującym się automatycznie 64-
bitowym SPSSie) na komputerze jest zainstalowany 32-bitowy Office.
Program będzie wtedy wyświetlał komunikat o konieczności logowania.

• W oknie, które się pojawi, klikamy Przeglądaj... i wczytujemy żą-


daną bazę danych. Klikamy OK.

• Po zaznaczeniu na dole opcji Tabele pokazują się możliwe do wyboru


tabele bazy danych. Klikając na znak + przy nazwie tabeli, możemy
otrzymać listę zmiennych tej tabeli. Zaznaczamy i przerzucamy do okna
z prawej strony całą tabelę lub wybrane zmienne. Klikamy Dalej.

• W następnym kroku możemy zdecydować, które obserwacje wczytu-


jemy. Możemy zadać jakiś warunek z użyciem funkcji i dostępnych
zmiennych oraz wczytać losową próbkę spośród dostępnych obserwa-
cji. Klikamy Dalej.

• Specyfikujemy zmienne. Zmienne tekstowe można przekodować na nu-


meryczne. Klikamy Dalej.

• Otrzymujemy zapytanie w języku SQL, które możemy wykonać lub


zapisać w oknie poleceń. Możemy również zapisać kwerendę w pliku
.spq (kwerenda IBM SPSS Statistics) lub jako plik danych .sav.

Uwagi:
• Pliki zapisane jako pliki baz danych programu IBM SPSS Statistics
można edytować: Plik –> Przejmij bazę danych –> Edytuj
kwerendę..., lub otwierać: Plik –> Przejmij bazę danych –>
Uruchom kwerendę...

• Generator liczb losowych używany przy losowaniu ma ustalony punkt


startowy, co zapewnia powtarzalność losowania. Można go jednak zmie-
nić, wybierając Przekształcenia –> Generatory liczb loso-
wych... i w polu Inicjalizacja aktywnego generatora zazna-
czając Ustaw punkt startowy.

• Kreator zapamiętuje ostatnią bazę danych, którą wczytywałeś. Jeśli


chcesz uruchomić inną bazę danych niż ostatnio używaną, zamknij pro-
gram lub kliknij na Pliki programu dBase, jeśli nie ma tego typu
baz, kliknij OK i wtedy wczytaj wybraną bazę mdb.

31
Ćwiczenie 2.9. Wczytaj bazę demo.mdb (plik przykładowy programu) do
IBM SPSS Statistics. Spośród 1000 pierwszych osób, których samochód nale-
ży do kategorii 3 (luksusowe), wybierz losowo 10. Zapisz plik jako demo.spq.
Następnie edytuj kwerendę i zmień wybrane osoby na te, których samochód
należy do kategorii 2.
Otwórz bazę demo2.mdb (dostępna na Moodle). Zawiera ona dwie tabele:
demo i KlasaSmochodu oraz kwerendę demo. Zamknij bazę danych i uruchom
kreator przejmowania baz danych. Po otwarciu bazy przerzuć do prawego
okna obie tabele. Następnie zaznacz relację między nimi: zmiennej CARCAT
z tabeli demo odpowiada zmienna id z tabeli KlasaSamochodu. Zaznacz obie
zmienne, trzymając klawisz Ctrl i kliknij Połącz. Następnie wybierz loso-
wą próbę 10% obserwacji z grupy respondentów, którzy nie przekroczyli 50.
roku życia. Plik zapisz jako demo2.spq. Wczytaj go jako plik .sav.

2.11. Zapisywanie danych w innych formatach


Program IBM SPSS Statistics zapisuje dane w formacie sav. Możliwy jest
również eksport danych do plików innego typu. W tym celu wystarczy wy-
brać z menu okna danych Plik –> Zapisz jako... Następnie wybieramy
miejsce na dysku, gdzie chcemy zapisać nasz plik, oraz odpowiedni typ pliku.
Do wyboru mamy m.in. plik z danymi rozdzielanymi tabulatorami (*.dat)
czy przecinkami (*.csv), ale także pliki programu Excel (*.xls i *.xlsx) i wie-
lu innych formatów. Możemy również zdecydować, czy do pliku wybranego
formatu mają być zapisane nazwy zmiennych (jako pierwszy wiersz) oraz czy
mają być zapisane etykiety wartości zamiast wartości zmiennych (dla przy-
kładu: jeśli mamy zmienną Płeć o wartościach 0 – kobieta i 1 – mężczyzna,
to zamiast wartości 0 i 1 do pliku mogą zostać zapisane etykiety „kobieta”
i „mężczyzna”). Przycisk Zmienne... pozwala zapisać do pliku wybranego
formatu tylko wybrane zmienne.

Ćwiczenie 2.10. Otwórz plik Employee data.sav (plik przykładowy progra-


mu). Zapisz w formacie xls zmienne id, jobcat, salary i salbegin z tego pliku.
Dla zmiennej jobcat zapisz etykiety jej wartości.

Rozwiązanie. Otwieramy plik Employee data.sav. Następnie wybieramy


Plik –> Zapisz jako... Następnie wybieramy miejsce do zapisu tego pliku
i zmieniamy typ na Excel 97 do 2003 (*.xls). Zaznaczamy opcje Zapisz
nazwy zmiennych do arkusza i Zapisz etykiety wartości zamiast
wartości danych.

32
Klikamy przycisk Zmienne... i zaznaczamy do zapisu tylko wymienione
w zadaniu zmienne.

Klikamy Dalej i Zapisz. Plik z rozwiązaniem jest dostępny na Moodle. 

2.12. Przenoszenie elementów raportu do in-


nych aplikacji
Pakiet SPSS pozwala eksportować raporty do plików innych formatów. Po
wybraniu w oknie raportu Plik –> Eksportuj... otwiera się okno dia-
logowe, które pozwala wybrać elementy raportu, które chcemy eksportować,

33
format pliku wynikowego i format plików grafiki. Dostępne są następujące
formaty:

• Excel (*.xls),

• HTML (*.htm),

• Adobe Acrobat (*.pdf),

• PowerPoint (*.ppt) – wyniki tekstowe nie są eksportowane,

• Pliki tekstowe (*.txt) – do wyboru mamy zwykły tekst oraz kodowania


UTF8 i UTF16,

• Word/RTF (*.doc),

• Brak (tylko grafika) – eksportowane są wyłącznie obiekty graficzne. Do-


stępne formaty to: Bitmapa (*.bmp), Enhanced Metafile (*.emf), En-
capsulated Postscript (*.eps), JPEG (*.jpg), PNG (*.png), TIF (*.tif).
Podajemy trzon nazwy docelowego pliku. Jeżeli w raporcie jest kilka
wykresów, zostaną one zapisane jako osobne pliki z kolejnymi numera-
mi.

Program przy eksporcie dołącza tabele z uwagami (tabela przy praktycz-


nie każdym elemencie raportu), zmniejsza to bardzo czytelność wyeksporto-
wanych raportów. Dlatego warto robić eksport, wybierając w polu Eksport
obiektów opcję Wszystkie widoczne.

Ćwiczenie 2.11. Otwórz plik Employee data.sav. Wykonaj analizę częstości


zmiennej jobcat (Grupa pracownicza) oraz wykres słupkowy. Otrzymany ra-
port eksportuj do formatu Word. Następnie sam wykres eksportuj do formatu
jpg.

Rozwiązanie. Wybieramy z menu Analiza –> Opis statystyczny –>


Częstości... Do pola Zmienne przenosimy zmienną jobcat (Grupa pra-
cownicza). Klikamy Wykresy i wybieramy wykres słupkowy. Wykonujemy
raport. Plik zapisujemy, a następnie eksportujemy do formatu Word.
Wybieramy Plik –> Eksportuj... W eksporcie obiektów zaznaczamy
Wszystkie widoczne. Jako typ wybieramy Word/RTF. W polu Plik
wybieramy katalog, do którego plik ma być zapisany, oraz nazwę pliku.

34
Aby zapisać wykres w formacie jpg, zaznaczamy go najpierw w raporcie
poprzez pojedyncze kliknięcie myszką. Następnie wybieramy Plik –> Eks-
portuj... Zaznaczamy opcję Wybrane i wybieramy typ Brak (tylko
grafika). Jako typ grafiki wybieramy jpg oraz podajemy nazwę i lokaliza-
cję docelowego pliku.

Gotowy raport i wykres można obejrzeć na Moodle. 

35
2.13. Ustawienia opcji użytkownika
Program pozwala na ustawienie wielu indywidualnych opcji, które znacznie
ułatwiają pracę.
Uwaga: Jeśli chcesz zachować możliwość powrotu do domyślnych opcji pro-
gramu, uruchom okno poleceń, wpisz do niego polecenie PRESERVE. (z krop-
ką!) i uruchom je przyciskiem z zieloną strzałką. Polecenie to zachowuje ak-
tualne ustawienia. Powrót jest możliwy po zastosowaniu polecenia RESTO-
RE. Polecenia te należy stosować w czasie tej samej sesji pracy z programem.
Po zamknięciu pliku poleceń powrót do ustawień domyślnych nie będzie moż-
liwy.
Po wybraniu z menu Edycja –> Opcje pojawia się okno dialogowe,
w którym można ustawić własne opcje pracy z programem. Każda z zakładek:
Ogólne, Raporty, Dane, Użytkownika, Etykietowanie, Wykresy,
Tabele przestawne, Lokalizacje plików, Skrypty, Podstawienia,
Polecenia umożliwia ustawienie innej grupy opcji.

1. Ogólne

a) Listy zmiennych
• Pokaż etykiety – w oknach dialogowych zmienne będą identy-
fikowane przez swoje etykiety,
• Pokaż nazwy – w oknach dialogowych zmienne będą identyfiko-
wane poprzez swoje nazwy,
• Alfabetycznie – zmienne w oknach dialogowych będą wyświe-
tlane w kolejności alfabetycznej,
• Plik – zmienne w oknach dialogowych będą wyświetlane w kolej-
ności, w jakiej występują w pliku danych.
• Poziom pomiaru – zmienne w oknach dialogowych będą upo-
rządkowane według poziomu pomiaru w kolejności: nominalny, po-
rządkowy, ilościowy.
b) Role – pozwala określić, czy program ma automatycznie umieszczać
zmienne w niektórych polach okien dialogowych, zgodnie z rolami zde-
finiowanymi w pliku danych, czy ma pozostawiać zmienne w polu wyj-
ściowym do samodzielnego przeniesienia zgodnie z potrzebami użyt-
kownika.
c) Windows
• Wygląd – wygląd (kolorystyka, ikony) okien programu, do wy-
boru SPSS Standard (domyślnie), SPSS Classic lub Windows.

36
• Otwórz na starcie okno języka poleceń – wraz z uru-
chomieniem programu otworzy się okno języka poleceń (Syntax
Editor).
• Otwieraj jednocześnie tylko jeden zbiór danych – po
wybraniu tej opcji w momencie otwarcia nowego pliku danych,
poprzedni będzie zamykany.
d) Kodowanie znaków w danych i poleceniach – regionalnie lub
Unicode.
e) Raport
• Blokuj notację naukową dla małych liczb w tabelach
wynikowych – wyniki będą się pojawiać wyłącznie w postaci
liczb w zapisie dziesiętnym,
• Zastosuj przyjęty sposób grupowania cyfr przy pre-
zentacji liczb – zależne od ustawień języka, chodzi np. o od-
dzielanie spacją tysięcy od setek, milionów od tysięcy itd.,
• System pomiarowy – jednostka, przy użyciu której definiuje się
rozmiary tabel i wykresów,
• Język – język, w jakim mają się tworzyć wyniki raportu (język ten
może być inny niż język menu programu, tj. można mieć polskie
menu, ale tworzyć raporty z angielskimi opisami).
• Powiadomienie o wyniku
– Przesuń na wierzch okno wynikowe – w momencie uzy-
skania wyniku okno zawierające ten wynik automatycznie zo-
staje wyświetlone jako pierwsze,
– Przewiń do nowego wyniku – automatycznie przewija np.
okno raportu do nowo uzyskanego wyniku,
– Dźwięk – możliwość sygnalizowania dźwiękiem pojawienia się
nowego wyniku.
f) Interfejs użytkownika - pozwala wybrać język używany w menu,
oknach dialogowych i innych funkcjach interfejsu użytkownika. Nie ma
wpływu na język wyników w raporcie.

2. Raporty (zmiana ustawień będzie widoczna w nowo utworzonym rapor-


cie)

a) Stan raportu wynikowego – dla każdego elementu raportu (który


można wybrać z listy) można określić, czy ma on być wstępnie wy-
świetlony, czy ukryty. Po utworzeniu raportu można jego poszczególne
elementy wyświetlać lub ukrywać.

37
b) Polecenia w dzienniku – określa, czy zapisywać wszystkie wykona-
ne polecenia w dzienniku (plik *.jnl, którego lokalizację można ustawić
w zakładce Lokalizacje plików).
c) Tytuł – możliwość ustawienia parametrów czcionki tytułu. Tytuł po-
jawia się na górze pierwszej strony raportu.
d) Tytuł strony – możliwość ustawienia parametrów czcionki tytułu
strony. Tytuł strony pojawia się na górze każdej strony raportu oprócz
pierwszej.
e) Wynik tekstowy – możliwość ustawienia parametrów czcionki wy-
ników tekstowych.

3. Dane

a) Opcje przekształceń i scalania danych – określa, kiedy mają


być wykonane te operacje, tj. m.in. wszystkie operacje, które moż-
na uzyskać za pomocą menu Przekształcenia. Opcję Przeliczaj
wartości na żądanie warto wybierać w przypadku dużych plików
danych.
b) Format wyświetlania zmiennych wynikowych – określa liczbę
wyświetlanych znaków zmiennych numerycznych, które powstały po-
przez wykonanie jednej z funkcji z menu Przekształcenia. Szero-
kość określa liczbę znaków, łącznie ze znakiem oddzielającym miejsca
dziesiętne. Miejsca dziesiętne – określa liczbę cyfr z prawej strony
znaku oddzielającego miejsca dziesiętne.
c) Generator liczb losowych – do wyboru jest starszy generator
zgodny z wcześniejszymi wersjami programu lub nowszy.
d) Odczytywanie danych zewnętrznych – automatycznie ustawia
poziom ilościowy przy wczytywaniu danych, które posiadają odpowied-
nio dużo różnych wartości.
e) Zaokrąglanie i przycinanie wartości numerycznych – opcja
istotna dla funkcji RND i TRUNC.
f) Okres stuletni dla dwucyfrowego zapisu dat – automatyczny
(1945-2044) lub podawany przez użytkownika.
g) Dostosuj widok zmiennych... – pozwala ustawić opcje widoku
w zakładce Zmienne edytora danych (wybrać, które właściwości zmien-
nych mają być widoczne).
h) Zmień słownik... – wybór słownika (nie ma polskiego).

38
4. Użytkownika – możliwość ustawienia pięciu formatów wyświetlania da-
nych. Formaty te mogą zawierać specjalny symbol przed lub po oraz
w określony przez użytkownika sposób wyświetlać liczby ujemne. Mogą
służyć np. do zdefiniowania formatu opatrzonego znakiem % lub sym-
bolem PLN. Po zdefiniowaniu tutaj odpowiedni format należy ustawić
zmiennej w zakładce Zmienne.

5. Etykietowanie

a) Opisywanie struktury raportu – zmienne mogą być opisywane


w strukturze raportu przez etykiety (widoczne w kolumnie o nazwie
Etykieta w zakładce Zmienne edytora danych – np. płeć respon-
denta), nazwy (np. gender ), nazwy i etykiety (np. gender – płeć re-
spondenta); wartości zmiennych mogą być opisywane przez etykiety
(chodzi o etykiety wartości, które wpisuje się w kolumnę Wartości
w zakładce Zmienne edytora danych – np. kobieta i mężczyzna), war-
tości (liczbowe – np. 1 i 2), wartości i etykiety (np. 1 – kobieta, 2 –
mężczyzna).
b) Opisywanie tabel przestawnych – jak przy strukturze raportu.

6. Wykresy

a) Szablon wykresu
• Zastosuj bieżące ustawienia – chodzi o ustawienia definiowa-
ne niżej,
• Użyj wzorca wykresu z pliku szablonu – pliki szablonu
znajdują się w
C:\\ProgramFiles\IBM\SPSS\Statistics\21\template
(szablon domyślny) oraz w
C:\\ProgramFiles\IBM\SPSS\Statistics\21\Looks
(dodatkowe pliki szablonu). Pliki szablonu mają rozszerzenie *.sgt.
Można zapisać własny plik szablonu. W tym celu należy utworzyć
wykres o żądanych właściwościach i zapisać go jako szablon z roz-
szerzeniem *.sgt (w oknie edytora wykresów należy wybrać Plik
–> Zapisz).
b) Proporcje wykresu – wartość współczynnika można określać w za-
kresie od 0,1 do 10,0. Wartość 1 spowoduje utworzenie wykresu kwa-
dratowego. Wartość mniejsza od 1 spowoduje, że wykresy będą wyższe
niż szersze. Wartość większa od 1 spowoduje, że wykresy będą szersze
niż wyższe.

39
c) Aktualne ustawienia – można tu zmieniać ustawienia zaznaczone
jako bieżące.
d) Wykorzystanie stylów dla oznaczeń elementów danych –
umożliwia dostosowanie kolorów, stylów linii, symboli znaczników oraz
deseni wypełnień dla nowych wykresów. Można zmienić kolejność ko-
lorów i deseni używanych podczas tworzenia nowego wykresu.

7. Tabele przestawne

a) Szablon TableLook – można wybrać plik szablonu instalowany


wraz z programem lub utworzyć własny za pomocą edytora tabel prze-
stawnych, wybierając Format –> Szablony TableLook.
b) Szerokość kolumn
• Dostosuj do etykiet i danych z wyjątkiem bardzo du-
żych tabel – w przypadku tabel nie większych niż 10 000 komó-
rek umożliwia dostosowanie szerokości kolumn do większej z dwóch
wartości: etykiety kolumny i największej wartości danych. Dla ta-
bel większych niż 10 000 komórek szerokość kolumn jest dostoso-
wywana do szerokości etykiety kolumny.
• Skoryguj tylko dla etykiet – dostosowanie szerokości ko-
lumny do szerokości jej etykiety.
• Dopasuj we wszystkich tabelach do etykiet i danych –
szerokość kolumn jest dostosowywana do większej z dwóch warto-
ści: etykiety kolumny i największej wartości danych.
c) Wyświetlaj tabelę jako bloki wierszy – opcja użyteczna przy
pokazywaniu dużych tabel, niemieszczących się na 1 stronie.
d) Domyślny tryb edycji tabel – pozwala ustawić sposób wyświe-
tlania tabel (w oknie raportu lub osobno).
e) Kopiowanie szerokich tabel do schowka w formacie RTF –
pozwala ustawić opcje dla kopiowania dużych tabel.

8. Lokalizacje plików

a) Foldery startowe dla okien dialogowych Otwórz i Zapisz


– pozwala ustawić ścieżkę do folderu, z którego będziemy otwierać lub
do którego będziemy zapisywać pliki.
b) Dziennik sesji – wybieramy, czy chcemy rejestrować polecenia w dzien-
niku (zapisują się tam wtedy wszystkie wykonane przez nas polecenia),
a jeśli tak, to gdzie go zapisywać.

40
c) Folder tymczasowy – podajemy ścieżkę do folderu tymczasowego.
d) Liczba wyświetlanych ostatnio użytych plików – liczba wy-
świetlanych plików widoczna w menu Plik –> Ostatnio używane
pliki.

9. Skrypty (umożliwia określenie domyślnego języka skryptów i autoskryp-


tów – Basic lub Python).

10. Podstawienia (stosowane w celu uzupełnienia braków danych poprzez


wybór z menu Przekształcenia –> Zastąp braki danych)

a) Oznaczanie podstawianych danych – domyślnie komórki zawie-


rające podstawiane dane mają inny kolor niż komórki zawierające dane
niepodstawiane. Można je wyróżnić również krojem czcionki.
b) Wyniki analizy – wybieramy, czy uwzględniać w analizie dane uzy-
skane przez podstawienie.

11. Polecenia – możliwość ustawienia opcji edytora poleceń (Syntax Edi-


tor).

41
42
Rozdział 3.

Przekształcanie i rekodowanie
zmiennych

3.1. Przekształcanie zmiennych


• Tworzenie funkcji do zmiennych zawartych w arkuszu. Wybie-
ramy z menu: Przekształcenia –> Oblicz wartości... W wyniku
otrzymujemy okno, pozwalające definiować nowe zmienne, które po-
wstają z przekształcenia starych. „Kalkulator” umieszczony na środku
okna dialogowego zawiera następujące operacje: + – dodawanie, − –
odejmowanie, ∗ – mnożenie, / – dzielenie, ∗∗ – potęgowanie, <, >, <=,
>= – znaki nierówności, = – znak równości, ∼= – znak różności, & –
koniunkcja (spójnik logiczny ∧), | – alternatywa (spójnik logiczny ∨).
Jeżeli w polu Zmienna wynikowa zamiast wzoru zostanie wpisane
wyrażenie logiczne, to utworzona zmienna będzie miała wartość 1 dla
obserwacji, dla których wartość tego wyrażenia jest prawdą, a 0 dla
obserwacji, dla których wartość tego wyrażenia jest fałszem.
Po zaznaczeniu w polu Grupa funkcji wybranej grupy w polu Funk-
cje i zmienne specjalne pojawi się lista dostępnych funkcji. Zazna-
czając wybraną funkcję, otrzymujemy jej dokładny opis.
Warto pamiętać, że funkcja SUM działa inaczej niż zwykłe dodawanie.
W przypadku braku danych zwykłe dodawanie nie wykona się, a funk-
cja SUM potraktuje braki danych jako zera.
Przycisk Jeżeli... pozwala na wyznaczenie wartości nowej zmiennej
tylko dla niektórych obserwacji (spełniających podany warunek).
Należy pamiętać, że program nowo utworzonym zmiennym przypisu-
je automatycznie szerokość 8 i dwa miejsca dziesiętne. W zakładce

43
Zmienne można to ustawić zgodnie z własnymi potrzebami.

Ćwiczenie 3.1. Utwórz nowy plik danych, w którym zapiszesz trzy


zmienne V 1, V 2, V 3. Zmienne V 1 i V 2 mają po 2 obserwacje: 2 i 3.
Zmienna V 3 ma również 2 obserwacje: 2 oraz systemowy brak danych.
Na tak utworzonym zbiorze wypróbuj działanie funkcji V 1 + V 2 + V 3,
SU M (V 1, V 2, V 3) oraz M EAN (V 1, V 2, V 3).

Ćwiczenie 3.2. Otwórz plik Employee data.sav (plik przykładowy


programu). Utwórz nowe zmienne:

a) zmienną różnica, która będzie równa różnicy obecnych zarobków


i zarobków początkowych,
b) zmienną wiek, która będzie równa aktualnej liczbie lat respondenta
(rocznikowo),
c) zmienną doświadczony, która będzie miała wartość 1, jeżeli pra-
cownik przepracował już w życiu co najmniej 20 lat, a 0 w prze-
ciwnym wypadku.

Rozwiązanie.

a) Wybieramy z menu Przekształcenia –> Oblicz wartości...


W pole Zmienna wynikowa wpisujemy nazwę różnica. Klikamy
Typ i etykieta i zaznaczamy Użyj formuły wyrażenia ja-
ko etykiety (pozwala to zachować jako etykietę wzór definiują-
cy nową zmienną). W pole Wyrażenie numeryczne wpisujemy
wzór salary − salbegin. Klikamy OK.
b) Wybieramy z menu Przekształcenia –> Oblicz wartości...
Resetujemy ustawienia. W pole Zmienna wynikowa wpisuje-
my nazwę wiek. Klikamy Typ i etykieta i wpisujemy etykietę
wiek pracownika. Na liście grup funkcji znajdujemy Wyodręb-
niające datę. Jedną z tych funkcji jest XDATE.YEAR, która
dla zmiennej opisującej datę zwraca rok. Z kolei z grupie funkcji
Aktualnej daty i czasu funkcja $Time podaje aktualną datę
w postaci liczby sekund od północy 14.10.1582 roku do chwili wy-
konania polecenia. Wrzucamy obie te funkcje do pola Wyrażenie
numeryczne i zapisujemy wzór
XDATE.YEAR($Time)−XDATE.YEAR(bdate).
Klikamy OK.

44
c) Wybieramy z menu Przekształcenia –> Oblicz wartości...
Resetujemy ustawienia. W pole Zmienna wynikowa wpisujemy
nazwę doświadczony. Klikamy Typ i etykieta i wpisujemy ety-
kietę przepracował co najmniej 20 lat. Zapisujemy w polu Wy-
rażenie numeryczne warunek logiczny jobtime + prevexp >=
240. Klikamy OK. W zakładce Zmienne w polu Wartości wpi-
sujemy 1 – tak, 0 – nie.

Gotowy plik jest dostępny na Moodle. 

• Zliczanie wystąpień wartości w obserwacji


Po wybraniu z menu Przekształcenia –> Zlicz wystąpienia...
możemy utworzyć zmienną, która będzie zliczała wystąpienia danej
wartości wśród wybranych przez nas zmiennych dla każdej obserwa-
cji. Wybierane zmienne muszą być tego samego typu.

Ćwiczenie 3.3. Otwórz plik tv-survey.sav (plik przykładowy progra-


mu). W pliku tym znajdują się dane dotyczące programów telewizyj-
nych. Na dobrą pozycję takiego programu ma wpływ kilka aspektów
uwzględnionych jako kolejne zmienne. Sprawdź szanse każdego z pro-
gramów, zliczając dla ilu aspektów pojawiła się odpowiedź 1 – tak.

Rozwiązanie. Wybieramy z menu Przekształcenia –> Zlicz wy-


stąpienia... W pole Zmienna wynikowa wpisujemy nazwę nowej
zmiennej, np. szanse. W polu Zmienne umieszczamy wszystkie zmien-
ne dostępne w pliku. Klikamy Definiuj wartości... Jako zliczaną
wartość wpisujemy 1 i klikamy Dodaj. Następnie wybieramy Dalej
i OK. Gotowy plik jest dostępny na Moodle. 

• Rekodowanie zmiennych Pakiet SPSS pozwala na rekodowanie war-


tości zmiennych, czyli przypisanie istniejącym zmiennym nowych war-
tości. Po wybraniu z menu Przekształcenia –> Rekoduj na te
same zmienne... nowe wartości zmiennej zastąpią stare. Natomiast po
wybraniu Przekształcenia –> Rekoduj na inne zmienne... do
pliku danych zostanie dołączona nowa zmienna o nowych wartościach,
a zmienna, którą rekodujemy pozostanie niezmieniona. Opcja ta po-
zwala przekodować zmienną na zmienną innego typu (numeryczną na
tekstową lub odwrotnie). Za pomocą rekodowania można podzielić ob-
serwacje na kategorie, przypisującym różnym wartościom wyjściowej
zmiennej tę samą wartość nowej zmiennej.

45
Uwagi: W przypadku rekodowania nierozłącznych przedziałów na dwie
różne wartości, np. przedziału [0, 4] na 1, a [3, 6] na 2, wszystkie warto-
ści z pierwszego z podanych przedziałów zostaną przekodowane na 1,
a z drugiego przedziału rekodowaniu na 2 ulegną tylko wartości, któ-
rych w pierwszym przedziale nie było, tj. należące do przedziału (4, 6].
To pozwala nie martwić się o wartości brzegowe klas, zostaną one re-
kodowane w zależności od kolejności, w jakiej podawaliśmy klasy do
rekodowania.

Ćwiczenie 3.4. Otwórz plik Employee data.sav (plik przykładowy


programu). Przekoduj zmienną prevexp, czyli poprzednie zatrudnienie,
na zmienną doświadczenie o wartościach:

– 0 (żadne), jeżeli prevexp = 0,

– 1 (małe), jeżeli 0 < prevexp ¬ 60,

– 2 (średnie), jeżeli 60 < prevexp ¬ 120,

– 3 (duże), jeżeli prevexp > 120.

Rozwiązanie. Wybieramy z menu Przekształcenia –> Rekoduj


na inne zmienne... Do okienka Zmienna źródłowa –> wyniko-
wa przerzucamy zmienną prevexp. W polach Nazwa i Etykieta wpi-
sujemy nazwę nowej zmiennej doświadczenie i etykietę np. określenie
doświadczenia zawodowego. Klikamy Wartości źródłowe i wyni-
kowe. Z lewej strony wpisujemy wartość 0, z prawej również 0 i wybie-
ramy Dodaj. Następnie z lewej strony wybieramy Zakres, podajemy
od 0 do 60, z prawej wpisujemy wartość 1 i klikamy Dodaj. Znów
z lewej strony wybieramy Zakres, podajemy od 60 do 120, z pra-
wej wpisujemy wartość 2 i klikamy Dodaj. Na koniec z lewej strony
wybieramy Zakres wartości, od podanej do największej:, wpi-
sujemy 120, z prawej strony wpisujemy wartość 3 i klikamy Dodaj.
Okno dialogowe powinno mieć wówczas postać:

46
Po wyznaczeniu wartości nowej zmiennej dokonujemy jej specyfikacji
w oknie Zmienne. Gotowy plik jest dostępny na Moodle. 
• Automatyczne rekodowanie Najczęściej stosowane do zamiany zmien-
nych tekstowych na numeryczne. Program kategoriom zmiennej tek-
stowej (w porządku alfabetycznym) przyporządkowuje kolejne liczby
naturalne, przy czym wartości zmiennej tekstowej stają się etykietami
wartości zmiennej numerycznej. Dostęp w programie: Przekształce-
nia –> Automatyczne rekodowanie...
Ćwiczenie 3.5. Otwórz plik Employee data.sav (plik przykładowy
programu). Rekoduj zmienną gender o wartościach ’k’ – Kobieta i ’m’
– Mężczyzna na zmienną płeć o wartościach numerycznych z odpowied-
nimi etykietami.

Rozwiązanie. Wybieramy z menu Przekształcenia –> Automa-


tyczne rekodowanie... w pole Zmienna –> Nowa nazwa prze-
rzucamy zmienną gender. Jako nową nazwę wpisujemy płeć i klikamy
Dodaj nową nazwę. Klikamy OK.
W pliku danych powstała zmienna płeć o wartościach 1 i 2 i etykietach
odpowiednio Kobieta i Mężczyzna. 
• Kategoryzacja wizualna Kategoryzacja wizualna jest pomocna w gru-
powaniu wartości danej zmiennej, m.in. w klasy o równej długości, co
ułatwia sporządzanie szeregów rozdzielczych. Aby dokonać takiej ka-
tegoryzacji należy wybrać Przekształcenia –> Kategoryzacja
wizualna... i w oknie dialogowym wybrać zmienne do kategoryza-
cji. W kolejnym oknie dialogowym widoczne są histogramy wybranych

47
zmiennych. Należy tu podać nazwę zmiennej po kategoryzacji. Następ-
nie po kliknięciu Punkty podziału... otwiera się kolejne okno, w któ-
rym można wybrać Równe szerokości przedziałów (i ustawić po-
dział danych, wypełniając co najmniej dwa spośród trzech pól), Rów-
ne percentyle (ustalamy podział wypełniając przynajmniej jedno
pole) lub Punkty podziału w średniej i odchyleniach stan-
dardowych. Klikając Zast..., wracamy do poprzedniego okna, w któ-
rym teraz widać dokonany podział na wykresie słupkowym i w tabe-
li wartości i etykiet. Punkty podziału na wykresie słupkowym można
ręcznie przesuwać, wówczas wartości w tabeli wartości i etykiet będą
aktualizowane automatycznie. Po ustawieniu żądanego podziału klika-
my Ok. Nowa zmienna przyjmuje wartości będące kolejnymi liczbami
naturalnymi, numeruje ona kolejne grupy.

Ćwiczenie 3.6. Otwórz plik Employee data.sav (plik przykładowy


programu). Podziel wartości

a) zmiennej prevexp na 4 klasy o równej długości,

b) zmiennej jobtime na 4 klasy o zbliżonej liczebności.

Rozwiązanie.

a) Wybieramy z menu Przekształcenia –> Kategoryzacja


wizualna... Jako zmienną do kategoryzacji wybieramy zmienną
prevexp. W kolejnym oknie pojawia się podgląd z histogramem.
W pole Skategoryzowana wpisujemy nazwę nowej zmiennej
np. prevexp klasy. Odczytujemy minimalną wartość zmiennej pre-
vexp – 0 i maksymalną – 476. Klikamy Punkty podziału. Za-
znaczamy Równe szerokości przedziałów i wyliczamy:

476 : 4 = 119.

To oznacza, że jako położenie pierwszego punktu podziału wpisu-


jemy 119, jako liczbę punktów podziału 3 i jako szerokość prze-
działów znów 119. Klikamy Zast... Otrzymujemy podział na 4
klasy:

48
W tabeli wartości i etykiet utworzonym klasom możemy nadać
etykiety.
b) Wybieramy z menu Przekształcenia –> Kategoryzacja
wizualna... Jako zmienną do kategoryzacji wybieramy zmienną
jobtime. W kolejnym oknie pojawia się podgląd z histogramem.
W pole Skategoryzowana wpisujemy nazwę nowej zmiennej
np. jobtime klasy. Klikamy Punkty podziału. Zaznaczamy Rów-
ne percentyle. Jako liczbę punktów podziału wpisujemy 3,
wówczas program sam wstawi 25% jako szerokość przedziałów.
Klikamy Zast...

Tu również możemy nadać etykiety utworzonym klasom.


Tabela częstości utworzona dla zmiennej jobtime klasy ma postać

49
Jak widać klasy są tylko w przybliżeniu równoliczne. Wynika to
z faktu, że wśród danych było wiele powtarzających się wartości,
które musiały zostać zakwalifikowane do tylko jednej z klas.

3.2. Restrukturyzacja danych*


Restrukturyzacja pozwala na przekształcenie wybranych zmiennych w obser-
wacje, przekształcenie wybranych obserwacji w zmienne oraz transpozycję.
Aby dokonać restrukturyzacji należy wybrać Dane –> Restrukturyzuj
dane... Pojawi się wówczas kreator restrukturyzacji danych, w którym moż-
na wybrać poniższe opcje.

1. Wybrane zmienne przekształcić w obserwacje – opcję tę należy


wybrać w przypadku, gdy kilka kolumn chcemy przekształcić w jedną.

• Krok 2. Tu należy zdecydować, ile grup zmiennych chcemy restruk-


turyzować.
• Krok 3. W polu Identyfikacja grup obserwacji można ustalić
zmienną identyfikującą grupy obserwacji. Zmienna ta mówi, w któ-
rym wierszu znajdowała się dana wartość przed restrukturyzacją.
Wartością tej zmiennej może być numer obserwacji lub wartość innej
zmiennej, która nie będzie restrukturyzowana. W okienko Zmienne
do transponowania wstawiamy zmienne, które chcemy restruktu-
ryzować. Wstawiamy tyle grup zmiennych, ile określiliśmy w kroku 2.
Liczba zmiennych w każdej grupie musi być taka sama. W pliku wy-
nikowym wszystkie wartości zmiennych z danej grupy będą tworzyły
jedną, nową zmienną wynikową, której nazwę możemy wprowadzić.
Do okienka Zmienne niezmienione można wprowadzić zmienne,
których nie restrukturyzujemy, ale chcemy umieścić w nowym pliku.
• Krok 4. Tu należy określić, czy będą tworzone zmienne indeksują-
ce. Zazwyczaj wystarcza utworzenie jednej takiej zmiennej. Wówczas

50
mówi ona, w której kolumnie znajdowała się dana wartość przed re-
strukturyzacją.
• Krok 5. Dostępny, jeśli w kroku 4. zdecydowaliśmy się utworzyć
zmienne indeksujące. Tutaj należy ustalić wartości zmiennych indek-
sujących. Mogą to być kolejne liczby naturalne albo nazwy kolumn,
z których pochodzą dane.
• Krok 6. Traktowanie zmiennych niewybranych – tu można
zdecydować, czy zmienne, których nie restrukturyzujemy, mają być
dołączone do pliku wynikowego. Systemowe braki danych lub
puste wartości we wszystkich zmiennych transponowa-
nych – tu można zdecydować jak traktować braki danych. Zmienna
zliczająca obserwacje mówi o tym, ile nowych wierszy powstało z jed-
nego wiersza danych wejściowych.
• Koniec. Wykonanie restrukturyzacji. Po wybraniu opcji Restruk-
turyzuj dane plik wejściowy zostanie zastąpiony nowym.

Ćwiczenie 3.7. Plik piwo1.sav zawiera zestawienie dotyczące sprzeda-


ży piwa w wybranych pubach w 15 miastach województwa kujawsko-
pomorskiego. Cena piwa oraz wielkość zamówienia składanego przez pub
umieszczone są w trzech kolumnach, z podziałem na wtorek, środę, czwar-
tek. Chcielibyśmy przeprowadzić analizę danych łącznie dla tych trzech
dni. Dlatego bardziej użyteczne będzie umieszczenie ceny piwa i wielkości
zamówienia jako pojedynczych zmiennych. Dokonaj odpowiedniej restruk-
turyzacji danych.

2. Wybrane obserwacje przekształcić w zmienne – opcję tę należy


wybrać w przypadku, gdy obserwacje znajdujące się w jednej kolumnie
chcemy rozdzielić na kilka kolumn.

• Krok 2. W okienku Zmienne indentyfikujące umieszczamy zmien-


ne, według których chcemy dokonać podziału. Po restrukturyzacji
dane, dla których zmienne identyfikujące mają te same wartości, bę-
dą tworzyły jedną obserwację. Zmienne indeksujące określają sposób
podziału kolumn. Plik po restrukturyzacji będzie zawierać po jednej
nowej kolumnie dla każdej unikatowej wartości zmiennych indeksu-
jących.
• Krok 3. Jeśli plik nie był wcześniej posortowany według zmiennych
identyfikujących należy wybrać opcję Tak, dane zostaną posortowa-
ne według zmiennych identyfikujących i indeksujących.

51
• Krok 4. Porządek nowych grup zmiennych określa porządek kolumn
w pliku wynikowym. Opcja Grupuj według zmiennej orygi-
nalnej spowoduje, że kolumna z pliku wejściowego, która została
podzielona utworzy grupę, w której kolumny różnią się wartością in-
deksu. Opcja Grupuj według indeksu spowoduje, że grupy utwo-
rzą podzielone kolumny z pliku wejściowego o różnych nazwach, ale
takim samym indeksie. Zmienna zliczająca obserwacje mówi o licz-
bie wierszy, które zostały wykorzystane do utworzenia nowego wier-
sza w pliku wynikowym. Zaznaczenie opcji Zmienne wskaźnikowe
spowoduje utworzenie zmiennej wskaźnikowej dla każdej unikatowej
wartości zmiennej indeksującej. Zmienna wskaźnikowa jest równa 1,
jeśli w pliku wejściowym dla jej indeksu była wartość równa wartości
zmiennej identyfikującej oraz jest równa 0 w przeciwnym wypadku.
• Koniec. Wykonanie restrukturyzacji. Po wybraniu opcji Restruk-
turyzuj dane plik wejściowy zostanie zastąpiony nowym.

Ćwiczenie 3.8. Plik piwo2.sav zawiera wielkość zamówienia składanego


przez wybrane puby w 15 miastach województwa kujawsko-pomorskiego
w dzień powszedni oraz w weekend. Dane te zawarte są w jednej kolumnie.
Dokonaj restrukturyzacji danych tak, aby można było analizować osobno
wielkość zamówienia w dzień powszedni i weekendowy.

3. Dokonać transpozycji wszystkich danych – jest to opcja równo-


ważna Dane –> Transponuj...

52
Rozdział 4.

Statystyka opisowa i grafika

4.1. Podstawowe statystyki


Podstawowe statystyki program IBM SPSS Statistics oblicza w kilku miej-
scach:

• Analiza –> Raporty i zestawienia –> Podsumowania obser-


wacji... –> Statystyki – lista statystyk do wyboru,

• Analiza –> Opis statystyczny –> Częstości... –> Statysty-


ki... – lista statystyk do wyboru plus tabele częstości oraz wykresy
(słupkowy, kołowy lub histogram z lub bez krzywej rozkładu normal-
nego),

• Analiza –> Opis statystyczny –> Statystyki opisowe... –>


Opcje... – lista statystyk do wyboru plus standaryzacja zmiennych,

• Analiza –> Opis statystyczny –> Eksploracja... obliczane


są: średnia, przedział ufności dla średniej (o zadanym poziomie ufno-
ści), średnia obcięta, mediana, wariancja, odchylenie standardowe, mi-
nimum, maksimum, rozstęp, rozstęp ćwiartkowy, skośność i kurtoza;
dodatkowo mogą być liczone M-estymatory, wartości skrajne i percen-
tyle oraz robione wykresy (skrzynkowe, łodyga i liście, histogram oraz
wykresy normalności z testami).

Przypomnimy krótko własności podstawowych statystyk.


Miary tendencji centralnej:

• Średnia PN
i=1 xi
x̄ = .
N
53
Średnią podajemy z dokładnością o 1 większą niż dane. Może być wy-
korzystywana w dalszych obliczeniach statystycznych. Jest najmniej
podatna na błąd jako przybliżenie średniej dla całej populacji, ale
wrażliwa na nienormalnie duże lub nienormalnie małe wartości skrajne.
W przypadku rozkładów dwu- i wielomodalnych bywa myląca.
W dowcipie rysunkowym robotnik mówi do dziennikarki: Średnio rocz-
nie w naszej firmie zarabia się 100 000 zł. Prezes zarabia milion, a nasza
dziesiątka po 10 000.
• Mediana – wartość środkowa. Jeśli N jest nieparzyste, to medianą jest
x +x
x((N +1)/2) , a jeśli parzyste, to (N/2) 2((N/2)+1) . Łatwa do zrozumienia.
Nie ulega deformacji ze względu na nienormalnie duże lub nienormal-
nie małe wartości skrajne. Dla małych zbiorów danych, o pewnej szcze-
gólnej postaci, nie jest dobrą charakterystyką tendencji centralnej (np.
medianą dla 5, 5, 5, 9, 10 jest 5).
Miary rozproszenia:
• Rozstęp R = xmax − xmin .
• Kwantyle:
– kwartyle,
– decyle,
– percentyle.
Kwantyle rzędu m to punkty podziału próbki na m „równych” części.
Kwantyli rzędu m jest m − 1. Kwantyle rzędu 4 to kwartyle. Kwantyle
rzędu 10 to decyle, a rzędu 100 to percentyle.
W SPSSie l-ty kwartyl rzędu m (dla l = 1, 2, . . . m − 1) jest liczony
według wzoru
! !
l l
Ql = k + 1 − (N + 1) x(k) + (N + 1) − k x(k+1) ,
m m m
h i
gdzie k = (N + 1) ml .
Graficzną prezentacją kwartyli jest wykres skrzynkowy (skrzynka z wą-
sami). Rysujemy go wzdłuż jednej osi ze skalą. Składa się on z pudełka
rozciągającego się od 1. do 3. kwartyla, z przedziałką na wysokości
mediany. Do pudełka doczepione są wąsy sięgające z jednej strony do
najmniejszej wartości zmiennej, a z drugiej do największej wartości
zmiennej.

54
Dla udoskonalonych wykresów skrzynkowych, a takie pojawiają się
w IBM SPSS Statistics, wąsy mają długość nieprzekraczającą 1, 5×rozstęp
międzykwartylowy (tzn. różnica Q3/4 − Q1/4 ). Każda wartość, która
znajduje się poza wąsami jest oznaczana kółeczkiem lub gwiazdką i na-
zywana wartością odstającą lub outsiderem. Kółkiem oznacza się war-
tości odstające o nie więcej niż 3 odstępy międzykwartylowe (tzw. war-
tości nietypowe), a gwiazdką odstające o ponad 3 odstępy międzykwar-
tylowe (tzw. wartości skrajne).
Wartości kwartyli wyznaczane alternatywnym algorytmem Tukey’a na-
zywane są zawiasami Tukey’a. Różnią się one od podstawowych war-
tości kwartyli wtedy, gdy rozkład zmiennej charakteryzuje się licznymi
brakami wystąpień wartości zmiennej ulokowanymi w pobliżu kwartyli
(„dziury” w histogramie w tych miejscach).

• Wariancja PN
2 − x̄)2
i=1 (xi
s = .
N −1
W przypadku, gdy zgromadzone dane traktujemy jako dane całej po-
pulacji, wariancję obliczamy, dzieląc sumę występującą w powyższym
wzorze przez N . Jeśli natomiast analizujemy próbkę i otrzymana wa-
riancja ma być przybliżeniem wariancji w całej populacji, należy dzielić
przez N − 1 (tak liczy IBM SPSS Statistics). Zapobiega to obciążeniu
tego przybliżenia (estymatora).

• Odchylenie standardowe
sP
N
− x̄)2
i=1 (xi
s= .
N −1
Odchylenie standardowe może nie być dobrą miarą rozproszenia, gdy
zmienna przyjmuje kilka wartości bardzo oddalonych od reszty lub gdy
rozkład jest mocno skośny.

55
• Błąd standardowy średniej
s
SE = √ .
N

• 5% średnia obcięta – średnia po wykluczeniu 5% najmniejszych i 5%


największych obserwacji. W przypadku zmiennych o łagodnie skośnym
rozkładzie miara ta jest lepszą miarą tendencji centralnej niż mediana.
Pozostałe miary:
• Skośność
N Ni=1 (xi − x̄)
3
P
g= .
(N − 1)(N − 2)s3
Decyduje o kształcie rozkładu. Przy dodatniej skośności rozkład jest
prawostronnie skośny, czyli histogram ma dłuższy prawy ogon. Przy
ujemnej rozkład jest ujemnie skośny, czyli histogram ma dłuższy lewy
ogon.

• Kurtoza
PN P 2
4 N
N (N + 1) i=1 (xi − x̄) − 3(N − 1) i=1 (xi − x̄)2
K= .
(N − 1)(N − 2)(N − 3)s4
Podany wzór różni się od wzoru zazwyczaj podawanego w literaturze.
W naszym przypadku kurtoza dla standardowego rozkładu normalnego
jest równa 0 (a nie 3). Dlatego

– K < 0 – rozkład platykurtyczny (płaski),


– K > 0 – rozkład leptokurtyczny (wysmukły),
– K = 0 – rozkład mezokurtyczny.

Kiedy możemy zatem uznać, że wykres rzeczywiście jest leptokurtyczny


czy dodatnio skośny? W tej kwestii nie ma jasności wśród statystyków,
jednak jedną z często polecanych metod jest podzielenie wartości współ-
czynnik przez jego błąd standardowy [. . . ]. Jeżeli wynik będzie większy
od 2 lub mniejszy od −2 mamy podstawy, aby uznać dany rozkład za
odstający od normalności. [2, str. 107].

• M-estymatory to alternatywne wobec mediany i średniej arytmetycz-


nej miary tendencji centralnej. Są to estymatory mocne, odporne na
rozbieżność z rozkładem normalnym. W programie IBM SPSS Stati-
stics wyznaczane są estymator M Hubera, estymator fali Andrewsa,

56
estymator M Hampela oraz estymator dwuwagi Tukeya. Definicję moż-
na znaleźć w [9, str. 21]. Niejednoznaczna jest ocena wartości mery-
torycznej poszczególnych M-estymatorów. Wszystkie w zasadzie opisu-
ją symetryczne rozkłady ciągłej zmiennej losowej z wartościami skraj-
nymi dalszymi od tych, jakie wynikają z końcowych wartości ramion
rozkładu normalnego. W praktyce badawczej jednak często analizowa-
ne są rozkłady asymetryczne, miejscami zgęszczone [. . . ] i cechujące
się wartościami nietypowymi [. . . ]. W zastosowaniu do rozkładów asy-
metrycznych estymator Hubera i średnia ucięta wykazują zbieżność do
średniej, a inne estymatory (korygujące do dołu, tj.: Humpela, falowy
Andrew i dwuwagowy Tukey’a) – do mediany. W przypadku analiz roz-
kładu asymetrycznego sugeruje się eksplorację transformacji wartości
zmiennej (np. poprzez wyznaczenie wartości jej logarytmu), a nie wiel-
kości oryginalnych. [9, str. 23].

W celu porównania dwóch zmiennych, które mogą na przykład być mie-


rzone względem różnych skal, należy dokonać ich przekształcenia. Podstawo-
we przekształcenia to:

• normalizacja:
xi − xmin
ui = ,
R
po normalizacji zmienna ma wartości z przedziału [0, 1],

• standaryzacja:
xi − x̄
zi = ,
sx
po standaryzacji zmienna ma zawsze rozkład ze średnią 0 i odchyleniem
standardowym 1, a jej wartości odpowiadają liczbie jednostek odchy-
lenia standardowego (np. jeżeli po standaryzacji zmienna ma wartość
2, 5, to znaczy, że przed standaryzacją jej wartość odbiegała od średniej
o 2, 5 odchylenia standardowego).

Ćwiczenie 4.1. Otwórz plik Employee data.sav (plik przykładowy progra-


mu). Wykonaj analizę statystyczną bieżącego wynagrodzenia następującymi
trzema sposobami:

a) Analiza –> Opis statystyczny –> Częstości...,

b) Analiza –> Opis statystyczny –> Statystyki opisowe...,

c) Analiza –> Opis statystyczny –> Eksploracja...

57
Rozwiązanie.

a) Wybieramy Analiza –> Opis statystyczny –> Częstości... Do


pola Zmienne przenosimy zmienną salary. Klikamy Statystyki i za-
znaczamy interesujące nas statystyki. Klikamy Wykresy i wybieramy
Histogramy oraz Pokaż krzywa normalną na histogramie. Wy-
łączamy opcję Pokaż tabele częstości.

58
b) Wybieramy Analiza –> Opis statystyczny –> Statystyki opi-
sowe... Do pola Zmienne przenosimy zmienną salary. Klikamy Opcje
i zaznaczamy interesujące nas statystyki. (W oryginalnej tabeli zamienio-
no wiersze na kolumny, otrzymując tabelę podaną poniżej).

c) Wybieramy Analiza –> Opis statystyczny –> Eksploracja...


Do pola Zmienne zależne przenosimy zmienną salary. Klikamy Sta-
tystyki... i sprawdzamy, czy mamy zaznaczone Statystyki opisowe.
Klikamy Wykresy... i zamiast wykresu łodyga i liście zaznaczamy hi-
stogram.

59
60
Po wykonaniu tabel i wykresów należy dokonać oceny rozkładu. Tu za-
uważmy tylko, że rozkład jest mocno skośny prawostronnie, leptokurtyczny,
z wieloma wartościami odstającymi. 

4.2. Ważenie obserwacji


W przypadku zmiennych zgrupowanych (szereg rozdzielczy zamiast danych
surowych) konieczne jest dokonanie ważenia obserwacji, żeby poszczególne
różne wartości zmiennej nie były liczone pojedynczo, tylko tyle razy, ile wy-
stąpiły faktycznie w próbie. Opcja ta jest dostępna poprzez wybranie Dane
–> Ważenie obserwacji. Od momentu zdefiniowania wagi obowiązuje ona
we wszystkich wykonywanych analizach (również wykresach) aż do odwoła-
nia poprzez zmianę na opcję Nie waż obserwacji.

Ćwiczenie 4.2. Plik defekt.sav (dostępny na Moodle) zawiera dane doty-


czące rozkładu liczby uszkodzeń na yard kwadratowy tkaniny bawełnianej.
Wyznacz średnią wartość liczby uszkodzeń oraz narysuj histogram liczby
uszkodzeń, nie oznaczając i oznaczając zmienną częstość jako zmienną wa-
żącą.

61
Rozwiązanie. Wybieramy Analiza –> Opis statystyczny –> Czę-
stości... Do pola Zmienne przenosimy zmienną uszkodzenia. Pod przyci-
skiem Statystyki wybieramy średnią, a pod przyciskiem Wykresy – hi-
stogram. Odznaczamy opcję Pokaż tabele częstości.

Jak widać powyższy wykres nie ma w ogóle sensu, można z niego odczytać
jedynie, że każda kategoria wystąpiła jeden raz. W tabeli natomiast częstość
jest równa liczbie klas.
Włączamy opcję ważenia: Dane –> Ważenie obserwacji... Zaznacza-
my Zważ obserwacje, a jako zmienną ważącą podajemy częstość.
Powtarzamy analizę.

62
Teraz odczytujemy z tabeli, że uwzględnionych zostało 100 obserwacji,
a średnia i histogram mają zupełnie inną postać. 

4.3. Analiza danych w podgrupach


Wybierając opcję Dane –> Podziel na podzbiory... mamy możliwość
przeprowadzania analiz w podgrupach. W oknie dialogowym wybieramy Po-
równaj grupy i wtedy wyniki analiz dla każdej grupy dostajemy w jednej
tabeli a wykresy dla grup są kolejno po sobie lub Przedstaw wyniki w po-
dziale na grupy i wtedy wszystkie wyniki analiz i wykresy są wykonywane
najpierw dla jednej grupy, potem dla kolejnej itd. Grupy są wyróżniane na
podstawie wartości zmiennych, które zadeklarujemy jako zmienne grupują-
ce. Jeśli chcemy korzystać z tej opcji, musimy dane posortować ze względu
na zmienną grupującą, co jest domyślnie zaznaczone w oknie dialogowym.

63
Możemy wybrać opcję Plik jest już posortowany, jeśli wcześniej prze-
prowadziliśmy sortowanie.
Aby wrócić do analizy całego zbioru danych musimy wybrać Dane –>
Podziel na podzbiory... i zaznaczyć opcję Analizuj wszystkie obser-
wacje, nie twórz grup.
SPSS pozwala również na wybranie i analizę tylko niektórych obserwacji.
Dokonujemy tego za pomocą Dane –> Wybierz obserwacje.... Obser-
wacje, których nie chcemy analizować, możemy trwale usunąć z pliku, wy-
bierając Usuń niewybrane obserwacje ze zbioru danych lub chwilo-
wo wyłączyć z analizy, wybierając Odfiltruj niewybrane obserwacje.
Można również wybrane obserwacje przekopiować do nowego zbioru danych,
wybierając Skopiuj wybrane obserwacje do nowego zbioru. Przy
odfiltrowywaniu automatycznie tworzy się zmienna filter $ przyjmująca war-
tość 1 dla obserwacji wybranych, a 0 dla pozostałych.
Obserwacje do analizy wybieramy:

• na bazie warunku, wybierając Jeśli spełniony jest warunek,

• losowo, wybierając Próba losowa obserwacji i podając procent lub


liczbę obserwacji, które chcemy badać,

• na bazie czasu lub zakresu obserwacji, wybierając Na podstawie cza-


su lub zakresu obserwacji (opcja czasu dostępna jest tylko dla dat
stworzonych za pomocą opcji Dane –> Definiuj datę i czas),

• na podstawie zmiennej filtrującej, wybierając Użyj zmiennej filtru-


jącej; do analizy zostaną wybrane dane, dla których zmienna filtrująca
ma wartości różne od zera, niebędące brakami danych.

Aby wrócić do analizy całego zbioru danych musimy wybrać Dane –>
Wybierz obserwacje... i zaznaczyć opcję Wszystkie obserwacje.

Ćwiczenie 4.3. Otwórz plik Employee data.sav (plik przykładowy progra-


mu). Wybierz do analizy osoby, których doświadczenie zawodowe (czyli po-
przednie zatrudnienie łącznie z obecnym stażem pracy) przekracza 120 mie-
sięcy, a następnie dokonaj analizy ich bieżącego wynagrodzenia w podziale
na kobiety i mężczyzn.

Rozwiązanie. Wybieramy z menu Dane –> Wybierz obserwacje...


Następnie zaznaczamy Jeśli spełniony jest warunek i klikamy Jeżeli...
Zapisujemy warunek

jobtime + prevexp > 120.

64
Klikamy Dalej Następnie w polu Wynik zaznaczamy Odfiltruj niewy-
brane obserwacje. W efekcie niektóre obserwacje w pliku danych zostaną
skreślone, co oznacza, że nie będą brane do analizy.

Wybieramy teraz Dane –> Podziel na podzbiory... Zaznaczamy Po-


równaj grupy i w polu Grupy wyróżnione na podstawie umieszcza-
my zmienną gender.

Wykonujemy teraz analizę danych, wybierając np. Analiza –> Opis


statystyczny –> Eksploracja... i w polu Zmienne zależne umiesz-
czając salary.

65
66
67


4.4. Zasady tworzenia wykresów statystycznych


• Dwa typy wykresów obrazkowych: pierwszy, gdy pewien symbol jest
skalowany proporcjonalnie do wielkości liczbowej, którą ma prezento-
wać (tu trzeba uważać, bo w naturalny sposób postrzegamy pole, a nie
wysokość tego symbolu, a co za tym idzie należałoby raczej skalować
pole, a nie wysokość), drugi, gdy pewien symbol oznacza zaokrąglo-
ną wartość liczbową (np. 100, 1 tys., 10 tys. itp) i jest on powtarzany
odpowiednią liczbę razy (jest to lepsze rozwiązanie, jeśli symbole są
identyczne).

• Wykresy słupkowe powinny mieć słupki rysowane osobno, chyba że


odpowiadają kolejno następującym po sobie przedziałom liczbowym.
Odległości między słupkami powinny być inne niż szerokość słupków.
Słupki są rysowane poziomo, gdy prezentują długości (np. rzek, wieku
itp.). Należy zwrócić uwagę na skalę na osi pionowej, w poprawnie
przedstawionym wykresie powinna się ona zaczynać od 0.

68
• Przy wykresach kołowych występują problemy ze wzrokową oceną mia-
ry kąta. Kąty ostre postrzegane są jako mniejsze, a rozwarte jako więk-
sze niż w rzeczywistości. Kąty położone poziomo wydają się większe
niż umieszczone pionowo. Z tych powodów odradza się używanie tych
wykresów.

• Wykresy liniowe są używane najczęściej do pokazywania zmian mierzo-


nej wielkości w czasie. Nie należy tworzyć wykresów liniowych, gdy ka-
tegorie na osi poziomej nie są naturalnie uporządkowane. Należy zwró-
cić uwagę, czy skala na osi pionowej zaczyna się od 0.

• Należy stosować właściwą proporcję na wykresie -— niektórzy auto-


rzy podają, że stosunek wysokości wykresu do jego długości powinien
wynosić 3 : 5.

• Należy dbać o właściwy i kompletny opis: tytuł, dane, właściwie do-


brane jednostki na obu osiach, legendę zgodną z kolejnością danych na
wykresie.

• Należy unikać: porównywania na jednym diagramie danych podanych


w różnej skali, zestawiania danych bez zachowania jednolitej skali na
osi pionowej, przesytu elementów dekoracyjnych, niepotrzebnego wpro-
wadzania efektów 3D.

4.5. Kreator wykresów


Dostęp do kreatora wykresów uzyskujemy wybierając Wykresy –> Kre-
ator wykresów... Pojawia się wówczas okno z ostrzeżeniem, że należy
najpierw zadbać o wprowadzenie etykiet kategorii oraz sprawdzić, czy po-
ziom zmiennych został dobrze wybrany. Można wybrać Definiuj własno-
ści zmiennych... i tam sprawdzić ustawienia.
Wykres w kreatorze można stworzyć na dwa sposoby:

1. korzystając z galerii, w której zdefiniowane zostały najczęściej używane


kategorie wykresów, tj.:

• słupkowe: prosty, zgrupowany, zestawiony, prosty 3-W, zgrupowany


3-W, zestawiony 3-W, prosty wykres słupków błędu, zgrupowany wy-
kres słupków błędu,
• liniowe: prosty, wielokrotny (grupowany, wieloliniowy),
• warstwowe: prosty, zestawiony,

69
• kołowe / biegunowe: prosty,
• rozrzutu / punktowe: prosty rozrzutu, zgrupowany rozrzutu, prosty
rozrzutu 3-W, zgrupowany rozrzutu 3-W, podsumowujący wykres
punktowy, prosty punktowy, macierzowy rozrzutu, wykres linii rzu-
towania,
• histogram: prosty, zestawiony, wielokąt częstości (niedostępny z po-
ziomu wykresów tradycyjnych), piramida populacyjna,
• max-min: maks-min-zamknięcie, prosty wykres rozstępu, zgrupowa-
ny wykres rozstępu, liniowy wykres różnic,
• skrzynkowe: prosty, zgrupowany, skrzynka podsumowująca obserwa-
cje,
• dwuosiowe: dwuosiowy Y z osią jakościową X, dwuosiowy Y z osią
ilościową X (niedostępne z poziomu wykresów tradycyjnych),
2. krok po kroku, z elementów podstawowych.
Korzystanie z galerii jest najprostszym sposobem wykonania własnego
wykresu. Aby stworzyć wykres, należy kliknąć na zakładkę Galeria, wybrać
kategorię wykresu z listy, a następnie typ wykresu na podstawie dostępnych
rysunków. Wybrany rysunek należy przeciągnąć myszką do obszaru robocze-
go, znajdującego się w prawym górnym rogu okna kreatora wykresów (lub
dwukrotnie kliknąć myszką na wykres).
W obszarze roboczym pojawią się obszary upuszczania osi oraz (przy nie-
których wykresach) obszar upuszczania grupowania / zestawiania. Jeżeli są
one opisane niebieską czcionką, należy na nie przeciągnąć odpowiednie zmien-
ne z listy Zmienne lub przypisać odpowiednie statystyki. Czcionka w kolo-
rze czarnym w obszarze upuszczania oznacza, że zawiera on już zmienną lub
statystykę (niektóre wykresy mają z góry przypisane statystyki w obszarze
upuszczania osi). Aby usunąć zmienną z obszaru upuszczania, należy ją z po-
wrotem przeciągnąć na listę Zmienne.
Można również tworzyć wykresy porównujące kilka zmiennych. Po prze-
ciągnięciu do obszaru roboczego odpowiedniego wykresu, upuszczamy na oś
pionową pierwszą zmienną. Następnie wybieramy drugą zmienną, przenosi-
my ją do tego samego obszaru upuszczania i upuszczamy po pojawieniu się
znaku +.
Aby zmienić właściwości któregokolwiek z elementów wykresu (osie, sta-
tystyki na osiach, legendę itp.), należy kliknąć przycisk Właściwości ele-
mentu. Okno właściwości elementu jest jedno dla wszystkich elementów wy-
kresu, zaś modyfikacje na konkretnym elemencie przeprowadzamy, wybiera-
jąc go z listy Edytuj właściwości. Po zmianie właściwości wybranych
elementów należy je zachować, klikając przycisk Zastosuj.

70
Aby zmienić układ wykresu (np. transponować słupki z poziomych na pio-
nowe), należy kliknąć zakładkę Podstawowe, a następnie przycisk Trans-
ponuj.
Jeżeli chcielibyśmy otrzymać wiele wykresów (tabelę wykresów – tzw.
panel) w rozróżnieniu na wiele zmiennych jakościowych, np. wykształcenie,
płeć, itp., należy dodać do wykresu więcej zmiennych. W tym celu klikamy
zakładkę Grupy/ID punktów w oknie dialogowym kreatora wykresów,
a następnie wybieramy odpowiednie opcje, np. zmienne panelu wierszowego
lub kolumnowego. W obszarze roboczym pojawią się wówczas nowe obszary
upuszczania, na które należy przeciągnąć zmienne jakościowe.
Po zakończeniu tworzenia wykresu należy kliknąć przycisk OK, który
spowoduje wyświetlenie wykresu w oknie raportu. Uwaga: należy wypełnić
wszystkie obszary upuszczania opisane niebieską czcionką, inaczej nie będzie
możliwe wygenerowanie wykresu (nie uaktywni się przycisk OK).
Jeżeli utworzony przez nas wykres będzie często wykorzystywany, można
go zapisać jako wykres użytkownika. Zapisane zostaną wówczas wszystkie
ustawienia, które można zmieniać za pomocą kreatora wykresów (statystyki,
typ skali itp.), poza zmiennymi. W celu zapisania wykresu, należy kliknąć
prawym przyciskiem myszki w dowolnym miejscu na obszarze roboczym kre-
atora wykresów i kliknąć Dodaj do ulubionych. Po wprowadzeniu nazwy
wykresu należy kliknąć przycisk OK. Od tego momentu wykres użytkownika
pojawi się w galerii na liście Ulubione. Aby usunąć wykres użytkownika
z listy, należy kliknąć na niego prawym przyciskiem myszy i wybrać Usuń
z ulubionych.
Tworzenie wykresu z elementów podstawowych jest metodą zalecaną dla
bardziej zaawansowanych użytkowników. Jako elementy podstawowe rozu-
miemy osie wykresu oraz inne elementy graficzne.
Klikamy na zakładkę Podstawowe. Zaczynamy od wyboru układu osi
wykresu, gdzie mamy do wyboru 5 opcji: współrzędne jedno-, dwu- i trój-
wymiarowe, biegunowe i z dwiema osiami współrzędnych Y. W zależności od
tego, jaki układ wybierzemy, uaktywnią się odpowiednie elementy graficzne,
które możemy przeciągać do obszaru roboczego. Dalej postępujemy już tak,
jak w przypadku tworzenia wykresu z galerii.

Ćwiczenie 4.4. Otwórz zbiór Employee data.sav (plik przykładowy progra-


mu).

a) Porównaj na wykresie słupkowym średnią wysokość bieżącego wynagro-


dzenia dla poszczególnych grup pracowniczych.

b) Porównaj na wykresie słupkowym średnią wartość wynagrodzenia począt-


kowego i bieżącego.

71
c) Przedstaw na wykresie kołowym udział procentowy poszczególnych grup
pracowniczych w badanej grupie.

d) Na trójwymiarowym wykresie słupkowym przedstaw zależność zajmowa-


nego stanowiska i płci pracowników.

e) Wykonaj piramidę populacyjną dla wieku pracowników w podziale na


płeć.

f) Na wykresie rozrzutu przedstaw zależność wynagrodzenia bieżącego od


początkowego.

g) Wykonaj panel wykresów liniowych, na których zaprezentujesz zależność


średniego wynagrodzenia od stażu pracy dla poszczególnych grup pracow-
niczych.

Rozwiązanie.

a) Wybieramy z menu Wykresy –> Kreator wykresów. Jeśli poja-


wi się okno informujące o potrzebie zdefiniowania własności zmiennych
możemy to zrobić lub, w przypadku znanego zbioru danych z dobrze wy-
specyfikowanymi zmiennymi, kliknąć OK.

Z galerii wykresów wybieramy Słupkowe i prosty wykres słupkowy prze-


nosimy do obszaru roboczego. Na oś X upuszczamy zmienną jobcat. Na oś
Y zmienną salary. W oknie właściwości sprawdzamy, że statystyką pod-
sumowującą jest rzeczywiście średnia.

Wykres możemy aktywować i w oknie edycji wybrać ikonę Pokaż opis


danych.

72
W rezultacie otrzymujemy wykres

b) Wybieramy z menu Wykresy –> Kreator wykresów. Z galerii wy-


kresów wybieramy Słupkowe i prosty wykres słupkowy przenosimy do

73
obszaru roboczego. Na oś Y upuszczamy najpierw zmienną salbegin, a na-
stępnie salary (czekając aż w górnej części obszaru upuszczania pojawi
się czerwony znak plusa). Pojawi się okno dialogowe informujące nas, że
nazwy tych dwóch zmiennych będą nazwami kategorii na osi X. Klikamy
OK. Otrzymujemy wykres

c) Wybieramy z menu Wykresy –> Kreator wykresów. Z galerii wy-


kresów wybieramy Kołowe / Biegunowe. Wykres kołowy przenosimy
do obszaru roboczego. W polu Wycinki tworzy umieszczamy zmienną
jobcat. Jako statystyka ustawiła się liczebność. W oknie właściwości może-
my ją zmienić na procent. Po wykonaniu wykresu możemy go aktywować
i wycinki opatrzyć procentami.

74
d) Wybieramy z menu Wykresy –> Kreator wykresów. Z galerii wy-
kresów wybieramy Słupkowe i przenosimy do obszaru roboczego prosty
wykres słupkowy 3-W. Zmienną gender umieszczamy na osi X, a zmienną
jobcat na osi Z. Na osi Y automatycznie pojawi się liczebność.

e) Tworzymy najpierw zmienną wiek (patrz ćwiczenie 3.2), obliczając ak-


tualny wiek pracowników (na rok 2012). Następnie wybieramy z menu
Wykresy –> Kreator wykresów. Z galerii wykresów wybieramy
Histogram, a następnie do obszaru roboczego przenosimy piramidę po-
pulacyjną. Jako zmienną podziału wybieramy gender, a jako zmienną
dystrybucji wiek.

75
f) Wybieramy z menu Wykresy –> Kreator wykresów. Z galerii wy-
kresów wybieramy Rozrzutu/Punktowe, a następnie do obszaru ro-
boczego przenosimy prosty wykres rozrzutu. Ponieważ to wynagrodze-
nie bieżące może zależeć od początkowego, a nie na odwrót, to na osi Y
(zmiennej zależnej) umieszczamy zmienną salary, a na osi X (zmiennej
niezależnej) salbegin.

g) Wybieramy z menu Wykresy –> Kreator wykresów. Następnie


spośród wykresów liniowych wybieramy prosty wykres liniowy. Na oś X
upuszczamy zmienną jobtime, a na oś Y zmienną salary. W oknie właści-
wości elementu zmieniamy statystykę z Wartości na Średnia. Klikamy
Zastosuj. W oknie kreatora wykresów przechodzimy do zakładki Gru-
py/ID punktów i zaznaczamy opcję Zmienna panelu wierszowego.
W obszarze roboczym pojawi się wówczas pole Panel, w którym umiesz-
czamy zmienną jobcat.

76


Ćwiczenie 4.5. Na podstawie danych zawartych w pliku meteo.sav (do-


stępny na Moodle) wykonaj wykres, który będzie prezentował sumę opadów
(w postaci słupków) oraz średnią temperatur (w postaci wykresu liniowego)
w kolejnych miesiącach.

Rozwiązanie. Wybieramy z menu Wykresy –> Kreator wykresów.


Z galerii wykresów wybieramy Dwuosiowe i do obszaru roboczego przenosi-
my wykres dwuosiowy Y z osią jakościową X. Na osi poziomej umieszczamy
miesiąc. Na lewą oś pionową upuszczamy opady, a na prawą temperaturę.
Klikamy na opis lewej osi i w oknie właściwości zmieniamy statystykę ze
średniej na sumę. Klikamy Zastosuj.

77


4.6. Szablony wizualizacji danych


Dostęp do szblonów wizualizacji danych uzyskujemy, wybierając Wykresy
–> Szablony wizualizacji danych... Szablony podpowiadają nam, na
jakiego rodzaju wykresie możemy zaprezentować wartości badanej zmiennej
lub zależność pomiędzy zmiennymi. Wystarczy na liście zmiennych wybrać
jedną lub kilka (trzymając klawisz Ctrl) zmiennych, a w oknie pojawią się
proponowane typy wykresów.
Uwagi:

• Przy wykresach dotyczących zmiennych ilościowych często na wykresie


zaznaczone są nie wartości tej zmiennej, ale np. średnia lub inna ich
statystyka. Statystykę tę można wybierać z listy Podsumowanie.

• Kolejność wybierania zmiennych ma wpływ na wygląd wykresu (np. na


kolejność zmiennych na osiach).

• W zakładce Opcje jest możliwość wyboru arkusza stylów spośród: nie-


bieski księżycowy, karnawałowy, domyślny, słońce pustyni, szary, wyso-
ki kontrast, standardowy dla map, przyćmiony pastelowy, przyćmiony
delikatny, tradycyjny, tradycyjny dla map.

78
• Od wersji 20. istniej możliwość wykonywania wykresów na mapach.
Są trzy zasadnicze rodzaje takich wykresów: mapy z podziałem ad-
ministracyjnym, na których wartości zmiennej są ilustrowane zmien-
nym natężeniem koloru, mapy z punktami, na których wartości zmien-
nej są ilustrowane zmienną wielkością punktów oraz mapy z podzia-
łem administracyjnym, na których nałożone są podstawowe diagramy
statystyczne (wykresy kołowe, słupkowe, liniowe itp.). Do wykonania
tych wykresów niezbędne jest posiadanie odpowiednich plików map.
Na płycie Bonus Pack firma SPSS Polska przygotowała mapy Polski
z podziałem na województwa oraz powiaty a także mapy ze stolicami
województw i powiatów. Ważne jest, aby w analizowanym pliku danych
istniała zmienna zawierająca nazwy wspomnianych jednostek admini-
stracyjnych. Należy ją dopasować do klucza mapy.
Ćwiczenie 4.6. Otwórz plik Empolee data.sav (plik przykładowy progra-
mu). Na dowolnie wybranym wykresie zaprezentuj zależność bieżącego wy-
nagrodzenia od zajmowanego stanowiska oraz stażu pracy, wybierając jako
podsumowanie raz średnią, a raz maksimum. Użyj stylu „karnawałowy”.
Rozwiązanie.

Wybieramy z menu Wykresy –> Szablony wizualizacji danych...


Trzymając Ctrl wybieramy wszystkie z podanych w zadaniu zmiennych.

79
Spośród zaproponowanych przez program wykresów wybieramy Warstwo-
wy 3-W. Klikamy zakładkę szczegółowe i sprawdzamy, czy program dobrze
przypisał zmienne do osi, w szczególności, czy zmienna zależna bieżące wy-
nagrodzenie znajduje się na osi Y. Jeśli nie, zamieniamy kolejność zmiennych
na osiach. W zakładce Opcje spośród dostępnych arkuszy stylu wybieramy
„karnawałowy”. 
Wykresy w szablonach wizualizacji danych można również tworzyć, wy-
bierając najpierw rodzaj wykresu, a później zmienne, które mają być na nim
przedstawione. Robi się to, wybierając zakładkę Szczegółowe. Wówczas
z listy Typ wizualizacji wybieramy typ wykresu, a później wprowa-
dzamy zmienne. Dobrze jest kliknąć najpierw Pomoc i w jej oknie u dołu
kliknąć Dostępne wbudowane typy wizualizacji, aby zobaczyć jakie
wykresy są przez program oferowane i co one tak naprawdę przedstawiają.
W szablonach wizualizacji danych mamy możliwość tworzenia kołowych
wykresów trójwymiarowych, tzw. wykresów tortowych. Należy jednak uwa-
żać na fakt, że prezentują one zawsze sumę wartości zmiennej ilościowej w po-
dziale na kategorie zmiennej jakościowej. Gdybyśmy chcieli stworzyć wykresy
prezentujący tylko procentowy udział kategorii zmiennej jakościowej w cało-
ści, musielibyśmy stworzyć sztucznie zmienną ilościową, której wartościami
byłyby same 1.

Ćwiczenie 4.7. Korzystając z danych zawartych w pliku Employee data.sav,


wykonaj:

a) wykres bąbelkowy, zaznaczając na osi X początkowe wynagrodzenie, na


osi Y bieżące wynagrodzenie, a jako rozmiary wykształcenie w latach na-
uki; dodatkowo oznacz kolorem płeć pracownika;

b) mapę natężeń, umieszczając na w wierszach płeć pracownika, w kolum-


nach grupę pracowniczą, a jako kolor bieżące wynagrodzenie.

Rozwiązanie.

a) Wybieramy Wykresy –> Szablony wizualizacji danych... Prze-


chodzimy do zakładki Szczegółowe i jako typ wizualizacji wybieramy
bąbelkowy. Umieszczamy zmienne zgodnie z opisem w zadaniu.

80
b) Postępujemy podobnie jak wcześniej, ale jak typ wizualizacji wybieramy
mapę natężeń.


Ćwiczenie 4.8. Korzystając z danych zawartych w pliku wojwodztwa.sav
(dostępny na platformie Moodle), wykonaj
a) kartogram, na którym zaprezentujesz gęstość zaludnienia poszczególnych
województw,

81
b) mapę z nakładanymi punktami o wielkościach odpowiadających liczbie
mieszkańców stolic poszczególnych województw.
Rozwiązanie.
a) Wybieramy Wykresy –> Szablony wizualizacji danych... Prze-
chodzimy do zakładki Szczegółowe i z listy typów wizualizacji wy-
bieramy np. Kartogram sum (w przypadku naszych danych przy każ-
dym województwie mamy tylko jedną wartość, więc nie ma znaczenia,
czy weźmiemy sumę, średnią czy medianę). Jako klucz danych wybieramy
zmienną województwo, a jako kolor ustawiamy liczbę ludności na km2 . W
polu Opcjonalne wymiary jako Opis danych znów możemy wybrać
zmienną województwo, spowoduje to podpisanie na mapie województw ich
nazwami. W polu Pliki map należy teraz wybrać odpowiednią mapę –
decydujemy się na ps województwa regiony i jako klucz wybieramy WO-
JEWODZTW (jest to klucz zawierający nazwy województw zaczynające
się wielką literą). Temu kluczowi mapy odpowiada w naszym pliku danych
zmienna województwo (ustawiamy ją jako klucz danych). Klikamy przy-
cisk Porównaj i sprawdzamy zgodność wartości zmiennej województwo
z oznaczeniami klucza mapy. Następnie klikamy OK. W zakładce Opcje
możemy jeszcze zmienić arkusz stylu na np. Niebieski księżycowy.

82
b) Wybieramy Wykresy –> Szablony wizualizacji danych... Prze-
chodzimy do zakładki Szczegółowe i z listy typów wizualizacji wybiera-
my mapę z nakładanymi punktami. Jako klucz danych wybieramy stolicę
województwa a jako kolor województwo. W polu Opcjonalne wymiary
ustawiamy stolicę województwa jako opis danych a liczbę ludności w tys.
jako wielkość. Następnie wybieramy plik mapy: ps województwa stolice
i jako klucz ustawiamy NAZWA. Kluczem danych jest stolica wojewódz-
twa. Klikamy Porównaj. Jako niedopasowane klucze mapy dostaliśmy
Toruń i Zieloną Górę – miasta, których po prostu nie ma w naszym zbiorze
danych.
Musimy jeszcze wybrać mapę referencyjną – w przeciwnym wypadku na-
sze stolice województw byłyby zawieszone w próżni. Wybieramy mapę
ps województwa regiony. Klikamy OK. W zakładce Opcje możemy jesz-
cze zmienić arkusz stylu na np. Tradycyjny dla map.

Możemy jeszcze dokonać zmiany symbolu (np. na kółko) i jego wielko-


ści. Klikamy na wykres raz, żeby go zaznaczy, a następnie dwa razy, żeby
go aktywować. Klikamy myszką w dowolny trójkąt symbolizujący stoli-
cę województwa i dokonujemy zmian. (W podanym przykładzie wielkość
symboli ustawiono na 10%).

83
Otrzymamy wówczas

84
W szablonach możemy również wykonywać animację wykresów. Wówczas
wykres zmienia się w zależności od wartości zmiennej, którą zadeklarujemy
jako zmienną animującą. Żeby zobaczyć animację, należy uaktywnić wykres
uzyskany w raporcie, co spowoduje otwarcie kreatora wykresów panelowych.
Klikamy w nim ikonkę Tryb eksploracji (druga od lewej), ustawiamy su-
wakami pod wykresem szerokość przedziału dla zmiennej animującej (w wer-
sjach wcześniejszych niż 19. szerokość była dobierana automatycznie) i uru-
chamiamy animację. Animację można zatrzymać i klikając na początek lub
koniec skali na osi zmiennej animującej, obejrzeć kolejno wszystkie stany
wykresu.

Ćwiczenie 4.9. Otwórz plik Employee data.sav (plik przykładowy progra-


mu). rekoduj zmienną gender na zmienną płeć o wartościach 1 – mężczyzna,
2 – kobieta. Następnie, używając nowej zmiennej, wykonaj animowany wy-
kres kołowy prezentujący udział procentowy kobiet i mężczyzn w zależności
od wysokości bieżącego wynagrodzenia.

Rozwiązanie. Rekodujemy zmienną gender na zmienną płeć, wybierając


z menu Przekształcenia –> Rekoduj na inne zmienne... Następnie
w oknie danych w zakładce Zmienne przypisujemy zmiennej płeć odpowied-
nie etykiety wartości.
Wybieramy z menu Wykresy –> Szablony wizualizacji danych...
W zakładce Szczegółowe wybieramy wykres kołowy liczebności. Jako ka-
tegorie wybieramy nową zmienną płeć, a na dole jako animację bieżące wy-
nagrodzenie.
Otrzymany wykres zaznaczamy kliknięciem, a następnie aktywujemy kli-
kając dwukrotnie. Klikamy w ikonkę Tryb eksploracji, aby uruchomić
animację.

85


4.7. Dodatkowe wykresy


Firma Predictive Solutions przygotowała zestaw dodatkowych wykresów. Są
one dostępne na płycie PS Bonus Pack (aktualnie PS Imago Pack). Dostęp
z menu programu poprzez wybranie Użytkownika (aktualnie Predictive
Solutions). Do wyboru mamy następujące wykresy:

• nakładany wykres słupkowy,

• róża Nightingale,

• wielowymiarowy wykres rozrzutu,

• wykres rozrzutu i rozkładu,

• zestawiony wykres kołowy.

Ponieważ wykresy te są jeszcze w fazie wstępnych przygotowań, w szczegól-


ności mają niekompletne legendy, zaleca się krytyczne podejście do otrzyma-
nych efektów ich działania.

86
Rozdział 5.

Przedziały ufności

1. Przedziały ufności dla wartości oczekiwanej a rozkładu normalnego N (a, σ 2 ),


parametr σ 2 znany.
Przedziałem ufności dla a na poziomie ufności 1 − α jest
" #
σ σ
[a, ā] = x̄ − z1−α/2 √ , x̄ + z1−α/2 √ ,
n n

gdzie z1−α/2 = Φ−1 (1 − α2 ), a Φ jest dystrybuantą rozkładu normalnego


N (0, 1).

2. Przedziały ufności dla wartości oczekiwanej a rozkładu normalnego N (a, σ 2 ),


parametr σ 2 nieznany.
Przedziałem ufności dla a na poziomie ufności 1 − α jest
" #
(n−1) s (n−1) s
[a, ā] = x̄ − t1−α/2 √ , x̄ + t1−α/2 √ ,
n n
(n−1)
gdzie t1−α/2 = Ft−1
n−1
(1 − α2 ), a Ftn−1 jest dystrybuantą rozkładu t-Studenta
z n − 1 stopniami swobody.

3. Asymptotyczne przedziały ufności dla wartości oczekiwanej a dowolnego


rozkładu o niezerowej wariancji.
Przedziałem ufności dla a na poziomie ufności 1 − α jest
" #
s s
[a, ā] = x̄ − z1−α/2 √ , x̄ + z1−α/2 √ ,
n n

gdzie z1−α/2 = Φ−1 (1 − α2 ), a Φ jest dystrybuantą rozkładu normalnego


N (0, 1).

87
Uwagi:
• Ponieważ przy n → ∞, niezależnie od wyjściowego rozkładu badanej
zmiennej, statystyka wykorzystywana do konstrukcji przedziału ufności
ma standardowy rozkład normalny i jest to rozkład graniczny rozkładu
t-Studenta, to przedział ufności może być wyznaczany dla zmiennych
o dowolnym rozkładzie (dla którego istnieje wariancja), jeśli tylko próba
jest dość liczna (n ­ 30 i rozkład jest w przybliżeniu jednomodalny
i symetryczny lub n ­ 40, gdy rozkład jest wyraźnie skośny [6, str.
209]). W próbie nie powinny występować wartości odstające.

• W przypadku rozkładu dwupunktowego, tj. zmiennej losowej X, która


przyjmuje wartości 1 i 0 z prawdopodobieństwami odpowiednio p i 1−p,
wartość średnia wynosi

EX = 1 · p + 0 · (1 − p) = p,

jest więc równa prawdopodobieństwu wystąpienia 1. Oznacza to, że


przedział ufności dla odsetka elementów populacji posiadających pewną
własność można konstruować, używając wzorów na przedział ufności
dla wartości oczekiwanej. Zalecenie dotyczące liczebności próby: np̂ ­ 5
i n(1 − p̂) ­ 5 (gdzie p̂ oznacza prawdopodobieństwo obserwowane),
czyli liczba elementów, które mają pewną własność i liczba tych, które
jej nie mają, wynoszą co najmniej 5. [6, str. 149]

• IBM SPSS Statistics wyznacza przedział ufności dla średniej po wy-


braniu Analiza –> Opis statystyczny –> Eksploracja... Pod
przyciskiem Statystyki można ustawić poziom ufności.
Ćwiczenie 5.1. Z partii bawełny pobrano próbkę złożoną z 31 włókien,
a następnie zmierzono długości tych włókien (w mm). Otrzymano następu-
jące wyniki (dostępne w pliku włókna.sav ):
23 8 15 35 21 20 10 4 28 12 9 5 24 25 31 26
23 17 13 33 29 27 24 22 32 16 9 29 22 20 8.
Wyznacz przedział ufności dla średniej na poziomie ufności 0,99.
Rozwiązanie. Wyznaczamy najpierw podstawowe statystyki, rysujemy hi-
stogram oraz wykres skrzynkowy, co pozwala stwierdzić, że rozkład jest sy-
metryczny, jednomodalny i nie posiada wartości odstających, a liczebność
próby przekracza 30.
Wybieramy z menu Analiza –> Opis statystyczny –> Eksplo-
racja... W polu Zmienne zależne umieszczamy zmienną dlugosc wlokna.

88
Pod przyciskiem Statystyki można wpisać poziom ufności (0, 99 zamiast
domyślnego 0, 95). Otrzymujemy tabelę ze statystykami, wśród których jest
dolna i górna granica przedziału ufności.

Ćwiczenie 5.2. [10, na podstawie zad. 8. str. 274] Przeprowadzono obser-


wacje dotyczące opóźnień w ruchu pociągów. Stwierdzono, że spośród 1000
losowo wybranych pociągów 160 przyjechało z opóźnieniem (dane w pliku po-
ciągi.sav ). Zakładając, że opóźnienia poszczególnych pociągów są niezależne
od siebie i jednakowo prawdopodobne dla każdego pociągu, znajdź przedział
ufności dla prawdopodobieństwa występowania opóźnienia na poziomie uf-
ności 0,9.

Rozwiązanie. Sprawdzamy, czy zmienna opoznienie ma wartości 0 i 1 (jeśli


nie, trzeba ją rekodować na inną zmienną o takich wartościach). Liczebność
próby jest duża, dodatkowo liczebność pociągów opóźnionych i pociągów,
które przyjechały o czasie, przekracza 5.
Wybieramy z menu Analiza –> Opis statystyczny –> Eksplo-
racja... W polu Zmienne zależne umieszczamy zmienną opoznienie. Pod

89
przyciskiem Statystyki sprawdzamy, czy poziom ufności wynosi 0, 9. Otrzy-
mujemy tabelę ze statystykami, wśród których jest dolna i górna granica
przedziału ufności.

90
Rozdział 6.

Testowanie hipotez

Testowanie hipotez jest jednym z podstawowych zagadnień statystyki mate-


matycznej, która generalnie zajmuje się wyciąganiem wniosków dotyczących
całej populacji na podstawie próby. Należy rozróżnić pojęcia hipotezy badaw-
czej, która jest pewnym przypuszczeniem sformułowanym przez badacza, od
hipotezy statystycznej. Hipoteza statystyczna jest formalnym sformułowa-
niem hipotezy badawczej odnoszącym się do konkretnych parametrów po-
pulacji. Wyróżnia się dwa rodzaje hipotez statystycznych: hipotezę zerową
oraz hipotezę alternatywną. Hipoteza zerowa jest stwierdzeniem, które mówi
o braku efektu lub braku różnic. Hipoteza alternatywna mówi o istnieniu
efektu czy różnicy. Ponieważ hipotezy badawcze najczęściej mają na celu
stwierdzenie efektu czy różnicy, są one najczęściej przyjmowane jako hipote-
zy alternatywne.
Hipoteza alternatywna może być dwustronna (np. a 6= 0) lub jednostron-
na (np. a < 0 czy a > 0).
Badacze nie są zgodni co do warunków, pod którymi powinno się decy-
dować na jedno- lub dwustronną hipotezę alternatywną. Niektórzy badacze
uważają, że zawsze powinno się wybierać dwustronną hipotezę alternatyw-
ną, niezależnie od oczekiwań co do wyniku eksperymentu. Inni wierzą, że
dwustronna hipoteza alternatywna powinna być wybierana tylko w przypadku
braku oczekiwań co do wyniku eksperymentu. Zaletą wyboru jednostronnej hi-
potezy alternatywnej jest, że w celu odrzucenia hipotezy zerowej nie wymaga
ona wystąpienia aż tak dużego efektu czy różnicy jak w przypadku dwustron-
nej hipotezy alternatywnej. [12, str. 58] Można się również spotkać ze stwier-
dzeniami, że na jednostronną hipotezę alternatywną należy się decydować
tylko w przypadku, gdy w sumie z hipotezą zerową wyczerpuje ona wszyst-
kie możliwe przypadki, tj. hipoteza przeciwna w rzeczywistości nie może być
prawdziwa.
Weryfikacja hipotezy zerowej odbywa się na podstawie odpowiednio zde-

91
finiowanej statystyki testowej. Bierze się pod uwagę własności tej statystyki
przy założeniu prawdziwości hipotezy zerowej. Jeżeli zachowanie rozważanej
statystyki będzie typowe, nie będziemy mieli podstaw do odrzucenia hipo-
tezy zerowej. Z kolei zachowanie nietypowe pozwoli nam odrzucić hipotezę
zerową i przyjąć alternatywną. Pozostawienie hipotezy zerowej nie oznacza
jej prawdziwości!
Odrzucenie hipotezy zerowej, gdy ta jest prawdziwa nazywamy błędem I
rodzaju. Prawdopodobieństwo popełnienia błędu I rodzaju nazywamy pozio-
mem istotności α (najczęściej 0,05 czy 0,01). Poziom istotności porównujemy
z istotnością testu lub p-wartością testu, czyli najmniejszym poziomem istot-
ności, przy którym zaobserwowana wartość statystyki testowej prowadzi do
odrzucenia hipotezy zerowej.

• Jeżeli istotność testu jest mniejsza niż zadany poziom istotności, to


odrzucamy (ang. reject) H0 i przyjmujemy H1 .

• Jeżeli istotność testu jest większa niż zadany poziom istotności, to


nie mamy podstaw do odrzucenia (ang. retain) H0 .

Testy statystyczne dzielą się na parametryczne i nieparamteryczne. Istnie-


je duża zgodność wśród badaczy, że jeśli tylko są spełnione założenia testów,
to przy zmiennych typu ilościowego należy posługiwać się testami parame-
trycznymi i są one z reguły mocniejsze niż ich nieparametryczne odpowied-
niki. [12, str. 109]

6.1. Test t-Studenta dla jednej średniej


Hipoteza zerowa: Średnia wartość zmiennej w populacji jest równa okre-
ślonej wartości a0 (a = a0 ).
Hipoteza alternatywna 1.: Średnia wartość zmiennej w populacji jest róż-
na od określonej wartości a0 (a 6= a0 ).
Hipoteza alternatywna 2.: Średnia wartość zmiennej w populacji jest
mniejsza od określonej wartości a0 (a < a0 ).
Hipoteza alternatywna 3.: Średnia wartość zmiennej w populacji jest
większa od określonej wartości a0 (a > a0 ).
Założenia: Zmienna ma rozkład normalny o nieznanej wariancji σ 2 .
Statystyka testowa:
√ x̄ − a0
Tn = n
s
ma rozkład t-Studenta z n − 1 stopniami swobody (dla dużych n (n ­ 30)
rozkład ten jest zbliżony do standardowego rozkładu normalnego).

92
Obszar krytyczny 1.: K = (−∞, −tn−1 n−1
1−α/2 ) ∪ (t1−α/2 , +∞)
n−1
Obszar krytyczny 2.: K = (−∞, −t1−α )
n−1
Obszar krytyczny 3.: K = (t1−α , +∞)
gdzie tn−1
1−α jest kwantylem rzędu 1 − α rozkładu t-Studenta z n − 1 stopniami
swobody.
p-wartość 1.: α̃ = 2 (1 − F n−1 (|Tn |))
p-wartość 2. i 3.: α̃ = 1 − F n−1 (|Tn |)
gdzie F n−1 jest dystrybuantą rozkładu t-Studenta z n−1 stopniami swobody.
Uwagi:

• Ponieważ przy n → ∞, niezależnie od wyjściowego rozkładu badanej


zmiennej, statystyka Tn ma standardowy rozkład normalny i jest to
rozkład graniczny rozkładu t-Studenta, to test t-Studenta może być
stosowany dla zmiennych o dowolnym rozkładzie (dla którego istnieje
wariancja), jeśli tylko próba jest dość liczna (n ­ 30 i rozkład jest
w przybliżeniu jednomodalny i symetryczny lub n ­ 40, gdy rozkład
jest wyraźnie skośny [6], choć czasami podawany jest warunek n ­ 25
[12]). W próbie nie powinny występować wartości odstające.

• W przypadku rozkładu dwupunktowego, tj. zmiennej losowej X, która


przyjmuje wartości 1 i 0 z prawdopodobieństwami odpowiednio p i 1−p,
wartość średnia wynosi

EX = 1 · p + 0 · (1 − p) = p,

jest więc równa prawdopodobieństwu wystąpienia 1. Oznacza to, że te-


stem t-Studenta można testować hipotezę dotyczącą odsetka elementów
populacji posiadających pewną własność. Zaleca się stosować ten test,
jeśli np̂ ­ 5 i n(1 − p̂) ­ 5 (gdzie p̂ oznacza prawdopodobieństwo obser-
wowane), czyli liczba elementów, które mają pewną własność i liczba
tych, które jej nie mają, wynoszą co najmniej 5. [6]

Dostęp w IBM SPSS Statistics: Analiza –> Porównywanie śred-


nich –> Test t dla jednej próby... W opcjach można ustawić poziom
ufności dla przedziału ufności dla różnicy średniej w populacji i wartości
testowanej oraz sposób postępowania z brakami danych w przypadku jedno-
czesnego testowania kilku zmiennych.
W tabeli wyników testu otrzymamy wartość statystyki testu oznaczoną tu
jako t, liczbę stopni swobody df , istotność dwustronną (czyli p-wartość testu
dla dwustronnej hipotezy alternatywnej), różnicę średnich (czyli estymator
różnicy średniej w populacji i wartości testowanej) oraz przedział ufności dla

93
tej różnicy. W przypadku jednostronnej hipotezy alternatywnej p-wartość te-
stu jest równa połowie istotności dwustronnej. Należy również zwrócić uwagę
na znak statystyki t.
Ćwiczenie 6.1. Liczbę sprzedanych biletów MZK w Toruniu w kolejnych
niedzielach maja i czerwca przedstawia tabelka.
Numer niedzieli 1 2 3 4 5 6 7 8
Liczba biletów w tys. 2,9 3,3 3,2 3,2 3,2 3,0 2,9 3,1
Na podstawie tych danych (dostępnych również w pliku bilety.sav ), na pozio-
mie istotności α = 0, 1, przetestuj hipotezę, że średnia liczba sprzedawanych
biletów w niedziele jest równa 3, 2 tys. przeciw hipotezie, że średnia sprzeda-
wanych biletów jest
a) różna od 3, 2 tys.,
b) mniejsza niż 3, 2 tys.,
jeżeli wiadomo, że liczba sprzedawanych biletów ma rozkład normalny.
Rozwiązanie. Wybieramy z menu Analiza –> Porównywanie śred-
nich –> Test t dla jednej próby... W polu Zmienne testowane
umieszczamy liczbę sprzedanych biletów, a w pole Wartość testowana
wpisujemy 3, 2.

a) Hipoteza zerowa: Średnia liczba biletów sprzedawanych w niedziele jest


równa 3, 2 tys. (a = 3, 2).
Hipoteza alternatywna: Średnia liczba biletów sprzedawanych w nie-
dziele jest różna od 3, 2 tys.
Istotność (czyli p-wartość) testu wyliczoną przez program porównujemy
z zakładanym poziomem istotności równym 0, 1. Ponieważ 0, 104 > 0, 1,
to nie mamy podstaw do odrzucenia hipotezy zerowej na rzecz hipotezy
alternatywnej, że liczba sprzedawanych biletów jest różna od 3, 2 tys.

94
b) Hipoteza zerowa: Średnia liczba biletów sprzedawanych w niedziele jest
równa 3, 2 tys. (a = 3, 2).
Hipoteza alternatywna: Średnia liczba biletów sprzedawanych w nie-
dziele jest mniejsza od 3, 2 tys.
W przypadku jednostronnej hipotezy alternatywnej p-wartość testu jest
połową p-wartości testu z hipotezą dwustronną. Porównujemy zatem po-
łowę istotności wyliczonej przez program z zakładanym poziomem istot-
ności równym 0, 1. Ponieważ 0, 052 < 0, 1, to odrzucamy hipotezę zerową
na rzecz hipotezy alternatywnej jednostronnej. Ujemna wartość statystki
t pozwala przyjąć hipotezę, że liczba biletów sprzedawanych w niedziele
jest mniejsza od 3, 2 tys. W obu przypadkach obowiązuje założenie, że
rozkład liczby biletów jest normalny, co pozwala uznać wyniki testów za
wiarygodne.

Ćwiczenie 6.2. W czasie sondażu przeprowadzonego przez pracownię ba-


dania opinii społecznej spośród 1100 ankietowanych dorosłych Polaków 1090
odpowiedziało, że w ubiegłym miesiącu nie przeczytali żadnej książki, a po-
zostali potwierdzili, że przeczytali przynajmniej jedna książkę. Na podstawie
tych danych (dostępnych również w pliku czytanie.sav ), na poziomie istot-
ności 0, 01, przetestuj hipotezę, że odsetek dorosłych Polaków, którzy nie
przeczytali w ubiegłym miesiącu żadnej książki wynosi 99%, przeciw hipote-
zie, że odsetek ten jest inny.

Rozwiązanie. W celu zastosowania testu t-Studenta musimy się upewnić,


czy mamy zmienną o wartościach 0 i 1, przy czym 1 powinny być oznaczone
osoby, których odsetek nas interesuje, tj. nieczytający (jeśli zmienna ma inne
wartości, musimy ją rekodować na zmienną o podanych własnościach), oraz
czy próba ma odpowiednio dużą liczebność (bo rozkład na pewno nie jest
rozkładem normalnym). Liczebność próby wynosi 1100, przy czym i osób,
które przeczytały w ubiegłym miesiącu przynajmniej jedną książkę, i takich,
które tego nie zrobiły, jest po co najmniej 5.
Hipoteza zerowa: Zmienna czytanie ma średnią wartość równą 0, 99 (od-
setek nieczytających wynosi 0, 99).
Hipoteza alternatywna: Zmienna czytanie ma średnią wartość różną od
0, 99 (odsetek nieczytających jest różny od 0, 99).
Wybieramy z menu Analiza –> Porównywanie średnich –> Test
t dla jednej próby... Testujemy zmienną czytanie, a jako wartość testo-
waną wpisujemy 0, 99.

95
Istotność testu wynosi 0, 751 i jest większa od zakładanego poziomu wy-
noszącego 0, 01, zatem nie mamy podstaw do odrzucenia hipotezy zerowej. 

6.2. Test t-Studenta dla dwóch średnich i prób


niezależnych
Hipoteza zerowa: Średnie wartości zmiennej są takie same w dwóch różnych
populacjach (a1 = a2 ).
Hipoteza alternatywna 1.: Średnie wartości zmiennej są różne w badanych
populacjach (a1 6= a2 ).
Hipoteza alternatywna 2.: Średnia wartość zmiennej w pierwszej popula-
cji jest mniejsza od średniej wartości zmiennej w drugiej populacji (a1 < a2 ).
Hipoteza alternatywna 3.: Średnia wartość zmiennej w pierwszej popula-
cji jest większa od średniej wartości zmiennej w drugiej populacji (a1 > a2 ).
Założenia: Zmienna ma w obu populacjach rozkład normalny o nieznanych
wariancjach.

a) Zmienna ma w obu populacjach rozkład normalny o nieznanych, ale rów-


nych wariancjach.
Statystyka testowa:
x¯1 − x¯2
Tn = s
(n1 − 1)s21
+ (n2 − 1)s22 n1 + n2
·
n1 + n2 − 2 n1 n2

96
ma rozkład t-Studenta z n1 + n2 − 2 stopniami swobody.
n1 +n2 −2 n1 +n2 −2
Obszar krytyczny 1.: K = (−∞, −t1−α/2 ) ∪ (t1−α/2 , +∞)
n1 +n2 −2
Obszar krytyczny 2.: K = (−∞, −t1−α )
1 +n2 −2
Obszar krytyczny 3.: K = (tn1−α , +∞)
1 +n2 −2
gdzie tn1−α oznacza kwantyl rzędu 1 − α z rozkładu t-Studenta
z n1 + n2 − 2 stopniami swobody.
p-wartość 1.: α̃ = 2 (1 − F n1 +n2 −2 (|Tn |))
p-wartość 2. i 3.: α̃ = 1 − F n1 +n2 −2 (|Tn |)
gdzie F n1 +n2 −2 jest dystrybuantą rozkładu t-Studenta z n1 + n2 − 2 stop-
niami swobody.

b) Zmienna ma w obu populacjach rozkład normalny o nieznanych i różnych


wariancjach.
Statystyka testowa:
x¯1 − x¯2
Cn = s 2
s1 s2
+ 2
n1 n2
(statystyka Cochrana i Coxa).
Obszar krytyczny 1.: K = (−∞, −cn1−α/2
1 ,n2
) ∪ (cn1−α/2
1 ,n2
, +∞)
Obszar krytyczny 2.: K = (−∞, −cn1−α
1 ,n2
)
Obszar krytyczny 3.: K = (cn1−α
1 ,n2
, +∞)
gdzie ! !
s21 n1 −1 s22 n2 −1 s21 s2
cn1−α
1 ,n2
≈ t + t1−α : + 2 .
n1 1−α n2 n1 n2

Uwagi:

• Test t-Studenta dla dwóch średnich i prób niezależnych może być rów-
nież używany w przypadku zmiennej, która nie posiada w badanych
populacjach rozkładu normalnego. Wymagana jest wówczas duża li-
czebność obu prób (co najmniej po 30 obserwacji), symetria i brak
obserwacji odstających.

• W idealnych warunkach obiekty powinny być losowo przypisane do dwóch


grup, tak aby każda różnica ich reakcji była wynikiem oddziaływania (lub
braku oddziaływania) tylko jednego czynnika. Nie jest tak w przypadku
porównywania średniego dochodu mężczyzn i kobiet. Płeć badanych nie

97
jest przypisywana losowo. W takich przypadkach należy zadbać o to,
żeby różnice innych czynników nie pomniejszały, ani nie powiększały,
znaczącej różnicy średnich. Na różnice średniego dochodu mogą mieć
także wpływ takie czynniki jak wykształcenie (a nie tylko płeć). [Pomoc
IBM SPSS Statistics]

Dostęp w IBM SPSS Statistics: Analiza –> Porównywanie śred-


nich –> Test t dla prób niezależnych... Wartości badanej zmiennej
powinny w pliku znajdować się w jednej kolumnie, natomiast w drugiej ko-
lumnie powinny występować wartości zmiennej, która określa przynależność
obserwacji do jednej z dwóch badanych populacji. Wtedy w oknie dialogo-
wym testu w polu Zmienne testowane umieszczamy badaną zmienną (lub
kilka zmiennych), a w polu Zmienna grupująca zmienną, która definiu-
je przynależność do jednej z dwóch badanych populacji. Definiujemy grupy,
uważając na kolejność – wpływa ona na znak statystyki testu. Grupy można
również zdefiniować, wybierając jakąś zmienną oraz podając jako ich defini-
cję pewien punkt podziału. Wtedy do jednej grupy należeć będą obserwacje,
dla których wybrana zmienna ma wartość nieprzekraczającą podanego punkt
podziału, a do drugiej obserwacje, dla których wybrana zmienna ma wartość
przekraczającą ten punkt podziału.
W opcjach można ustawić poziom ufności dla przedziału ufności dla róż-
nicy średnich oraz sposób postępowania z brakami danych w przypadku jed-
noczesnego testowania kilku zmiennych.
Jako wynik testu otrzymujemy tabelę o dwóch wierszach: w pierwszym
znajdują się statystyki, które obliczono, zakładając równość wariancji, w dru-
gim bez tego założenia. W tabeli znajduje się również wynik testu Levene’a
jednorodności wariancji, który sprawdza hipotezę o równości wariancji ba-
danej zmiennej w obu populacjach. Wynik tego testu można potraktować
jako wskazówkę, którą wartość statystyki i istotność testu średnich powinni-
śmy brać pod uwagę. Wyniki testu średnich to: wartość statystyki testowej
oznaczona tutaj jako t, liczba stopni swobody df , istotność dwustronna, czyli
p-wartość testu przy dwustronnej hipotezie alternatywnej, różnica średnich,
błąd standardowy tej różnicy oraz przedział ufności.
W przypadku jednostronnej hipotezy alternatywnej p-wartość testu jest
równa połowie istotności dwustronnej. Należy również zwrócić uwagę na znak
statystyki t.

Ćwiczenie 6.3. [7, na podstawie zad. 3.11 str. 94] Producent płatków my-
dlanych wysunął hipotezę, że stopień wyprania tkaniny wełnianej płatka-
mi mydlanymi jest wyższy od stopnia wyprania płynem do prania. W celu
sprawdzenia tej hipotezy wykonano pomiary stopnia wyprania 10 wycinków

98
tkaniny pranej płatkami, otrzymując w procentach wyniki

74, 4, 75, 1, 73, 0, 72, 8, 76, 2, 74, 6, 76, 0, 73, 4, 72, 9, 71, 6,

oraz 7 wycinków pranych płynem do prania, otrzymując

56, 8, 57, 8, 54, 6, 59, 0, 57, 1, 58, 2, 57, 6.

Zakładając, że stopień wyprania tkaniny ma rozkład normalny na poziomie


istotności α = 0, 05 zweryfikuj hipotezę wysuniętą przez producenta. (Dane
dostępne w pliku pranie.sav ).

Rozwiązanie.
Hipoteza zerowa: Średni stopień wyprania tkaniny w płatkach jest taki
sam jak średni stopień wyprania tkaniny w płynie do prania.
Hipoteza alternatywna: Średni stopień wyprania tkaniny w płatkach jest
wyższy od średniego stopnia wyprania tkaniny w płynie do prania.
Założenie o normalności rozkładów pozwala uznać wyniki wykonanych
niżej testów za wiarygodne.
Wybieramy z menu Analiza –> Porównywanie średnich –> Test
t dla prób niezależnych... Zmienną testowaną jest stopień wyprania
tkaniny, a zmienną grupującą rodzaj środka do prania. Definiujemy grupy,
wpisując jako grupę 1. wartość 1 (płatki), a jako grupę 2. wartość 2 (płyn do
prania).
Test Levene’a jednorodności wariancji sprawdza hipotezę o równości wa-
riancji stopnia wyprania tkaniny w grupach wyróżnionych ze względu na
rodzaj środka do prania. Jego wynik sugeruje, że należy raczej zakładać rów-
ność wariancji i wynik testu średnich odczytywać z 2., a nie 3. kolumny
drugiej tabeli.

99
Ze względu na jednostronną hipotezę alternatywną połowę istotności wy-
liczonej przez program w teście średnich, tj. wartość 0, 000, porównujemy
z zakładanym poziomem istotności 0, 05. Ponieważ 0, 000 < 0, 05, więc od-
rzucamy hipotezę zerową na rzecz hipotezy alternatywnej jednostronnej. Do-
datnia wartość statystyki t pozwala przyjąć hipotezę, że średnia w pierwszej
grupie (czyli przy stosowaniu płatków) jest wyższa niż w drugiej (czyli przy
stosowaniu płynu do prania). 

6.3. Test t-Studenta dla dwóch średnich i prób


zależnych
Hipoteza zerowa: Dwie zmienne zależne mają jednakowe średnie (inaczej:
różnica D = X − Y odpowiadających sobie wartości zmiennych ma średnią
równą 0).
Hipoteza alternatywna 1.: Zmienne zależne mają różne średnie (inaczej:
różnica D = X − Y odpowiadających sobie wartości zmiennych ma średnią
różną od 0).
Hipoteza alternatywna 2.: Pierwsza ze zmiennych ma średnią mniejszą
niż druga (inaczej: różnica D = X − Y odpowiadających sobie wartości
zmiennych ma średnią ujemną).
Hipoteza alternatywna 3.: Pierwsza ze zmiennych ma średnią większą
niż druga (inaczej: różnica D = X − Y odpowiadających sobie wartości

100
zmiennych ma średnią dodatnią).
Statystyka testowa:
d¯ √
Tn = n
sd
ma rozkład t-Studenta z n − 1 stopniami swobody.
Obszar krytyczny 1.: K = (−∞, −tn−1 n−1
1−α/2 ) ∪ (t1−α/2 , +∞)
n−1
Obszar krytyczny 2.: K = (−∞, −t1−α )
n−1
Obszar krytyczny 3.: K = (t1−α , +∞)
gdzie tn−1
1−α jest kwantylem rzędu 1 − α rozkładu t-Studenta z n − 1 stopniami
swobody.
p-wartość 1.: α̃ = 2 (1 − F n−1 (|Tn |))
p-wartość 2. i 3.: α̃ = 1 − F n−1 (|Tn |)
gdzie F n−1 jest dystrybuantą rozkładu t-Studenta z n−1 stopniami swobody.
Uwagi: Ponieważ test ten jest w praktyce testem t-Studenta dla jednej śred-
niej (dla zmiennej D = X − Y ), to należy sprawdzić, czy różnica zmiennych
spełnia wymagania testu dla jednej średniej, tj. ma rozkład normalny lub
ma rozkład odbiegający od normalnego (ale bez wartości odstających), ale
liczebność próby jest odpowiednio duża.
Dostęp w IBM SPSS Statistics: Analiza –> Porównywanie śred-
nich –> Test t dla prób zależnych... W oknie dialogowym definiujemy
jedną lub kilka par zmiennych, których średnie chcemy porównać. Kolejność
zmiennych ma znaczenie – wpływa na znak statystyki testowej. W opcjach
można ustawić poziom ufności dla przedziału ufności dla różnicy średnich
oraz sposób postepowania z brakami danych w przypadku jednoczesnego te-
stowania kilku zmiennych.
W tabeli wyników testu średnich otrzymujemy m.in. wartość statystyki
testowej oznaczoną jako t oraz istotność dwustronną, czyli p-wartość testu
otrzymaną przy dwustronnej hipotezie alternatywnej (w przypadku hipotezy
alternatywnej jednostronnej p-wartość testu jest połową istotności dwustron-
nej). Oprócz tego otrzymujemy tabelę ze współczynnikiem korelacji badanych
zmiennych oraz istotnością tego współczynnika.

Ćwiczenie 6.4. [7, na podstawie 3.14 str. 97] Zmierzono ciśnienie tętnicze
wśród losowo wybranej grupy chorych na pewną chorobę przed i po podaniu
takiego samego leku każdemu z badanych pacjentów. Otrzymano następujące
wyniki (dostepne w pliku cisnienie.sav ):

Nr pacjenta 1 2 3 4 5 6 7 8
Ciśnienie przed 210 180 260 270 190 250 180 200
Ciśnienie po 180 160 220 260 200 230 180 190

101
Na poziomie istotności α = 0, 05 zweryfikuj hipotezę, że stosowany lek nie
powoduje zmiany ciśnienia u pacjentów, wobec hipotezy alternatywnej, że
wartość przeciętna ciśnienia przed podaniem leku jest wyższa niż po jego
podaniu, wiedząc, że ciśnienie tętnicze ma rozkład normalny.
Rozwiązanie. Hipoteza zerowa: Średnia wartość ciśnienia przed poda-
niem leku pacjentom jest taka sama jak po jego podaniu.
Hipoteza alternatywna: Średnia wartość ciśnienia pacjentów przed poda-
niem leku jest wyższa niż po jego podaniu.
Wybieramy z menu Analiza –> Porównywanie średnich –> Test
t dla prób zależnych... Definiujemy 1 parę zmiennych, podając jako
zmienną 1. ciśnienie przed podaniem leku, a jako zmienną 2. ciśnienie po
podaniu leku.

Wysoka wartość współczynnika korelacji potwierdza zależność zmiennych.


Ze względu na jednostronny charakter hipotezy zerowej istotność testu wy-

102
nosi 0, 033/2 i jest mniejsza od zakładanego poziomu istotności wynoszącego
0, 05, co oznacza, że odrzucamy hipotezę zerową na rzecz hipotezy alterna-
tywnej jednostronnej. Dodatnia wartość statystyki t pozwala przyjąć hipote-
zę, że średnia wartość ciśnienia przed podaniem leku jest wyższa niż po jego
podaniu. Wynik testu można uznać za wiarygodny dzięki założeniu o nor-
malności rozkładu. 

6.4. Test Kołmogorowa


Hipoteza zerowa: Zmienna ma rozkład o zadanej dystrybuancie F .
Hipoteza alternatywna: Zmienna ma rozkład o innej niż zadana dystry-
buancie.
Statystyka testowa: Dn = max{Dn+ , Dn− }
i i−1
gdzie Dn+ = max1¬i¬n − F (x(i) ) , Dn− = max1¬i¬n F (x(i) ) −
n n
Obszar krytyczny: (dn (1 − α), 1]
odczytujemy z tablic kwantyli statystyki Kołmogorowa, jest to taka wartość,
dla której P (Dn ­ dn (1 − α)) = α).
Uwagi:

• W przypadku danych zgrupowanych w klasy bierzemy pod uwagę pra-


wy koniec każdej z klas i zamiast podanych statystyk wyznaczamy war-
tość maksymalną statystyki |Fn (xi )−F (xi )|, gdzie Fn jest dystrybuantą
empiryczną.

• Dla dużych prób (n > 100) używa się statystyki nDn , a obszar kry-
tyczny wyznacza, używając kwantyli granicznego rozkładu Kołmogo-
rowa.

• W przypadku testowania zgodności z rozkładem normalnym zaleca się


stosowanie testu Kołmogorowa z poziomem istotności Lillieforsa oraz
testu Shapiro-Wilka (najbardziej polecany dla prób o liczebności nie-
przekraczającej 2000).

Dostęp w IBM SPSS Statistics: W IBM SPSS Statistics test Kołmogo-


rowa występuje pod nazwą Kołmogorowa-Smirnowa (w literaturze matema-
tycznej nazwa taka jest używana dla testu badającego zgodność rozkładów
dwóch zmiennych losowych).
Pierwszy sposób: Analiza –> Testy nieparametryczne –> Te-
sty tradycyjne –> K-S dla jednej próby... Możemy badać zgodność
z rozkładem normalnym, jednostajnym, Poissona i wykładniczym. Parametry
tych rozkładów są estymowane na podstawie próby. Jako wynik otrzymamy

103
tabelę zawierającą m.in. wartość statystyki (oznaczoną tutaj jako Z) oraz
istotność testu.
Drugi sposób: Analiza –> Testy nieparametryczne –> Jedna
próba... W zakładce Zmienne wybieramy zmienne do analizy. W zakład-
ce Ustawienia spośród testów niestandardowych wybieramy Testowanie
rozkładu empirycznego względem hipotetycznego (Kołmogorow-
Smirnow). W opcjach tego testu możemy zaznaczyć, że parametry mają być
estymowane na podstawie próby, lub podać własne wartości parametrów.
Jako wynik otrzymamy tabelę zawierającą hipotezę zerową, nazwę użytego
testu, istotność asymptotyczną oraz decyzję co do wyboru hipotezy. Tabe-
lę można aktywować, klikając na nią dwukrotnie, co pozwala uzyskać opis
modelu. Opis modelu można skopiować Edycja –> Kopiuj dodatkowy
widok i wkleić do raportu.
Dostęp do testów Kołmogorowa z poprawką istotności Lillieforsa oraz
Shapiro-Wilka uzyskujemy, wybierając Analiza –> Opis statystyczny –
> Eksploracja... Badaną zmienną umieszczamy w polu Zmienne zależ-
ne. Pod przyciskiem Wykresy... zaznaczamy opcję Wykresy normal-
ności z testami. Oprócz tabeli z wynikami testów otrzymujemy wykresy
K-K (kwartyl-kwartyl) porównujące kwartyle testowanego rozkładu z kwar-
tylami empirycznymi. Jeśli rozkład empiryczny zgadza się z teoretycznym,
punkty na pierwszym wykresie układają się na przekątnej.

Ćwiczenie 6.5. Generator liczb losowych wygenerował 20 liczb z rozkładu


wykładniczego E(2). Liczby są uporządkowane niemalejąco:

0, 02 0, 03 0, 04 0, 04 0, 06 0, 11 0, 11
0, 18 0, 22 0, 26 0, 27 0, 44 0, 46 0, 60
0, 65 0, 80 0, 85 0, 95 1, 20 2, 00

Za pomocą testu Kołmogorowa na poziomie istotności 0,05 przetestuj zgod-


ność tych danych z rozkładem E(2) (dane dostępne w pliku wykladniczy.sav
na Moodle).

Rozwiązanie. Testujemy hipotezy:


Hipoteza zerowa: Zmienna ma rozkład wykładniczy E(2).
Hipoteza alternatywna: Zmienna ma rozkład inny niż podany.
Wybieramy z menu Analiza –> Testy nieparametryczne –> Te-
sty tradycyjne –> K-S dla jednej próby... Testujemy zmienną za-
mieszczoną w pliku, a jako testowany rozkład wybieramy wykładniczy.

104
Otrzymujemy istotność 0, 834, która jest większa od zakładanego poziomu
istotności i nie daje podstaw do odrzucenia hipotezy zerowej. Zauważmy
jednak, że test sprawdził zgodność nie z rozkładem E(2), tylko z rozkładem
wykładniczym o średniej 0, 4645, czyli E(2, 153).
Drugi sposób wykonania testu pozwala sprawdzić hipotezę zerową w do-
kładnie takiej postaci jak podaliśmy. Wybieramy Analiza –> Testy nie-
parametryczne –> Jedna próba... W zakładce Zmienne sprawdzamy,
że testowaną zmienną jest zmienna dane. W zakładce Ustawienia spo-
śród testów niestandardowych wybieramy Kołmogorowa-Smirnowa i w je-
go opcjach zaznaczamy jako testowany rozkład wykładniczy ze średnią 0, 5.
W Opcje testów możemy podać zakładany poziom istotności.

Otrzymaną tabelę można aktywować, by otrzymać podgląd modelu.

105


Ćwiczenie 6.6. Przyjmując poziom istotności 0, 01, sprawdź hipotezę, że


zmienna v1 z pliku rozklady.sav (dostępny na Moodle) ma rozkład normalny.

Rozwiązanie. Testujemy hipotezy:


Hipoteza zerowa: Zmienna v1 ma rozkład normalny.
Hipoteza alternatywna: Zmienna v1 ma rozkład inny niż normalny.
Wybieramy z menu Analiza –> Opis statystyczny –> Eksplora-
cja... W polu Zmienne zależne umieszczamy zmienną v1. W polu Pokaż
zaznaczamy Wykresy. Klikamy Wykresy i zaznaczamy Wykresy nor-
malności z testami. Możemy również zamiast wykresu skrzynka z wąsami
zaznaczyć histogram.

106
107
Istotność testu Shapiro-Wilka wynosi 0, 619, a testu Kołmogorowa (z po-
prawką istotności Lillieforsa) przekracza 0, 200, oba te wyniki znacznie prze-

108
kraczają 0, 01, co oznacza, że nie możemy odrzucić hipotezy o normalności
rozkładu, a innymi słowy, możemy uznać, że rozkład zmiennej v1 nie odbiega
znacząco od normalnego. 

6.5. Test chi-kwadrat zgodności


Założenia: Zmienna ma rozkład dyskretny, przyjmuje tylko wartości l1 , . . . , lk
z prawdopodobieństwami odpowiednio p1 , . . . , pk , które nie są znane.
Hipoteza zerowa: Zmienna ma rozkład dyskretny z określonymi prawdo-
podobieństwami p01 , . . . , p0k .
Hipoteza alternatywna: Zmienna ma rozkład z innymi prawdopodobień-
stwami niż zadane.
Statystyka testowa:
k k
2
X(ni − n0i )2 X (ni − np0i )2
χ = = ,
i=1 n0i i=1 np0i

gdzie ni oznaczają liczebności obserwowane, n0i – oczekiwane, ma w przybliżeniu


rozkład chi-kwadrat z k − 1 stopniami swobody.
Obszar krytyczny: K = (uk−1 1−α , +∞),
k−1
gdzie u1−α oznacza kwantyl rzędu 1−α rozkładu chi-kwadrat z k−1 stopniami
swobody.
p-wartość: α̃ = 1 − Fχk−1 2
2 (χ ),

gdzie Fχk−1
2 jest dystrybuantą rozkładu chi-kwadrat z k − 1 stopniami swobo-
dy.
Uwagi:
• Jeżeli rozkład teoretyczny zależy od d nieznanych parametrów, to pa-
rametry te wyznaczamy metodą największej wiarogodności, a liczbę
stopni swobody zmniejszamy o d.
• Statystyka χ2 ma tylko w przybliżeniu (asymptotycznie) rozkład chi-
kwadrat. Przybliżenie rozkładem chi-kwadrat uznajemy za dopuszczal-
ne, gdy np0i ­ 5, i = 1, . . . , k, a za dobre, gdy np0i ­ 10, i = 1, . . . , k.
Jeśli liczba kategorii jest duża (> 6), to zgadzamy się stosować przy-
bliżenie rozkładem chi-kwadrat także wtedy, gdy dla jednej lub dwóch
kategorii 1 ¬ np0i < 5 [6]. Mało liczne kategorie można również łączyć
z kategoriami sąsiednimi, redukując wówczas odpowiednio liczbę stopni
swobody.
• W przypadku zmiennej o rozkładzie z ciągłą dystrybuantą dane grupu-
jemy w k (10k ¬ n) klas. Prawdopodobieństwa teoretyczne wyliczamy

109
z dystrybuanty. Klasy staramy się dobrać tak, aby prawdopodobieństwa
znalezienia się w klasie były równe 1/k, a liczebności teoretyczne były
co najmniej równe 5. Testujemy wówczas hipotezę zerową: Zmienna ma
rozkład o podanej dystrybuancie.
Łatwo zauważyć, że testowanie zgodności z zadanym rozkładem ciągłym
za pomocą testu chi-kwadrat jest przedsięwzięciem kontrowersyjnym,
ponieważ punktem wyjścia do konstrukcji testu jest świadoma utrata
informacji związana z koniecznością dokonania dyskretyzacji. Dlatego,
gdy mamy do czynienia z rozkładem ciągłym, powinniśmy unikać stoso-
wania tego testu [...] Dopiero, gdy próba losowa jest bardzo liczna i hi-
stogram sporządzony na jej podstawie przypomina gładki rozkład ciągły,
zastosowanie testu chi-kwadrat przestaje być ryzykowne. Inna sprawa,
że test ten może być jedynym dającym się zastosować w danej kon-
kretnej sytuacji. Tak jest np. wtedy, gdy dane, którymi dysponujemy,
pochodzą wprawdzie z rozkładu ciągłego, ale są już zdyskretyzowane. [6,
str. 372]

• Jeśli założenia testu nie są spełnione, można wykonać tzw. test dokład-
ny, który nie korzysta z rozkładu granicznego statystyki testowej tylko
z jej właściwego rozkładu.

Dostęp w IBM SPSS Statistics: Pierwszy sposób (stary) wykonania testu


chi-kwadrat w IBM SPSS Statistics polega na wybraniu Analiza –> Te-
sty nieparametryczne –> Testy tradycyjne –> Chi-kwadrat...
Okno dialogowe pozwala na ustalenie oczekiwanego zakresu (tj. daje możli-
wość testowania proporcji nie dla wszystkich kategorii zmiennej, ale tylko dla
kategorii należących do pewnego przedziału) oraz podania wartości oczeki-
wanych. Jako wartości oczekiwane podajemy oczekiwaną proporcję liczebno-
ści poszczególnych kategorii względem siebie. Kolejność powinna odpowiadać
kolejności kategorii ustawionych w sposób rosnący. Jako wynik otrzymamy
tabelę zawierającą wartość statystyki testowej, liczbę stopni swobody oraz
istotność asymptotyczną. Korzystając z tego sposobu, możemy wykonać te-
sty dokładne, w przypadku, gdy założenia testu asymptotycznego nie są speł-
nione.
Drugi sposób (nowy) polega na wybraniu Analiza –> Testy nie-
parametryczne –> Jedna próba... W oknie dialogowym w zakładce
Zmienne wybieramy zmienne do analizy. W zakładce Ustawienia zazna-
czamy Testy niestandardowe i wybieramy Porównywanie prawdo-
podobieństw emiprycznych z hipotetycznymi (test chi-kwadrat).
W opcjach tego testu podajemy testowane prawdopodobieństwa (w postaci
ułamków dziesiętnych sumujących się do 1). W opcjach testów (pole z lewej

110
strony) podajemy poziom istotności. Jako wynik otrzymamy tabelę zawie-
rającą hipotezę zerową, nazwę użytego testu, istotność asymptotyczną oraz
decyzję co do wyboru hipotezy. Tabelę można aktywować, klikając na nią
dwukrotnie, co pozwala uzyskać opis modelu. Opis modelu można skopiować
Edycja –> Kopiuj dodatkowy widok i wkleić do raportu.

Ćwiczenie 6.7. W czasie sondażu przeprowadzonego przez pracownię ba-


dania opinii społecznej spośród 1100 ankietowanych dorosłych Polaków 1090
odpowiedziało, że w ubiegłym miesiącu nie przeczytali żadnej książki, a po-
zostali potwierdzili, że przeczytali przynajmniej jedna książkę. Na podstawie
tych danych (dostępnych również w pliku czytanie.sav ), na poziomie istot-
ności 0, 01, przetestuj hipotezę, że odsetek dorosłych Polaków, którzy nie
przeczytali w ubiegłym miesiącu żadnej książki wynosi 99%, przeciw hipote-
zie, że odsetek ten jest inny.

Rozwiązanie. Test chi-kwadrat testuje hipotezę


Hipoteza zerowa: Kategorie czytał i nie czytał występują w stosunku 1:99
(inaczej: kategorie czytał i nie czytał występują z prawdopodobieństwami
odpowiednio 0, 01 i 0, 99).
Hipoteza alternatywna: Kategorie czytał i nie czytał występują w innym
stosunku (inaczej: z innymi prawdopodobieństwami).
Pierwszy sposób wykonania testu chi-kwadrat polega na wybraniu z me-
nu Analiza –> Testy nieparametryczne –> Testy tradycyjne –>
Chi-kwadrat... Testujemy zmienną czytanie, w pole Wartości oczeki-
wane wpisujemy odpowiednią proporcję zgodnie z oznaczeniami wartości
zmiennej w pliku, tj. najpierw dla wartości 0 (czytał), a potem 1 (nie czy-
tał).

111
Istotność testu wynosi 0, 762, co jest większe od zakładanego poziomu
0, 01 i nie daje podstaw do odrzucenia hipotezy zerowej. Wynik testu jest
wiarygodny, gdyż liczebności oczekiwane klas są większe od 10.
Drugi sposób polega na wybraniu Analiza –> Testy nieparame-
tryczne –> Jedna próba... W zakładce Zmienne sprawdzamy, że te-
stowaną zmienną jest zmienna czytanie. W zakładce Ustawienia spośród
testów niestandardowych wybieramy chi-kwadrat i w jego opcjach podaje-
my wartości zmiennej i odpowiadające im prawdopodobieństwa. W Opcje
testów możemy podać zakładany poziom istotności.

Otrzymaną tabelę można aktywować, by otrzymać podgląd modelu.

112


Ćwiczenie 6.8. W pewnym mieście przeprowadzono badania na temat do-


chodów jego mieszkańców. Przypuszczano, że osób z niskimi dochodami jest
dwa razy więcej niż ze średnimi i sześć razy więcej niż z wysokimi. Wylosowa-
no pewną grupę mieszkańców i stwierdzono, że 120 osób ma niskie dochody,
80 średnie i 50 wysokie (dane dostępne w pliku dochod.sav ). Zweryfikuj, czy
na poziomie istotności 0, 01 to przypuszczenie jest zgodne z rzeczywistością.

Rozwiązanie. Ponieważ dane, którymi dysponujemy nie są danymi „suro-


wymi”, tylko zostały zliczone, musimy dokonać ważenia. Dane –> Ważenie
obserwacji... Zaznaczamy opcję Zważ obserwacje, podając jako zmien-
ną ważącą liczbę mieszkańców o określonym dochodzie.
Testujemy hipotezy:
Hipoteza zerowa: Stosunek liczby mieszkańców o niskich dochodach do
liczby mieszkańców o średnich dochodach do liczby mieszkańców o dochodach
wysokich wynosi 6:3:1. (Odsetek mieszkańców o dochodach niskich, średnich
i wysokich jest równy odpowiednio 0, 60, 0, 30, 0, 10).
Hipoteza alternatywna: Podana proporcja jest inna. (Podane odsetki są
inne).

113
Pierwszy sposób polega na wybraniu Analiza –> Testy nieparame-
tryczne –> Testy tradycyjne –> Chi-kwadrat... Testujemy zmien-
ną dochód, a jako wartości oczekiwane podajemy kolejno 6, 3, 1.

Istotność testu wynosi 0, 000, a więc odrzucamy hipotezę zerową, a przyj-


mujemy alternatywną. Liczebności oczekiwane klas są odpowiednio duże, co
pozwala uznać wynik testu za wiarygodny.
Sposób drugi: Analiza –> Testy nieparametryczne –> Jedna
próba... W zakładce Zmienne wybieramy do testowania zmienną dochód.
W zakładce Ustawienia spośród testów niestandardowych wybieramy chi-
kwadrat. W jego opcjach podajemy kategorie (kolejno 1, 2, 3) i odpowia-
dające im prawdopodobieństwa (kolejno 0, 6, 0, 3, 0, 1). W opcjach testów
zmieniamy poziom istotności na 0, 01.

Możemy aktywować przegląd modelu.

114


6.6. Test chi-kwadrat niezależności


Hipoteza zerowa: Zmienne losowe X i Y są niezależne.
Hipoteza alternatywna: X i Y są zależne.
Założenia: Cechy X, Y są jakościowe (nominalne lub o wartościach upo-
rządkowanych).
Statystyka testowa:
r
k X
(nij − n0ij )2
χ2 =
X
,
j=1 i=1 n0ij

gdzie

r — liczba kategorii zmiennej X (liczba wierszy w tablicy kontyngencji),


k — liczba kategorii zmiennej Y (liczba kolumn w tablicy kontyngencji),
nij — liczba wystąpień w próbie par obserwacji (xi , yj ),
k r
nij ·
P P
nij
j=1 i=1
n0ij = ,
n
r X
X k
n= nij .
i=1 j=1

115
Dla zmiennych X i Y przyjmujących tylko po 2 wartości stosuje się statystykę
k X
r
(|nij − n0ij | − 1/2)2
χ2 =
X
,
j=1 i=1 n0ij

co zawiera tzw. poprawkę Yatesa na ciągłość poprawiającą jakość przybliże-


nia. [11]
(r−1)(k−1)
Obszar krytyczny: K = (u1−α , +∞),
(r−1)(k−1)
gdzie u1−α jest kwantylem rzędu 1 − α rozkładu chi-kwadrat
z (r − 1)(k − 1) stopniami swobody.
(r−1)(k−1)
p-wartość: α̃ = 1 − Fχ2 (χ2 ),
(r−1)(k−1)
gdzie Fχ2 jest dystrybuantą rozkładu chi-kwadrat z (r − 1)(k − 1)
stopniami swobody.
Uwagi:

• Podobnie jak w teście chi-kwadrat zgodności, przybliżenie statystyki


testowej rozkładem chi-kwadrat stosujemy, gdy liczebności teoretyczne
prób w wierszach (kolumnach) są stosunkowo duże (n0ij ­ 5).

• Gdy tablica kontyngencji ma rozmiar 2 × 2 i liczebności próby w wier-


szach (kolumnach) są zbyt małe, można oprzeć się na tzw. dokładnym
teście Fishera.

• W przypadku pary cech o uporządkowanych kategoriach test niezależ-


ności może okazać się zwodniczy. Może wówczas zajść potrzeba wpro-
wadzenia odpowiedniej miary zależności między cechami.

– Miara gamma – miara zależności monotonicznej, dodatniej, gdy


γ > 0 i ujemnej, gdy γ < 0. Zasadniczo γ ∈ [−1, 1]. p-wartość po-
dawana przy tym współczynniku dotyczy testu hipotezy zerowej
o niezależności zmiennych przy hipotezie alternatywnej orzekają-
cej ich dodatnią (lub ujemną) zależność.
– d Sommersa i τ −b Kendalla – używane, gdy liczba par związanych
jest duża.

Dostęp w IBM SPSS Statistics: Test jest dostępny poprzez wybranie


Analiza –> Opis statystyczny –> Tabele krzyżowe... W oknie
dialogowym należy najpierw rozmieścić zmienne w wierszach lub kolumnach
tabeli. Następnie wybieramy Statystyki... i zaznaczamy Chi-kwadrat.
Dla tabel kontyngencji o wymiarach 2 × 2 wyświetlana jest również istotność
testu chi-kwadrat z poprawką Yatesa oraz dokładnego testu Fishera.

116
Ćwiczenie 6.9. Wybrano losowo 780 mieszkańców Torunia, których zapy-
tano o najchętniej oglądany rodzaj seriali. Poniższa tabela (oraz plik seria-
le.sav ) przedstawia wyniki sondażu. Za pomocą testu chi-kwadrat niezależ-
ności, przyjmując poziom istotności 0,05, zbadaj czy płeć telewidza i rodzaj
seriali przez niego oglądanych są niezależne.

Rodzaj seriali
Płeć telenowele seriale kryminalne seriale komediowe Razem
Kobieta 210 90 160 460
Mężczyzna 50 150 120 320
Razem 260 240 280 780

Rozwiązanie. Testujemy hipotezy:


Hipoteza zerowa: Płeć telewidza i rodzaj oglądanych przez niego seriali są
niezależne.
Hipoteza alternatywna: Płeć telewidza i rodzaj oglądanych przez niego
seriali są zależne.
Ponieważ dane nie są danymi surowymi, tylko są pogrupowane, musi-
my dokonać ważenia. Wybieramy z menu Dane –> Ważenie obserwa-
cji... i podajemy, że liczba respondentów jest zmienną ważącą. Następnie
wykonujemy test. Wybieramy Analiza –> Opis statystyczny –> Ta-
bele krzyżowe... Płeć respondenta umieszczamy w wierszach, a rodzaj
oglądanych seriali w kolumnach. Zaznaczamy opcję Pokaż zgrupowane
wykresy słupkowe, a pod przyciskiem Statystyki... zaznaczamy Chi-
kwadrat.

117
Istotność testu chi-kwadrat wynosi 0, 000, co jest mniejsze od zakłada-
nego poziomu istotności i pozwala na odrzucenie hipotezy o niezależności
rodzaju oglądanych seriali od płci respondenta. Wyniki testu można uznać
za wiarygodne, gdyż wszystkie komórki mają liczebności oczekiwane większe
od 5. 

6.7. Dokładny test Fishera*


Założenia: Rozważamy dwie zmienne losowe X i Y , z których każda może
przyjmować po dwie wartości odpowiednio x1 , x2 i y1 , y2 , a tablica kontyn-
gencji ich rozkładu łącznego ma postać

118
HH X
H
x1 x2
Y H
HH
y1 a b a+b
y2 c d c+d
a+c b+d n
Hipoteza zerowa: Zmienne X i Y są niezależne (dokładniej: proporcja a : b
jest taka sama jak c : d).
Hipoteza alternatywna 1.: Zmienne X i Y są zależne (dokładniej: pro-
porcja a : b jest różna od c : d).
Hipoteza alternatywna 2.: Proporcja a : b jest większa od c : d.
Hipoteza alternatywna 3.: Proporcja a : b jest mniejsza od c : d.
p-wartość 1.: Test bazuje na prawdopodobieństwie określonym przez roz-
kład hipergeometryczny, tj. dla podanej tabeli oblicza się prawdopodobień-
stwo uzyskania tejże tabeli przy znanym jej rozkładzie brzegowym
  
a+c b+d
a b
P = 
n
 .
a+b

Następnie rozważa się wszystkie tabele o identycznych jak podane rozkładach


brzegowych, wylicza się dla nich prawdopodobieństwa i sumuje te, które są
mniejsze bądź równe prawdopodobieństwu wyliczonemu dla wyjściowej ta-
blicy.
p-wartość 2. i 3.: Podobnie jak p-wartość dwustronna, tylko sumuje się
tylko prawdopodobieństwa dla tabel zgodnych z zakładaną hipotezą jedno-
stronną.
Uwagi:
• Dokładny test Fishera stosuje się w przypadku, gdy nie zostały speł-
nione założenia testu chi-kwadrat niezależności.
• W przypadku jednostronnej hipotezy alternatywnej odczytujemy istot-
ność jednostronną oraz sprawdzamy, czy zebrane dane są zgodne z ba-
daną hipotezą jednostronną (czyli czy obserwowane proporcje spełniają
nierówność tej hipotezy).
Dostęp w IBM SPSS Statistics: Test jest dostępny poprzez wybranie
Analiza –> Opis statystyczny –> Tabele krzyżowe... W oknie
dialogowym należy najpierw rozmieścić zmienne w wierszach lub kolumnach
tabeli. Następnie wybieramy Statystyki... i zaznaczamy Chi-kwadrat.
Ćwiczenie 6.10. [11, na podst. Example p. 152] 40 studentów zostało skla-
syfikowanych według płci (kobieta/mężczyzna) i wybranego typu studiów

119
(licencjat/inżynierskie). Wyniki zawarte są w pliku studia.sav. Sprawdź, czy
istnieje zależność wybranego typu studiów od płci badanych.

Rozwiązanie. Testujemy hipotezy:


Hipoteza zerowa: Proporcja licencjatów do inżynierów jest taka sama dla
obu płci.
Hipoteza alternatywna: Podana proporcja jest inna.
Próbujemy najpierw wykonać test chi-kwadrat niezależności. Analiza
–> Opis statystyczny –> Tabele krzyżowe... Zmienną płeć umiesz-
czamy w wierszach, a studia w kolumnach. Pod przyciskiem Statystki za-
znaczamy Chi-kwadrat, a pod przyciskiem Komórki zaznaczamy liczeb-
ności Obserwowane i Oczekiwane.

120
Istotność testu chi-kwadrat wynosi 0, 455, co oznacza, że nie mamy pod-
staw do odrzucenia hipotezy zerowej. Podobny wniosek otrzymujemy, biorąc
pod uwagę istotność testu z poprawką Yatesa na ciągłość. Jak jednak widzi-
my, jedna z komórek tabeli kontyngencji ma liczebność oczekiwaną mniejszą
od 5, wyniki tych testów nie są zatem wiarygodne. Musimy wziąć pod uwa-
gę istotność dokładnego testu Fishera. Wynosi ona 0, 690 i również nie daje
podstaw do odrzucenia hipotezy zerowej. 

6.8. Test Wilcoxona znakowanych rang


Założenia: Dysponujemy ciągiem par obserwacji: (X1 , Y1 ), . . . , (Xn , Yn ). Pa-
ry zmiennych losowych są niezależne, natomiast Xi , Yi mogą być zależne. De-
finiujemy niezależne różnice Zi = Yi − Xi , i = 1 . . . , n. Każda zmienna Zi ,
i = 1, . . . , n pochodzi z tego samego rozkładu ciągłego o dystrybuancie Fi ,
symetrycznego względem wspólnej mediany θ (może być ona interpretowana
jako „efekt kuracji”).
Hipoteza zerowa: θ = 0 (brak „efektu kuracji”)
Hipoteza alternatywna 1.: θ 6= 0 (jest jakiś „efekt kuracji”).
Hipoteza alternatywna 2.: θ > 0 („efekt kuracji” jest dodatni).
Hipoteza alternatywna 3.: θ < 0 („efekt kuracji” jest ujemny).
Statystyka testowa: Jest to statystyka znakowanych rang Wilcoxona, czyli
suma rang wartości bezwzględnych różnic odpowiadających różnicom dodat-
nim:
T+ =
X
r(|Zi |),
Zi >0

gdzie
r(|Zi |) — ranga |Zi |, i = 1, . . . , n, (r(Xi ) = j ∈ {1, . . . , n} ⇐⇒ Xi = Xj:n ).

121
#
n(n + 1) h 
Obszar krytyczny 1.: K = −∞, − w1−α/2 ∪ w1−α/2 , ∞ ,
2
Obszar krytyczny 2.: K = [w1−α , +∞) #
n(n + 1)
Obszar krytyczny 3.: K = −∞, − w1−α
2
gdzie wa jest kwantylem rozkładu statystyki znakowanych rang Wilcoxona
(przy założeniu prawdziwości hipotezy zerowej) rzędu a (w tablicach).
Uwagi:
• Test znakowanych rang Wilcoxona jest nieparametryczną alternatywą
dla testu t-Studenta w przypadku dwóch próbek dających się połączyć
w pary. Różnica między tymi testami jest taka, że test t-Studenta testu-
je równość średnich arytmetycznych, a test Wilcoxona testuje mediany.
Test Wilcoxona nie wymaga założeń dotyczących rozkładu próby, może
być więc używany, gdy założenia testu t-Studenta nie są spełnione.
• Test dla jednej próby jest odpowiednikiem testu dla dwóch prób, w któ-
rym drugą z prób zastąpiono stałą równą wartości testowanej mediany.
• Jeżeli n jest duże (w praktyce dla n ­ 25), stosuje się tzw. test asymp-
totyczny, tj. używa się statystyki testowej postaci
n(n+1)
∗ T+ − 4
T =q ,
n(n + 1)(2n + 1)/24
i obszarów krytycznych
 i h 
Obszar krytyczny 1.: K = −∞, −z1−α/2 ∪ z1−α/2 , ∞
Obszar krytyczny 2.: K = [z1−α , +∞)
Obszar krytyczny 3.: K = (−∞, −z1−α ]
gdzie z1−α jest kwantylem rzędu 1−α standardowego rozkładu normal-
nego.
• W praktyce (w wyniku zaokrąglania) mogą pojawić się tzw. węzły, czyli
grupy obserwacji o jednakowej wartości bezwzględnej. Postępowanie
w przypadku, gdy
1. n < 25
- odrzucamy wszystkie Zi takie, że Zi = 0 i odpowiednio zmniej-
szamy n,
- uśredniamy rangi dla pozostałych węzłów (mogą być one niecał-
kowite),
- stosujemy test dokładny ze zmodyfikowanymi rangami;

122
2. n ­ 25
- odrzucamy wszystkie Zi takie, że Zi = 0 i odpowiednio zmniej-
szamy n,
- uśredniamy rangi dla pozostałych węzłów (mogą być one niecał-
kowite),
- stosujemy test asymptotyczny ze modyfikowaną statystyką te-
stową T ∗ :
n(n+1)
T+ −
T˜∗ = T ∗ = s 4
,
N
1
n(n + 1)(2n + 1)/24 − (t2j − 1)tj
P
48
j=1

gdzie:
N — liczba grup węzłów (również jednoelementowych),
tj — liczba węzłów w j-tej grupie, j = 1, . . . , N .

Dostęp w IBM SPSS Statistics: W IBM SPSS Statistics wykonywane są


asymptotyczne testy znakowanych rang Wilcoxona, tj. powinniśmy dyspo-
nować próbami składającymi się z co najmniej 25 obserwacji. W przypadku
mniejszych prób powinno się wykonać tzw. test dokładny, który jest dostępny
w menu testów tradycyjnych.
Dostęp do testu dla jednej próby: Analiza –> Testy nieparame-
tryczne –> Jedna próba... W zakładce Ustawienia wybieramy Po-
równanie mediany z wartością hipotetyczną (test Wilcoxona
znakowanych rang) i podajemy testowaną wartość mediany.
Pierwszy sposób wykonania testu dla dwóch prób: Analiza –> Testy
nieparametryczne –> Testy tradycyjne –> Dwie próby zależ-
ne... Wybieramy typ testu Wilcoxon.
Drugi sposób wykonania testu dla dwóch prób: Analiza –> Testy nie-
parametryczne –> Próby zależne... W zakładce Ustawienia wybie-
ramy Test znakowanych rang Wilcoxona dla par dopasowanych.

Ćwiczenie 6.11. Dziewięciu pacjentów ze zdiagnozowaną depresją poddano


terapii lekiem uspokajającym T. Dane w pliku depresja.sav dotyczą wartości
tzw. czynnika Hamiltona u pacjentów i zostały zmierzone po pierwszej oraz
po drugiej wizycie u lekarza. Polepszeniu stanu pacjenta odpowiada obniżenie
wartości czynnika Hamiltona. Stosując test znakowanych rang Wilcoxona,
na poziomie istotności 0,049 przetestuj hipotezę, że efekt terapii jest zerowy,
przeciwko hipotezie, że lek T przynosi pozytywne efekty.

Rozwiązanie. Badamy różnice wartości współczynnika Hamiltona po dru-


giej i po pierwszej wizycie. Testujemy hipotezy:

123
Hipoteza zerowa: Mediana różnic jest zerowa.
Hipoteza alternatywna: Mediana różnic jest ujemna.
Wybieramy Analiza –> Testy nieparametryczne –> Testy tra-
dycyjne –> Dwie próby zależne... Jako zmienną pierwszą wybieramy
wartość współczynnika po pierwszej wizycie, jako drugą – po drugiej. Wy-
bieramy typ testu Wilcoxon.

Z tabeli statystyk testu widzimy, że statystyka dla różnicy po drugiej −


po pierwszej jest ujemna, a asymptotyczny dwustronny poziom istotności
wynosi 0, 038. Jednostronny poziom istotności jest więc równy 0, 019, co ozna-
cza, że odrzucamy hipotezę zerową na rzecz hipotezy alternatywnej jedno-
stronnej. Ujemna wartość statystyki pozwala nam przyjąć hipotezę, że me-
diana różnic jest ujemna, czyli u większości pacjentów wartość współczynnika
Hamiltona uległa obniżeniu.
Problemem pozostaje liczebność próby, jest ona mniejsza od 25, co nie
pozwala na stosowanie asymptotycznej wersji testu. Wykonujemy test jeszcze

124
raz, klikając w oknie dialogowym opcję Dokładne... i wybierając dokładną
wersję testu z limitem czasu 5 minut.

Dokładna istotność jednostronna wynosi 0, 020 i nie zmienia podjętej


wcześniej decyzji. 

125
6.9. Test U Manna-Whitneya*
Na podstawie [5, str. 672].
Założenia: Dysponujemy ciągłą zmienną losową i jej obserwacjami z dwóch
różnych populacji.
Hipoteza zerowa: Mediany zmiennej są takie same w dwóch różnych po-
pulacjach (θ1 = θ2 ).
Hipoteza alternatywna 1.: Mediany zmiennej są różne w badanych popu-
lacjach (θ1 6= θ2 ).
Hipoteza alternatywna 2.: Mediana zmiennej w pierwszej populacji jest
mniejsza od mediany zmiennej w drugiej populacji (θ1 < θ2 ).
Hipoteza alternatywna 3.: Mediana zmiennej w pierwszej populacji jest
większa od mediany zmiennej w drugiej populacji (θ1 > θ2 ).
Statystyka testowa: Obserwacje z obu prób łącznie porządkujemy od naj-
mniejszej do największej i przypisujemy im rangi. r1 – suma rang z pierwszej
próby. Statystyka testowa
( )
n1 (n1 + 1) n1 (n1 + 1)
U = min n1 n2 + − r1 , r1 − .
2 2
 i h 
Obszar krytyczny 1.: K = −∞, un1−α/2 1 ,n2
∪ un1−α/2
1 ,n2
,∞
n1 ,n2
Obszar krytyczny 2.: K = [u1−α , +∞)
Obszar krytyczny 3.: K = (−∞, un1−α 1 ,n2
]
n1 ,n2
gdzie ua jest kwantylem rozkładu statystyki U Manna-Whitneya (przy
założeniu prawdziwości hipotezy zerowej) rzędu a (w tablicach).
Uwagi:

• Test U Manna-Whitneya jest nieparametryczną alternatywą dla testu t-


Studenta w przypadku dwóch prób niezależnych. Różnica między tymi
testami jest taka, że test t-Studenta testuje równość średnich arytme-
tycznych, a test U Manna-Whitneya testuje mediany. Test U Manna-
Whitneya wymaga jedynie, żeby próby pochodziły z rozkładów o po-
dobnym kształcie [12, str. 531], może być więc używany, gdy założenia
testu t-Studenta nie są spełnione.

• Jeżeli n1 lub n2 jest większe od 20 i próby mają zbliżoną liczebność,


stosuje się tzw. test asymptotyczny, tj. używa się statystyki testowej
postaci
U − n12n2
U∗ = q ,
n1 n2 (n1 + n2 + 1)/12
i obszarów krytycznych

126
 i h 
Obszar krytyczny 1.: K = −∞, −z1−α/2 ∪ z1−α/2 , ∞
Obszar krytyczny 2.: K = [z1−α , +∞)
Obszar krytyczny 3.: K = (−∞, −z1−α ]
gdzie z1−α jest kwantylem rzędu 1−α standardowego rozkładu normal-
nego.

• W przypadku pojawienia się węzłów, tj. obserwacji o tej samej wartości,


każdemu z nich przypisuje się rangę będącą średnią rang przypadają-
cych na te wartości.
Dostęp w IBM SPSS Statistics: W IBM SPSS Statistics wykonywany jest
asymptotyczny test U Manna-Whitneya, tj. powinniśmy dysponować próba-
mi składającymi się z co najmniej 20 obserwacji. W przypadku mniejszych
prób powinno się wykonać tzw. test dokładny, który jest dostępny w menu
testów tradycyjnych. Test dokładny jest wykonywany dla prób, dla których
n1 n2 ¬ 400 i n1 n2 /2 + min(n1 , n2 ) ¬ 220.
Pierwszy sposób wykonania testu: Analiza –> Testy nieparame-
tryczne –> Testy tradycyjne –> Dwie próby niezależne... Wy-
bieramy typ testu U Manna-Whitneya. (Przy tym sposobie mamy dostęp
do testów dokładnych).
Drugi sposób wykonania testu dla dwóch prób: Analiza –> Testy
nieparametryczne –> Próby niezależne... W zakładce Ustawienia
wybieramy U Manna-Whitneya (2 próby).
Ćwiczenie 6.12. W celu sprawdzenia hipotezy o dużym wysiłku w pra-
cy w pewnej fabryce przeprowadzono eksperyment, w którym zbadano tętno
losowo wybranych pracowników fabryki oraz rowerzystów przy tej samej kon-
sumpcji tlenu. Dane znajdują się w pliku tetno.sav (dostępnym na Moodle).
Zweryfikuj podaną hipotezę, przyjmując poziom istotności 0, 1.
Rozwiązanie. Badamy najpierw, czy są spełnione założenia testu t-Studenta
dla zmiennych niezależnych, tj. badamy normalność rozkładu.

127
128
129
130
Jak widać, przy poziomie istotności 0,1 rozkład zmiennej tętno w grupie
pracowników odbiega od normalnego. Dlatego zastosujemy test U Manna-
Whitneya. Ze względu na małą liczebność obu grup musimy zastosować do-
kładną wersję tego testu.
Hipoteza zerowa: Mediana tętna jest taka sama w grupach pracowników
i rowerzystów.
Hipoteza alternatywna: Mediana tętna jest wyższa w grupie pracowników.
Wybieramy Analiza –> Testy nieparametryczne –> Testy tra-
dycyjne –> Dwie próby niezależne... W polu Zmienne testowane
umieszczamy zmienną tetno, w Zmienna grupująca – zmienną grupa. De-
finiujemy grupy, podając kolejno wartości 1 (pracownicy) i 2 (rowerzyści).
Zaznaczamy test U Manna-Whitneya. Klikamy Dokładne i wybieramy te-
sty dokładne z limitem czasu 5 minut.

131
Dokładna istotność jednostronna wynosi 0, 024 i jest mniejsza od zakła-
danego poziomu istotności wynoszącego 0,1. Pozwala to na odrzucenie hipo-
tezy zerowej na korzyść hipotezy konkurencyjnej jednostronnej. Ze względu
na większą sumę rang dla pracowników niż dla rowerzystów, przyjmujemy
hipotezę, że mediana tętna pracowników jest wyższa niż rowerzystów. 

132
Rozdział 7.

Analiza wariancji

Analiza wariancji (ANOVA, ang. analysis of variance) może być rozumia-


na jako uogólnienie testu t-Studenta dla dwóch zmiennych na większą liczbę
zmiennych (grup). Analizujemy pewną zmienną nazywaną zmienną odpo-
wiedzi, przy czym interesują nas średnie wartości tej zmiennej w grupach
wyróżnionych ze względu na wartości zmiennych niezależnych, objaśniają-
cych, zwanych czynnikami. Możliwe wartości czynników są nazywane po-
ziomami.
Analizę wariancji dzielimy na jednoczynnikową, gdy zmienna odpo-
wiedzi może zależeć tylko od jednego czynnika, oraz wieloczynnikową, gdy
zmienna odpowiedzi może zależeć od przynajmniej dwóch czynników. W tym
drugim przypadku oprócz wpływu każdego czynnika z osobna może wystę-
pować efekt ich interakcji.

7.1. Analiza jednoczynnikowa


Zadaniem jednoczynnikowej analizy wariancji jest test hipotezy mówiącej
o równości średnich zmiennej odpowiedzi dla wszystkich k poziomów czyn-
nika:
Hipoteza zerowa: a1 = a2 = . . . = ak ,
przeciwko
Hipoteza alternatywna: przynajmniej dwie spośród średnich a1 , a2 , . . . , ak
są różne.
W analizie wariancji duże znaczenie ma plan doświadczenia, czyli przy-
pisanie poziomom czynnika jednostek eksperymentalnych (obserwacji, osób
badanych). Istotne znaczenie przypisuje się planom całkowicie zrandomi-
zowanym, w którym jednostki eksperymentalne przypisuje się poziomom
czynnika w sposób losowy, oraz planom zrównoważonym, w którym każde-

133
mu poziomowi czynnika została przypisana taka sama (bądź zbliżona) liczba
jednostek eksperymentalnych n (otrzymujemy w ten sposób grupy o tej samej
bądź zbliżonej liczebności).
Podstawowe założenie analizy wariancji: Dla każdego poziomu czyn-
nika rozkład zmiennej odpowiedzi jest normalny z taką samą wariancją σ 2
(σ12 = σ22 = . . . = σk2 = σ 2 ).
Definiujemy trzy wielkości:
• całkowitą sumę kwadratów (ang. total sum of squares) opisującą
całkowitą zmienność zmiennej odpowiedzi:
k X
n
(yij − ȳ.. )2 ,
X
SST =
i=1 j=1

• sumę kwadratów modelu ANOVA (ang. ANOVA sum of squares)


opisującą zmienność międzygrupową:
k
(ȳi. − ȳ.. )2 ,
X
SSA = n
i=1

• sumę kwadratów błędów (ang. error sum of squares) opisującą


zmienność wewnątrzgrupową:
n
k X
(yij − ȳi. )2 .
X
SSE =
i=1 j=1

Prawdziwa jest równość


SST = SSA + SSE.
Podstawowy test F (nazwany tak na cześć Ronalda A. Fishera) analizy wa-
riancji jest oparty na fakcie, że przy założeniu hipotezy zerowej statystyka
SSA/(k − 1)
F = ,
SSE/(k(n − 1))
opisująca stosunek wariancji międzygrupowej do wariancji wewnątrzgrupo-
wej, ma rozkład F Snedecora z k − 1 oraz k(n − 1) stopniami swobody.
Uwagi:
• Przed wykonaniem analizy wariancji należy sprawdzić, czy są spełnione
założenia, tj. czy zmienna odpowiedzi ma przy każdym poziomie czyn-
nika rozkład zbliżony do normalnego oraz równe wariancje (sprawdza-
my to testem Levene’a lub Barletta).

134
• Założenie o normalności rozkładu oraz jednorodności wariancji może
nie być spełnione skutkiem istnienia obserwacji odstających. Obserwa-
cje takie należy znaleźć i usunąć [6, str. 330].

• Jeżeli założenie o normalności rozkładu bądź jednorodności wariancji


musi zostać odrzucone, postuluje się znalezienie takiej transformacji
danych, która umożliwi uznanie wymienionych założeń za spełnione
dla przekształconej zmiennej odpowiedzi.

• W przypadku niespełnionego założenia o jednorodności wariancji za-


miast standardowej analizy wariancji można wykonać testy Browna-
Forsythe’a oraz Welcha (bardziej konserwatywny, mający większą moc
wykrywania różnic) [3, str. 43].

• Test F może odrzucić hipotezę zerową w przypadku istnienia korelacji


pomiędzy odchyleniem standardowym a średnią (im większa średnia,
tym większe odchylenie standardowe). Należy w takich przypadkach
zachować ostrożność.

• Test F jest odporny na umiarkowane odstępstwa od normalności roz-


kładu oraz niedużą różnicę wariancji w grupach przy grupach w miarę
równolicznych [6, str. 327, 331].
Ćwiczenie 7.1. [6, str. 327] Pewna uczelnia zdecydowała się wprowadzić
semestralne kursy wyrównawcze z analizy matematycznej i algebry dla stu-
dentów II semestru, którzy z trudem przebrnęli przez I semestr zajęć ma-
tematycznych. Opracowano cztery różne programy kursu. 44 zagrożonych
studentów skierowano w sposób losowy na kursy wyrównawcze, po 11 na
każdy kurs. Równolegle studenci uczęszczali na zajęcia II semestru anali-
zy matematycznej. Po upływie semestru postanowiono zbadać, czy średnie
wyniki egzaminu z analizy matematycznej II są takie same dla wszystkich
czterech kursów. Wyniki egzaminu końcowego można znaleźć w pliku kur-
sy.sav umieszczonym na Moodle (na egzaminie można było zdobyć najwyżej
50 punktów).
Rozwiązanie. Zmienną odpowiedzi w tym zadaniu jest zmienna Egzamin,
zaś poziomy czynnika stanowią wartości zmiennej Kurs.
Sprawdzamy najpierw założenia analizy wariancji. Wybieramy Analiza
–> Opis statystyczny –> Eksploracja.... W polu Zmienne zależ-
ne umieszczamy zmienną Egzamin, a w polu Lista czynników zmienną
Kurs. Klikamy Wykresy i zaznaczamy Wykresy normalności z te-
stami oraz w polu Rozrzut-poziom z testem Levene’a zaznaczamy
Nie przekształcone. Jako wynik otrzymujemy między innymi

135
• tabelę wyników testów normalności rozkładu z istotnościami powyżej
0,05, co oznacza, że zmienna Egzamin ma w grupach rozkład zbliżony
do normalnego,

• tabelę wyników testu Levene’a jednorodności wariancji z istotnością


powyżej 0,7, co oznacza, że zmienna Egzamin ma w grupach zbliżone
wariancje,

• wykres skrzynkowy, na którym widać jedną obserwację odstającą – nie


będziemy jej jednak usuwać, gdyż nie wpływa na spełnianie założeń
analizy wariancji.

136
Wykonujemy analizę wariancji. Wybieramy Analiza –> Porównywa-
nie średnich –> Jednoczynnikowa ANOVA... Zmienną zależną jest
Egzamin, a czynnikiem Kurs. Klikamy Opcje... i zaznaczamy Opisowe,
test jednorodności wariancji i Wykres średnich.
Ponieważ nasz czynnik Kurs ma 4 poziomy, to testujemy równość średnich
wyników egzaminu dla 4 grup studentów.
Hipoteza zerowa: a1 = a2 = a3 = a4 (średni wynik egzaminu jest taki sam
we wszystkich grupach).
Hipoteza alternatywna: W przynajmniej dwóch grupach średnich wynik
egzaminu jest różny.

137
Z tabeli jednoczynnikowa ANOVA możemy odczytać, że wariancja mię-
dzygrupowa wynosiła 54,532 i była ponad 4-krotnie większa od wariancji we-
wnątrzgrupowej wynoszącej 13,137. Stąd wartość statystyki F równa 4,151
oraz istotność 0,012 pozwalająca na odrzucenie hipotezy o równości średnich
w grupach przy poziomie istotności 0,05.

Odrzucenie hipotezy o równości wszystkich średnich rodzi pytanie o to,
które średnie różnią się między sobą. Do badania tego zagadnienia służą po-
równania wielokrotne (nazywane również porównaniami post hoc - łac. po
tym, lub a posteriori - łac. z następstwa, po fakcie). Zasadniczo sprowadza-
ją się one do wykonania K = k(k−1) 2
testów t-Studenta dla dwóch średnich
weryfikujących poniższe hipotezy:
Hipoteza zerowa: ai = aj ,
Hipoteza alternatywna: ai 6= aj ,
dla i, j = 1, 2, . . . k, i < j.
Należy tu zwrócić uwagę na fakt, że czym innym jest łączny poziom istot-
ności całej procedury, a czym innym jest poziom istotności pojedynczego
testu.
Procedura Bonferroniego: aby poziom istotności całej procedury wy-
nosił (co najwyżej) α, poziom istotności każdego testu musi wynosić α/K.

138
Wady: konieczność wykonywania poszczególnych testów na bardzo niskich
poziomach oraz poziom istotności w rzeczywistości niższy niż α. Wad tych
nie mają procedura Scheffégo oraz procedura Tukeya, ale tylko wtedy, gdy
grupy są równej liczności (jest wtedy lepsza niż procedura Scheffégo). Proce-
dura Scheffégo jest z kolei bardziej polecana w przypadku, gdy oprócz różnic
między średnimi analizuje się kontrasty [6, str. 337].
Biorąc pod uwagę, że wraz ze wzrostem liczby wykonywanych testów
rośnie prawdopodobieństwo popełnienia błędu I rodzaju, czyli odrzucenia
prawdziwej hipotezy zerowej, należałoby się skłaniać ku wyborowi testów
konserwatywnych. Może to jednak oznaczać, że w ten sposób umkną nam
istotne, ale niezbyt duże różnice między średnimi. Dlatego warto jest wykonać
zawsze przynajmniej jeden test konserwatywny i przynajmniej jeden liberalny
i porównać ich wyniki [3, str. 47].
Poniżej podajemy za [3, str. 47-48] zestawienie najczęściej wybieranych
testów post hoc z podziałem na spełniające i niespełniające założenia jedno-
rodności wariancji.

Spełnione założenie o jednorodności wariancji


Nazwa testu Opis
NIR – najmniejsza istotna Jako jedyny nie bierze poprawki na liczbę
różnica (ang. LSD – least si- wykonywanych porównań, wymaga jedy-
gnificant difference nie, by test F był istotny statystycznie.
S-N-K – Student-Newman- Liberalny, zdarza się, że wyniki porównań
Keuls są istotne nawet jeśli test F dał wynik nie-
istotny statystycznie.
Bonferroni Konserwatywny, większa moc wykrywania
różnic przy małej liczbie porównań.
Tukey Konserwatywny. Ma większą moc niż Bon-
ferroni przy dużej liczbie porównań.
Scheffé Najbardziej konserwatywny.
Gabriel Dość liberalny. Polecany przy nierównych
grupach.
GT2 Hochberga Polecany przy nierównych grupach.

Niespełnione założenie o jednorodności wariancji


Nazwa testu Opis
C Dunetta
Games-Howell Liberalny. Duża moc przy małych gru-
pach, stosowany również dla grup nierów-
nolicznych.
T2 Tamhane’a Konserwatywny.

139
Ćwiczenie 7.2. Dla danych z ćwiczenia 7.1 sprawdź, wykorzystując odpo-
wiednie testy, które kursy różniły się od pozostałych pod względem wpływu
na średni wynik egzaminu końcowego.

Rozwiązanie. Ponieważ dla danych z pliku Kursy.sav było spełnione za-


łożenie o jednorodności wariancji oraz grupy były równoliczne, wybieramy
konserwatywny test Tukeya oraz liberalny test S-N-K.

Wybieramy Analiza –> Porównywanie średnich –> Jednoczyn-


nikowa ANOVA... Zmienną zależną jest w dalszym ciągu Egzamin, a nie-
zależną Kurs. Klikamy Post hoc... i zaznaczamy S-N-K oraz Tukey przy
wpisanym poziomie istotności 0,05. Klikamy Dalej i OK.

140
Oba testy wykazały, że studenci, którzy ukończyli czwarty kurs, osiągają
istotnie wyższe wyniki z egzaminu z analizy matematycznej niż pozostali.
Studenci, którzy ukończyli kursy 1-3 osiągają podobne wyniki egzaminów. 

Często jest tak, że przed przystąpieniem do analizy mamy już hipotezę,


że w jednej bądź kilku grupach średnia zmiennej odpowiedzi powinna być
wyższa niż w pozostałych (traktowanych łącznie). Nie znając wyniku testu F,
bądź niezależnie od niego, możemy zaplanować takie konkretne porównanie.
Nazywa się ono porównaniem planowanym bądź a priori (łac. z góry)
i wykonuje się je z użyciem testów kontrastów.
Testy kontrastów wymagają przypisania grupom wag zgodnie z poniż-
szym zasadami:

• grupy, które chcemy ze sobą porównywać powinny mieć taką samą łącz-
ną wartość wag, ale o przeciwnych znakach,

• grupie, którą chcemy wyłączyć z porównań, przypisujemy wagę 0,

• suma wszystkich wag powinna wynosić 0,

• wagi podajemy w kolejności zgodnej z oznaczeniem grup w pliku da-


nych.

141
Można wykonać kilka testów kontrastów, ale należy zadbać o to, żeby
były one od siebie niezależne. Tzn. jeśli np. kontrastowaliśmy ze sobą grupy
1, 2 i 3 oraz grupy 4 i 5, to w kolejnym teście możemy kontrastować ze sobą
podzbiory wyróżnione z grup 1, 2 i 3 oraz grupę 4 z grupą 5, nie możemy
natomiast kontrastować grupy 2 z grupą 4. W praktyce warunek ten sprawdza
się następująco: dla każdej grupy mnoży się wagi przypisane jej we wszystkich
testach kontrastów, a następnie dodaje do siebie otrzymane w ten sposób
iloczyny. Niezależność jest równoważna otrzymania w wyniku liczby 0 [3, str.
55].

Ćwiczenie 7.3. Spośród kursów opisanych w ćwiczeniu 7.1 kurs numer 4


wyróżnia się użyciem nowoczesnych technologii nauczania i dlatego należy
się spodziewać, że da on lepsze wyniki niż pozostałe 3 kursy. Sprawdź tę
hipotezę, używając testu kontrastów.

Rozwiązanie. Wybieramy Analiza –> Porównywanie średnich –>


Jednoczynnikowa ANOVA... Zmienną zależną jest w dalszym ciągu Eg-
zamin, a niezależną Kurs. Klikamy Kontrasty... Ponieważ chcemy kontra-
stować grupę 4 z grupami 1-3, to grupom 1-3 przypisujemy wagi równe −1,
a wtedy grupie 4 musimy przypisać wagę 3. Klikamy Dalej i OK.
Hipoteza zerowa: Średni wynik egzaminu jest taki sam dla studentów z gru-
py 4 jak dla studentów z grup 1-3 łącznie.
Hipoteza alternatywna: Średni wynik egzaminu jest inny dla studentów
z grupy 4 niż dla studentów z grup 1-3 łącznie.

Otrzymana istotność (przy założeniu równości wariancji w grupach wy-


nosi 0,001 i jest mniejsza od zakładanego poziomu 0,05, co pozwala na od-
rzucenie hipotezy zerowej. 

142
Rozdział 8.

Analiza regresji

Współautor: dr hab. Aleksander Zaigrajew

Analiza regresji zajmuje się badaniem zależności pomiędzy zmiennymi,


mając na celu konstrukcję modelu, który dobrze odzwierciedla tę zależność.
Takiego badania dokonujemy na podstawie przeprowadzenia doświadczeń
i analizy ich wyników.
Warto zaznaczyć, że słowo regresja w tłumaczeniu z łaciny oznacza cofa-
nie. Stosowanie w nazwie tej dziedziny, jak też w nazwie kilku innych pojęć,
słowa regresja jest historyczne i raczej niefortunne. Nazwa ta została praw-
dopodobnie użyta po raz pierwszy w 1885 r. przez angielskiego naukowca Sir
F. Galtona (ucznia K. Darwina) podczas badania zależności wzrostu potom-
stwa od wzrostu rodziców. Wykazał on bowiem, że niezwykle wysocy rodzice
(znacznie powyżej przeciętnej) mają dzieci niższego wzrostu, natomiast ro-
dzice o wzroście znacznie niższym niż przeciętny, mają dzieci wyższe od nich.
Galton nazwał to zjawisko cofaniem w kierunku przeciętności.
W istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie
prowadzonych doświadczeń jest o wiele starsza. Tak na przykład matematycy
francuscy (szczególnie P.-S. Laplace) w XVIII wieku przeprowadzali analizy,
które nazwalibyśmy dziś analizą regresji.
Warto zaznaczyć, że zmienne mogą być powiązane między sobą zależno-
ścią funkcyjną lub statystyczną. Związek funkcyjny Y = f (X) odznacza
się tym, że każdej wartości zmiennej X (X może być też wektorem) odpo-
wiada tylko jedna, jednoznacznie określona wartość zmiennej Y (na przykład
pole kwadratu jest funkcją jego boku). Bardzo rzadko jednak mamy do czy-
nienia z danymi, które dokładnie opisują się podobną zależnością. Częściej
mamy do czynienia z tzw. zależnością statystyczną. Związek statystyczny
polega na tym, że określonym wartościom zmiennej X odpowiadają ściśle
określone średnie wartości zmiennej Y .

143
8.1. Analiza regresji jednej zmiennej

Zacznijmy od najprostszej sytuacji, gdy chcemy zbadać zależność interesują-


cej nas zmiennej Y (nazywamy ją zmienną zależną) od jednej zmiennej X
(nazywamy ją zmienną niezależną).

Ćwiczenie 8.1. [6] Rozpatrzmy rezultaty kolokwium (skala od 0 do 25 punk-


tów) i egzaminu koncowego (skala od 0 do 50 punktów) ze statystyki matema-
tycznej. W kolokwium i egzaminie brało udział 19 studentów pewnej szkoły
technicznej. Wyniki kolokwium i egzaminu są podane w tabelce (oraz pliku
stud.sav na Moodle):
Numer stud. 1 2 3 4 5 6 7 8 9 10 11 12 13
Kolokwium 7 11 12 14 17 15 21 22 19 13 5 12 16
Egzamin 20 24 25 30 35 30 43 42 41 24 14 27 35
Numer stud. 14 15 16 17 18 19
Kolokwium 14 21 20 17 10 17
Egzamin 28 42 40 34 23 40
Zbadać zależność pomiędzy wynikiem egzaminu końcowego (zmienna za-
leżna) a kolokwium (zmienna niezależna).

Zależność tę przedstawiono na wykresie rozrzutu, który jest użytecz-


nym graficznym przedstawieniem zależności między zmiennymi (Wykresy
–> Kreator wykresów..., wybieramy Prosty wykres rozrzutu
i umieszczamy zmienną Kolokwium na osi poziomej, a Egzamin na osi pio-
nowej). Tworzą go pary punktów (xi , yi ), i = 1, . . . , 19, czyli pary poszcze-
gólnych wartości zmiennej niezależnej i zmiennej zależnej. Zaznaczmy, że
w przypadku, gdy mamy do czynienia z jedną zmienną niezależną, zagadnie-
nie konstrukcji modelu zaleca się zaczynać właśnie od sporządzenia wykresu
rozrzutu. Widzimy, że istotnie mamy tutaj do czynienia z zależnością staty-
styczną, a nie funkcyjną, bowiem mamy studentów, których wynik kolokwium
jest taki sam, ale wynik egzaminu różni się (na przykład studenci o numerach
5, 17 i 19 mają ten sam wynik kolokwium – 17 punktów, lecz różny wynik
egzaminu – odpowiednio 35, 34 i 40 punktów). Wykonany wykres rozrzu-
tu sugeruje istnienie prostej, wokół której koncentrują się umieszczone na
wykresie punkty.

144
W analizie regresji zakładamy, że model opisuje się w przybliżeniu funkcją
postaci h(x, b), gdzie b jest pewnym wektorem parametrów, a h jest zadaną
funkcją ciągłą (funkcja h jest nazywana funkcją regresji). Naszym celem
jest znalezienie takich wartości wektora parametrów b, by model jak najlepiej
pasował do obserwacji. Jeśli funkcja h jest liniowa, to regresja (i odpowiedni
model) nazywa się liniową, w przeciwnym przypadku – nieliniową. Naj-
prostsza funkcja regresji liniowej jednej zmiennej to h(x, b) = b1 x + b0 .
Jak wśród wszystkich możliwych prostych wybrać właściwą? Rozwiąza-
nie tego zagadnienia opiera się na metodzie najmniejszych kwadratów
wprowadzonej jeszcze na początku XIX wieku przez A.-M. Legendre’a i C.
F. Gaussa. Polega ona na tym, że mając obserwacje (xi , yi ), i = 1, . . . , n,
wybieramy b1 i b0 tak, by wartość

n 
X 2
SSE = yi − (b1 xi + b0 )
i=1

była jak najmniejsza.

145
Okazuje się, że taki problem, o ile wszystkie punkty {xi } nie są jednakowe,
ma jednoznaczne rozwiązanie, mianowicie:
Pn
i=1 (xi − x̄)(yi − ȳ)
b1 = Pn , b0 = ȳ − b1 x̄,
i=1 (xi − x̄)
2

1 Pn 1 Pn
gdzie x̄ = n i=1 xi , ȳ = n i=1 yi .

146
Niech ŷi = b1 xi + b0 (czyli niech ŷi będzie wartością przewidywaną zmien-
nej Y ). Wówczas (patrz rysunek)

yi − ȳ = yi − ŷi + ŷi − ȳ.

Co więcej, prawdziwa jest również równość


n n n
(yi − ȳ)2 = (yi − ŷi )2 + (ŷi − ȳ)2 ,
X X X

i=1 i=1 i=1

którą zapisujemy jako


SST = SSE + SSR,
całkowita suma kwadratów (ang. total ) jest więc równa sumie kwadratów
błędów (ang. errors) i regresyjnej sumie kwadratów (ang. regression).
Dobroć dopasowania modelu do danych empirycznych zazwyczaj określa
się za pomocą tzw. współczynnika determinacji mającego postać
Pn
2 SSR i=1 (b1 xi + b0 − ȳ)2
R = = Pn .
i=1 (yi − ȳ)
SST 2

Współczynnik ten przyjmuje wartości z przedziału [0, 1]; większe wartości R2


oznaczają lepsze dopasowanie modelu do danych empirycznych. Interpretacja
tego współczynnika jest następująca: zmienność zmiennej zależnej daje się
wyjaśnić za pomocą stworzonego modelu w R2 · 100%.
Kolejną miarą dokładności szacowania jest błąd standardowy estyma-
tora (ang. standard error of the estimate), który jest równy
s
SSE
,
n−m−1

gdzie m oznacza liczbę zmiennych objaśniających (m = 1 dla prostej regresji


liniowej). Błąd standardowy estymatora należy interpretować jako dokład-
ność przewidywań wartości zmiennej Y za pomocą oszacowanego równania
regresji.
Oprócz współczynnika determinacji i błędu standardowego estymatora
warto też zwracać uwagę na istotność modelu, która pozwala przenieść
uzyskany model na całą populację. Istotność modelu w tej sytuacji jest rów-
noważna z istotnością współczynnika b1 i określa się na podstawie testowania
hipotezy
Hipoteza zerowa: b1 = 0
przeciwko
Hipoteza alternatywna: b1 6= 0.

147
Istotność modelu mniejsza bądź równa 0, 05 oznacza, że należy odrzucić hi-
potezę H0 , natomiast większa niż 0, 05 oznacza, że nie mamy podstaw do
odrzucenia hipotezy H0 . Nieodrzucenie hipotezy H0 jest równoważne z bra-
kiem zależności liniowej pomiędzy zmienną zależną a zmienną niezależną.
Badanie istotności współczynnika b0 jest mniej ważne i wiąże się z testo-
waniem hipotezy
Hipoteza zerowa: b0 = 0
przeciwko
Hipoteza alternatywna: b0 6= 0.
Nieodrzucenie hipotezy H0 jest równoważne z tym, że należy nie uwzględniać
stałej w równaniu regresji.
Dostęp w IBM SPSS Statistics: Dla wyznaczenia prostej regresji za po-
mocą programu SPSS wybieramy jedną z poniższych możliwości:

• Analiza –> Regresja –> Estymacja krzywej... Podajemy zmien-


ną zależną i niezależną oraz zaznaczamy model Liniowy (zaznaczone
domyślnie). Wybieramy opcję Uwzględnij stałą w równaniu, jeśli
chcemy dopasować do danych prostą y = b1 x + b0 ; jeśli tego nie zrobi-
my, to do danych będzie dopasowana prosta postaci y = b1 x. W wyniku
otrzymamy tabelę (Podsumowanie modelu i oszacowań parame-
trów...) ze współczynnikiem determinacji R2 , współczynnikami b1 i b0
oraz istotnością modelu. Otrzymamy też wykres rozrzutu wraz z do-
pasowaną prostą, jeśli zaznaczymy opcję Graficzna prezentacja
modeli (zaznaczone domyślnie). Zauważmy, że ten sposób pozwala na
dobranie nie tylko modelu liniowego, ale również np. kwadratowego czy
logarytmicznego.

• Analiza –> Regresja –> Liniowa... Podajemy zmienną zależną


i niezależną, w opcjach możemy uwzględnić bądź nie stałą w równaniu.
Oprócz współczynnika determinacji R2 , współczynników b1 i b0 oraz
istotności modelu otrzymamy w tabeli też istotność współczynnika b0
oraz błąd standardowy oszacowania (estymatora). Nie uzyskamy jednak
wykresu, ale możemy wybrać Wykresy –> Kreator wykresów...
i stworzyć prosty wykres rozrzutu. Po aktywowaniu edytora wykresów
można kliknąć ikonkę przycisku Dodaje linię dopasowania i nary-
sować prostą regresji.

148
Rozwiązanie ćwiczenia 1.
Sposób I: Wybieramy Analiza –> Regresja –> Estymacja krzy-
wej... Podajemy Egzamin jako zmienną zależną, a Kolokwium jako nieza-
leżną.

149
Z tabeli odczytujemy równanie regresji postaci:
Egzamin= 1, 760·Kolokwium+5, 200.
Współczynnik R2 wynosi 0, 948, co świadczy o bardzo wysokim stopniu dopa-
sowania modelu. Model jest istotny statystycznie, gdyż jego istotność wynosi
0, 000, co pozwala na odrzucenie hipotezy, że b1 = 0.
Sposób II: Wybieramy Analiza –> Regresja –> Liniowa... Z otrzyma-
nej tabeli możemy dodatkowo wywnioskować, że oba współczynniki równa-
nia regresji są istotne statystycznie, a błąd standardowy oszacowania wynosi
2,018.

Ćwiczenie 8.2. Do danych z pliku stud.sav dodaj jedną obserwację o war-


tościach 10 (wynik kolokwium) i 50 (wynik egzaminu). Wykonaj analizę re-
gresji i sprawdź, jak zmieniło się równanie prostej regresji oraz dopasowanie
modelu.

150
Rozwiązanie. Dodajemy obserwację do pliku i wybieramy Analiza –>
Regresja –> Estymacja krzywej... Podajemy Egzamin jako zmienną
zależną, a Kolokwium jako niezależną. Otrzymujemy tabelę i wykres.

Równanie prostej ma teraz postać

Egzamin= 1, 464·Kolokwium+10, 905,

a dopasowanie modelu pogorszyło się i wynosi R2 = 0, 555. 


Dodana przez nas obserwacja jest tzw. punktem oddalonym (odsta-
jącym, nietypowym, ang. outlier ), czyli obserwacją, która ma bardzo dużą
bezwzględną wartość standaryzowanej reszty (w praktyce przekraczającą 2).
Dostęp w IBM SPSS Statistics: Analiza –> Regresja –> Linio-
wa... Klikamy Zapisz i wybieramy w polu Reszty opcję Standaryzowa-
ne.

151
Oprócz punktów oddalonych możemy spotkać również punkty wysokiej
dźwigni (ang. high leverage point). To obserwacje przyjmujące bardzo duże
lub bardzo małe wartości w przestrzeni zmiennych objaśniających.

Po dodaniu do danych z ćw. 1 punktu (50, 50) otrzymujemy punkt wy-


sokiej dźwigni. Zmniejsza on dopasowanie modelu do R2 = 0, 682. Może się
jednak zdarzyć, że punkty wysokiej dźwigni sztucznie zawyżają dopasowanie
modelu.
W celu wykrycia i ewentualnego wykluczenia z analizy punktów odda-
lonych i punktów wysokiej dźwigni, które mogą niekorzystnie wpłynąć na
konstrukcję modelu, należy zrobić wykresy skrzynkowe analizowanych zmien-
nych. Na tych wykresach kółkiem i gwiazdką zaznaczone są obserwacje od-
stające, odpowiednio nietypowe i skrajne. Analizę regresji należy powtórzyć,
usuwając obserwacje odstające.
Ćwiczenie 8.3. Wykonaj wykresy skrzynkowe dla zmiennych zawartych
w pliku stud.sav z dodaną obserwacją (10, 50). Czy wykresy wychwyciły tę
nietypową obserwację? Wyznacz reszty standaryzowane i sprawdź wartość
takiej reszty dla dodanej obserwacji.
Rozwiązanie. Wybieramy z menu Wykresy –> Wykresy tradycyjne
–> Skrzynkowy... Zaznaczamy Prosty oraz opcję Podsumowania od-

152
dzielnych zmiennych. Zmienne Kolokwium i Egzamin umieszczamy w po-
lu Skrzynki przedstawiają. Na tych wykresach obserwacji odstających
nie widzimy.

Wybieramy Analiza –> Regresja –> Liniowa... I dla zmiennej


zależnej Egzamin oraz niezależnej Kolokwium klikamy Zapisz i zaznacza-
my w polu Reszty opcję Standaryzowane. W pliku danych pojawia się
zmienna ZRE 1, która dla dodanej przez nas obserwacji ma wartość prze-
kraczającą 3, a dla pozostałych obserwacji przyjmuje wartości z przedziału
(−1, 1).
Wniosek z tego ćwiczenia jest taki, że nie zawsze wykresy skrzynkowe są
w stanie wykryć obserwacje odstające. 

Ćwiczenie 8.4. Wykonaj analizę regresji liniowej dla par zmiennych x i y


z pliku anscombe.sav. Porównaj wyniki otrzymane w tabelach, a następnie
wykonaj wykresy rozrzutu i zaznacz proste regresji. Czy we wszystkich przy-
padkach prosta regresji dobrze oddaje zależność między zmiennymi?

Podane dane zostały dobrane przez angielskiego statystyka J. F. Anscom-


be’a. Mają one na celu zwrócenie uwagi na fakt, że współczynnik determinacji
R2 nie zawsze jest wystarczający do oceny dobroci dopasowania modelu do

153
danych. Jako uzupełnienie wyników należy stworzyć wykres rozrzutu z do-
pasowaną prostej regresji.
Rozwiązanie. Wykonujemy czterokrotnie analizę regresji na przykład za
pomocą poleceń: Analiza –> Regresja –> Estymacja krzywej.... Za
każdym razem podajemy zmienną yi jako zależną i xi jako niezależną oraz
zaznaczamy model Liniowy.

154
155
Zwróćmy uwagę, że we wszystkich czterech przypadkach wartość współ-
czynnika R2 jest taka sama (0, 666 bądź 0, 667 – jest to kwestia zaokrąglenia).
Ale rzut oka na wykresy zupełnie zmienia nasze zdanie na temat jakości dopa-
sowania modelu do danych empirycznych. O ile wykres pierwszy, w zasadzie,
odpowiada naszym oczekiwaniom, to wykres drugi wyraźnie pokazuje, że tu-
taj należy dopasować model kwadratowy, a nie liniowy. Na wykresie trzecim
mamy do czynienia z punktem oddalonym, natomiast na czwartym z punk-
tem wysokiej dźwigni, który sztucznie wprowadza prostą regresji, po jego
usunięciu zmienna x będzie miała stałą wartość, nie da się zbudować modelu
liniowego. 
Uwagi:
• Założenia potrzebne do budowy modelu: zależność zmiennej Y od X
powinna być w przybliżeniu liniowa, a błędy, czyli różnice pomiędzy rze-
czywistymi a przewidywanymi wartościami zmiennej Y , powinny być
niezależne i mieć rozkład normalny o stałej wariancji.

156
• Podstawowymi sposobami weryfikacji tych założeń jest wyznaczenie
reszt oraz przetestowanie ich normalności oraz wykonanie wykresu reszt
standaryzowanych względem wartości przewidywanych. Wykres taki
nie powinien układać się w kształcie lejka (naruszenie założenia o stałej
wariancji) oraz krzywizny (naruszenie założenia o niezależności) [8, str.
70-71].

Ćwiczenie 8.5. Dla danych z pliku stud.sav zweryfikuj, czy są spełnione


założenia analizy regresji.

Rozwiązanie. Wybieramy Analiza –> Regresja –> Liniowa... Przy


zmiennej zależnej Egzamin i niezależnej Kolokwium klikamy Zapisz i za-
pisujemy Wartości przewidywane niestandaryzowane oraz Reszty
Niestandaryzowane i Standaryzowane. Klikamy Dalej i OK.
W pliku danych pojawiają się zmienne PRE 1 – przewidywana wartość
zmiennej Y, RES 1 – wartość reszty, ZRE 1 – standaryzowana wartość reszty.
Sprawdzamy normalność reszt wykonując test Shapiro-Wilka: Analiza
–> Opis statystyczny –> Eksploracja. Zmienną zależną jest zmienna
RES 1. Klikamy Wykres i zaznaczamy Wykresy normalności z te-
stami. Istotność testu Shapiro-Wilka wynosi 0,630, co nie daje podstaw do
odrzucenia hipotezy o normalności rozkładu reszt.

157
Wybieramy teraz Wykresy –> Kreator wykresów... Na prostym
wykresie rozrzutu przedstawiamy zależność reszt standaryzowanych od prze-
widywanych wartości zmiennej Y .

Brak wyraźnego wzorca układu punktów na tym wykresie sugeruje speł-


nienie założeń o niezależności reszt i równości wariancji. 
Ćwiczenie 8.6. Dla zmiennych x2 i y2 z pliku anscombe.sav dobierz model
lepszy niż liniowy.
Rozwiązanie. Wykonując ćwiczenie 8.4 zasugerowaliśmy, że model kwa-
dratowy jest chyba bardziej właściwy dla opisu zależności zmiennej y2 od
x2 . Sprawdźmy to. Wybieramy Analiza –> Regresja –> Estymacja
krzywej... Podajemy zmienną y2 jako zależną oraz x2 jako niezależną. Ja-
ko model zaznaczamy oprócz liniowego (dla porównania) jeszcze kwadratowy
i sześcienny.

158
Dla każdego z modeli możemy odczytać z tabeli równanie regresji. Zwra-
cając uwagę na współczynniki determinacji dla trzech modeli widzimy, że dla
modeli kwadratowego i sześciennego współczynniki determinacji są idealne,
czyli wynoszą 1, 000; oznacza to, że wszystkie obserwacje leżą dokładnie na
otrzymanych krzywych. Ze względu na to, że model kwadratowy jest prost-
szy niż sześcienny oraz na to, że dla modelu sześciennego współczynnik przy
najwyższej potędze zmiennej niezależnej wynosi prawie 0, należy jako wynik

159
wybrać tutaj model kwadratowy. Równanie regresji ma postać:

y2 = −0, 127x22 + 2, 781x2 − 5, 996.

Ćwiczenie 8.7. W pliku statki.sav podane są wysokości połowów (w tys.


ton) polskiego rybołówstwa dalekomorskiego w latach 1990-1999 oraz odpo-
wiednia liczba statków. Sporządź jak najlepszy model zależności wysokości
połowów od liczby statków.

Rozwiązanie. Wybieramy Analiza –> Regresja –> Estymacja krzy-


wej... Podajemy zmienną połowy jako zależną oraz statki jako niezależną.
Jako model zaznaczamy wszystkie możliwe modele.

W tabeli zwracamy przede wszystkim uwagę na współczynniki determi-


nacji dla wszystkich modeli. Największy współczynnik determinacji R2 mają
modele kwadratowy i sześcienny (R2 = 0, 835), więc wybieramy model kwa-
dratowy jako właściwy. Jego równanie ma postać

połowy= −0, 251·statki 2 + 30, 708·statki−581, 494.

Z wykresu widzimy, że model kwadratowy w miarę dobrze odzwierciedla


zależność.

160


8.2. Analiza regresji liniowej wielu zmiennych


Załóżmy teraz, że mamy jedną zmienną zależną Y i kilka zmiennych nie-
zależnych X (1) , . . . , X (k) . W takiej sytuacji szukamy odpowiedniego modelu
(1) (k)
zależności na podstawie obserwacji (xi , . . . , xi , yi ), i = 1, . . . , n, więc two-
rzenie wykresów rozrzutu traci sens.
Ograniczymy się tylko do przypadku, gdy funkcja regresji ma postać
h(x, b) = b0 +b1 x(1) +. . .+bk x(k) (jest to funkcja regresji wielokrotnej lub wie-
lorakiej, ang. multiple regression). Przy tworzeniu modelu będziemy zwracać
uwagę na istotność współczynników {bi } przy każdej zmiennej i nie włączać
do równania tych zmiennych, dla których istotność współczynników przekra-
cza 0, 05 (standardowo).
Uwagi:
• Współczynnik determinacji wielokrotnej R2 przy dodawaniu kolejnych
zmiennych do modelu zawsze rośnie. Jeśli nowa zmienna jest przydatna,
ten wzrost może być istotny. Standardowy błąd oszacowania maleje,
jeśli nowa zmienna jest przydatna, a rośnie, jeśli nie jest. Może być
więc lepszym wskaźnikiem niż R2 .

161
• Skorygowany współczynnik determinacji (ang. adjusted R2 )

n−1
R̄2 = 1 − (1 − R2 ) .
n−m−1

Wartość R̄2 dużo mniejsza od R2 sugeruje, że przynajmniej jedna zmien-


na w modelu może być nieistotna.

Dostęp w IBM SPSS Statistics: Analiza –> Regresja –> Linio-


wa... Podajemy zmienną zależną i zmienne niezależne, w opcjach możemy
uwzględnić bądź nie stałą w równaniu. Otrzymujemy: współczynnik determi-
nacji R2 i skorygowany R̄2 , standardowy błąd oszacowania (tabela Model –
Podsumowanie), istotność modelu (tabela ANOVA), współczynniki {bi }
oraz ich istotności (tabela Współczynniki).

Ćwiczenie 8.8. Na podstawie danych z pliku samochody.sav znajdź rów-


nanie regresji liniowej wielokrotnej dla zmiennej gas 100 – zużycie paliwa,
używając wszystkich pozostałych zmiennych jako niezależnych: capacity –
pojemność skokowa, power – moc silnika, mass – masa samochodu, acceler
– przyspieszenie, prodyear – rocznik, region – miejsce produkcji, cylindr –
liczba cylindrów.

Rozwiązanie. WybieramyAnaliza –> Regresja –> Liniowa... Poda-


jemy gas 100 jako zmienną zależną, a pozostałe zmienne jako niezależne.

162
Z tabeli odczytujemy równanie regresji:

gas 100 = 22, 152 − 0, 000·capacity+0, 024·power+0, 006·mass+0, 048·acceler


−0, 294·prodyear−0, 209·region+0, 305·cylindr.

Współczynnik R2 wynosi 0, 886, co świadczy o dość dobrym dopasowaniu


modelu.
Zwróćmy jednak uwagę, że pewne współczynniki w modelu są nieistotne.
Mianowicie nieistotnymi są współczynniki odpowiadające zmiennym capaci-
ty, acceler, region. Nie ma zatem sensu uwzględnianie tych zmiennych w mo-
delu. Powtórzmy więc analizę jeszcze raz, nie włączając zmiennych capacity,
acceler, region do modelu.

163
Uzyskujemy równanie:
gas 100 =
22, 952 + 0, 016·power+0, 006·mass−0, 295·prodyear+0, 205·cylindr;
odpowiedni współczynnik R2 wynosi 0, 885, wszystkie współczynniki są istot-
ne. Jak widzimy, jakość dopasowania modelu do danych, wyrażająca się
współczynnikiem R2 , prawie się nie zmieniła, choć nie zawsze tak jest. 
Po wybraniu Analiza –> Regresja –> Liniowa... mamy w okien-
ku, które się pojawia, możliwość zmiany metody. Wybór metody pozwala
na określenie, w jaki sposób zmienne niezależne będą wprowadzane do rów-
nania. Korzystając z różnych metod, dla jednego zbioru zmiennych można
skonstruować kilka modeli regresji.
Niżej podajemy krótki opis poszczególnych metod.
• Wprowadzanie (domyślna). Jest to procedura doboru zmiennych,
przy której wszystkie podane zmienne niezależne są wprowadzane do
równania.
• Krokowa. Startując od modelu bez zmiennych niezależnych, w każdym
kroku do modelu dołączana jest zmienna niezależna, niebędąca jeszcze
w równaniu, o najmniejszym prawdopodobieństwie odpowiadającym
F , o ile to prawdopodobieństwo jest dostatecznie małe (domyślnie nie
większe niż 0, 05). Zmienne uwzględnione już w równaniu regresji zo-
stają z niego usunięte, jeśli związane z nimi prawdopodobieństwo F
staje się dostatecznie duże (domyślnie nie mniejsze niż 0, 10). Wymie-
nione wartości progowe 0, 05 i 0, 10 mogą być zmienione w opcjach.
Procedura kończy się, kiedy nie da się wykluczyć ani dołączyć żadnej
zmiennej. Metoda krokowa jest kombinacją metod selekcji postępującej
i eliminacji wstecznej.

164
• Usuwanie. Jest to procedura doboru zmiennych, przy której wszyst-
kie podane zmienne niezależne są najpierw wprowadzone do równania,
a potem usunięte z niego. Ta metoda jest, w zasadzie, odwrotna do
metody wprowadzania. Zazwyczaj nie stosuje się jej na samym począt-
ku poszukiwania równania, a tylko wtedy, gdy pewne zmienne chcemy
usunąć z równania. Formalnie, jeśli zastosujemy tę metodę na samym
początku, to dostajemy tę samą informację o równaniu, co w metodzie
wprowadzania.
• Eliminacja wsteczna. Jest to procedura doboru zmiennych, przy któ-
rej startujemy od modelu, w którym znajdują się wszystkie zmienne
niezależne. W każdym kroku z modelu jest usuwana zmienna niezależ-
na o największym prawdopodobieństwie odpowiadającym F , o ile to
prawdopodobieństwo jest wystarczająco duże (domyślnie nie mniejsze
niż 0, 10). Procedura kończy działanie, gdy w równaniu nie występują
już zmienne spełniające kryteria usunięcia.
• Selekcja postępująca. Jest to procedura doboru zmiennych, odwrot-
na do eliminacji wstecznej. Startując od modelu bez zmiennych nieza-
leżnych, w każdym kroku do modelu dołączana jest zmienna niezależna,
niebędąca jeszcze w równaniu, o najmniejszym prawdopodobieństwie
odpowiadającym F , o ile to prawdopodobieństwo jest dostatecznie ma-
łe (domyślnie nie większe niż 0, 05). Procedura kończy się, kiedy nie da
się dołączyć do równania żadnej zmiennej niezależnej.
Ćwiczenie 8.9. Dla danych z pliku samochody.sav użyj wszystkich metod
analizy regresji i porównaj wyniki.
Rozwiązanie. Jak już wspomnieliśmy wcześniej, metoda usunięcia nie pro-
wadzi do innych wyników niż metoda wprowadzania. Zastosujmy metodę
krokową.

165
Po czterech krokach uzyskujemy następujące równanie regresji:

gas 100 =
22, 952 + 0, 016·power+0, 006·mass−0, 295·prodyear+0, 205·cylindr.

Współczynniki przy zmiennych w modelu są istotne, współczynnik R2


wynosi 0, 885. Zauważmy, że uzyskane równanie jest takie samo jak w drugim
przypadku stosowania metody wprowadzania.
Możemy też zdecydować się na wybór jakiegoś pośredniego modelu z kro-
ków 1-3, sugerując się wystarczająco wysoką wartością R2 i faktem, że model
będzie prostszy, tzn. z mniejszą liczbą zmiennych niezależnych. I tak może-
my ograniczyć się tylko do kroku 1., w którym uzyskany model określa się
równaniem

gas 100 = −0, 781 + 0, 009·mass,

dla którego R2 = 0, 785, bądź krokiem 2., w którym uzyskany model określa
się równaniem:

gas 100 = 25, 565 + 0, 008·mass−0, 330·prodyear,

dla którego R2 = 0, 875.

166
Ponieważ na każdym kroku z modelu nie była wykluczona żadna zmienna
niezależna, selekcja postępująca będzie dawać dokładnie takie same wyniki,
jak metoda krokowa.
Można sprawdzić, że stosując metodę eliminacji wstecznej, po czterech
krokach uzyskamy takie samo równanie regresji jak w metodzie krokowej. 
Ćwiczenie 8.10. Na podstawie danych z pliku Swiat95.sav znajdź najlepsze,
twoim zdaniem, równanie regresji liniowej wielokrotnej dla zmiennej zależnej
death rt – wskaźnik zgonów na 1000 mieszkańców oraz zmiennych niezależ-
nych: density – liczba mieszkańców na km kwadratowy, lifeexpm – średnia
długość życia mężczyzn, lifeexpf – średnia długość życia kobiet, babymort –
liczba zgonów na 1000 żywych urodzeń, log gdp – logarytm z wielkości pro-
duktu krajowego brutto, fertility – płodność (średnia liczba dzieci), calories
– dzienne spożycie kalorii.
Rozwiązanie. Wybieramy Analiza –> Regresja –> Liniowa...

167
Decydując się najpierw na domyślną metodę wprowadzania, z tabeli od-
czytujemy równanie regresji:
death rt=
50, 778 − 0, 0005·density−0, 467·lifeexpf−0, 312·lifeexpm−0, 039·babymort
+0, 002·calories+3, 318·log gdp−0, 738·fertility.
Współczynnik R2 wynosi 0, 775, co świadczy o niezłym dopasowaniu modelu
do danych. Współczynniki odpowiadające zmiennym density, lifeexpm, ba-
bymort, calories są nieistotne. Usuwając je z analizy, otrzymujemy jednak
równanie:
death rt= 48, 986 − 0, 684·lifeexpf+3, 946· log gdp−1, 410·fertility
o mniejszym współczynniku R2 = 0, 701.

Wybierając metodę krokową, po czterech krokach uzyskujemy następują-


ce równanie regresji:
death rt= 38, 841 − 0, 656·lifeexpm+0, 002·calories
+2, 785·log gdp−0, 562·fertility,
ze współczynnikiem R2 = 0, 870. Zwróćmy uwagę, że uzyskane równanie tym
razem różni się od tego, które otrzymaliśmy za pomocą metody wprowadza-
nia.

168
Odnotujmy zwłaszcza, że zamiast zmiennej lifeexpf teraz w równaniu
obecna jest zmienna lifeexpm. Wyjaśnić taką różnicę należy spostrzeżeniem,
że obie te zmienne są mocno skorelowane ze sobą (współczynnik korelacji Pe-

169
arsona wynosi 0, 982), i stosując różne metody, program wybrał do modelu
raz jedną zmienną, a raz drugą.
Zanotujmy jeszcze, że całkiem nieźle w stosunku do innych wygląda mo-
del z kroku 2., ze względu na niewiele mniejszy współczynnik R2 = 0, 845.
Odpowiednie równanie ma postać:

death rt= 31, 195 − 0, 557·lifeexpm+4, 263·log gdp.

Stosowanie innych metod nie prowadzi do nowych wyników. 

Zmienne niezależne można wprowadzać bądź wykluczać z równania blo-


kami.

Ćwiczenie 8.11. W pliku oceny1.sav znajdują się oceny grupy studentów z


3 sprawdzianów, 2 kolokwiów, aktywności oraz ocena końcowa. Ustal związek
pomiędzy ocenami cząstkowymi a oceną końcową, grupując oceny cząstkowe
w bloki: sprawdziany, kolokwia, aktywność. Użyj wszystkich metod analizy
regresji i porównaj wyniki.

Rozwiązanie. Wybieramy Analiza –> Regresja –> Liniowa... Poda-


jemy zmienną ocena jako zależną, zmienne spr1, spr2, spr3 jako niezależne
(jest to blok sprawdzianów) i naciskamy przycisk Następna. Dalej wpro-
wadzamy kol1, kol2 (jest to blok kolokwiów) i znowu naciskamy Następna.
Wreszcie wprowadzamy zmienną akt (jest to blok aktywności) i zatwierdzamy
przyciskiem OK, zostawiając metodę wprowadzania jako domyślną.

170
Metoda wprowadzania w tym przypadku działa tak jak selekcja postępu-
jąca, czyli pokazuje kroki kolejnego wprowadzania poszczególnych bloków do
równania (różnica z selekcją postępującą będzie tylko taka, że wszystkie bloki
są wprowadzone po kolei do równania, a nie tylko te, dla których odpowiednie
prawdopodobieństwo F będzie nie większe niż 0, 05).
W pierwszym kroku jest wprowadzony blok sprawdzianów (R2 = 0, 680),
w drugim – kolokwiów (R2 = 0, 865), w trzecim – aktywności (R2 = 1, 000).
Na przykład możemy pozostać przy modelu ze sprawdzianami i kolokwiami,
którego równanie ma postać:

ocena= 0, 480 + 0, 082·spr1+0, 137·spr2+0, 140·spr3+0, 169·kol1


+0, 315·kol2,

lub wybrać model idealny:

ocena= 0, 313 + 0, 063·spr1+0, 063·spr2+0, 063·spr3+0, 250·kol1


+0, 250·kol2+0, 250·akt.

Analogiczne wyniki dają wszystkie inne metody. 

171
8.3. Regresja logistyczna
Regresja logistyczna jest szczególnie przydatna wtedy, gdy zmienna zależna
jest zmienną jakościową, przyjmującą tylko dwie wartości: 1 i 0 (przykład: 1 –
wydarzenie nastąpi, 0 – wydarzenie nie nastąpi). W takiej sytuacji stosowanie
regresji liniowej jest nieprzydatne i może nawet być pozbawione interpreta-
cyjnego sensu.
Rozważmy następujący przykład, zaczerpnięty z [8] (plik pacjent.sav do-
stępny na Moodle).
Rozpatrzmy dane dotyczące badania zależności występowania (1) lub
niewystępowania (0) pewnej choroby (zmienna zależna) od wieku pacjenta
(zmienna niezależna):
Numer pac. 1 2 3 4 5 6 7 8 9 10 11 12 13
Wiek 25 29 30 31 32 41 41 42 44 49 50 59 60
Choroba 0 0 0 0 0 0 0 0 1 1 0 1 0
Numer pac. 14 15 16 17 18 19 20
Wiek 62 68 72 79 80 81 84
Choroba 0 1 0 1 0 1 1

Linie regresji logistycznej (ciągła) oraz liniowej (przerywana)

Na rysunku przedstawiono wykres rozrzutu wraz z najlepszym mode-


lem liniowym postaci: Choroba= −0, 334 + 0, 013·Wiek, (R2 = 0.265), oraz

172
najlepszą krzywą dla modelu logistycznego. Jak widać, krzywa trochę lepiej
obrazuje zależność występowania lub niewystępowania choroby od wieku. Co
więcej, stosowanie regresji liniowej może doprowadzić do zupełnie bezsensow-
nych wyników (np. dla pierwszego pacjenta, mającego 25 lat, przewidywana
wartość zmiennej Choroba wynosi −0, 009 < 0).
Co to jest za krzywa? Funkcja regresji logistycznej na rysunku ma postać:
eb0 +b1 x 1
h(x, b) = = , (8.1)
1+e b 0 +b 1 x 1 + e 0 −b1 x
−b

gdzie b0 = −4, 372, b1 = 0, 067.


Przypomnijmy, że wartość funkcji regresji interpretujemy jako średnią
wartość zmiennej zależnej Y. Jeśli zmienna zależna przyjmuje tylko warto-
ści 1 i 0, to średnia wartość zmiennej Y jest równa prawdopodobieństwu
tego, że Y = 1. Jak łatwo zrozumieć, dla funkcji ze wzoru (1) zachodzi
0 < h(x, b) < 1, a więc wartość funkcji regresji rzeczywiście można inter-
pretować jako prawdopodobieństwo, a dokładniej, jako prawdopodobieństwo
występowania choroby, gdy wartość zmiennej niezależnej wynosi x.
Historia stosowania modelu logistycznego jest dość bogata i sięga końca
XIX wieku. Regresja logistyczna oparta jest na funkcji logistycznej postaci
g(z) = (1 + ez )−1 ez = (1 + e−z )−1 ,
której wykres jest podobny do krzywej przedstawionej na rysunku. Ważną
cechą tej funkcji, wyjaśniającą taką jej popularność, oprócz przyjmowania
wartości w przedziale (0, 1), jest jej kształt w postaci rozciągniętej litery S :
najpierw wartości tej funkcji znajdują się blisko zera i zmiany ich są mini-
malne; w pewnym momencie następuje gwałtowny wzrost wartości funkcji
prawie do jedynki; później wartości funkcji są bliskie jedynki i zmiany ich
znowu są minimalne. Te własności bardzo dobrze odpowiadają powyższej in-
terpretacji funkcji regresji logistycznej jako prawdopodobieństwa w sytuacji,
gdy zmienna zależna przyjmuje tylko wartości 0 lub 1.
Dla znalezienia właściwych wartości {bi } na podstawie obserwacji (xi , yi ),
i = 1, . . . , n, stosuje się tzw. metodę największej wiarogodności. Polega
ona na tym, że bierze się funkcję postaci (nazywaną funkcją wiarogodno-
ści):
n n
[h(xi , b)]yi [1 − h(xi , b)]1−yi ,
Y Y
L(y, b) = P (Y = yi | X = xi ) =
i=1 i=1

i logarytmuje się ją:


n
X n
X
ln L(y, b) = yi ln(h(xi , b)) + (1 − yi ) ln(1 − h(xi , b)).
i=1 i=1

173
Dalej szuka się takich wartości {bi }, które maksymalizują funkcję ln L(y, b).
Jak już wspominaliśmy wyżej, dla znalezionych w taki sposób współ-
czynników {bi } wartość h(x, b) możemy traktować jako oszacowanie śred-
niej wartości zmiennej zależnej, gdy X = x, czyli jako oszacowanie dla
P (Y = 1 | X = x), natomiast wartość 1 − h(x, b) jako oszacowanie dla
P (Y = 0 | X = x).
Często posługujemy się też pojęciem szansy. Szansę definiujemy jako
iloraz prawdopodobieństwa, że wydarzenie nastąpi (Y = 1), przez prawdo-
podobieństwo, że wydarzenie nie nastąpi (Y = 0). Szansa określa, w jakim
stopniu jest bardziej prawdopodobne, że wydarzenie nastąpi, w porównaniu
z tym, że ono nie nastąpi. Jeśli wartość szansy jest większa od 1, to jest
bardziej prawdopodobne, że wydarzenie nastąpi, a jeśli jest mniejsza niż 1,
to jest na odwrót.
Dobroć dopasowania modelu do danych określa się za pomocą współczyn-
ników analogicznych do współczynnika R2 w regresji liniowej. Są to współ-
czynniki R2 Coxa i Snella oraz R2 Nagelkerkego. Wartości tych współczynni-
ków interpretujemy podobnie: wyższe wartości oznaczają lepsze dopasowanie
do modelu. Współczynnik Coxa i Snella wyznacza się ze wzoru
2/n
L0

2
RCS =1− ,
L1

gdzie L0 jest wartością funkcji wiarogodności w modelu bez zmiennych nie-


zależnych, natomiast L1 jest wartością funkcji wiarogodności w modelu ze
2
zmiennymi niezależnymi. Niestety, współczynnik RCS , przyjmujący wartości
nieujemne, zazwyczaj jest znacznie poniżej 1. Jego maksymalna wartość to
2/n
1 − L0 . Współczynnik R2 Nagelkerkego już tej wady nie posiada, ponieważ
określa się wzorem:
 2/n
L0
2
1− L1
RN = 2/n
1 − L0
i przyjmuje wartości w przedziale [0, 1].
Oprócz współczynników R2 , podobnie jak w przypadku regresji liniowej,
zwracamy uwagę na istotność współczynników przy poszczególnych zmien-
nych niezależnych (interpretujemy istotność tak samo, jak wcześniej). Dodat-
kowo dostajemy też Tabelę klasyfikacji, która informuje, na ile są zgodne
wartości zmiennej zależnej, które posiadamy, a zaokrąglone (do 1, bądź 0)
oszacowane wartości funkcji regresji (które, jak pamiętamy, traktujemy jako
prawdopodobieństwa, że Y = 1 przy ustalonej wartości zmiennej niezależ-
nej). Im bliżej do 100% zgodności danych obserwowanych i przewidywanych,
tym jest lepiej.

174
Dostęp w IBM SPSS Statistics: Analiza –> Regresja –> Logi-
styczna... Podajemy zmienną zależną i zmienne niezależne (do okienka
Współzmienne). Zakładka Jakościowe służy do określenia, które zmienne
niezależne są jakościowymi. Zakładka Zapisz służy do zapisywania w pliku
danych, jako zmienne, pewnych ważnych statystyk, choćby takich jak war-
tości przewidywane (są to szacowane wartości funkcji regresji dla poszcze-
gólnych wartości zmiennych niezależnych), czy też przynależność do grupy
(z Y = 1 bądź z Y = 0). Wreszcie zakładka Opcje pozwala uzyskać więcej
wyników oraz np. uwzględnić bądź nie stałą w równaniu.
W Opcjach można też zaznaczyć Dobroć dopasowania Hosmera
i Lemeshowa. Jest to jeszcze jedna możliwość sprawdzania jakości dopaso-
wania modelu do danych. Testuje się przy tym hipoteza
Hipoteza zerowa: Wartości obserwowane i przewidywane dobrze pasują do
siebie.
przeciwko hipotezie
Hipoteza alternatywna: wartości obserwowane i przewidywane źle pasują
do siebie.
Wynikiem zasługującym na uwagę (tabela Test Hosmera i Lemesho-
wa) jest istotność testu (ostatnia kolumna); istotność wyższa od 0, 05 mówi
o nieodrzuceniu hipotezy H0 .
Przy zaznaczonej domyślnie metodzie Wprowadź, otrzymujemy naj-
pierw wyniki dla modelu bez zmiennych niezależnych (Blok 0), a następnie
wyniki dla modelu ze zmiennymi niezależnymi (Blok 1). W każdym bloku
(oczywiście, dla nas ważny jest Blok 1) dostajemy: wartości współczynników
przy zmiennych niezależnych (ostatni wiersz w tabeli Przebieg iteracji),
istotność modelu (tabela Test zbiorowy współczynników modelu),
wartości wspomnianych współczynników R2 (tabela Model – podsumo-
wanie), Tabelę klasyfikacji oraz jeszcze raz wartości współczynników
przy zmiennych niezależnych wraz z ich istotnością (tabela Zmienne w mo-
delu).
Ćwiczenie 8.12. Dla danych z pliku pacjent.sav oszacuj dobroć dopasowa-
nia regresji logistycznej do danych na podstawie wartości współczynników
R2 , testu Hosmera i Lemeshowa oraz tabeli klasyfikacji. Oszacuj prawdopo-
dobieństwo tego, że pacjent w wieku 50 lat jest chory, oraz prawdopodobień-
stwo tego, że pacjent w wieku 72 lat jest chory. Oszacuj szansę wystąpienia
choroby dla pacjentów w tym wieku.
Rozwiązanie. Wybieramy Analiza –> Regresja –> Logistyczna...
Podajemy jako zmienną zależną Choroba oraz jako zmienną niezależną Wiek.
W Opcjach zaznaczamy Dobroć dopasowania Hosmera i Lemesho-
wa.

175
Otrzymujemy równanie regresji postaci

exp{−4, 372 + 0, 067 · Wiek}


Choroba = ;
1 + exp{−4, 372 + 0, 067 · Wiek}

współczynniki przy zmiennych niezależnych są istotne. Model też jest istotny


statystycznie (istotność wynosi 0, 017). Współczynniki R2 wynoszą:
2 2
RCS = 0, 248, RN = 0, 341. Wyniki testu Hosmera i Lemeshowa są dość
optymistyczne: istotność wynosi 0, 861 > 0, 05 zatem stwierdzamy, iż war-
tości obserwowane i przewidywane dość dobrze pasują do siebie. Z tabeli
klasyfikacji dowiadujemy się, że na podstawie stworzonego modelu prawidło-
wo zostało sklasyfikowanych łącznie 75% pacjentów: 84, 6% wśród pacjentów
bez choroby oraz 57, 1% pacjentów chorych.

176
Prawdopodobieństwa oraz szanse występowania choroby dla pacjentów
możemy otrzymać na 2 sposoby. Dla pacjentów występujących w pliku da-
nych możemy zaznaczyć przy uzyskiwaniu analizy: Zapisz –> Prawdopo-
dobieństwa. Jako wynik w pliku danych powstanie zmienna PRE 1 z war-
tościami oszacowanych prawdopodobieństw. I tak dla pacjenta w wieku 50
lat prawdopodobieństwo występowania choroby szacujemy na 0, 264, a w wie-
ku 72 lat na 0, 610. Teraz na podstawie wzoru szansa=PRE 1/(1−PRE 1)
możemy policzyć odpowiednie wartości szans. Wnioskujemy, iż szansę wystę-
powania choroby u pacjenta w wieku 50 lat szacujemy na 0, 359, natomiast
szansę występowania choroby u pacjenta w wieku 72 lat na 1, 566.
Szansy można też obliczyć inaczej; ten sposób jest przydatny zwłaszcza
dla pacjentów niewystępujących w pliku danych. Korzystamy z ostatniej ko-
lumny w tabeli Zmienne w modelu, oznaczonej jako exp(B), odczytując:
stała 0, 013, Wiek 1, 069. Dla pacjenta mającego x lat szansa występowania
choroby wynosi więc szansa= 0, 013 · 1, 069x . Wówczas odpowiednie prawdo-
podobieństwo występowania choroby wynosi: szansa/(1+szansa). 

Podobnie, jak w przypadku analizy regresji liniowej wielu zmiennych, jeśli


zmiennych niezależnych jest kilka, to można stosować różne metody ich wpro-
wadzania do modelu, mianowicie: Wprowadź, Do przodu: Warunkowe,
Do przodu: LR, Do przodu: Wald, Do tyłu: Warunkowe, Do tyłu:
LR, Do tyłu: Wald. Pierwsza metoda polega na wprowadzeniu do równa-
nia jednocześnie wszystkich podanych zmiennych niezależnych. Metody Do
przodu polegają na wprowadzeniu zmiennych do równania krok po kroku,
startując od modelu bez zmiennych niezależnych; metody Do tyłu polegają
na wprowadzaniu do równania wszystkich zmiennych niezależnych, a potem
eliminacji ich krok po kroku. Natomiast określenia Warunkowe, LR (ilo-
raz wiarogodności), Wald dotyczą specyfikacji kryteriów wprowadzania bądź
usuwania zmiennych niezależnych do/z modelu.

Ćwiczenie 8.13. Dla danych z pliku Ch6BData.sav znajdź równanie regresji


logistycznej dla zmiennej committed – hospitalizacja (1 – tak, 0 – nie), przy
użyciu pozostałych zmiennych jako niezależnych: educ – poziom wykształce-
nia (w latach), minority – przynależność do mniejszości (1 – tak, 0 – nie),
stress – poziom stresu.

Rozwiązanie. Wybieramy Analiza –> Regresja –> Logistyczna...


Podajemy jako zmienną zależną committed, wszystkie pozostałe zmienne po-
dajemy jako niezależne (okienko Współzmienne). W Opcjach zaznacza-
my Dobroć dopasowania Hosmera i Lemeshowa. Najpierw zostajemy
przy domyślnie zaznaczonej metodzie Wprowadź.

177
Skupiając się na wynikach umieszczonych w Bloku 1, otrzymujemy na-
stępujące równanie regresji:

exp{−3, 985 − 0, 187 · educ + 0, 915 · minority + 3, 626 · stress}


committed = .
1 + exp{−3, 985 − 0, 187 · educ + 0, 915 · minority + 3, 626 · stress}

Wszystkie współczynniki przy zmiennych niezależnych są istotne, jak również


istotny jest sam model. Współczynniki R2 wynoszą: RCS 2
= 0, 297, RN2
=
0, 397. Z tabeli klasyfikacji dowiadujemy się, że na podstawie stworzonego
modelu prawidłowo zostało sklasyfikowanych łącznie 78% osób: 90, 6% dla
wartości committed= 0 oraz 63, 0% dla wartości committed= 1.

178
Wyniki testu Hosmera i Lemeshowa wskazują jednak na to, że wartości
obserwowane i przewidywane źle pasują do siebie, bowiem istotność wynosi
0, 000 < 0, 05.
Stosując inne metody wprowadzania zmiennych niezależnych do mode-
lu, jako wynik końcowy we wszystkich przypadkach dostajemy takie samo
równanie. Jedynym zyskiem stosowania innych metod jest możliwość uzna-
nia przez nas jako model końcowy jakiegoś modelu otrzymanego w krokach
pośrednich z mniejszą liczbą zmiennych niezależnych w modelu. 

179
180
Rozdział 9.

Klasyfikacja i grupowanie

Autor: dr Bartosz Ziemkiewicz

9.1. Zadanie klasyfikacji


Zadanie klasyfikacji polega na kojarzeniu obiektów na podstawie ich charak-
terystycznych cech (zmiennych opisujących) z odpowiednią wartością pewnej
jakościowej zmiennej celu, którą nazywamy kategorią lub klasą. Problemy
tego typu pojawiają często w różnych dziedzinach życia:
• Bank na podstawie informacji z wniosku klienta decyduje, czy udziele-
nie kredytu jest obarczone dużym czy małym ryzykiem.
• Program pocztowy decyduje, czy e-mail ma być uznany za spam.
• Lekarz na podstawie objawów decyduje, czy pacjent cierpi na pewną
chorobę.
• Służby specjalne na podstawie pewnych zachowań decydują, czy dana
osoba stanowi zagrożenie dla bezpieczeństwa państwowego.
Algorytmy klasyfikacji należą do metod uczenia nadzorowanego (ang.
supervised learning methods). W tego typu metodach dana jest określona
zmienna celu oraz zbiór uczący (ang. training set), czyli zbiór przykłado-
wych danych z określoną wartością zmiennej celu. Na podstawie tego zbioru
algorytm „uczy się” jakim kombinacjom zmiennych opisujących odpowiadają
konkretne wartości zmiennej celu. W wyniku tego powstaje pewna funkcja
klasyfikująca (klasyfikator), która na podstawie danych wartości zmiennych
opisujących potrafi wyznaczyć wartość zmiennej celu. Dzięki tej funkcji mo-
żemy później przewidywać wartości zmiennej celu dla nowych obserwacji, dla
których nie jest ona znana.

181
Niezależnie od wybranej metody klasyfikacji kluczową sprawą jest odpo-
wiednio dobrany zbiór uczący. Powinien on być bogaty, różnorodny i powinien
zawierać reprezentatywną grupę typów rekordów, których klasyfikacja będzie
potrzebna w przyszłości. Zbyt ubogi zbiór może spowodować, że utworzony
model klasyfikacji będzie zbyt prosty, tzn. algorytm będzie niedouczony
i będzie miał problemy z poprawnym rozpoznawaniem nowych obserwacji.
Istnieje również niebezpieczeństwo przeuczenia (ang. overfitting). Jeżeli al-
gorytm utworzy skomplikowany model, który bardzo dokładnie klasyfikuje
elementy ze zbioru uczącego, to może się okazać, że jego skuteczność w kla-
syfikacji nowych obserwacji będzie niska. Spowodowane jest to tym, że algo-
rytm zbyt dokładnie zapamiętał zbiór uczący i uznał niektóre przypadkowo
występujące w nim zależności za ogólnie obowiązujące reguły (na przykład,
że klienci o imieniu Tomasz mają zawsze dużą zdolność kredytową).
Aby zapobiec przeuczeniu, stosuje się tzw. zbiór testowy (ang. test set).
Jest to zbiór danych, w którym wartości zmiennej celu są określone, ale chwi-
lowo ukryte. Za pomocą budowanego modelu wykonujemy klasyfikację ele-
mentów ze zbioru testowego i porównujemy wyznaczone wartości zmiennej
celu z poprawnymi. W ten sposób możemy zweryfikować dokładność modelu.
Zwykle podczas budowania modelu do pewnego momentu współczynnik błę-
du klasyfikatora (procent źle sklasyfikowanych przypadków) maleje zarówno
na zbiorze uczącym, jak i na zbiorze testowym. Później dla zbioru uczącego
maleje nadal, ale dla zbioru testowego zaczyna rosnąć. Oznacza to, że al-
gorytm zaczyna zbyt dokładnie zapamiętywać zbiór uczący i traci zdolność
uogólniania. Punkt, w którym błąd klasyfikacji na zbiorze testowym osiąga
minimalną wartość jest optymalnym momentem przerwania uczenia modelu.

182
Zbiór testowy jest zwykle pewnym podzbiorem zbioru uczącego. Najczę-
ściej dzielimy dane na część uczącą i część testową. Jeżeli jednak mamy do
dyspozycji tylko niewielką liczbę sklasyfikowanych przypadków, to wydziele-
nie z nich zbioru testowego mogłoby spowodować, że zbiór uczący byłby zbyt
mały do zbudowania dobrego modelu. W takim wypadku możemy zastosować
procedurę walidacji krzyżowej (ang. cross-validation). Dzielimy posiadane
dane losowo na n rozłącznych podzbiorów (najczęściej 5 lub 10). Budujemy
model, wykorzystując pierwszy podzbiór jako zbiór testowy, a n − 1 pozosta-
łych podzbiorów jako zbiór uczący i obliczamy błąd klasyfikacji. Powtarzamy
procedurę, traktując tym razem drugi podzbiór jako zbiór testowy, a resz-
tę podzbiorów jako zbiór uczący, itd. Miarą jakości modelu jest uśredniony
błąd.

Istnieje wiele różnych algorytmów klasyfikacji. Najczęściej używane to:


algorytm k-najbliższych sąsiadów, sieci neuronowe, naiwny klasyfikator bay-
esowski, maszyny wektorów podpierających (SVM) i drzewa decyzyjne. W dal-
szej części tego rozdziału omówimy dokładnie ostatnią z wymienionych me-
tod.

9.2. Drzewa decyzyjne

Drzewem decyzyjnym nazywamy zbiór węzłów decyzyjnych połączo-


nych za pomocą gałęzi (ang. branch) rozchodzących się w dół od korze-
nia (ang. root node) aż do kończących je liści (ang. leaf nodes lub terminal
nodes). W węzłach decyzyjnych sprawdzane są wartości zmiennych opisują-
cych. Gałęzie wychodzące z węzłów odpowiadają możliwym wartościom bądź
zbiorom wartości tych zmiennych. Każda gałąź prowadzi do kolejnego węzła
decyzyjnego lub do liścia. W liściach znajdują się wartości zmiennej celu.

183
Na rysunku przedstawiono proste drzewo, które ma pomóc w podjęciu
decyzji, czy dany dzień jest odpowiedni na grę w golfa. Zmiennymi opisują-
cymi są: zachmurzenie, wilgotność i wiatr. Proces klasyfikacji rozpoczynamy
od korzenia, a kończymy w jednym z liści. Na przykład jeżeli zmienna za-
chmurzenie ma wartość pochmurno, to dany dzień uznajemy za nadający się
do gry. Jeżeli zmienna ta ma wartość słonecznie, to musimy sprawdzić jesz-
cze zmienną wilgotność i w zależności od tego, czy ma ona wartość duża, czy
normalna, zmiennej celu przypisujemy wartość nie lub tak.
Do zbudowania drzewa decyzyjnego potrzebny jest zbiór uczący zawiera-
jący sklasyfikowane wartości zmiennej celu. W przypadku zadania klasyfika-
cji zmienna celu jest oczywiście dyskretna. Drzewa decyzyjne mogą jednak
służyć również do przewidywania wartości zmiennej ciągłej (takie drzewa
nazywamy czasem drzewami regresyjnymi).
Algorytmy budujące drzewa dążą do sformułowania warunków, które są
sprawdzane dla poszczególnych obserwacji. Zbiór uczący bardzo często za-
wiera obserwacje, które mają takie same wartości zmiennych opisujących,
ale różne wartości zmiennej celu. Takie obserwacje trafią oczywiście do tego
samego liścia. O takich liściach mówimy, że nie są czyste. W takim przy-
padku drzewo informuje z jakim prawdopodobieństwem są przyjmowane po-
szczególne wartości zmiennej celu. Obserwacje, które trafią do tego liścia bę-
dą klasyfikowane zgodnie z wartością o największym prawdopodobieństwie.
Jeżeli na przykład w danym liściu znajdzie się 7 obserwacji należących do
kategorii A i 3 obserwacje z kategorii B, to liściowi zostanie przypisana kate-
goria A, a współczynnik błędu klasyfikacji dla tego liścia wyniesie 30%.

184
Współczynnik błędu dla całego drzewa jest średnią ważoną współczynni-
ków błędów poszczególnych liści, z wagami równymi procentom obserwacji
ze zbioru uczącego, które trafiły do danych liści. Algorytmy budujące drzewa
starają się tworzyć jak najczystsze liście i tym samym minimalizować błąd
klasyfikacji.
Istnieje wiele algorytmów budowania drzew. Najważniejsze z nich to CART,
C4.5, C5.0, CHAID i QUEST. Omówimy tu tylko pierwszy z nich.
Metoda drzew klasyfikacyjnych i regresyjnych (ang. classification
and regression trees ozn. CART, C&RT lub CRT) została zaproponowana
przez Leo Breimana, Jerome’a Friedmana, Richarda Olshena i Charlesa Sto-
ne’a w 1984 roku. Drzewa decyzyjne tworzone przez algorytm CART sa ściśle
binarne, tzn. mają po 2 gałęzie wychodzące z każdego węzła decyzyjnego.
Z węzła idziemy na lewo, jeśli jest spełniony określony w nim warunek, a na
prawo, jeśli nie. Warunki maja postać „Xi ¬ C”, gdy zmienna jest ciągła
lub „Xi przyjmuje wartości...”, gdy zmienna jest dyskretna. Dopuszczalne
jest kilkukrotne pojawienie się warunków bazujących na tej samej zmiennej.
Dla każdego węzła decyzyjnego algorytm CART sprawdza wszystkie moż-
liwe zmienne i wszystkie możliwe podziałów zbioru wartości tych zmiennych
i wybiera optymalny podział zgodnie z ustalonym kryterium. W programie
IBM SPSS Statistics kryterium tym może być kryterium Giniego, kryterium
Twoing lub porządkowe kryterium Twoing.
W przypadku kryterium Giniego algorytm, próbując znaleźć optymalny
podział węzła t, wyznacza najpierw jego miarę nieczystości (ang. impurity
measure) określoną wzorem
X
G(t) = c(i, j)p(i|t)p(j|t),
i6=j

gdzie c(i|j) jest kosztem błędnej klasyfikacji przypadku z klasy j jako przy-
padek z klasy i (domyślnie ustawione jako 1), a p(i|t) określa, jaki procent
przypadków z węzła t należy do klasy i. Nietrudno zauważyć, że dla węzłów
czystych, czyli zawierających tylko przypadki z jednej klasy, G(t) = 0.
Następnie algorytm próbuje znaleźć taki podział węzła rodzica t na węzły
dzieci tL i tP , który spowoduje największą poprawę czystości definiowaną jako

I(t) = G(t) − qG(tL ) − (1 − q)G(tP ),

gdzie q jest frakcją przypadków, które trafią do węzła tL . Zauważmy, że naj-


większą poprawę uzyskamy w przypadku, gdy węzły tL i tP będą czyste bądź
prawie czyste lub gdy jeden z tych węzłów będzie czysty bądź prawie czysty
i trafi do niego duży odsetek przypadków z węzła t.

185
Dla kryterium Twoing poprawę wynikającą z podziału węzła t na węzły
tL i tP definiujemy jako
liczba
!2
Xklas
I(t) = q(1 − q) |p(j|tL ) − p(j|tP )| .
j=1

W tym przypadku poprawa będzie największa, jeżeli wszystkie przypadki


z tej samej klasy trafią do tego samego węzła. Dodatkowo czynnik stojący
przed sumą powoduje, że poprawa jest największa dla q = 0,5. Preferowane są
więc podziały, które są jednorodne dla wszystkich klas i mają w przybliżeniu
równą liczbę rekordów.
Budując drzewo decyzyjne, musimy zabezpieczyć się przed „zapamięta-
niem” zbioru uczącego. W tym celu algorytm CART stosuje procedury przy-
cinania (ang. pruning) drzewa, czyli usuwania niektórych węzłów i gałęzi.
Procedura ta może spowodować zwiększenie współczynnika błędu klasyfika-
cji dla zbioru uczącego, ale poprawia zdolność uogólniania wyników na inne
zbiory danych. W IBM SPSS Statistics możemy regulować pewne parametry
przycinania np. maksymalną głębokość drzewa, minimalną liczbę obserwacji,
które muszą zawierać węzły, minimalną poprawę wynikającą z podziału wę-
zła, a także maksymalną dopuszczalną różnicę w błędzie klasyfikacji między
drzewem pełnym, a drzewem przyciętym.
Analizowane zbiory często zawierają braki danych. Załóżmy, że w danej
obserwacji brakuje wartości zmiennej opisującej używanej w jednym z warun-
ków na podstawie, których dzielone są węzły drzewa. Wówczas klasyfikacja tej
obserwacji mogłaby okazać się niemożliwa. Aby zapobiec takim problemom,
algorytm CART stosuje tzw. surogaty.
Surogaty zwane też węzłami zastępczymi lub predyktorami substytucyj-
nymi (ang. surrogate splits) są tworzone z użyciem innych zmiennych tak, aby
były jak najbardziej podobne do węzłów występujących w drzewie. W przy-
padku stosowania drzewa do przewidywania wartości zmiennej celu dla re-
kordu, w którym brakuje wartości zmiennej definiującej węzeł, węzeł jest
zastępowany surogatem (lub kolejnymi surogatami, jeśli w dalszym ciągu
występują brakujące dane), który pozwala zdecydować, czy z tego węzła na-
leży iść na lewo, czy na prawo. Surogaty ukazują nam też pewne zależności
pomiędzy zmiennymi. Jeżeli np. warunek stan cywilny = żonaty ma surogata
postaci wydatki ¿ 3 000, to zmienne stan cywilny i wydatki są prawdopodob-
nie ze sobą powiązane.
Przechodząc po drzewie dowolną ścieżką otrzymujemy tzw. reguły de-
cyzyjne. Mają one postać jeżeli ..., to .... Wsparcie (ang. support) reguły
decyzyjnej to procent rekordów w zbiorze danych przypisanych do danego
liścia. Ufność (ang. confidence) to procent rekordów w liściu, dla których
reguła jest prawdziwa.

186
Ćwiczenie 9.1. Plik iris.sav zawiera dane dotyczące 150 egzemplarzy kwia-
tów należących do trzech gatunków: Iris setosa, Iris versicolor i Iris virginica.
Dla każdego egzemplarza podana została długość i szerokość płatka, długość
i szerokość kielicha oraz gatunek. Dane te zostały zebrane przez amerykań-
skiego botanika Edgara Andersona, a w 1936 r. brytyjski statystyk Ronald
Fisher po raz pierwszy wykorzystał je jako przykład ilustrujący jedną z metod
klasyfikacji – liniową analizę dyskryminacyjną. Zbuduj drzewo klasyfikujące
kwiaty pod względem gatunku.

Rozwiązanie. Otwieramy plik w programie. Zanim przejdziemy do budo-


wy drzewa, przyjrzymy się bliżej danym. Wykonujemy analizę częstości dla
zmiennej gatunek. Wybieramy Analiza –> Opis statystyczny –> Czę-
stości... Jako zmienną wybieramy gatunek i zaznaczamy opcję Pokaż ta-
bele częstości. Widzimy, że zbiór zawiera po 50 egzemplarzy z każdego
gatunku.

Następnie wykonamy wykres rozrzutu zmiennych długość kielicha i sze-


rokość kielicha. W tym celu wybieramy Wykresy –> Kreator wykre-
sów... Z galerii wybieramy wykresy Rozrzutu/Punktowe, a do obszaru
roboczego przenosimy zgrupowany wykres rozrzutu. Na oś pionową prze-
ciągamy zmienną długość kielicha, na poziomą szerokość kielicha, a w pole
Ustaw kolor zmienną gatunek.

187
Widzimy, że kwiaty z gatunku Iris setosa tworzą wyraźnie oddzieloną
grupę. Kwiaty z dwóch pozostałych gatunków mieszają się ze sobą i nale-
ży przypuszczać, że ich poprawna klasyfikacja będzie trudniejsza. Wykresy
rozrzutu dla innych par zmiennych wyglądają podobnie.
Aby zbudować drzewo, wybieramy polecenie Analiza –> Klasyfika-
cja –> Drzewo klasyfikacyjne... Może pojawić się komunikat przypo-
minający o konieczności poprawnego określenia poziomu pomiaru dla wszyst-
kich zmiennych oraz o ustawieniu etykiet dla wszystkich kategorii zmiennej
celu. W przypadku naszego zbioru ustawienia te są poprawne, więc klikamy
OK. Możemy też zaznaczyć opcję zapobiegającą wyświetlaniu tego komu-
nikatu w przyszłości. Pojawi się okno dialogowe Drzewo klasyfikacyj-
ne. W polu Zmienna zależna tego okna umieszczamy zmienną gatunek,
a w polu Zmienne niezależne pozostałe cztery zmienne. Z listy Metoda
wzrostu drzewa wybieramy opcję CRT.
Następnie naciskamy przycisk Kategorie... Pojawi się okno, w którym
wyświetlą się wszystkie wartości zmiennej zależnej (zmiennej celu). Możemy
tu wykluczyć pewne kategorie z analizy i zbudować drzewo klasyfikujące tylko
dla niektórych kategorii. Możemy też zaznaczyć kategorie, które nas szcze-

188
gólnie interesują jako docelowe. Ustawienie to nie ma wpływu na strukturę
drzewa, ale dzięki niemu możemy uzyskać pewne dokładniejsze informacje
o interesującej nas klasie. Zaznaczamy na przykład kategorię Iris versicolor
i wracamy do poprzedniego okna klikając przycisk Dalej.
Następnie musimy określić jakiego rodzaju wyniki chcemy uzyskać. Po
wciśnięciu przycisku Wyniki... uzyskamy dostęp do wielu opcji. Na zakład-
ce Drzewo ustalamy wygląd drzewa. Warto tu zaznaczyć opcję Drzewo
w postaci tabeli. Dla reszty parametrów możemy na razie pozostawić
wartości domyślne. Na zakładce Statystyki zaznaczamy dodatkowo opcje
Ważność predyktora dla modelu oraz Substytucyjne według po-
działu, a na zakładce Wykresy opcję Ważność zmiennej niezależnej
dla modelu. Na zakładce Reguły zaznaczamy opcję Utwórz reguły
klasyfikacji, a jako formę prezentacji reguł wybieramy czysty tekst.
Dla reszty opcji pozostawiamy wartości domyślne.
Kolejnym etapem jest wybranie metody walidacji drzewa. Naciskamy
przycisk Walidacja... i ponieważ nasz zbiór składa się z niewielkiej licz-
by rekordów, wybieramy opcję Walidacja krzyżowa. W polu Liczba
składów dla próby pozostawiamy domyślną wartość 10.
Niezwykle ważne jest poprawne ustawienie parametrów mających wpływ
na strukturę budowanego drzewa. Uzyskamy do nich dostęp po wciśnięciu
przycisku Kryteria... Na zakładce Ograniczenia wzrostu możemy sa-
mi określić maksymalną głębokość drzewa lub pozostawić wartość domyślną,
która dla metody CRT wynosi 5. Następnie zmieniamy minimalną liczbę
obserwacji w węźle nadrzędnym i podrzędnym na 20 i 10. Domyślne warto-
ści 100 i 50 są zdecydowanie zbyt duże dla zbioru składającego się ze 150
obserwacji. Pozostawienie ich na tym poziomie spowodowałoby, że budowa
drzewa zakończyłaby się już po utworzeniu kilku pierwszych węzłów. Na za-
kładce CRT możemy wybrać miarę zanieczyszczenia (Gini lub Twoing)
oraz minimalną zmianę w ulepszeniu czyli minimalną poprawę czysto-
ści węzła, przy której dopuszczalne jest jego podzielenie (domyślnie 0,0001).
Dla obu opcji pozostawiamy wartości domyślne. Na zakładce Przycina-
nie... włączamy opcję Przytnij drzewo, aby uniknąć nadmiernego
dopasowania i zostawiamy domyślną wartość pola Maksymalna różni-
ca w ryzyku. Ustawienia te spowodują, że po zakończeniu budowy drze-
wa, algorytm spróbuje je przyciąć, w sposób niepowodujący zbyt dużego
wzrostu błędu klasyfikacji. Na zakładce Predykatory substytucyjne
możemy określić maksymalną liczbę surogatów, możliwych do utworzenia
dla każdego podziału. Możemy też pozostawić domyślną wartość czyli licz-
ba zmiennych niezależnych − 1. Co prawda nasz zbiór uczący nie zawiera
braków danych, ale zbudowane drzewo może być wykorzystywane do klasy-
fikacji innych zbiorów, w których takie braki mogą występować.

189
Wszystkie wyniki analizy zostaną zapisane w oknie raportu. Istnieje też
możliwość zapisania niektórych informacji bezpośrednio w zbiorze danych
w postaci nowych zmiennych. W tym celu, w oknie, które pojawi się po
naciśnięciu przycisku Zapisz..., zaznaczamy opcje Numer węzła końco-
wego, Wartość przewidywana oraz Przewidywane prawdopodo-
bieństwa.

Po powrocie do okna Drzewo klasyfikacyjne naciskamy przycisk


OK. Po chwili w oknie raportu pojawią się wyniki analizy.

Pierwsza tabela Model – podsumowanie zawiera podstawowe informacje


o utworzonym modelu, w szczególności listę uwzględnionych zmiennych nie-
zależnych, liczbę węzłów oraz głębokość drzewa.

190
Następnie wyświetlane jest zbudowane drzewo. Składa się ono z 5 węzłów,
z których 3 są liśćmi. Zawartość węzłów wyświetlana jest w postaci tabel, któ-
rych wiersze odpowiadają poszczególnym kategoriom. Każdy wiersz zawiera
nazwę kategorii, procentowy udział obserwacji należących do tej kategorii
w ogólnej liczbie obserwacji w węźle oraz liczbę obserwacji z tej kategorii
w węźle. Kategoria najczęściej występująca w węźle jest podświetlona. Ostat-
ni wiersz zawiera liczbę wszystkich obserwacji w węźle i procentowy udział
tych obserwacji w całym zbiorze.
Zauważmy, że węzeł numer 1 jest węzłem czystym, zawierającym wszyst-
kie obserwacje należące do gatunku Iris setosa. Węzły numer 3 i 4 nie są
czyste. Pierwszy z nich zawiera 49 obserwacji należących do Iris versicolor
i 5 należących do Iris virginica, drugi 45 obserwacji należących do Iris virgi-
nica i 1 obserwację należącą do Iris versicolor.

191
Dla każdej gałęzi drzewa podany został warunek wykorzystany do podzia-
łu węzła oraz poprawa czystości uzyskana dzięki podziałowi. Na przykład,
podział korzenia został dokonany na podstawie warunku dlugosc płatek <=
2,45. Wszystkie obserwacje, dla których warunek ten jest spełniony, trafiły
do węzła numer 1, a pozostałe do węzła numer 2. Dzięki temu uzyskaliśmy
poprawę równą 0,333.
Jeżeli w oknie raportu klikniemy dwukrotnie na obiekt drzewa, to otwo-
rzy się tzw. Edytor drzewa. Możemy w nim zmienić wygląd poszczegól-
nych węzłów drzewa (kolory, fonty, forma wyświetlania informacji wewnątrz
węzłów), ukryć niektóre podgałęzie drzewa, a nawet odfiltrować obserwacje
należące do wybranego węzła.

Dzięki zaznaczeniu opcji Drzewo w postaci tabeli informacje o wszyst-


kich węzłach zostały zebrane w Tabeli wynikowej drzewa decyzyjnego.

192
Przypomnijmy, że jako kategorię docelową wybraliśmy Iris versicolor. Dla
tej kategorii uzyskujemy pewne dodatkowe wyniki. Każdy wiersz tabeli Ko-
rzyści dla poszczególnych węzłów odpowiada jednemu z liści drzewa. Trzy
pierwsze kolumny zawierają kolejno: numer węzła, liczbę obserwacji w tym
węźle oraz procent całkowitej liczby obserwacji wpadający do węzła. Następ-
ne dwie kolumny dotyczą tylko obserwacji z kategorii docelowej i oznaczają,
ile obserwacji z tej kategorii wpadło do danego liścia i jaki procent ogólnej
liczby obserwacji z tej kategorii stanowią. Tą ostatnia wartość nazywamy ko-
rzyścią związaną z danym węzłem. (ang. gain). W naszym przypadku 98%
obserwacji z gatunku Iris versicolor wpada do węzła numer 3. Kolumna Od-
powiedź (ang. response) określa, jaki procent obserwacji w węźle należy do
kategorii docelowej. Kolumna Indeks (ang. index ) określa, jaki jest stosunek
częstości występowania kategorii docelowej w węźle do częstości występowa-
nia w całym zbiorze. W naszym przypadku kwiaty z gatunku Iris versicolor
stanowią około 33,3% kwiatów w całym zbiorze. Natomiast w węźle numer
3 stanowią one 90,7% wszystkich kwiatów w tym węźle, czyli występują tu
około 2,722 razy częściej. Dlatego w kolumnie Index znajduje się wartość
272,2%.

193
Wykres korzyści (ang. gain chart) pokazuje, jak bardzo drzewo po-
prawia naszą zdolność identyfikowania obserwacji należących do kategorii
docelowej. Linia prosta pokazuje skuteczność klasyfikacji bez użycia drzewa.
Kwiaty z gatunku Iris versicolor stanowią dokładnie 1/3 wszystkich kwiatów.
Jeżeli wybierzemy więc losowo około 1/3 obserwacji, należy się spodziewać,
że wśród nich znajdzie się około 1/3 wszystkich kwiatów z gatunku Iris ver-
sicolor. Odpowiada to punktowi (33,3%;33,3%), przez który przechodzi linia
prosta. Linia krzywa (łamana) pokazuje skuteczność klasyfikacji przy użyciu
drzewa. Jeżeli zamiast wybierać losowo, wybierzemy wszystkie obserwacje
z węzła numer 3 (stanowią one również około 1/3 wszystkich obserwacji), to
wśród nich znajdzie się 98% wszystkich kwiatów z gatunku Iris versicolor
z całego zbioru. Na wykresie widzimy, że krzywa szybko rośnie i w pobliżu
punktu 33% osiąga wartość 98%. Dalsza część wykresu jest prawie płaska,
gdyż w pozostałych węzłach znajduje się już bardzo niewiele (2%) obserwacji
z kategorii docelowej. Jest to charakterystyczny wygląd wykresu korzyści dla
dobrego klasyfikatora.

194
Kolejne dwa wykresy przedstawiają skumulowane wartości z kolumn Od-
powiedź i Indeks tabeli korzyści. Omówimy tylko pierwszy z nich, interpre-
tacja drugiego jest analogiczna. Przypomnijmy, ze odpowiedź to procent ob-
serwacji w węźle należący do kategorii docelowej. Wykres startuje z punktu
na wysokości 90,7%, gdyż taki właśnie odsetek obserwacji w węźle numer 3
należy do kategorii Iris versicolor. Węzeł numer 3 zawiera nieco ponad 30%
wszystkich obserwacji i mniej więcej do tego percentyla wykres utrzymuje
się na stałym poziomie. Następnie do obserwacji z węzła numer 3 dodajemy
obserwacje z węzła numer 4. Otrzymujemy 100-elementowy zbiór obserwacji
(około 66% wszystkich), w którym obserwacje z kategorii docelowej stano-
wią dokładnie 50%. Zauważmy, że wykres opada i w 66 percentylu osiąga
poziom 50%. W końcu dodajemy rekordy z węzła nr 1 i otrzymujemy pełny
150-elementowy zbiór zawierający 33% elementów z gatunku Iris versicolor.
Wykres dalej opada, aby w końcu osiągnąć poziom 33%.

195
Tabela Ryzyko zawiera pewne oszacowanie jakości naszego modelu. Oce-
na ryzyka wynosi 0,04 co oznacza, że 4% obserwacji zostało zaklasyfikowane
błędnie. Nieco więcej informacji zawiera Macierz klasyfikacji. Wynika z niej,
że wszystkie obserwacje z gatunku Iris setosa zostały zaklasyfikowane po-
prawnie. W przypadku Iris versicolor zaklasyfikowano poprawnie 98% obser-
wacji, a w przypadku Iris virginica 90%. Łącznie poprawnie zaklasyfikowano
96% obserwacji i jest to zgodne z informacją z tabeli Ryzyko.

196
Dalej pojawiają się informacje o stopniu ważności poszczególnych zmien-
nych niezależnych do klasyfikacji. Z tabeli i wykresu wynika, że najważniejsze
są zmienne szerokosc platek i dlugosc platek.

Przyjrzyjmy się teraz tabeli Substytuty. Zawiera ona wykaz surogatów


czyli zmiennych, które w razie wystąpienia braków danych mogą zastąpić
zmienne, na podstawie których dzielone są węzły. I tak na przykład pierw-
szym surogatem dla zmiennej dlugosc platek, która dzieli korzeń drzewa, jest
zmienna szerokosc platek. Miara związku między tymi zmiennymi wynosi
1,000. Jeżeli i ta zmienna byłaby niedostępna, to kolejnymi surogatami są
zmienne dlugosc kielich i szerokosc kielich, jednak ich związek ze zmienną
dlugosc platek jest znacznie słabszy.

/* Node 1 */.
IF (((dlugosc_platek NOT MISSING AND (dlugosc_platek <= 2.45))
OR dlugosc_platek IS MISSING AND ((szerokosc_platek NOT MISSING
AND (szerokosc_platek <= 0.8)) OR szerokosc_platek IS MISSING
AND ((dlugosc_kielich NOT MISSING AND (dlugosc_kielich <= 5.45))
OR dlugosc_kielich IS MISSING AND (szerokosc_kielich NOT MISSING
AND (szerokosc_kielich > 3.35))))))
THEN
Node = 1
Prediction = 1
Probability = 1.000000

Raport kończą zbudowane reguły decyzyjne. Prezentujemy tu tylko pierw-


szą z nich. Odpowiada ona ścieżce prowadzącej od korzenia do węzła numer
1. Z postaci drzewa decyzyjnego wynika, że do tego węzła trafiają obserwa-
cje, dla których spełniony jest warunek dlugosc platek < = 2,45. Warunek

197
w regule jest znacznie bardziej złożony. Uwzględnia on bowiem sytuacje, gdy
w obserwacji brakuje wartości tej zmiennej. Wówczas decyzja o przydziale
do tego węzła podejmowana jest na podstawie zmiennych zastępczych (su-
rogatów). W następniku reguły widzimy, że obserwacje spełniające podany
warunek, trafiają do węzła numer 1 i są przydzielane do klasy numer 1 (Iris
setosa). Prawdopodobieństwo, że klasyfikacja jest poprawna (ufność reguły)
wynosi w tym przypadku 1. Wsparcie reguły to 33,3%, gdyż do tego węzła
trafia dokładnie 1/3 wszystkich obserwacji.
Po analizie raportu zajrzyjmy jeszcze do arkusza danych. Widzimy, że
pojawiło się w nim 5 nowych zmiennych. Zmienna NodeID określa, do które-
go liścia trafiła dana obserwacja, a zmienna PredictedValue to przewidywana
wartość zmiennej celu. Pozostałe 3 zmienne określają prawdopodobieństwa
z jakimi przyjmowane są poszczególne wartości zmiennej celu. Na ich pod-
stawie możemy ocenić stopień wiarygodności przewidywanej wartości. 

Ćwiczenie 9.2. Zbiór adult.sav zawiera dane uzyskane od ponad 32 000


mieszkańców USA w czasie spisu powszechnego w 1994 roku. Jest on często
używany do testowania działania algorytmów klasyfikacyjnych. Zmienną celu
jest income. Określa ona, czy badany zarabia ponad 50 000 dolarów rocznie.
Zbuduj drzewo klasyfikacyjne dla tej zmiennej.

Rozwiązanie. Otwieramy plik w programie i wykonujemy analizę często-


ści dla zmiennej income. Wybieramy Analiza –> Opis statystyczny
–> Częstości... Jako zmienną wybieramy income i zaznaczamy opcję Po-
każ tabele częstości. Widzimy, że prawie 76% badanych zarabia poniżej
50 000 dolarów. Zapamiętajmy tę wartość, gdyż będzie ona miała istotne
znaczenie przy ocenie jakości klasyfikacji.

Aby zbudować drzewo, wybieramy polecenie Analiza –> Klasyfika-


cja –> Drzewo klasyfikacyjne... W polu Zmienna zależna tego
okna umieszczamy zmienną income, a w polu Zmienne niezależne pozo-
stałe zmienne z wyjątkiem train test split. Z listy Metoda wzrostu drze-
wa wybieramy opcję CRT.

198
Następnie musimy określić jakiego rodzaju wyniki chcemy uzyskać. Naci-
skamy przycisk Wyniki... i w zakładce Statystyki zaznaczamy dodatkowo
opcje Ważność predyktora dla modelu i Substytucyjne według
podziału.

Następnie naciskamy przycisk Walidacja... i wybieramy opcję Walida-


cja z podziałem próby. Możemy pozwolić, aby program podzielił losowo
zbiór w podanych przez nas proporcjach na część uczącą i testową. Jeżeli
jednak chcemy uzyskać wyniki zgodne z tymi opisanymi w skrypcie, do po-
działu powinniśmy użyć zmiennej train test split. Przyjmuje ona wartość 1
dla obserwacji przydzielonych do zbioru uczącego i 0 dla obserwacji przydzie-
lonych do zbioru testowego. Wybieramy więc opcję Użyj zmiennej i w polu
Podziel próbę według: umieszczamy zmienną train test split.

Naciskamy przycisk Kryteria... Na zakładce Ograniczenia wzrostu


zmieniamy minimalną liczbę obserwacji w węźle nadrzędnym i podrzędnym
na odpowiednio 200 i 100, a na zakładce Przycinanie... włączamy opcję
Przytnij drzewo, aby uniknąć nadmiernego dopasowania.

W końcu naciskamy przycisk Zapisz..., zaznaczamy opcje Numer wę-


zła końcowego, Wartość przewidywana oraz Przewidywane praw-
dopodobieństwa. Po powrocie do okna nadrzędnego klikamy OK i czeka-
my aż program zakończy budowę drzewa.

Ponieważ zbiór danych został podzielony na część uczącą i testową, więk-


szość wyników będzie podawana osobno dla obu części. Dla oceny jakości
klasyfikacji ważniejsze są wyniki uzyskane dla zbioru testowego i na nich
skupimy się w dalszej części.

Drzewo decyzyjne składa się z 9 węzłów, z których 5 to liście. Tak nie-


duża liczba jest wynikiem włączenia opcji przycinania i ustawienia wyższej
wartości dla minimalnej liczby obserwacji w węźle (przy ustawieniach stan-
dardowych drzewo miałoby 33 węzły w tym 17 liści). Żaden z liści nie jest
czysty, ale w trzech z nich ponad 90% obserwacji należy do jednej katego-
rii. Niestety dwa pozostałe, których stopień czystości jest znacznie niższy,
zawierają ponad 40% wszystkich obserwacji.

199
Zauważmy też, że pierwszy podział dokonywany jest na podstawie zmien-
nej relationship. Osoby pozostające w związku małżeńskim są oddzielane od
pozostałych. Zwróćmy uwagę, że tylko bardzo mała część tej drugiej gru-
py należy do kategorii zarabiających powyżej 50 tysięcy. Mężowie i żony są
następnie dzieleni ze względu na poziom wykształcenia. Osoby, które zdoby-
ły przynajmniej licencjat, w większości zarabiają powyżej 50 tysięcy. Wśród
gorzej wykształconych sytuacja jest odwrotna. Na końcu dokonywany jest
podział ze względu na przyrost kapitału. Osoby, u których był on wysoki,
należą zwykle do kategorii lepiej zarabiających.

200
Przeanalizujmy teraz macierz klasyfikacji. Widzimy, że 83,7% obserwa-
cji ze zbioru testowego zostało zaklasyfikowanych poprawnie. Na pierwszy
rzut oka wydaje się to całkiem niezłym wynikiem. Pamiętajmy jednak, że
dla około 76% obserwacji wartość zmiennej celu to Nie (tzn. zarabia poni-
żej 50 tysięcy dolarów). Moglibyśmy więc łatwo skonstruować klasyfikator o
76% poprawności, przypisując po prostu każdy przypadek do kategorii Nie.
Zbudowane drzewo poprawia nieco ten wynik, ale różnica jest stosunkowo
niewielka.
Dla osób zarabiających poniżej 50 tysięcy poprawność klasyfikacji to 95%,
a dla tych zarabiających powyżej 50 tysięcy tylko 48,5%. Ta ostatnia wartość
nie wygląda imponująco, ale pamiętajmy, że w całym zbiorze było tylko 24%
osób zarabiających powyżej 50 tysięcy.
Co zrobić, jeżeli jesteśmy szczególnie zainteresowani identyfikacją osób
lepiej zarabiających i chcielibyśmy zmniejszyć współczynnik błędu klasyfi-
kacji dla tej kategorii? Możemy w tym celu wykorzystać macierz kosztów
błędnej klasyfikacji. W tym celu wybierzmy ponownie polecenie Analiza
–> Klasyfikacja –> Drzewo klasyfikacyjne... i naciśnijmy przy-
cisk Opcje... Na zakładce Błędne koszty klasyfikacji wybierzmy opcję
Użytkownika, a w macierzy kosztów zamieńmy wartość elementu leżące-
go w lewym dolnym narożniku z 1 na 2. Dzięki temu błędna klasyfikacja
osób zarabiających powyżej 50 tysięcy będzie „karana” bardziej niż tych za-
rabiających poniżej 50 tysięcy. Klikamy Dalej, a w głównym oknie OK.
W raporcie pojawi się nowe drzewo i nowa macierz klasyfikacji.

201
Widzimy, że poprawność klasyfikacji dla lepiej zarabiających wzrosła do
66,9%. Ceną za to jest spadek poprawności klasyfikacji osób gorzej zarabia-
jących do 89%.

W naszym zbiorze występują braki danych, więc przyjrzyjmy się jeszcze


tabeli Substytuty. Pierwszym surogatem dla zmiennej relationship jest zmien-
na marital. Miara związku między tymi zmiennymi to ponad 98%. Kolejnymi

202
surogatami są zmienne sex i age, jednak ich związek ze zmienną relationship
jest znacznie słabszy. 
Ćwiczenie 9.3. Za pomocą drzewa zbudowanego w poprzednim ćwiczeniu
sklasyfikuj obserwacje należące do zbioru adult test.sav.
Rozwiązanie. Otwieramy najpierw plik adult.sav i ustawiamy wszystkie
opcje budowy drzewa zgodnie ze wskazówkami umieszczonymi w rozwiązaniu
poprzedniego ćwiczenia (jeżeli nie zamknęliśmy pliku z danymi, to ustawienia
te zostały zapamiętane). Po wciśnięciu przycisku Wyniki na zakładce Re-
guły włączamy opcje Utwórz reguły klasyfikacji oraz Eksportuj
reguły do pliku. W polu tekstowym podajemy nazwę pliku oraz miejsce,
w którym ma zostać zapisany. Klikamy Dalej, a w głównym oknie OK.
Otwieramy plik adult test.sav, a następnie wybieramy Plik –> Otwórz
–> Polecenia i wybieramy zapisany wcześniej plik z regułami. Otworzy się
on w oknie poleceń. Zaznaczamy całą zawartość okna i uruchamiamy skrypt,
wciskając przycisk z zielonym trójkątem. Po chwili w oknie danych pojawią
się nowe zmienne. Pierwsza z nich nod 001 określa, do którego węzła trafiła
dana obserwacja. Zmienna pre 001 określa przewidywaną klasę, a prb 001
procent rekordów w węźle należących do przewidywanej klasy (czyli prawdo-
podobieństwo, że obserwacja została sklasyfikowana poprawnie). W normal-
nych okolicznościach trudno byłoby stwierdzić, jaka jest dokładność klasyfi-
kacji, gdyż prawdziwe wartości zmiennej celu nie są znane. W tym przypadku
zbiór zawiera prawdziwe wartości i możemy je porównać z wartościami wy-
znaczonymi za pomocą drzewa. W tym celu wybieramy Analiza –> Opis
statystyczny –> Tabele krzyżowe. W pole Zmienne w wierszach
wstawiamy zmienną income, a w zmienne w kolumnach zmienną pre 001
i klikamy OK.

Widzimy, że 13 607 z 16 281 obserwacji (czyli ponad 83% ) zostało skla-


syfikowanych poprawnie. Dla obserwacji z kategorii Nie dokładność wynosi
ponad 89%, a z kategorii Tak około 64%. Są to wartości zbliżone do tych
uzyskiwanych na zbiorze wykorzystywanym do budowy drzewa. 

203
9.3. Zadanie grupowania
Grupowanie (ang. clustering) zwane też analizą skupień (ang. cluster
analysis) polega na dzieleniu zbioru obserwacji na względnie jednorodne gru-
py (ang. clusters). Elementy wewnątrz danej grupy powinny być do siebie
jak najbardziej podobne, ale powinny się jak najbardziej różnić od elementów
z innych grup. Zauważmy, że w odróżnieniu od zadania klasyfikacji nie ma-
my tu określonej żadnej zmiennej celu. Nie wiemy, czy w zbiorze występują
jakieś naturalne podgrupy, ani ile ich może być. Grupowanie należy więc do
metod uczenia nienadzorowanego (ang. unsupervised learning).
Dzięki grupowaniu możemy odkryć pewne nieznane wcześniej struktury
występujące w analizowanych danych. Stosujemy je często we wstępnej ana-
lizie danych, po wyodrębnieniu jednorodnych grup danych możemy je badać
innymi metodami. Grupowanie stosujemy na przykład do:

• segmentacji rynku na jednorodne grupy konsumentów w oparciu o ich


preferencje wobec produktów i usług, zachowania konsumenckie, styl
życia itp.,

• segmentacji obrazów, czyli wyodrębniania z nich jednorodnych obsza-


rów (np. o tym samym kolorze), jest to zwykle jeden z etapów algoryt-
mów rozpoznawania obrazu,

• grupowania ekspresji genów, gdzie bardzo dużo genów może wykazywać


podobne zachowanie,

• redukcji wymiarów, gdy zbiór danych opisany jest przez setki atrybu-
tów.

Nasz podstawowy cel, to zbudowanie grup obserwacji, dla których zmien-


ność pomiędzy grupami (ang. between-cluster variation (BCV)) będzie
duża w porównaniu ze zmiennością wewnątrz grupy (ang. within-cluster
variation (WCV)). Musimy jednak najpierw ustalić, jak mierzyć podobień-
stwo obserwacji. Najczęściej stosowaną miarą jest odległość euklidesowa
określona wzorem: v
um
uX
d(x, y) = t (x
i − yi )2 ,
i=1

gdzie x = (x1 , . . . , xm ) i y = (y1 , . . . , ym ) są wartościami atrybutów dwóch


obserwacji. We wzorze tym występują działania, które możemy wykonywać
jedynie na zmiennych ilościowych. Do porównywania zmiennych jakościowych

204
najczęściej stosujemy funkcję „różne od” określoną następująco:

0, gdy xi = yi
różne(xi , yi ) =
1, w przeciwnym przypadku,
gdzie xi i yi są wartościami zmiennej jakościowej.
Zwykle zmienne jakościowe kodujemy do postaci liczbowej. Jeżeli zmien-
na przyjmuje tylko dwie wartości, to jedną z nich kodujemy jako 0 a drugą
jako 1. Jeżeli tych wartości jest więcej, to dla każdej z nich tworzymy osob-
ną zmienną „zero-jedynkową”. Na przykład dla zmiennej kolor, która mo-
że przyjmować wartości: czerwony, biały, zielony, niebieski tworzymy cztery
zmienne czy czerwony, czy biały, czy zielony, czy niebieski i nadajemy im
wartości 0 lub 1 zgodnie z tabelą:
rekord kolor czy czerwony czy biały czy zielony czy niebieski
1 czerwony 1 0 0 0
2 biały 0 1 0 0
3 zielony 0 0 1 0
4 niebieski 0 0 0 1
Zauważmy, że moglibyśmy zrezygnować z ostatniej zmiennej i umówić się, że
jeżeli trzy pierwsze mają wartość 0, to odpowiada to kolorowi niebieskiemu.
Zwróćmy uwagę na pewną niezgodność związaną z obliczaniem odległości
pomiędzy tak zakodowanymi zmiennymi. Jeżeli zmienna kolor może przyjmo-
wać tylko dwie wartości (0 – czerwony, 1 – biały),
q to odległość euklidesowa,
pomiędzy białym a czerwonym wynosiłaby (0 − 1)2 = 1. Jeżeli natomiast
mamy cztery kolory, to odległość ta wyniesie
q √
(1 − 0)2 + (0 − 1)2 + (0 − 0)2 + (0 − 0)2 = 2 ≈ 1,4142.
Jeżeli chcemy, aby odległość pomiędzy różnymi wartościami zmiennej jako-
ściowej wynosiła zawsze 1, to musimy powyższy wynik przemnożyć przez
czynnik √12 ≈ 0,7071. Możemy też od razu zastąpić w powyższej tabelce
wszystkie 1 wartością √12 .
Algorytmy grupowania do optymalnego działania wymagają normalizacji
danych. W przeciwnym wypadku jedna zmienna, która przyjmuje wartości
z zakresu znacznie większego niż inne mogłaby zdominować analizę. Różnice
pomiędzy wartościami innych zmiennych byłyby wówczas nieistotne. Najczę-
ściej stosujemy normalizację min-max, albo standaryzację:
X − min(X)
normalizacja(X) =
max(X) − min(X)
X − średnia(X)
standaryzacja(X) = .
odchylenie standardowe(X)

205
Należy też zwrócić uwagę na obserwacje odstające. W przypadku niektórych
metod (np. k-średnich) zalecane jest usunięcie ich przed przeprowadzeniem
analizy.
Algorytmy grupujące można podzielić na dwie podstawowe kategorie:
metody hierarchiczne oraz różne odmiany metody k-średnich. Metody
hierarchiczne dzielimy jeszcze na aglomeracyjne i rozdzielające. W tych
pierwszych na początku zakładamy, że każda obserwacja tworzy odrębną
grupę, a następnie w każdym kroku łączymy ze sobą dwie najbardziej po-
dobne grupy. W metodach rozdzielających postępujemy odwrotnie, najpierw
wszystkie obserwacje należą do jednej grupy, a potem stopniowo dzielimy je
na mniejsze i bardziej jednorodne. O metodzie k-średnich napiszemy szerzej
w dalszej części tego rozdziału.

9.4. Algorytm k-średnich


Metoda k-średnich (ang. k-means) jest jedną z najpopularniejszych metod
grupowania. Nazwę i algorytm zaproponował James MacQueen w 1967 roku,
jednak sama idea została przedstawiona już 10 lat wcześniej przez Hugo
Steinhausa. Schemat działania tej metody wygląda następująco:
1. Ustalamy na ile grup (k) chcemy podzielić zbiór.
2. Wybieramy k obserwacji i ustalamy je jako początkowe środki grup.
3. Każdy rekord przypisujemy do grupy, której środek jest mu najbliższy.
4. Znajdujemy środki ciężkości (centroidy) każdej z grup i ustalamy je
jako nowe środki grup.
5. Powtarzamy kroki 3-–5 aż do uzyskania zbieżności lub osiągnięcia mak-
symalnej liczby iteracji.
Algorytm jest prosty, ale poszczególne kroki wymagają pewnego komentarza.
Wybór k nie musi być oczywisty. Bardzo często nie wiemy z góry na ile
grup można podzielić zbiór. Wówczas najczęściej uruchamiamy algorytm dla
kilku różnych wartości k i porównujemy otrzymane wyniki (np. za pomocą
sprawdzianu walidacyjno-krzyżowego). Możemy też ocenić, który z otrzy-
manych podziałów ma najbardziej sensowną interpretację, lub wykorzystać
pewne miary dobroci grupowania.
Początkowe środki grup (nazywane też centrami skupień) możemy wybrać
różnymi metodami. Najczęściej stosuje się wybór losowy lub wybór pierw-
szych k obserwacji ze zbioru. Programy statystyczne mają często własne pro-
cedury wyboru, np. IBM SPSS Statistics stara się wybrać je tak, aby były

206
jak najbardziej oddalone od siebie. Należy podkreślić, że końcowy podział na
grupy może zależeć od wyboru początkowych środków. Dlatego często zaleca
się wykonanie algorytmu kilka razy, startując od różnych środków.
Środki ciężkości grup obliczamy w następujący sposób. Załóżmy, że do
pewnej grupy przypisaliśmy n rekordów: (a1 , b1 , c1 ), (a2 , b2 , c2 ), . . . , (an , bn , cn ).
Wówczas środkiem tej grupy będzie punkt:
!
a1 + a2 + . . . + an b 1 + b 2 + . . . + b n c 1 + c 2 + . . . + c n
, , .
n n n
Możemy zastosować różne kryteria stopu:
• Powtarzamy procedurę przydziału do grup i modyfikacji centroidów
określoną liczbę razy (maksymalna liczba iteracji).
• Zatrzymujemy algorytm w momencie, gdy środki grup przestaną się
zmieniać lub będą się zmieniać o mniej niż pewna ustalona wartość.
• Zatrzymujemy algorytm, gdy sumaryczny błąd średniokwadratowy (SSE )
przestanie się istotnie zmniejszać. W tym przypadku SSE definiujemy
wzorem:
k X
d(p, mi )2 ,
X
SSE =
i=1 p∈Ci

gdzie Ci jest i-tą grupą, mi środkiem tej grupy. Pierwsza suma prze-
biega po wszystkich grupach, druga po wszystkich punktach z danej
grupy.
Po zakończeniu działania algorytmu zwykle próbujemy zbudować profi-
le otrzymanych grup, czyli znaleźć wspólne cechy rekordów, które do nich
należą. W tym celu analizujemy ostateczne środki grup, które można uznać
za typowych przedstawicieli tych grup. Często eliminuje się przy tym grupy
o małej liczebności oraz łączy bliskie sobie grupy w jedną. W przypadku,
gdy trudno o jakąś sensowną interpretację otrzymanego podziału, należy się
zastanowić, czy wartość k została wybrana prawidłowo.
Dostęp w IBM SPSS Statistics: Analiza –> Klasyfikacja –>
Analiza skupień metodą k-średnich... Wybieramy zmienne, na pod-
stawie których ma zostać dokonane grupowanie, oraz liczbę skupień. Możemy
też wczytać wstępne centra grup z pliku zewnętrznego.
Pod przyciskiem Iteracja... możemy ustawić maksymalną liczbę itera-
cji algorytmu (od 1 do 999, domyślnie 10) oraz kryterium zbieżności (liczba
z przedziału [0, 1], domyślnie 0). Wartość 0,02 oznacza na przykład, że algo-
rytm zatrzyma się, jeżeli w danej iteracji żaden ze środków grup nie prze-
mieści się o przynajmniej 2% minimalnej odległości między początkowymi

207
środkami grup. W tym samym oknie możemy włączyć opcję Użyj śred-
nich ruchomych. Spowoduje ona, że przy pierwszej iteracji środki grup
będą modyfikowane po przypisaniu do grupy każdego rekordu, zamiast do-
piero po przypisaniu wszystkich rekordów.
Jeżeli chcemy zapisać w pliku danych informację, do której grupy zostały
przypisane poszczególne obserwacje oraz w jakiej odległości od ostatecznych
środków grup się znajdują, to odpowiednie opcje znajdziemy po naciśnię-
ciu przycisku Zapisz... Z kolei przycisk Opcje... umożliwia wyświetlenie
w oknie raportu dodatkowych informacji (początkowych centrów skupień,
tabeli ANOVA oraz ostatecznego przydziału obserwacji do grup). Możemy
tu także wybrać sposób postępowania z obserwacjami zawierającymi braki
danych. Domyślnie z analizy wykluczane są wszystkie obserwacje, dla których
przynajmniej jedna wykorzystywana zmienna ma brak danych (jest to tzw.
metoda listwise deletion). Takie obserwacje nie zostaną przypisane do żad-
nej z grup. Zamiast tego możemy wybrać opcję Wyłączanie obserwacji
parami. Wówczas algorytm będzie przypisywał obserwacje do grup na pod-
stawie tych zmiennych, które nie mają braków danych. Jedynie w przypadku,
gdy we wszystkich zmiennych używanych w analizie występują braki danych,
obserwacja zostanie wykluczona (jest to tzw. metoda pairwise deletion).
Domyślny tryb pracy algorytmu to Iteracja i klasyfikacja, działa
on wówczas zgodnie z opisanymi powyżej zasadami. W przypadku bardzo
dużych zbiorów danych ustalanie centrów skupień na podstawie wszystkich
obserwacji może być mało efektywne. W takim przypadku zaleca się nastę-
pującą procedurę:
• Wybieramy ze zbioru danych losową próbę.

• Wykonujemy na tej próbie algorytm k-średnich w domyślnym trybie


Iteracja i klasyfikacja i ustalamy centra skupień.

• Zapisujemy uzyskane centra do pliku.

• Wczytujemy cały zbiór danych oraz wyznaczone wcześniej centra sku-


pień.

• Wykonujemy na całej próbie algorytm k-średnich w trybie Tylko kla-


syfikacja. Wszystkie obserwacje zostaną wówczas przypisane (w jed-
nym przebiegu) do najbliższych centrów skupień, a następnie centra
skupień zostają ostatecznie uaktualnione.
Ćwiczenie 9.4. (na podstawie „cases study” z IBM Knowlege Center) Fir-
ma telekomunikacyjna chce wyodrębnić grupy klientów o podobnym profilu
konsumenckim, a w szczególności wyznaczyć profil tych, którzy przynoszą

208
najwyższe zyski. Dzięki temu firma będzie mogła przygotować ofertę lepiej
dostosowaną do indywidualnych oczekiwań klientów. Dane dotyczące klien-
tów firmy znajdują się w pliku telco extra.sav (plik przykładowy programu).
Korzystając z metody k-średnich, podziel klientów na grupy jak najbardziej
jednorodne pod względem struktury wydatków na usługi tej firmy.

Rozwiązanie. Zbiór zawiera 1000 obserwacji, które opisane zostały za po-


mocą 46 zmiennych. W naszej analizie wykorzystamy tylko 14 z nich: zlnlong,
zlntoll, zlnequi, zlncard, zlnwire, zmultlin, zvoice, zpager, zinterne, zcallid, zcal-
lwai, zforward, zconfer, zebill. Zmienne te opisują wydatki klientów na różne
usługi firmy. Wszystkie zostały zestandaryzowane, a w celu usunięcia sko-
śności część z nich poddano wcześniej transformacji logarytmicznej. Zanim
przejdziemy do dalszej analizy sprawdzimy, czy interesujące nas zmienne za-
wierają braki danych. W tym celu wybieramy polecenie Analiza –> Opis
statystyczny –> Statystyki opisowe... W oknie Zmienne umieszcza-
my wymienione powyżej zmienne (ich etykiety rozpoczynają się od słowa
Standardized ) i klikamy OK.
Widzimy, że dla czterech zmiennych w kolumnie N znajdują się wartości
znacznie mniejsze niż 1000. Oznacza to, że w wielu obserwacjach występu-
ją braki danych. Co więcej, z ostatniego wiersza otrzymanej tabeli wynika,
że tylko 131 obserwacji z 1000 jest kompletnych (gdyż większość klientów
korzysta tylko z niektórych usług). Musimy o tym pamiętać, wykonując gru-
powanie.

209
Wybieramy polecenie Analiza –> Klasyfikacja –> Analiza sku-
pień metodą k-średnich... W oknie Zmienne umieszczamy wymienione
powyżej zmienne (ich etykiety rozpoczynają się od słowa Standardized ). Spró-
bujemy najpierw wyodrębnić 3 grupy klientów. Odpowiednią wartość wpisu-
jemy w polu Liczba skupień. Naciskamy przycisk Iteracje..., zwiększamy
liczbę iteracji do 20 i klikamy Dalej. Następnie naciskamy przycisk Opcje...
i zaznaczamy pola Wstępne centra skupień oraz Tabela ANOVA.
W polu Braki danych wybieramy opcję Wyłączanie obserwacji pa-
rami, gdyż wyłączenie z analizy wszystkich obserwacji zawierających braki
znacznie zmniejszyłoby nasz materiał badawczy. Klikamy przycisk Dalej,
a w głównym oknie OK.
Na początku raportu znajduje się tabela zawierająca wartości wszyst-
kich zmiennych dla 3 obserwacji, które algorytm wybrał jako wstępne centra
skupień. Zauważmy, że znacznie różnią się od siebie.
Kolejna tabela zawiera zapis przebiegu działania algorytmu. Pokazuje jak
bardzo zmieniało się położenie centrów skupień w poszczególnych krokach.
Zauważmy, że na początku zmiany te były stosunkowo duże, a pod koniec
nastąpiła stabilizacja. Algorytm zatrzymał się po 18 iteracjach. Zwróćmy
uwagę, że przeprowadzenie domyślnej liczby 10 iteracji nie zapewniłoby uzy-
skania stabilnego rozwiązania.

210
Tabela ANOVA wskazuje, które zmienne miały największy wpływ na zna-
lezione rozwiązanie. Zmienne z dużymi wartościami statystyki F zapewniają
najlepszą separację pomiędzy grupami. W naszym przypadku są to: Stan-
dardized caller id, Standardized paging i Standardized call waiting (zcallid,
zpager i zcallwai ). Uwaga: wyniki testu F mogą być wykorzystywane jedynie
w celach opisowych. Poziomy istotności wyświetlane w ostatniej kolumnie ta-
beli nie powinny być interpretowane jako testy hipotezy, że średnie skupień
są równe.

211
Najważniejsze informacje znajdują się w tabeli Ostateczne centra skupień.
Są to średnie wartości poszczególnych zmiennych dla wszystkich obserwacji
przypisanych do danej grupy. Środek grupy możemy traktować jako charak-
terystykę typowego przypadku należącego do tej grupy. Spróbujmy zinter-
pretować uzyskane wyniki.
W pierwszej grupie wartości wszystkich zmiennych są dodatnie. W przy-
padku zestandaryzowanych zmiennych oznacza to, że są to wartości większe
od średniej. Możemy więc uznać, że do tej grupy należą klienci, którzy wydają
dużo i korzystają z wielu różnych usług.
Do grupy drugiej należą klienci, którzy korzystają tylko ze standardowych
usług telefonicznych (rozmowy zamiejscowe, identyfikacja numeru dzwonią-
cego, przekazywanie połączeń itp.). Nie używają oni raczej usług takich jak
internet czy pager.
Do ostatniej grupy należą najmniej dochodowi klienci, którzy wydają
bardzo mało i korzystają z niewielkiej liczby usług.

212
Ostatnia tabela zawiera informacje o liczbie obserwacji przypisanych do
każdej z grup.

Niestety, ostatnia, najmniej dochodowa grupa, jest bardzo liczna, zawiera


prawie połowę wszystkich obserwacji. Sprawdzimy teraz, czy dodanie czwar-
tej grupy pozwoli nam wyodrębnić większą liczbę klientów, którzy są zainte-
resowani przynajmniej częścią usług firmy.

213
Ponownie wybieramy polecenie Analiza –> Klasyfikacja –> Ana-
liza skupień metodą k-średnich... Zmieniamy liczbę skupień na 4, resztę
opcji pozostawiamy bez zmian i klikamy OK.

Przeanalizujmy tabelę Ostateczne centra skupień. Grupa 3. to klienci naj-


bardziej dochodowi i korzystający z większości usług (odpowiednik grupy 1.
z podziału na trzy części). Grupa 4. to klienci średnio dochodowi i korzystają-
cy ze standardowych usług telefonicznych (odpowiednik grupy 2. z podziału
na trzy części). Grupy 1. i 2. powstały natomiast z podziału poprzedniej gru-
py 3. (najmniej dochodowych klientów). Zwróćmy jednak uwagę, że o ile do

214
grupy 2. trafili klienci, których wydatki we wszystkich kategoriach są mniej-
sze od przeciętnych, to klienci z grupy 1. korzystają często z nowoczesnych
usług (internet, wiele linii telefonicznych). Do grupy tej trafiło ponad 25%
wszystkich klientów. Podział na cztery grupy pozwolił więc na istotne zredu-
kowanie liczby mało dochodowych klientów. 

215
216
Bibliografia

[1] Babbie Earl: Podstawy badań społecznych. Wydawnictwo Naukowe


PWN, Warszawa, 2013.

[2] Bedyńska S., Cypryańska M. (red.): Statystyczny drogowskaz 1.


Praktyczne wprowadzenie do wnioskowania statystycznego. Wydawnic-
two Akademickie Sedno, Warszawa, 2013.

[3] Bedyńska S., Cypryańska M. (red.): Statystyczny drogowskaz 2.


Praktyczne wprowadzenie do analizy wariancji. Wydawnictwo Akade-
mickie Sedno, Warszawa, 2013.

[4] Bąk I., Markowicz I., Mojsiewicz M., Wawrzyniak K.: Staty-
styka w zadaniach. Część II: Statystyka matematyczna. Warszawa, Wy-
dawnictwa Naukowo-Techniczne, 2001.

[5] Harnett D. L., Soni A. K.: Statistical Methods for Business and
Economics. Addison-Wesley Publishing Company, 1991.

[6] Koronacki J., Mielniczuk J.: Statystyka dla studentów kierunków


technicznych i przyrodniczych. Warszawa, WNT, 2006.

[7] Krysicki W., Bartos J., Dyczka W., Królikowska K., Wasi-
lewski M.: Rachunek prawdopodobieństwa i statystyka matematyczna
w zadaniach. Część II: Statystyka matematyczna. Warszawa, PWN, wyd.
VIII, 2006.

[8] Larose D. T.: Metody i modele eksploracji danych. Wydawnictwo na-


ukowe PWN, Warszawa, 2008.

[9] Malarska A.: Statystyczna analiza danych wspomagana programem


SPSS. SPSS Polska, Kraków, 2005.

[10] Plucińska A., Pluciński E.: Probabilistyka. Warszawa, Wydawnic-


twa Naukowo-Techniczne, 2000.

217
[11] Rees D.G.: Essential Statistics. London, Chapman&Hall, 1995.

[12] Sheskin D.J.: Handbook of Parametric and Nonparametric Statistical


Procedures. Fifth Edition. Boca Raton, Chapman&Hall/CRC, 2011.

218
Spis treści

1. Metody wyboru próby 5

2. Podstawy pracy w IBM SPSS Statistics 7


2.1. Instalacja oprogramowania . . . . . . . . . . . . . . . . . . . . 7
2.2. Uruchamianie oprogramowania . . . . . . . . . . . . . . . . . 10
2.3. Okno danych . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4. Okno raportu . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5. Okno poleceń . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6. Okno skryptów* . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7. Tworzenie zbiorów danych . . . . . . . . . . . . . . . . . . . . 27
2.8. Import danych z plików tekstowych . . . . . . . . . . . . . . . 28
2.9. Import danych z plików formatu Excel . . . . . . . . . . . . . 29
2.10. Wczytywanie danych z baz danych* . . . . . . . . . . . . . . . 30
2.11. Zapisywanie danych w innych formatach . . . . . . . . . . . . 32
2.12. Przenoszenie elementów raportu do innych aplikacji . . . . . . 33
2.13. Ustawienia opcji użytkownika . . . . . . . . . . . . . . . . . . 36

3. Przekształcanie i rekodowanie zmiennych 43


3.1. Przekształcanie zmiennych . . . . . . . . . . . . . . . . . . . . 43
3.2. Restrukturyzacja danych* . . . . . . . . . . . . . . . . . . . . 50

4. Statystyka opisowa i grafika 53


4.1. Podstawowe statystyki . . . . . . . . . . . . . . . . . . . . . . 53
4.2. Ważenie obserwacji . . . . . . . . . . . . . . . . . . . . . . . . 61
4.3. Analiza danych w podgrupach . . . . . . . . . . . . . . . . . . 63
4.4. Zasady tworzenia wykresów statystycznych . . . . . . . . . . . 68
4.5. Kreator wykresów . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.6. Szablony wizualizacji danych . . . . . . . . . . . . . . . . . . . 78
4.7. Dodatkowe wykresy . . . . . . . . . . . . . . . . . . . . . . . . 86

5. Przedziały ufności 87

219
6. Testowanie hipotez 91
6.1. Test t-Studenta dla jednej średniej . . . . . . . . . . . . . . . 92
6.2. Test t-Studenta dla dwóch średnich i prób niezależnych . . . . 96
6.3. Test t-Studenta dla dwóch średnich i prób zależnych . . . . . . 100
6.4. Test Kołmogorowa . . . . . . . . . . . . . . . . . . . . . . . . 103
6.5. Test chi-kwadrat zgodności . . . . . . . . . . . . . . . . . . . . 109
6.6. Test chi-kwadrat niezależności . . . . . . . . . . . . . . . . . . 115
6.7. Dokładny test Fishera* . . . . . . . . . . . . . . . . . . . . . . 118
6.8. Test Wilcoxona znakowanych rang . . . . . . . . . . . . . . . . 121
6.9. Test U Manna-Whitneya* . . . . . . . . . . . . . . . . . . . . 126

7. Analiza wariancji 133


7.1. Analiza jednoczynnikowa . . . . . . . . . . . . . . . . . . . . . 133

8. Analiza regresji 143


8.1. Analiza regresji jednej zmiennej . . . . . . . . . . . . . . . . . 144
8.2. Analiza regresji liniowej wielu zmiennych . . . . . . . . . . . . 161
8.3. Regresja logistyczna . . . . . . . . . . . . . . . . . . . . . . . 172

9. Klasyfikacja i grupowanie 181


9.1. Zadanie klasyfikacji . . . . . . . . . . . . . . . . . . . . . . . . 181
9.2. Drzewa decyzyjne . . . . . . . . . . . . . . . . . . . . . . . . . 183
9.3. Zadanie grupowania . . . . . . . . . . . . . . . . . . . . . . . . 204
9.4. Algorytm k-średnich . . . . . . . . . . . . . . . . . . . . . . . 206

Bibliografia 217

220

You might also like