Professional Documents
Culture Documents
SMskrypt by J K-P
SMskrypt by J K-P
Joanna Karłowska-Pik
Statystyka matematyczna
z IBM SPSS Statistics
dla humanistów i przyrodników
Wersja z dnia 14 czerwca 2014
http://www-03.ibm.com/software/products/en/spss-stats-base/
(dostęp z dnia 04.03.2014).
C:\\Program Files\IBM\SPSS\Statistics\21\Samples\Polish.
3
mi rozwiązaniami i w przypadku rozbieżności ponownym wykonaniu zamiesz-
czonych w ćwiczeniu poleceń. Skrypt jest skierowany do osób posługujących
się systemem Windows w stopniu co najmniej podstawowym oraz posiada-
jących elementarną wiedzę z zakresu teorii prawdopodobieństwa.
Gwiazdką oznaczono tematy nieobowiązkowe przeznaczone dla osób szcze-
gólnie zainteresowanych metodami statystycznymi i oprogramowaniem SPSS.
4
Rozdział 1.
5
W statystyce próbą losową prostą o liczności n nazywamy ciąg nieza-
leżnych zmiennych losowych X1 , X2 , . . . , Xn o jednakowym rozkładzie. Kon-
kretny ciąg wartości x1 , x2 , . . . , xn próby losowej X1 , X2 , . . . , Xn jest nazywa-
ny realizacją próby losowej. Próbę losową prostą otrzymujemy realizując
schemat losowania ze zwracaniem. Natomiast nie otrzymamy jej realizując
schemat losowania bez zwracania. Tyko gdy liczność populacji jest bardzo
duża, możemy przyjąć, że w schemacie losowania bez zwracania otrzymamy
przybliżenie próby losowej prostej.
6
Rozdział 2.
7
• Wskazujemy folder docelowy, domyślnie:
C:\\Program Files\IBM\SPSS\Statistics\21\
i klikamy Dalej.
• Klikamy Instaluj.
Uwagi: Po upływie okresu ważności kodu, należy uzyskać nowy kod i wpro-
wadzić go, wybierając Start –> Wszystkie programy –> IBM SPSS
Statistics –> Kreator autoryzacji licencji. Nie trzeba instalować
programu ponownie (chyba, że pojawiła się nowa wersja).
Przystępujemy do instalacji materiałów znajdujących się na płycie PS
Bonus Pack (autosetup.exe). Są tam m.in. mapy do kartogramów, nowe style
tabel i samouczek IBM SPSS Statistics.
8
• Postępujemy zgodnie z zaleceniami kreatora instalacji Bonus Packa
i klikamy Dalej.
• Czytamy warunki umowy licencyjnej i klikamy Zgadzam się.
• Wybieramy katalog docelowy dla Bonus Packa, domyślnie
C:\\Program Files\IBM\SPSS\Statistics\21\
i klikamy Zainstaluj.
• Pojawia się komunikat o konieczności zainstalowania Essentials for Py-
thon (wtyczka SPSSa do języka Python). Klikamy OK.
• W oknie kreatora instalacji dla Essentials for Python czytamy infor-
macje o licencji i klikamy Next.
• Czytamy treść umowy licencyjnej, zaznaczamy I accept the terms
in the license agreement i klikamy Next.
• Czytamy informację o instalowanych elementach i klikamy Next.
• Wskazujemy katalog, w którym zainstalowaliśmy IBM SPSS Statistics
21 i klikamy Next.
• Czytamy, gdzie zostanie zainstalowany Python, i klikamy Install.
• Otrzymujemy komunikat o pomyślnej instalacji Pythona i klikamy Fi-
nish.
• Otrzymujemy komunikat o pomyślnej instalacji Bonus Packa. Możemy
od razu uruchomić program IBM SPSS Statistics 21, zaznaczając tę
opcję. Klikamy Zakończ.
Uwagi:
• W przypadku komunikatu, że zapora systemu Windows zablokowała
niektóre funkcje tego programu, można kliknąć Anuluj.
• Przy pytaniu o sposób kodowania znaków, można kliknąć Użyj kodo-
wania Unicode.
• Warto zwrócić uwagę, że na płycie z Bonus Packiem znajduje się sa-
mouczek programu IBM SPSS Statistics zawierający wiele prezentacji
multimedialnych, które mogą w przyszłości ułatwić naukę pracy z pro-
gramem.
9
2.2. Uruchamianie oprogramowania
Program uruchamiamy, klikając dwukrotnie odpowiednią ikonę, bądź wybie-
rając Start –> Wszystkie programy –> IBM SPSS Statistics –>
IBM SPSS Statistics 21.
Po uruchomieniu programu pojawia się okno dialogowe. Można od razu
z niego coś wybrać lub kliknąć Anuluj.
Program pozwala na pracę z następującymi oknami:
• Okno danych. Plik –> Otwórz –> Dane... Pliki danych programu
IBM SPSS Statistics mają rozszerzenie .sav.
• Okno edytora skryptów. Plik –> Otwórz –> Skrypt... Pliki skryp-
tów programu IBM SPSS Statistics mają rozszerzenie .wwd bądź .py.
10
U dołu arkusza znajdują się dwie zakładki pozwalające na przełączanie
się z arkusza danych do arkusza specyfikacji zmiennych. Dla każdej zmiennej
określone są tam:
11
• Kolumny – liczba znaków w kolumnie (szerokość kolumny), powinna
być tak dobrana, żeby mieściły się dane i nazwy zmiennych;
12
mogą one pomóc nam zdecydować, czy dalej prowadzić kampanię wybor-
czą (gdy w przewadze będą odpowiedzi „nie wiem na kogo zagłosuję”), czy
z niej zrezygnować (gdy w przewadze będą odpowiedzi „nie idę na wybory”).
Wprowadzając dane, oznaczamy:
13
nazwa miejscowości, w której może być zameldowany mieszkaniec wojewódz-
twa pomorskiego, czy zawód.
Inaczej jest, gdy interesującą nas cechą jest stopień sympatii do pewnej
partii politycznej, przy czym cecha ta może występować na pięciu poziomach:
nienawidzę, nie lubię, jest mi obojętna, lubię, bardzo lubię. Ów stopień sym-
patii jest ewidentnie uporządkowany, ponieważ możliwe poziomy sympatii po-
trafimy uporządkować od najgłębszej antypatii do wielkiej sympatii. Podobnie
mamy do czynienia z cechą uporządkowaną, gdy pytamy nie o kolor włosów,
a o to, czy ktoś jest łysy, ma mało włosów, ma typową liczbę włosów na
głowie, czy też ma gęstą czuprynę. [...]
Przyglądając się uważniej podanym przykładom cech jakościowych musi-
my dostrzec, iż różnią się co do statusu nie tylko tym, że są albo nominalne,
albo uporządkowane. Cechy nominalne są cechami fundamentalnie jakościo-
wymi w tym sensie, że nie mają żadnych związków z cechami ilościowymi.
Przy tym cecha taka pozostaje fundamentalnie jakościową także wtedy, gdy
jej kategorie zakodujemy z jakiegoś względu jako liczby – liczba odgrywa wów-
czas jedynie rolę nazwy i nie ma żadnego sensu np. odejmowanie jednej liczby
od drugiej [...]
W przeciwieństwie do cech nominalnych, cechy uporządkowane mają –
w mniejszym lub większym stopniu – związek z pewnymi cechami ilościowy-
mi. W przypadku sympatii do określonej partii politycznej można zauważyć,
że niejako w tle mamy na myśli jakąś cechę mierzalną o nieskończenie wielu
wartościach. Możemy powiedzieć, że między nienawiścią a miłością do partii
politycznej (nie ma tu nic do rzeczy, że takie skrajne uczucia w odniesie-
niu do partii politycznej nie są racjonalne) istnieje continuum różnych stopni
sympatii. Ponieważ jednak owej intuicji mierzalności sympatii na skali o nie-
skończenie wielu wartościach nie umiemy sprecyzować, nie tylko mamy rację
cechę tę uznając za jakościową, ale też uznając jej związek z jakąś cechą ilo-
ściową za bardzo niejasny.
Z kolei taka cecha jak fakt mieszkania na wsi lub w małym, średnim czy
dużym mieście może mieć mocny i dobrze określony związek z cechą ilościo-
wą, a mianowicie z liczbą mieszkańców miast Pomorza. Otóż interesująca
nas tu cecha jakościowa mogła powstać przez ustalenie, iż małymi miastami
nazywamy miasta o liczebności mieszkańców do 50 000, natomiast miastami
średnimi są miasta zamieszkiwane przez więcej niż 50 000, ale nie więcej niż
200 000 osób. A zatem cechy ewidentnie jakościowe mogą powstawać przez
dyskretyzację jakiejś cechy ilościowej [...]
W niniejszym wprowadzeniu musimy jeszcze poruszyć dwie kwestie inter-
pretacyjne – traktowania danych jakościowych jako ilościowych i odwrotnie,
traktowania cech ilościowych tak jakby były jakościowymi.
Oceniamy studentów, stosując stopnie z pozoru liczbowe [...] Dziwi nas, że
14
np. Anglosasi stosują wyłącznie oceny literowe [...] A przecież oceny opisują
cechę jakościową! Student, który ma trójkę nie jest o 1 lepszy od studenta
z dwóją [...] Jeszcze śmieszniej brzmiałoby stwierdzenie, że student czwórko-
wy jest 2 razy lepszy od dwójkowego. [...] Gdy zatem mamy dokonać anali-
zy danych z pozoru liczbowych, trzeba zacząć od sprawdzenia, czy nie są to
w istocie kody kategorii jakościowych i jeśli tak, to – gdy jest to tylko możliwe
– postępować zgodnie z procedurami właściwymi dla danych jakościowych.
Niekiedy usprawiedliwia się pogwałcenie podanej właśnie reguły, trzeba
jednak zawsze zachować krytycyzm wobec takiego, metodologicznie niepopraw-
nego postępowania. Na przykład, jeżeli ocenom z kolokwiów, testów i ustnych
odpowiedzi w ciągu semestru trudno jest nadać obiektywny, ilościowy cha-
rakter, wypada pozostać przy ocenach porządkowych. Jeżeli są to oceny za-
kodowane liczbowo, trudno na koniec semestru postąpić inaczej niż wystawić
ocenę równą średniej z ocen uzyskanych w ciągu semestru, mimo, że jest to
krok arbitralny, a jego ścisłe uzasadnienie nie istnieje. [...]
Przejdźmy teraz do drugiej z wymienionych kwestii interpretacyjnych, czy-
li do traktowania zmiennych ilościowych jako jakościowych. Niekiedy, gdy
zmienna ilościowa przyjmuje bardzo mało wartości, nie jest błędem meto-
dologicznym potraktowanie takiej zmiennej jako jakościowej. Można powie-
dzieć, że nieraz uzasadnione jest potraktowanie możliwych wartości zmiennej
ilościowej jako różnych kategorii zmiennej jakościowej o uporządkowanych
wartościach. Co więcej, dyskretyzację zmiennej ilościowej [...] można rów-
nież potraktować jako przekształcenie tej zmiennej w uporządkowaną cechę
jakościową. [...]
Podkreślmy jeszcze, że traktowanie oryginalnych zmiennych ilościowych
jako uporządkowanych cech jakościowych zawsze wymaga usprawiedliwienia
przez cel, jakiemu ma służyć. [...] Trzeba jednak zawsze pamiętać, że potrak-
towanie zmiennej ilościowej jako jakościowej uniemożliwia uzyskanie odpo-
wiedzi na wszelkie pytania wymagające ilościowego charakteru zmiennej.
I jeszcze jeden cytat (D.J. Sheskin, Handbook of Parametric and Nonpa-
rametric Statistical Procedures [12, str. 2], tłumaczenie własne):
Mimo że w praktyce IQ i wiele innych ludzkich charakterystyk mierzonych
testami psychologicznymi (takich jak obawa, introwertyzm-ekstrawertyzm itp.)
są traktowane jako zmienne mierzone na skali przedziałowej, wielu badaczy
będzie argumentować, że bardziej właściwa będzie dla nich skala porządkowa.
Taki argument będzie bazować na fakcie, że takie miary nie spełniają wy-
magań skali przedziałowej, ponieważ nie można wykazać, że równe różnice
liczbowe w różnych punktach skali są porównywalne.
15
a) Sprawdź, ilu respondentów przebadano.
C:\\Program Files\IBM\SPSS\Statistics\21\Samples\Polish.
b) Kolejne zmienne to
• id – kod pracownika,
• gender – płeć pracownika,
• bdate – data urodzenia,
• educ – wykształcenie (w latach nauki),
• jobcat – grupa pracownicza,
• salary – wynagrodzenie bieżące,
• salbegin – wynagrodzenie początkowe,
• jobtime – czas pracy (miesiące),
• prevexp – poprzednie zatrudnienie (miesiące),
• minority – przynależność do mniejszości.
W IBM SPSS Statistics własności zmiennych ustawiamy w oknie edytora
danych, w zakładce Zmienne. Program oferuje nam pewne udogodnienie.
16
Uzyskujemy je, wybierając z menu Dane –> Definiuj własności zmien-
nych... W pierwszym oknie dialogowym wybieramy zmienne, które nas in-
teresują. Wartości tych zmiennych są wówczas skanowane i na ich podsta-
wie program wyświetla właściwości zmiennych i proponuje poziom pomiaru.
W przypadku dużych zbiorów danych możemy ograniczyć liczbę skanowa-
nych obserwacji. W przypadku zmiennych o wielu możliwych wartościach
(np. zmienne ilościowe), możemy ograniczyć liczbę skanowanych wartości.
W drugim oknie dialogowym dla każdej z wybranych zmiennych możemy
uzupełnić jej właściwości, w szczególności ustawić poziom pomiaru (uwaga:
program sugeruje poziom pomiaru tylko i wyłącznie na podstawie liczby róż-
nych wartości zmiennej występujących w pliku, w szczególności przy małej
liczbie różnych wartości będzie sugerował poziom nominalny lub porządkowy
– nie zawsze powinniśmy się z tym zgadzać). Bardzo użyteczna jest możliwość
dopisania brakujących etykiet oraz oznaczenia braków danych.
17
• Wybieramy zmienną dzieci. Ma ona etykietę Liczba dzieci i poziom
pomiaru ilościowy. Klikamy Zasugeruj... Ze względu na niewielką
liczbę przyjmowanych wartości program sugeruje poziom porządkowy
lub nominalny. Nie powinniśmy się na to zgadzać. Należy pozostawić
poziom ilościowy. Przeglądając tabelę wartości, widzimy wartość 99 –
nie wiem. Oznaczamy ją jako brak danych.
18
aktywowanej tabeli i wybranie Szablony TableLook... Do przestawiania
wierszy i kolumn tabeli służy panel przestawiania.
Najwięcej możliwości mamy przy obróbce graficznej wykresów. Po uak-
tywnieniu fragmentu zawierającego wykres pojawia się edytor wykresu. Da-
je on nam możliwość zmiany np. słupków wykresu, ich wypełnienia, koloru,
kształtu; linii, ich grubości, koloru, stylu; osi układu oraz tekstu. Aby do-
konać zmian należy najpierw element, który chcemy edytować, zaznaczyć
kliknięciem myszką, a następnie wybrać odpowiednie opcje. Tu również ma-
my możliwość korzystania z gotowych szablonów lub zapisywania własnych.
Wystarczy w oknie edycji wykresu wybrać Plik –> Zapisz szablon wy-
kresu... lub Plik –> Zastosuj szablon wykresu... Dostępne szablony
znajdują się w katalogu C://Program Files/IBM/SPSS/Statistics/21/Looks.
W raporcie można zamieszczać własne komentarze. Aby dodać tekst na-
leży kliknąć na element raportu, pod którym tekst miałby się pojawić, a na-
stępnie wybrać Wstaw –> Nowy tekst.
d) Edytuj wykres. Ustaw efekt 3W. Zmień kolor wykresu na fioletowy i wy-
bierz deseń w ukośne paski. Zachowując proporcje, zmień rozmiar wykresu
tak, aby miał on wysokość przekraczającą 500 pkt. Dokonaj transpozycji
wykresu tak, aby słupki były narysowane poziomo.
e) Pod wykresem wstaw tekst „To jest wstępna analiza zmiennej wykształ-
cenie (w latach nauki)”.
19
a) Klikamy raz na napis „Częstości”, by go zaznaczyć, a następnie dwa razy,
20
by go aktywować. Zaznaczamy napis myszką i zmieniamy czcionkę na
Comic Sans MS, a jej kolor na czerwony (ikona z paletą).
b) Po wybraniu opcji Co to jest? pojawia się definicja minimum.
c)
Edycja tabeli odbywa się poprzez jej kliknięcie (w celu zaznaczenia), po-
dwójne kliknięcie (w celu aktywowania), a następnie kliknięcie na tabeli
prawym klawiszem myszki i wybranie opcji Właściwości tabeli...
Następnie wybieramy zakładkę Formaty. Wybierając odpowiedni ele-
ment z listy Obszar lub klikając na odpowiednie miejsce tabeli na pod-
glądzie, dokonujemy jego edycji.
21
d) Klikamy wykres najpierw raz, a następnie dwa razy. Pojawia się wówczas
osobne okno edycji wykresu oraz okno właściwości (jeśli go nie ma, nale-
ży na oknie edycji wykresu kliknąć prawym klawiszem myszki i wybrać
Właściwości).
22
e) Klikamy na wykres, a następnie wybieramy z menu Wstaw –> Nowy
tekst. W otrzymane pole tekstowe wpisujemy podane w zadaniu zdanie.
23
• Plik poleceń otwieramy, wybierając z menu Plik –> Nowy –> Po-
lecenia.
24
• Polecenia wpisujemy do okna poleceń „ręcznie” lub korzystamy z inter-
fejsu graficznego i klikamy Wklej zamiast OK (wtedy okno edytora
poleceń otworzy się automatycznie).
25
• VARIABLE LABELS zmienna ’etykieta’. – tworzy etykietę zmiennej
(puste apostrofy czyszczą etykietę).
Przy definiowaniu lub pracy na zmiennych pomocne mogą być słowa ALL
i TO. Pierwsze oznacza wykonanie polecenia dla wszystkich zmiennych, dru-
gie dla zmiennych ze zdefiniowanego zakresu zmienna1 TO zmiennaN, przy
czym przez zakres należy rozumieć zakres od zmiennej zmienna1 do zmien-
naN według kolejności występowania w pliku danych, np. sex TO age. Jeśli
chcemy korzystając ze słówka TO stworzyć nowe zmienne, to mogą mieć
one dowolny tekstowy początek nazwy, ale koniec nazwy powinien być licz-
bą, np. produkt1 TO produkt15 poprzedzone poleceniem tworzącym zmienne
spowoduje pojawienie się w pliku 15 nowych zmiennych.
26
języka Python. Program IBM SPSS Statistics zawiera kilka przykładowych
skryptów.
C:\\Program Files\IBM\SPSS\Statistics\21\Samples\
ExportTablesToExcelFiles.wwd.
27
Ćwiczenie 2.6. Utwórz własny plik uczniowie.sav zawierający dane 10 uczniów
biorących udział w badaniu. Plik powinien zawierać następujące dane: na-
zwisko ucznia, imię ucznia, datę urodzenia, wiek w momencie przeprowadza-
nia wywiadu, płeć (dziewczynka, chłopiec), typ szkoły (np. 1 – podstawowa,
2 – gimnazjum, 3 – średnia). Następnie, używając języka poleceń, utwórz
5 zmiennych numerycznych lubię1, . . . , lubię5 o etykietach kolejno Stosu-
nek respondenta do czytania książek, oglądania filmów, spacerów, uprawiania
sportu, słuchania muzyki i wartościach 1 – bardzo nie lubię, 2 – nie lubię, 3 –
jest mi to obojętne, 4 – lubię, 5 – bardzo lubię, 9 – nie wiem. Oznacz 9 jako
brak danych. Wszystkim zmiennym przypisz odpowiedni poziom pomiaru.
28
predefiniowany uzyskuje się po przejściu wszystkich kroków kreatora
i zapisaniu takiego formatu na końcu. Można go użyć przy wczytywa-
niu kolejnych plików – skraca to liczbę kroków w kreatorze.
Uwagi: Program IBM SPSS Statistics korzysta z lokalnych ustawień syste-
mu. Oznacza to, że dla systemu Windows w polskiej wersji językowej, a co
za tym idzie dla zainstalowanego na nim programu IBM SPSS Statistics, se-
paratorem miejsc dziesiętnych jest przecinek, a nie kropka. Dane, w których
separatorem miejsc dziesiętnych jest kropka będą przez program wczytywane
jako tekstowe, a nie numeryczne, co oznacza, że nie da się na nich wykony-
wać żadnych działań i analiz. Najlepszym i najprostszym rozwiązaniem jest
zamiana separatora z kropki na przecinek przed wczytaniem pliku do pro-
gramu.
29
• Wybieramy w IBM SPSS Statistics: Plik –> Otwórz –> Dane...,
zmieniamy na dole ustawienie na Pliki typu: Excel i otwieramy
żądany plik.
• Specyfikujemy zmienne.
30
• Otwiera się kreator przejmowania baz danych. Spośród zdefiniowanych
źródeł baz danych wybieramy MS Access Database, klikając dwukrot-
nie myszką. Uwaga: mogą wystąpić problemy, jeśli przy 64-bitowym
systemie Windows (a tym samym instalującym się automatycznie 64-
bitowym SPSSie) na komputerze jest zainstalowany 32-bitowy Office.
Program będzie wtedy wyświetlał komunikat o konieczności logowania.
Uwagi:
• Pliki zapisane jako pliki baz danych programu IBM SPSS Statistics
można edytować: Plik –> Przejmij bazę danych –> Edytuj
kwerendę..., lub otwierać: Plik –> Przejmij bazę danych –>
Uruchom kwerendę...
31
Ćwiczenie 2.9. Wczytaj bazę demo.mdb (plik przykładowy programu) do
IBM SPSS Statistics. Spośród 1000 pierwszych osób, których samochód nale-
ży do kategorii 3 (luksusowe), wybierz losowo 10. Zapisz plik jako demo.spq.
Następnie edytuj kwerendę i zmień wybrane osoby na te, których samochód
należy do kategorii 2.
Otwórz bazę demo2.mdb (dostępna na Moodle). Zawiera ona dwie tabele:
demo i KlasaSmochodu oraz kwerendę demo. Zamknij bazę danych i uruchom
kreator przejmowania baz danych. Po otwarciu bazy przerzuć do prawego
okna obie tabele. Następnie zaznacz relację między nimi: zmiennej CARCAT
z tabeli demo odpowiada zmienna id z tabeli KlasaSamochodu. Zaznacz obie
zmienne, trzymając klawisz Ctrl i kliknij Połącz. Następnie wybierz loso-
wą próbę 10% obserwacji z grupy respondentów, którzy nie przekroczyli 50.
roku życia. Plik zapisz jako demo2.spq. Wczytaj go jako plik .sav.
32
Klikamy przycisk Zmienne... i zaznaczamy do zapisu tylko wymienione
w zadaniu zmienne.
33
format pliku wynikowego i format plików grafiki. Dostępne są następujące
formaty:
• Excel (*.xls),
• HTML (*.htm),
• Word/RTF (*.doc),
34
Aby zapisać wykres w formacie jpg, zaznaczamy go najpierw w raporcie
poprzez pojedyncze kliknięcie myszką. Następnie wybieramy Plik –> Eks-
portuj... Zaznaczamy opcję Wybrane i wybieramy typ Brak (tylko
grafika). Jako typ grafiki wybieramy jpg oraz podajemy nazwę i lokaliza-
cję docelowego pliku.
35
2.13. Ustawienia opcji użytkownika
Program pozwala na ustawienie wielu indywidualnych opcji, które znacznie
ułatwiają pracę.
Uwaga: Jeśli chcesz zachować możliwość powrotu do domyślnych opcji pro-
gramu, uruchom okno poleceń, wpisz do niego polecenie PRESERVE. (z krop-
ką!) i uruchom je przyciskiem z zieloną strzałką. Polecenie to zachowuje ak-
tualne ustawienia. Powrót jest możliwy po zastosowaniu polecenia RESTO-
RE. Polecenia te należy stosować w czasie tej samej sesji pracy z programem.
Po zamknięciu pliku poleceń powrót do ustawień domyślnych nie będzie moż-
liwy.
Po wybraniu z menu Edycja –> Opcje pojawia się okno dialogowe,
w którym można ustawić własne opcje pracy z programem. Każda z zakładek:
Ogólne, Raporty, Dane, Użytkownika, Etykietowanie, Wykresy,
Tabele przestawne, Lokalizacje plików, Skrypty, Podstawienia,
Polecenia umożliwia ustawienie innej grupy opcji.
1. Ogólne
a) Listy zmiennych
• Pokaż etykiety – w oknach dialogowych zmienne będą identy-
fikowane przez swoje etykiety,
• Pokaż nazwy – w oknach dialogowych zmienne będą identyfiko-
wane poprzez swoje nazwy,
• Alfabetycznie – zmienne w oknach dialogowych będą wyświe-
tlane w kolejności alfabetycznej,
• Plik – zmienne w oknach dialogowych będą wyświetlane w kolej-
ności, w jakiej występują w pliku danych.
• Poziom pomiaru – zmienne w oknach dialogowych będą upo-
rządkowane według poziomu pomiaru w kolejności: nominalny, po-
rządkowy, ilościowy.
b) Role – pozwala określić, czy program ma automatycznie umieszczać
zmienne w niektórych polach okien dialogowych, zgodnie z rolami zde-
finiowanymi w pliku danych, czy ma pozostawiać zmienne w polu wyj-
ściowym do samodzielnego przeniesienia zgodnie z potrzebami użyt-
kownika.
c) Windows
• Wygląd – wygląd (kolorystyka, ikony) okien programu, do wy-
boru SPSS Standard (domyślnie), SPSS Classic lub Windows.
36
• Otwórz na starcie okno języka poleceń – wraz z uru-
chomieniem programu otworzy się okno języka poleceń (Syntax
Editor).
• Otwieraj jednocześnie tylko jeden zbiór danych – po
wybraniu tej opcji w momencie otwarcia nowego pliku danych,
poprzedni będzie zamykany.
d) Kodowanie znaków w danych i poleceniach – regionalnie lub
Unicode.
e) Raport
• Blokuj notację naukową dla małych liczb w tabelach
wynikowych – wyniki będą się pojawiać wyłącznie w postaci
liczb w zapisie dziesiętnym,
• Zastosuj przyjęty sposób grupowania cyfr przy pre-
zentacji liczb – zależne od ustawień języka, chodzi np. o od-
dzielanie spacją tysięcy od setek, milionów od tysięcy itd.,
• System pomiarowy – jednostka, przy użyciu której definiuje się
rozmiary tabel i wykresów,
• Język – język, w jakim mają się tworzyć wyniki raportu (język ten
może być inny niż język menu programu, tj. można mieć polskie
menu, ale tworzyć raporty z angielskimi opisami).
• Powiadomienie o wyniku
– Przesuń na wierzch okno wynikowe – w momencie uzy-
skania wyniku okno zawierające ten wynik automatycznie zo-
staje wyświetlone jako pierwsze,
– Przewiń do nowego wyniku – automatycznie przewija np.
okno raportu do nowo uzyskanego wyniku,
– Dźwięk – możliwość sygnalizowania dźwiękiem pojawienia się
nowego wyniku.
f) Interfejs użytkownika - pozwala wybrać język używany w menu,
oknach dialogowych i innych funkcjach interfejsu użytkownika. Nie ma
wpływu na język wyników w raporcie.
37
b) Polecenia w dzienniku – określa, czy zapisywać wszystkie wykona-
ne polecenia w dzienniku (plik *.jnl, którego lokalizację można ustawić
w zakładce Lokalizacje plików).
c) Tytuł – możliwość ustawienia parametrów czcionki tytułu. Tytuł po-
jawia się na górze pierwszej strony raportu.
d) Tytuł strony – możliwość ustawienia parametrów czcionki tytułu
strony. Tytuł strony pojawia się na górze każdej strony raportu oprócz
pierwszej.
e) Wynik tekstowy – możliwość ustawienia parametrów czcionki wy-
ników tekstowych.
3. Dane
38
4. Użytkownika – możliwość ustawienia pięciu formatów wyświetlania da-
nych. Formaty te mogą zawierać specjalny symbol przed lub po oraz
w określony przez użytkownika sposób wyświetlać liczby ujemne. Mogą
służyć np. do zdefiniowania formatu opatrzonego znakiem % lub sym-
bolem PLN. Po zdefiniowaniu tutaj odpowiedni format należy ustawić
zmiennej w zakładce Zmienne.
5. Etykietowanie
6. Wykresy
a) Szablon wykresu
• Zastosuj bieżące ustawienia – chodzi o ustawienia definiowa-
ne niżej,
• Użyj wzorca wykresu z pliku szablonu – pliki szablonu
znajdują się w
C:\\ProgramFiles\IBM\SPSS\Statistics\21\template
(szablon domyślny) oraz w
C:\\ProgramFiles\IBM\SPSS\Statistics\21\Looks
(dodatkowe pliki szablonu). Pliki szablonu mają rozszerzenie *.sgt.
Można zapisać własny plik szablonu. W tym celu należy utworzyć
wykres o żądanych właściwościach i zapisać go jako szablon z roz-
szerzeniem *.sgt (w oknie edytora wykresów należy wybrać Plik
–> Zapisz).
b) Proporcje wykresu – wartość współczynnika można określać w za-
kresie od 0,1 do 10,0. Wartość 1 spowoduje utworzenie wykresu kwa-
dratowego. Wartość mniejsza od 1 spowoduje, że wykresy będą wyższe
niż szersze. Wartość większa od 1 spowoduje, że wykresy będą szersze
niż wyższe.
39
c) Aktualne ustawienia – można tu zmieniać ustawienia zaznaczone
jako bieżące.
d) Wykorzystanie stylów dla oznaczeń elementów danych –
umożliwia dostosowanie kolorów, stylów linii, symboli znaczników oraz
deseni wypełnień dla nowych wykresów. Można zmienić kolejność ko-
lorów i deseni używanych podczas tworzenia nowego wykresu.
7. Tabele przestawne
8. Lokalizacje plików
40
c) Folder tymczasowy – podajemy ścieżkę do folderu tymczasowego.
d) Liczba wyświetlanych ostatnio użytych plików – liczba wy-
świetlanych plików widoczna w menu Plik –> Ostatnio używane
pliki.
41
42
Rozdział 3.
Przekształcanie i rekodowanie
zmiennych
43
Zmienne można to ustawić zgodnie z własnymi potrzebami.
Rozwiązanie.
44
c) Wybieramy z menu Przekształcenia –> Oblicz wartości...
Resetujemy ustawienia. W pole Zmienna wynikowa wpisujemy
nazwę doświadczony. Klikamy Typ i etykieta i wpisujemy ety-
kietę przepracował co najmniej 20 lat. Zapisujemy w polu Wy-
rażenie numeryczne warunek logiczny jobtime + prevexp >=
240. Klikamy OK. W zakładce Zmienne w polu Wartości wpi-
sujemy 1 – tak, 0 – nie.
45
Uwagi: W przypadku rekodowania nierozłącznych przedziałów na dwie
różne wartości, np. przedziału [0, 4] na 1, a [3, 6] na 2, wszystkie warto-
ści z pierwszego z podanych przedziałów zostaną przekodowane na 1,
a z drugiego przedziału rekodowaniu na 2 ulegną tylko wartości, któ-
rych w pierwszym przedziale nie było, tj. należące do przedziału (4, 6].
To pozwala nie martwić się o wartości brzegowe klas, zostaną one re-
kodowane w zależności od kolejności, w jakiej podawaliśmy klasy do
rekodowania.
46
Po wyznaczeniu wartości nowej zmiennej dokonujemy jej specyfikacji
w oknie Zmienne. Gotowy plik jest dostępny na Moodle.
• Automatyczne rekodowanie Najczęściej stosowane do zamiany zmien-
nych tekstowych na numeryczne. Program kategoriom zmiennej tek-
stowej (w porządku alfabetycznym) przyporządkowuje kolejne liczby
naturalne, przy czym wartości zmiennej tekstowej stają się etykietami
wartości zmiennej numerycznej. Dostęp w programie: Przekształce-
nia –> Automatyczne rekodowanie...
Ćwiczenie 3.5. Otwórz plik Employee data.sav (plik przykładowy
programu). Rekoduj zmienną gender o wartościach ’k’ – Kobieta i ’m’
– Mężczyzna na zmienną płeć o wartościach numerycznych z odpowied-
nimi etykietami.
47
zmiennych. Należy tu podać nazwę zmiennej po kategoryzacji. Następ-
nie po kliknięciu Punkty podziału... otwiera się kolejne okno, w któ-
rym można wybrać Równe szerokości przedziałów (i ustawić po-
dział danych, wypełniając co najmniej dwa spośród trzech pól), Rów-
ne percentyle (ustalamy podział wypełniając przynajmniej jedno
pole) lub Punkty podziału w średniej i odchyleniach stan-
dardowych. Klikając Zast..., wracamy do poprzedniego okna, w któ-
rym teraz widać dokonany podział na wykresie słupkowym i w tabe-
li wartości i etykiet. Punkty podziału na wykresie słupkowym można
ręcznie przesuwać, wówczas wartości w tabeli wartości i etykiet będą
aktualizowane automatycznie. Po ustawieniu żądanego podziału klika-
my Ok. Nowa zmienna przyjmuje wartości będące kolejnymi liczbami
naturalnymi, numeruje ona kolejne grupy.
Rozwiązanie.
476 : 4 = 119.
48
W tabeli wartości i etykiet utworzonym klasom możemy nadać
etykiety.
b) Wybieramy z menu Przekształcenia –> Kategoryzacja
wizualna... Jako zmienną do kategoryzacji wybieramy zmienną
jobtime. W kolejnym oknie pojawia się podgląd z histogramem.
W pole Skategoryzowana wpisujemy nazwę nowej zmiennej
np. jobtime klasy. Klikamy Punkty podziału. Zaznaczamy Rów-
ne percentyle. Jako liczbę punktów podziału wpisujemy 3,
wówczas program sam wstawi 25% jako szerokość przedziałów.
Klikamy Zast...
49
Jak widać klasy są tylko w przybliżeniu równoliczne. Wynika to
z faktu, że wśród danych było wiele powtarzających się wartości,
które musiały zostać zakwalifikowane do tylko jednej z klas.
50
mówi ona, w której kolumnie znajdowała się dana wartość przed re-
strukturyzacją.
• Krok 5. Dostępny, jeśli w kroku 4. zdecydowaliśmy się utworzyć
zmienne indeksujące. Tutaj należy ustalić wartości zmiennych indek-
sujących. Mogą to być kolejne liczby naturalne albo nazwy kolumn,
z których pochodzą dane.
• Krok 6. Traktowanie zmiennych niewybranych – tu można
zdecydować, czy zmienne, których nie restrukturyzujemy, mają być
dołączone do pliku wynikowego. Systemowe braki danych lub
puste wartości we wszystkich zmiennych transponowa-
nych – tu można zdecydować jak traktować braki danych. Zmienna
zliczająca obserwacje mówi o tym, ile nowych wierszy powstało z jed-
nego wiersza danych wejściowych.
• Koniec. Wykonanie restrukturyzacji. Po wybraniu opcji Restruk-
turyzuj dane plik wejściowy zostanie zastąpiony nowym.
51
• Krok 4. Porządek nowych grup zmiennych określa porządek kolumn
w pliku wynikowym. Opcja Grupuj według zmiennej orygi-
nalnej spowoduje, że kolumna z pliku wejściowego, która została
podzielona utworzy grupę, w której kolumny różnią się wartością in-
deksu. Opcja Grupuj według indeksu spowoduje, że grupy utwo-
rzą podzielone kolumny z pliku wejściowego o różnych nazwach, ale
takim samym indeksie. Zmienna zliczająca obserwacje mówi o licz-
bie wierszy, które zostały wykorzystane do utworzenia nowego wier-
sza w pliku wynikowym. Zaznaczenie opcji Zmienne wskaźnikowe
spowoduje utworzenie zmiennej wskaźnikowej dla każdej unikatowej
wartości zmiennej indeksującej. Zmienna wskaźnikowa jest równa 1,
jeśli w pliku wejściowym dla jej indeksu była wartość równa wartości
zmiennej identyfikującej oraz jest równa 0 w przeciwnym wypadku.
• Koniec. Wykonanie restrukturyzacji. Po wybraniu opcji Restruk-
turyzuj dane plik wejściowy zostanie zastąpiony nowym.
52
Rozdział 4.
• Średnia PN
i=1 xi
x̄ = .
N
53
Średnią podajemy z dokładnością o 1 większą niż dane. Może być wy-
korzystywana w dalszych obliczeniach statystycznych. Jest najmniej
podatna na błąd jako przybliżenie średniej dla całej populacji, ale
wrażliwa na nienormalnie duże lub nienormalnie małe wartości skrajne.
W przypadku rozkładów dwu- i wielomodalnych bywa myląca.
W dowcipie rysunkowym robotnik mówi do dziennikarki: Średnio rocz-
nie w naszej firmie zarabia się 100 000 zł. Prezes zarabia milion, a nasza
dziesiątka po 10 000.
• Mediana – wartość środkowa. Jeśli N jest nieparzyste, to medianą jest
x +x
x((N +1)/2) , a jeśli parzyste, to (N/2) 2((N/2)+1) . Łatwa do zrozumienia.
Nie ulega deformacji ze względu na nienormalnie duże lub nienormal-
nie małe wartości skrajne. Dla małych zbiorów danych, o pewnej szcze-
gólnej postaci, nie jest dobrą charakterystyką tendencji centralnej (np.
medianą dla 5, 5, 5, 9, 10 jest 5).
Miary rozproszenia:
• Rozstęp R = xmax − xmin .
• Kwantyle:
– kwartyle,
– decyle,
– percentyle.
Kwantyle rzędu m to punkty podziału próbki na m „równych” części.
Kwantyli rzędu m jest m − 1. Kwantyle rzędu 4 to kwartyle. Kwantyle
rzędu 10 to decyle, a rzędu 100 to percentyle.
W SPSSie l-ty kwartyl rzędu m (dla l = 1, 2, . . . m − 1) jest liczony
według wzoru
! !
l l
Ql = k + 1 − (N + 1) x(k) + (N + 1) − k x(k+1) ,
m m m
h i
gdzie k = (N + 1) ml .
Graficzną prezentacją kwartyli jest wykres skrzynkowy (skrzynka z wą-
sami). Rysujemy go wzdłuż jednej osi ze skalą. Składa się on z pudełka
rozciągającego się od 1. do 3. kwartyla, z przedziałką na wysokości
mediany. Do pudełka doczepione są wąsy sięgające z jednej strony do
najmniejszej wartości zmiennej, a z drugiej do największej wartości
zmiennej.
54
Dla udoskonalonych wykresów skrzynkowych, a takie pojawiają się
w IBM SPSS Statistics, wąsy mają długość nieprzekraczającą 1, 5×rozstęp
międzykwartylowy (tzn. różnica Q3/4 − Q1/4 ). Każda wartość, która
znajduje się poza wąsami jest oznaczana kółeczkiem lub gwiazdką i na-
zywana wartością odstającą lub outsiderem. Kółkiem oznacza się war-
tości odstające o nie więcej niż 3 odstępy międzykwartylowe (tzw. war-
tości nietypowe), a gwiazdką odstające o ponad 3 odstępy międzykwar-
tylowe (tzw. wartości skrajne).
Wartości kwartyli wyznaczane alternatywnym algorytmem Tukey’a na-
zywane są zawiasami Tukey’a. Różnią się one od podstawowych war-
tości kwartyli wtedy, gdy rozkład zmiennej charakteryzuje się licznymi
brakami wystąpień wartości zmiennej ulokowanymi w pobliżu kwartyli
(„dziury” w histogramie w tych miejscach).
• Wariancja PN
2 − x̄)2
i=1 (xi
s = .
N −1
W przypadku, gdy zgromadzone dane traktujemy jako dane całej po-
pulacji, wariancję obliczamy, dzieląc sumę występującą w powyższym
wzorze przez N . Jeśli natomiast analizujemy próbkę i otrzymana wa-
riancja ma być przybliżeniem wariancji w całej populacji, należy dzielić
przez N − 1 (tak liczy IBM SPSS Statistics). Zapobiega to obciążeniu
tego przybliżenia (estymatora).
• Odchylenie standardowe
sP
N
− x̄)2
i=1 (xi
s= .
N −1
Odchylenie standardowe może nie być dobrą miarą rozproszenia, gdy
zmienna przyjmuje kilka wartości bardzo oddalonych od reszty lub gdy
rozkład jest mocno skośny.
55
• Błąd standardowy średniej
s
SE = √ .
N
• Kurtoza
PN P 2
4 N
N (N + 1) i=1 (xi − x̄) − 3(N − 1) i=1 (xi − x̄)2
K= .
(N − 1)(N − 2)(N − 3)s4
Podany wzór różni się od wzoru zazwyczaj podawanego w literaturze.
W naszym przypadku kurtoza dla standardowego rozkładu normalnego
jest równa 0 (a nie 3). Dlatego
56
estymator M Hampela oraz estymator dwuwagi Tukeya. Definicję moż-
na znaleźć w [9, str. 21]. Niejednoznaczna jest ocena wartości mery-
torycznej poszczególnych M-estymatorów. Wszystkie w zasadzie opisu-
ją symetryczne rozkłady ciągłej zmiennej losowej z wartościami skraj-
nymi dalszymi od tych, jakie wynikają z końcowych wartości ramion
rozkładu normalnego. W praktyce badawczej jednak często analizowa-
ne są rozkłady asymetryczne, miejscami zgęszczone [. . . ] i cechujące
się wartościami nietypowymi [. . . ]. W zastosowaniu do rozkładów asy-
metrycznych estymator Hubera i średnia ucięta wykazują zbieżność do
średniej, a inne estymatory (korygujące do dołu, tj.: Humpela, falowy
Andrew i dwuwagowy Tukey’a) – do mediany. W przypadku analiz roz-
kładu asymetrycznego sugeruje się eksplorację transformacji wartości
zmiennej (np. poprzez wyznaczenie wartości jej logarytmu), a nie wiel-
kości oryginalnych. [9, str. 23].
• normalizacja:
xi − xmin
ui = ,
R
po normalizacji zmienna ma wartości z przedziału [0, 1],
• standaryzacja:
xi − x̄
zi = ,
sx
po standaryzacji zmienna ma zawsze rozkład ze średnią 0 i odchyleniem
standardowym 1, a jej wartości odpowiadają liczbie jednostek odchy-
lenia standardowego (np. jeżeli po standaryzacji zmienna ma wartość
2, 5, to znaczy, że przed standaryzacją jej wartość odbiegała od średniej
o 2, 5 odchylenia standardowego).
57
Rozwiązanie.
58
b) Wybieramy Analiza –> Opis statystyczny –> Statystyki opi-
sowe... Do pola Zmienne przenosimy zmienną salary. Klikamy Opcje
i zaznaczamy interesujące nas statystyki. (W oryginalnej tabeli zamienio-
no wiersze na kolumny, otrzymując tabelę podaną poniżej).
59
60
Po wykonaniu tabel i wykresów należy dokonać oceny rozkładu. Tu za-
uważmy tylko, że rozkład jest mocno skośny prawostronnie, leptokurtyczny,
z wieloma wartościami odstającymi.
61
Rozwiązanie. Wybieramy Analiza –> Opis statystyczny –> Czę-
stości... Do pola Zmienne przenosimy zmienną uszkodzenia. Pod przyci-
skiem Statystyki wybieramy średnią, a pod przyciskiem Wykresy – hi-
stogram. Odznaczamy opcję Pokaż tabele częstości.
Jak widać powyższy wykres nie ma w ogóle sensu, można z niego odczytać
jedynie, że każda kategoria wystąpiła jeden raz. W tabeli natomiast częstość
jest równa liczbie klas.
Włączamy opcję ważenia: Dane –> Ważenie obserwacji... Zaznacza-
my Zważ obserwacje, a jako zmienną ważącą podajemy częstość.
Powtarzamy analizę.
62
Teraz odczytujemy z tabeli, że uwzględnionych zostało 100 obserwacji,
a średnia i histogram mają zupełnie inną postać.
63
Możemy wybrać opcję Plik jest już posortowany, jeśli wcześniej prze-
prowadziliśmy sortowanie.
Aby wrócić do analizy całego zbioru danych musimy wybrać Dane –>
Podziel na podzbiory... i zaznaczyć opcję Analizuj wszystkie obser-
wacje, nie twórz grup.
SPSS pozwala również na wybranie i analizę tylko niektórych obserwacji.
Dokonujemy tego za pomocą Dane –> Wybierz obserwacje.... Obser-
wacje, których nie chcemy analizować, możemy trwale usunąć z pliku, wy-
bierając Usuń niewybrane obserwacje ze zbioru danych lub chwilo-
wo wyłączyć z analizy, wybierając Odfiltruj niewybrane obserwacje.
Można również wybrane obserwacje przekopiować do nowego zbioru danych,
wybierając Skopiuj wybrane obserwacje do nowego zbioru. Przy
odfiltrowywaniu automatycznie tworzy się zmienna filter $ przyjmująca war-
tość 1 dla obserwacji wybranych, a 0 dla pozostałych.
Obserwacje do analizy wybieramy:
Aby wrócić do analizy całego zbioru danych musimy wybrać Dane –>
Wybierz obserwacje... i zaznaczyć opcję Wszystkie obserwacje.
64
Klikamy Dalej Następnie w polu Wynik zaznaczamy Odfiltruj niewy-
brane obserwacje. W efekcie niektóre obserwacje w pliku danych zostaną
skreślone, co oznacza, że nie będą brane do analizy.
65
66
67
68
• Przy wykresach kołowych występują problemy ze wzrokową oceną mia-
ry kąta. Kąty ostre postrzegane są jako mniejsze, a rozwarte jako więk-
sze niż w rzeczywistości. Kąty położone poziomo wydają się większe
niż umieszczone pionowo. Z tych powodów odradza się używanie tych
wykresów.
69
• kołowe / biegunowe: prosty,
• rozrzutu / punktowe: prosty rozrzutu, zgrupowany rozrzutu, prosty
rozrzutu 3-W, zgrupowany rozrzutu 3-W, podsumowujący wykres
punktowy, prosty punktowy, macierzowy rozrzutu, wykres linii rzu-
towania,
• histogram: prosty, zestawiony, wielokąt częstości (niedostępny z po-
ziomu wykresów tradycyjnych), piramida populacyjna,
• max-min: maks-min-zamknięcie, prosty wykres rozstępu, zgrupowa-
ny wykres rozstępu, liniowy wykres różnic,
• skrzynkowe: prosty, zgrupowany, skrzynka podsumowująca obserwa-
cje,
• dwuosiowe: dwuosiowy Y z osią jakościową X, dwuosiowy Y z osią
ilościową X (niedostępne z poziomu wykresów tradycyjnych),
2. krok po kroku, z elementów podstawowych.
Korzystanie z galerii jest najprostszym sposobem wykonania własnego
wykresu. Aby stworzyć wykres, należy kliknąć na zakładkę Galeria, wybrać
kategorię wykresu z listy, a następnie typ wykresu na podstawie dostępnych
rysunków. Wybrany rysunek należy przeciągnąć myszką do obszaru robocze-
go, znajdującego się w prawym górnym rogu okna kreatora wykresów (lub
dwukrotnie kliknąć myszką na wykres).
W obszarze roboczym pojawią się obszary upuszczania osi oraz (przy nie-
których wykresach) obszar upuszczania grupowania / zestawiania. Jeżeli są
one opisane niebieską czcionką, należy na nie przeciągnąć odpowiednie zmien-
ne z listy Zmienne lub przypisać odpowiednie statystyki. Czcionka w kolo-
rze czarnym w obszarze upuszczania oznacza, że zawiera on już zmienną lub
statystykę (niektóre wykresy mają z góry przypisane statystyki w obszarze
upuszczania osi). Aby usunąć zmienną z obszaru upuszczania, należy ją z po-
wrotem przeciągnąć na listę Zmienne.
Można również tworzyć wykresy porównujące kilka zmiennych. Po prze-
ciągnięciu do obszaru roboczego odpowiedniego wykresu, upuszczamy na oś
pionową pierwszą zmienną. Następnie wybieramy drugą zmienną, przenosi-
my ją do tego samego obszaru upuszczania i upuszczamy po pojawieniu się
znaku +.
Aby zmienić właściwości któregokolwiek z elementów wykresu (osie, sta-
tystyki na osiach, legendę itp.), należy kliknąć przycisk Właściwości ele-
mentu. Okno właściwości elementu jest jedno dla wszystkich elementów wy-
kresu, zaś modyfikacje na konkretnym elemencie przeprowadzamy, wybiera-
jąc go z listy Edytuj właściwości. Po zmianie właściwości wybranych
elementów należy je zachować, klikając przycisk Zastosuj.
70
Aby zmienić układ wykresu (np. transponować słupki z poziomych na pio-
nowe), należy kliknąć zakładkę Podstawowe, a następnie przycisk Trans-
ponuj.
Jeżeli chcielibyśmy otrzymać wiele wykresów (tabelę wykresów – tzw.
panel) w rozróżnieniu na wiele zmiennych jakościowych, np. wykształcenie,
płeć, itp., należy dodać do wykresu więcej zmiennych. W tym celu klikamy
zakładkę Grupy/ID punktów w oknie dialogowym kreatora wykresów,
a następnie wybieramy odpowiednie opcje, np. zmienne panelu wierszowego
lub kolumnowego. W obszarze roboczym pojawią się wówczas nowe obszary
upuszczania, na które należy przeciągnąć zmienne jakościowe.
Po zakończeniu tworzenia wykresu należy kliknąć przycisk OK, który
spowoduje wyświetlenie wykresu w oknie raportu. Uwaga: należy wypełnić
wszystkie obszary upuszczania opisane niebieską czcionką, inaczej nie będzie
możliwe wygenerowanie wykresu (nie uaktywni się przycisk OK).
Jeżeli utworzony przez nas wykres będzie często wykorzystywany, można
go zapisać jako wykres użytkownika. Zapisane zostaną wówczas wszystkie
ustawienia, które można zmieniać za pomocą kreatora wykresów (statystyki,
typ skali itp.), poza zmiennymi. W celu zapisania wykresu, należy kliknąć
prawym przyciskiem myszki w dowolnym miejscu na obszarze roboczym kre-
atora wykresów i kliknąć Dodaj do ulubionych. Po wprowadzeniu nazwy
wykresu należy kliknąć przycisk OK. Od tego momentu wykres użytkownika
pojawi się w galerii na liście Ulubione. Aby usunąć wykres użytkownika
z listy, należy kliknąć na niego prawym przyciskiem myszy i wybrać Usuń
z ulubionych.
Tworzenie wykresu z elementów podstawowych jest metodą zalecaną dla
bardziej zaawansowanych użytkowników. Jako elementy podstawowe rozu-
miemy osie wykresu oraz inne elementy graficzne.
Klikamy na zakładkę Podstawowe. Zaczynamy od wyboru układu osi
wykresu, gdzie mamy do wyboru 5 opcji: współrzędne jedno-, dwu- i trój-
wymiarowe, biegunowe i z dwiema osiami współrzędnych Y. W zależności od
tego, jaki układ wybierzemy, uaktywnią się odpowiednie elementy graficzne,
które możemy przeciągać do obszaru roboczego. Dalej postępujemy już tak,
jak w przypadku tworzenia wykresu z galerii.
71
c) Przedstaw na wykresie kołowym udział procentowy poszczególnych grup
pracowniczych w badanej grupie.
Rozwiązanie.
72
W rezultacie otrzymujemy wykres
73
obszaru roboczego. Na oś Y upuszczamy najpierw zmienną salbegin, a na-
stępnie salary (czekając aż w górnej części obszaru upuszczania pojawi
się czerwony znak plusa). Pojawi się okno dialogowe informujące nas, że
nazwy tych dwóch zmiennych będą nazwami kategorii na osi X. Klikamy
OK. Otrzymujemy wykres
74
d) Wybieramy z menu Wykresy –> Kreator wykresów. Z galerii wy-
kresów wybieramy Słupkowe i przenosimy do obszaru roboczego prosty
wykres słupkowy 3-W. Zmienną gender umieszczamy na osi X, a zmienną
jobcat na osi Z. Na osi Y automatycznie pojawi się liczebność.
75
f) Wybieramy z menu Wykresy –> Kreator wykresów. Z galerii wy-
kresów wybieramy Rozrzutu/Punktowe, a następnie do obszaru ro-
boczego przenosimy prosty wykres rozrzutu. Ponieważ to wynagrodze-
nie bieżące może zależeć od początkowego, a nie na odwrót, to na osi Y
(zmiennej zależnej) umieszczamy zmienną salary, a na osi X (zmiennej
niezależnej) salbegin.
76
77
78
• Od wersji 20. istniej możliwość wykonywania wykresów na mapach.
Są trzy zasadnicze rodzaje takich wykresów: mapy z podziałem ad-
ministracyjnym, na których wartości zmiennej są ilustrowane zmien-
nym natężeniem koloru, mapy z punktami, na których wartości zmien-
nej są ilustrowane zmienną wielkością punktów oraz mapy z podzia-
łem administracyjnym, na których nałożone są podstawowe diagramy
statystyczne (wykresy kołowe, słupkowe, liniowe itp.). Do wykonania
tych wykresów niezbędne jest posiadanie odpowiednich plików map.
Na płycie Bonus Pack firma SPSS Polska przygotowała mapy Polski
z podziałem na województwa oraz powiaty a także mapy ze stolicami
województw i powiatów. Ważne jest, aby w analizowanym pliku danych
istniała zmienna zawierająca nazwy wspomnianych jednostek admini-
stracyjnych. Należy ją dopasować do klucza mapy.
Ćwiczenie 4.6. Otwórz plik Empolee data.sav (plik przykładowy progra-
mu). Na dowolnie wybranym wykresie zaprezentuj zależność bieżącego wy-
nagrodzenia od zajmowanego stanowiska oraz stażu pracy, wybierając jako
podsumowanie raz średnią, a raz maksimum. Użyj stylu „karnawałowy”.
Rozwiązanie.
79
Spośród zaproponowanych przez program wykresów wybieramy Warstwo-
wy 3-W. Klikamy zakładkę szczegółowe i sprawdzamy, czy program dobrze
przypisał zmienne do osi, w szczególności, czy zmienna zależna bieżące wy-
nagrodzenie znajduje się na osi Y. Jeśli nie, zamieniamy kolejność zmiennych
na osiach. W zakładce Opcje spośród dostępnych arkuszy stylu wybieramy
„karnawałowy”.
Wykresy w szablonach wizualizacji danych można również tworzyć, wy-
bierając najpierw rodzaj wykresu, a później zmienne, które mają być na nim
przedstawione. Robi się to, wybierając zakładkę Szczegółowe. Wówczas
z listy Typ wizualizacji wybieramy typ wykresu, a później wprowa-
dzamy zmienne. Dobrze jest kliknąć najpierw Pomoc i w jej oknie u dołu
kliknąć Dostępne wbudowane typy wizualizacji, aby zobaczyć jakie
wykresy są przez program oferowane i co one tak naprawdę przedstawiają.
W szablonach wizualizacji danych mamy możliwość tworzenia kołowych
wykresów trójwymiarowych, tzw. wykresów tortowych. Należy jednak uwa-
żać na fakt, że prezentują one zawsze sumę wartości zmiennej ilościowej w po-
dziale na kategorie zmiennej jakościowej. Gdybyśmy chcieli stworzyć wykresy
prezentujący tylko procentowy udział kategorii zmiennej jakościowej w cało-
ści, musielibyśmy stworzyć sztucznie zmienną ilościową, której wartościami
byłyby same 1.
Rozwiązanie.
80
b) Postępujemy podobnie jak wcześniej, ale jak typ wizualizacji wybieramy
mapę natężeń.
Ćwiczenie 4.8. Korzystając z danych zawartych w pliku wojwodztwa.sav
(dostępny na platformie Moodle), wykonaj
a) kartogram, na którym zaprezentujesz gęstość zaludnienia poszczególnych
województw,
81
b) mapę z nakładanymi punktami o wielkościach odpowiadających liczbie
mieszkańców stolic poszczególnych województw.
Rozwiązanie.
a) Wybieramy Wykresy –> Szablony wizualizacji danych... Prze-
chodzimy do zakładki Szczegółowe i z listy typów wizualizacji wy-
bieramy np. Kartogram sum (w przypadku naszych danych przy każ-
dym województwie mamy tylko jedną wartość, więc nie ma znaczenia,
czy weźmiemy sumę, średnią czy medianę). Jako klucz danych wybieramy
zmienną województwo, a jako kolor ustawiamy liczbę ludności na km2 . W
polu Opcjonalne wymiary jako Opis danych znów możemy wybrać
zmienną województwo, spowoduje to podpisanie na mapie województw ich
nazwami. W polu Pliki map należy teraz wybrać odpowiednią mapę –
decydujemy się na ps województwa regiony i jako klucz wybieramy WO-
JEWODZTW (jest to klucz zawierający nazwy województw zaczynające
się wielką literą). Temu kluczowi mapy odpowiada w naszym pliku danych
zmienna województwo (ustawiamy ją jako klucz danych). Klikamy przy-
cisk Porównaj i sprawdzamy zgodność wartości zmiennej województwo
z oznaczeniami klucza mapy. Następnie klikamy OK. W zakładce Opcje
możemy jeszcze zmienić arkusz stylu na np. Niebieski księżycowy.
82
b) Wybieramy Wykresy –> Szablony wizualizacji danych... Prze-
chodzimy do zakładki Szczegółowe i z listy typów wizualizacji wybiera-
my mapę z nakładanymi punktami. Jako klucz danych wybieramy stolicę
województwa a jako kolor województwo. W polu Opcjonalne wymiary
ustawiamy stolicę województwa jako opis danych a liczbę ludności w tys.
jako wielkość. Następnie wybieramy plik mapy: ps województwa stolice
i jako klucz ustawiamy NAZWA. Kluczem danych jest stolica wojewódz-
twa. Klikamy Porównaj. Jako niedopasowane klucze mapy dostaliśmy
Toruń i Zieloną Górę – miasta, których po prostu nie ma w naszym zbiorze
danych.
Musimy jeszcze wybrać mapę referencyjną – w przeciwnym wypadku na-
sze stolice województw byłyby zawieszone w próżni. Wybieramy mapę
ps województwa regiony. Klikamy OK. W zakładce Opcje możemy jesz-
cze zmienić arkusz stylu na np. Tradycyjny dla map.
83
Otrzymamy wówczas
84
W szablonach możemy również wykonywać animację wykresów. Wówczas
wykres zmienia się w zależności od wartości zmiennej, którą zadeklarujemy
jako zmienną animującą. Żeby zobaczyć animację, należy uaktywnić wykres
uzyskany w raporcie, co spowoduje otwarcie kreatora wykresów panelowych.
Klikamy w nim ikonkę Tryb eksploracji (druga od lewej), ustawiamy su-
wakami pod wykresem szerokość przedziału dla zmiennej animującej (w wer-
sjach wcześniejszych niż 19. szerokość była dobierana automatycznie) i uru-
chamiamy animację. Animację można zatrzymać i klikając na początek lub
koniec skali na osi zmiennej animującej, obejrzeć kolejno wszystkie stany
wykresu.
85
• róża Nightingale,
86
Rozdział 5.
Przedziały ufności
87
Uwagi:
• Ponieważ przy n → ∞, niezależnie od wyjściowego rozkładu badanej
zmiennej, statystyka wykorzystywana do konstrukcji przedziału ufności
ma standardowy rozkład normalny i jest to rozkład graniczny rozkładu
t-Studenta, to przedział ufności może być wyznaczany dla zmiennych
o dowolnym rozkładzie (dla którego istnieje wariancja), jeśli tylko próba
jest dość liczna (n 30 i rozkład jest w przybliżeniu jednomodalny
i symetryczny lub n 40, gdy rozkład jest wyraźnie skośny [6, str.
209]). W próbie nie powinny występować wartości odstające.
EX = 1 · p + 0 · (1 − p) = p,
88
Pod przyciskiem Statystyki można wpisać poziom ufności (0, 99 zamiast
domyślnego 0, 95). Otrzymujemy tabelę ze statystykami, wśród których jest
dolna i górna granica przedziału ufności.
89
przyciskiem Statystyki sprawdzamy, czy poziom ufności wynosi 0, 9. Otrzy-
mujemy tabelę ze statystykami, wśród których jest dolna i górna granica
przedziału ufności.
90
Rozdział 6.
Testowanie hipotez
91
finiowanej statystyki testowej. Bierze się pod uwagę własności tej statystyki
przy założeniu prawdziwości hipotezy zerowej. Jeżeli zachowanie rozważanej
statystyki będzie typowe, nie będziemy mieli podstaw do odrzucenia hipo-
tezy zerowej. Z kolei zachowanie nietypowe pozwoli nam odrzucić hipotezę
zerową i przyjąć alternatywną. Pozostawienie hipotezy zerowej nie oznacza
jej prawdziwości!
Odrzucenie hipotezy zerowej, gdy ta jest prawdziwa nazywamy błędem I
rodzaju. Prawdopodobieństwo popełnienia błędu I rodzaju nazywamy pozio-
mem istotności α (najczęściej 0,05 czy 0,01). Poziom istotności porównujemy
z istotnością testu lub p-wartością testu, czyli najmniejszym poziomem istot-
ności, przy którym zaobserwowana wartość statystyki testowej prowadzi do
odrzucenia hipotezy zerowej.
92
Obszar krytyczny 1.: K = (−∞, −tn−1 n−1
1−α/2 ) ∪ (t1−α/2 , +∞)
n−1
Obszar krytyczny 2.: K = (−∞, −t1−α )
n−1
Obszar krytyczny 3.: K = (t1−α , +∞)
gdzie tn−1
1−α jest kwantylem rzędu 1 − α rozkładu t-Studenta z n − 1 stopniami
swobody.
p-wartość 1.: α̃ = 2 (1 − F n−1 (|Tn |))
p-wartość 2. i 3.: α̃ = 1 − F n−1 (|Tn |)
gdzie F n−1 jest dystrybuantą rozkładu t-Studenta z n−1 stopniami swobody.
Uwagi:
EX = 1 · p + 0 · (1 − p) = p,
93
tej różnicy. W przypadku jednostronnej hipotezy alternatywnej p-wartość te-
stu jest równa połowie istotności dwustronnej. Należy również zwrócić uwagę
na znak statystyki t.
Ćwiczenie 6.1. Liczbę sprzedanych biletów MZK w Toruniu w kolejnych
niedzielach maja i czerwca przedstawia tabelka.
Numer niedzieli 1 2 3 4 5 6 7 8
Liczba biletów w tys. 2,9 3,3 3,2 3,2 3,2 3,0 2,9 3,1
Na podstawie tych danych (dostępnych również w pliku bilety.sav ), na pozio-
mie istotności α = 0, 1, przetestuj hipotezę, że średnia liczba sprzedawanych
biletów w niedziele jest równa 3, 2 tys. przeciw hipotezie, że średnia sprzeda-
wanych biletów jest
a) różna od 3, 2 tys.,
b) mniejsza niż 3, 2 tys.,
jeżeli wiadomo, że liczba sprzedawanych biletów ma rozkład normalny.
Rozwiązanie. Wybieramy z menu Analiza –> Porównywanie śred-
nich –> Test t dla jednej próby... W polu Zmienne testowane
umieszczamy liczbę sprzedanych biletów, a w pole Wartość testowana
wpisujemy 3, 2.
94
b) Hipoteza zerowa: Średnia liczba biletów sprzedawanych w niedziele jest
równa 3, 2 tys. (a = 3, 2).
Hipoteza alternatywna: Średnia liczba biletów sprzedawanych w nie-
dziele jest mniejsza od 3, 2 tys.
W przypadku jednostronnej hipotezy alternatywnej p-wartość testu jest
połową p-wartości testu z hipotezą dwustronną. Porównujemy zatem po-
łowę istotności wyliczonej przez program z zakładanym poziomem istot-
ności równym 0, 1. Ponieważ 0, 052 < 0, 1, to odrzucamy hipotezę zerową
na rzecz hipotezy alternatywnej jednostronnej. Ujemna wartość statystki
t pozwala przyjąć hipotezę, że liczba biletów sprzedawanych w niedziele
jest mniejsza od 3, 2 tys. W obu przypadkach obowiązuje założenie, że
rozkład liczby biletów jest normalny, co pozwala uznać wyniki testów za
wiarygodne.
95
Istotność testu wynosi 0, 751 i jest większa od zakładanego poziomu wy-
noszącego 0, 01, zatem nie mamy podstaw do odrzucenia hipotezy zerowej.
96
ma rozkład t-Studenta z n1 + n2 − 2 stopniami swobody.
n1 +n2 −2 n1 +n2 −2
Obszar krytyczny 1.: K = (−∞, −t1−α/2 ) ∪ (t1−α/2 , +∞)
n1 +n2 −2
Obszar krytyczny 2.: K = (−∞, −t1−α )
1 +n2 −2
Obszar krytyczny 3.: K = (tn1−α , +∞)
1 +n2 −2
gdzie tn1−α oznacza kwantyl rzędu 1 − α z rozkładu t-Studenta
z n1 + n2 − 2 stopniami swobody.
p-wartość 1.: α̃ = 2 (1 − F n1 +n2 −2 (|Tn |))
p-wartość 2. i 3.: α̃ = 1 − F n1 +n2 −2 (|Tn |)
gdzie F n1 +n2 −2 jest dystrybuantą rozkładu t-Studenta z n1 + n2 − 2 stop-
niami swobody.
Uwagi:
• Test t-Studenta dla dwóch średnich i prób niezależnych może być rów-
nież używany w przypadku zmiennej, która nie posiada w badanych
populacjach rozkładu normalnego. Wymagana jest wówczas duża li-
czebność obu prób (co najmniej po 30 obserwacji), symetria i brak
obserwacji odstających.
97
jest przypisywana losowo. W takich przypadkach należy zadbać o to,
żeby różnice innych czynników nie pomniejszały, ani nie powiększały,
znaczącej różnicy średnich. Na różnice średniego dochodu mogą mieć
także wpływ takie czynniki jak wykształcenie (a nie tylko płeć). [Pomoc
IBM SPSS Statistics]
Ćwiczenie 6.3. [7, na podstawie zad. 3.11 str. 94] Producent płatków my-
dlanych wysunął hipotezę, że stopień wyprania tkaniny wełnianej płatka-
mi mydlanymi jest wyższy od stopnia wyprania płynem do prania. W celu
sprawdzenia tej hipotezy wykonano pomiary stopnia wyprania 10 wycinków
98
tkaniny pranej płatkami, otrzymując w procentach wyniki
74, 4, 75, 1, 73, 0, 72, 8, 76, 2, 74, 6, 76, 0, 73, 4, 72, 9, 71, 6,
Rozwiązanie.
Hipoteza zerowa: Średni stopień wyprania tkaniny w płatkach jest taki
sam jak średni stopień wyprania tkaniny w płynie do prania.
Hipoteza alternatywna: Średni stopień wyprania tkaniny w płatkach jest
wyższy od średniego stopnia wyprania tkaniny w płynie do prania.
Założenie o normalności rozkładów pozwala uznać wyniki wykonanych
niżej testów za wiarygodne.
Wybieramy z menu Analiza –> Porównywanie średnich –> Test
t dla prób niezależnych... Zmienną testowaną jest stopień wyprania
tkaniny, a zmienną grupującą rodzaj środka do prania. Definiujemy grupy,
wpisując jako grupę 1. wartość 1 (płatki), a jako grupę 2. wartość 2 (płyn do
prania).
Test Levene’a jednorodności wariancji sprawdza hipotezę o równości wa-
riancji stopnia wyprania tkaniny w grupach wyróżnionych ze względu na
rodzaj środka do prania. Jego wynik sugeruje, że należy raczej zakładać rów-
ność wariancji i wynik testu średnich odczytywać z 2., a nie 3. kolumny
drugiej tabeli.
99
Ze względu na jednostronną hipotezę alternatywną połowę istotności wy-
liczonej przez program w teście średnich, tj. wartość 0, 000, porównujemy
z zakładanym poziomem istotności 0, 05. Ponieważ 0, 000 < 0, 05, więc od-
rzucamy hipotezę zerową na rzecz hipotezy alternatywnej jednostronnej. Do-
datnia wartość statystyki t pozwala przyjąć hipotezę, że średnia w pierwszej
grupie (czyli przy stosowaniu płatków) jest wyższa niż w drugiej (czyli przy
stosowaniu płynu do prania).
100
zmiennych ma średnią dodatnią).
Statystyka testowa:
d¯ √
Tn = n
sd
ma rozkład t-Studenta z n − 1 stopniami swobody.
Obszar krytyczny 1.: K = (−∞, −tn−1 n−1
1−α/2 ) ∪ (t1−α/2 , +∞)
n−1
Obszar krytyczny 2.: K = (−∞, −t1−α )
n−1
Obszar krytyczny 3.: K = (t1−α , +∞)
gdzie tn−1
1−α jest kwantylem rzędu 1 − α rozkładu t-Studenta z n − 1 stopniami
swobody.
p-wartość 1.: α̃ = 2 (1 − F n−1 (|Tn |))
p-wartość 2. i 3.: α̃ = 1 − F n−1 (|Tn |)
gdzie F n−1 jest dystrybuantą rozkładu t-Studenta z n−1 stopniami swobody.
Uwagi: Ponieważ test ten jest w praktyce testem t-Studenta dla jednej śred-
niej (dla zmiennej D = X − Y ), to należy sprawdzić, czy różnica zmiennych
spełnia wymagania testu dla jednej średniej, tj. ma rozkład normalny lub
ma rozkład odbiegający od normalnego (ale bez wartości odstających), ale
liczebność próby jest odpowiednio duża.
Dostęp w IBM SPSS Statistics: Analiza –> Porównywanie śred-
nich –> Test t dla prób zależnych... W oknie dialogowym definiujemy
jedną lub kilka par zmiennych, których średnie chcemy porównać. Kolejność
zmiennych ma znaczenie – wpływa na znak statystyki testowej. W opcjach
można ustawić poziom ufności dla przedziału ufności dla różnicy średnich
oraz sposób postepowania z brakami danych w przypadku jednoczesnego te-
stowania kilku zmiennych.
W tabeli wyników testu średnich otrzymujemy m.in. wartość statystyki
testowej oznaczoną jako t oraz istotność dwustronną, czyli p-wartość testu
otrzymaną przy dwustronnej hipotezie alternatywnej (w przypadku hipotezy
alternatywnej jednostronnej p-wartość testu jest połową istotności dwustron-
nej). Oprócz tego otrzymujemy tabelę ze współczynnikiem korelacji badanych
zmiennych oraz istotnością tego współczynnika.
Ćwiczenie 6.4. [7, na podstawie 3.14 str. 97] Zmierzono ciśnienie tętnicze
wśród losowo wybranej grupy chorych na pewną chorobę przed i po podaniu
takiego samego leku każdemu z badanych pacjentów. Otrzymano następujące
wyniki (dostepne w pliku cisnienie.sav ):
Nr pacjenta 1 2 3 4 5 6 7 8
Ciśnienie przed 210 180 260 270 190 250 180 200
Ciśnienie po 180 160 220 260 200 230 180 190
101
Na poziomie istotności α = 0, 05 zweryfikuj hipotezę, że stosowany lek nie
powoduje zmiany ciśnienia u pacjentów, wobec hipotezy alternatywnej, że
wartość przeciętna ciśnienia przed podaniem leku jest wyższa niż po jego
podaniu, wiedząc, że ciśnienie tętnicze ma rozkład normalny.
Rozwiązanie. Hipoteza zerowa: Średnia wartość ciśnienia przed poda-
niem leku pacjentom jest taka sama jak po jego podaniu.
Hipoteza alternatywna: Średnia wartość ciśnienia pacjentów przed poda-
niem leku jest wyższa niż po jego podaniu.
Wybieramy z menu Analiza –> Porównywanie średnich –> Test
t dla prób zależnych... Definiujemy 1 parę zmiennych, podając jako
zmienną 1. ciśnienie przed podaniem leku, a jako zmienną 2. ciśnienie po
podaniu leku.
102
nosi 0, 033/2 i jest mniejsza od zakładanego poziomu istotności wynoszącego
0, 05, co oznacza, że odrzucamy hipotezę zerową na rzecz hipotezy alterna-
tywnej jednostronnej. Dodatnia wartość statystyki t pozwala przyjąć hipote-
zę, że średnia wartość ciśnienia przed podaniem leku jest wyższa niż po jego
podaniu. Wynik testu można uznać za wiarygodny dzięki założeniu o nor-
malności rozkładu.
103
tabelę zawierającą m.in. wartość statystyki (oznaczoną tutaj jako Z) oraz
istotność testu.
Drugi sposób: Analiza –> Testy nieparametryczne –> Jedna
próba... W zakładce Zmienne wybieramy zmienne do analizy. W zakład-
ce Ustawienia spośród testów niestandardowych wybieramy Testowanie
rozkładu empirycznego względem hipotetycznego (Kołmogorow-
Smirnow). W opcjach tego testu możemy zaznaczyć, że parametry mają być
estymowane na podstawie próby, lub podać własne wartości parametrów.
Jako wynik otrzymamy tabelę zawierającą hipotezę zerową, nazwę użytego
testu, istotność asymptotyczną oraz decyzję co do wyboru hipotezy. Tabe-
lę można aktywować, klikając na nią dwukrotnie, co pozwala uzyskać opis
modelu. Opis modelu można skopiować Edycja –> Kopiuj dodatkowy
widok i wkleić do raportu.
Dostęp do testów Kołmogorowa z poprawką istotności Lillieforsa oraz
Shapiro-Wilka uzyskujemy, wybierając Analiza –> Opis statystyczny –
> Eksploracja... Badaną zmienną umieszczamy w polu Zmienne zależ-
ne. Pod przyciskiem Wykresy... zaznaczamy opcję Wykresy normal-
ności z testami. Oprócz tabeli z wynikami testów otrzymujemy wykresy
K-K (kwartyl-kwartyl) porównujące kwartyle testowanego rozkładu z kwar-
tylami empirycznymi. Jeśli rozkład empiryczny zgadza się z teoretycznym,
punkty na pierwszym wykresie układają się na przekątnej.
0, 02 0, 03 0, 04 0, 04 0, 06 0, 11 0, 11
0, 18 0, 22 0, 26 0, 27 0, 44 0, 46 0, 60
0, 65 0, 80 0, 85 0, 95 1, 20 2, 00
104
Otrzymujemy istotność 0, 834, która jest większa od zakładanego poziomu
istotności i nie daje podstaw do odrzucenia hipotezy zerowej. Zauważmy
jednak, że test sprawdził zgodność nie z rozkładem E(2), tylko z rozkładem
wykładniczym o średniej 0, 4645, czyli E(2, 153).
Drugi sposób wykonania testu pozwala sprawdzić hipotezę zerową w do-
kładnie takiej postaci jak podaliśmy. Wybieramy Analiza –> Testy nie-
parametryczne –> Jedna próba... W zakładce Zmienne sprawdzamy,
że testowaną zmienną jest zmienna dane. W zakładce Ustawienia spo-
śród testów niestandardowych wybieramy Kołmogorowa-Smirnowa i w je-
go opcjach zaznaczamy jako testowany rozkład wykładniczy ze średnią 0, 5.
W Opcje testów możemy podać zakładany poziom istotności.
105
106
107
Istotność testu Shapiro-Wilka wynosi 0, 619, a testu Kołmogorowa (z po-
prawką istotności Lillieforsa) przekracza 0, 200, oba te wyniki znacznie prze-
108
kraczają 0, 01, co oznacza, że nie możemy odrzucić hipotezy o normalności
rozkładu, a innymi słowy, możemy uznać, że rozkład zmiennej v1 nie odbiega
znacząco od normalnego.
gdzie Fχk−1
2 jest dystrybuantą rozkładu chi-kwadrat z k − 1 stopniami swobo-
dy.
Uwagi:
• Jeżeli rozkład teoretyczny zależy od d nieznanych parametrów, to pa-
rametry te wyznaczamy metodą największej wiarogodności, a liczbę
stopni swobody zmniejszamy o d.
• Statystyka χ2 ma tylko w przybliżeniu (asymptotycznie) rozkład chi-
kwadrat. Przybliżenie rozkładem chi-kwadrat uznajemy za dopuszczal-
ne, gdy np0i 5, i = 1, . . . , k, a za dobre, gdy np0i 10, i = 1, . . . , k.
Jeśli liczba kategorii jest duża (> 6), to zgadzamy się stosować przy-
bliżenie rozkładem chi-kwadrat także wtedy, gdy dla jednej lub dwóch
kategorii 1 ¬ np0i < 5 [6]. Mało liczne kategorie można również łączyć
z kategoriami sąsiednimi, redukując wówczas odpowiednio liczbę stopni
swobody.
• W przypadku zmiennej o rozkładzie z ciągłą dystrybuantą dane grupu-
jemy w k (10k ¬ n) klas. Prawdopodobieństwa teoretyczne wyliczamy
109
z dystrybuanty. Klasy staramy się dobrać tak, aby prawdopodobieństwa
znalezienia się w klasie były równe 1/k, a liczebności teoretyczne były
co najmniej równe 5. Testujemy wówczas hipotezę zerową: Zmienna ma
rozkład o podanej dystrybuancie.
Łatwo zauważyć, że testowanie zgodności z zadanym rozkładem ciągłym
za pomocą testu chi-kwadrat jest przedsięwzięciem kontrowersyjnym,
ponieważ punktem wyjścia do konstrukcji testu jest świadoma utrata
informacji związana z koniecznością dokonania dyskretyzacji. Dlatego,
gdy mamy do czynienia z rozkładem ciągłym, powinniśmy unikać stoso-
wania tego testu [...] Dopiero, gdy próba losowa jest bardzo liczna i hi-
stogram sporządzony na jej podstawie przypomina gładki rozkład ciągły,
zastosowanie testu chi-kwadrat przestaje być ryzykowne. Inna sprawa,
że test ten może być jedynym dającym się zastosować w danej kon-
kretnej sytuacji. Tak jest np. wtedy, gdy dane, którymi dysponujemy,
pochodzą wprawdzie z rozkładu ciągłego, ale są już zdyskretyzowane. [6,
str. 372]
• Jeśli założenia testu nie są spełnione, można wykonać tzw. test dokład-
ny, który nie korzysta z rozkładu granicznego statystyki testowej tylko
z jej właściwego rozkładu.
110
strony) podajemy poziom istotności. Jako wynik otrzymamy tabelę zawie-
rającą hipotezę zerową, nazwę użytego testu, istotność asymptotyczną oraz
decyzję co do wyboru hipotezy. Tabelę można aktywować, klikając na nią
dwukrotnie, co pozwala uzyskać opis modelu. Opis modelu można skopiować
Edycja –> Kopiuj dodatkowy widok i wkleić do raportu.
111
Istotność testu wynosi 0, 762, co jest większe od zakładanego poziomu
0, 01 i nie daje podstaw do odrzucenia hipotezy zerowej. Wynik testu jest
wiarygodny, gdyż liczebności oczekiwane klas są większe od 10.
Drugi sposób polega na wybraniu Analiza –> Testy nieparame-
tryczne –> Jedna próba... W zakładce Zmienne sprawdzamy, że te-
stowaną zmienną jest zmienna czytanie. W zakładce Ustawienia spośród
testów niestandardowych wybieramy chi-kwadrat i w jego opcjach podaje-
my wartości zmiennej i odpowiadające im prawdopodobieństwa. W Opcje
testów możemy podać zakładany poziom istotności.
112
113
Pierwszy sposób polega na wybraniu Analiza –> Testy nieparame-
tryczne –> Testy tradycyjne –> Chi-kwadrat... Testujemy zmien-
ną dochód, a jako wartości oczekiwane podajemy kolejno 6, 3, 1.
114
gdzie
115
Dla zmiennych X i Y przyjmujących tylko po 2 wartości stosuje się statystykę
k X
r
(|nij − n0ij | − 1/2)2
χ2 =
X
,
j=1 i=1 n0ij
116
Ćwiczenie 6.9. Wybrano losowo 780 mieszkańców Torunia, których zapy-
tano o najchętniej oglądany rodzaj seriali. Poniższa tabela (oraz plik seria-
le.sav ) przedstawia wyniki sondażu. Za pomocą testu chi-kwadrat niezależ-
ności, przyjmując poziom istotności 0,05, zbadaj czy płeć telewidza i rodzaj
seriali przez niego oglądanych są niezależne.
Rodzaj seriali
Płeć telenowele seriale kryminalne seriale komediowe Razem
Kobieta 210 90 160 460
Mężczyzna 50 150 120 320
Razem 260 240 280 780
117
Istotność testu chi-kwadrat wynosi 0, 000, co jest mniejsze od zakłada-
nego poziomu istotności i pozwala na odrzucenie hipotezy o niezależności
rodzaju oglądanych seriali od płci respondenta. Wyniki testu można uznać
za wiarygodne, gdyż wszystkie komórki mają liczebności oczekiwane większe
od 5.
118
HH X
H
x1 x2
Y H
HH
y1 a b a+b
y2 c d c+d
a+c b+d n
Hipoteza zerowa: Zmienne X i Y są niezależne (dokładniej: proporcja a : b
jest taka sama jak c : d).
Hipoteza alternatywna 1.: Zmienne X i Y są zależne (dokładniej: pro-
porcja a : b jest różna od c : d).
Hipoteza alternatywna 2.: Proporcja a : b jest większa od c : d.
Hipoteza alternatywna 3.: Proporcja a : b jest mniejsza od c : d.
p-wartość 1.: Test bazuje na prawdopodobieństwie określonym przez roz-
kład hipergeometryczny, tj. dla podanej tabeli oblicza się prawdopodobień-
stwo uzyskania tejże tabeli przy znanym jej rozkładzie brzegowym
a+c b+d
a b
P =
n
.
a+b
119
(licencjat/inżynierskie). Wyniki zawarte są w pliku studia.sav. Sprawdź, czy
istnieje zależność wybranego typu studiów od płci badanych.
120
Istotność testu chi-kwadrat wynosi 0, 455, co oznacza, że nie mamy pod-
staw do odrzucenia hipotezy zerowej. Podobny wniosek otrzymujemy, biorąc
pod uwagę istotność testu z poprawką Yatesa na ciągłość. Jak jednak widzi-
my, jedna z komórek tabeli kontyngencji ma liczebność oczekiwaną mniejszą
od 5, wyniki tych testów nie są zatem wiarygodne. Musimy wziąć pod uwa-
gę istotność dokładnego testu Fishera. Wynosi ona 0, 690 i również nie daje
podstaw do odrzucenia hipotezy zerowej.
gdzie
r(|Zi |) — ranga |Zi |, i = 1, . . . , n, (r(Xi ) = j ∈ {1, . . . , n} ⇐⇒ Xi = Xj:n ).
121
#
n(n + 1) h
Obszar krytyczny 1.: K = −∞, − w1−α/2 ∪ w1−α/2 , ∞ ,
2
Obszar krytyczny 2.: K = [w1−α , +∞) #
n(n + 1)
Obszar krytyczny 3.: K = −∞, − w1−α
2
gdzie wa jest kwantylem rozkładu statystyki znakowanych rang Wilcoxona
(przy założeniu prawdziwości hipotezy zerowej) rzędu a (w tablicach).
Uwagi:
• Test znakowanych rang Wilcoxona jest nieparametryczną alternatywą
dla testu t-Studenta w przypadku dwóch próbek dających się połączyć
w pary. Różnica między tymi testami jest taka, że test t-Studenta testu-
je równość średnich arytmetycznych, a test Wilcoxona testuje mediany.
Test Wilcoxona nie wymaga założeń dotyczących rozkładu próby, może
być więc używany, gdy założenia testu t-Studenta nie są spełnione.
• Test dla jednej próby jest odpowiednikiem testu dla dwóch prób, w któ-
rym drugą z prób zastąpiono stałą równą wartości testowanej mediany.
• Jeżeli n jest duże (w praktyce dla n 25), stosuje się tzw. test asymp-
totyczny, tj. używa się statystyki testowej postaci
n(n+1)
∗ T+ − 4
T =q ,
n(n + 1)(2n + 1)/24
i obszarów krytycznych
i h
Obszar krytyczny 1.: K = −∞, −z1−α/2 ∪ z1−α/2 , ∞
Obszar krytyczny 2.: K = [z1−α , +∞)
Obszar krytyczny 3.: K = (−∞, −z1−α ]
gdzie z1−α jest kwantylem rzędu 1−α standardowego rozkładu normal-
nego.
• W praktyce (w wyniku zaokrąglania) mogą pojawić się tzw. węzły, czyli
grupy obserwacji o jednakowej wartości bezwzględnej. Postępowanie
w przypadku, gdy
1. n < 25
- odrzucamy wszystkie Zi takie, że Zi = 0 i odpowiednio zmniej-
szamy n,
- uśredniamy rangi dla pozostałych węzłów (mogą być one niecał-
kowite),
- stosujemy test dokładny ze zmodyfikowanymi rangami;
122
2. n 25
- odrzucamy wszystkie Zi takie, że Zi = 0 i odpowiednio zmniej-
szamy n,
- uśredniamy rangi dla pozostałych węzłów (mogą być one niecał-
kowite),
- stosujemy test asymptotyczny ze modyfikowaną statystyką te-
stową T ∗ :
n(n+1)
T+ −
T˜∗ = T ∗ = s 4
,
N
1
n(n + 1)(2n + 1)/24 − (t2j − 1)tj
P
48
j=1
gdzie:
N — liczba grup węzłów (również jednoelementowych),
tj — liczba węzłów w j-tej grupie, j = 1, . . . , N .
123
Hipoteza zerowa: Mediana różnic jest zerowa.
Hipoteza alternatywna: Mediana różnic jest ujemna.
Wybieramy Analiza –> Testy nieparametryczne –> Testy tra-
dycyjne –> Dwie próby zależne... Jako zmienną pierwszą wybieramy
wartość współczynnika po pierwszej wizycie, jako drugą – po drugiej. Wy-
bieramy typ testu Wilcoxon.
124
raz, klikając w oknie dialogowym opcję Dokładne... i wybierając dokładną
wersję testu z limitem czasu 5 minut.
125
6.9. Test U Manna-Whitneya*
Na podstawie [5, str. 672].
Założenia: Dysponujemy ciągłą zmienną losową i jej obserwacjami z dwóch
różnych populacji.
Hipoteza zerowa: Mediany zmiennej są takie same w dwóch różnych po-
pulacjach (θ1 = θ2 ).
Hipoteza alternatywna 1.: Mediany zmiennej są różne w badanych popu-
lacjach (θ1 6= θ2 ).
Hipoteza alternatywna 2.: Mediana zmiennej w pierwszej populacji jest
mniejsza od mediany zmiennej w drugiej populacji (θ1 < θ2 ).
Hipoteza alternatywna 3.: Mediana zmiennej w pierwszej populacji jest
większa od mediany zmiennej w drugiej populacji (θ1 > θ2 ).
Statystyka testowa: Obserwacje z obu prób łącznie porządkujemy od naj-
mniejszej do największej i przypisujemy im rangi. r1 – suma rang z pierwszej
próby. Statystyka testowa
( )
n1 (n1 + 1) n1 (n1 + 1)
U = min n1 n2 + − r1 , r1 − .
2 2
i h
Obszar krytyczny 1.: K = −∞, un1−α/2 1 ,n2
∪ un1−α/2
1 ,n2
,∞
n1 ,n2
Obszar krytyczny 2.: K = [u1−α , +∞)
Obszar krytyczny 3.: K = (−∞, un1−α 1 ,n2
]
n1 ,n2
gdzie ua jest kwantylem rozkładu statystyki U Manna-Whitneya (przy
założeniu prawdziwości hipotezy zerowej) rzędu a (w tablicach).
Uwagi:
126
i h
Obszar krytyczny 1.: K = −∞, −z1−α/2 ∪ z1−α/2 , ∞
Obszar krytyczny 2.: K = [z1−α , +∞)
Obszar krytyczny 3.: K = (−∞, −z1−α ]
gdzie z1−α jest kwantylem rzędu 1−α standardowego rozkładu normal-
nego.
127
128
129
130
Jak widać, przy poziomie istotności 0,1 rozkład zmiennej tętno w grupie
pracowników odbiega od normalnego. Dlatego zastosujemy test U Manna-
Whitneya. Ze względu na małą liczebność obu grup musimy zastosować do-
kładną wersję tego testu.
Hipoteza zerowa: Mediana tętna jest taka sama w grupach pracowników
i rowerzystów.
Hipoteza alternatywna: Mediana tętna jest wyższa w grupie pracowników.
Wybieramy Analiza –> Testy nieparametryczne –> Testy tra-
dycyjne –> Dwie próby niezależne... W polu Zmienne testowane
umieszczamy zmienną tetno, w Zmienna grupująca – zmienną grupa. De-
finiujemy grupy, podając kolejno wartości 1 (pracownicy) i 2 (rowerzyści).
Zaznaczamy test U Manna-Whitneya. Klikamy Dokładne i wybieramy te-
sty dokładne z limitem czasu 5 minut.
131
Dokładna istotność jednostronna wynosi 0, 024 i jest mniejsza od zakła-
danego poziomu istotności wynoszącego 0,1. Pozwala to na odrzucenie hipo-
tezy zerowej na korzyść hipotezy konkurencyjnej jednostronnej. Ze względu
na większą sumę rang dla pracowników niż dla rowerzystów, przyjmujemy
hipotezę, że mediana tętna pracowników jest wyższa niż rowerzystów.
132
Rozdział 7.
Analiza wariancji
133
mu poziomowi czynnika została przypisana taka sama (bądź zbliżona) liczba
jednostek eksperymentalnych n (otrzymujemy w ten sposób grupy o tej samej
bądź zbliżonej liczebności).
Podstawowe założenie analizy wariancji: Dla każdego poziomu czyn-
nika rozkład zmiennej odpowiedzi jest normalny z taką samą wariancją σ 2
(σ12 = σ22 = . . . = σk2 = σ 2 ).
Definiujemy trzy wielkości:
• całkowitą sumę kwadratów (ang. total sum of squares) opisującą
całkowitą zmienność zmiennej odpowiedzi:
k X
n
(yij − ȳ.. )2 ,
X
SST =
i=1 j=1
134
• Założenie o normalności rozkładu oraz jednorodności wariancji może
nie być spełnione skutkiem istnienia obserwacji odstających. Obserwa-
cje takie należy znaleźć i usunąć [6, str. 330].
135
• tabelę wyników testów normalności rozkładu z istotnościami powyżej
0,05, co oznacza, że zmienna Egzamin ma w grupach rozkład zbliżony
do normalnego,
136
Wykonujemy analizę wariancji. Wybieramy Analiza –> Porównywa-
nie średnich –> Jednoczynnikowa ANOVA... Zmienną zależną jest
Egzamin, a czynnikiem Kurs. Klikamy Opcje... i zaznaczamy Opisowe,
test jednorodności wariancji i Wykres średnich.
Ponieważ nasz czynnik Kurs ma 4 poziomy, to testujemy równość średnich
wyników egzaminu dla 4 grup studentów.
Hipoteza zerowa: a1 = a2 = a3 = a4 (średni wynik egzaminu jest taki sam
we wszystkich grupach).
Hipoteza alternatywna: W przynajmniej dwóch grupach średnich wynik
egzaminu jest różny.
137
Z tabeli jednoczynnikowa ANOVA możemy odczytać, że wariancja mię-
dzygrupowa wynosiła 54,532 i była ponad 4-krotnie większa od wariancji we-
wnątrzgrupowej wynoszącej 13,137. Stąd wartość statystyki F równa 4,151
oraz istotność 0,012 pozwalająca na odrzucenie hipotezy o równości średnich
w grupach przy poziomie istotności 0,05.
Odrzucenie hipotezy o równości wszystkich średnich rodzi pytanie o to,
które średnie różnią się między sobą. Do badania tego zagadnienia służą po-
równania wielokrotne (nazywane również porównaniami post hoc - łac. po
tym, lub a posteriori - łac. z następstwa, po fakcie). Zasadniczo sprowadza-
ją się one do wykonania K = k(k−1) 2
testów t-Studenta dla dwóch średnich
weryfikujących poniższe hipotezy:
Hipoteza zerowa: ai = aj ,
Hipoteza alternatywna: ai 6= aj ,
dla i, j = 1, 2, . . . k, i < j.
Należy tu zwrócić uwagę na fakt, że czym innym jest łączny poziom istot-
ności całej procedury, a czym innym jest poziom istotności pojedynczego
testu.
Procedura Bonferroniego: aby poziom istotności całej procedury wy-
nosił (co najwyżej) α, poziom istotności każdego testu musi wynosić α/K.
138
Wady: konieczność wykonywania poszczególnych testów na bardzo niskich
poziomach oraz poziom istotności w rzeczywistości niższy niż α. Wad tych
nie mają procedura Scheffégo oraz procedura Tukeya, ale tylko wtedy, gdy
grupy są równej liczności (jest wtedy lepsza niż procedura Scheffégo). Proce-
dura Scheffégo jest z kolei bardziej polecana w przypadku, gdy oprócz różnic
między średnimi analizuje się kontrasty [6, str. 337].
Biorąc pod uwagę, że wraz ze wzrostem liczby wykonywanych testów
rośnie prawdopodobieństwo popełnienia błędu I rodzaju, czyli odrzucenia
prawdziwej hipotezy zerowej, należałoby się skłaniać ku wyborowi testów
konserwatywnych. Może to jednak oznaczać, że w ten sposób umkną nam
istotne, ale niezbyt duże różnice między średnimi. Dlatego warto jest wykonać
zawsze przynajmniej jeden test konserwatywny i przynajmniej jeden liberalny
i porównać ich wyniki [3, str. 47].
Poniżej podajemy za [3, str. 47-48] zestawienie najczęściej wybieranych
testów post hoc z podziałem na spełniające i niespełniające założenia jedno-
rodności wariancji.
139
Ćwiczenie 7.2. Dla danych z ćwiczenia 7.1 sprawdź, wykorzystując odpo-
wiednie testy, które kursy różniły się od pozostałych pod względem wpływu
na średni wynik egzaminu końcowego.
140
Oba testy wykazały, że studenci, którzy ukończyli czwarty kurs, osiągają
istotnie wyższe wyniki z egzaminu z analizy matematycznej niż pozostali.
Studenci, którzy ukończyli kursy 1-3 osiągają podobne wyniki egzaminów.
• grupy, które chcemy ze sobą porównywać powinny mieć taką samą łącz-
ną wartość wag, ale o przeciwnych znakach,
141
Można wykonać kilka testów kontrastów, ale należy zadbać o to, żeby
były one od siebie niezależne. Tzn. jeśli np. kontrastowaliśmy ze sobą grupy
1, 2 i 3 oraz grupy 4 i 5, to w kolejnym teście możemy kontrastować ze sobą
podzbiory wyróżnione z grup 1, 2 i 3 oraz grupę 4 z grupą 5, nie możemy
natomiast kontrastować grupy 2 z grupą 4. W praktyce warunek ten sprawdza
się następująco: dla każdej grupy mnoży się wagi przypisane jej we wszystkich
testach kontrastów, a następnie dodaje do siebie otrzymane w ten sposób
iloczyny. Niezależność jest równoważna otrzymania w wyniku liczby 0 [3, str.
55].
142
Rozdział 8.
Analiza regresji
143
8.1. Analiza regresji jednej zmiennej
144
W analizie regresji zakładamy, że model opisuje się w przybliżeniu funkcją
postaci h(x, b), gdzie b jest pewnym wektorem parametrów, a h jest zadaną
funkcją ciągłą (funkcja h jest nazywana funkcją regresji). Naszym celem
jest znalezienie takich wartości wektora parametrów b, by model jak najlepiej
pasował do obserwacji. Jeśli funkcja h jest liniowa, to regresja (i odpowiedni
model) nazywa się liniową, w przeciwnym przypadku – nieliniową. Naj-
prostsza funkcja regresji liniowej jednej zmiennej to h(x, b) = b1 x + b0 .
Jak wśród wszystkich możliwych prostych wybrać właściwą? Rozwiąza-
nie tego zagadnienia opiera się na metodzie najmniejszych kwadratów
wprowadzonej jeszcze na początku XIX wieku przez A.-M. Legendre’a i C.
F. Gaussa. Polega ona na tym, że mając obserwacje (xi , yi ), i = 1, . . . , n,
wybieramy b1 i b0 tak, by wartość
n
X 2
SSE = yi − (b1 xi + b0 )
i=1
145
Okazuje się, że taki problem, o ile wszystkie punkty {xi } nie są jednakowe,
ma jednoznaczne rozwiązanie, mianowicie:
Pn
i=1 (xi − x̄)(yi − ȳ)
b1 = Pn , b0 = ȳ − b1 x̄,
i=1 (xi − x̄)
2
1 Pn 1 Pn
gdzie x̄ = n i=1 xi , ȳ = n i=1 yi .
146
Niech ŷi = b1 xi + b0 (czyli niech ŷi będzie wartością przewidywaną zmien-
nej Y ). Wówczas (patrz rysunek)
147
Istotność modelu mniejsza bądź równa 0, 05 oznacza, że należy odrzucić hi-
potezę H0 , natomiast większa niż 0, 05 oznacza, że nie mamy podstaw do
odrzucenia hipotezy H0 . Nieodrzucenie hipotezy H0 jest równoważne z bra-
kiem zależności liniowej pomiędzy zmienną zależną a zmienną niezależną.
Badanie istotności współczynnika b0 jest mniej ważne i wiąże się z testo-
waniem hipotezy
Hipoteza zerowa: b0 = 0
przeciwko
Hipoteza alternatywna: b0 6= 0.
Nieodrzucenie hipotezy H0 jest równoważne z tym, że należy nie uwzględniać
stałej w równaniu regresji.
Dostęp w IBM SPSS Statistics: Dla wyznaczenia prostej regresji za po-
mocą programu SPSS wybieramy jedną z poniższych możliwości:
148
Rozwiązanie ćwiczenia 1.
Sposób I: Wybieramy Analiza –> Regresja –> Estymacja krzy-
wej... Podajemy Egzamin jako zmienną zależną, a Kolokwium jako nieza-
leżną.
149
Z tabeli odczytujemy równanie regresji postaci:
Egzamin= 1, 760·Kolokwium+5, 200.
Współczynnik R2 wynosi 0, 948, co świadczy o bardzo wysokim stopniu dopa-
sowania modelu. Model jest istotny statystycznie, gdyż jego istotność wynosi
0, 000, co pozwala na odrzucenie hipotezy, że b1 = 0.
Sposób II: Wybieramy Analiza –> Regresja –> Liniowa... Z otrzyma-
nej tabeli możemy dodatkowo wywnioskować, że oba współczynniki równa-
nia regresji są istotne statystycznie, a błąd standardowy oszacowania wynosi
2,018.
150
Rozwiązanie. Dodajemy obserwację do pliku i wybieramy Analiza –>
Regresja –> Estymacja krzywej... Podajemy Egzamin jako zmienną
zależną, a Kolokwium jako niezależną. Otrzymujemy tabelę i wykres.
151
Oprócz punktów oddalonych możemy spotkać również punkty wysokiej
dźwigni (ang. high leverage point). To obserwacje przyjmujące bardzo duże
lub bardzo małe wartości w przestrzeni zmiennych objaśniających.
152
dzielnych zmiennych. Zmienne Kolokwium i Egzamin umieszczamy w po-
lu Skrzynki przedstawiają. Na tych wykresach obserwacji odstających
nie widzimy.
153
danych. Jako uzupełnienie wyników należy stworzyć wykres rozrzutu z do-
pasowaną prostej regresji.
Rozwiązanie. Wykonujemy czterokrotnie analizę regresji na przykład za
pomocą poleceń: Analiza –> Regresja –> Estymacja krzywej.... Za
każdym razem podajemy zmienną yi jako zależną i xi jako niezależną oraz
zaznaczamy model Liniowy.
154
155
Zwróćmy uwagę, że we wszystkich czterech przypadkach wartość współ-
czynnika R2 jest taka sama (0, 666 bądź 0, 667 – jest to kwestia zaokrąglenia).
Ale rzut oka na wykresy zupełnie zmienia nasze zdanie na temat jakości dopa-
sowania modelu do danych empirycznych. O ile wykres pierwszy, w zasadzie,
odpowiada naszym oczekiwaniom, to wykres drugi wyraźnie pokazuje, że tu-
taj należy dopasować model kwadratowy, a nie liniowy. Na wykresie trzecim
mamy do czynienia z punktem oddalonym, natomiast na czwartym z punk-
tem wysokiej dźwigni, który sztucznie wprowadza prostą regresji, po jego
usunięciu zmienna x będzie miała stałą wartość, nie da się zbudować modelu
liniowego.
Uwagi:
• Założenia potrzebne do budowy modelu: zależność zmiennej Y od X
powinna być w przybliżeniu liniowa, a błędy, czyli różnice pomiędzy rze-
czywistymi a przewidywanymi wartościami zmiennej Y , powinny być
niezależne i mieć rozkład normalny o stałej wariancji.
156
• Podstawowymi sposobami weryfikacji tych założeń jest wyznaczenie
reszt oraz przetestowanie ich normalności oraz wykonanie wykresu reszt
standaryzowanych względem wartości przewidywanych. Wykres taki
nie powinien układać się w kształcie lejka (naruszenie założenia o stałej
wariancji) oraz krzywizny (naruszenie założenia o niezależności) [8, str.
70-71].
157
Wybieramy teraz Wykresy –> Kreator wykresów... Na prostym
wykresie rozrzutu przedstawiamy zależność reszt standaryzowanych od prze-
widywanych wartości zmiennej Y .
158
Dla każdego z modeli możemy odczytać z tabeli równanie regresji. Zwra-
cając uwagę na współczynniki determinacji dla trzech modeli widzimy, że dla
modeli kwadratowego i sześciennego współczynniki determinacji są idealne,
czyli wynoszą 1, 000; oznacza to, że wszystkie obserwacje leżą dokładnie na
otrzymanych krzywych. Ze względu na to, że model kwadratowy jest prost-
szy niż sześcienny oraz na to, że dla modelu sześciennego współczynnik przy
najwyższej potędze zmiennej niezależnej wynosi prawie 0, należy jako wynik
159
wybrać tutaj model kwadratowy. Równanie regresji ma postać:
160
161
• Skorygowany współczynnik determinacji (ang. adjusted R2 )
n−1
R̄2 = 1 − (1 − R2 ) .
n−m−1
162
Z tabeli odczytujemy równanie regresji:
163
Uzyskujemy równanie:
gas 100 =
22, 952 + 0, 016·power+0, 006·mass−0, 295·prodyear+0, 205·cylindr;
odpowiedni współczynnik R2 wynosi 0, 885, wszystkie współczynniki są istot-
ne. Jak widzimy, jakość dopasowania modelu do danych, wyrażająca się
współczynnikiem R2 , prawie się nie zmieniła, choć nie zawsze tak jest.
Po wybraniu Analiza –> Regresja –> Liniowa... mamy w okien-
ku, które się pojawia, możliwość zmiany metody. Wybór metody pozwala
na określenie, w jaki sposób zmienne niezależne będą wprowadzane do rów-
nania. Korzystając z różnych metod, dla jednego zbioru zmiennych można
skonstruować kilka modeli regresji.
Niżej podajemy krótki opis poszczególnych metod.
• Wprowadzanie (domyślna). Jest to procedura doboru zmiennych,
przy której wszystkie podane zmienne niezależne są wprowadzane do
równania.
• Krokowa. Startując od modelu bez zmiennych niezależnych, w każdym
kroku do modelu dołączana jest zmienna niezależna, niebędąca jeszcze
w równaniu, o najmniejszym prawdopodobieństwie odpowiadającym
F , o ile to prawdopodobieństwo jest dostatecznie małe (domyślnie nie
większe niż 0, 05). Zmienne uwzględnione już w równaniu regresji zo-
stają z niego usunięte, jeśli związane z nimi prawdopodobieństwo F
staje się dostatecznie duże (domyślnie nie mniejsze niż 0, 10). Wymie-
nione wartości progowe 0, 05 i 0, 10 mogą być zmienione w opcjach.
Procedura kończy się, kiedy nie da się wykluczyć ani dołączyć żadnej
zmiennej. Metoda krokowa jest kombinacją metod selekcji postępującej
i eliminacji wstecznej.
164
• Usuwanie. Jest to procedura doboru zmiennych, przy której wszyst-
kie podane zmienne niezależne są najpierw wprowadzone do równania,
a potem usunięte z niego. Ta metoda jest, w zasadzie, odwrotna do
metody wprowadzania. Zazwyczaj nie stosuje się jej na samym począt-
ku poszukiwania równania, a tylko wtedy, gdy pewne zmienne chcemy
usunąć z równania. Formalnie, jeśli zastosujemy tę metodę na samym
początku, to dostajemy tę samą informację o równaniu, co w metodzie
wprowadzania.
• Eliminacja wsteczna. Jest to procedura doboru zmiennych, przy któ-
rej startujemy od modelu, w którym znajdują się wszystkie zmienne
niezależne. W każdym kroku z modelu jest usuwana zmienna niezależ-
na o największym prawdopodobieństwie odpowiadającym F , o ile to
prawdopodobieństwo jest wystarczająco duże (domyślnie nie mniejsze
niż 0, 10). Procedura kończy działanie, gdy w równaniu nie występują
już zmienne spełniające kryteria usunięcia.
• Selekcja postępująca. Jest to procedura doboru zmiennych, odwrot-
na do eliminacji wstecznej. Startując od modelu bez zmiennych nieza-
leżnych, w każdym kroku do modelu dołączana jest zmienna niezależna,
niebędąca jeszcze w równaniu, o najmniejszym prawdopodobieństwie
odpowiadającym F , o ile to prawdopodobieństwo jest dostatecznie ma-
łe (domyślnie nie większe niż 0, 05). Procedura kończy się, kiedy nie da
się dołączyć do równania żadnej zmiennej niezależnej.
Ćwiczenie 8.9. Dla danych z pliku samochody.sav użyj wszystkich metod
analizy regresji i porównaj wyniki.
Rozwiązanie. Jak już wspomnieliśmy wcześniej, metoda usunięcia nie pro-
wadzi do innych wyników niż metoda wprowadzania. Zastosujmy metodę
krokową.
165
Po czterech krokach uzyskujemy następujące równanie regresji:
gas 100 =
22, 952 + 0, 016·power+0, 006·mass−0, 295·prodyear+0, 205·cylindr.
dla którego R2 = 0, 785, bądź krokiem 2., w którym uzyskany model określa
się równaniem:
166
Ponieważ na każdym kroku z modelu nie była wykluczona żadna zmienna
niezależna, selekcja postępująca będzie dawać dokładnie takie same wyniki,
jak metoda krokowa.
Można sprawdzić, że stosując metodę eliminacji wstecznej, po czterech
krokach uzyskamy takie samo równanie regresji jak w metodzie krokowej.
Ćwiczenie 8.10. Na podstawie danych z pliku Swiat95.sav znajdź najlepsze,
twoim zdaniem, równanie regresji liniowej wielokrotnej dla zmiennej zależnej
death rt – wskaźnik zgonów na 1000 mieszkańców oraz zmiennych niezależ-
nych: density – liczba mieszkańców na km kwadratowy, lifeexpm – średnia
długość życia mężczyzn, lifeexpf – średnia długość życia kobiet, babymort –
liczba zgonów na 1000 żywych urodzeń, log gdp – logarytm z wielkości pro-
duktu krajowego brutto, fertility – płodność (średnia liczba dzieci), calories
– dzienne spożycie kalorii.
Rozwiązanie. Wybieramy Analiza –> Regresja –> Liniowa...
167
Decydując się najpierw na domyślną metodę wprowadzania, z tabeli od-
czytujemy równanie regresji:
death rt=
50, 778 − 0, 0005·density−0, 467·lifeexpf−0, 312·lifeexpm−0, 039·babymort
+0, 002·calories+3, 318·log gdp−0, 738·fertility.
Współczynnik R2 wynosi 0, 775, co świadczy o niezłym dopasowaniu modelu
do danych. Współczynniki odpowiadające zmiennym density, lifeexpm, ba-
bymort, calories są nieistotne. Usuwając je z analizy, otrzymujemy jednak
równanie:
death rt= 48, 986 − 0, 684·lifeexpf+3, 946· log gdp−1, 410·fertility
o mniejszym współczynniku R2 = 0, 701.
168
Odnotujmy zwłaszcza, że zamiast zmiennej lifeexpf teraz w równaniu
obecna jest zmienna lifeexpm. Wyjaśnić taką różnicę należy spostrzeżeniem,
że obie te zmienne są mocno skorelowane ze sobą (współczynnik korelacji Pe-
169
arsona wynosi 0, 982), i stosując różne metody, program wybrał do modelu
raz jedną zmienną, a raz drugą.
Zanotujmy jeszcze, że całkiem nieźle w stosunku do innych wygląda mo-
del z kroku 2., ze względu na niewiele mniejszy współczynnik R2 = 0, 845.
Odpowiednie równanie ma postać:
170
Metoda wprowadzania w tym przypadku działa tak jak selekcja postępu-
jąca, czyli pokazuje kroki kolejnego wprowadzania poszczególnych bloków do
równania (różnica z selekcją postępującą będzie tylko taka, że wszystkie bloki
są wprowadzone po kolei do równania, a nie tylko te, dla których odpowiednie
prawdopodobieństwo F będzie nie większe niż 0, 05).
W pierwszym kroku jest wprowadzony blok sprawdzianów (R2 = 0, 680),
w drugim – kolokwiów (R2 = 0, 865), w trzecim – aktywności (R2 = 1, 000).
Na przykład możemy pozostać przy modelu ze sprawdzianami i kolokwiami,
którego równanie ma postać:
171
8.3. Regresja logistyczna
Regresja logistyczna jest szczególnie przydatna wtedy, gdy zmienna zależna
jest zmienną jakościową, przyjmującą tylko dwie wartości: 1 i 0 (przykład: 1 –
wydarzenie nastąpi, 0 – wydarzenie nie nastąpi). W takiej sytuacji stosowanie
regresji liniowej jest nieprzydatne i może nawet być pozbawione interpreta-
cyjnego sensu.
Rozważmy następujący przykład, zaczerpnięty z [8] (plik pacjent.sav do-
stępny na Moodle).
Rozpatrzmy dane dotyczące badania zależności występowania (1) lub
niewystępowania (0) pewnej choroby (zmienna zależna) od wieku pacjenta
(zmienna niezależna):
Numer pac. 1 2 3 4 5 6 7 8 9 10 11 12 13
Wiek 25 29 30 31 32 41 41 42 44 49 50 59 60
Choroba 0 0 0 0 0 0 0 0 1 1 0 1 0
Numer pac. 14 15 16 17 18 19 20
Wiek 62 68 72 79 80 81 84
Choroba 0 1 0 1 0 1 1
172
najlepszą krzywą dla modelu logistycznego. Jak widać, krzywa trochę lepiej
obrazuje zależność występowania lub niewystępowania choroby od wieku. Co
więcej, stosowanie regresji liniowej może doprowadzić do zupełnie bezsensow-
nych wyników (np. dla pierwszego pacjenta, mającego 25 lat, przewidywana
wartość zmiennej Choroba wynosi −0, 009 < 0).
Co to jest za krzywa? Funkcja regresji logistycznej na rysunku ma postać:
eb0 +b1 x 1
h(x, b) = = , (8.1)
1+e b 0 +b 1 x 1 + e 0 −b1 x
−b
173
Dalej szuka się takich wartości {bi }, które maksymalizują funkcję ln L(y, b).
Jak już wspominaliśmy wyżej, dla znalezionych w taki sposób współ-
czynników {bi } wartość h(x, b) możemy traktować jako oszacowanie śred-
niej wartości zmiennej zależnej, gdy X = x, czyli jako oszacowanie dla
P (Y = 1 | X = x), natomiast wartość 1 − h(x, b) jako oszacowanie dla
P (Y = 0 | X = x).
Często posługujemy się też pojęciem szansy. Szansę definiujemy jako
iloraz prawdopodobieństwa, że wydarzenie nastąpi (Y = 1), przez prawdo-
podobieństwo, że wydarzenie nie nastąpi (Y = 0). Szansa określa, w jakim
stopniu jest bardziej prawdopodobne, że wydarzenie nastąpi, w porównaniu
z tym, że ono nie nastąpi. Jeśli wartość szansy jest większa od 1, to jest
bardziej prawdopodobne, że wydarzenie nastąpi, a jeśli jest mniejsza niż 1,
to jest na odwrót.
Dobroć dopasowania modelu do danych określa się za pomocą współczyn-
ników analogicznych do współczynnika R2 w regresji liniowej. Są to współ-
czynniki R2 Coxa i Snella oraz R2 Nagelkerkego. Wartości tych współczynni-
ków interpretujemy podobnie: wyższe wartości oznaczają lepsze dopasowanie
do modelu. Współczynnik Coxa i Snella wyznacza się ze wzoru
2/n
L0
2
RCS =1− ,
L1
174
Dostęp w IBM SPSS Statistics: Analiza –> Regresja –> Logi-
styczna... Podajemy zmienną zależną i zmienne niezależne (do okienka
Współzmienne). Zakładka Jakościowe służy do określenia, które zmienne
niezależne są jakościowymi. Zakładka Zapisz służy do zapisywania w pliku
danych, jako zmienne, pewnych ważnych statystyk, choćby takich jak war-
tości przewidywane (są to szacowane wartości funkcji regresji dla poszcze-
gólnych wartości zmiennych niezależnych), czy też przynależność do grupy
(z Y = 1 bądź z Y = 0). Wreszcie zakładka Opcje pozwala uzyskać więcej
wyników oraz np. uwzględnić bądź nie stałą w równaniu.
W Opcjach można też zaznaczyć Dobroć dopasowania Hosmera
i Lemeshowa. Jest to jeszcze jedna możliwość sprawdzania jakości dopaso-
wania modelu do danych. Testuje się przy tym hipoteza
Hipoteza zerowa: Wartości obserwowane i przewidywane dobrze pasują do
siebie.
przeciwko hipotezie
Hipoteza alternatywna: wartości obserwowane i przewidywane źle pasują
do siebie.
Wynikiem zasługującym na uwagę (tabela Test Hosmera i Lemesho-
wa) jest istotność testu (ostatnia kolumna); istotność wyższa od 0, 05 mówi
o nieodrzuceniu hipotezy H0 .
Przy zaznaczonej domyślnie metodzie Wprowadź, otrzymujemy naj-
pierw wyniki dla modelu bez zmiennych niezależnych (Blok 0), a następnie
wyniki dla modelu ze zmiennymi niezależnymi (Blok 1). W każdym bloku
(oczywiście, dla nas ważny jest Blok 1) dostajemy: wartości współczynników
przy zmiennych niezależnych (ostatni wiersz w tabeli Przebieg iteracji),
istotność modelu (tabela Test zbiorowy współczynników modelu),
wartości wspomnianych współczynników R2 (tabela Model – podsumo-
wanie), Tabelę klasyfikacji oraz jeszcze raz wartości współczynników
przy zmiennych niezależnych wraz z ich istotnością (tabela Zmienne w mo-
delu).
Ćwiczenie 8.12. Dla danych z pliku pacjent.sav oszacuj dobroć dopasowa-
nia regresji logistycznej do danych na podstawie wartości współczynników
R2 , testu Hosmera i Lemeshowa oraz tabeli klasyfikacji. Oszacuj prawdopo-
dobieństwo tego, że pacjent w wieku 50 lat jest chory, oraz prawdopodobień-
stwo tego, że pacjent w wieku 72 lat jest chory. Oszacuj szansę wystąpienia
choroby dla pacjentów w tym wieku.
Rozwiązanie. Wybieramy Analiza –> Regresja –> Logistyczna...
Podajemy jako zmienną zależną Choroba oraz jako zmienną niezależną Wiek.
W Opcjach zaznaczamy Dobroć dopasowania Hosmera i Lemesho-
wa.
175
Otrzymujemy równanie regresji postaci
176
Prawdopodobieństwa oraz szanse występowania choroby dla pacjentów
możemy otrzymać na 2 sposoby. Dla pacjentów występujących w pliku da-
nych możemy zaznaczyć przy uzyskiwaniu analizy: Zapisz –> Prawdopo-
dobieństwa. Jako wynik w pliku danych powstanie zmienna PRE 1 z war-
tościami oszacowanych prawdopodobieństw. I tak dla pacjenta w wieku 50
lat prawdopodobieństwo występowania choroby szacujemy na 0, 264, a w wie-
ku 72 lat na 0, 610. Teraz na podstawie wzoru szansa=PRE 1/(1−PRE 1)
możemy policzyć odpowiednie wartości szans. Wnioskujemy, iż szansę wystę-
powania choroby u pacjenta w wieku 50 lat szacujemy na 0, 359, natomiast
szansę występowania choroby u pacjenta w wieku 72 lat na 1, 566.
Szansy można też obliczyć inaczej; ten sposób jest przydatny zwłaszcza
dla pacjentów niewystępujących w pliku danych. Korzystamy z ostatniej ko-
lumny w tabeli Zmienne w modelu, oznaczonej jako exp(B), odczytując:
stała 0, 013, Wiek 1, 069. Dla pacjenta mającego x lat szansa występowania
choroby wynosi więc szansa= 0, 013 · 1, 069x . Wówczas odpowiednie prawdo-
podobieństwo występowania choroby wynosi: szansa/(1+szansa).
177
Skupiając się na wynikach umieszczonych w Bloku 1, otrzymujemy na-
stępujące równanie regresji:
178
Wyniki testu Hosmera i Lemeshowa wskazują jednak na to, że wartości
obserwowane i przewidywane źle pasują do siebie, bowiem istotność wynosi
0, 000 < 0, 05.
Stosując inne metody wprowadzania zmiennych niezależnych do mode-
lu, jako wynik końcowy we wszystkich przypadkach dostajemy takie samo
równanie. Jedynym zyskiem stosowania innych metod jest możliwość uzna-
nia przez nas jako model końcowy jakiegoś modelu otrzymanego w krokach
pośrednich z mniejszą liczbą zmiennych niezależnych w modelu.
179
180
Rozdział 9.
Klasyfikacja i grupowanie
181
Niezależnie od wybranej metody klasyfikacji kluczową sprawą jest odpo-
wiednio dobrany zbiór uczący. Powinien on być bogaty, różnorodny i powinien
zawierać reprezentatywną grupę typów rekordów, których klasyfikacja będzie
potrzebna w przyszłości. Zbyt ubogi zbiór może spowodować, że utworzony
model klasyfikacji będzie zbyt prosty, tzn. algorytm będzie niedouczony
i będzie miał problemy z poprawnym rozpoznawaniem nowych obserwacji.
Istnieje również niebezpieczeństwo przeuczenia (ang. overfitting). Jeżeli al-
gorytm utworzy skomplikowany model, który bardzo dokładnie klasyfikuje
elementy ze zbioru uczącego, to może się okazać, że jego skuteczność w kla-
syfikacji nowych obserwacji będzie niska. Spowodowane jest to tym, że algo-
rytm zbyt dokładnie zapamiętał zbiór uczący i uznał niektóre przypadkowo
występujące w nim zależności za ogólnie obowiązujące reguły (na przykład,
że klienci o imieniu Tomasz mają zawsze dużą zdolność kredytową).
Aby zapobiec przeuczeniu, stosuje się tzw. zbiór testowy (ang. test set).
Jest to zbiór danych, w którym wartości zmiennej celu są określone, ale chwi-
lowo ukryte. Za pomocą budowanego modelu wykonujemy klasyfikację ele-
mentów ze zbioru testowego i porównujemy wyznaczone wartości zmiennej
celu z poprawnymi. W ten sposób możemy zweryfikować dokładność modelu.
Zwykle podczas budowania modelu do pewnego momentu współczynnik błę-
du klasyfikatora (procent źle sklasyfikowanych przypadków) maleje zarówno
na zbiorze uczącym, jak i na zbiorze testowym. Później dla zbioru uczącego
maleje nadal, ale dla zbioru testowego zaczyna rosnąć. Oznacza to, że al-
gorytm zaczyna zbyt dokładnie zapamiętywać zbiór uczący i traci zdolność
uogólniania. Punkt, w którym błąd klasyfikacji na zbiorze testowym osiąga
minimalną wartość jest optymalnym momentem przerwania uczenia modelu.
182
Zbiór testowy jest zwykle pewnym podzbiorem zbioru uczącego. Najczę-
ściej dzielimy dane na część uczącą i część testową. Jeżeli jednak mamy do
dyspozycji tylko niewielką liczbę sklasyfikowanych przypadków, to wydziele-
nie z nich zbioru testowego mogłoby spowodować, że zbiór uczący byłby zbyt
mały do zbudowania dobrego modelu. W takim wypadku możemy zastosować
procedurę walidacji krzyżowej (ang. cross-validation). Dzielimy posiadane
dane losowo na n rozłącznych podzbiorów (najczęściej 5 lub 10). Budujemy
model, wykorzystując pierwszy podzbiór jako zbiór testowy, a n − 1 pozosta-
łych podzbiorów jako zbiór uczący i obliczamy błąd klasyfikacji. Powtarzamy
procedurę, traktując tym razem drugi podzbiór jako zbiór testowy, a resz-
tę podzbiorów jako zbiór uczący, itd. Miarą jakości modelu jest uśredniony
błąd.
183
Na rysunku przedstawiono proste drzewo, które ma pomóc w podjęciu
decyzji, czy dany dzień jest odpowiedni na grę w golfa. Zmiennymi opisują-
cymi są: zachmurzenie, wilgotność i wiatr. Proces klasyfikacji rozpoczynamy
od korzenia, a kończymy w jednym z liści. Na przykład jeżeli zmienna za-
chmurzenie ma wartość pochmurno, to dany dzień uznajemy za nadający się
do gry. Jeżeli zmienna ta ma wartość słonecznie, to musimy sprawdzić jesz-
cze zmienną wilgotność i w zależności od tego, czy ma ona wartość duża, czy
normalna, zmiennej celu przypisujemy wartość nie lub tak.
Do zbudowania drzewa decyzyjnego potrzebny jest zbiór uczący zawiera-
jący sklasyfikowane wartości zmiennej celu. W przypadku zadania klasyfika-
cji zmienna celu jest oczywiście dyskretna. Drzewa decyzyjne mogą jednak
służyć również do przewidywania wartości zmiennej ciągłej (takie drzewa
nazywamy czasem drzewami regresyjnymi).
Algorytmy budujące drzewa dążą do sformułowania warunków, które są
sprawdzane dla poszczególnych obserwacji. Zbiór uczący bardzo często za-
wiera obserwacje, które mają takie same wartości zmiennych opisujących,
ale różne wartości zmiennej celu. Takie obserwacje trafią oczywiście do tego
samego liścia. O takich liściach mówimy, że nie są czyste. W takim przy-
padku drzewo informuje z jakim prawdopodobieństwem są przyjmowane po-
szczególne wartości zmiennej celu. Obserwacje, które trafią do tego liścia bę-
dą klasyfikowane zgodnie z wartością o największym prawdopodobieństwie.
Jeżeli na przykład w danym liściu znajdzie się 7 obserwacji należących do
kategorii A i 3 obserwacje z kategorii B, to liściowi zostanie przypisana kate-
goria A, a współczynnik błędu klasyfikacji dla tego liścia wyniesie 30%.
184
Współczynnik błędu dla całego drzewa jest średnią ważoną współczynni-
ków błędów poszczególnych liści, z wagami równymi procentom obserwacji
ze zbioru uczącego, które trafiły do danych liści. Algorytmy budujące drzewa
starają się tworzyć jak najczystsze liście i tym samym minimalizować błąd
klasyfikacji.
Istnieje wiele algorytmów budowania drzew. Najważniejsze z nich to CART,
C4.5, C5.0, CHAID i QUEST. Omówimy tu tylko pierwszy z nich.
Metoda drzew klasyfikacyjnych i regresyjnych (ang. classification
and regression trees ozn. CART, C&RT lub CRT) została zaproponowana
przez Leo Breimana, Jerome’a Friedmana, Richarda Olshena i Charlesa Sto-
ne’a w 1984 roku. Drzewa decyzyjne tworzone przez algorytm CART sa ściśle
binarne, tzn. mają po 2 gałęzie wychodzące z każdego węzła decyzyjnego.
Z węzła idziemy na lewo, jeśli jest spełniony określony w nim warunek, a na
prawo, jeśli nie. Warunki maja postać „Xi ¬ C”, gdy zmienna jest ciągła
lub „Xi przyjmuje wartości...”, gdy zmienna jest dyskretna. Dopuszczalne
jest kilkukrotne pojawienie się warunków bazujących na tej samej zmiennej.
Dla każdego węzła decyzyjnego algorytm CART sprawdza wszystkie moż-
liwe zmienne i wszystkie możliwe podziałów zbioru wartości tych zmiennych
i wybiera optymalny podział zgodnie z ustalonym kryterium. W programie
IBM SPSS Statistics kryterium tym może być kryterium Giniego, kryterium
Twoing lub porządkowe kryterium Twoing.
W przypadku kryterium Giniego algorytm, próbując znaleźć optymalny
podział węzła t, wyznacza najpierw jego miarę nieczystości (ang. impurity
measure) określoną wzorem
X
G(t) = c(i, j)p(i|t)p(j|t),
i6=j
gdzie c(i|j) jest kosztem błędnej klasyfikacji przypadku z klasy j jako przy-
padek z klasy i (domyślnie ustawione jako 1), a p(i|t) określa, jaki procent
przypadków z węzła t należy do klasy i. Nietrudno zauważyć, że dla węzłów
czystych, czyli zawierających tylko przypadki z jednej klasy, G(t) = 0.
Następnie algorytm próbuje znaleźć taki podział węzła rodzica t na węzły
dzieci tL i tP , który spowoduje największą poprawę czystości definiowaną jako
185
Dla kryterium Twoing poprawę wynikającą z podziału węzła t na węzły
tL i tP definiujemy jako
liczba
!2
Xklas
I(t) = q(1 − q) |p(j|tL ) − p(j|tP )| .
j=1
186
Ćwiczenie 9.1. Plik iris.sav zawiera dane dotyczące 150 egzemplarzy kwia-
tów należących do trzech gatunków: Iris setosa, Iris versicolor i Iris virginica.
Dla każdego egzemplarza podana została długość i szerokość płatka, długość
i szerokość kielicha oraz gatunek. Dane te zostały zebrane przez amerykań-
skiego botanika Edgara Andersona, a w 1936 r. brytyjski statystyk Ronald
Fisher po raz pierwszy wykorzystał je jako przykład ilustrujący jedną z metod
klasyfikacji – liniową analizę dyskryminacyjną. Zbuduj drzewo klasyfikujące
kwiaty pod względem gatunku.
187
Widzimy, że kwiaty z gatunku Iris setosa tworzą wyraźnie oddzieloną
grupę. Kwiaty z dwóch pozostałych gatunków mieszają się ze sobą i nale-
ży przypuszczać, że ich poprawna klasyfikacja będzie trudniejsza. Wykresy
rozrzutu dla innych par zmiennych wyglądają podobnie.
Aby zbudować drzewo, wybieramy polecenie Analiza –> Klasyfika-
cja –> Drzewo klasyfikacyjne... Może pojawić się komunikat przypo-
minający o konieczności poprawnego określenia poziomu pomiaru dla wszyst-
kich zmiennych oraz o ustawieniu etykiet dla wszystkich kategorii zmiennej
celu. W przypadku naszego zbioru ustawienia te są poprawne, więc klikamy
OK. Możemy też zaznaczyć opcję zapobiegającą wyświetlaniu tego komu-
nikatu w przyszłości. Pojawi się okno dialogowe Drzewo klasyfikacyj-
ne. W polu Zmienna zależna tego okna umieszczamy zmienną gatunek,
a w polu Zmienne niezależne pozostałe cztery zmienne. Z listy Metoda
wzrostu drzewa wybieramy opcję CRT.
Następnie naciskamy przycisk Kategorie... Pojawi się okno, w którym
wyświetlą się wszystkie wartości zmiennej zależnej (zmiennej celu). Możemy
tu wykluczyć pewne kategorie z analizy i zbudować drzewo klasyfikujące tylko
dla niektórych kategorii. Możemy też zaznaczyć kategorie, które nas szcze-
188
gólnie interesują jako docelowe. Ustawienie to nie ma wpływu na strukturę
drzewa, ale dzięki niemu możemy uzyskać pewne dokładniejsze informacje
o interesującej nas klasie. Zaznaczamy na przykład kategorię Iris versicolor
i wracamy do poprzedniego okna klikając przycisk Dalej.
Następnie musimy określić jakiego rodzaju wyniki chcemy uzyskać. Po
wciśnięciu przycisku Wyniki... uzyskamy dostęp do wielu opcji. Na zakład-
ce Drzewo ustalamy wygląd drzewa. Warto tu zaznaczyć opcję Drzewo
w postaci tabeli. Dla reszty parametrów możemy na razie pozostawić
wartości domyślne. Na zakładce Statystyki zaznaczamy dodatkowo opcje
Ważność predyktora dla modelu oraz Substytucyjne według po-
działu, a na zakładce Wykresy opcję Ważność zmiennej niezależnej
dla modelu. Na zakładce Reguły zaznaczamy opcję Utwórz reguły
klasyfikacji, a jako formę prezentacji reguł wybieramy czysty tekst.
Dla reszty opcji pozostawiamy wartości domyślne.
Kolejnym etapem jest wybranie metody walidacji drzewa. Naciskamy
przycisk Walidacja... i ponieważ nasz zbiór składa się z niewielkiej licz-
by rekordów, wybieramy opcję Walidacja krzyżowa. W polu Liczba
składów dla próby pozostawiamy domyślną wartość 10.
Niezwykle ważne jest poprawne ustawienie parametrów mających wpływ
na strukturę budowanego drzewa. Uzyskamy do nich dostęp po wciśnięciu
przycisku Kryteria... Na zakładce Ograniczenia wzrostu możemy sa-
mi określić maksymalną głębokość drzewa lub pozostawić wartość domyślną,
która dla metody CRT wynosi 5. Następnie zmieniamy minimalną liczbę
obserwacji w węźle nadrzędnym i podrzędnym na 20 i 10. Domyślne warto-
ści 100 i 50 są zdecydowanie zbyt duże dla zbioru składającego się ze 150
obserwacji. Pozostawienie ich na tym poziomie spowodowałoby, że budowa
drzewa zakończyłaby się już po utworzeniu kilku pierwszych węzłów. Na za-
kładce CRT możemy wybrać miarę zanieczyszczenia (Gini lub Twoing)
oraz minimalną zmianę w ulepszeniu czyli minimalną poprawę czysto-
ści węzła, przy której dopuszczalne jest jego podzielenie (domyślnie 0,0001).
Dla obu opcji pozostawiamy wartości domyślne. Na zakładce Przycina-
nie... włączamy opcję Przytnij drzewo, aby uniknąć nadmiernego
dopasowania i zostawiamy domyślną wartość pola Maksymalna różni-
ca w ryzyku. Ustawienia te spowodują, że po zakończeniu budowy drze-
wa, algorytm spróbuje je przyciąć, w sposób niepowodujący zbyt dużego
wzrostu błędu klasyfikacji. Na zakładce Predykatory substytucyjne
możemy określić maksymalną liczbę surogatów, możliwych do utworzenia
dla każdego podziału. Możemy też pozostawić domyślną wartość czyli licz-
ba zmiennych niezależnych − 1. Co prawda nasz zbiór uczący nie zawiera
braków danych, ale zbudowane drzewo może być wykorzystywane do klasy-
fikacji innych zbiorów, w których takie braki mogą występować.
189
Wszystkie wyniki analizy zostaną zapisane w oknie raportu. Istnieje też
możliwość zapisania niektórych informacji bezpośrednio w zbiorze danych
w postaci nowych zmiennych. W tym celu, w oknie, które pojawi się po
naciśnięciu przycisku Zapisz..., zaznaczamy opcje Numer węzła końco-
wego, Wartość przewidywana oraz Przewidywane prawdopodo-
bieństwa.
190
Następnie wyświetlane jest zbudowane drzewo. Składa się ono z 5 węzłów,
z których 3 są liśćmi. Zawartość węzłów wyświetlana jest w postaci tabel, któ-
rych wiersze odpowiadają poszczególnym kategoriom. Każdy wiersz zawiera
nazwę kategorii, procentowy udział obserwacji należących do tej kategorii
w ogólnej liczbie obserwacji w węźle oraz liczbę obserwacji z tej kategorii
w węźle. Kategoria najczęściej występująca w węźle jest podświetlona. Ostat-
ni wiersz zawiera liczbę wszystkich obserwacji w węźle i procentowy udział
tych obserwacji w całym zbiorze.
Zauważmy, że węzeł numer 1 jest węzłem czystym, zawierającym wszyst-
kie obserwacje należące do gatunku Iris setosa. Węzły numer 3 i 4 nie są
czyste. Pierwszy z nich zawiera 49 obserwacji należących do Iris versicolor
i 5 należących do Iris virginica, drugi 45 obserwacji należących do Iris virgi-
nica i 1 obserwację należącą do Iris versicolor.
191
Dla każdej gałęzi drzewa podany został warunek wykorzystany do podzia-
łu węzła oraz poprawa czystości uzyskana dzięki podziałowi. Na przykład,
podział korzenia został dokonany na podstawie warunku dlugosc płatek <=
2,45. Wszystkie obserwacje, dla których warunek ten jest spełniony, trafiły
do węzła numer 1, a pozostałe do węzła numer 2. Dzięki temu uzyskaliśmy
poprawę równą 0,333.
Jeżeli w oknie raportu klikniemy dwukrotnie na obiekt drzewa, to otwo-
rzy się tzw. Edytor drzewa. Możemy w nim zmienić wygląd poszczegól-
nych węzłów drzewa (kolory, fonty, forma wyświetlania informacji wewnątrz
węzłów), ukryć niektóre podgałęzie drzewa, a nawet odfiltrować obserwacje
należące do wybranego węzła.
192
Przypomnijmy, że jako kategorię docelową wybraliśmy Iris versicolor. Dla
tej kategorii uzyskujemy pewne dodatkowe wyniki. Każdy wiersz tabeli Ko-
rzyści dla poszczególnych węzłów odpowiada jednemu z liści drzewa. Trzy
pierwsze kolumny zawierają kolejno: numer węzła, liczbę obserwacji w tym
węźle oraz procent całkowitej liczby obserwacji wpadający do węzła. Następ-
ne dwie kolumny dotyczą tylko obserwacji z kategorii docelowej i oznaczają,
ile obserwacji z tej kategorii wpadło do danego liścia i jaki procent ogólnej
liczby obserwacji z tej kategorii stanowią. Tą ostatnia wartość nazywamy ko-
rzyścią związaną z danym węzłem. (ang. gain). W naszym przypadku 98%
obserwacji z gatunku Iris versicolor wpada do węzła numer 3. Kolumna Od-
powiedź (ang. response) określa, jaki procent obserwacji w węźle należy do
kategorii docelowej. Kolumna Indeks (ang. index ) określa, jaki jest stosunek
częstości występowania kategorii docelowej w węźle do częstości występowa-
nia w całym zbiorze. W naszym przypadku kwiaty z gatunku Iris versicolor
stanowią około 33,3% kwiatów w całym zbiorze. Natomiast w węźle numer
3 stanowią one 90,7% wszystkich kwiatów w tym węźle, czyli występują tu
około 2,722 razy częściej. Dlatego w kolumnie Index znajduje się wartość
272,2%.
193
Wykres korzyści (ang. gain chart) pokazuje, jak bardzo drzewo po-
prawia naszą zdolność identyfikowania obserwacji należących do kategorii
docelowej. Linia prosta pokazuje skuteczność klasyfikacji bez użycia drzewa.
Kwiaty z gatunku Iris versicolor stanowią dokładnie 1/3 wszystkich kwiatów.
Jeżeli wybierzemy więc losowo około 1/3 obserwacji, należy się spodziewać,
że wśród nich znajdzie się około 1/3 wszystkich kwiatów z gatunku Iris ver-
sicolor. Odpowiada to punktowi (33,3%;33,3%), przez który przechodzi linia
prosta. Linia krzywa (łamana) pokazuje skuteczność klasyfikacji przy użyciu
drzewa. Jeżeli zamiast wybierać losowo, wybierzemy wszystkie obserwacje
z węzła numer 3 (stanowią one również około 1/3 wszystkich obserwacji), to
wśród nich znajdzie się 98% wszystkich kwiatów z gatunku Iris versicolor
z całego zbioru. Na wykresie widzimy, że krzywa szybko rośnie i w pobliżu
punktu 33% osiąga wartość 98%. Dalsza część wykresu jest prawie płaska,
gdyż w pozostałych węzłach znajduje się już bardzo niewiele (2%) obserwacji
z kategorii docelowej. Jest to charakterystyczny wygląd wykresu korzyści dla
dobrego klasyfikatora.
194
Kolejne dwa wykresy przedstawiają skumulowane wartości z kolumn Od-
powiedź i Indeks tabeli korzyści. Omówimy tylko pierwszy z nich, interpre-
tacja drugiego jest analogiczna. Przypomnijmy, ze odpowiedź to procent ob-
serwacji w węźle należący do kategorii docelowej. Wykres startuje z punktu
na wysokości 90,7%, gdyż taki właśnie odsetek obserwacji w węźle numer 3
należy do kategorii Iris versicolor. Węzeł numer 3 zawiera nieco ponad 30%
wszystkich obserwacji i mniej więcej do tego percentyla wykres utrzymuje
się na stałym poziomie. Następnie do obserwacji z węzła numer 3 dodajemy
obserwacje z węzła numer 4. Otrzymujemy 100-elementowy zbiór obserwacji
(około 66% wszystkich), w którym obserwacje z kategorii docelowej stano-
wią dokładnie 50%. Zauważmy, że wykres opada i w 66 percentylu osiąga
poziom 50%. W końcu dodajemy rekordy z węzła nr 1 i otrzymujemy pełny
150-elementowy zbiór zawierający 33% elementów z gatunku Iris versicolor.
Wykres dalej opada, aby w końcu osiągnąć poziom 33%.
195
Tabela Ryzyko zawiera pewne oszacowanie jakości naszego modelu. Oce-
na ryzyka wynosi 0,04 co oznacza, że 4% obserwacji zostało zaklasyfikowane
błędnie. Nieco więcej informacji zawiera Macierz klasyfikacji. Wynika z niej,
że wszystkie obserwacje z gatunku Iris setosa zostały zaklasyfikowane po-
prawnie. W przypadku Iris versicolor zaklasyfikowano poprawnie 98% obser-
wacji, a w przypadku Iris virginica 90%. Łącznie poprawnie zaklasyfikowano
96% obserwacji i jest to zgodne z informacją z tabeli Ryzyko.
196
Dalej pojawiają się informacje o stopniu ważności poszczególnych zmien-
nych niezależnych do klasyfikacji. Z tabeli i wykresu wynika, że najważniejsze
są zmienne szerokosc platek i dlugosc platek.
/* Node 1 */.
IF (((dlugosc_platek NOT MISSING AND (dlugosc_platek <= 2.45))
OR dlugosc_platek IS MISSING AND ((szerokosc_platek NOT MISSING
AND (szerokosc_platek <= 0.8)) OR szerokosc_platek IS MISSING
AND ((dlugosc_kielich NOT MISSING AND (dlugosc_kielich <= 5.45))
OR dlugosc_kielich IS MISSING AND (szerokosc_kielich NOT MISSING
AND (szerokosc_kielich > 3.35))))))
THEN
Node = 1
Prediction = 1
Probability = 1.000000
197
w regule jest znacznie bardziej złożony. Uwzględnia on bowiem sytuacje, gdy
w obserwacji brakuje wartości tej zmiennej. Wówczas decyzja o przydziale
do tego węzła podejmowana jest na podstawie zmiennych zastępczych (su-
rogatów). W następniku reguły widzimy, że obserwacje spełniające podany
warunek, trafiają do węzła numer 1 i są przydzielane do klasy numer 1 (Iris
setosa). Prawdopodobieństwo, że klasyfikacja jest poprawna (ufność reguły)
wynosi w tym przypadku 1. Wsparcie reguły to 33,3%, gdyż do tego węzła
trafia dokładnie 1/3 wszystkich obserwacji.
Po analizie raportu zajrzyjmy jeszcze do arkusza danych. Widzimy, że
pojawiło się w nim 5 nowych zmiennych. Zmienna NodeID określa, do które-
go liścia trafiła dana obserwacja, a zmienna PredictedValue to przewidywana
wartość zmiennej celu. Pozostałe 3 zmienne określają prawdopodobieństwa
z jakimi przyjmowane są poszczególne wartości zmiennej celu. Na ich pod-
stawie możemy ocenić stopień wiarygodności przewidywanej wartości.
198
Następnie musimy określić jakiego rodzaju wyniki chcemy uzyskać. Naci-
skamy przycisk Wyniki... i w zakładce Statystyki zaznaczamy dodatkowo
opcje Ważność predyktora dla modelu i Substytucyjne według
podziału.
199
Zauważmy też, że pierwszy podział dokonywany jest na podstawie zmien-
nej relationship. Osoby pozostające w związku małżeńskim są oddzielane od
pozostałych. Zwróćmy uwagę, że tylko bardzo mała część tej drugiej gru-
py należy do kategorii zarabiających powyżej 50 tysięcy. Mężowie i żony są
następnie dzieleni ze względu na poziom wykształcenia. Osoby, które zdoby-
ły przynajmniej licencjat, w większości zarabiają powyżej 50 tysięcy. Wśród
gorzej wykształconych sytuacja jest odwrotna. Na końcu dokonywany jest
podział ze względu na przyrost kapitału. Osoby, u których był on wysoki,
należą zwykle do kategorii lepiej zarabiających.
200
Przeanalizujmy teraz macierz klasyfikacji. Widzimy, że 83,7% obserwa-
cji ze zbioru testowego zostało zaklasyfikowanych poprawnie. Na pierwszy
rzut oka wydaje się to całkiem niezłym wynikiem. Pamiętajmy jednak, że
dla około 76% obserwacji wartość zmiennej celu to Nie (tzn. zarabia poni-
żej 50 tysięcy dolarów). Moglibyśmy więc łatwo skonstruować klasyfikator o
76% poprawności, przypisując po prostu każdy przypadek do kategorii Nie.
Zbudowane drzewo poprawia nieco ten wynik, ale różnica jest stosunkowo
niewielka.
Dla osób zarabiających poniżej 50 tysięcy poprawność klasyfikacji to 95%,
a dla tych zarabiających powyżej 50 tysięcy tylko 48,5%. Ta ostatnia wartość
nie wygląda imponująco, ale pamiętajmy, że w całym zbiorze było tylko 24%
osób zarabiających powyżej 50 tysięcy.
Co zrobić, jeżeli jesteśmy szczególnie zainteresowani identyfikacją osób
lepiej zarabiających i chcielibyśmy zmniejszyć współczynnik błędu klasyfi-
kacji dla tej kategorii? Możemy w tym celu wykorzystać macierz kosztów
błędnej klasyfikacji. W tym celu wybierzmy ponownie polecenie Analiza
–> Klasyfikacja –> Drzewo klasyfikacyjne... i naciśnijmy przy-
cisk Opcje... Na zakładce Błędne koszty klasyfikacji wybierzmy opcję
Użytkownika, a w macierzy kosztów zamieńmy wartość elementu leżące-
go w lewym dolnym narożniku z 1 na 2. Dzięki temu błędna klasyfikacja
osób zarabiających powyżej 50 tysięcy będzie „karana” bardziej niż tych za-
rabiających poniżej 50 tysięcy. Klikamy Dalej, a w głównym oknie OK.
W raporcie pojawi się nowe drzewo i nowa macierz klasyfikacji.
201
Widzimy, że poprawność klasyfikacji dla lepiej zarabiających wzrosła do
66,9%. Ceną za to jest spadek poprawności klasyfikacji osób gorzej zarabia-
jących do 89%.
202
surogatami są zmienne sex i age, jednak ich związek ze zmienną relationship
jest znacznie słabszy.
Ćwiczenie 9.3. Za pomocą drzewa zbudowanego w poprzednim ćwiczeniu
sklasyfikuj obserwacje należące do zbioru adult test.sav.
Rozwiązanie. Otwieramy najpierw plik adult.sav i ustawiamy wszystkie
opcje budowy drzewa zgodnie ze wskazówkami umieszczonymi w rozwiązaniu
poprzedniego ćwiczenia (jeżeli nie zamknęliśmy pliku z danymi, to ustawienia
te zostały zapamiętane). Po wciśnięciu przycisku Wyniki na zakładce Re-
guły włączamy opcje Utwórz reguły klasyfikacji oraz Eksportuj
reguły do pliku. W polu tekstowym podajemy nazwę pliku oraz miejsce,
w którym ma zostać zapisany. Klikamy Dalej, a w głównym oknie OK.
Otwieramy plik adult test.sav, a następnie wybieramy Plik –> Otwórz
–> Polecenia i wybieramy zapisany wcześniej plik z regułami. Otworzy się
on w oknie poleceń. Zaznaczamy całą zawartość okna i uruchamiamy skrypt,
wciskając przycisk z zielonym trójkątem. Po chwili w oknie danych pojawią
się nowe zmienne. Pierwsza z nich nod 001 określa, do którego węzła trafiła
dana obserwacja. Zmienna pre 001 określa przewidywaną klasę, a prb 001
procent rekordów w węźle należących do przewidywanej klasy (czyli prawdo-
podobieństwo, że obserwacja została sklasyfikowana poprawnie). W normal-
nych okolicznościach trudno byłoby stwierdzić, jaka jest dokładność klasyfi-
kacji, gdyż prawdziwe wartości zmiennej celu nie są znane. W tym przypadku
zbiór zawiera prawdziwe wartości i możemy je porównać z wartościami wy-
znaczonymi za pomocą drzewa. W tym celu wybieramy Analiza –> Opis
statystyczny –> Tabele krzyżowe. W pole Zmienne w wierszach
wstawiamy zmienną income, a w zmienne w kolumnach zmienną pre 001
i klikamy OK.
203
9.3. Zadanie grupowania
Grupowanie (ang. clustering) zwane też analizą skupień (ang. cluster
analysis) polega na dzieleniu zbioru obserwacji na względnie jednorodne gru-
py (ang. clusters). Elementy wewnątrz danej grupy powinny być do siebie
jak najbardziej podobne, ale powinny się jak najbardziej różnić od elementów
z innych grup. Zauważmy, że w odróżnieniu od zadania klasyfikacji nie ma-
my tu określonej żadnej zmiennej celu. Nie wiemy, czy w zbiorze występują
jakieś naturalne podgrupy, ani ile ich może być. Grupowanie należy więc do
metod uczenia nienadzorowanego (ang. unsupervised learning).
Dzięki grupowaniu możemy odkryć pewne nieznane wcześniej struktury
występujące w analizowanych danych. Stosujemy je często we wstępnej ana-
lizie danych, po wyodrębnieniu jednorodnych grup danych możemy je badać
innymi metodami. Grupowanie stosujemy na przykład do:
• redukcji wymiarów, gdy zbiór danych opisany jest przez setki atrybu-
tów.
204
najczęściej stosujemy funkcję „różne od” określoną następująco:
0, gdy xi = yi
różne(xi , yi ) =
1, w przeciwnym przypadku,
gdzie xi i yi są wartościami zmiennej jakościowej.
Zwykle zmienne jakościowe kodujemy do postaci liczbowej. Jeżeli zmien-
na przyjmuje tylko dwie wartości, to jedną z nich kodujemy jako 0 a drugą
jako 1. Jeżeli tych wartości jest więcej, to dla każdej z nich tworzymy osob-
ną zmienną „zero-jedynkową”. Na przykład dla zmiennej kolor, która mo-
że przyjmować wartości: czerwony, biały, zielony, niebieski tworzymy cztery
zmienne czy czerwony, czy biały, czy zielony, czy niebieski i nadajemy im
wartości 0 lub 1 zgodnie z tabelą:
rekord kolor czy czerwony czy biały czy zielony czy niebieski
1 czerwony 1 0 0 0
2 biały 0 1 0 0
3 zielony 0 0 1 0
4 niebieski 0 0 0 1
Zauważmy, że moglibyśmy zrezygnować z ostatniej zmiennej i umówić się, że
jeżeli trzy pierwsze mają wartość 0, to odpowiada to kolorowi niebieskiemu.
Zwróćmy uwagę na pewną niezgodność związaną z obliczaniem odległości
pomiędzy tak zakodowanymi zmiennymi. Jeżeli zmienna kolor może przyjmo-
wać tylko dwie wartości (0 – czerwony, 1 – biały),
q to odległość euklidesowa,
pomiędzy białym a czerwonym wynosiłaby (0 − 1)2 = 1. Jeżeli natomiast
mamy cztery kolory, to odległość ta wyniesie
q √
(1 − 0)2 + (0 − 1)2 + (0 − 0)2 + (0 − 0)2 = 2 ≈ 1,4142.
Jeżeli chcemy, aby odległość pomiędzy różnymi wartościami zmiennej jako-
ściowej wynosiła zawsze 1, to musimy powyższy wynik przemnożyć przez
czynnik √12 ≈ 0,7071. Możemy też od razu zastąpić w powyższej tabelce
wszystkie 1 wartością √12 .
Algorytmy grupowania do optymalnego działania wymagają normalizacji
danych. W przeciwnym wypadku jedna zmienna, która przyjmuje wartości
z zakresu znacznie większego niż inne mogłaby zdominować analizę. Różnice
pomiędzy wartościami innych zmiennych byłyby wówczas nieistotne. Najczę-
ściej stosujemy normalizację min-max, albo standaryzację:
X − min(X)
normalizacja(X) =
max(X) − min(X)
X − średnia(X)
standaryzacja(X) = .
odchylenie standardowe(X)
205
Należy też zwrócić uwagę na obserwacje odstające. W przypadku niektórych
metod (np. k-średnich) zalecane jest usunięcie ich przed przeprowadzeniem
analizy.
Algorytmy grupujące można podzielić na dwie podstawowe kategorie:
metody hierarchiczne oraz różne odmiany metody k-średnich. Metody
hierarchiczne dzielimy jeszcze na aglomeracyjne i rozdzielające. W tych
pierwszych na początku zakładamy, że każda obserwacja tworzy odrębną
grupę, a następnie w każdym kroku łączymy ze sobą dwie najbardziej po-
dobne grupy. W metodach rozdzielających postępujemy odwrotnie, najpierw
wszystkie obserwacje należą do jednej grupy, a potem stopniowo dzielimy je
na mniejsze i bardziej jednorodne. O metodzie k-średnich napiszemy szerzej
w dalszej części tego rozdziału.
206
jak najbardziej oddalone od siebie. Należy podkreślić, że końcowy podział na
grupy może zależeć od wyboru początkowych środków. Dlatego często zaleca
się wykonanie algorytmu kilka razy, startując od różnych środków.
Środki ciężkości grup obliczamy w następujący sposób. Załóżmy, że do
pewnej grupy przypisaliśmy n rekordów: (a1 , b1 , c1 ), (a2 , b2 , c2 ), . . . , (an , bn , cn ).
Wówczas środkiem tej grupy będzie punkt:
!
a1 + a2 + . . . + an b 1 + b 2 + . . . + b n c 1 + c 2 + . . . + c n
, , .
n n n
Możemy zastosować różne kryteria stopu:
• Powtarzamy procedurę przydziału do grup i modyfikacji centroidów
określoną liczbę razy (maksymalna liczba iteracji).
• Zatrzymujemy algorytm w momencie, gdy środki grup przestaną się
zmieniać lub będą się zmieniać o mniej niż pewna ustalona wartość.
• Zatrzymujemy algorytm, gdy sumaryczny błąd średniokwadratowy (SSE )
przestanie się istotnie zmniejszać. W tym przypadku SSE definiujemy
wzorem:
k X
d(p, mi )2 ,
X
SSE =
i=1 p∈Ci
gdzie Ci jest i-tą grupą, mi środkiem tej grupy. Pierwsza suma prze-
biega po wszystkich grupach, druga po wszystkich punktach z danej
grupy.
Po zakończeniu działania algorytmu zwykle próbujemy zbudować profi-
le otrzymanych grup, czyli znaleźć wspólne cechy rekordów, które do nich
należą. W tym celu analizujemy ostateczne środki grup, które można uznać
za typowych przedstawicieli tych grup. Często eliminuje się przy tym grupy
o małej liczebności oraz łączy bliskie sobie grupy w jedną. W przypadku,
gdy trudno o jakąś sensowną interpretację otrzymanego podziału, należy się
zastanowić, czy wartość k została wybrana prawidłowo.
Dostęp w IBM SPSS Statistics: Analiza –> Klasyfikacja –>
Analiza skupień metodą k-średnich... Wybieramy zmienne, na pod-
stawie których ma zostać dokonane grupowanie, oraz liczbę skupień. Możemy
też wczytać wstępne centra grup z pliku zewnętrznego.
Pod przyciskiem Iteracja... możemy ustawić maksymalną liczbę itera-
cji algorytmu (od 1 do 999, domyślnie 10) oraz kryterium zbieżności (liczba
z przedziału [0, 1], domyślnie 0). Wartość 0,02 oznacza na przykład, że algo-
rytm zatrzyma się, jeżeli w danej iteracji żaden ze środków grup nie prze-
mieści się o przynajmniej 2% minimalnej odległości między początkowymi
207
środkami grup. W tym samym oknie możemy włączyć opcję Użyj śred-
nich ruchomych. Spowoduje ona, że przy pierwszej iteracji środki grup
będą modyfikowane po przypisaniu do grupy każdego rekordu, zamiast do-
piero po przypisaniu wszystkich rekordów.
Jeżeli chcemy zapisać w pliku danych informację, do której grupy zostały
przypisane poszczególne obserwacje oraz w jakiej odległości od ostatecznych
środków grup się znajdują, to odpowiednie opcje znajdziemy po naciśnię-
ciu przycisku Zapisz... Z kolei przycisk Opcje... umożliwia wyświetlenie
w oknie raportu dodatkowych informacji (początkowych centrów skupień,
tabeli ANOVA oraz ostatecznego przydziału obserwacji do grup). Możemy
tu także wybrać sposób postępowania z obserwacjami zawierającymi braki
danych. Domyślnie z analizy wykluczane są wszystkie obserwacje, dla których
przynajmniej jedna wykorzystywana zmienna ma brak danych (jest to tzw.
metoda listwise deletion). Takie obserwacje nie zostaną przypisane do żad-
nej z grup. Zamiast tego możemy wybrać opcję Wyłączanie obserwacji
parami. Wówczas algorytm będzie przypisywał obserwacje do grup na pod-
stawie tych zmiennych, które nie mają braków danych. Jedynie w przypadku,
gdy we wszystkich zmiennych używanych w analizie występują braki danych,
obserwacja zostanie wykluczona (jest to tzw. metoda pairwise deletion).
Domyślny tryb pracy algorytmu to Iteracja i klasyfikacja, działa
on wówczas zgodnie z opisanymi powyżej zasadami. W przypadku bardzo
dużych zbiorów danych ustalanie centrów skupień na podstawie wszystkich
obserwacji może być mało efektywne. W takim przypadku zaleca się nastę-
pującą procedurę:
• Wybieramy ze zbioru danych losową próbę.
208
najwyższe zyski. Dzięki temu firma będzie mogła przygotować ofertę lepiej
dostosowaną do indywidualnych oczekiwań klientów. Dane dotyczące klien-
tów firmy znajdują się w pliku telco extra.sav (plik przykładowy programu).
Korzystając z metody k-średnich, podziel klientów na grupy jak najbardziej
jednorodne pod względem struktury wydatków na usługi tej firmy.
209
Wybieramy polecenie Analiza –> Klasyfikacja –> Analiza sku-
pień metodą k-średnich... W oknie Zmienne umieszczamy wymienione
powyżej zmienne (ich etykiety rozpoczynają się od słowa Standardized ). Spró-
bujemy najpierw wyodrębnić 3 grupy klientów. Odpowiednią wartość wpisu-
jemy w polu Liczba skupień. Naciskamy przycisk Iteracje..., zwiększamy
liczbę iteracji do 20 i klikamy Dalej. Następnie naciskamy przycisk Opcje...
i zaznaczamy pola Wstępne centra skupień oraz Tabela ANOVA.
W polu Braki danych wybieramy opcję Wyłączanie obserwacji pa-
rami, gdyż wyłączenie z analizy wszystkich obserwacji zawierających braki
znacznie zmniejszyłoby nasz materiał badawczy. Klikamy przycisk Dalej,
a w głównym oknie OK.
Na początku raportu znajduje się tabela zawierająca wartości wszyst-
kich zmiennych dla 3 obserwacji, które algorytm wybrał jako wstępne centra
skupień. Zauważmy, że znacznie różnią się od siebie.
Kolejna tabela zawiera zapis przebiegu działania algorytmu. Pokazuje jak
bardzo zmieniało się położenie centrów skupień w poszczególnych krokach.
Zauważmy, że na początku zmiany te były stosunkowo duże, a pod koniec
nastąpiła stabilizacja. Algorytm zatrzymał się po 18 iteracjach. Zwróćmy
uwagę, że przeprowadzenie domyślnej liczby 10 iteracji nie zapewniłoby uzy-
skania stabilnego rozwiązania.
210
Tabela ANOVA wskazuje, które zmienne miały największy wpływ na zna-
lezione rozwiązanie. Zmienne z dużymi wartościami statystyki F zapewniają
najlepszą separację pomiędzy grupami. W naszym przypadku są to: Stan-
dardized caller id, Standardized paging i Standardized call waiting (zcallid,
zpager i zcallwai ). Uwaga: wyniki testu F mogą być wykorzystywane jedynie
w celach opisowych. Poziomy istotności wyświetlane w ostatniej kolumnie ta-
beli nie powinny być interpretowane jako testy hipotezy, że średnie skupień
są równe.
211
Najważniejsze informacje znajdują się w tabeli Ostateczne centra skupień.
Są to średnie wartości poszczególnych zmiennych dla wszystkich obserwacji
przypisanych do danej grupy. Środek grupy możemy traktować jako charak-
terystykę typowego przypadku należącego do tej grupy. Spróbujmy zinter-
pretować uzyskane wyniki.
W pierwszej grupie wartości wszystkich zmiennych są dodatnie. W przy-
padku zestandaryzowanych zmiennych oznacza to, że są to wartości większe
od średniej. Możemy więc uznać, że do tej grupy należą klienci, którzy wydają
dużo i korzystają z wielu różnych usług.
Do grupy drugiej należą klienci, którzy korzystają tylko ze standardowych
usług telefonicznych (rozmowy zamiejscowe, identyfikacja numeru dzwonią-
cego, przekazywanie połączeń itp.). Nie używają oni raczej usług takich jak
internet czy pager.
Do ostatniej grupy należą najmniej dochodowi klienci, którzy wydają
bardzo mało i korzystają z niewielkiej liczby usług.
212
Ostatnia tabela zawiera informacje o liczbie obserwacji przypisanych do
każdej z grup.
213
Ponownie wybieramy polecenie Analiza –> Klasyfikacja –> Ana-
liza skupień metodą k-średnich... Zmieniamy liczbę skupień na 4, resztę
opcji pozostawiamy bez zmian i klikamy OK.
214
grupy 2. trafili klienci, których wydatki we wszystkich kategoriach są mniej-
sze od przeciętnych, to klienci z grupy 1. korzystają często z nowoczesnych
usług (internet, wiele linii telefonicznych). Do grupy tej trafiło ponad 25%
wszystkich klientów. Podział na cztery grupy pozwolił więc na istotne zredu-
kowanie liczby mało dochodowych klientów.
215
216
Bibliografia
[4] Bąk I., Markowicz I., Mojsiewicz M., Wawrzyniak K.: Staty-
styka w zadaniach. Część II: Statystyka matematyczna. Warszawa, Wy-
dawnictwa Naukowo-Techniczne, 2001.
[5] Harnett D. L., Soni A. K.: Statistical Methods for Business and
Economics. Addison-Wesley Publishing Company, 1991.
[7] Krysicki W., Bartos J., Dyczka W., Królikowska K., Wasi-
lewski M.: Rachunek prawdopodobieństwa i statystyka matematyczna
w zadaniach. Część II: Statystyka matematyczna. Warszawa, PWN, wyd.
VIII, 2006.
217
[11] Rees D.G.: Essential Statistics. London, Chapman&Hall, 1995.
218
Spis treści
5. Przedziały ufności 87
219
6. Testowanie hipotez 91
6.1. Test t-Studenta dla jednej średniej . . . . . . . . . . . . . . . 92
6.2. Test t-Studenta dla dwóch średnich i prób niezależnych . . . . 96
6.3. Test t-Studenta dla dwóch średnich i prób zależnych . . . . . . 100
6.4. Test Kołmogorowa . . . . . . . . . . . . . . . . . . . . . . . . 103
6.5. Test chi-kwadrat zgodności . . . . . . . . . . . . . . . . . . . . 109
6.6. Test chi-kwadrat niezależności . . . . . . . . . . . . . . . . . . 115
6.7. Dokładny test Fishera* . . . . . . . . . . . . . . . . . . . . . . 118
6.8. Test Wilcoxona znakowanych rang . . . . . . . . . . . . . . . . 121
6.9. Test U Manna-Whitneya* . . . . . . . . . . . . . . . . . . . . 126
Bibliografia 217
220