Download as pdf or txt
Download as pdf or txt
You are on page 1of 338

Zastosowanie wybranych metod taksonomicznych

w badaniach historycznych
Lucyna Błażejczyk-Majka

Zastosowanie wybranych metod taksonomicznych


w badaniach historycznych

Poznań 2018
© Copyright by Uniwersytet im. Adama Mickiewicza w Poznaniu,
Instytut Historii UAM, Poznań 2018
Copyright © Lucyna Błażejczyk-Majka, 2018

Recenzent
dr hab. Tadeusz Janicki, prof. UAM

Projekt okładki
Piotr Namiota

Redakcja i DTP
Małgorzata Nowacka

ISBN 978-83-65663-47-4

Instytut Historii UAM


ul. Umultowska 89 D
61-614 Poznań
tel. 61 829 64 76
e-mail: history@amu.edu.pl
www.historia.amu.edu.pl

Druk
Zakład Graficzny UAM
ul. Wieniawskiego 1
61-712 Poznań
Spis treści

1. Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2. Metody taksonomiczne jako narzędzie syntezy w badaniach historycznych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1. Istota metod taksonomicznych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2. Podział metod taksonomicznych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3. Zagadnienia historyczne wspomagane metodami taksonomicznymi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4. Grupowanie jako proces badawczy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

Zagadnienia teoretyczne

3. Podstawowe zagadnienia wielowymiarowej analizy statystycznej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31


3.1. Zbiorowość i jednostki zbiorowości . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2. Cechy zbiorowości, pomiar i zmienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3. Typy skal pomiarowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4. Normalizacja zmiennych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4. Miary podobieństwa i niepodobieństwa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.1. Miary odległości . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2. Miary podobieństwa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3. Współczynniki korelacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4. Pomiar podobieństwa i niepodobieństwa w sytuacjach specyficznych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5. Dobór zmiennych do badania. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.1. Wstępna statystyczna selekcja zmiennych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.2. Dualne procedury taksonometryczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.3. Bezpośredni wybór zmiennych diagnostycznych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.4. Dobór zmiennych w przypadku badań przekrojowo-czasowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6. Wybrane metody hierarchiczne i kombinatoryczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6.1. Hierarchiczne metody analizy skupień . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.2. Metody kombinatoryczne analizy skupień . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
6.3. Ocena grupowania. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

Przykłady zastosowania metod taksonomicznych

7. Regionalizacja na przykładzie grupowania powiatów ze względu na sytuację demograficzną w departamencie


poznańskim w 1810 r. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
7.1. Przygotowanie danych demograficznych do badań wielowymiarowych . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
7.2. Dobór zmiennych diagnostycznych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
7.3. Macierz odległości jako podstawa grupowania hierarchicznego . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
7.4. Macierz sąsiedztwa terytorialnego C w regionalizacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
7.5. Grupowanie powiatów metodą Warda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
7.6. Ocena grupowania i opis uzyskanych wyników . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
8. Weryfikacja hipotez historycznych na przykładzie regionalizacji produkcji rolniczej na części ziem polskich
w okresie międzywojennym (od 1939 do 1945 r. tworzących tzw. Kraj Warty) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
8.1. Zarys problemu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
8.2. Dane ilościowe wyrażone w skali porządkowej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
8.3. Normalizacja zmiennych wyrażonych w skali porządkowej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
8.4. Dobór zmiennych diagnostycznych z wykorzystaniem taksonomii wrocławskiej. . . . . . . . . . . . . . . . . . . . . 187
8.5. Wyznaczenie macierzy odległości i grupowanie powiatów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
8.6. Ocena grupowania i opis uzyskanych wyników . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
6 Spis treści

9. Periodyzacja w badania historycznych na przykładzie struktury gałęziowej produkcji czystej w przemyśle


uspołecznionym w latach 1958-1989 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
9.1. Różne spojrzenia na periodyzację gospodarki okresu powojennego w Polsce . . . . . . . . . . . . . . . . . . . . . . . 199
9.2. Dane ilościowe w porównaniach dynamicznych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
9.3. Normalizacja zmiennych w zagadnieniach dynamicznych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
9.4. Wstępna statystyczna selekcja zmiennych i dobór zmiennych diagnostycznych. . . . . . . . . . . . . . . . . . . . . . 203
9.5. Periodyzacja z wykorzystaniem metod hierarchicznych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
9.6. Ocena grupowania i synteza historyczna uzyskanych wyników . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

10. Grupowanie obiektów historycznych na przykładzie rzemiosła wiejskiego we wsi Odrowąż i Waksmund w 1970 r. 221
10.1. Opis wcześniejszych badań. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
10.2. Dane ilościowe w skali nominalnej w badaniach historycznych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
10.3. Metoda eliminacji wektorów w sytuacji doboru zmiennych diagnostycznych . . . . . . . . . . . . . . . . . . . . . . . 223
10.4. Wyznaczenie macierzy odległości dla zmiennych wyrażonych w skali nominalnej . . . . . . . . . . . . . . . . . . . 226
10.5. Grupowanie warsztatów i wybór ostatecznego wyniku w oparciu o wskaźnik GSI . . . . . . . . . . . . . . . . . . . 227
10.6. Charakterystyka uzyskanych wyników. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

11. Zagadnienie identyfikacji na przykładzie grupowania dokumentów lub tekstów historycznych . . . . . . . . . . . . . . . 233
11.1. Dane ilościowe w procesie grupowania dokumentów lub tekstów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
11.2. Dobór zmiennych diagnostycznych metodą Czekanowskiego. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
11.3. Grupowanie dokumentów lub tekstów w oparciu o różne miary odległości . . . . . . . . . . . . . . . . . . . . . . . . . 238
11.4. Ocena uzyskanych wyników na podstawie wartości wskaźnika C-Calińskiego-Harabasza . . . . . . . . . . . . . 241

12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych z działalności indywidualnych


w powiatach województwa poznańskiego w latach 1958-1970 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
12.1. Znaczenie rzemiosła i innych działalności indywidualnych w pierwszych latach po wojnie . . . . . . . . . . . . 248
12.2. Dane w zagadnieniach przestrzenno-czasowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
12.3. Normalizacja zmiennych za pomocą przekształceń ilorazowych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
12.4. Dobór zmiennych diagnostycznych z wykorzystaniem taksonomii wrocławskiej. . . . . . . . . . . . . . . . . . . . . 252
12.5. Wyznaczenie liczby skupień w badaniach przestrzenno-czasowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
12.6. Regionalizacja powiatów województwa poznańskiego ze względu na strukturę wypływów podatkowych . . 258
12.7. Periodyzacja okresu 1958-1970 ze względu na zmiany strukturalne w działalnościach indywidualnych. . . 264
12.8. Podsumowanie badań przestrzenno-czasowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266

13. Zakończenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275


14. Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
Aneks A. Dane ilościowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
Aneks B. Metody hierarchiczne i kombinatoryczne w programie Statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
Aneks C. Główne oznaczenia i symbole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
1
Wstęp

Wśród wielu kategorii źródeł historycznych istotne miejsce zajmują informacje ilościowe. Historycy
bazujący na takim materiale, niezależnie od podejmowanej tematyki, w swej pracy muszą zmierzyć
się z problemem usystematyzowania danych ilościowych, uogólnienia wyników i odniesienia ich do
opisywanych w szerokim kontekście historycznym zjawisk politycznych czy społeczno-
gospodarczych (TOPOLSKI 1965; HUDSON 2000; CAMERON, RICHARDSON 2005, s. 72-106;
NAROJCZYK 2005). To właśnie połączenie różnych rodzajów źródeł, ujmowanych w wielu aspektach,
i ich synteza prowadzą do uzyskania pełnego obrazu analizowanego zjawiska (STONE 1970, s. 11-12).
Potrzeba zbierania i zapisywania informacji towarzyszyła człowiekowi od zarania dziejów. Doty-
czyła ona przede wszystkim dobytku (BORYS 1982). Przykłady tego typu działań miały miejsce już
w starożytności. Podania dotyczące spisów ludności sięgają już 2000 lat p.n.e. O pierwszych takich
przedsięwzięciach mówi się w kontekście Chin w czasach dynastii Sia (RAO 1994, s. 52). Z kolei na
ziemiach polskich pierwszy spis powszechny został przeprowadzony w 1789 r. w czasie Sejmu Wiel-
kiego. O jego realizacji zadecydowała konieczność uzyskania środków materialnych na cele armii
stałej (KONFEROWICZ 1968). Zofia DASZYŃSKA-GOLIŃSKA (1892) zwróciła uwagę, że zainteresowa-
nie zjawiskami masowymi opisanymi danymi statystycznymi wynikało z faktu, iż „masa owa, t.zw.
lud, odegra pewną rolę, gdy od wielkości jej zależeć będzie powodzenie tej lub owej partyi. Rola poli-
tyczna masy zaczyna się dopiero w okresie rewolucji”. Wraz z szybkim uprzemysłowieniem
w Europie w pierwszej połowie XIX w. zaczęto interesować się także warunkami życia ludności
i przyczynowością zjawisk społeczno-ekonomicznych (WAŚCISZEWSKI 1930), co przyczyniło się do
wzrostu liczby danych demograficznych. Innego rodzaju informacji ilościowych dostarczają różnego
rodzaju spisy poborowe i cechowe, księgi stanu cywilnego i kościelne, inwentarze majątkowe, donie-
sienia prasowe, zabytki kultury materialnej czy wykopaliska archeologiczne. Te ostatnie wymieniane
są jako przyczynek do rozwoju metod taksonomicznych.
Od początku XIX w. podejmowano liczne działania zmierzające do ujednolicenia w skali między-
narodowej metod zbierania i opracowywania danych statystycznych (RAO 1994, s. 56), dzięki czemu
możliwe staje się ich porównywanie. Duże znaczenie w tego typu działaniach odgrywały i odgrywają
badania historyków z zakresu metrologii (por. KULA 1963, s. 583-628). Na ścisły związek badań hi-
storycznych ze statystyką wskazywał już Felicjan Antonii KOZŁOWSKI (1838, s. 95): „Z historią
w takim zostaje stosunku statystyka, że zasięga od niej doświadczenia, jak zapatrywać się na data sta-
tystyczne pod względem ich wagi i wpływu na stan państwa; to jest z przeszłości poznaje się, co może
być ważnym w podaniu obrazu teraźniejszości. Zresztą statystyka jest niejako stałą, do czasu obecne-
go przywiązaną historią, a historia ciągłą statystyką (…). W historii dadzą się oznaczyć pewne stałe
fakta i zebrać potrzebne do tego materiały, o ile ich po dokładnym osądzeniu krytyki źródła dostarczą,
a statystyce z powodu ciągłej zmiany i nadzwyczajnej rozległości można tylko podać obraz zbliżony
do prawdy”. Zdzisław KORZYBSKI (1870) zwrócił zaś uwagę na współpracę pomiędzy historykami
i statystykami w zakresie opisu stanu państwa i społeczeństwa, którego nie można wiarygodnie prze-
8 1. Wstęp

prowadzić bez znajomości przyczyn, które na wytworzenie danego stanu wpłynęły. Podobne wnioski
odnośnie do ścisłej zależności obu grup badaczy wysunął Mieczysław MARASSÉ (1866). Podsumowa-
nie osiągnięć w zakresie statystyki historycznej przedstawiła z kolei DASZYŃSKA-GOLIŃSKA (1892,
s. 319), która podkreśliła jednak wyższość statystyki historycznej nad działaniami związanymi
z prowadzeniem statystyk państwowych: „arytmetykom politycznym chodziło głównie o ruch ludno-
ści, statystyka historyczna zajmuje się nim zaś więcej, jako symptomatem rozwoju ludnościowego,
badając w pierwszym rzędzie stan ludności i uważając zaludnienie za składnik integralny życia eko-
nomicznego kraju”.
Zastosowanie metod ilościowych i statystyki w naukach humanistycznych, w tym historycznych,
było rozważane już w pierwszej połowie XX w. Początkowo możliwość ta nie spotkała się
z życzliwym przyjęciem (PAMIĘTNIK IV POWSZECHNEGO ZJAZDU… 1927; PAWŁOWSKI 1969, s. 122-
-127). Wynikało to głównie z faktu, że nauki historyczne wytworzyły własny zespół sprawdzonych
metod badawczych. Prace historyczne cechuje z reguły staranna dokumentacja, skrupulatność
i weryfikacja materiału źródłowego oraz odpowiedzialność i ostrożność w formułowaniu wniosków
syntetycznych (RUSIŃSKI 1968). Jednak w miarę doskonalenia metod zbierania, gromadzenia, prze-
chowywania i udostępniania informacji ilościowych podejście to stopniowo ulegało zmianie. Szcze-
gólnie rozwój technik komputerowych sprawił, że ilościowy opis oparty na pojedynczych zmiennych
okazał się już niewystarczający. Konieczne stało się zastosowanie metod wielowymiarowych. Zdzi-
sław HELLWIG (1981, s. 46) akcentował, iż zastosowanie metod ilościowych w niektórych dziedzinach
daje możliwość „wysłowienia w języku liczb jakościowych odrębności badanych zjawisk”.
Wśród gałęzi wiedzy historycznej, co podkreślał Kazimierz Tymieniecki, zastosowanie metod sta-
tystycznych najsilniej od innych wyodrębnia historię gospodarczą (UCZCZENIE PAMIĘCI…1950, s. 16).
Tezę tę potwierdzał Jerzy TOPOLSKI (1984, s. 402): „Wprowadzenie metod ilościowych do historii
związane jest przede wszystkim z rozwojem historii gospodarczej (wraz z demografią), która nie
chcąc być zbiorem ciekawostek i anegdot, musiała (sięgając do niewykorzystanych źródeł) badać fak-
ty masowe – te zaś wymagały metod ilościowych”. Podkreślał on jednak, że „wyniki badań ilościo-
wych w obraz integralnego procesu historycznego włączyć może jedynie analiza jakościowa, bazująca
na uzasadnionej i mającej duże pole widzenia teorii rozwoju społecznego” (TOPOLSKI 1984, s. 405).
W myśl tej opinii metody ilościowe, a w szczególności wielowymiarowe, należy traktować jako ko-
lejne użyteczne narzędzie wzbogacające warsztat historyka. Analiza statystyczna informacji ilościo-
wych jest bowiem tylko jednym z końcowych etapów badań historycznych. Poprzedza go etap projek-
towania badania i zbierania danych, w których niezastąpiony jest tradycyjny warsztat historyka. Stani-
sław OSTASIEWICZ (2003, s. 11) zwraca uwagę, że „badanie statystyczne to jeden ze sposobów po-
znawania świata, (…) jednym z języków w jakim można przeprowadzone obserwacje wyrazić”.
Pionierem stosowania metod statystycznych w odniesieniu do materiału historycznego był Jan
Rutkowski (1886-1949), założyciel Katedry Historii Gospodarczej na Uniwersytecie Poznańskim,
który już w 1925 r. wystąpił z koncepcją syntezy w historii gospodarczej (TOPOLSKI 1965; 1986,
s. 193). Głównym narzędziem w tym podejściu miało być stosowanie matematyki do badań nad społe-
czeństwem (RUTKOWSKI 1937, s. 56). W jego opinii zadaniem historii gospodarczej jest wyjaśnianie,
wolne od jednostronnej faktograficzności, i równocześnie docierające do rzeczywistych stosunków na
podstawie adekwatnych źródeł pozwalających na takie dotarcie (TOPOLSKI 1986, s. 206-208). Według
RUTKOWSKIEGO (1937), gdy chodzi o zjawiska masowe, tylko odwołanie się do metody statystycznej
pozwala przyczynić się do nadania treści ogólnikowym określeniom quasi-ilościowym, takim jak „du-
żo”, „mało”, „znacznie”. Mimo wszystko Rutkowski podkreślał istnienie granic stosowalności mate-
1. Wstęp 9

matyki w badaniach historycznych ze względu na fakt, że wytyczne metodologiczne stosowane


w naukach ścisłych muszą być zupełnie inne niż w naukach humanistycznych. W obszarze demografii
historycznej myśl tę podnosiła w latach siedemdziesiątych XX w. Irena GIEYSZTOROWA (1976, s. 18-
-19) wskazując, iż rozwój tej dziedziny wymaga od historyka umacniania współpracy z lingwistami
i statystykami. RUTKOWSKI (1946, s. 9) podkreślał jednak, że metoda statystyczna musi być odpo-
wiednio dobrana do źródeł, do których historyk z konieczności jest ograniczony.
Jak wspomniano wcześniej, główną rolę w rozwoju nauk historycznych RUTKOWSKI (1946, s. 17-
-20) przypisywał pracom syntetycznym. Stanowisko to podzielali jego uczniowie: Władysław Rusiń-
ski i Jerzy Topolski. Pierwszy z nich zwracał uwagę, że głównym zadaniem historyków jest znalezie-
nie dla faktów społecznych i gospodarczych wspólnego wyrazu, ich uogólnianie oraz badanie tenden-
cji zmian. W jego przekonaniu historia, a w szczególności historia gospodarcza, nie jest wyłącznie
dziedziną analityczną, faktograficzną, odpowiednikiem w czasie „ekonomii opisowej”. Głównym
zadaniem tej dyscypliny „jest i powinna być także szersza synteza, wyższy stopień uogólnienia wyni-
ków badawczych, ustalenie prawidłowości rozwoju gospodarczego społeczeństw ludzkich. Odnosi się
to zwłaszcza do praw ekonomicznych determinujących ekonomikę poszczególnych formacji społecz-
no-gospodarczych” (RUSIŃSKI 1968, s. 156). Z kolei w opinii TOPOLSKIEGO (1984, s. 212) „konstruk-
cja syntetyczna jest (…) sposobem budowania odpowiedzi na zasadnicze pytania badawcze, w którym
wprawdzie wykorzystuje się kryterium chronologiczne, terytorialne i rzeczowe, lecz sposób ich wyko-
rzystywania jest uzależniony od określonego poglądu na dzieje, co jak wiadomo, stanowi najważniej-
szy dla historyka składnik wiedzy pozaźródłowej”. Dużo bardziej sceptycznie o tego typu badaniach
wypowiadał się Edward TAYLOR (1962, s. 128). Stwierdzał on, że syntezy historyków gospodarczych
„z zasady wykazują jednostronność, cierpią bowiem zawsze na podstawową, nieuniknioną
i nieuchronną, wypływającą z istoty rzeczy wadę, mianowicie na niepełność indukcji i dowolność
uogólnień, wskutek czego łatwo przechodzą na grunt historiozofii”. W dyskusji merytorycznej na ten
temat RUSIŃSKI (1968, s. 150) akcentował, iż „historykom pozostał jednak nadal – i to stanowi ich
siłę, nie słabość – szacunek dla jednostkowych zjawisk historii, dążenie do możliwie pełnego wyczer-
pania materiału źródłowego, staranność naukowej analizy”.
W drugiej połowie XX w., pod wpływem fascynacji ekonometrią i metodami matematycznymi
stosowanymi w ekonomii, powstała kliometria, nazywana także „nową historią gospodarczą”. Do
najbardziej znanych przedstawicieli tego nurtu należą uhonorowani w 1993 r. Nagrodą Nobla Dou-
glass C. North i Rober Fogel. Witold KULA (1963, s. 93) już w latach 60. XX w. podkreślał, że ze
względu na charakter przedmiotu historii gospodarczej do kanonu metod, którymi się ona posługuje,
powinny wchodzić również metody ekonomii, a w szczególności metody badania zjawisk ekonomicz-
nych oraz ekonomicznego aspektu ludzkich działań i ich ekonomicznych wyników. Podejście to do
dziś budzi sprzeczne emocje. Dla przykładu Wojciech MORAWSKI (2008) stawia kliometrii zarzuty
zdehumanizowania. W jego opinii to ułomny sposób przedstawiania historii jako ciągów liczb: „nowa
historia gospodarcza” to swoista Procent Story. Z kolei Joanna DZIONEK-KOZŁOWSKA (2008),
w ramach tej samej publikacji, zwraca uwagę, że twórcy tzw. „nowej historii gospodarczej” podjęli
wysiłek zbliżenia teorii ekonomicznej i historii gospodarczej poprzez skonstruowanie takiego zestawu
narzędzi badawczych, które umożliwiłyby stworzenie testowalnych teorii dotyczących funkcjonowa-
nia systemów gospodarczych na przestrzeni dziejów. Jest to stanowisko zgodne z zapatrywaniami
NORTHA (1976). Trzeba przyznać, że ostatecznie takie właśnie podejście zyskało wielu zwolenników,
zarówno wśród ekonomistów, jak i historyków gospodarczych, co pokazuje, iż implementacja metod
ilościowych może stanowić jedną z efektywnych dróg korespondencji nauk historycznych
z pokrewnymi dziedzinami nauki.
10 1. Wstęp

Myślenie w kategoriach statystycznych, którego głównym przedmiotem są dane statystyczne jest


jedną z dróg prowadzących do sprawnego oddzielenia prawdy od fałszu i zminimalizowania błędów
ostatecznych uogólnień (RAO 1994, s. 125; OSTASIEWICZ 2012, s. 12). W tym miejscu nie sposób
pominąć skojarzenia z tak zwanym „kłamstwem statystycznym” (RAO 1989). Wynika ono jednak
z mechanicznego korzystania z danych statystycznych, co rodzi niebezpieczeństwo popełnienia błę-
dów zarówno logicznych, jak i poznawczych, oraz – w konsekwencji tego – prowadzi do wyciągnięcia
fałszywych wniosków. To powoduje, że część badaczy całkowicie neguje jakąkolwiek przydatność
danych ilościowych w rozważaniach historycznych (por. WIŚNIEWSKI 1987; BALICKI 2009, s. 12).
Poglądy Calyampudi R. RAO (1994) wskazują jednak, iż to właśnie historycy, dzięki krytycznej oce-
nie źródeł oraz dzięki szerszej znajomości kontekstów historycznych, społecznych i gospodarczych
opracowywanych danych ilościowych, są grupą najbardziej odporną na manipulacje związane
z nieprawidłową interpretacją wyników stosowania metod statystycznych. Co więcej, William BUNGE
(1968, s. 74) wskazuje, że odrzucanie wyjaśnień statystycznych jest rzeczą równie niemądrą, jak
uznawanie ich za ostateczne. Zatem podstawowa trudność sprowadza się do tego, aby zrozumieć sens
poszczególnych metod, umieć poprawnie je zastosować oraz ocenić wyniki z punktu widzenia bada-
nego zagadnienia i je zinterpretować (BALICKI 2009, s. 15).
Jednym ze sposobów uniknięcia zarzutu jednostronności i dowolności uogólnień w historii jest za-
stosowanie wielowymiarowych metod statystycznych, a w szczególności metod związanych
z grupowaniem. O zagadnieniu tym w ujęciu jednowymiarowym wspominają KULA (1963, s. 370-
-373) oraz TOPOLSKI (1984, s. 410-412). W okresie dyskusji nad zagadnieniem syntezy w badaniach
historycznych czynnikiem skutecznie ograniczającym próby wykorzystywania metod ilościowych
była dostępność programów komputerowych, a zwłaszcza oprogramowania statystycznego. Szczegól-
nie metody, które uwzględniają wielowymiarowość obiektów, zniechęcały złożonością
i czasochłonnością obliczeń. Dziś techniczne ograniczenia nie stanowią już problemu.
Jak wspomniano wcześniej, wykorzystując metody statystyczne, nie można ograniczać się jedynie
do wniosków ilościowych. Konieczna jest ich krytyczna ocena, nie tylko pod względem istotności
statystycznej, ale również adekwatności merytorycznej. W tym względzie nieoceniona jest szeroka
wiedza historyka z zakresu badanego zagadnienia. Wniosek taki znajduje potwierdzenie w opiniach
szerszego grona historyków gospodarczych. Dla przykładu MORAWSKI (2008) zwraca uwagę, że ko-
nieczny jest powrót historyków do wnikliwego i krytycznego podejścia do źródeł tak, aby zafascyno-
wani tworzeniem atrakcyjnych modeli matematycznych nie przyjmowali danych liczbowych bezkry-
tycznie. Warto również wykorzystać część wysuniętych we wspomnianym artykule postulatów,
a w szczególności położyć nacisk na opis historyczny, który powinien stanowić niezbędny element
narracji historycznej. Roman MACYRA (2011, s. 33) ostrzega natomiast: „z każdą kolejną dekadą na-
rasta wielkość materiałów ilościowych (kliometria i jej metody są tu pomocne), ujawniają się coraz
nowsze metody ich opracowywania i analizowania. Z faktu ich masowości zyskują na coraz większym
znaczeniu. W sposób niebezpieczny jednak uwalniają nas od wstępnego i głębokiego przemyślenia
konceptualnego, zanim podejmiemy się próby ich porządkowania, następnie analizowania, aby
w końcu przejść na ich podstawie do wnioskowania”.
Wachlarz metod statystycznych służących poszukiwaniu wewnętrznej logiki w zjawiskach spo-
łeczno-gospodarczych jest szeroki. Wydaje się, że najcenniejsze przy formułowaniu syntez historycz-
nych są metody pozwalające na grupowanie (klasyfikowanie). Ryszard DOMAŃSKI (1964) zwraca
uwagę, iż podmioty grupowania – obiekty – odróżniają się od siebie zwykle nie według jednej cechy,
ale wielu cech. Klasyfikacja jednowymiarowa może dać zatem tylko częściowe i przybliżone ich usys-
1. Wstęp 11

tematyzowanie. Bardziej złożona i kłopotliwa jest sytuacja porządkowania obiektów wielocechowych.


Co więcej, zwykle w naukach historycznych i społecznych mamy do czynienia z sytuacją, kiedy naj-
częściej nie sformułowano w sposób wyraźny kryteriów uporządkowań (PAWŁOWSKI 1977, s. 118-
-118). W takich przypadkach warto odwołać się do metod taksonomicznych. Taksonomia to nauka
o klasyfikowaniu, które spełnia dwie główne funkcje naukowe: służy opisowi obiektów, którymi ba-
dacz jest zainteresowany, oraz pozwala na sformułowanie generalnych praw czy teorii, za pomocą
których przykładowe zdarzenia mogą być wyjaśnione lub przewidziane (MEZZICH, SOLOMON, 1980,
s. 1).
Na znaczenie klasyfikacji jako narzędzia syntezy historycznej wskazywał już Tadeusz
PAWŁOWSKI (1979, s. 108-109). Podkreśla on, że klasyfikacje obiektów w ujęciu historycznym po-
zwalają m.in. na porównywanie obiektów (przedmiotów, osób) między sobą ze względu na stopień
posiadanych cech. Wprowadzają one porządek w chaosie różnorodnych zjawisk, z jakimi badacz ma
do czynienia, umożliwiając ich usystematyzowanie. W konsekwencji porównując konkretne zjawiska,
można dostrzec zachodzące między nimi różnice i na tej podstawie sformułować hipotezy, wyjaśnia-
jąc, a tym samym pełniej rozumiejąc, badane zagadnienia.
Metody taksonomiczne znajdują zastosowanie w wielu dziedzinach nauki. Jednak swój burzliwy
rozwój zawdzięczają właśnie badaniom historycznym, a w szczególności badaniom archeologicznym
i antropologicznym. Wystarczy tu wymienić, omówione bardziej szczegółowo w dalszej części pracy,
badania Jana CZEKANOWSKIEGO (1911, 1913) dotyczące materiału kraniologicznego czaszek afrykań-
skich. Na podkreślenie zasługują również prace Ogólnej Grupy Zastosowań Państwowego Instytutu
Matematycznego we Wrocławiu, pod kierunkiem Hugo Steinhausa, bazujące m.in. na pomiarach cza-
szek z Ostrowa Tumskiego. Te ostatnie zostały szeroko opisane przez Jana MYDLARSKIEGO (1953)
w artykule, który stanowi sprawozdanie po konferencji antropologicznej w sprawie metod taksono-
micznych we Wrocławiu w dniach od 27 XII do 29 XII 1951 r. Przykłady grupowania w badaniach
historycznych można znaleźć również w pracach EVERITTA i in. (2011, s. 9-13) oraz HÄRDLE
i SIMARA (2003, s. 302). Grupowanie brosz z epoki żelaza przeprowadzone zostało w oparciu
o metody taksonomiczne przez HODSONA i in. (1966). Kolejne obszary zastosowania metod grupowa-
nia wielowymiarowego w badaniach historycznych dotyczyły znalezionych na Wyspach Brytyjskich
toporów (HODSON 1971). Inne studia odnosiły się do ceramik egipskich (MALLORY-GREENOUGH,
GREENOUGH 1998) czy skamieniałości (SUTTON, REINHARD 1995). Na ścisłą współpracę obu środo-
wisk wskazuje również monografia Mathematics in the Archaelological and Historical Sciences
(1971), w której zagadnienia taksonomiczne zajmują znaczącą część.
W myśl prezentowanych powyżej zagadnień celem monografii jest przedstawienie zastosowania
wybranych metod taksonomicznych w badaniach historycznych. W pracy uwzględniono implementa-
cję tych metod w takich problemach historycznego grupowania, jak regionalizacja, periodyzacja, iden-
tyfikacja, a także grupowanie wielowymiarowe w ujęciu dynamicznym. W wyborze zaprezentowa-
nych metod taksonomicznych kierowano się kryteriami dostępności oprogramowania ułatwiającego
proces grupowania oraz użytecznością wybranych metod taksonomicznych w badaniach historycz-
nych. Zastosowanie adekwatnych metod ilościowych może przyczynić się do odkrycia cech charakte-
ryzujących badane zbiorowości, niedostrzegalnych przy zastosowaniu tradycyjnych metod opisowych,
oraz osiągnięcia nowego poziomu analizy w badaniach porównawczych.
Podsumowując, prezentowana monografia stanowi studium przydatności zastosowania znanych
w literaturze wielowymiarowych metod grupowania w badaniach historycznych. Szerszy kontekst
zagadnienia syntezy historycznej wraz z charakterystyką obszarów jej zastosowań przedstawiono
12 1. Wstęp

w rozdziale drugim. Pozostały materiał został podzielony na dwie części. Pierwszą z nich tworzą czte-
ry rozdziały, w których zawarto zagadnienia teoretyczne, natomiast w drugiej części zaprezentowano
praktyczne ich wykorzystanie w badaniach historycznych. Dodatkowo pracę opatrzono bibliografią
oraz aneksami. W tych ostatnich zawarto wykaz danych ilościowych wykorzystanych
w prezentowanych przykładach, podstawowe oznaczenia i symbole oraz opis wybranych procedur
wykorzystanych w przedłożonej monografii, dostępnych w ramach programu Statistica.
Jedną z charakterystycznych cech historycznych danych ilościowych jest ich zróżnicowany cha-
rakter. Z tego powodu w części teoretycznej niniejszej pracy obok podstawowych zagadnień analizy
wielowymiarowej szczególny nacisk położono na zaprezentowanie szerokiego wykazu miar podo-
bieństwa i niepodobieństwa pomiędzy grupowanymi jednostkami, w zależności od skali, w której
wyrażone zostały zmienne opisujące te jednostki. Kolejny rozdział stanowi przegląd metod taksono-
micznych użytecznych w zagadnieniach doboru zmiennych do badania. Natomiast w rozdziale doty-
czącym najczęściej współcześnie stosowanych metod hierarchicznych i kombinatorycznych obok ich
charakterystyki poruszono także problem oceny statystycznej wyników grupowania. Ze względu na
szeroki i różnorodny zakres podejmowanych zagadnień w każdym z rozdziałów zamieszczonych
w części teoretycznej zawarto przegląd literatury danego tematu, obejmujący nie tylko odniesienia do
teoretycznego ich opisu, ale i obszary ich zastosowań.
Druga część pracy to przykłady implementacji przedstawionych w części teoretycznej procedur
w badaniach historycznych. W przygotowaniu tych zagadnień posłużono się materiałem ilościowym
udostępnianym w formie archiwaliów. Tego typu źródła wykorzystano w przykładzie dotyczącym
sytuacji demograficznej w departamencie poznańskim w 1810 r. oraz wpływów podatkowych
z rzemiosła i innych działalności indywidualnych w poszczególnych powiatach województwa poznań-
skiego w latach 1958-1970. Natomiast dane ilościowe mające służyć jako podstawa przykładu zasto-
sowania metod taksonomicznych w procesach periodyzacji zaczerpnięto z publikacji Głównego Urzę-
du Statystycznego. Dotyczą one struktury przemysłu w latach 1956-1989. Innym rodzajem źródeł
danych ilościowych, wykorzystanym w części praktycznej niniejszej monografii, są wyniki badań
innych autorów. W jednym z prezentowanych przykładów posłużono się charakterystykami zakładów
rzemieślniczych prowadzących działalność w latach 70. XX w. w dwóch wioskach powiatu nowotar-
skiego. Dane te przygotowała i opublikowała Anna ZAMBRZYCKA-KUNACHOWICZ (1974). Jednym
z najtrudniejszych typów informacji ilościowych z punktu widzenia opracowania statystycznego są
dane pozyskiwane ze źródeł kartograficznych wyrażone w skali porządkowej. Sposoby podejścia do
tego typu informacji zaprezentowano w przykładzie dotyczącym rolnictwa części ziem polskich
w okresie międzywojennym. W pracach historycznych nad źródłami dokumentalnymi problemem
niewątpliwie związanym z zagadnieniem grupowania jest identyfikacja. Tym razem posłużono się
przykładem liczbowym, dla którego dane zaczerpnięto z publikacji HANDA i in. (2005, s. 514-528).
Należy podkreślić, że źródła danych ilościowych, z których skorzystano w części praktycznej, by-
ły omawiane lub wykorzystywane we wcześniejszych publikacjach innych autorów. Pozwoliło to na
odniesienie uzyskanych wyników do dotychczasowych badań w opracowywanym temacie. Przedsta-
wione przykłady interpretacji historycznej uzyskanych wyników grupowania ilościowego z pewnością
jednak nie wyczerpują poruszanych zagadnień. Należy je traktować raczej jako prezentację wspomi-
nanej wcześniej idei, że metody ilościowe odgrywają rolę użytecznego narzędzia w warsztacie histo-
ryka, które może wspomóc proces opracowania historycznego, w żaden sposób go nie zastępując.
W zamierzeniu działanie to miało także uwypuklić szersze możliwości interpretacyjne, jakie daje za-
stosowanie metod taksonomicznych w badaniach historycznych.
1. Wstęp 13

Poniższe studium przeznaczone jest przede wszystkim dla historyków, którzy w swych badaniach
pracują na co dzień ze źródłami ilościowymi, których uporządkowanie, przy pomocy prezentowanych
w niniejszej pracy metod, pozwoli na pełniejszą analizę merytoryczną. Przy pisaniu tej książki przyję-
to założenie, że czytelnicy znają podstawy statystyki opisowej oraz potrafią posługiwać się podsta-
wowymi funkcjami arkusza kalkulacyjnego. W niektórych fragmentach zostały jednak przedstawione
opcjonalnie bardziej wymagające procedury, oparte na rachunku macierzowym, z nadzieją, iż część
ambitnych czytelników po zapoznaniu się z opisem tych metod i korzyściami wynikających z ich sto-
sowania podejmie trud uzupełnienia tego zakresu wiedzy i umiejętności.
Wydaje się, że we współczesnym świecie nie ma ludzi, którzy zawdzięczają wszystko sobie.
W mojej pracy uzyskałam pomoc i wsparcie od wielu osób. W szczególności chciałabym podzięko-
wać prof. Tadeuszowi Janickiemu, prof. Radosławowi Kali, prof. Tadeuszowi Calińskiemu,
prof. Krzysztofowi A. Makowskiemu, dr. Marcinowi Grabanowi, dr Joannie Jaroszyk-Pawlukiewicz
i dr. Janowi Miłoszowi za wnikliwe zapoznanie się z całym materiałem lub jego częścią i uwagi, które
wzbogaciły tę pracę merytorycznie. Inspirujące były dla mnie także rozmowy z prof. Marią Solarską,
prof. Romanem Macyrą oraz prof. Józefem Doboszem. Kolegom z Zakładu Historii Gospodarczej
dziękuję również za liczne słowa otuchy, które niewątpliwe pomogły mi ostatecznie sfinalizować re-
dakcję tej pracy. Z pewnością nigdy nie udałoby mi się podjąć tego zadania bez oparcia, które znala-
złam w najbliższej rodzinie.
2
Metody taksonomiczne
jako narzędzie syntezy w badaniach historycznych

Jan Rutkowski traktował syntezę w naukach historycznych nie tylko jako przeciwieństwo analizy, ale
także jako wszelką konstrukcję historyczną, obejmującą wykład w ten lub inny sposób usystematyzo-
wanych faktów historycznych, wydobytych ze źródeł drogą analizy historycznej. Syntezy historyczne
powinny zmierzać do przedstawienia zasadniczych zjawisk historycznych i poszukiwania prawidłowo-
ści w ich występowaniu i przebiegu (RUTKOWSKI 1925, s. 456). Badacz w dalszej części wywodu pod-
kreślał jednak, że „konstrukcja syntetyczna nie ogranicza się do prostego usystematyzowania faktów,
lecz przedstawia je w ich wewnętrznym związku, jako pewną organiczną całość. (…) Jedynie dzięki
badaniom syntetycznym możliwe jest pełne zrozumienia znaczenia dziejowego zarówno poszczegól-
nych faktów, jak i całych działów przeszłości. Przy szerzeniu kultury historycznej, ujęcia syntetyczne,
pozostawiające głębsze wrażenie, posiadają niewątpliwą przewagę nad ujęciami analitycznymi, rozpra-
szającymi się w luźnych szczegółach trudnych do opanowania pamięciowego”. Idea syntezy historycz-
nej przewija się w dyskusjach merytorycznych również współcześnie. Przykładem tego typu rozważań
może być pokonferencyjna monografia O nowy model historycznych badań regionalnych przygotowana
pod redakcją Krzysztofa A. Makowskiego (O NOWY MODEL… 2007), a w szczególności zawarta w niej
wypowiedź Witolda Molika na temat współcześnie publikowanych syntez dziejów (MOLIK 2007).
Synteza historyczna w opinii Jana Rutkowskiego to zatem proces wyodrębnienia takich grup histo-
rycznych faktów (obiektów, regionów, osób, okresów itp.), które będą odznaczały się wewnętrzną spój-
nością. Istnieją różne metody tego organicznego łączenia wyników badań analitycznych Jeżeli grupo-
wane obiekty podzielone są według kryterium formalnego, to mówi się o klasyfikacji. Z kolei jeśli takie
kryterium nie zostało zdefiniowane i wyodrębnione zbiory są kompozycjami naturalnymi, utworzonymi
ze składowych o bytach samoistnych, wzajemnie niezależnych, to mówi się o taksonomii (HELLWIG
1997, s. 193). Wydaje się zatem, że spośród dostępnych metod statystycznych to właśnie metody tak-
sonomiczne mogą od strony ilościowej badanych zjawisk społeczno-gospodarczych wspierać proces
tworzenia syntez historycznych.
Taksonomia to połączenie dwóch greckich słów: taxis – oznaczającego układ, porządek oraz no-
mos – oznaczającego prawo, zasadę. Jej numeryczny charakter często podkreśla się poprzez odpowiedni
przymiotnik: taksonomia numeryczna (numerical taxonomy). Jest to odrębna dziedzina naukowa zaj-
mująca się teoretycznymi zasadami, procedurami i regułami klasyfikowania obiektów wielozmiennych
w ujęciu numerycznym (SIMPSON 1961, s 11; SOKAL, SNEATH 1963, s. 3; CHOJNICKI, CZYŻ 1973, s. 7;
NOWAK 1990; MARKOWSKA 2012, s. 134). Wraz z klasyczną nazwą w literaturze funkcjonują także
inne terminy: grupowanie, deliminacja, identyfikacja, analiza skupień (cluster analysis). Coraz częściej
to ostatnie określenie wypiera pojęcie taksonomii (WALESIAK 1993b s. 48).
Jak wspomniano we wstępie, potrzeba grupowania towarzyszy człowiekowi od zarania dziejów.
Z tego powodu trudno jednoznacznie określić autorów czy prekursorów tego podejścia w ujęciu ilościo-
16 2. Metody taksonomiczne jako narzędzie syntezy

wym. John A. HARTIGAN (1982) o początkach klasyfikacji mówi w odniesieniu do starożytności. Hin-
dusi dzielili ludzi ze względu na płeć, warunki fizyczne i psychiczne. Natomiast EVERITT (1980, s. 3-5)
wskazuje na typologię Galena (a.d. 129-199), który wyodrębnił dziewięć typów temperamentów, róż-
niących się między sobą podatnością na zachorowania i zachowaniem. Warto wspomnieć także klasy-
fikacje Arystotelesa w logice, etyce i polityce oraz świecie zwierząt. Z bardziej współczesnych przykła-
dów zastosowania taksonomii wielowymiarowej wymieniana jest osiemnastowieczna klasyfikacja ro-
ślin i zwierząt Linneusza oraz stworzona w XIX w. tablica pierwiastków chemicznych (por. MEZZICH,
SOLOMON 1980, s. 4).
Natomiast wśród protoplastów taksonomii numerycznej wymieniani są Michel Adamson (1727-
-1806), który wprowadził wielowymiarowy system typologiczny do nauk biologicznych, oraz antropo-
log Peter Camper (1722-1789), który przedstawił typologię twarzy ludzkich przygotowaną w oparciu
o różne ich wymiary (CAMPER 1791). Z kolei Francis Galton (1822-1911) pogrupował odciski palców
w oparciu dwanaście ich cech (por. EVERITT 1980, s. 2-5; MAREK 1989, s. 31-31). O wyraźnym rozwoju
metod taksonomicznych można mówić jednak dopiero od początku XX w. Przykładem badań z tego
okresu jest praca Alfreda L. Kroebera i Rolanda B. Dixona, którzy pogrupowali języki kalifornijskie
w oparciu o wzory gramatyczne (KROEBER, DIXON 1903). Nie można także pominąć wielokrotnie cy-
towanego w tej publikacji polskiego antropologa Jana Czekanowskiego (1882-1965), profesora uniwer-
sytetów we Lwowie i w Poznaniu, który po raz pierwszy zastosował pełną metodę taksonomiczną
w oparciu o skonstruowany przez siebie współczynnik odległości (STOKOWSKI 1971). Duży wkład
w rozwój analiz taksonomicznych mieli także archeolodzy. MEZZICH i SOLOMON (1980, s. 6) tym ob-
szarze wymieniają badania KIDDERA (1915), KROEBERA (1916), SPIERA (1917) i STRONGA (1925).
Z kolei wrocławscy uczeni pod przewodnictwem Hugo Steinhausa (1887-1972) opracowali metodę na-
zywaną taksonomią wrocławską, tożsamą z jedną z pierwszych metod analizy skupień (FLOREK i in.
1951). Warto podkreślić, że w swoich pracach bazowali m.in. na danych stanowiących wyniki odkryć
archeologicznych na Ostrowie Lednickim. Intensywny wzrost zainteresowania analizą skupień miał
miejsce w latach 60. i 70. XX w., co związane było z rozwojem technik komputerowych. Główne do-
konania tego okresu szczegółowo zaprezentowane zostały w kolejnych podrozdziałach.

2.1. Istota metod taksonomicznych

Metody taksonomiczne to zbiór technik znajdujący zastosowanie w badaniu danych o obiektach wie-
lowymiarowych (jednostek lub zmiennych) w celu podzielenia zbioru tych obiektów na grupy (skupie-
nia), które w świetle danych wykazują odrębność (IZENMAN 2008, s. 407; BALICKI 2009, s. 208). Dzięki
zastosowaniu metod taksonomicznych możliwe jest zatem łączenie wielowymiarowych obiektów w ta-
kie grupy (skupienia), że obiekty należące do jednej grupy są do siebie bardziej podobne niż do obiektów
należących do innych grup. Metody taksonomiczne znajdują zwykle zastosowanie w grupowaniu jed-
nostek opisanych wieloma zmiennymi. Można je również wykorzystywać do grupowania zmiennych
w wielowymiarowej przestrzeni jednostek, mogą również służyć ocenie wymiarowości badanego zja-
wiska i ustaleniu cech diagnostycznych (BALICKI 2009, s. 209). Ogólnie rzecz ujmując, metody takso-
nomiczne są sztuką znajdowania grup w danych ilościowych (KAUFMAN, ROUSSEEUW 2005, s. 1).
Efektem zastosowania metod taksonomicznych jest uzyskanie podziału badanych obiektów na sku-
pienia jednorodne wewnętrznie – homogeniczne. W literaturze funkcjonują one także pod nazwą grupa,
typ, klasa, takson (por. DĄBKOWSKI, LAUS-MĄCZYŃSKA 1978; EVERITT 1980; WALESIAK 1993b, s. 49;
KENDALL, BUCKLAND 1986, s. 279; FALNIOWSKI 2003, s. 94-100). Skupienie jest jednorodne, jeżeli
2.1. Istota metod taksonomicznych 17

jednostki wchodzące w jego skład nie należą do żadnego innego skupienia i różnią się znacząco od jed-
nostek nieprzynależących do tego skupienia (MARDIA i in. 1979, s. 360). Skupienia zatem tworzą
obiekty jak najbardziej podobne, natomiast w różnych skupieniach znajdują się obiekty jak najmniej
podobne.
Grupowanie, w wyniku którego powstają skupienia, definiuje się jako niepustą rodzinę 𝑅 podzbio-
rów 𝑠1, 𝑠2, …, 𝑠𝑔 jakiegoś zbioru obiektów 𝜴 (𝜔𝑖 ⊂ 𝜴, dla 𝑖 = 1, 2, … , 𝑛), spełniającą kilka warun-
ków (por. CHOJNICKI, CZYŻ 1973, s. 7; WALESIAK 1993b, s. 49; WIERZCHOŃ, KŁOPOTEK 2015, s. 21).
Po pierwsze każde skupienie wyodrębnione w procesie grupowania powinno zawierać przynajmniej je-
den obiekt. Warunek ten znany jest jako warunek niepustości i można go zapisać następująco:

𝑠𝑖 ≠ ∅; 𝑖 = 1, 2, … , 𝑘. [2.1]

Po drugie każdy obiekt musi należeć dokładnie do jednego skupienia, to znaczy, że poszczególne
podzbiory nie mogą mieć elementów wspólnych. Warunek ten – warunek rozłączności – można zapi-
sać w formie równania:

𝑠𝑖 ∩ 𝑠𝑗 = 0; 𝑖 𝑗. [2.2]

Z kolei warunek zupełności oznacza, że jeżeli każdy obiekt musi należeć do pewnego skupienia,
to suma podzbiorów jest identyczna ze zbiorem klasyfikowanym:

𝑠1 ∪ 𝑠2 ∪ … ∪ 𝑠𝑔 = 𝜴. [2.3]

Zatem jeśli 𝑛 = 𝑔, to oznacza to, że każde skupienie zawiera dokładnie jeden z badanych obiektów
należących do zbioru 𝛀. Oczywiście celem metod taksonomicznych jest uzyskanie mniejszej liczby
skupień niż badanych obiektów (𝑛 > 𝑔).
Metody taksonomiczne można uznać za użytecznie narzędzie w warsztacie historyka do tworzenia
syntez historycznych. Jak już jednak wielokrotnie podkreślano, narzędzie to może jedynie wspomagać
ten proces, a nie go zastępować. TOPOLSKI (1986, s. 216), charakteryzując zagadnienie syntezy histo-
rycznej proponowane przez swojego poprzednika, stwierdził: „Preferowaną przez Rutkowskiego syn-
tezę historyczną można by nazwać organiczno-humanistyczną. Jej realizacja nie wiąże się z odrzuca-
niem związków przyczynowych, lecz uzależniona jest od równoczesnego uwidaczniania związków
funkcjonalnych (współzależności synchronicznych), czyli odtwarzania zarówno ciągów przyczyno-
wych jaki i związków strukturalnych, a poza tym, co metodologicznie i teoretycznie nader ważne, roz-
patrywanie tych relacji w perspektywie działań ludzkich”. O ile metody taksonomiczne pozwalają na
uwidocznienie współzależności synchronicznych w ujęciu dynamicznym i strukturalnym badanego zja-
wiska społeczno-gospodarczego, to jednak proces ten jest uzależniony od doboru zmiennych (wskaźni-
ków ilościowych) wybranych do prezentacji danego zagadnienia przez badacza. Co więcej, rozpatry-
wanie osiągniętych wniosków liczbowych w perspektywie działań ludzkich nie jest możliwe bez szero-
kiej wiedzy historycznej badacza.
18 2. Metody taksonomiczne jako narzędzie syntezy

2.2. Podział metod taksonomicznych

Metody taksonomiczne należą do wielowymiarowych metod statystycznych. W badaniach społecz-


nych i gospodarczych jest sytuacją normalną, że obiekty (osoby, rodziny gospodarstwa domowe, re-
giony, państwa) są opisane za pomocą wielu zmiennych. Metody wielowymiarowe zajmują się równo-
cześnie wieloma zmiennymi, których wartości dotyczą tych samych obiektów lub zjawisk; co więcej,
rozważane zmienne są zależne lub współzależne (BALICKI 2009, s. 17). Rozwój metod wielowymiaro-
wych nie byłby jednak możliwy bez rewolucji komputerowej, jaka miała miejsce od początku lat 70.
ubiegłego wieku (HAIR i in. 1995, s. 4-5).
Metody wielowymiarowe dzielą się na dwie grupy: metody badania zależności oraz metody badania
współwystępowania. Do pierwszej grupy metod wielowymiarowych – metod badania zależności – na-
leżą metody, w których można wyróżnić zmienną objaśnianą oraz zmienne objaśniające, a zadaniem
badacza jest określenie relacji pomiędzy tymi zmiennymi. Wymienić tu można analizę regresji, analizę
dyskryminacyjną, analizę wariancji i kowariancji, analizę conjoint oraz analizę korelacji kanonicznej
(KENDALL 1957, s. 6; DILLON, GOLDSTEIN 1984, s. 19-20). Drugą grupę metod wielowymiarowych –
metody badania współwystępowania – stanowią metody, w których celem jest identyfikacja relacji
zachodzących między obiektami czy zmiennymi, dla których nie można subiektywnie dokonać podziału
na zmienne zależne i niezależne (GRZEŚKOWIAK, STANIMIR 2014; DILLON, GOLDSTEIN 1984, s. 20-22;
SHARMA 1996; WALESIAK 1996a). Można tu wymienić analizę składowych głównych, analizę czynni-
kową, analizę korespondencji, skalowanie wielowymiarowe, metody taksonomiczne, porządkowanie
liniowe oraz modelowanie logliniowe (KENDAL 1957, s. 8; DZIECHCIARZ, WALESIAK 1997).
Ze względu na długą historię oraz szeroki zakres zastosowań w literaturze istnieje kilkaset procedur
taksonomicznych. Jak się łatwo domyślić, powstało wiele propozycji ich systematyzacji. Za jedną z naj-
bardziej kompleksowych uznawana jest klasyfikacji SOKALA i SNEATHA (1963; 1973, s. 201-214).
Szczegółowe zestawienie różnych kryteriów klasyfikacji metod taksonomicznych przedstawili także
GRABIŃSKI (1992, s. 22-25) i PANEK (2009, s. 6-10).
CORMACK (1971), EVERITT (1980, s. 23-24) oraz DILLON i GOLDSTEIN (1984, s. 167) wyróżniają
kilka podstawowych typów metod taksonomicznych: 1) metody hierarchiczne (aglomeracyjne i po-
działu), 2) metody optymalizacyjne, 3) metody obszarowe oraz 4) inne. Metody hierarchiczne dążą do
stworzenia na podstawie stopnia podobieństwa swoistej hierarchii grupowanych obiektów, którą można
zaprezentować w postaci dendrytu. Z kolei metody optymalizacyjne polegają na wyborze takiego po-
działu grupowanych obiektów, który w najlepszym stopniu spełni zadane kryterium. W efekcie uzyski-
wane są skupienia o nieznanej wewnętrznej strukturze. Metody optymalizacyjne nazywane są także me-
todami optymalizacyjno-podziałowymi (zob. np.: MARDIA i in. 1979, s. 369) lub optymalizacyjno-itera-
cyjnymi (PĘCZKOWSKI 2009, s. 120). Kolejną grupę metod taksonomicznych stanowią metody obsza-
rowe. Idea ich stosowania polega na wskazywaniu obszarów, które zawierają relatywnie gęsto ułożone
obiekty. Natomiast kategoria inne zawiera metody taksonomiczne, które trudno zakwalifikować do
wcześniej wyróżnionych grup. Wśród nich wymieniane są metoda piktogramów (ANDERSON 1960) czy
twarzy Chernoffa (CHERNOFF 1973). Zaliczane do tej grupy są także klasyfikacje rozmyte (zob. np.:
NAWROL 1989) czy metody kombinowane, inaczej nazywanych hybrydowymi (BALICKI 2009, s. 212).
Reprezentantem ostatniej z wymienionych grup może być m.in. metoda EM (MIGUT 2009). Istnieją
również metody łączące metody taksonomiczne z rachunkiem prawdopodobieństwa, nazywane staty-
styczną analizą skupień. W pracy zostaną zaprezentowane jedynie wybrane metody hierarchiczne i op-
tymalizacyjne oraz obszarowe, które odznaczają się rozłącznością uzyskanych skupień.
2.2. Podział metod taksonomicznych 19

Z kolei MEZZICH i SOLOMON (1980, s. 20-32) dzielą ilościowe metody taksonomiczne ze względu
na cel grupowania. Pierwsza grupa łączy metody taksonomiczne, które prowadzą do skończonej kon-
figuracji skupień w tym sensie, że ich wynikiem jest grupa skupień z jasno zdefiniowanymi obiektami
do nich należącymi. W ramach tej grupy wyodrębniane są wspominane już wyżej metody hierarchiczne
i niehierarchiczne. Metody należące do drugiej grupy dotyczą reprezentacji jednostek wielowymia-
rowych. Są to metody użyteczne w pracach taksonomicznych, ale ich efektem końcowym nie są skoń-
czone konfiguracje skupień. Tak więc dodatkowa praca badacza jest związana z ostatecznym wskaza-
niem skupień grupowanych obiektów. Większość tych metod nie została stworzona dla celów taksono-
micznych, ale raczej do wskazania zmiennych-reprezentantek w wielkowymiarowej przestrzeni. Szer-
szy ich opis można znaleźć w monografii SNEATHA i SOKALA (1973, s. 245-253).
Zaproponowane przez MEZZICHA i SOLOMONA (1980, s. 20-32) podejście do podziału metod tak-
sonomicznych może być użyteczne w przypadku badań historycznych. Historyk ma często do dyspozy-
cji zbyt obszerną skorelowaną grupę zmiennych, z których musi wyodrębnić zmienne diagnostyczne
ostatecznie uwzględnione w badaniu. Dopiero w drugim etapie procesu naukowego stosuje wybrane
metody taksonomiczne celem wyodrębnienia rozłącznych grup obiektów, scharakteryzowanych za po-
mocą wcześniej starannie dobranych zmiennych diagnostycznych.

2.3. Zagadnienia historyczne


wspomagane metodami taksonomicznymi

Celem statystyki historycznej jest przede wszystkim ustalanie faktów masowych poprzez zastosowanie
metod szacunkowych, badanie zależności przyczynowych pomiędzy nimi oraz wreszcie ułatwianie
opisu zagadnień historycznych. Realizację tej ostatniej grupy celów ułatwia grupowanie. TOPOLSKI
(1984, s. 409-411), opisując znaczenie grupowania w badaniach historycznych, stwierdził, że grupowa-
nie statystyczne, czyli: „budowanie zbiorów, podzbiorów oraz ich porządkowanie, należy do najtrud-
niejszych, a zarazem najbardziej odpowiedzialnych etapów stosowania metody statystycznej”. Co wię-
cej, podkreślał on, że sukcesy w ustalaniu zbiorów statystycznych zależą głównie od wiedzy po-
zaźródłowej historyka, a szczególnie od jego wiedzy teoretycznej. Jak wspomniano wielokrotnie, cho-
dzi przede wszystkim, aby uzyskane w wyniku grupowania skupienia obiekty były względnie jedno-
rodne, a ponadto, by ich wydzielenie pomogło w możliwie maksymalnym stopniu odtworzyć rzeczywi-
stość historyczną (TOPOLSKI 1984, s. 411).
Analiza wielowymiarowa stanowi rozwiązanie problemów wielu dziedzin: biometrycznych, eduka-
cyjnych, rolniczych, socjologicznych, medycznych, fizycznych, antropologicznych, ekonomicznych,
eksperymentalnych i przemysłowych (KENDALL 1957, s. 7-9). Jednak metody grupowania – metody
taksonomiczne – są szczególnie użyteczne w tych obszarach, w których badacz nie ma możliwości eks-
perymentowania: przede wszystkim w naukach społecznych i historycznych (YULE, KENDALL 1966,
s. 17). SOKOŁOWSKI (1982) podzielił zagadnienia taksonomiczne na zagadnienia proste oraz złożone.
Do prostych zaliczył grupowanie obiektów, periodyzację oraz wybór cech diagnostycznych. Natomiast
grupę zagadnień złożonych tworzą: klasyfikacja w przestrzeni zmiennych, klasyfikacja w przestrzeni
obiektów, klasyfikacja w przestrzeni czasu. Pogląd ten jest zgodny z TOPOLSKIM (1984, s. 487) który
akcentuje, że w grupowaniu historycznym decydującą rolę ogrywają trzy następujące kryteria: chrono-
logiczne, terytorialne i rzeczowe.
20 2. Metody taksonomiczne jako narzędzie syntezy

2.3.1. Regionalizacja

Źródła informacji masowej bardzo często opisują ilościowo badane zjawisko w odniesieniu do admini-
stracyjnie wyznaczonych już obszarów. Opisy coraz to nowych wskaźników skutkują nadmiarem liczb,
co powoduje, że porównania regionalne stają się coraz trudniejsze i złożone (WYSOCKI 1965). W bada-
niach tego typu szczególne znaczenie odgrywa klasyfikacja przestrzenna (PARYSEK, WOJTASIEWICZ
1979, s. 73; BUNGE 1962, s. 14-23; GRIGG 1965; CHOJNICKI 1970; CZYŻ 1971). Klasyfikacją prze-
strzenną jest każdy podział powierzchni ziemi na części – klasy przestrzenne, realizowany przy
uwzględnieniu określonego kryterium podziału. Szczególnym przypadkiem klasyfikacji przestrzennej,
w którym kryterium podziału stanowią wielowymiarowe własności klasyfikowanych elementów two-
rzących przestrzenie spójną całość, jest regionalizacja (PARYSEK 1982, s. 141). W regionalizacji ana-
lizowany jest zatem zbiór obiektów – jednostek terytorialnych – przy jednoczesnym uwzględnieniu ich
wzajemnej lokalizacji. Jednostki podobne ze względu na wiele zmiennych grupuje się w układy prze-
strzenne o maksymalnej jednolitości, czyli w obszary jednolite (CZYŻ 1967).
Podstawy wydzielania regionów w przypadku regionalizacji mogą być różne, zależnie od potrzeb
badania (TOPOLSKI 1984, s. 495-496). Zwykle podstawową jednostką terytorialną jest państwo lub na-
ród w jego zasięgu terytorialnym. Gdy bada się tylko część bądź to jakiegoś większego terytorium, bądź
państwa, mamy do czynienia z historią regionalną. W szczególności głównymi dziedzinami zastoso-
wań regionalizacji są porównania rozwoju społeczno-gospodarczego w perspektywie międzynarodowej
lub krajowej czy warunków życia ludności zamieszkującej określony obszar. Jeśli dodatkowo w tego
typu porównaniach uwzględnia się czynnik czasu, to badania takie nazywane są geografią historyczną
(BUNGE 1966, s. 237). Z kolei RUTKOWSKI (1946, s. 11) wśród metod stosowanych w badaniach z za-
kresu historii społeczno-gospodarczej wyróżnił metodę geograficzną.
NOWAK (1990, s. 17-22) zauważył, że metody taksonomiczne znalazły powszechne zastosowanie
w przestrzennych badaniach społeczno-gospodarczych. Należy przy tego typu badaniach szczególną
uwagę zwrócić na porównywalność zmiennych. Aspekty teoretyczne tego zagadnienia opisano w roz-
dziale trzecim. W przypadku regionalizacji zagadnienie grupowania ma na celu przeprowadzenie okre-
ślonego podziału przestrzennego (CHOJNICKI, CZYŻ 1973, s. 45). W konsekwencji dużą wagę w bada-
niach regionalnych nadaje się kwestiom sąsiedztwa terytorialnego. Zasada sąsiedztwa, zwykle poru-
szana na ostatnim etapie badania, tutaj jest analizowana i uwzględniona od początku do końca procedury
badawczej. Problem ten opisano w rozdziale czwartym.
W prezentowanej monografii zagadnieniu regionalizacji poświęcone zostały dwa przykłady histo-
ryczne, opisane szczegółowo w drugiej części pracy. Pierwszy z nich dotyczy sytuacji demograficznej
w departamencie poznańskim Księstwa Warszawskiego. Przeprowadzone grupowanie oparto o wyniki
spisu powszechnego z 1810 r. Wśród danych demograficznych, które stanowiły podstawę grupowania
powiatów, wyróżniono takie cechy, jak: zaludnienie, śmiertelność, wdowieństwo i wyznanie. Drugi
przykład dotyczy rolnictwa tzw. Kraju Warty, który w planach niemieckich poprzedzających II wojnę
światową miał być obszarem niemieckiej kolonizacji na Wschodzie (JANICKI 1996, s. 97-101). Naziści
jeszcze przed wybuchem wojny, w oparciu o przygotowane wcześniej opracowania statystyczne, do-
strzegali zasadnicze różnice pomiędzy wschodnią i zachodnią częścią tego obszaru. W ich opinii dys-
proporcje w kulturze rolnej oraz wydajności produkcji rolnej były następstwem odmiennej sytuacji
w poszczególnych zaborach. Podstawą weryfikacji tego założenia były dane, tym razem zaczerpnięte
ze źródeł kartograficznych, opublikowanych przez GUENTHER-SWART (1941, s. 22-115). Dotyczyły
one prowadzonej przed wojną na części ziem polskich gospodarki rolnej w zakresie struktury zasiewów,
obsady zwierząt i jakości gleb.
2.3. Zagadnienia historyczne wspomagane metodami taksonomicznymi 21

2.3.2. Periodyzacja

Jednym z najważniejszych problemów dotyczących grupowania w naukach historycznych jest niewąt-


pliwie periodyzacja. W zagadnieniu tym przedmiotem klasyfikacji są jednostki czasu, w których ob-
serwowane są interesujące historyka zjawiska społeczno-gospodarcze. Jeżeli rozpatrywane są one
w kontekście zmian w czasie zaledwie jednej zmiennej opisującej jeden konkretny obiekt, to mówić
można o analizie jednowymiarowej. Mając jednak historyczną świadomość wzajemnych powiązań zja-
wisk społeczno-gospodarczych, periodyzacja powinna być przeprowadzona w ujęciu wielowymiaro-
wym. Pawłowski podkreśla, że w naukach historycznych i społecznych można znaleźć liczne przykłady
tworzenia tzw. szeregów ewolucyjnych: „Dwa przeciwstawne typy krańcowe wyznaczają wówczas po-
czątek i koniec szeregu ewolucyjnego. (…) Budowanie szeregu ewolucyjnego ma duże znaczenie nau-
kowe, wprowadza bowiem porządek i systematyzuje zjawiska stanowiące przedmiot badania nauko-
wego. Naukowa użyteczność pojęć typologicznych, za których pomocą konstruuje się szeregi ewolu-
cyjne zjawisk, wzrasta, w miarę jak rośnie ilość interesujących daną naukę własności, które zmieniają
swe natężenie wraz ze zmianą natężenie cech definiujących pojęcia” (PAWŁOWSKI 1977, s. 124).
Periodyzacja może być rozumiana jako podział określonego okresu na jednolite podokresy. Przykła-
dem tego typu badań są zagadnienia rozwoju jakiegoś obiektu gospodarczego (gospodarki narodowej,
gałęzi przemysłu, branży, przedsiębiorstwa itp.) na podstawie ustalonego zbioru wskaźników w określo-
nym czasie. Periodyzacja polegać więc będzie na podzieleniu niejednorodnego odcinka czasu – obiektu
historycznego – na części jednorodne, istotnie różniące się pomiędzy sobą z punku widzenia rozpatrywa-
nego zbioru wskaźników (GRABIŃSKI 1975a). Periodyzacja w tym znaczeniu to zatem wyodrębnienie faz
rozwojowych, czyli podokresów, w których w badanych obiektach, np. regionach, zachodzą względnie
trwałe, ukierunkowane przeobrażenia (SIEDLECKA 1999, MARKOWSKA 2012, s. 143-148).
TOPOLSKI (1984, s. 492-495) zwracał jednak uwagę, że wokół podziału na okresy toczy się wiele
sporów. O charakterze przyjętego kryterium chronologicznego decyduje przecież całokształt poglądów
historyka na dzieje, czyli jego wiedza pozaźródłowa. Nawet ekonomiści w tym zakresie stwierdzają, że
analiza statystyczna musi iść zawsze w parze z pogłębioną analizą merytoryczną, w tym przypadku wy-
korzystującą metody badawcze historii gospodarczej (zob. np.: GRABIŃSKI 1975a).
Dzięki periodyzacji możliwe jest wyznaczenie tak zwanych punktów zwrotnych w przebiegu ba-
danego zjawiska społeczno-gospodarczego. W ich interpretacji merytorycznej należy jednak pamiętać
o płynności przebiegu procesów społeczno-gospodarczych. Prezentowany punkt widzenia jest potwier-
dzeniem wywodu Tadeusza Grabińskiego. Podkreśla on, że „ustalanie ścisłych granic czasowych po-
między poszczególnymi etapami rozwoju jakiegoś zjawiska jest nieuzasadnione. Bliższe rzeczywistości
jest stwierdzenie, że granice – jeśli w ogóle istnieją – są zwykle pewnymi okresami przejściowymi, a nie
momentami czasu. Wypływają stąd ważne wnioski odnoście do interpretacji wyników uzyskanych przy
stosowaniu proponowanej metody periodyzacji. Otrzymane cezury należy traktować jako granice orien-
tacyjne, jako punkt wyjścia do dalszych badań, mających na celu weryfikację merytoryczną postawio-
nego problemu” (GRABIŃSKI 1975a).
Zagadnienie periodyzacji jest jednym z ogólnych problemów porządkowania i klasyfikacji. Jak
wspomniano wcześniej, charakterystycznymi obiektami w zagadnieniach periodyzacji są jednostki
czasu. W analizach dynamicznych jednowymiarowych porównywany jest zatem przebieg badanego zja-
wiska na podstawie zmieniających się wartości jednej zmiennej w czasie. Nieco bardziej złożone jest
zjawisko periodyzacji rozważane w analizach wielowymiarowych. Najprostszym sposobem podziału
badanego okresu na jednolite podokresy jest wykorzystanie metody graficznej. Polega ona przedstawie-
22 2. Metody taksonomiczne jako narzędzie syntezy

niu na jednym wykresie szeregów czasowych, opisujących kształtowanie się uwzględnionych w bada-
niu zmiennych. W przypadku zmiennych różnoimiennych można je ujednolicić, obliczając odpowiednie
indeksy dynamiki (zob. np.: SOBCZYK 1997, s. 273-276) lub zastosować wykresy z różnymi skalami na
jednej z osi współrzędnych. Przebiegi uwzględnionych w badaniu zmiennych potencjalnie są podstawą
do wyciągnięcia wniosków dotyczących punktów zwrotnych czy jednolitych podokresów. Jednak me-
toda ta jest możliwa do zastosowania tylko w przypadku niewielu zmiennych, chociaż nawet i wtedy
nie zawsze można uzyskać jednoznaczne wyniki z uwagi na fakt, że fazy każdego szeregu czasowego
z osobna na ogół nie nakładają się na siebie w czasie (GRABIŃSKI 1975b). W tej sytuacji nieodzowne
wydaje się zastosowanie metod taksonomicznych.
Analizy wielowymiarowe, a w szczególności wielowymiarowe metody grupowania, pozwalają na
analizowanie określonego zjawiska społeczno-gospodarczego w określonym okresie przy jednocze-
snym uwzględnieniu wielu zmiennych opisujących to zjawisko. Ważnym aspektem w analizach dyna-
micznych jest zapewnienie porównywalności zmiennych w czasie, która wiąże się z uwzględnieniem
inflacji czy wyrażeniem badanych cech w jednostkach niemianowanych. Zwykle przed przystąpieniem
do periodyzacji konieczna jest zatem standaryzacja zmiennych. Co więcej, jeżeli zmienne odznaczają
się wysokim poziomem korelacji, to należy proces periodyzacji poprzedzić grupowaniem zmiennych.
Wspomniane zagadnienia zostały opisane w rozdziale trzecim i piątym. Często w zagadnieniach perio-
dyzacji uwzględniane są zmienne typu strukturalnego, tzn. że każdy okres jest scharakteryzowany za
pomocą struktury dotyczącej badanego zagadnienia. Może to być np. struktura zatrudnienia, struktura
narodowa, struktura wiekowa. Tego typu zmienne wymagają specyficznych miar niepodobieństwa,
dzięki którym można zbudować macierz odległości. Opisano je w rozdziale czwartym. Jak wspomniano
wcześniej, periodyzacja w badaniach historycznych polega na wyodrębnieniu w danym okresie jedno-
litych podokresów. Ważne jest zatem zagadnienie ciągłości czasowej tych podokresów. Z tego powodu
w badaniach dotyczących periodyzacji, spośród wielu algorytmów grupowania, polecana jest metoda
pojedynczego wiązania, której cechą charakterystyczną jest występowanie przy jej stosowaniu efektu
łańcuszkowego.
Zagadnienia periodyzacji zostały uwzględnione w części praktycznej przedkładanej monografii dwa
razy. Pierwszy przykład dotyczy struktury gałęziowej przemysłu uspołecznionego w Polsce w latach
1958-1989. Uwzględniono w nim jeden ze sposobów ominięcia kwestii inflacyjnych w przypadku pro-
dukcji czystej. W grupowaniu zastosowano dwa warianty, a uzyskane wyniki oceniono pod względem
ich zgodności. Drugi przykład jest bardziej złożony. Dotyczy bowiem gospodarczego znaczenia rze-
miosła w poszczególnych powiatach województwa poznańskiego w latach 1958-1970. Trudność w pre-
zentowanym przypadku wynika z faktu, że w periodyzacji podlegały nie pojedyncze zjawiska, ale ich
złożone struktury.

2.3.3. Grupowanie obiektów historycznych i ich identyfikacja

Oprócz regionalizacji i periodyzacji wśród obszarów zastosowania metod taksonomicznych w bada-


niach historycznych istotne jest także grupowanie obiektów historycznych. W tego typu zagadnie-
niach każdy obiekt jest scharakteryzowany za pomocą wielu zmiennych ilościowych. Zastosowanie me-
tod taksonomicznych prowadzi do podzielenia tak zdefiniowanych obiektów na rozłączne, możliwie
jednorodne, grupy. Kryterium tego podziału nie stanowi jakaś jedna konkretna zmienna charakteryzu-
jąca grupowane obiekty. Podstawą grupowania są wszystkie zmienne uwzględnione jednocześnie
2.3. Zagadnienia historyczne wspomagane metodami taksonomicznymi 23

w grupowaniu. Jako przykłady tego typu badań wymienić można – wspomniane już we Wstępie – ba-
dania antropologiczne czy archeologiczne, oraz typologię średniowiecznych cyzjojanów łacińskich
w oparciu o metody taksonomiczne, którą przestawił Henryk WĄSOWICZ (1986, 1995, 2007, 2016).
Punktem wyjścia w jego grupowaniu były zmienne dotyczące poszczególnych składników budowy ka-
lendarzy ksiąg liturgicznych, takie jak nazwy miesięcy, wyrazy wiążące czy abrewiacje. W obszarze
badań społeczno-gospodarczych podejście to zastosowali GAZIŃSKA i GAZIŃSKI (2010) w pracy doty-
czącej rzemiosła w miastach Pomorza Pruskiego w roku 1779 oraz 1982. W swoim badaniu uwzględnili
oni 84 profesje rzemieślnicze występujące łącznie w 55 miastach Pomorza. W oparciu o ten materiał,
stosując metody taksonomiczne, wyznaczona została – w kroku pierwszym – struktura rzemiosła na
badanym obszarze, następnie – w kroku drugim – przeprowadzono grupowanie miast ze względu na
rzemiosła w nich występujące.
Wśród problemów grupowania w oparciu o metody taksonomiczne w naukach humanistycznych
coraz częściej poruszany jest temat nie tyle grupowania obiektów, co ich identyfikacji (SNEATH, SOKAL
1973, s. 449). Identyfikacja polega na ulokowaniu bądź przydzieleniu niezidentyfikowanego obiektu do
odpowiedniej klasy, kiedy klasyfikacja została już wcześniej zdefiniowana (SNEATH, SOKAL 1973, s. 3).
Definicja ta zatem ściśle odpowiada sytuacji, w jakiej często znajduje się historyk. Posiadając wiedzę
o poznanych już obiektach historycznych (artefaktach), którymi się zajmuje, w momencie odkrycia ko-
lejnego obiektu lub jego fragmentu przypisuje go do odpowiedniej grupy. Zwykle proces ten nie budzi
wątpliwości. Zdarza się jednak, że informacji o nowym obiekcie jest zbyt mało lub są niejednoznaczne.
Wtedy warto się posłużyć metodami taksonomicznymi pozwalającymi na wskazanie, do którego zna-
nego już obiektu lub grupy obiektów nowemu odkryciu „jest najbliżej”. Przykładem tego typu badań
jest monografia Jadwigi Sambor, w której przedstawia ona przykłady związane z identyfikacją tekstów,
dotyczące autorstwa poszczególnych ksiąg Nowego Testamentu, dramatów Szekspira, tekstów Rim-
bauda czy przemówień wielkich polityków XX w. Szczególnie interesujące są także przytoczone przy-
kłady nawiązujące do klasyfikacji języków słowiańskich (SAMBOR 1972, s. 80-186).
Zagadnienia związane z identyfikacją dobrze jednak obrazują miejsce metod ilościowych w warsz-
tacie historyka. Przeprowadzenie grupowania wymaga w ich przypadku czasochłonnego przygotowania
bazy danych, będącej punktem wyjścia do identyfikacji historycznej. Dla przykładu w badaniach doty-
czących identyfikacji tekstów zmiennymi mogą być wskaźniki syntaktyczne bądź leksykalne, długość
tekstu, liczba haseł, liczba urwanych lub pełnych wersów, liczba rodzajników, spójników, partykuł czy
zaimków osobowych, liczba rzeczowników albo określonych sformułowań itp. (zob. np.: SAMBOR
1972, s. 80-186). Przygotowanie tego typu zestawienia jest nie tylko pracochłonne, ale wymaga także
olbrzymiej skrupulatności przy dokonywaniu pomiarów, a co najważniejsze – wiedzy merytorycznej
w zakresie doboru odpowiednich wskaźników w odniesieniu do konkretnego zagadnienia.
Przykład grupowania obiektów historycznych przedstawiony w części praktycznej dotyczy warsz-
tatów rzemieślniczych, które prowadziły działalność wytwórczą w latach 70. XX w. Zostały one scha-
rakteryzowane w takich obszarach, jak: rodzaj używanych narzędzi, czas pracy, krąg i rodzaj odbiorców
oraz wieś, w której warsztat prowadził swoją wytwórczość. Sposób przeprowadzonych pomiarów zde-
terminował skalę, w której zmienne zostały wyrażone. Dzięki zastosowaniu metod taksonomicznych
badane warsztaty zostały odpowiednio pogrupowane. Działanie to pozwoliło na ogólniejszą charakte-
rystykę stanu rzemiosła wiejskiego i wskazanie kierunku jego przemian organizacyjnych. Trudniejszym
problemem do zobrazowania była identyfikacja historyczna. Jak wspomniano wcześniej, wymaga ona
posiadania szczegółowej, obszernej wiedzy z badanego obszaru. W związku z powyższym do prezen-
tacji tego zagadnienia wykorzystano jedynie przykład liczbowy zaproponowany przez HANDA i in.
24 2. Metody taksonomiczne jako narzędzie syntezy

(2005, s. 514-528). Dotyczył on dziesięciu dokumentów, a podstawą ich grupowania było sześć zmien-
nych opisujących częstotliwość występowania w nich charakterystycznych wyrażeń. Mimo swoich nie-
wielkich wymiarów przykład ten pozwolił zaprezentować ideę zastosowania metod taksonomicznych
w zagadnieniach dotyczących identyfikacji historycznej.

2.3.4. Selekcja ilościowych informacji historycznych

Wśród problemów, których rozwiązanie można wspomóc zastosowaniem wielowymiarowych metod


taksonomicznych, ważne miejsce zajmuje zagadnienie selekcji informacji. Rozwój technologii infor-
macyjnej powoduje, że historyk staje przed koniecznością opanowania coraz większej liczby danych
ilościowych. Sytuacja ta ma miejsce szczególnie w przypadku rozważania problemów społeczno-go-
spodarczych XX w. Założenie, że im więcej dostępnych informacji o procesie, tym lepiej, nie zawsze
okazuje się prawdziwe. Zwracają na to uwagę WINKLER i in. (2012), wskazując na fakt, że wraz ze
wzrostem wymiarowości wzrasta również wielkość błędu i poziom nieprecyzyjności.
Zagadnienie znaczenia selekcji informacji w warsztacie historyka, a w szczególności historyka go-
spodarczego, porusza także w swoich rozważaniach MORAWSKI (2011, s. 22). W sytuacji, w których
historyk ma do czynienia z nadmiarem informacji ilościowych, „sztuka polega na tym, by je zhierarchi-
zować, podzielić na ważne, mniej ważne i zupełnie nieistotne z punktu widzenia pytania badawczego”,
które zostało postawione. Należy jednak podkreślić, że w procesie tym historyk powinien zwracać
szczególną uwagę na te fakty, które wydają się sprzeczne z hipotezą badawczą. Spośród wielu zastoso-
wań metod taksonomicznych często ten obszar jest właśnie przywoływany. HELLWIG (1997, s. 185)
podkreśla, że taksonomia polega na wykrywaniu odrębności obiektów przez wykorzystanie idei traf-
nego wyboru, odniesionego nie tylko do identyfikacji obiektów, ale i do zmiennych użytych do ich
opisu, które razem służą charakterystyce badanego zjawiska społeczno-gospodarczego. Metody takso-
nomiczne mogą być pomocne w przypadku konieczności wskazania obiektu dominującego i domino-
wanego oraz najlepszego i najgorszego.
Zagadnieniom teoretycznym związanym z doborem zmiennych do badania poświęcono w całości
rozdział piąty. Zaprezentowano w nim zarówno procedury związane z grupowaniem zmiennych, jak
i procedury wyboru zmiennych, które z punktu widzenia zasobu informacji w najlepszy sposób repre-
zentowały wyodrębnione w ten sposób grupy zmiennych. Ponadto zastosowanie każdej z zapropono-
wanych metod zostało zaprezentowane w ramach części praktycznej. Etap doboru zmiennych diagno-
stycznych zajmuje znaczące miejsce w zaprezentowanych tam przykładach grupowania historycznego.
Poza rozwiązaniem zaproponowanym w rozdziale piątym problem ten można również rozwiązać przy
użyciu metod hierarchicznych. Szczególnie polecane są w tym zakresie metoda pojedynczego i pełnego
wiązania. Zostały one scharakteryzowane w rozdziale szóstym.

2.3.5. Przestrzenno-czasowa klasyfikacja struktur

Pewien obszar zainteresowań historyków społecznych i gospodarczych zajmują badania struktur spo-
łeczno-ekonomicznych, w tym struktur demograficznych. Z punktu widzenia danych ilościowych
można je rozpatrywać w trzech perspektywach: przestrzennej, rodzajowej i czasowej. Elementami wy-
różnionych typów struktur są zatem odpowiednio obiekty, zmienne i okresy (GRABIŃSKI, ZAJĄC 1975).
W grupowaniu jednowymiarowym rozpatruje się dany problem z uwzględnieniem jednej perspektywy.
2.3. Zagadnienia historyczne wspomagane metodami taksonomicznymi 25

Grupowanie wielowymiarowe zwykle uwzględnia dwie z nich. I tak w przypadku regionalizacji grupo-
wane są obiekty opisane wieloma zmiennymi w danym momencie czasu. Z kolei periodyzacja to gru-
powanie okresów uwzględniające wiele zmiennych opisujących jeden obiekt. Podobnie można zdefi-
niować problemy badawcze w przypadku identyfikacji obiektów i doboru zmiennych do badania.
Bardziej złożona sytuacja występuje wtedy, gdy historyk ma za zadanie uwzględnienie jednocześnie
trzech perspektyw analizowanego zagadnienia. Jednak uzupełnienie dla przykładu przestrzennej analizy
strukturalnej o jeszcze jeden wymiar, a mianowicie o wymiar czasu, prowadzi do rozszerzenia pola
wnioskowania. Pozwala to na dostrzeżenie w rozważanym zjawisku w danym okresie również pewnych
tendencji zmian zachodzących w określonym układzie terytorialnym. Fakt ten stanowi zatem istotę
przestrzenno-czasowych analiz strukturalnych (KUKUŁA 1996, s. 117).
Analizę prawidłowości strukturalnych prowadzić można za pomocą różnych metod, jednakże szcze-
gólnie przydatna w tym zakresie wydaje się analiza taksonomiczna. Elżbieta Sobczak podkreśla, że „pod-
stawowym problemem wielowymiarowej analizy strukturalnej jest określenie wzajemnych podobieństw
między strukturami badanych obiektów. Wyodrębnienie podobnych struktur ekonomicznych i łączenie
ich w homogeniczne grupy umożliwia uporządkowanie otaczającej człowieka rzeczywistości i poznanie
istoty badanych zjawisk gospodarczych” (SOBCZAK 1994, s. 133). Dla przykładu uwzględnienie dodat-
kowo czynnika czasu w regionalnych badaniach strukturalnych, czyli de facto przeprowadzenie periody-
zacji wyników tego typu badań, może polegać na wyodrębnieniu okresów, w których regiony były po-
dobne w sensie badanych struktur lub też na wyodrębnieniu faz rozwojowych, w których w regionach za-
chodziły względnie trwałe, ukierunkowane przeobrażenia (MARKOWSKA 2012. s. 146-147).
Wielowymiarowa analiza statystyczna, a w szczególności taksonomia, zawiera zdecydowanie wię-
cej propozycji dla badań opartych wyłącznie na danych przekrojowych lub czasowych, a znacznie mniej
dedykowanych dla badań opartych na danych przestrzenno-czasowych. W literaturze polskiej funkcjo-
nuje kilka propozycji podejść do tego problemu (GRABIŃSKI, ZAJĄC 1975; MALINA, WANAT 2000;
MŁODAK 2006; STRAHL 2008; MARKOWSKA 2012). Jedną z proponowanych metod jest uśrednienie
poszczególnych zmiennych w badanym okresie i przeprowadzenie grupowania w oparciu o dwuwymia-
rową macierz wartości przeciętnych (GRABIŃSKI, ZAJĄC 1975). Postępowanie takie jest uzasadnione
jednak tylko wtedy, gdy można przyjąć, że w rozważanym okresie nie zaszły istotne zmiany w relacjach
strukturalnych. W większości przypadków założenie takie jest zatem niesłuszne – zwłaszcza dla okre-
sów dłuższych. Słabą stroną tego podejścia jest również fakt, że uśrednianie zmiennych wyjściowych
skutkuje zmniejszeniem poziomu ich zmienności, przez co tracą swoje właściwości diagnostyczne –
w mniejszym stopniu różnicują badane obiekty – co skutkuje trudnościami w procesie grupowania.
W tej sytuacji bardziej odpowiednim sposobem analizy przestrzenno-czasowej będzie dokonywanie
grupowania osobno dla każdego okresu. Uzyskany ciąg informacji z tego rodzaju klasyfikacji daje do-
kładny obraz kształtowania się badanych struktur na przestrzeni całego rozpatrywanego okresu. Tadeusz
Grabiński i Kazimierz Zając podkreślają jednak, że w praktyce takie podejście jest dość kłopotliwe,
zwłaszcza wówczas, jeżeli z okresu na okres zachodzą dość znaczne zmiany w wynikach grupowania
badanych obiektów. Sytuacja ta skutkuje tym, że widoczne są nawet niewielkie zmiany strukturalne,
które mogą wynikać z własności zastosowanej metody taksonomicznej. W takim przypadku polecają
oni przeprowadzenie badań w kilku wybranych momentach czasu, co pozwoli uchwycić zmiany rozpa-
trywanych struktur w perspektywie dynamicznej (GRABIŃSKI, ZAJĄC 1975). Poprawność takiego po-
dejścia zależy od właściwego ustalenia zarówno punków czasowych, w których prowadzi się analizę,
jak i odległości pomiędzy kolejnymi punkami czasowymi. Co więcej, wówczas przyjmuje się założenie
o stabilności struktur określonym czasie. Tym razem jednak założenie to nie dotyczy całego badanego
okresu, ale tylko krótkich jego podokresów.
26 2. Metody taksonomiczne jako narzędzie syntezy

W monografii zaprezentowano jeden przykład dotyczący analizy przestrzenno-czasowej. Na pod-


stawie wpływów podatkowych przeanalizowano znaczenie rzemiosła na tle innych działalności indywi-
dualnych w poszczególnych powiatach województwa poznańskiego w okresie 1958-1970. Aktywność
badanych grup w powiatach mierzono wartością uiszczanych podatków w badanym roku. Zgodnie ze
wskazówkami GRABIŃSKIEGO i ZAJĄCA (1975) wybrano do badania dane w interwałach trzyletnich.
Grupowanie zatem przeprowadzono pięć razy na podstawie informacji ilościowych z roku 1958, 1961,
1964, 1967 i 1970, uzyskując skupienia powiatów możliwie jednorodne ze względu na uzyskiwane
wpływy podatkowe. Na podstawie tych wyników została przeprowadzona periodyzacja. W porównaniu
do pozostałych przykładów prezentowanych w niniejszym opracowaniu, ten okazał się najbardziej ob-
szerny pod względem materiału statystycznego: w badaniu uwzględniono dane z pięciu okresów,
a w każdym okresie analizowano ponad dwieście rekordów. Niemniej jednak z punktu widzenia badań
historycznych uzyskany obraz prezentowanego zagadnienia okazał się możliwie kompletny. Co więcej,
można powiedzieć, że uwzględnienie jednocześnie w analizie ilościowej perspektywy przestrzennej,
rodzajowej i czasowej badanego zjawiska, choć kłopotliwe z obliczeniowego punktu widzenia, wydaje
się być najbliższe idei syntezy historycznej, prezentowanej przez Jana Rutkowskiego.

2.4. Grupowanie jako proces badawczy

Jak wspomniano wcześniej, liczba algorytmów zaliczanych do metod taksonomicznych jest ogromna.
Dobór metody do rozwiązania konkretnego problemu badawczego zwykle nie jest jednak jednoznaczny.
Co więcej, wśród rozmaitych metod taksonomicznych nie ma konkretnej, której przewaga nad innymi
byłaby w literaturze akceptowana (SOKOŁOWSKI 1992, s. 23-24; HAIR i in. 1995, s. 441-442). EVERITT
(1980, s. 9) podkreśla, że grupowanie powinno zostać poprzedzone przemyślanym wyborem zmiennych
oraz ich odpowiednim przygotowaniem. Ważna jest także, szczególnie w obszarze badań historycznych,
decyzja dotycząca sposobu określenia podobieństwa bądź odległości pomiędzy grupowanymi obiek-
tami. Wybierając konkretną metodę, należy więc brać pod uwagę jej istotę, a także cel badania i dostęp-
ność oprogramowania. Ponadto należy też odwołać się do oczekiwanej interpretacji wyników klasyfi-
kacji (WYSOCKI 2010, s. 87-90).
W literaturze zazwyczaj wyróżnia się kilka etapów analizy skupień (por. GORDON 1999, s. 8;
WALESIAK 2004 i 2005; MUCHA 2012; DUDEK 2013, s. 66). Ilościową procedurę grupowania rozpo-
czyna (1) wybór obiektów i zmiennych, które obiekty te charakteryzują. Oczywiście decyzje te na-
leży podjąć, definiując wcześniej problem merytoryczny dotyczący konkretnej sytuacji, np. społeczno-
gospodarczej czy demograficznej. Na etapie przygotowawczym ważna jest także skrupulatna weryfika-
cja źródeł ilościowych. Andrzej DUDEK (2013, s. 18 za: SAMUELSON 1952) zwraca uwagę, że naprawdę
duże błędy powstają zazwyczaj na etapie formułowania założeń. Logika nie stanowi ochrony przed fał-
szywymi hipotezami lub niewłaściwą interpretacją rzeczywistości czy też sformułowaniem nieadekwat-
nych założeń. Zgodnie z poglądami tego uczonego, stosowanie języka matematyki powoduje jednak, że
badacz jest zmuszony do „wyłożenia kart na stół” tak, aby wszyscy mogli widzieć założenia, które
przyjął. W badaniach historycznych, szczególnie tych dotyczących XIX i XX w., historyk dysponuje
zwykle szerokim wachlarzem zmiennych obrazujących różnorodność grupowanych obiektów w obsza-
rze podjętego zagadnienia. Z tej przyczyny w ramach tego etapu ze wstępnej listy zmiennych należy
wybrać grupę zmiennych diagnostycznych. W tym celu zwykle stosowane są także metody taksono-
miczne.
2.4. Grupowanie jako proces badawczy 27

Zagadnienia związane z doborem obiektów i zmiennych są problemem złożonym. Opis procesu ich
przygotowania do analiz wielowymiarowych stanowi główną część rozdziału trzeciego. Co więcej, zwy-
kle bogactwo źródeł ilościowych w obszarze badań społeczno-gospodarczych sprawia, że wstępna lista
zmiennych będących podstawą grupowania obiektów wymaga – zarówno ze względów merytorycz-
nych, jak i statystycznych – ograniczenia. W rozdziale piątym opisano zatem procedury taksonomiczne,
które pomagają w procesie tworzenia listy zmiennych diagnostycznych, ostatecznie uwzględnionych
w badaniu.
Zmienne opisujące obiekty, które zostaną w wyniku zastosowania odpowiedniej procedury pogru-
powane, wyrażone są zazwyczaj w różnych jednostkach. Aby wpływ poszczególnych zmiennych na
proces grupowania był zbliżony, często – choć nie zawsze – konieczne jest doprowadzenie zmiennych
do porównywalności. Z tego powodu następny etap procesu grupowania to (2) wybór formuły norma-
lizacji wartości zmiennych. Wykaz formuł normalizacyjnych, możliwych do zastosowania w zależno-
ści od skali, w której zostały wyrażone poszczególne zmienne, zawarto w ostatniej części rozdziału trze-
ciego. Szczególne miejsce znajduje tam zagadnienie normalizacji zmiennych wyrażonych w skali po-
rządkowej, rzadko opisywane w tego typu publikacjach.
Punktem wyjścia w wielu analizach wielowymiarowych jest wyznaczenie odległości taksonomicz-
nej uwzględniającej wszystkie zmienne diagnostyczne opisujące porównywane obiekty. Jest to jeden
z najważniejszych etapów procesu badawczego. (3) Wybór odpowiedniej miary odległości zależy od
wielu czynników. Do najważniejszych należą: skala pomiarowa, w której zostały wyrażone zmienne,
oraz cel grupowania. Problem ten dotyczy szczególnie badań historycznych. Historycy bowiem, częściej
niż inne grupy badaczy, korzystają z różnych źródeł informacji ilościowych, konfrontując je ze sobą
i równocześnie weryfikując ich autentyczność. W konsekwencji w badaniach historycznych powstają
bazy danych, w których zmienne opisujące grupowane obiekty wyrażone są w różnych skalach. Prze-
kłada się to na wybór odpowiedniej miary odległości. Wyznaczenie odległości wielowymiarowych po-
między każdą parą obiektów uwzględnionych w badaniu skutkuje ostatecznie powstaniem macierzy od-
ległości. W zależności od podjętej w tym obszarze decyzji badacza macierz odległości można przygo-
tować samodzielnie w arkuszu kalkulacyjnym lub korzystając z dostępnych procedur w ramach opro-
gramowania statystycznego. Ze względu na powyższe argumenty zagadnienie wyboru odpowiedniej
miary odległości w badaniach historycznych wymaga szczególnej skrupulatności. Szczegółowy wykaz
miar odległości i podobieństwa, zawierający charakterystyki poszczególnych wskaźników oraz sposoby
ich wyznaczania, zawarto w rozdziale czwartym. Jego zakończenie stanowi opis postępowania w sytu-
acjach nietypowych, na które w swoich badaniach może natknąć się historyk.
Mając zdefiniowaną macierz odległości pomiędzy poszczególnymi obiektami, można przystąpić do
ich grupowania. Jak wspomniano wcześniej, wachlarz metod taksonomicznych jest szeroki. Spośród
dostępnych procedur należy w następnym etapie dokonać (4) wyboru metody taksonomicznej. Tym
razem wybór ten jest determinowany przyjętym wcześniej sposobem normalizacji zmiennych i miarą
wyznaczania odległości między obiektami. Głównym celem grupowania jest zwykle uzyskanie rozłącz-
nych skupień obiektów – możliwie najbardziej homogenicznych w ramach skupień i możliwie najbar-
dziej heterogenicznych pomiędzy skupieniami. Jak wspomniano wcześniej, to właśnie rozwój technik
komputerowych przyczynił się do szerszego stosowania metod taksonomicznych. Współcześnie najczę-
ściej stosowane są metody hierarchiczne i metody optymalizacyjne. Ze względu na złożone procedury
zwykle ułatwieniem jest korzystanie na tym etapie z procedur grupowania, dostępnych w ramach opro-
gramowania statystycznego. W przedkładanym opracowaniu wykaz najczęściej używanych metod tak-
28 2. Metody taksonomiczne jako narzędzie syntezy

sonomicznych został zawarty w rozdziale szóstym. Uwzględniono w nim dwie grupy metod: hierar-
chiczne oraz optymalizacyjne. Opis wybranych procedur wzbogacono przykładami ich użycia w bada-
niach społeczno-gospodarczych, stanowiącymi poszczególne rozdziały części praktycznej monografii.
Jeżeli w etapie czwartym została wybrana jedna z metod hierarchicznych, to w następnym etapie
zwykle następuje procedura (5) wyboru ostatecznej liczby skupień. W przypadku, gdy jako metodę
grupowania przyjęto metodę optymalizacyjną, etap wyboru ostatecznej liczby skupień poprzedza proces
grupowania. Generalnie skupienia, które mają powstać w wyniku zastosowania metod taksonomicz-
nych, powinny być możliwie najbardziej jednorodne wewnętrznie – homogeniczne. Zagadnienie to,
w zależności od przyjętej metody grupowania, opisano jako osobne podrozdziały rozdziału szóstego:
w przypadku metod hierarchicznych jest to rozdział 6.1.2, a dla metod kombinatorycznych – rozdział
6.2.2.
Jednym z końcowych etapów całego procesu badawczego, w którym grupowane są obiekty o ce-
chach wyrażonych w sposób ilościowy jest 6) ocena wyników grupowania. Jeśli zatem grupowanie
przeprowadzono kilka razy, to na tym etapie należy wskazać ostateczne wyniki. Decyzję tę badacz może
podjąć intuicyjnie, bazując na swojej wiedzy merytorycznej dotyczącej podjętego zagadnienia – badacz
uznaje ten rezultat grupowania jako lepszy, który w jego opinii lepiej obrazuje problem, którego grupo-
wanie dotyczyło. Inne podejście opiera się na ilościowych wskaźnikach oceny przeprowadzonego pro-
cesu (por. GORDON 1999, s. 96-100; KORZENIEWSKI 2012, s. 14-15). Mogą one opierać się na macierzy
odległości, stanowiącej podstawę grupowania. W przypadku, gdy grupowane obiekty zostały opisane
zmiennymi wyrażonymi w silnych skalach, wykorzystywane mogą być założenia analizy wariancji.
W niniejszej pracy trzy wspomniane podejścia zostały opisane w końcowej części rozdziału szóstego.
W efekcie podjęcia decyzji wyboru ostatecznych wyników grupowania możliwe jest przeprowadze-
nie (7) opisu wyników grupowania. Jak już wspominano wielokrotnie, etap ten powinien opierać się
nie tylko na części ilościowej, ale także na szerszych historycznych odniesieniach w kontekście podej-
mowanego problemu. Trudno zatem o opis teoretyczny tego etapu grupowania. Niemniej jednak w pre-
zentowanych w drugiej części monografii przykładach, w zależności od podejmowanej tematyki, na
etap opisu wyników grupowania położono szczególny nacisk. Zawarto w nim proponowane zestawienia
wyników ilościowych i przykłady ich interpretacji merytorycznej prowadzących w miejscach, gdzie to
było możliwe, do syntez historycznych.
Zagadnienia teoretyczne
3
Podstawowe zagadnienia
wielowymiarowej analizy statystycznej

Większość badanych zjawisk społeczno-gospodarczych można opisać, wykorzystując jednocześnie


bądź alternatywnie różnego rodzaju dane statystyczne. Szczególne bogactwo tego typu informacji
przyniósł rozwój zinstytucjonalizowanych urzędów statystycznych. Jak wspomniano wcześniej, zasto-
sowanie metod wielowymiarowych, a w szczególności analizy skupień, pozwala z jednej strony na
usystematyzowanie wiedzy wynikającej ze zwykle obszernego materiału statystycznego. Z drugiej –
można dzięki temu podejściu zweryfikować hipotezy sformułowane przed podjęciem badań lub wy-
ciągnąć nowe wnioski dotyczące wzajemnych powiązań między jednostkami, które stanowią przed-
miot analizy zjawisk społecznych czy gospodarczych. Niemniej jednak przed podjęciem właściwych
badań należy uporządkować dostępny materiał statystyczny. Realizację tego celu należy rozpocząć od
poznania podstawowych pojęć wielowymiarowej analizy statystycznej.

3.1. Zbiorowość i jednostki zbiorowości

Niezależnie od przyjętej metody analizy punktem wyjścia do podjęcia jakichkolwiek działań


w obszarze badań ilościowych jest zdefiniowanie jednostek stanowiących przedmiot badania oraz
populacji – tworzonej przez te jednostki – nazywanej także zbiorowością (OSTASIEWICZ 2003). Toż-
samymi do jednostek populacji mogą być określenia: obiekty lub przypadki (AFIFI, CLARK 1998, s. 13;
BALICKI 2009, s. 25) czy operacyjne jednostki taksonomiczne (SNEATH, SOKAL 1973, s. 2). Specy-
ficznym obiektem badania jest jednostka czasu (NOWAK 1990, s. 13).
W zależności od zagadnienia, jakie jest rozpatrywane w kontekście historycznym, obiektami mogą
być jednostki życia społecznego (osoby, rodziny, gospodarstwa domowe, przedsiębiorstwa), jednostki
terytorialne (gmina, powiat, województwo, region, państwo…), zdarzenia (jednostki chorobowe, wy-
padki drogowe…) czy czasowe (dzień, miesiąc, rok, wiek). Zatem badana zbiorowość jest zbiorem
obiektów. Matematycznie zależność tę zapiszemy w postaci:
𝜔1
𝜔2
𝜴 = [ … ], [3.1]
𝜔𝑛
gdzie 𝑛 oznacza liczbę jednostek 𝜔𝑖 w zbiorowości 𝜴, przy czym 𝑖 = 1, 2, … , 𝑛.

Cóż zatem można powiedzieć o badanej populacji? Po pierwsze jest ona zbiorem skończonym,
kompletnym. HELLWIG (1997, s. 187) podkreślał, że populacja „jest nie tylko zbiorem elementów,
lecz odrębną niezależną całością, czyli samodzielnie istniejącą rzeczą, różną od innych rzeczy”. Zatem
definiując populację, należy zamieścić szerszy jej opis, świadczący o jej odrębności. Po drugie dwa
32 3. Podstawowe zagadnienia wielowymiarowej analizy statystycznej

różne zbiory obiektów, czyli dwie różne populacje, rozróżniane są poprzez ich nazwę. I tak mówić
można np. o populacji mieszczan, zbiorze powiatów czy zbiorze państw Europy. Zwykle dla wygody
stosowane są krótsze nazwy: mieszczanie, powiaty, państwa europejskie.
Z kolei obiekty tworzące daną populację odróżniane są od siebie poprzez nazwę zbiorowości
i nazwę obiektu. W przypadku populacji mieszańców miasta poszczególne jednostki można oznaczyć
np.: Jan Kowalski, Marek Nowak, Franciszek Gola. Mówiąc o populacji powiatów, można mówić
o takich jednostkach, jak przykładowo: powiat krotoszyński, powiat gnieźnieński, powiat powidzki,
a w przypadku badań dotyczących państw europejskich: Polska, Niemcy. W zbiorowościach o dużej
liczbie obiektów często stosowanym podejściem jest numerowanie obiektów i/lub stosowanie skró-
tów. W przytoczonych przykładach mogą to być odpowiednio 𝐽𝐾 , 𝑀𝑁, 𝐹𝐺 lub 𝑀1 , 𝑀2 , … , 𝑀𝑛 –
w przypadku populacji mieszczan; Krotoszyn, Gniezno, Powidz lub 𝑃1 , 𝑃2 , … , 𝑃𝑛 – w badaniach doty-
czących powiatów oraz PL, GE – w przykładzie opisującym państwa europejskie.

3.2. Cechy zbiorowości, pomiar i zmienne

Kolejne działanie podejmowane w badaniach ilościowych polega na zgromadzeniu danych liczbo-


wych, odwzorowujących cechy badanej zbiorowości. Obiekty są zatem jednostkami badanej zbioro-
wości. Natomiast cechy są ich charakterystykami, właściwościami tych obiektów, rozpatrywanymi
z punktu widzenia badanego zjawiska. Im bardziej obiekt jest złożony, tym na ogół posiada więcej
cech (por. TOPOLSKI 1984, s. 407). Cechy mogą się odnosić do właściwości fizycznych obiektów.
Mówi się wtedy o takich cechach, jak: płeć, wiek, wymiar czy ciężar. Cechami mogą być także cha-
rakterystyki dotyczące oceny funkcjonowania obiektów – wtedy wymieniane są np.: prędkość, wydaj-
ność, niezawodność. Inny rodzaj cech obiektów dotyczy ich charakterystyk określanych zmysłami.
Wśród tych ostatnich można wymienić takie cechy, jak komfort, wygoda czy bezpieczeństwo.
Cechy obiektów wyznaczane są w wyniku przeprowadzenia pomiaru (por. STECZKOWSKI, ZELIAŚ
1981, s. 15; WIŚNIEWSKI 1987). Pomiar polega na porównaniu według z góry ustalonych reguł mie-
rzonego obiektu z wzorcem za pomocą określonej skali. W konsekwencji można dokonać identyfika-
cji badanego obiektu i przyporządkować mierzonym cechom określone symbole, a w szczególności
liczby, w taki sposób, aby odzwierciedlały relacje zachodzące pomiędzy badanymi obiektami. Warun-
kiem dobrze przeprowadzonego pomiaru jest dokładne zdefiniowanie mierzonej cechy (PAWŁOWSKI
1969, s. 54; WALESIAK 1996b, s. 19). W efekcie takiego działania można uzyskać dwa rodzaje infor-
macji: pierwsza z nich mówić będzie o liczności pewnego zbioru zdarzeń, a druga – określać nasilenie
wyróżnionej własności badanego obiektu. W przypadku badań historycznych dotyczących zjawisk
społeczno-gospodarczych pomiar dokonywany jest zwykle przez odpowiednie organy statystyczne.
Czasami konieczne jest jednak zebranie materiału i jego odpowiednie uporządkowanie. Z kolei
w badaniach archeologicznych pomiar dokonywany jest bezpośrednio przez badacza.
Ilościowe odpowiedniki badanych cech uzyskane w wyniku pomiaru noszą nazwę zmiennych
(WIŚNIEWSKI 1987; SZTEMBERG-LEWANDOWSKA 2008, s. 18). Wymagane jest jednak, aby zmienne
wyrażać w odpowiednich jednostkach pomiarowych. Niemniej jednak, mimo oczywistych różnic,
zdarza się, że termin cecha i zmienna są używane zamiennie (zob. np. BALICKI 2009, s. 24). Zatem
cechy wyrażone liczbowo to zmienne. Z kolei obserwacje to wartości zmiennych uzyskane w wyniku
pomiaru dotyczące pojedynczej jednostki, wyrażone w stosownej skali pomiarowej.
Jak wspomniano wcześniej, każdy obiekt wchodzący w skład populacji można scharakteryzować
za pomocą wielu cech, a te z kolei za pomocą wielu zmiennych. O ile o zborowości można mówić, że
3.2. Cechy zbiorowości, pomiar i zmienne 33

jest zbiorem kompletnym lub częściowo kompletnym, to w przypadku zmiennych takiego efektu ni-
gdy nie da się uzyskać. Jednak dzięki odpowiednio dobranym własnościom można badane obiekty
rozróżnić między sobą. Z zagadnieniem tym mamy do czynienia szczególnie wtedy, gdy badana cecha
odnosi się nie tyle do atrybutu obiektu, np. liczby mieszkańców, ale do zjawiska np. poziomu rozwoju
gospodarczego czy warunków życia ludności (ZELIAŚ 2000a, s. 35). Dla przykładu zamożność miesz-
kańców miast można wyrazić za pomocą takich zmiennych, jak: przeciętny dochód [zł/osobę], wiel-
kość powierzchni mieszkaniowej [m2/osobę] czy chociażby udział wydatków na żywność
w wydatkach ogółem [%] itd. Co więcej, szczególnie w kontekście badań historycznych może wystą-
pić taka niedogodność, że określonej cechy obiektów nie da się po prostu zmierzyć, a co za tym idzie,
nie da się jej uwzględnić w badaniu. Oznacza to, że „sprawa wyboru cech jest zawsze problemem
otwartym, a więc wymaga korzystania nie tylko z argumentów merytorycznych, lecz także formal-
nych” (HELLWIG 1997, s. 187).
Zeliaś (1982 oraz 2000a, s. 37-38) podkreśla, że dobór zmiennych pod względem merytoryczno-
-formalnym powinien uwzględniać takie kwestie, jak uniwersalność oraz mierzalność zmiennych.
Należy zatem brać pod uwagę takie zmienne, które odznaczają się wysoką wartością merytoryczną
o uznanym powszechnie znaczeniu i mające jednoznaczną interpretację. W badaniach historycznych
niewątpliwie ważna jest także jakość danych z punktu widzenia ich dokładności i obciążenia błędami
przypadkowymi. Konieczne jest zatem zwrócenie uwagi na źródła danych, będących punktem wyjścia
do grupowania. Kluczowa jest także kwestia dostępności danych liczbowych, opisujących cechy
obiektów grupowanych. W badaniach taksonomicznych należy pamiętać, że zestaw danych powinien
był kompletny. W przypadku braku informacji można posłużyć się metodami szacowania brakujących
danych (zob. np.: GRABIŃSKI i in. 1979; GAŁUSZKA 1992a, 1992b, 1994).
W badaniach demograficznych i badaniach dotyczących gospodarki rzadko udaje się w pełni scha-
rakteryzować analizowane zjawisko, wykorzystując jedynie jedną cechę wyrażoną jedną zmienną.
Zwykle mamy sytuację, w której każdej z jednostek zbiorowości przypisane jest wiele zmiennych.
Stąd konieczność przeprowadzania analiz wielowymiarowych. W podejściu opisowym obserwacje
wielowymiarowe można zapisać w dobrze znanej formie tabelarycznej (por. BALICKI 2009, s. 24-
-25). Przykładem takiej prezentacji jest tabela 3.1. W tak zdefiniowanym zestawieniu każdy wiersz
odpowiada jednej z uwzględnionych w badaniu jednostek, natomiast każda kolejna kolumna dotyczy
kolejnej zmiennej opisującej badane jednostki. Zatem wartości 𝑥𝑖𝑗 dotyczą obserwacji 𝑗-tej zmiennej
na 𝑖-tej jednostce.

Tabela 3.1. Przykład opisowej prezentacji danych ilościowych w formie macierzy obserwacji

Zmienne
Obiekty
𝑿𝟏 𝑿𝟏 … 𝑿𝒎
𝝎𝟏 𝑥1;1 𝑥1;2 … 𝑥1𝑚
𝝎𝟐 𝑥2;1 𝑥2;2 … 𝑥2𝑚
… … … … …
𝝎𝒏 𝑥𝑛1 𝑥𝑛2 … 𝑥𝑛𝑚

Źródło: opracowanie własne.

W statystycznych badaniach wielowymiarowych jednostki traktujemy jako wektory, których skła-


dowymi są wartości odpowiadających im zmiennych – obserwacje (ZELIAŚ 2000a, s. 36). Zatem każ-
dej jednostce przynależącej do badanej zbiorowości przypisany jest zbiór zmiennych, który można
zapisać w postaci wektora obserwacji:
34 3. Podstawowe zagadnienia wielowymiarowej analizy statystycznej

𝝎𝒊 = [𝑥𝑖1 , 𝑥𝑖2 , … , 𝑥𝑖𝑚 ], [3.2]


gdzie:
𝝎𝒊 – wektor opisujący 𝑖-tą jednostkę zbiorowości, przy czym 𝑖 = 1, 2, … , 𝑛,
𝑚 – liczba zmiennych opisujących każdą jednostkę, przy czym 𝑘 = 1, 2, … , 𝑚,
𝑥𝑖𝑚 – obserwacja 𝑚-tej zmiennej w 𝑖-tej jednostce.

Znajomość zbioru jednostek i zmiennych ich opisujących pozwala na zapisanie ich w formie ma-
cierzy obserwacji, nazywanej także macierzą danych (zob. np.: WYSOCKI 2010). Macierz ta
uwzględnia obserwacje wszystkich zmiennych na wszystkich badanych jednostkach. Jeżeli przyjmie-
my, że w badaniu bierze udział 𝑛-jednostek, a każda z nich jest opisana przez 𝑚-zmiennych, to
wspomnianą macierz obserwacji można przedstawić następująco:
𝑥1;1 𝑥1;2 … 𝑥1𝑚
𝑥 𝑥2;2 … 𝑥2𝑚
𝑿 = [ …2;1 … … … ], [3.3]
𝑥𝑛1 𝑥𝑛2 … 𝑥𝑛𝑚
gdzie:
𝑿 – macierz obserwacji o wymiarach 𝑛 × 𝑚,
𝑥1;2 – obserwacja drugiej zmiennej uwzględnionej w badaniu na pierwszej z analizowanych jedno-
stek badanej zbiorowości.

Jak widać, zarówno tabela danych (tabela 3.1), jak i macierz obserwacji 𝑿 [3.3], prezentują ten
sam zbiór informacji. Oczywiście macierz obserwacji ma znaczenie techniczne w wielowymiarowych
analizach statystycznych. Zatem w sytuacjach, w których występuje konieczność prezentacji danych
ilościowych, bardziej przejrzystą formą jest wykorzystanie w tym celu tabeli. Z kolei jeżeli dane ilo-
ściowe mają służyć jako punkt wyjścia do dalszych obliczeń, niezbędnych w grupowaniu wielowy-
miarowym, dogodniejsza jest forma macierzowa.
Nieco inaczej wygląda sytuacja, kiedy badaniu podlega zjawisko, które poza uwzględnieniem
obiektów i ich cech analizowane jest dodatkowo w perspektywie czasowej (ZELIAŚ 2000a, s. 52).
Wtedy oprócz danych przekrojowych należy uwzględnić także czynnik czasu. W takim przypadku
można mówić o danych przekrojowo-czasowych. Dynamiczna analiza pozwala na kompleksowe
badanie zmian strukturalnych w poszczególnych jednostkach, a w konsekwencji ustalenie zależności
przyczynowo-skutkowych pomiędzy różnymi elementami struktur w całym rozpatrywanym okresie
(WYDYMUS 1988, s. 180). W ten sposób dla każdego okresu powinna być wyznaczona odrębna ma-
cierz obserwacji. Analiza dwóch okresów (𝑇 = 2) powoduje konieczność zbudowania dwóch takich
tablic. W takiej sytuacji zapiszemy 𝑡 = 1, 2. Oczywiście możliwe jest zastosowanie bardziej czytelne-
go zapisu, np.: 𝑡 = 1950, 1951 lub – w przypadku gdy analizowane są okresy miesięczne – np.:
𝑡 = 𝑉, 𝑉𝐼. Ogólnie macierz obserwacji dla 𝑡-tego okresu można zapisać następująco:
𝑡 𝑡 𝑡
𝑥1;1 𝑥1;2 … 𝑥1𝑚
𝑡 𝑡 𝑡
𝑿𝒕 = 𝑥2;1 𝑥2;2 … 𝑥2𝑚 , [3.4]
… … … …
𝑡
[ 𝑥𝑛1 𝑡
𝑥𝑛2 𝑡
… 𝑥𝑛𝑚 ]
gdzie:
𝑿𝒕 – macierz obserwacji wyznaczona dla 𝑡-okresu, przy czym 𝑡 = 1, 2, … , T,
𝑡
𝑥𝑖𝑘 – obserwacja 𝑘-tej zmiennej w 𝑖-tej jednostce w okresie 𝑡-tym.
3.2. Cechy zbiorowości, pomiar i zmienne 35

W literaturze tak zdefiniowany zbiór nazywany jest kostką danych (zob. np.: GRABIŃSKI i in.
1990, s. 78-83; TAKSONOMIA STRUKTUR… 1998, s. 45; ZELIAŚ 2000a, s. 99). Tego typu zapis ma
szczególne znaczenie w porównaniach w czasie złożonych procesów. Został on np. zaproponowany
przez Danutę Strahl do oceny procesów transformacji strukturalnej w krajach przechodzących
z gospodarki centralnie planowanej do rynkowej (STRAHL 1997) lub w pracy SOKOŁOWSKIEGO
i ZAJĄCA (1987) do opisu rozwoju demograficznego i gospodarczego w Polsce i w świecie w latach
1975-1981. Zestawienie materiału liczbowego w postaci kostki danych pozwala zatem na klasyfikację
w przestrzeni obiektów, na klasyfikację w przestrzeni zmiennych oraz na klasyfikację w przestrzeni
czasu. Przedmiotem klasyfikacji może być zatem grupowanie obiektów w ujęciu jednowymiarowym,
wielowymiarowym i dynamicznym. Co więcej, metody taksonomiczne pozwalają na dobór zmiennych
diagnostycznych, szczególnie istotny przy wcześniej zasygnalizowanych zagadnieniach (POCIECHA
i in. 1988, s. 23-32; GRABIŃSKI 1992, s. 19-22). W prezentowanym opracowaniu przykładowa analiza
tego typu dotyczy struktury wpływów podatkowych z działalności indywidualnej w powiatach woje-
wództwa poznańskiego w latach 1958-1970. Został on zaprezentowany w rozdziale dwunastym.

3.3. Typy skal pomiarowych

Jak wspomniano wcześniej, wartości cech – zmienne – zostają uzyskane w wyniku przeprowadzonego
pomiaru, wyrażonego w stosownej skali pomiarowej. Pomiar zmiennych dokonany na pojedynczej
jednostce to obserwacja. Pomiar zatem ma na celu liczbowe wyrażenie cechy lub zbioru cech. Pro-
blem polega na tym, iż zbiór liczb rzeczywistych posiada szereg własności, które wynikają z faktu, że
między liczbami zachodzą rozmaite relacje, jak np.: równość, większość, a na liczbach mogą być wy-
konywane różnego rodzaju operacje, jak np. dodawanie, mnożenie, dzielenie. PAWŁOWSKI (1969,
s. 126-127) podkreśla, że liczba tych własności może być – zależnie od rodzaju mierzonej cechy –
różna. Różna jest także wartość informacyjna liczb będących wynikiem pomiaru (WIŚNIEWSKI 1986).
Stąd jedną z kluczowych kwestii w analizie statystycznej jest określenie typu skali pomiarowej,
w których zostały zmierzone badane cechy, a w konsekwencji wyrażone – uzyskane w wyniku pomia-
ru – zmienne.
Określenie skali pomiarowej, w której wyrażone zostały zmienne opisujące badane obiekty, jest
ważne przede wszystkim ze względu na fakt, że metody statystycznej analizy wielowymiarowej wy-
magają przyjęcia założenia o jednorodności skal pomiaru badanych zmiennych (zob. np.
WALESIAK 1993b, s. 34; 1996b, s. 22). Od typu skali zależy, jakie operacje na liczbach przyporząd-
kowanych cechom w wyniku pomiaru dają sensowne wyniki ze względu na cel badania
(CHOYNOWSKI 1971, s. 23). W konsekwencji typ skali pomiarowej decyduje o dopuszczalności kon-
kretnych metod wielowymiarowej analizy porównawczej (WALESIAK 1996b, s. 23-24;
EKONOMETRIA… 1991, s. 28-30; PANEK 2009, s. 15-16).
W literaturze najczęściej stosowany jest podział zaproponowany przez Stanleya S. STEVENSA
(1951, 1959) na skalę nominalną, porządkową, przedziałową oraz ilorazową. Skale nominalną
i porządkową nazywa się niemetrycznymi lub typu jakościowego. Natomiast dwie pozostałe skale –
interwałowa i ilorazowa – nazywane są w literaturze skalami metrycznymi lub typu ilościowego (zob.
np.: BABIŃSKI 1980, s. 56-58; STECZKOWKI, ZELIAŚ 1981, s. 18; POCIECHA 1986, s. 35; WALESIAK,
BĄK 2000, s. 16; KACZMARCZYK 2002). AFIFI i CLARK (1998, s. 16) mówią z kolei o podziale na
36 3. Podstawowe zagadnienia wielowymiarowej analizy statystycznej

zmienne dyskretne i ciągłe. Ze względu na liczbę dopuszczalnych relacji i dozwolonych przekształceń


matematycznych skale typu jakościowego nazywamy skalami słabymi, a skale ilościowe – mocnymi.

3.3.1. Skala nominalna

Najsłabszą z wymienionych przez Stevensa (1951, 1959) jest skala nominalna. Liczby tej skali pełnią
rolę symboli, zastępujących zazwyczaj nazwę (CHOYNOWSKI 1971, s. 24; WIŚNIEWSKI 1987). Zatem
obiekty na tej skali mogą być przyporządkowane do kilku grup. Przykładem cech wyrażonych w tej
skali jest płeć. Kategorie zmiennej zmierzonej w ten sposób – stany – będą tylko dwie: kobieta, męż-
czyzna. Cecha ta jest szczególnym przypadkiem skali nominalnej, nazywanej także skalą dychoto-
miczną. Stosuje się ją, gdy zmienne są dwuwartościowe lub zmiennymi są pytania, na które można
odpowiedzieć tylko tak lub nie (np.: Czy w danym regionie występował przemysł ciężki?).
Skala nominalna może być również wielostanowa. Z takim przypadkiem mamy do czynienia, gdy
analizowany jest wykonywany zawód (argumenty to np.: kowal, szewc, krawiec…) czy pochodzenie
społeczne (inteligenckie, chłopskie, robotnicze). Przykładami cech mierzonych w skali nominalnej
wielostanowej są także rasa, gatunek, religia. W badaniach historycznych można się spotkać z takimi
cechami nominalnymi wielostanowymi, jak: przynależność powiatu do zaboru (zabór pruski, zabór
austriacki, zabór rosyjski) czy województwo (poznańskie, mazowieckie, pomorskie...).
Dwa obiekty opisane cechami mierzonymi w skali nominalnej mogą występować względem siebie
tylko w dwóch relacjach: relacji równości – tzn. że oba obiekty odznaczają się takim samy poziomem
badanej cechy, lub relacji różności – obiekty różnią się poziomem badanej cechy. Zatem na podstawie
wartości badanej cechy wyrażonej w tej skali można stwierdzić, że dwa obiekty są sobie równe lub
różne. Jeżeli cechy badanych obiektów są mierzone w skalach nominalnych, to w takim przypadku nie
można wykonać żadnych operacji arytmetycznych z wyjątkiem zliczania tych samych przypadków
w każdej kategorii i porównywania ich liczebności. Spośród miar położenia można zastosować jedy-
nie wartość modalną, a więc wyznaczyć ten wariant mierzonej cechy, który występuje najczęściej.

3.3.2. Skala porządkowa

Jeżeli możliwe jest uporządkowanie kategorii analizowanej cechy, to mówimy że cecha jest mierzona
w skali porządkowej. Przykładem takiego pomiaru może być cecha poziom wykształcenia (z katego-
riami podstawowe, średnie, wyższe), stopień wojskowy (z kategoriami kapral, pułkownik, generał…)
lub cecha wielkość miejscowości (miasto stołeczne, wojewódzkie, powiatowe, siedziba gminy). Inne
przykłady to status społeczno-ekonomiczny czy ranking win. Kategorie cechy wyrażonej w skali po-
rządkowej to rangi, które można uporządkować rosnąco lub malejąco, czyli porangować.
Skala porządkowa jest silniejsza niż skala nominalna. W tym przypadku możliwe jest zatem zli-
czanie obserwacji w poszczególnych kategoriach oraz porządkowanie obiektów ze względu na poziom
badanej cechy. Obiekty, których cechy wyrażone są w skali porządkowej, mogą występować w relacji
równości, różności oraz relacji większości i mniejszości. W ramach tego typu cech można wyznaczyć
medianę oraz odchylenie ćwiartkowe (por. WALESIAK 1993b, s. 41-47; CHOYNOWSKI 1971, s. 26-27;
CHOJNICKI, Czyż 1973, s. 18-19).
Wiele operacji matematycznych jest jednak w ramach skali porządkowej niedozwolonych. Trudno
uzasadnić logicznie operację dodawania w tej skali, choć jest to możliwe matematycznie. Dla przykła-
3.3. Typy skal pomiarowych 37

du trudno byłoby zgodzić się ze stwierdzeniem, że kompetencje dwóch osób w stopniu pułkownika
i kaprala są tożsame z kompetencjami jednego generała (WIŚNIEWSKI 2014). W ten sposób nie jest
dozwolone również odejmowanie rang lub ich mnożenie czy dzielenie.

3.3.3. Skala przedziałowa

Jeszcze więcej możliwości arytmetycznych daje zmierzenie cechy w skali przedziałowej, inaczej
nazywanej też skalą interwałową. BŁACZKOWSKA i STANIMIR (2006, s. 17-26) podkreślają, że skala
przedziałowa jest skalą porządkową wzbogaconą o relację równości różnic i przedziałów. Pomiar jest
dokonywany na tej skali wtedy, kiedy zbiór wartości mierzonej cechy należy do liczb rzeczywistych
i można te wartości uporządkować na osi liczbowej. Skala ta nie ma naturalnego początku w zerze.
Zero jest przyjmowane arbitralnie lub na podstawie konwencji (WALESIAK 1996b, s. 22). Nie jest
więc dozwolone ani mnożenie, ani dzielenie liczb na tym poziomie pomiaru, gdyż operacje te wynika-
ją z założenia istnienia rzeczywistego punktu zerowego (WIŚNIEWSKI 1987). Przykładem zmiennych
wyrażonych w tej skali jest temperatura wyrażona w stopniach Celsjusza, wynik finansowy, wysokość
względna.
Dzięki wprowadzeniu jednostki miary można analizować relacje obiektów, których cechy zostały
wyrażone w tej skali, stosując relację równości, nierówności, większości i mniejszości, równości róż-
nic i przedziałów. Możliwe jest także wykonywanie operacji arytmetycznych, takich jak dodawanie,
odejmowanie (WALESIAK 1996b, s. 21). Spośród miar położenia (zob. tabela 3.3) dla zmiennych wy-
rażonych w skali interwałowej można wyznaczać średnią arytmetyczną. Z kolei dozwolone miary
rozproszenia to wariancja, odchylenie standardowe, odchylenie przeciętne oraz rozstęp. Marek
WALESIAK (1990) podkreśla jednak, że dla zmiennych wyrażonych w tej skali nie należy stosować
spośród miar położenia średniej geometrycznej i harmonicznej, a spośród miar rozproszenia współ-
czynnika zmienności, ponieważ miary te nie gwarantują wyników niezmiennych względem dopusz-
czalnych przekształceń na tej skali. Z kolei Mieczysław CHOYNOWSKI (1971, s. 27-29) zauważa, że
w niektórych przypadkach skale porządkowe można traktować jak skale przedziałowe, jednak tylko
przy trudnym do zweryfikowania założeniu, iż mierzona zmienna jest w populacji rozłożona normal-
nie oraz że kategorie cechy porządkowej są sobie równoważne.

3.3.4. Skala ilorazowa

Najsilniejszą skalą jest skala ilorazowa, nazywana także skalą stosunkową (CHOYNOWSKI 1971,
s. 29-30). Oprócz możliwości, jakie dawało wyrażenie zmiennej w skali interwałowej, występuje tu
równość stosunków między poszczególnymi wartościami skali. Zbiór możliwych wartości zmiennej
(cechy) należy do zbioru R+. Istnieje w tej skali naturalny punkt zerowy, który oznacza zupełny brak
mierzonej zmiennej (WALESIAK 1990 za: ACKOFF 1969 s. 240). Przykłady pomiarów cech w tej skali
to temperatura wyrażona w stopnia Kelwina, wiek, ciężar, dochody ludności, zyski czy cena, liczba
mieszkańców, wielkość armii. Specyficzną grupę zmiennych wyrażonych w tej skali stanowią typowe
dla badań demograficznych wskaźniki struktury (KURKIEWICZ 1992, s. 38-39; MŁODAK 2006,
s. 52). Taka sytuacja ma miejsce, jeżeli cały zakres charakterystyk liczbowych dotyczy jednego kon-
kretnego zjawiska społeczno-gospodarczego, np. struktury wiekowej ludności lub struktury produkcji.
Przedmiotem badania jest wtedy zróżnicowanie danej zbiorowości pod względem kształtowania się
38 3. Podstawowe zagadnienia wielowymiarowej analizy statystycznej

owego zjawiska. Wskaźniki struktury pozwalają na porównania zarówno jednostek czasu, jak
i jednostek przestrzennych.
Wprowadzenie absolutnego punktu zerowego pozwala na poszerzenie możliwości, jakie daje skala
interwałowa oraz równości stosunków pomiędzy poszczególnymi wartościami skali. W przypadku
zmiennych wyrażonych w tej skali można dokonywać operacji mnożenia i dzielenia. Spośród metod
statystyki opisowej wymienia się tutaj metody charakterystyczne dla skali przedziałowej oraz średnią
geometryczną i harmoniczną, średnią arytmetyczną kwadratową, współczynnik zmienności. Przykłady
zastosowań tych miar w badaniach historycznych przedstawił np. TOPOLSKI (1984, s. 423-430).

3.3.5. Skale pomiarowe obserwacji społeczno-gospodarczych

Świadomość skali, w której jest wyrażona dana cecha jest istotna ze względu na fakt, że na obserwa-
cjach wyrażonych w określonych skalach możliwe jest wykonanie ograniczonej liczby działań mate-
matycznych i statystycznych. Dużo więcej możliwości daje wyrażenie cech w skalach silnych. Zatem
im wyższa skala, tym więcej operacji matematycznych można przeprowadzać na obserwacjach w tych
skalach wyrażonych. Odpowiednie zestawienia przedstawiono w tabelach 3.2 oraz 3.3.
Artur LIPIETA (2000, s. 27, za: BABIŃSKI 1980, s. 47) podkreśla jednak, że podział cech ze wzglę-
du na skale pomiarowe nie zawsze jest jednoznaczny. Przykładem mogą być dochody osobiste: ich
wartość nabywcza nie zawsze jest równa wartości liczbowej. Podobne dylematy dotyczą zmiennej
wiek. Czy różnica pomiędzy 15 a 25 rokiem życia z punku widzenia doświadczenia zawodowego mo-
że być traktowana równoznacznie z dziesięcioleciem pomiędzy 35 a 45 rokiem życia? Z drugiej strony
zmienną zawód można w pewnych zakresach uznać za porządkową, a w pewnych przypadkach jako
nominalną, w zależności od przyjętej klasyfikacji. I tak podział na pracowników fizycznych
i umysłowych można uznać za zmienne wyrażone w skali porządkowej. Z kolei zmienna zawód,
w której kategoriami będą krawcy, stolarze, ślusarze, kolejarze…., uznać można za zmienną wyrażoną
w skali nominalnej.
Jak wspomniano wcześniej, stosowanie metod taksonomicznych, które należą do grupy metod
wielowymiarowych, jest uwarunkowane jednorodnością skal pomiaru zmiennych. Jednak zdarza się,
że zmienne uwzględnione w grupowaniu, wyrażone są w różnych skalach. Konieczne jest zatem ich
ujednolicenie. Z teoretycznego punktu widzenia dozwolone jest jedynie przekształcenie skal mocniej-
szych w słabsze (zob. np.: STECZKOWSKI, ZELIAŚ 1981, s. 17; POCIECHA 1986, s. 38-48). W takiej
sytuacji następuje jednak dobrowolna utrata części informacji. POCIECHA i in. (1988, s. 34) wskazują,
że postulat ten sprowadza się zwykle do transformacji cech badanych w skalę najsłabiej mierzalną. Jak
łatwo się domyślić, transformacja odwrotna jest niemożliwa. Barbara PAWEŁEK (2008, s. 52) wymie-
nia również inne rozwiązania: przeprowadzenie obliczeń osobno dla każdej grupy zmiennych wyod-
rębnionej ze względu na ich skalę pomiarową lub zignorowanie zmiennych, które występują w skali
innej od tej, w której wyrażona jest większość zmiennych. W wyjątkowych sytuacjach zmienne wyra-
żone w słabszych skalach bywają potraktowane jak zmienne wyrażone w skali ilorazowej – zostają
sztucznie wzmocnione. Takie podejście wymaga jednak uwzględnienia dodatkowych informacji
(POCIECHA 1986, s. 48-55).
3.3. Typy skal pomiarowych 39

Tabela 3.2. Podział skal pomiarowych ze względu na dopuszczalne relacje i operacje arytmetyczne

Skala Dopuszczalne relacje Dozwolone operacje arytmetyczne


nominalna równości (𝑥𝐴 = 𝑥𝐵 ) zliczanie zdarzeń
lub różności (𝑥𝐴 ≠ 𝑥𝐵 ) (liczba relacji równości i różności)
porządkowa powyższe oraz zliczanie zdarzeń
większości (𝑥𝐴 > 𝑥𝐵 ) (liczba relacji równości, różności,
lub mniejszości (𝑥𝐴 < 𝑥𝐵 ) mniejszości i większości)
przedziałowa powyższe oraz powyższe oraz
równości i różnic przedziałów dodawanie i odejmowanie
(𝑥𝐴 − 𝑥𝐵 = 𝑥𝐶 − 𝑥𝐷 )
ilorazowa powyższe powyższe oraz
oraz równości ilorazów (
𝑥𝐴
=
𝑥𝐶
) mnożenie i dzielenie
𝑥𝐵 𝑥𝐷

Źródło: CHOJNICKI, CZYŻ 1973, s. 20 za: STEVENS 1959; CHOYNOWSKI 1971, s. 31-32; WALESIAK, BĄK 2000, s. 17,
RÓSZKIEWICZ 2002, s. 134.

Tabela 3.3. Podział wybranych miar opisowych ze względu na zakres zastosowań związany ze skalami pomiaru

Miara Skala
opisowa nominalna porządkowa przedziałowa ilorazowa
położenia modalna mediana średnia arytmetyczna średnia geometryczna,
średnia harmoniczna
zmienności tablice liczebności percentyle rozstęp, współczynnik zmienności
odchylenie standardowe,
odchylenie średnie,
odchylenie ćwiartkowe
asymetrii – percentyle miary asymetrii współczynniki asymetrii

koncentracji – – miary koncentracji współczynniki koncentracji

korelacji współczynniki współczynnik współczynnik korelacji współczynniki


asocjacji korelacji rang liniowej korelacji stosunków
Źródło: PAWEŁEK 2008, s. 51 za EKONOMETRIA… 1991, s. 28-29; WALESIAK 1996b, s. 23-24.

Na ogół w badaniach społecznych i gospodarczych wykorzystuje się zmienne wyrażone w skalach


przedziałowej i ilorazowej. W tych skalach praktycznie nie występuje problem doboru technik staty-
stycznych (WALESIAK 1996b, s. 19). W badaniach historycznych, szczególnie tych opartych na róż-
nych typach źródeł, występują sytuacje, w których badacz musi się zmierzyć z informacjami ilościo-
wymi wyrażonymi w słabszych skalach. W części praktycznej przedkładanej monografii w taki spo-
sób dobrano przykłady, aby uwzględniały one tego typu sytuacje. I tak obserwacje wyrażone w skali
nominalnej są podstawą w grupowaniu zakładów rzemieślniczych we wsi Odrowąż i Waksmund
w 1970 r. Grupowanie powiatów na ziemiach polskich, tworzących w czasie drugiej wojny światowej
Kraj Warty, zostało przeprowadzone w oparciu o zmienne wyrażone w skali porządkowej. Wartości
produkcji czystej wytworzonej przez poszczególne gałęzie przemysłu uspołecznionego w latach 1956-
-1989. W pozostałych przykładach wykorzystane zostały zmienne wyrażone w skalach mocnych.
40 3. Podstawowe zagadnienia wielowymiarowej analizy statystycznej

3.4. Normalizacja zmiennych

Zastosowanie metod wielowymiarowych, a w szczególności analizy skupień, wymaga ujednolicenia


zmiennych, które pozwoliłoby na realizację szeroko zakrojonych badań porównawczych (KUKUŁA
2000, s. 80). Takie działanie nazywane jest normalizacją. Polega ona na przekształceniu danej
zmiennej w inną zmienną, o pożądanych przez badacza własnościach formalnych (BORYS 1978). Alan
J. IZENMAN (2008, s. 409) postuluje, aby w wyniku normalizacji zmienne (1) przyjęły wartości nie-
mianowane. Co więcej, normalizacja powinna prowadzić do sytuacji, w której osiągnięty zostałby
(2) ujednolicony rząd wielkości zmiennych oraz (3) unormowany zakres zmienności poszczególnych
zmiennych, dzięki czemu możliwe będzie ich porównywanie. Przejawem spełnienia tego postulatu jest
doprowadzenie do stałego rozstępu zmiennych oraz równość dolnej i górnej granicy przedziału
zmienności. Z punktu widzenia procedur wyznaczania podobieństwa między badanymi obiektami,
opisanych w kolejnych rozdziałach, ważnym postulatem normalizacji zmiennych jest także (4) brak
wartości ujemnych. Ponadto zmienne biorące udział w badaniu mogą w różny sposób oddziaływać na
badane zjawiska (BORYS 1978; GRABIŃSKI i in. 1989, s. 27; KUKUŁA 2000, s. 80- 82; 2012; JAROCKA
2015). Z tego względu wyróżnia się stymulanty, destymulanty (HELLWIG 1969) oraz dominanty
(BORYS 1978). Są one ważne, gdy celem badania jest uporządkowanie liniowe badanych obiektów
(WALESIAK 1996b, s. 24), natomiast w grupowaniu ten ostatni podział nie odgrywa już tak istotnej
roli.
Wszystkie formuły normalizacyjne będące przekształceniami liniowymi obserwacji na każdej
zmiennej zachowują skośność i kurtozę rozkładu zmiennych. Ponadto, co ważne w przypadku grupo-
wania, dla każdej pary zmiennych wszystkie formuły normalizacyjne nie zmieniają wartości współ-
czynnika korelacji liniowej Pearsona (WALESIAK 2004). Szczegółowe zestawienie formuł normaliza-
cyjnych wraz z ich charakterystykami można znaleźć w publikacji KURKIEWICZ i in. (1991, s. 41-44).
Andrzej MŁODAK (2006, s. 27) postuluje także, aby niezależnie od przyjętej procedury normalizacyj-
nej wybierać do analizy zmienne o charakterze wskaźnikowym (np. liczba pracujących w przeliczeniu
na 1000 ludności). Pozostawanie przy wartościach zmiennych w ujęciu bezwzględnym może prowa-
dzić do zafałszowanych wyników, ponieważ niektóre obiekty ze swej natury mogą charakteryzować
się wielkościami wyższymi od innych.
Spośród reguł normalizacyjnych wyróżnia się przede wszystkim standaryzację, unitaryzację
i przekształcenia ilorazowe. Dodatkowo do metod normalizacyjnych Andrzej BALICKI (2009, s. 26)
zalicza także centrowanie. Z kolei Hans J. MUCHA (2012) wymienia ponadto rangowanie, transforma-
cję logarytmiczną oraz ważenie zmiennych. Ważne jest jednak, aby wszystkie zmienne uwzględnione
w badaniu zostały znormalizowane jedną metodą. Niezależnie od doboru podejścia w efekcie normali-
zacji zmiennych powstaje macierz danych znormalizowanych 𝑿′ [3.5.]:
′ ′ ′
𝑥1;1 𝑥1;2 … 𝑥1𝑚
′ ′ ′
𝑿′ = 𝑥2;1 𝑥2;2 … 𝑥2𝑚 , [3.5]
… … … …
′ ′ ′
[ 𝑥𝑛1 𝑥𝑛2 … 𝑥𝑛𝑚 ]
gdzie:
𝑿′ – macierz danych znormalizowanych,

𝑥𝑖𝑘 – znormalizowana obserwacja k-tej zmiennej w i-tej jednostce, przy czym 𝑖 = 1, 2, … , 𝑛 oraz
𝑘 = 1, 2, … , 𝑚.
3.4. Normalizacja zmiennych 41

Dobór metody normalizacyjnej jest uzależniony przede wszystkim od skal pomiarowych,


w których wyrażone zostały zmienne rzeczywiste (PAWEŁEK 2000, s. 57; KUKUŁA 2012). Szczegóło-
wo na ten temat traktują publikacje: JAJUGA, WALESIAK (1999) oraz WALESIAK (1990, 1996a).
W przypadku skal nominalnej i porządkowej nie jest zalecane stosowanie normalizacji zmiennych
w oparciu o procedury dedykowane dla skal silnych (WALESIAK 2002a). Niemniej jednak takie próby
są podejmowane (zob. np.: KUKUŁA 2012). Natomiast przekształcenia ilorazowe są stosowane tylko
w przypadku zmiennych wyrażonych w skali ilorazowej.
Barbara PAWEŁEK (2000, s. 71-74) podkreśla, że nie ma najlepszego przekształcenia normaliza-
cyjnego, ponieważ nie ma jednego powszechnie przyjętego kryterium jego wyboru. Zestawienie for-
muł normalizacyjnych w zależności od spełnionych przez nie najważniejszych postulatów, wymienio-
nych na początku tego rozdziału, zawiera tabela 3.4. Zostaną one szczegółowo opisane w kolejnych
podrozdziałach. Należy podkreślić, że w dalszym ciągu prowadzone są badania w tym obszarze, czego
przykładem może być praca STRAHL i WALESIAKA (1997) czy JAROCKIEJ (2015).

Tabela 3.4. Stopień realizacji wybranych postulatów przez formuły normalizacyjne

Postulaty
Nazwa formuły Formuła
(1) (2) (3) (4)

′ 𝑥𝑖𝑘 − 𝑥̅𝑘 + + – –
Standaryzacja klasyczna 𝑥𝑖𝑘 =
𝑠𝑘

𝑥𝑖𝑘 − med𝑘 + + – –

Standaryzacja pozycyjna 𝑥𝑖𝑘 =
1,4826 mad𝑘

′ 𝑥𝑖𝑘 − 𝑥̅𝑘 + + – –
Unitaryzacja 𝑥𝑖𝑘 =
max 𝑖𝑘 } − min{𝑥𝑖𝑘 }
{𝑥
𝑖 𝑖

𝑥𝑖𝑘 − min{𝑥𝑖𝑘 } + + + +
′ 𝑖
Unitaryzacja zerowana 𝑥𝑖𝑘 =
max{𝑥𝑖𝑘 } − min{𝑥𝑖𝑘 }
𝑖 𝑖


𝑥𝑖𝑘 + + – +
Przekształcenia ilorazowe 𝑥𝑖𝑘 =
𝑥̅𝑘

′ 𝑥𝑖𝑘 + + – +
𝑥𝑖𝑘 =
𝑠𝑘

′ 𝑥𝑖𝑘 + + – +
𝑥𝑖𝑘 =
min{𝑥𝑖𝑘 }
𝑖


𝑥𝑖𝑘 + + – +
𝑥𝑖𝑘 =
max{𝑥𝑖𝑘 }
𝑖


𝑥𝑖𝑘 + + – +
𝑥𝑖𝑘 =
max{𝑥𝑖𝑘 } − min{𝑥𝑖𝑘 }
𝑖 𝑖

′ 𝑥𝑖𝑘 + + – +
𝑥𝑖𝑘 = 𝑛
∑𝑖=1 𝑥𝑖𝑘


𝑥𝑖𝑘 + + – +
𝑥𝑖𝑘 =
∑𝑛𝑖=1 𝑥𝑖𝑘
2

(1) wartości niemianowane, (2) ujednolicony rząd wielkości, (3) unormowany zakres zmienności, (4) wartości nieujemne.
Przekształcenia ilorazowe można stosować tylko dla zmiennych wyrażonych w skali ilorazowej.
Źródło: obliczenia własne na podstawie: JAROCKA 2015 za WALESIAK 2011, s. 19; KUKUŁA 2000, s. 79-81.
42 3. Podstawowe zagadnienia wielowymiarowej analizy statystycznej

Co ważne, do procesu normalizacji należy podchodzić ostrożnie, ponieważ ma ona znaczący


wpływ na wyniki badań empirycznych poprzez relacje zachodzące pomiędzy parametrami opisowymi
rzeczywistych i przekształconych zmiennych diagnostycznych. Wybór formuły normalizacyjnej nale-
ży połączyć z wyborem algorytmu grupowania. Z analiz prezentowanych w literaturze wynika, że
najlepsze własności formalne mają: klasyczna metoda standaryzacji oraz metoda unitaryzacji
(TAKSONOMIA STRUKTUR… 1998, s. 64). Z kolei KUKUŁA (2010) oraz JAROCKA (2015) w swoich
badaniach rekomendują unitaryzację zerowaną.

3.4.1. Standaryzacja

Standaryzacja zmiennych, nazywana również standaryzacją klasyczną, jest jedną z najczęściej sto-
sowanych metod normalizacji (TAKSONOMIA STRUKTUR… 1998, s. 63). Stosowali ją w badaniach
PERKAL (1953a, 1953b), HELLWIG (1968), BERRY (1961), CZYŻ (1971, s. 19). Szczegółową charakte-
rystykę tego podejścia można znaleźć w pracy Juliana PERKALA (1953a, 1953b). CHOJNICKI i CZYŻ
(1973, s. 22) zauważają, że opracowanie danych polega na przyporządkowaniu zmiennym pierwotnym
zmiennych standaryzowanych. Taka transformacja polega na wyrażeniu wartości danej zmiennej
w liczbie odchyleń standardowych dzielących je od średniej arytmetycznej. Zależność tę można
przedstawić za pomocą wzoru:
′ 𝑥𝑖𝑘 − 𝑥̅𝑘
𝑥𝑖𝑘 = , 𝑠𝑘 ≠ 0, [3.6]
𝑠𝑘
gdzie:

𝑥𝑖𝑘 – znormalizowana wartość 𝑘-tej zmiennej 𝑖-tej jednostki,
𝑥𝑖𝑘 – początkowa wartość 𝑘-tej zmiennej 𝑖-tej jednostki, przy czym 𝑖 = 1, 2, … , 𝑛,
𝑥̅𝑘 – średnia wartość 𝑘-tej zmiennej po wszystkich jednostkach,
𝑠𝑘 – odchylenie standardowe 𝑘-tej zmiennej po wszystkich jednostkach.

CHOJNICKI i CZYŻ (1973, s. 22-23) podkreślają, że standaryzacja zmiennych pozwala porówny-


wać poszczególne wartości z punktu widzenia ich relatywnego położenia w ramach danego rozkładu.
Porównania takie można przeprowadzać nawet wtedy, gdy wartości danych wyjściowych są różno-
imienne, ponieważ wartości zmiennych standaryzowanych zawsze są wielkościami niemianowanymi.
Standaryzacja, przekształcając równocześnie dane do postaci lepiej aproksymującej krzywą normalną,
ma istotne znaczenie w przypadku stosowania metod statystycznych, w których zakłada się normal-
ność rozkładu częstości. Zatem mimo trywialności i powszechności stosowania tej metody normaliza-
cji nie należy tego sposobu stosować w przypadku podejrzenia braku normalności rozkładu zmiennych
podlegających badaniu.
W przypadku standaryzacji uzyskujemy zmienne przekształcone, których średnia wynosi zero,
a odchylenie standardowe jest równe jedności. Naturalne jest zatem, że wśród wartości zmiennych
pojawiają się również wartości ujemne. Co więcej, w wyniku standaryzacji następuje nie tylko ujedno-
licenie wartości przeciętnej i rzędu wielkości, ale i zmienności zmiennych. Tego typu standaryzacja
powoduje „przejście” przekształcanej cechy ze skali ilorazowej (jeśli w takiej była) w skalę przedzia-
łową (WALESIAK 1990).
W przypadku, gdy w zbiorze cech występują takie, które charakteryzują się silną asymetrią lub
występowaniem obserwacji odstających, należy zastosować wariant standaryzacji pozycyjnej (LIRA
i in. 2002):
3.4. Normalizacja zmiennych 43

′ 𝑥𝑖𝑘 − med𝑘
𝑥𝑖𝑘 = , mad𝑘 ≠ 0, [3.7]
1,4826 mad𝑘
gdzie:

𝑥𝑖𝑘 – znormalizowana wartość 𝑘-tej zmiennej 𝑖-tej jednostki,
𝑥𝑖𝑘 – początkowa wartość 𝑘-tej zmiennej 𝑖-tej jednostki, przy czym 𝑖 = 1, 2, … , 𝑛,
med𝑘 – mediana 𝑘-tej zmiennej po wszystkich jednostkach,
mad𝑘 – medianowe odchylenie bezwzględne 𝑘-tej zmiennej: mad𝑘 = med(|𝑥𝑖𝑘 − med𝑘 |).

Należy podkreślić, że standaryzacja klasyczna i pozycyjna daje porównywalne wartości, jeśli roz-
kład zmiennej jest symetryczny. W przypadku wystąpienia asymetrii standaryzacja pozycyjna jest
bardziej wiarygodna.

3.4.2. Unitaryzacja zmiennych

Metody unitaryzacyjne charakteryzują się przyjęciem stałego punku odniesienia, który stanowi rozstęp
zmiennej normowanej (KUKUŁA 2000, s. 86). Najbardziej znane podejście w grupie metod funkcjonu-
jących pod tą nazwą prezentuje wzór:

′ 𝑥𝑖𝑘 − 𝑥̅𝑘
𝑥𝑖𝑘 = , max{𝑥𝑖𝑘 } ≠ min{𝑥𝑖𝑘 } [3.8]
max{𝑥𝑖𝑘 } − min{𝑥𝑖𝑘 } 𝑖 𝑖
𝑖 𝑖
gdzie:

𝑥𝑖𝑘 – znormalizowana wartość 𝑘-tej zmiennej 𝑖-tej jednostki,
𝑥𝑖𝑘 – początkowa wartość 𝑘-tej zmiennej 𝑖-tej jednostki, przy czym 𝑖 = 1, 2, … , 𝑛,
𝑥̅𝑘 – średnia wartość 𝑘-tej zmiennej po wszystkich jednostkach,
max{𝑥𝑖𝑘 } – maksymalna wartość 𝑘-tej zmiennej po wszystkich jednostkach,
𝑖
min{𝑥𝑖𝑘 } – minimalna wartość 𝑘-tej zmiennej po wszystkich jednostkach.
𝑖

Przeprowadzona w ten sposób unitaryzacja powoduje, że wartości zmiennych unormowanych ma-


ją stały rozstęp równy jeden. Zmienne znormalizowane formułą [3.8] mogą jednak przyjmować za-
równo wartości dodatnie, jak i ujemne (KUKUŁA 2000, s. 89-90; BALICKI 2009, s. 258). To dowodzi,
że unitaryzacja, podobnie jak standaryzacja, powoduje „przejście” przekształcanej cechy ze skali ilo-
razowej (jeśli w takiej była) w skalę przedziałową (WALESIAK 1990; 1993b, s. 41).
Inny wariant tej metody normalizacyjnej to unitaryzacja zerowana (KUKUŁA 2000, s. 91-92;
WALESIAK 2004). Tym razem transformacja zmiennych polega na tym, że przez rozstęp dzielona jest
odległość danej wartości od zaobserwowanej wartości „najgorszej”:

𝑥𝑖𝑘 − min{𝑥𝑖𝑘 }
′ 𝑖
𝑥𝑖𝑘 = , max{𝑥𝑖𝑘 } ≠ min{𝑥𝑖𝑘 } [3.9]
max{𝑥𝑖𝑘 } − min{𝑥𝑖𝑘 } 𝑖 𝑖
𝑖 𝑖

gdzie oznaczenia są analogiczne jak we wzorze [3.8].

W formule tej wartość zerowa jest określona na poziomie wartości minimalnej, a zmienne unor-
mowane przyjmują wartości z przedziału [0; 1]. Andrzej SOKOŁOWSKI (1998) proponuje, aby zamiast
wartości maksymalnych i minimalnych w unitaryzacji zastosować naturalne punkty referencyjne. Przy
44 3. Podstawowe zagadnienia wielowymiarowej analizy statystycznej

zmiennych wyrażanych w procentach mogłyby to być wartości 0 oraz 100 (por. TAKSONOMIA…
1998, s. 64).
Unitaryzacja zerowana została zastosowana w pracy CHOJNICKIEGO i CZYŻ (1973, s. 43)
w badaniach regionalnych dotyczących 328 powiatów. Podejście to znaleźć można również w pracy
SIEDLECKIEJ (1990), dotyczącej wyposażenia gospodarstw domowych w dobra trwałe oraz NIEMCZYK
(2001) badającej poziom rozwoju społecznego w nowych województwach Polski w 1999 r. Unitary-
zację zerowaną zastosowała także NOWAK (2004, s. 65) w badaniach potencjału przestrzennego.

Przykład obliczeniowy: normalizacja zmiennych


Przykładowe obliczenia zostały przedstawione w odniesieniu dla każdej z zaproponowanych czte-
rech metod normalizacji zmiennych (wzory [3.6]-[3.9]). W tym celu wykorzystano dane dotyczące
gęstości zaludnienia w poszczególnych powiatach departamentu poznańskiego Księstwa Warszaw-
skiego w 1810 r., przedstawione w tabeli 1 Aneksu A. Szczegółowe obliczenia dla tej jednej zmiennej
zawarto w tabeli 3.5. Jeżeli taka sama procedura zostanie przeprowadzona w odniesieniu do pozosta-
łych zmiennych uwzględnionych w badaniu, to można zbudować macierz zmiennych znormalizowa-
nych. Przykład takiej macierzy, która powstała po zastosowaniu unitaryzacji zerowanej (por. wzór
[3.9]) dla pozostałych zmiennych uwzględnionych w tym przykładzie zaprezentowano poniżej:
0,67 1,00 0,00 0,25 0,93 0,00 0,00 0,00 0,32 0,61 1,00
1,00 0,99 0,18 0,25 0,83 0,35 0,44 0,25 0,46 0,56 0,12
0,00 0,87 0,36 0,31 1,00 0,56 0,65 0,46 0,09 0,85 0,98
0,68 0,77 0,55 0,36 0,76 0,54 0,54 0,55 0,74 0,23 0,45
0,27 0,77 0,45 0,19 0,39 0,37 0,44 0,30 0,00 1,00 0,49
0,16 0,59 0,55 0,14 0,88 0,43 0,47 0,39 0,42 0,50 1,00
0,37 0,46 0,27 1,00 0,00 0,19 0,26 0,12 0,79 0,20 0,27
𝑿′ = . [3.10]
0,52 0,45 0,45 0,14 0,63 0,53 0,61 0,46 0,85 0,13 0,27
0,20 0,39 1,00 0,19 0,63 0,25 0,24 0,25 0,81 0,19 0,12
0,44 0,34 0,91 0,08 0,32 0,65 0,69 0,60 0,91 0,01 0,80
0,23 0,31 1,00 0,00 0,17 1,00 1,00 1,00 0,83 0,14 0,33
0,44 0,13 0,55 0,22 0,56 0,47 0,58 0,36 1,00 0,00 0,04
0,22 0,02 0,64 0,14 0,66 0,56 0,67 0,45 0,98 0,02 0,08
[0,03 0,00 0,82 0,22 0,85 0,42 0,45 0,39 0,81 0,21 0,00]
Tabela 3.5. Przykłady obliczeń normalizacyjnych dla zmiennej opisującej gęstość zaludnienia w poszczególnych powiatach departamentu poznańskiego w 1810 r.

Gęstość Obliczenia pomocnicze*


Standaryzacja Standaryzacja Unitaryzacja
Powiat zaludnienia Unitaryzacja
[tys./1 milę2] (𝑥𝑖1 − 𝑥̅1 )2 |𝑥𝑖1 − med𝑘1 | klasyczna pozycyjna zerowana

(2,24 − 1,749)2 |2,24 − 1,662| 2,24 − 1,749 2,24 − 1,662 2,24 − 1,749 2,24 − 1,134
Wschowa 2,240 = 1,121 = 0,253 = 0,298 = 0,672
= 0,241 = 0,579 0,438 1,4826 ∗ 1,542 2,78 − 1,134 2,78 − 1,134

Krobia 2,780 1,064 2,780 2,353 0,489 0,626 1,000


Międzyrzecz 1,134 0,379 1,134 –1,404 -0,231 -0,374 0,000
Krotoszyn 2,248 0,249 2,248 1,138 0,257 0,303 0,677
Babimost 1,578 0,029 1,578 –0,391 -0,037 -0,104 0,270
Oborniki 1,401 0,121 1,401 –0,793 -0,114 –0,211 0,162
Kościan 1,745 0,000 1,745 -0,009 0,037 –0,002 0,371
Śrem 1,994 0,060 1,994 0,559 0,145 0,149 0,522
Gniezno 1,457 0,085 1,457 –0,666 –0,089 –0,177 0,196
Pyzdry 1,858 0,012 1,858 0,248 0,086 0,066 0,440
Powidz 1,506 0,059 1,506 –0,554 –0,068 –0,147 0,226
Środa 1,858 0,012 1,858 0,249 0,086 0,066 0,440
Poznań 1,501 0,061 1,501 –0,565 –0,070 –0,150 0,223
Wągrowiec 1,186 0,318 1,186 –1,286 –0,208 –0,342 0,031
suma 24,487 2,690
min 1,134 –1,404 –0,231 –0,374 0,000
max 2,780 2,353 0,489 0,626 1,000
rozstęp 3,757 0,720 1,000 1,000

24,487 2,690
min{𝑥𝑖1 } = 1,134; med1 = 1,662; max{𝑥𝑖1 } = 2,780; 𝑥̅1 = = 1,749, 𝑠1 = √ = 0,438, mad1 = 1,542
1 1 14 14

* Chcąc obliczyć wartość bezwzględną z różnicy, można wykorzystać dostępną w programie EXCEL funkcję MODUŁ.LICZBY().
Źródło: obliczenia własne na podstawie macierzy danych zawartych danych zawartych w tabeli 1 aneksu A.
46 3. Podstawowe zagadnienia wielowymiarowej analizy statystycznej

3.4.3. Przekształcenia ilorazowe

Kolejna grupa metod normalizacyjnych to przekształcenia ilorazowe. Mogą one być stosowane tylko
dla zmiennych wyrażonych w skali ilorazowej (WALESIAK 1990, 1996a). Tego typu przekształcenie
zostało przeprowadzone w badaniach STONE (1960, 1970, s. 179-194) oraz w pracach
LICZKOWSKIEGO (1961), BARTOSIEWICZ (1976), PODOLEC i ZAJĄCA (1978), STRAHLA (1978)
i NOWAKA (1979), Własności przekształceń ilorazowych zostały kompleksowo opisane w pracy
KUKUŁY (2000, s. 92-104).
W przypadku przekształcenia ilorazowego, w zależności od przyjętych założeń, wartość zmiennej
dzielona jest przez wartość maksymalną, minimalną, średnią lub inną. Jeżeli punkt odniesienia przyj-
muje wartość zero, to zastosowanie przekształcenia ilorazowego do normalizacji zmiennych jest nie-
możliwe (TAKSONOMIA STRUKTUR… 1998, s. 63):

′ 𝑥𝑖𝑘
𝑥𝑖𝑘 = , 𝑥0𝑘 ≠ 0
𝑥0𝑘

𝑥0𝑘 = 𝑥̅𝑘 lub 𝑥0𝑘 = 𝑠𝑘 , lub 𝑥0𝑘 = min{𝑥𝑖𝑘 } , lub 𝑥0𝑘 = max{𝑥𝑖𝑘 },
𝑖 𝑖 [3.11]
𝑛 𝑛
2
lub 𝑥0𝑘 = max{𝑥𝑖𝑘 } − min{𝑥𝑖𝑘 }, lub 𝑥0𝑘 = ∑ 𝑥𝑖𝑘 , lub 𝑥0𝑘 = ∑ 𝑥𝑖𝑘
𝑖 𝑖
𝑖=1 𝑖=1
gdzie:

𝑥𝑖𝑘 – znormalizowana wartość 𝑘-tej zmiennej 𝑖-tej jednostki,
𝑥𝑖𝑘 – początkowa wartość 𝑘-tej zmiennej 𝑖-tej jednostki, przy czym 𝑖 = 1, 2, … , 𝑛,
𝑥̅𝑘 – średnia wartość 𝑘-tej zmiennej po wszystkich jednostkach,
𝑠𝑘 – odchylenie standardowe 𝑘-tej zmiennej po wszystkich jednostkach,
max{𝑥𝑖𝑘 } – maksymalna wartość 𝑘-tej zmiennej po wszystkich jednostkach,
𝑖
min{𝑥𝑖𝑘 } – minimalna wartość 𝑘-tej zmiennej po wszystkich jednostkach.
𝑖
∑𝑛𝑖=1 𝑥𝑖𝑘 – suma wartości 𝑘-tej zmiennej po wszystkich jednostkach.
∑𝑛𝑖=1 𝑥𝑖𝑘
2
– suma kwadratów wartości 𝑘-tej zmiennej po wszystkich jednostkach.

Taka transformacja zmiennych prowadzi do nowej zmiennej, która jest niemianowana o wariancji
równej jeden. Przekształcenia tego typu prowadzą zatem do ujednolicenia wariancji, lecz nie wyrów-
nują położenia rozkładu zmiennej (BALICKI 2009, s. 256-257). Co więcej, należy podkreślić, że prze-
kształcenie ilorazowe wymaga dodatkowej interwencji, gdy punkt odniesienia przyjmuje wartość
ujemną. Wtedy znormalizowanym wartościom zmiennych należy zmienić znak dla zachowania ich
dotychczasowego charakteru (TAKSONOMIA STRUKTUR… 1998, s. 63). Niezależnie jednak od przyję-
tej podstawy dane uzyskane w wyniku przekształceń ilorazowych przyjmują charakter strukturalny.
Dzięki temu możliwe staje się przeprowadzenie porównań podobieństwa lub niepodobieństwa
struktur.
WALESIAK (2004) zwraca uwagę, że przekształcenie ilorazowe z podstawą równą rozstępowi1 za-
pewnia znormalizowanym wartościom cech zróżnicowaną zmienność (mierzoną odchyleniem stan-
dardowym) i jednocześnie stały rozstęp dla wszystkich zmiennych. Z kolei efektem przekształcenia

1 Takimi samymi własnościami charakteryzuje się również opisana wyżej unitaryzacja oraz unitaryzacja zerowana.
3.4. Normalizacja zmiennych 47

ilorazowego2 z podstawą równą odchyleniu standardowemu jest ujednolicenie zmienności cech. Ozna-
cza to wyeliminowanie zmienności jako podstawy różnicowania obiektów. Natomiast przekształcenia
ilorazowe z podstawą normalizacji równą maksimum oraz równą pierwiastkowi z sumy kwadratów
zapewniają znormalizowanym wartościom cech zróżnicowaną zmienność, średnią arytmetyczną oraz
rozstęp (WALESIAK 2004). Przekształcenia ilorazowe, z podstawą normalizacji równą sumie i średniej
arytmetycznej zmiennych, zapewniają znormalizowanym wartościom cech zróżnicowaną zmienność
oraz rozstęp, a także stałą średnią arytmetyczną dla wszystkich zmiennych.
W analizach szeregów czasowych lub przekrojowo czasowych, w których wykorzystywane są
zmienne wyrażone wartościowo, powstaje konieczność doprowadzenia ich do porównywalności po-
przez uwzględnienie np. kursów walut czy poziomu inflacji (PAWEŁEK 2008, s. 60-64). Głównym
celem takich działań jest urealnienie poziomów dochodów i wydatków, które w konsekwencji pozwo-
liłoby na porównywalność danych zebranych w różnych okresach. W tym celu możliwe jest zastoso-
wanie wskaźników dynamiki (zob. np.: SOBCZYK 1997, s. 269-321; ZELIAŚ i in. 2002, s. 174-245) lub
wartości zmiennych skorygowanych o wskaźnik inflacji czy wartość kursu walutowego. Należy zau-
ważyć, że nawet jeśli badacz dysponuje wiarygodnymi wskaźnikami inflacji, to są one uogólnione do
danego roku i danego państwa. Wiadomo jednak, że wzrost cen w różnych gałęziach gospodarki prze-
biega na różnym poziomie. Podobnie ma się sytuacja w przypadku korekty opartej o kursy walutowe.
Przy takich ograniczeniach użyteczne są własności przekształceń ilorazowych. W badaniach histo-
rycznych szczególnie znaczenie odgrywa metoda polegająca na urealnianiu wartości nominalnych,
będących składnikami pewnego agregatu, przez obliczenie ich udziałów w badanej strukturze
(PAWEŁEK 2004). Wyznaczenie udziałów w pewnym agregacie (np. udział kobiet w ludności ogółem,
udział chrześcijan w ludności ogółem…) jest tożsame z ilorazowym przekształceniem normalizacyj-
nym z podstawą równą sumie zmiennych dla wszystkich jednostek biorących udział w badaniu
(PAWEŁEK 2008, s. 61). W efekcie takiego działania otrzymuje się wartości niemianowane
o ujednoliconym zakresie zmienności. Wartości znormalizowane zawierają się w przedziale od [0, 1].
W takiej sytuacji można przeprowadzać porównania przestrzenne, w sposób bezpośredni interpretując
wielkość udziału poszczególnych składników struktury. Wybór przekształcenia ilorazowego jako spo-
sobu normalizacji pozwala także na porównania w czasie. W takim wypadku porównania dotyczą
zmian udziałów w różnej wielkości agregatach. Grupowanie tak zdefiniowanych jednostek pozwala
zatem na opis struktury gospodarczej lub opis struktury społecznej (por. STRAHL 1990, s. 74-75).
W rocznikach statystycznych dane zestawione są często w formie wskaźników udziału w danej
zbiorowości: cały zakres charakterystyk liczbowych dotyczy jednego zjawiska społeczno-
gospodarczego, np. liczba ludności wg wieku. Dzięki temu wszystkie zmienne stanowią część struktu-
ry badanych obiektów lub bezpośrednio prowadzą do ich wyznaczenia. W efekcie przyjmują one war-
tości z przedziału [0; 1] i sumują się do jedności. Tego typu zmienne są zatem z definicji unormowa-
ne – standaryzacja ilorazowa została przeprowadzona wcześniej. Zazwyczaj oprócz tej specyficznej
budowy macierzy obserwacji zmienne strukturalne podlegają takim samy procedurom (zob. np.
MŁODAK 2006, s. 53-57, TAKSONOMIA… 1998, s. 45-56).

2 Podobnie jak standaryzacji.


48 3. Podstawowe zagadnienia wielowymiarowej analizy statystycznej

3.4.4. Kodowanie i normalizacja zmiennych wyrażonych w skali porządkowej

W przypadku zmiennych wyrażonych w skali porządkowej nie jest możliwe przeprowadzanie opisanej
wyżej standaryzacji czy unitaryzacji zmiennych. Jednak porównanie wielowymiarowe obiektów opi-
sanych za pomocą tego typu zmiennych przysparza trudności wynikających z różnej liczby i typu rang
przypisanych do różnych zmiennych. Ze względów obliczeniowych należy wybrać także taki sposób
zapisu, aby możliwe było przeprowadzenie dozwolonych operacji matematycznych (por. tabelę 3.2).
Zatem w przypadku zmiennych wyrażonych w skali porządkowej konieczne jest przeprowadzenie
kodowania oraz w niektórych przypadkach normalizacji.
Istnieje kilka podejść do tego problemu. W literaturze zdarza się, że badacze sprowadzają zmienne
wyrażone w skali porządkowej do skali dychotomicznej, dla której dostępnych jest więcej opracowań
i rozwiązań metodycznych, a operacje matematyczne na nich przeprowadzane są prostsze. Wiąże się
to jednak z utratą części informacji oraz subiektywną decyzją badacza, które kategorie uogólnić do
wartości zero, a które do wartości jeden. Inne podejście polega na zastąpieniu zapisu „200-400” war-
tościami stanowiącymi środek danego przedziału (SOBCZYK 1997, s. 32). Dużym plusem tego rozwią-
zania jest zachowanie odległości pomiędzy środkami przedziałów. Niemniej jednak zwykle przyspa-
rza trudności wyznaczenie środka przedziału w przypadku przedziałów brzegowych, gdy nie ma jasno
określonego początku lub końca przedziału, np.: „>40” lub „<5”.
Wydaje się, że najprostszym rozwiązaniem wspomnianego problemu jest przypisanie wartościom
porządkowym kolejnych liczb naturalnych. To podejście skłania do przeprowadzania na tak zakodo-
wanych zmiennych niedozwolonych dla tej skali operacji matematycznych. Mimo to należy pamiętać,
aby przez takie działania nie wzmocnić skali pomiarowej, co – jak wspomniano wcześniej – jest za-
biegiem niedopuszczalnym. W przypadku zmiennych (nawet zakodowanych liczbowo) wyrażonych
w skali porządkowej dozwolone jest jedynie zliczanie zdarzeń i relacji (por. tabelę 3.2). Wspomniane
kodowanie jest dość często stosowane w przypadku badań regionalnych (por. PLIT 1979).
Co więcej, część autorów dąży do tego, aby zmienne niezależnie od liczby kategorii zostały unor-
mowane. W tym przypadku możliwa jest implementacja rozwiązania, które zaproponowała
ZAKRZEWSKA (1987), powołując się na STEINHAUSENA i LANGERA (1977):
′ 𝑟𝑖𝑘
𝑥𝑖𝑘 = , [3.12]
𝑟𝑘
gdzie:

𝑥𝑖𝑘 – znormalizowana wartość 𝑘-tej zmiennej 𝑖-tej jednostki,
𝑟𝑖𝑘 – ranga 𝑘-tej zmiennej 𝑖 -tej jednostki,
𝑟𝑘 – ilość rang wyodrębnionych w ramach 𝑘-tej zmiennej.

Po zastosowaniu wzoru [3.12] wszystkie wartości zmiennych znormalizowanych znajdą się


w przedziale [0; 1]. Fakt ten ma szczególne znaczenie ze względu na konieczność wyznaczenia
w kolejnym etapie badań podobieństwa pomiędzy uwzględnionymi w badaniu obiektami wielowymia-
rowymi. Jeżeli zmienne znormalizowane przyjmują wartości jeden, to oznacza, że znajdowały się one
w kategoriach najwyższych badanej zmiennej. Z kolei niskie wartości zmiennych znormalizowanych,
świadczą o tym, że zmienna ta znajdowała się w najsłabszych kategoriach danej zmiennej. Procedurę
tę zastosowano w przykładzie dotyczącym rolnictwa na ziemiach polskich, które w czasie drugiej
wojny światowej tworzyły Kraj Warty. Inne rozwiązania w przypadku zmiennych wielostanowych
przedstawił także FALNIOWSKI (2003, s. 42).
4
Miary podobieństwa i niepodobieństwa

Punktem wyjścia w porównaniach wielowymiarowych jest określenie podobieństwa pomiędzy jednost-


kami opisanymi przez wiele zmiennych. DOMAŃSKI (1964) stwierdza, że podobieństwo może być ro-
zumiane szeroko, nie tylko w sensie przestrzennym, lecz również czasowym i ekonomicznym. Dzięki
zastosowaniu odpowiednich miar podobieństwa lub niepodobieństwa możliwe jest wyrażenie za po-
mocą wielkości skalarnej (jednej liczby) odmienności dwóch badanych obiektów, uwzględniając jed-
nocześnie wartości wszystkich opisujących te obiekty zmiennych.
W literaturze funkcjonuje wiele propozycji zarówno miar odległości, jak i podobieństwa. Ich wybór
zależy przede wszystkim od skali, w której zostały wyrażone zmienne opisujące grupowane obiekty.
Kluczowe znaczenie przy doborze miar podobieństwa ma również podstawa grupowania. Inne miary
stosowane są dla obiektów wielowymiarowych, struktur, inne dla zmiennych (KOZIELECKI 1971, s 31-
-33; BRZEZIŃSKI 1980, s. 114-120; ZAKRZEWSKA 1987, s. 213; WALESIAK 1996b, s. 23; STECZKOWSKI,
ZELIAŚ 1997, s. 195-200].
Wyróżnia się trzy podstawowe grupy wskaźników w porównaniach wielowymiarowych: miary od-
ległości, miary podobieństwa i współczynniki korelacji (CHOJECKI, CZYŻ 1973, s. 37; PODOLEC, SZY-
MANOWICZ 1984). Miary odległości (oznaczone jako 𝑑𝑖𝑗 ) są miarami zróżnicowania – niepodobień-
stwa. Zatem im mniejsza ich wartość, uzyskana w wyniku porównania zmiennych opisujących dwa
obiekty, tym większe podobieństwo obiektów. Z kolei miary podobieństwa (oznaczone jako 𝑠𝑖𝑗 ) na-
leży interpretować w ten sposób, że większe ich wartości świadczą o większym podobieństwie, a więc
odwrotnie niż miary odległości. Im bardziej podobne są do siebie obiekty, tym mniej się od siebie różnią
(BALICKI 2009, s. 222). Natomiast współczynniki korelacji (oznaczone jako 𝑟𝑖𝑗 ) są de facto miarami
podobieństwa, jednak ze względu na zakres wartości, które mogą przyjmować [−1; 1] oraz przezna-
czenie – zwykle służą jako miara podobieństwa zmiennych – stanowią oddzielną grupę wskaźników.
Odmienna interpretacja miar odległości oraz podobieństwa i korelacji powoduje, że konieczne jest
ich przekształcanie (por. WIERZCHOŃ, KŁOPOTEK 2015, s. 32). Jest ono ważne szczególnie w przy-
padku, gdy miary te mają znaleźć zastosowanie w grupowaniu obiektów lub zmiennych. W praktyce
w metodach taksonomicznych dużo częściej stosowane są miary odległości (zob. np.: PODOLEC, SZY-
MANOWICZ 1984) i w tym kierunku jest zwykle przygotowane oprogramowanie statystyczne. Z tego
powodu w opracowaniu zaprezentowano podejście, w którym miary podobieństwa i korelacji prze-
kształcane są w miary odległości.
Należy pamiętać także, że każda próba zastosowania wybranej miary podobieństwa dla obiektów
scharakteryzowanych przez przyjęty zbiór zmiennych powinna być poprzedzona sformułowaniem za-
łożeń dotyczących pożądanych własności tego miernika. W szczególności należy określić, czy poszcze-
gólne zmienne (jednostki czasu bądź obiekty) mają być traktowane równoprawnie, czy też powinno się
niektórym z nich przypisywać większą wagę (PODOLEC, SZYMANOWICZ 1984). Co więcej, EVERITT
(1980, s. 11-12) zwraca uwagę, że wybór miary podobieństwa powinien być ostrożny, ponieważ ma on
bezpośredni wpływ na wynik grupowania (por. PAWEŁEK 2008, s. 94-106, 156-160).
50 4. Miary podobieństwa i niepodobieństwa

Z tych względów w rozdziale tym osobno zostały scharakteryzowane miary niepodobieństwa sto-
sowane w przypadku, gdy obiekty zostały opisane zmiennymi wyrażonymi w różnych skalach, oraz
rozwiązania stosowane w badaniach przestrzennych i dynamicznych. Należy podkreślić, że przedsta-
wione miary w żadnym obszarze nie wyczerpują szerokiego wachlarza miar znanych w literaturze. Nie-
mniej jednak wydaje się, że ze względu różnorodny charakter analizowanych zagadnień historycznych
jest on wystarczający, a zainteresowanym szerzej tematem pomoże przytaczana w poszczególnych pod-
rozdziałach literatura.

4.1. Miary odległości

Zasadniczą grupę miar niepodobieństwa stanowią współczynniki odległości. Jeżeli odległość między
obiektami jest bliska zeru, to obiekty są do siebie podobne. Wraz ze wzrostem mierzonej odległości
wzrasta „niepodobieństwo” obiektów (LIPIETA 2000, s. 29-30). Pojęcie odległości pomiędzy punktami
wielowymiarowymi – opisanymi wieloma zmiennymi – z rachunkowego punktu widzenia oparto na
założeniach geometrii analitycznej. W tym znaczeniu rozważa się odległości między punktami
w 𝑚-wymiarowej przestrzeni euklidesowej. Wymiar tej przestrzeni jest zatem równy liczbie zmiennych
opisujących porównywane obiekty (CHOJNICKI, CZYŻ 1973, s. 37; GUZIK 1989; BALICKI 2009, s. 214).
Ponadto przestrzeń cech jest przestrzenią metryczną. Oznacza to, że dowolnej parze punktów (𝑥𝑖 ; 𝑥𝑗 )
można przypisać nieujemną liczbę 𝑑𝑖𝑗 , zwaną odległością między tymi punktami. Im mniejsza wartość
odległości tym większe podobieństwo jednostek.
Odległość metryczna pomiędzy punktami (nazywana również metryką), spełnia kilka warunków
(WYDYMUS 1988; BALICKI 2009, s. 214). Odległość miedzy dwiema jednostkami nie może być ujemna.
Warunek ten znany jest jako warunek nieujemności i można go zapisać następująco:

𝑑𝑖𝑗 ≥ 0 ⇔ 𝑥𝑖 ≠ 𝑥𝑗 . [4.1]
Odległość między jednostkami jest równa zeru wtedy i tylko wtedy, gdy jednostki te są identyczne.
Z pomocą odległości metrycznej nie można zatem rozróżnić jednostek identycznych, natomiast jed-
nostki nieidentyczne są przez metrykę rozróżniane. Warunek ten – warunek identyczności – można
zapisać w formie równania:
𝑑𝑖𝑗 = 0 ⇔ 𝑥𝑖 = 𝑥𝑗 . [4.2]
Z kolei warunek symetrii głosi, że odległość między 𝑖-tą jednostką a jednostką 𝑗-tą, jest taka sama jak
odległość pomiędzy jednostką 𝑗-tą a jednostką 𝑖-tą, a więc liczona w przeciwnym kierunku:
𝑑𝑖𝑗 = 𝑑𝑗𝑖 . [4.3]

Natomiast warunek trójkąta – oznacza, że suma odległości pomiędzy 𝑖-tą jednostką a jednostką 𝑗-tą
(𝑑𝑖𝑗 ) oraz odległości pomiędzy jednostką 𝑗-tą a jednostką 𝑙-tą (𝑑𝑗𝑙 ) nie jest mniejsza od odległości po-
między jednostką 𝑖-tą oraz jednostką 𝑙-tą (𝑑𝑖𝑙 ):
𝑑𝑖𝑙 ≤ 𝑑𝑖𝑗 + 𝑑𝑗𝑙 . [4.4]

Zatem dla każdej pary jednostek wielowymiarowych możliwe jest wyznaczenie odległości między
nimi. Ich zestawienie tworzy macierz odległości 𝑫 o wymiarze (𝑛 × 𝑛). Wymiar tej macierzy jest zatem
zgodny z liczbą jednostek. Macierz odległości zawiera uporządkowane odległości pomiędzy każdą jed-
nostką a pozostałymi jednostkami w przestrzeni zmiennych.
4.1. Miary odległości 51

0 𝑑1;2 ⋯ 𝑑1𝑛
𝑑 0 ⋯ 𝑑1𝑛
𝑫 = [ 2;1 ], [4.5]
⋮ ⋮ ⋱ ⋮
𝑑𝑛1 𝑑𝑛2 ⋯ 0
gdzie 𝑑1;2 – to wartość odległości pomiędzy pierwszą a drugą jednostką.

Macierz odległości jest macierzą kwadratową, ponieważ posiada tyle samo wierszy i tyle samo ko-
lumn, ile w badaniu jest porównywanych jednostek. Na przekątnej tej macierzy znajdują się zera. Są
one wynikiem spełnienia warunku identyczności (wzór [4.2]). Z warunku symetrii (wzór [4.3]) wynika
natomiast, że jest to także macierz trójkątna: odpowiednie wartości nad i pod przekątną są sobie równe.
Z kolei warunek nieujemności (wzór [4.1]) determinuje, że jest to macierz dodatnio określona. W sumie
macierz ta zawiera zatem 𝑛(𝑛 − 1)/2 odległości taksonomicznych.
Istnieje wiele sposobów definiowania odległości. Wybór metody zależy przede wszystkim od skali,
w której zostały wyrażone zmienne będące podstawą grupowania (PAWEŁEK 2006). Zatem oddzielną
grupę będą stanowiły odległości zbudowane dla cech nominalnych i porządkowych. Inne miary stosowane
są natomiast w przypadku wyznaczania odległości pomiędzy obiektami, które zostały scharakteryzowane
za pomocą cech wyrażonych w skalach ilościowych. PODOLEC i SZYMANOWICZ (1984) zwracają także
uwagę na takie czynniki ważne przy doborze miary odległości, jak konieczność (lub niekonieczność) nor-
malizacji, rodzaj grupowanych obiektów, możliwość zastosowania wag czy wzorca. Nie bez znaczenia
jest również dostępność oprogramowania i sposób wizualizacji efektów grupowania (MUCHA 2012).
Badania w obszarze miar podobieństwa i niepodobieństwa są bardzo bogate. Ich przegląd zawierają
między innymi publikacje CORMACKA (1971), GOWERA (1971), SEATHA i SOKALA (1973, s. 121-146),
RUTKOWSKIEGO (1981), KAUFMANA i ROUSSEEUWA (2005, s. 3-37) czy MUCHY (2012). Najwięcej
opracowań dotyczy miar odległości dla obiektów opisanych za pomocą zmiennych wyrażonych w moc-
nych skalach, a zatem w skali interwałowej lub ilorazowej. W większości przypadków miary te speł-
niają własności metryki odległości (ZABORSKI 2001, s. 44). Jeżeli porównuje się struktury obiektów
wielocechowych, należy zastosować odpowiednie miary niepodobieństwa tych obiektów. Przegląd ta-
kich odległości można znaleźć między innymi w pracach: GRABIŃSKIEGO (1992, s. 28-34), WYDYMUSA
(1988, s. 170) czy w TAKSONOMII STRUKTUR… (1998, s. 56-57).

4.1.1. Odległości Minkowskiego

Pierwszą grupę stanowią metryki związane z odległością Minkowskiego. Miary te stosuje się zwykle,
gdy analizowane jest podobieństwo obiektów ze względu na poziom wartości zmiennych (GRABIŃSKI
1992, s. 31). Przyjmują one postać ogólną:
1
𝑚 𝜔
𝜔 [4.6]
𝑑𝑖𝑗 = [∑|𝑥𝑖𝑘 − 𝑥𝑗𝑘 | ] ,
𝑘=1
gdzie:
𝑑𝑖𝑗 – wartość odległości pomiędzy 𝑖-tą a j-tą jednostką,
𝑥𝑗𝑘 – obserwacja 𝑘-tej zmiennej na 𝑖-tej jednostce, przy czym 𝑘 = 1, 2, … , 𝑚,
𝑘 – numer analizowanej zmiennej opisującej i-tą oraz 𝑗-tą jednostkę,
𝜔 – stała.
52 4. Miary podobieństwa i niepodobieństwa

Analizując wzór [4.6], można zauważyć, że wyznaczenie odległości Minkowskiego polega na po-
równaniu poszczególnych zmiennych w badanej parze jednostek (w jednostce 𝑖-tej oraz 𝑗-tej). Jeżeli
obliczamy odległość pomiędzy dwoma jednostkami, to konieczne jest obliczenie różnicy pomiędzy war-
tością każdej zmiennej w obu jednostkach. Zakładając, że obiekty opisane zostały za pomocą 𝑚 zmien-
nych, to takich różnic należy wyznaczyć właśnie 𝑚. W kolejnym kroku wartości bezwzględne tych
różnic podnoszone zostają do potęgi 𝜔. Następnie oblicza się sumę takich wyrażeń. Ostatecznie, otrzy-
mana suma zostaje spierwiastkowana, przy czym pierwiastek jest stopnia 𝜔.
Pozostaje zatem do zdefiniowania stała 𝜔. Jeżeli w wzorze [4.6] przyjęte zostanie założenie, że
𝜔 = 2, to mamy do czynienia z najbardziej powszechną odmianą odległości Minkowskiego, nazywaną
odległością euklidesową lub odległością Euklidesa:
1
𝑚 2
2 [4.7]
𝑑𝑖𝑗 = [∑(𝑥𝑖𝑘 − 𝑥𝑗𝑘 ) ] ,
𝑘=1
gdzie oznaczenia są analogiczne jak we wzorze (4.6).

Odległość Euklidesa odzwierciedla najkrótszą drogę między dwoma obiektami – odległość w linii
prostej. Nie oznacza to jednak, że jest ona zawsze polecana w badaniach wielowymiarowych. Wyko-
rzystanie odległości euklidesowej do wyznaczenia podobieństwa obiektów wiąże się ze zwiększeniem
(spotęgowaniem) roli tych elementów, między którymi różnice są największe (RUTKOWSKI 1981). Od-
ległość tę NOWAK (1990, s. 104-105) rekomendował jako jedną z możliwości porównywania obiektów
ze względu na ich strukturę.
Jeżeli w badaniu ważne jest uwypuklenie różnic pomiędzy obiektami, które są bardziej oddalone, to
można posługiwać się także kwadratową odległością euklidesową czyli kwadratem odległości eukli-
desowej. Przykładem jej zastosowania jest m.in. publikacja poznańskich matematyków Michała Karoń-
skiego i Tadeusza Calińskiego (zob. KAROŃSKI, CELIŃSKI 1973b). Formuła kwadratowej odległości
euklidesowej przyjmuje postać:
𝑚
2
𝑑𝑖𝑗 = ∑(𝑥𝑖𝑘 − 𝑥𝑗𝑘 ) , [4.8]
𝑘=1
gdzie oznaczenia są analogiczne jak we wzorze [4.6].

Stosowanie tej metryki jest polecane w przypadku, gdy w kolejnym etapie analizy skupień wybrana
zostanie metoda centroidalna, Warda, średniego zróżnicowania czy sumy kwadratów1. Metryka ta jest
wyborem bezpiecznym (BALICKI 2009, s. 216) z wyjątkiem sytuacji, w których występuje silne skore-
lowanie zmiennych.
Kolejną odmianą odległości Minkowskiego, w przypadku gdy stała 𝜔 = 1, jest odległość miejska.
W literaturze funkcjonuje ona także pod nazwą odległość Manhattan lub odległość taxi. Należy w tym
miejscu podkreślić, że przeciętna odległość miejska, nazywana metryką Czekanowskiego, stosowana
była już 1913 r. przez polskiego antropologa Jana CZEKANOWSKIEGO (1913, s. 167-173)2. Obok odle-
głości euklidesowej to właśnie odległość miejska należy do najczęściej stosowanych miar niepodobień-
stwa (zob. np.: SZCZOTKA 1972; CZYŻ 1971, s. 82). Jej postać analityczna wygląda następująco:

1 Pojęcia te zostaną omówione w kolejnych rozdziałach.


2 Przeciętna odległość Czekanowskiego przyjmuje postać analityczną: 𝑑𝑖𝑗 = ∑𝑚
𝑘=1|𝑥𝑖𝑘 − 𝑥𝑗𝑘 | /𝑚.
4.1. Miary odległości 53

𝑑𝑖𝑗 = ∑|𝑥𝑖𝑘 − 𝑥𝑗𝑘 |, [4.9]


𝑘=1
gdzie oznaczenia są analogiczne jak we wzorze [4.6].
Odległość miejska, mierzona między dwoma punktami jest długością, jaką trzeba przebyć w mie-
ście, którego zabudowa nie pozwala iść drogą najkrótszą i w którym trzeba przemieszczać się prostopa-
dłymi ulicami (RUTKOWSKI 1981). W przypadku tej miary wpływ pojedynczych dużych różnic pomię-
dzy zmiennymi jest stłumiony. W odróżnieniu do odległości euklidesowej nie podnosi się ich do kwa-
dratu. BALICKI (2009, s. 215) akcentuje, że metryka miejska jest najbardziej naturalną metryką. Jej pod-
stawową zaletą jest to, że jest mało wrażliwa na wartości skrajne. Należy jednak podkreślić, że jej sto-
sowanie jest uwarunkowane tym, że zmienne nie są silnie skorelowane (HAIR i in. 1995, s. 428). Mimo
tego ograniczenia odległość tę rekomendował Edward NOWAK (1990, s. 104-105) jako jedną z możli-
wości porównywania jednostek ze względu na ich strukturę. Jako przykład jej zastosowania mogą słu-
żyć badania NAJGRAKOWSKIEGO (1976) w grupowaniu powiatów ze względu na regionalne zróżnico-
wanie rozwoju społeczno-gospodarczego, jakie miało miejsce w 1970 r. w Polsce.
Dużo rzadziej w porównaniu z odległością euklidesową i miejską stosowana jest odległość Czyby-
szewa – kolejna odmiana odległości Minkowskiego (ANDERBERG 1973, s. 102). Mamy z nią do czy-
nienia jeżeli 𝜔 → ∞. Stosowanie tej odległość jest zalecane wtedy, jeśli dwa porównywane ze sobą
obiekty są uznawane za różne, gdy różnią się one w jednym dowolnym wymiarze. Ze względu na postać
matematyczną nazywana jest ona również odległością maksimum:
𝑑𝑖𝑗 = 𝑚𝑎𝑥|𝑥𝑖𝑘 − 𝑥𝑗𝑘 |, [4.10]
𝑖
gdzie oznaczenia są analogiczne jak we wzorze [4.6].

Każda z odległości Minkowskiego ma swoją interpretację geometryczną, cechuje je także niewąt-


pliwa prostota obliczeń (WALESIAK 1993b, 42-43). Obok wielu wspomnianych zalet Sławomir Wierz-
choń i Mieczysław Kłopotek podkreślają jednak, że odległości wywodzące się z metryki Minkowskiego
mają dwie zasadnicze wady (WIERZCHOŃ, KŁOPOTEK 2015, s. 26-28). Po pierwsze wraz ze wzrostem
wielowymiarowości zanika różnica pomiędzy bliskimi a dalekimi obiektami w przestrzeni. Wynika to
z sumowania różnic w lokalizacji obiektów w poszczególnych wymiarach. Aby tego uniknąć, ko-
nieczne jest poprzedzenie grupowania redukcją ilości zmiennych biorących w nim udział.
Po drugie wartość odległości Minkowskiego zdominowana jest przez te zmienne, które mierzone są
na skali o największej rozpiętości. Jeżeli odległości te wyznaczane są na podstawie danych surowych,
to ich wartość zależna będzie od zakresu wartości, jaki zmienne przyjmują (por. HARAŃCZYK 2005).
Dla przykładu, jeżeli porównujemy dwa powiaty pod względem dostępnej przeciętnej liczby izb przy-
padającej na jednego mieszkańca i długości dróg powiatowych w kilometrach, to różnice w zasobach
mieszkaniowych będą się prawdopodobnie wahały się od zera do trzech izb, a różnice w porównaniach
pod względem drugiej zmiennej mogą sięgać nawet kilkuset kilometrów. Łatwo więc się domyślić, że
w przypadku stosowania jednej z metryk Minkowskiego to właśnie druga cecha w większym stopniu
wpłynie na wartość odległości między jednostkami. Tym razem problem można pominąć poprzez po-
przedzenie wyznaczania odległości etapem normalizacji zmiennych.
Z kolei Zbyszko Chojnicki i Teresa Czyż zwracają uwagę na inne ważne ograniczenie stosowania
odległości Minkowskiego (CHOJNICKI, CZYŻ 1973, s. 38). Miara odległości może być stosowania tylko
w przypadku, gdy przestrzeń zmiennych jest ortogonalna. W przypadku, gdy osie reprezentujące
54 4. Miary podobieństwa i niepodobieństwa

zmienne nie są prostopadłe, nie można operować twierdzeniem Pitagorasa. Silne skorelowanie cech
zatem wyklucza stosowanie odległości Minkowskiego.

Przykład obliczeniowy: odległości Minkowskiego


Punktem wyjścia do prezentacji sposobów wyznaczania poszczególnych odległości Minkowskiego po-
między powiatami departamentu poznańskiego była unormowana macierz obserwacji, przygotowana
w oparciu macierz zmiennych znormalizowanych 𝑿’ [3.10], przedstawioną w poprzednim rozdziale. Dane
dla przykładowych dwóch obiektów powiatu wschowskiego i krobskiego stanowiły dwa pierwsze wiersze
wspomnianej macierzy. Dla ułatwienia prezentacji obliczeń zapisano je jako kolumny tabeli 4.1.
Przedstawione obliczenia wykazują, że w zależności od przyjętej procedury wyznaczania odległości
jej wyniki są nieco inne. Ważne jest jednak, aby w zależności od przyjętego podejścia zawsze postępo-
wać konsekwentnie: odległość pomiędzy każdą parą wyznaczać według tego samego wzoru.

Tabela 4.1. Przykłady obliczeń dotyczących odległości wielowymiarowych Minkowskiego między wybranymi powiatami
departamentu poznańskiego w 1810 r.

Wschowa Krobia Kwadratowa


Obiekty Odległość Odległość Odległość
odległość
Zmienne 𝑝1 𝑝2 euklidesowa miejska Czybyszewa
euklidesowa

Ludność 𝑋1 0,672 1,000 (0,627 − 1)2 (0,627 − 1)2 |0,627 − 1| |0,627 − 1|


[tys. osób /1 milę2]. = 0,108 = 0,108 = 0,328 = 0,328

Ludność miejska 𝑋2 1,000 0,992 0,000 0,000 0,008 0,008


[% ludności ogółem]
Relacja M/K 𝑋3 0,000 0,182 0,033 0,033 0,182 0,182
[liczba M/1 K]
Odsetek wdowców 𝑋4 0,250 0,250 0,000 0,000 0,000 0,000
[% M]
Odsetek wdów 𝑋5 0,927 0,829 0,010 0,010 0,098 0,098
[% K]
Zgony ogółem 𝑋6 0,000 0,346 0,119 0,119 0,346 0,346
[osoby/1000 miesz-
kańców]
Zgony M 𝑋7 0,000 0,442 0,196 0,196 0,442 0,442
[osoby/1000 M]
Zgony K 𝑋8 0,000 0,252 0,064 0,064 0,252 0,252
[osoby/1000 K]
Katolicy 𝑋9 0,318 0,457 0,019 0,019 0,139 0,139
[% ogółu ludności]
Ewangelicy 𝑋10 0,609 0,561 0,002 0,002 0,048 0,048
[% ogółu ludności]
Żydzi 𝑋11 1,000 0,122 0,770 0,770 0,878 0,878
[% ogółu ludności]
suma 25,038 1,321 1,321 2,720
𝑑12 1,134 1,149 1,321 2,720 0,878
M – mężczyźni, K – kobiety
Źródło: obliczenia własne na podstawie macierzy danych znormalizowanych 𝑿′ [3.10].

Z powyższego przykładu wynika, że obliczenia nie są złożone. Niemniej jednak należy ich wykonać
bardzo dużo. W prezentowanym przykładzie dla czternastu obiektów (𝑛 = 14), aby stworzyć macierz
4.1. Miary odległości 55

odległości w oparciu o jedną wybraną metrykę, należy wykonać 𝑛(𝑛 − 1)/2 = 91 obliczeń. W związku
z tym, lepiej skorzystać z wbudowanych algorytmów dostępnych w ramach oprogramowania staty-
stycznego. Dla przykładu w programie Statistica takie obliczenia można przeprowadzić wykorzystując
moduł Statystyka/Wielowymiarowe techniki eksploracyjne/Analiza skupień. Można również skorzystać
z jednego z kalkulatorów3 dostępnych w Internecie. Należy jednak pamiętać, aby jako macierz obser-
wacji uwzględnić taką, która wcześniej poddana została normalizacji.
Jak wspomniano wcześniej, odległości Minkowskiego nie powinny być stosowane w przypadku sil-
nej korelacji zmiennych. Procedury doboru zmiennych do analizy skupień zostaną zaprezentowane
w kolejnym rozdziale. Niemniej w celach prezentacji poruszanego zagadnienia zdecydowano się zapre-
zentować pierwotną wersję macierzy odległości. Należy jednak pamiętać, że przedstawiona poniżej po-
stać macierzy odległości nie jest ostateczna.
Spośród prezentowanych możliwości wybrano kwadratową odległość euklidesową, którą zaprezen-
towano w formie tabeli 4.2 oraz macierzy 𝑫 [4.11]. Macierz odległości wyznaczono dzięki możliwo-
ściom, jakie daje program Statistica. W tym celu wybrano moduł Statystyka/Wielowymiarowe techniki
eksploracyjne/Analiza skupień/Aglomeracja/Więcej.

Tabela 4.2. Macierz kwadratowych odległości euklidesowych dla powiatów departamentu poznańskiego w 1810 r.
zapisana w formie tabelarycznej
Międzyrzecz

Wągrowiec
Krotoszyn
Wschowa

Babimost

Oborniki

Gniezno
Kościan

Powidz

Poznań
Pyzdry
Krobia

Obiekty

Środa
Śrem

𝑝1 𝑝2 𝑝3 𝑝4 𝑝5 𝑝6 𝑝7 𝑝8 𝑝9 𝑝10 𝑝11 𝑝12 𝑝13 𝑝14


Wschowa 0,00 1,32 1,67 1,91 1,64 1,32 2,93 2,55 3,06 3,72 6,24 3,68 4,24 4,01
Krobia 1,32 0,00 2,17 0,74 1,39 1,81 2,28 1,12 2,03 2,79 3,88 1,92 2,50 2,61
Międzyrzecz 1,67 2,17 0,00 1,68 0,85 0,47 3,63 2,23 2,81 2,73 3,64 3,43 3,28 2,94
Krotoszyn 1,91 0,74 1,68 0,00 1,59 0,88 1,67 0,27 1,00 0,88 1,75 0,85 1,10 1,37
Babimost 1,64 1,39 0,85 1,59 0,00 1,00 2,35 1,84 2,00 2,57 3,26 2,71 2,86 2,52
Oborniki 1,32 1,81 0,47 0,88 1,00 0,00 2,58 1,11 1,42 1,24 2,53 1,91 1,82 1,67
Kościan 2,93 2,28 3,63 1,67 2,35 2,58 0,00 1,56 1,66 2,32 3,59 1,48 2,04 2,19
Śrem 2,55 1,12 2,23 0,27 1,84 1,11 1,56 0,00 0,70 0,67 1,30 0,23 0,37 0,75
Gniezno 3,06 2,03 2,81 1,00 2,00 1,42 1,66 0,70 0,00 1,16 2,01 0,59 0,65 0,37
Pyzdry 3,72 2,79 2,73 0,88 2,57 1,24 2,32 0,67 1,16 0,00 0,71 0,93 0,88 1,43
Powidz 6,24 3,88 3,64 1,75 3,26 2,53 3,59 1,30 2,01 0,71 0,00 1,48 1,17 1,80
Środa 3,68 1,92 3,43 0,85 2,71 1,91 1,48 0,23 0,59 0,93 1,48 0,00 0,11 0,45
Poznań 4,24 2,50 3,28 1,10 2,86 1,82 2,04 0,37 0,65 0,88 1,17 0,11 0,00 0,26
Wągrowiec 4,01 2,61 2,94 1,37 2,52 1,67 2,19 0,75 0,37 1,43 1,80 0,45 0,26 0,00
Źródło: obliczenia własne na podstawie macierzy danych znormalizowanych 𝑿′ [3.10].

3 Na przykład na stronie calculator.vhex.net dostępnych jest 18 algorytmów odległości.


56 4. Miary podobieństwa i niepodobieństwa

0,00 𝟏, 𝟑𝟐 1,67 1,91 1,64 1,32 2,93 2,55 3,06 3,72 6,24 ⋯
𝟏, 𝟑𝟐 0,00 2,17 0,74 1,39 1,81 2,28 1,12 2,03 2,79 3,88 ⋯
1,67 2,17 0,00 1,68 0,85 0,47 3,63 2,23 2,81 2,73 3,64 ⋯
1,91 0,74 1,68 0,00 1,59 0,88 1,67 0,27 1,00 0,88 1,75 ⋯
1,64 1,39 0,85 1,59 0,00 1,00 2,35 1,84 2,00 2,57 3,26 ⋯
1,32 1,81 0,47 0,88 1,00 0,00 2,58 1,11 1,42 1,24 2,53 ⋯
2,93 2,28 3,63 1,67 2,35 2,58 0,00 1,56 1,66 2,32 3,59 ⋯
𝑫= [4.11]
2,55 1,12 2,23 0,27 1,84 1,11 1,56 0,00 0,70 0,67 1,30 ⋯
3,06 2,03 2,81 1,00 2,00 1,42 1,66 0,70 0,00 1,16 2,01 ⋯
3,72 2,79 2,73 0,88 2,57 1,24 2,32 0,67 1,16 0,00 0,71 ⋯
6,24 3,88 2,64 1,75 3,26 2,53 3,59 1,30 2,01 0,71 0,00 ⋯
3,68 1,92 3,43 0,85 2,71 1,91 1,48 0,23 0,59 0,93 1,48 ⋯
4,24 2,50 3,28 1,10 2,86 2,82 2,04 0,37 0,65 0,88 1,17 ⋯
[ 4,01 2,61 2,94 1,37 2,52 1,67 2,19 0,75 0,37 1,43 1,80 ⋯]

Jak wspomniano wcześniej, macierz odległości 𝑫 [4.11] jest macierzą kwadratową (por. wzór [4.5]),
której wymiar jest równy liczbie grupowanych obiektów. W prezentowanym przykładzie wymiar ma-
cierzy odległości wynosi (14 × 14). Na przekątnej tej macierzy znajdują się zera. Opisywana macierz
jest także macierzą trójkątną, ponieważ wartości w wierszach są dokładnie równe wartościom znajdu-
jącym się w odpowiadających im kolumnach. Wszystkie wartości macierzy odległości są większe lub
równe zeru, co świadczy o tym, że jest dodatnio określona.
Jak wynika z zestawienia obliczeń zawartych w tabeli 4.2, odległość pomiędzy powiatem wschow-
skim a krobskim wynosi 1,32, co jest potwierdzeniem obliczeń, które zaprezentowano w tabeli 4.1. Po-
wiat wschowski jest także bliski pod względem demograficznym powiatowi obornickiemu
(𝑑1;6 = 1,32), a najdalszy od powiatu powidzkiego (𝑑1;11 = 6,24). Z kolei analizując wszystkie po-
wiaty departamentu poznańskiego w 1810 r., można stwierdzić, że najbliższymi sobie powiatami oka-
zały się powiat średzki i śremski (𝑑8;12 = 0,23).

4.1.2. Odległość Mahalanobisa

Miarą niepodobieństwa obiektów wielowymiarowych jest także odległość Mahalanobisa, która przyj-
muje postać (MAHALANOBIS 1936):
1
𝑚 𝑚 2
𝑑𝑖𝑗 = [∑ ∑(𝑥𝑖𝑘 − 𝑥𝑗𝑘 ) 𝑠𝑘𝑙 (𝑥𝑖𝑙 − 𝑥𝑗𝑙 )] , [4.12]
𝑘=1 𝑙=1
gdzie:
𝑑𝑖𝑗 – wartość odległości pomiędzy 𝑖-tą a j-tą jednostką,
𝑥𝑖𝑘 ; 𝑥𝑖𝑙 – obserwacja 𝑘-tej lub 𝑙-tej zmiennej na 𝑖-tej jednostce,
𝑥𝑗𝑘 ; 𝑥𝑗𝑙 – obserwacja 𝑘-tej lub 𝑙-tej zmiennej na 𝑗-tej jednostce,
𝑘, 𝑙 – 𝑘-ta lub 𝑙-ta zmienna spośród 𝑚 analizowanych zmiennych, zatem 𝑘, 𝑙 = 1, 2, … , 𝑚,
𝑠𝑘𝑙 – 𝑘𝑙-ty element macierzy odwrotnej do macierzy kowariancji zmiennych opisujących obiekty.

Odległość Mahalanobisa uwzględnia zależności liniowe pomiędzy zmiennymi. Można ją zatem, w odróżnie-
niu od odległości opartych na metryce Minkowskiego, stosować w przypadku skorelowania badanych zmien-
4.1. Miary odległości 57

nych. Co więcej, GRABIŃSKI (1992, s. 324) wskazuje, że stosowanie odległości Mahalanobisa nie musi być po-
przedzone wcześniejszym doprowadzeniem zmiennych różnoimiennych do porównywalności. Wynika to
z uwzględnienia w formule odległości macierzy kowariancji. Dlatego w przypadku wyboru odległości Mahala-
nobisa do oceny niepodobieństwa obiektów nie zachodzi potrzeba normalizacji zmiennych. WIERZCHOŃ i KŁO-
POTEK (2015, s. 28) zauważają, że odległość Mahalanobisa jest użyteczna w identyfikacji obiektów odstających,
a ZAKRZEWSKA (1987, s 226-227) rekomenduje jej zastosowanie szczególnie w sytuacji, w której występują po-
wtórzenia pomiaru zmiennych badanych obiektów w różnych momentach czasowych. Dla przykładu miara ta
została zastosowana w pracy KAROŃSKIEGO i CALIŃSKIEGO (1973c), w celu grupowania rodów słonecznika na
podstawie ich cech specyficznych, w książce SOKOŁOWSKIEGO i ZAJĄCA (1987), dotyczącej zróżnicowania de-
mograficznego i rozwoju gospodarczego w Polsce w drugiej połowie lat 70. XX wieku, oraz w publikacji PARY-
SKA (1979) w dynamicznym badaniu strukturalnym. Z kolei MORAJDA i GRABOWSKI (2001) wykorzystali odle-
głość Mahalanobisa przy porównaniu wyników zastosowania wybranych metod analizy skupień.

Przykład obliczeniowy: odległość Mahalanobisa


W przypadku wyznaczania odległości Mahalanobisa, procedura obliczeniowa w porównaniu z odległo-
ściami Minkowskiego jest bardziej złożona. Jednak, algorytmy tej metryki są dostępne w ramach nie-
których programów statystycznych.
Aby zaprezentować schemat obliczeń przygotowano poniższy przykład. W badaniu uwzględniono
cztery obiekty (𝑛 = 4), które scharakteryzowano za pomocą dwóch zmiennych (𝑚 = 2). Potencjalne
wartości liczbowe dla tego przykładu przedstawiono w tabeli 4.3. Wszystkie obliczenia można przepro-
wadzić za pomocą arkusza kalkulacyjnego Excel.

Tabela 4.3. Przykład liczbowy do wyznaczenia odległości Mahalanobisa

Obiekty
A B C D
Zmienne
𝑋1 0 1 3 2
𝑋2 2 5 4 3
Źródło: opracowanie własne.

Punktem wyjścia w przypadku wyznaczania odległości Mahalanobisa jest zdefiniowanie macierzy


wariancji i kowariancji dla zmiennych uwzględnionych w badaniu. W tym celu skorzystano z funkcji
wbudowanej arkusza kalkulacyjnego: KOWARIANCJA(). Macierz kowariancji (𝑽) dla obu uwzględ-
nionych w badaniu zmiennych oraz jej odwrotność (𝑽−𝟏 ) przedstawiono poniżej:
1,25 0,50 0,95 −0,38
𝑽=[ ], 𝑽−𝟏 = [ ]
0,50 1,25 −0,38 0,95

Na podstawie macierzy odwrotnej można wyznaczyć poszczególne wartości 𝑠𝑘𝑙 . I tak


𝑠1;1 = 0,95; 𝑠1;2 = −0,38; 𝑠2;2 = 0,95; 𝑠2;1 = −0,38. W tej sytuacji pozostaje stworzenie odpowied-
nich sum składników wzoru (4.12). Dla dwóch zmiennych istnieją cztery takie kombinacje:
2 2
2
𝑑𝐴𝐵 = ∑ ∑(𝑥𝐴𝑘 − 𝑥𝐵𝑘 ) 𝑠𝑘𝑙 (𝑥𝐴𝑙 − 𝑥𝐵𝑙 ) =
𝑘=1 𝑙=1
= [(0 − 1) ∗ 0,95 ∗ (0 − 1)] + [(0 − 1) ∗ (−0,38) ∗ (2 − 5)] +
+[(2 − 5) ∗ (−0,38) ∗ (0 − 1)] + [(2 − 5) ∗ 0,95 ∗ (2 − 5)] = 7,24
58 4. Miary podobieństwa i niepodobieństwa

2
Po spierwiastkowaniu otrzymanej wartości 𝑑𝐴𝐵 = 7,24 odległość Mahalanobisa pomiędzy obiek-
tem A oraz B wynosi 𝑑𝐴𝐵 = 𝟐, 𝟔𝟗.
W analogiczny sposób obliczono odległości pomiędzy kolejnymi parami obiektów:
𝑑𝐴𝐶 = 2,79, 𝑑𝐴𝐷 = 1,80, 𝑑𝐵𝐶 = 2,51, 𝑑𝐵𝐷 = 2,51, 𝑑𝐶𝐷 = 1,07. Należy zaznaczyć, że niezależnie od
kombinacji obiektów, dla których wyznaczana była odległość, w obliczeniach zawsze uwzględniane
były odpowiednie wartości tej samej odwróconej macierzy kowariancji (𝑽−𝟏 ). Wartości pomiędzy ko-
lejnymi parami obiektów zestawiono w macierz odległości Mahalanobisa 𝑫 (por. wzór [4.5]):
0 𝟐, 𝟔𝟗 2,79 1,80
𝟐, 𝟔𝟗 0 2,51 2,51
𝑫=[ ].
2,79 2,51 0 1,07
1,80 2,51 1,07 0

Na postawie macierzy odległości 𝑫 można stwierdzić, że najbliższe pod względem analizowanych


zmiennych to obiekty C oraz D (𝑑𝐶𝐷 = 1,07), natomiast najbardziej od siebie oddalone są obiekty
A oraz obiekt C (𝑑𝐴𝐶 = 2,79).
Opisywany przypadek obrazuje, że macierz odległości może stanowić dobrą podstawę grupowania.
Jednakże należy podkreślić, że w przypadku większej liczby zmiennych opisujących grupowane obiekty
rachunki w przypadku wyznaczenia macierzy odległości Mahalanobisa bardzo się rozbudowują. Z tego
powodu konieczne przekształcenia wykonywane są przy użyciu rachunku macierzowego4. Odległość
Mahalanobisa w zapisie macierzowym to następujący iloczyn (por.: MAHALANOBIS 1938; KACZMAREK
i in. 2008):
2
𝑑𝐴𝐵 = [𝑥𝐴 − 𝑥𝐵 ]𝑇 𝑽−𝟏 [𝑥𝐴 − 𝑥𝐵 ].

Aby go wyznaczyć można zastosować funkcje tablicowe dostępne w programie Excel, takie jak wy-
znaczanie macierzy odwrotnej: MACIERZ.ODW(), transponowanie macierzy: TRANSPONUJ() czy
obliczenie iloczynu macierzy: MACIERZ.ILOCZYN().

4.1.3. Miary niepodobieństwa struktur

Do wyznaczania odległości między obiektami, których cechy stanowią wskaźniki struktury (np.
udziały), można wykorzystać opisane wcześniej metryki Minkowskiego oraz Mahalanobisa (TAKSONO-
MIA STRUKTUR… 1998, s. 46-55). Niemniej jednak w badaniach dotyczących podobieństwa bądź nie-
podobieństwa struktur warto użyć miary dedykowane takim badaniom, w których porównywane są
obiekty opisane za pomocą zmiennych wyrażonych w skali ilorazowej, przyjmujących wartości nieu-
jemne (GRABIŃSKI 1984, s. 40; PODOLEC, SZYMANOWICZ 1984; WALESIAK 1990; MŁODAK 2006,
s. 54-57). Wśród nich można wymienić współczynnik dywergencji Clarka, współczynnik „Canberra”,
współczynnik Renkonena oraz odległość Walesiaka. Należy podkreślić, że miary te można stosować
także w przypadku innego niż strukturalne typu danych ilościowych. Jednak ich wykorzystanie musi
być poprzedzone taką normalizacją, w efekcie której zmienne znormalizowane przyjmą wartości z prze-
działu [0;1] (por. tabelę 3.4).

4 Więcej na temat możliwości rachunku macierzowego można znaleźć np. w publikacji BRANT (1974, s. 215-227).
4.1. Miary odległości 59

W wyniku zastosowania miary niepodobieństwa struktur otrzymywane są odległości, które przyj-


mują wartości z przedziału [0; 1]. Zatem, podobnie jak w przypadku odległości, zero oznacza, że struk-
tury są identyczne. Natomiast na całkowitą odmienność porównywanych obiektów wskazuje jedność.
Zdarza się, że miary niepodobieństwa należące do tej grupy nie spełniają warunku trójkąta (por. wzór
4.4). W takim przypadku są one nazywane semimetrykami (BALICKI 2009, s. 219-221).
Zastosowanie współczynnika dywergencji Clarka (CLARK 1952) jest sugerowane w przypadku,
gdy wskazane jest ze względów merytorycznych przypisanie większej wagi danej różnicy uzyskanej
z mniejszych elementów 𝑥𝑖𝑘 niż tej samej różnicy uzyskanej z elementów większych (WYDMUS 1988,
s. 172, RUTKOWSKI 1981):
1
𝑚 2
1 𝑥𝑖𝑘 − 𝑥𝑗𝑘 2 [4.13]
𝑑𝑖𝑗 = [ ∑ ( ) ] ,
𝑚 𝑥𝑖𝑘 + 𝑥𝑗𝑘
𝑘=1
gdzie oznaczenia są analogiczne jak we wzorze [4.6].

Jak wspomniano wcześniej, współczynnik ten jest unormowany: przyjmuje wartości z przedziału
[0; 1], przy czym zero oznacza, że porównywane obiekty są identyczne. PODOLEC i SZYMANOWICZ
(1984) podkreślają także, że współczynnik ten nie wymaga wcześniejszej normalizacji, ale może być
stosowany do zmiennych znormalizowanych (PAWEŁEK 2007). Należy jednak pominąć w badaniu te
obiekty, dla których wszystkie zmienne przyjmują wartość zero. Co więcej, ZAKRZEWSKA (1987,
s. 229-230) zastrzega, że miara ta jest nieodpowiednia w przypadku skorelowania zmiennych badanych
obiektów.
Przykładem metryki bazującej na odległości miejskiej (por. wzór 4.9), która jest zalecana w przy-
padku badań strukturalnych, jest względna odległość „Canberra” (BRAY, CURTIS 1957; LANCE, WIL-
LIAMS 1966b i 1967b). W literaturze przedmiotu funkcjonuje ona również pod nazwą współczynnika
Braya i Curtisa, współczynnika Lance’a i Wiliamsa lub współczynnika Czekanowskiego (TIMM 2002,
s. 518; BALICKI 2009, s. 220). Odległość ta wyraża się wzorem:
𝑚
1 |𝑥𝑖𝑘 − 𝑥𝑗𝑘 |
𝑑𝑖𝑗 = ∑ , [4.14]
𝑚 𝑥𝑖𝑘 + 𝑥𝑗𝑘
𝑘=1
gdzie oznaczenia są analogiczne jak we wzorze [4.6].

Metryka „Canberra” jest unormowana i przyjmuje wartości z przedziału [0; 1]. Miara ta może być
stosowana dla zmiennych wyrażonych w skali ilorazowej, a zatem dla zmiennych przyjmujących war-
tości nieujemne. Cechuje się ona dużą wrażliwością na małe zmiany w wartościach 𝑥𝑖𝑘 + 𝑥𝑗𝑘 . TIMM
(2002, s. 518) poleca odległość „Canberra” w przypadku występowania wśród zmiennych takich, które
odznaczają się skośnością rozkładu i występowaniem wartości skrajnych. BALICKI z kolei (2009, s. 220-
-221) zwraca uwagę, że metryka „Canberra” może być stosowana również dla zmiennych zero-jedyn-
kowych. Jeżeli stosowane są zmienne binarne, to odległość ta jest jednoznaczna z odległością miejską
i współczynnik ten spełnia wszystkie warunki odległości metrycznej (TIMM 2002, s. 519). Z kolei ZA-
KRZEWSKA (1987, s. 242-243) rekomenduje ją także w sytuacjach, gdy obiekty są opisane za pomocą
zmiennych wyrażonych w skali porządkowej. Co więcej, miara ta może być stosowana zarówno dla
danych pierwotnych, jak i znormalizowanych.
Odległość „Canberra” ma szczególne zastosowanie w badaniach, w których cechami są zliczane
osoby (w badaniach społeczno-gospodarczych) czy gatunki (w badaniach ekologicznych), spełniające
określone kryterium, oraz gdy możliwa jest sytuacja, w której obiekt spełniający określone kryterium
60 4. Miary podobieństwa i niepodobieństwa

w badanej jednostce terytorialnej nie wystąpił. PAWEŁEK (2007) podkreśla natomiast, że w przypadku
tej miary dla obiektu przyjmującego wartość zero dla wszystkich zmiennych go opisujących, składniki
sumy we wzorze [4.14] odpowiadające tym zmiennym przyjmują wartość jeden bez względu na wartość
przypisaną drugiemu obiektowi. Obiekty takie muszą być zatem wyłączone z analizy. Przykłady wyko-
rzystania tej metryki w badaniach wielowymiarowych można znaleźć w publikacjach WYDMUSA (1988,
s. 172), BAZARNIKA i in. (1992), FORYSIA i BATÓGA (2016) oraz MIŚKIEWICZA (2016). W badaniach
społeczno-gospodarczych miarę tę zastosowali SOBCZAK (1994), MALINA (2008) oraz MARKOWSKA
(2008, 2015).
Kolejną miarą rekomendowaną do wyznaczania niepodobieństwa struktur jest odległość Walesiaka
(WALESIAK 1983):
1
𝑚 2
1
𝑑𝑖𝑗 = [ ∑|𝑥𝑖𝑘 2 − 𝑥𝑗𝑘 2 |] , [4.15]
2
𝑘=1
gdzie oznaczenia są analogiczne jak we wzorze [4.6].

Jest to miara unormowana, przyjmująca wartości z przedziału [0; 1]. W przypadku, gdy wartości
statystyki 𝑑𝑖𝑗 dążą do zera, oznacza to coraz mniejsze zróżnicowanie badanych struktur. Wzrost warto-
ści tej odległości do jedności wskazuje na coraz bardziej istotne różnice pomiędzy strukturami. Miara
Walesiaka powinna być stosowana wtedy, gdy badane struktury są bardzo podobne, a zachodzi koniecz-
ność relatywnego zwiększania różnic, celem wykrycia prawidłowości występujących w badanym ma-
teriale empirycznym (WALESIAK 1983).

Przykład obliczeniowy: miary niepodobieństwa struktur


Porównanie zmian w poszczególnych gałęziach przemysłu uspołecznionego stanowi dobry przykład
badań strukturalnych. Punktem wyjścia do wyznaczenia odległości pomiędzy poszczególnymi jednost-
kami – w tym przypadku kolejnymi latami w okresie 1958-1989 – były dane ilościowe przedstawione
w Aneksie A w tabelach 4 oraz 5. Zmienne w prezentowanym przykładzie to udziały poszczególnych
gałęzi w produkcji czystej przemysłu uspołecznionego, przy czym w badaniu uwzględniono dwadzie-
ścia takich gałęzi (𝑚 = 20). Dane te znormalizowano, stosując formułę przekształcenia ilorazowego
(por. wzór [3.14]), w której podstawą była suma wartości produkcji czystej wytworzonej w całym kraju.
Ze względu na strukturalny charakter zmiennych można tu zastosować odległość Clarka, „Can-
berra” oraz odległość Walesiaka. Wyniki przykładowych obliczeń dla tych odległości zawarto w ta-
beli 4.4. Dla uproszczenia zapisu wartości zmiennych dla dwóch pierwszych jednostek zostały transpo-
nowane.
Zakładając, że ostateczny wybór odległości pomiędzy jednostkami w prezentowanym przykładzie
został ograniczony do odległości „Canberra”, przeprowadzono analogiczne obliczenia dla kolejnych par
jednostek czasu. Na tej podstawie zbudowano macierz odległości „Canberra” 𝑫 [4.16]. Ze względu na
fakt, że obliczenia dotyczyły okresu 1958-1989, kompletna macierz odległości wyznaczona w tym przy-
kładzie liczyła 32 wiersze i tyle samo kolumn.
Tabela 4.4. Przykłady obliczeń niepodobieństwa struktur produkcji czystej w przemyśle uspołecznionym w dwóch latach z okresu 1958-1989 za pomocą wybranych miar odległości

Obiekty Obliczenia pomocnicze Odległość Odległość Odległość


1958 1959
Przemysł 𝑥𝑖𝑘 − 𝑥𝑗𝑘 𝑥𝑖𝑘 + 𝑥𝑗𝑘 Clarka „Canberra” Walesiaka

energetyczny 𝑋1 0,013 0,022 0,013 − 0,022 0,013 + 0,022 (−0,008/0,035)2 |−0,008|/0,035 |0,0132 − 0,0222 |
= −0,008 = 0,035 = 0,057 = 0,239 = 0,0003
paliw i węglowy 𝑋2 0,041 0,085 –0,043 0,126 0,118 0,344 0,0055
hutnictwo żelaza 𝑋3 0,038 0,030 0,008 0,068 0,015 0,121 0,0006
metali nieżelaznych 𝑋4 0,009 0,006 0,003 0,015 0,037 0,193 0,0000
metalowy 𝑋5 0,046 0,048 –0,002 0,093 0,001 0,024 0,0002
elektrotechniczny 𝑋6 0,031 0,034 –0,003 0,065 0,002 0,046 0,0002
środków transportu 𝑋7 0,061 0,062 –0,001 0,123 0,000 0,011 0,0002
maszynowy 𝑋8 0,057 0,059 –0,002 0,116 0,000 0,013 0,0002
chemiczny 𝑋9 0,051 0,044 0,007 0,094 0,006 0,075 0,0007
materiałów budowlanych 𝑋10 0,039 0,035 0,004 0,074 0,003 0,053 0,0003
szklarski 𝑋11 0,009 0,012 –0,002 0,021 0,013 0,113 0,0000
ceramiki szlachetnej 𝑋12 0,003 0,004 –0,001 0,006 0,016 0,125 0,0000
drzewny 𝑋13 0,037 0,034 0,003 0,071 0,001 0,036 0,0002
papierniczy 𝑋14 0,017 0,015 0,002 0,032 0,005 0,072 0,0001
poligraficzny 𝑋15 0,007 0,007 0,000 0,014 0,001 0,029 0,0000
włókienniczy 𝑋16 0,162 0,150 0,012 0,312 0,001 0,038 0,0037
odzieżowy 𝑋17 0,025 0,020 0,005 0,044 0,012 0,110 0,0002
skórzany-obuwniczy 𝑋18 0,047 0,043 0,004 0,090 0,002 0,045 0,0004
spożywczy 𝑋19 0,287 0,271 0,015 0,558 0,001 0,028 0,0086
inne gałęzie przemysłu 𝑋20 0,020 0,021 -0,001 0,041 0,000 0,017 0,0000
suma 1,000 1,000 0,291 1,731 0,021
𝑑1;2 0,121 0,087 0,103

Źródło: obliczenia własne na podstawie danych znormalizowanych zawartych Aneksie A w tabelach 4 oraz 5; por. macierz 𝑿′ [9.2].
62 4. Miary podobieństwa i niepodobieństwa

0,000 𝟎, 𝟎𝟖𝟕 0,105 0,120 0,130 0,132 0,138 0,140 0,143 ⋯


𝟎, 𝟎𝟖𝟕 0,000 0,063 0,093 0,102 0,105 0,111 0,121 0,122 ⋯
0,105 0,063 0,000 0,042 0,057 0,062 0,071 0,080 0,082 ⋯
0,120 0,093 0,042 0,000 0,031 0,046 0,059 0,067 0,071 ⋯
0,130 0,102 0,057 0,031 0,000 0,022 0,035 0,040 0,044 ⋯
𝑫= . [4.16]
0,132 0,105 0,062 0,046 0,022 0,000 0,019 0,028 0,032 ⋯
0,138 0,111 0,071 0,059 0,035 0,019 0,000 0,019 0,016 ⋯
0,140 0,121 0,080 0,067 0,040 0,028 0,016 0,000 0,014 ⋯
0,143 0,122 0,082 0,071 0,044 0,032 0,019 0,014 0,000 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]

Zdarza się, że w badaniach historycznych, występuje konieczność porównania dokumentów na pod-


stawie struktury tekstów. W takim przypadku zmiennymi opisującymi dokument mogą być częstości
występowania w tekście poszczególnych słów czy głosek, wyrażone w wartościach bezwzględnych
bądź względnych. Jeżeli z kolei przedmiotem badania jest porównanie struktur biotopów, to ich cechy
stanowią liczby poszczególnych gatunków występujących na danym obszarze. W tego typu sytuacjach
rekomendowana jest odległość Marczewskiego-Steinhausa (MARCZEWSKI, STEINHAUS 1958):

∑𝑚
𝑘=1|𝑥𝑖𝑘 − 𝑥𝑗𝑘 |
𝑑𝑖𝑗 = , [4.17]
∑𝑚
𝑘=1 𝑚𝑎𝑥 (𝑥𝑖𝑘 ; 𝑥𝑗𝑘 )

gdzie oznaczenia są analogiczne jak we wzorze [4.6].

Miara zdefiniowana we wzorze [4.17] jest odległością metryczną. Pozwala ona na zestawienie
udziałów cech wspólnych w badanych jednostkach na tle wszystkich cech występujących w którymś
z porównywanych obiektów (por. CZERWIŃSKA, GEMBARZEWSKI 1975). Należy zwrócić uwagę, że od-
ległość Marczewskiego-Steinhausa, w odróżnieniu od wcześniej wymienionych metryk polecanych
w badaniach strukturalnych, jest bezpieczna w przypadkach, gdy w macierzy danych pojawiają się zera.
W przypadku badań historycznych odległość Marczewskiego-Steinhausa, została zastosowana do typo-
logii cyzjojanów (por. WĄSOWICZ 1995, s. 182-312).

Przykład obliczeniowy: miary niepodobieństwa struktur


Do prezentacji procedury wyznaczania odległości Marczewskiego-Steinhausa, będącej przykładem miary
niepodobieństwa struktur, wybrano dane ilościowe dotyczące grupowania dokumentów i tekstów, szerzej
opisane w części praktycznej prezentowanej monografii. Jak wspomniano wcześniej, wartości zmiennych
w badaniach strukturalnych są wyrażone w tych samych jednostkach. W związku z tym macierz obserwa-
cji może być podstawą do wyznaczenia odległości z pominięciem etapu normalizacji. Procedurę wyzna-
czenia odległości Marczewskiego-Steinhausa, polecanej w tego typu badaniach, zawiera tabela 4.5. Wie-
lowymiarowa odległość pomiędzy dokumentem 1 a dokumentem 2 wynosi 𝑑1;2 = 0,426.
W ten sam sposób wyznaczono pozostałe 39 odległości. Wszystkie obliczenia wykonano w progra-
mie Excel, zamieniając jedynie dane w kolumnach dotyczące konkretnych porównywanych jednostek –
w tym przypadku dokumentów. Wyznaczone odległości zestawiono w macierz odległości 𝑫, którą za-
prezentowano jako wzór [4.18].
4.1. Miary odległości 63

Tabela 4.5. Obliczenia pomocnicze dotyczące wyznaczenia odległości Marczewskiego-Steinhausa między wybranymi
dokumentami ze względu na występowanie w nich określonych wyrażeń

Obiekty Dokument nr 1 Dokument nr 2 Obliczenia pomocnicze

Zmienne: wyrażenia w tekście 𝑂1 𝑂2 |𝑥𝑖𝑘 − 𝑥𝑗𝑘 | 𝑚𝑎𝑥(𝑥𝑖𝑘 ; 𝑥𝑗𝑘 )


„baza danych” 𝑋1 24 32 |24 − 32| = 8 𝑚𝑎𝑥(24; 32) = 32

„regresja” 𝑋2 0 0 0 0
„SQL” 𝑋3 21 10 11 21
„wiarygodność” 𝑋4 0 3 3 3
„indeks” 𝑋5 9 5 4 9
„liniowa” 𝑋6 3 0 3 3

suma 29 68
𝑑1;2 0,426

Źródło: obliczenia własne na podstawie macierzy danych zawartych w tabeli 7 w aneksie A.

0,000 𝟎, 𝟒𝟐𝟔 0,421 0,737 0,460 0,947 0,990 0,940 0,971 0,908
𝟎, 𝟒𝟐𝟔 0,000 0,518 0,700 0,485 0,943 0,956 0,920 0,970 0,901
0,421 0,518 0,000 0,545 0,660 0,973 0,987 0,951 0,992 0,922
0,737 0,700 0,545 0,000 0,845 0,964 0,983 0,930 0,990 0,898
0,460 0,485 0,660 0,845 0,000 0,963 0,971 0,951 0,978 0,935
𝑫= [4.18]
0,947 0,943 0,973 0,964 0,963 0,000 0,603 0,458 0,523 0,278
0,990 0,956 0,987 0,983 0,971 0,603 0,000 0,480 0,500 0,716
0,940 0,920 0,951 0,930 0,951 0,458 0,480 0,000 0,674 0,742
0,971 0,970 0,992 0,990 0,978 0,523 0,500 0,674 0,000 0,511
[ 0,908 0,901 0,922 0,989 0,935 0,278 0,716 0,742 0,511 0,000]

Najmniejszą odległość charakteryzuje dokument szósty oraz dokument dziesiąty (𝑑6;10 = 0,278).
Oznacza to, że wspomniane dokumenty okazały się najbardziej podobne pod względem występowania
wyznaczonych w badaniu wyrażeń. Z kolei największą odległość odnotowano pomiędzy dokumentem
trzecim a dokumentem dziewiątym (𝑑3;9 = 0,992). Są one zatem najmniej podobne.

4.2. Miary podobieństwa

Miary podobieństwa mają odmienną interpretację niż miary odległości. Przyjmują one zwykle wartości
z przedziału [0; 1]. Im wyższa wartość oszacowanych współczynników, tym wyższe podobieństwo
obiektów. MARDIA i in. (1979, s. 381-383) wskazują, że podobnie jak miary odległości, miary podo-
bieństwa powinny spełniać warunek nieujemności (wzór [4.1]) oraz warunek symetryczności (wzór
[4.3]). Natomiast warunek identyczności przyjmuje postać:
𝑠𝑖𝑗 = 1 ⇔ 𝑥𝑖 = 𝑥𝑗 . [4.19]
Jeżeli dodatkowo spełniony jest warunek:
|𝑠𝑖𝑗 + 𝑠𝑗𝑘 |𝑠𝑖𝑘 ≤ 𝑠𝑖𝑗 𝑠𝑖𝑘 , [4.20]
64 4. Miary podobieństwa i niepodobieństwa

to przestrzeń, w której dokonuje się określenia podobieństwa posiada cechy przestrzeni metrycznej (PA-
RYSEK 1982, s. 53, za: STEINHAUSEN, LANGER 1977).
Zatem dla każdej pary jednostek wielowymiarowych możliwe jest wyznaczenie podobieństwa mię-
dzy nimi. Ich zestawienie tworzy macierz podobieństwa 𝑺 o wymiarze (𝑛 × 𝑛), gdzie 𝑛 to liczba gru-
powanych obiektów. Macierz podobieństwa zawiera uporządkowane podobieństwa pomiędzy każdą
jednostką a pozostałymi jednostkami w przestrzeni zmiennych.
1 𝑠1;2 ⋯ 𝑠1𝑛
𝑠2;1 1 ⋯ 𝑠1𝑛
𝑺=[ ], [4.21]
⋮ ⋮ ⋱ ⋮
𝑠𝑛1 𝑠𝑛2 ⋯ 1
gdzie 𝑠1;2– wartość podobieństwa pomiędzy pierwszą a drugą jednostką.

Macierz podobieństwa 𝑺 [4.21], podobnie jak macierz odległości, jest macierzą dodatnio określoną,
kwadratową, na przekątnej której znajdują się jednak jedynki. W sumie macierz ta zawiera 𝑛(𝑛 − 1)/2
współczynników podobieństwa.
Istnieje wiele sposobów definiowania podobieństwa. PODOLEC i SZYMANOWICZ (1984) oraz WI-
ŚNIEWSKI (1986) zauważają, że w literaturze naukowej poświęconej temu zagadnieniu przeważającą
większość stanowią prace dotyczące cech ilościowych, wyrażonych w silnych skalach. W ostatnich la-
tach daje się jednak zauważyć pewien wzrost zainteresowania problematyką klasyfikacji zbiorów, które
zostały opisane za pomocą cech jakościowych. Wykorzystanie w analizie zmiennych jakościowych wy-
maga zastosowania bowiem miar podobieństwa, odpowiednich dla skali nominalnej czy porządkowej.
Wśród współczynników podobieństwa wyróżnia się zatem trzy kategorie wskaźników. Pierwszą stano-
wią współczynniki asocjacji, które są charakterystyczne dla skali nominalnej. Druga kategoria wskaź-
ników opiera się na statystyce 𝝌𝟐 , a ostatnią grupę stanowią miary podobieństwa obiektów, których
cechy zostały wyrażone jako zmienne ilościowe.
Jak wspomniano wcześniej, istnieje ścisły związek pomiędzy wartościami oszacowanej odległości
pomiędzy jednostkami a ich podobieństwem. MARDIA i in. (1979, s. 382) czy EVERITT (1980, s. 15)
sugerują jednak, aby miary podobieństwa przekształcać w miary odległości. Istnieje wiele sposobów
tego przekształcenia. Najprostsze można zapisać następująco (ZAKRZEWSKA 1987):
𝑑𝑖𝑗 = 1 − 𝑠𝑖𝑗 , [4.22]
gdzie 𝑑𝑖𝑗 oraz 𝑠𝑖𝑗 to odpowiednio wartość odległości lub podobieństwa pomiędzy 𝑖-tą oraz 𝑗-tą jed-
nostką.

CHOJNICKI i CZYŻ (1973, s. 42), powołując się na publikację ROGERSA i TANIMOTO (1960), prze-
kształcają współczynniki asocjacji w miarę odległości za pomocą równania:
𝑑𝑖𝑗 = −log 2 𝑠𝑖𝑗 , [4.23]

gdzie oznaczenia są analogiczne jak we wzorze [4.22].

Odległości uzyskane z miar podobieństwa mogą przybierać wartości od zera (gdy 𝑠𝑖𝑗 = 1) do nie-
skończoności (gdy 𝑠𝑖𝑗 = 0). Tak zdefiniowana odległość taksonomiczna określa przestrzeń semime-
tryczną, która nie spełnia postulatu nierówności trójkąta. Co więcej, ze względu na własności funkcji
logarytmicznej nie daje ona wyników w przypadku, gdy porównywane obiekty są identyczne ze
względu na wartości opisujących ich zmiennych.
4.2. Miary podobieństwa 65

Inne rozwiązanie przekształcenia miar podobieństwa w odległości zaproponował natomiast GOWER


(1967a, b), podkreślając jednocześnie, że odległość tak wyznaczona także jest semimetryką (zob. wzór
[4.24]). Sposób przekształcenia miar podobieństwa w odległości, zapisany jako wzór [4.24], polecali
także JOHNSON i WICHERN (1998, s. 735).

𝑑𝑖𝑗 = √2(1 − 𝑠𝑖𝑗 ), [4.24]

gdzie oznaczenia są analogiczne jak we wzorze [4.22].

4.2.1. Współczynniki asocjacji

Dla obiektów opisanych zmiennymi w skali nominalnej mierzony jest poziom skojarzenia (asocjacji)
cech. W tym celu wyznaczane są współczynniki ogólnie nazywanymi współczynnikami asocjacji
(CHOJNICKI, CZYŻ 1973, s. 40; WIŚNIEWSKI 1986). Należą one historycznie do jednych z najstarszych
wskaźników podobieństwa, które cechuje duża prostota. Liczba wskaźników asocjacji proponowanych
w literaturze jest ogromna. Dla przykładu przegląd szesnastu współczynników asocjacji zawiera publi-
kacja SNEATHA i SOKALA (1973, s. 129-136). Pewien zestaw współczynników podobieństwa dla zmien-
nych binarnych zawarty został w pracy EVERITTA (1980, s. 13) oraz DILLONA i GOLDSTEINA (1984,
s. 164). Szeroki zakres miar podobieństwa dla zmiennych wyrażonych w skalach nominalnej i porząd-
kowej przedstawili m.in.: CORMACK (1971), ZAKRZEWSKA (1987), BALICKI (2009, s. 227-240) oraz
HÄRDLE i SIMAR (2003, s. 304). Współczynniki asocjacji jako miara podobieństwa w analizie skupień
została zastosowana np. przez SNEATHA (1957) oraz w pracy SOKALA i SNEATHA (1963, s. 125-141).
Punktem wyjścia do wyznaczenia współczynników asocjacji jest tablica zagregowanych liczebności
obserwacji nazywana tablicą liczebności (WASILEWSKA 2008, s. 250). W literaturze funkcjonuje ona
także pod nazwami tablica kontyngencji lub tablica asocjacji (DILLON, GOLDSTEIN 1984, s. 164). Dla
jednostek 𝑖-tej oraz 𝑗-tej, których zmienne mają charakter dychotomiczny (zero-jedynkowy), przyjmuje
ona postać zaprezentowaną w tabeli 4.6. W tak skonstruowanej tablicy liczebności wartość 𝑚1;1 ozna-
cza liczbę zmiennych, dla których jednostki 𝑖-ta oraz 𝑗-ta mają zgodne wartości postaci zmiennych:
(1; 1). Taką samą interpretację, ale odniesioną do wariantu wartości zmiennych (0, 0) ma także liczeb-
ność 𝑚0;0. Z kolei liczebności 𝑚0;1 oraz 𝑚1;0 dotyczą liczby zmiennych, dla których jednostki 𝑖-ta oraz
𝑗-ta mają niezgodne wartości zmiennych: (1, 0) lub (0, 1). Liczebności cząstkowe pozwalają na wyzna-
czenie liczebności brzegowych 𝑚𝑖∙ oraz 𝑚∙𝑗 , które mówią, ile zmiennych spośród tych opisujących jed-
nostkę i-tą i/lub j-tą należą do odpowiedniej kategorii.

Tabela 4.6. Tablica liczebności dla obiektów opisanych zmiennymi dychotomicznymi

Liczba zmiennych w jednostce 𝑤𝑖 Liczba zmiennych w jednostce 𝑤𝑗 o wartościach:


𝑚𝑖∙
o wartościach: 1 0
1 𝑚1;1 𝑚1;0 𝑚1∙
0 𝑚0;1 𝑚0;0 𝑚0∙
𝑚∙𝑗 𝑚∙1 𝑚∙0 m

Źródło: opracowanie własne.


66 4. Miary podobieństwa i niepodobieństwa

Najprostszym współczynnikiem asocjacji, stosowanym w przypadku, gdy zmienne porównywanych


jednostek zostały wyrażone w skali nominalnej, dychotomicznej jest wskaźnik Jaccarda (por. SOKAL,
SNEATH 1963, s. 133; SZCZOTKA 1976, s. 24; EVERITT 1980, s. 13):
𝑚1;1
𝑠𝑖𝑗 = , [4.25]
𝑚1;1 + 𝑚1;0 + 𝑚0;1
gdzie:
𝑠𝑖𝑗 – wartość podobieństwa pomiędzy 𝑖-tą a 𝑗-tą jednostką,
𝑚1;1, 𝑚1;0, 𝑚1;1 – odpowiednie liczebności przedstawione w tabeli 4.6.

Jest to wskaźnik, który przyjmuje wartości z przedziału [0; 1], przy czym wartość jeden oznacza, że została
osiągnięta pełna zgodność. Z kolei jeżeli wskaźnik Jaccarda przyjmuje wartość równą zeru, to nie wykazano
zgodnego współwystępowania zmiennych w porównywanych jednostkach. Ze względu na swoją strukturę
wskaźnik Jaccarda, jest polecany w badaniach, w którym ważniejszy jest aspekt występowania badanej ce-
chy w jednostce niż jej niewystępowania, gdyż liczebność 𝑚0;0 została we wzorze [4.25] pominięta.
Dla zmiennych wyrażonych w skali nominalnej, dychotomicznej stosuje się także współczynnik
Sokala-Michenera (SOKAL, MICHENER 1958; WALESIAK 1993b, s. 43 za: KAUFMAN, ROUSSEEUW
1990, s. 24; EVERITT i in. 2011, s. 47). W literaturze funkcjonuje on również pod nazwą prosty współ-
czynnik dopasowania (por. CORMACK 1971; SOKAL, SNEATH 1963, s. 133), współczynnik podobieństwa
lub współczynnik koincydencji (zob. np.: KENDAL, BUCKLAND 1975). Opiera się on na wartościach ze-
stawione w tablicy liczebności (por. tabelę 4.6), jednak w odróżnieniu od współczynnika Jaccarda na-
daje on jednakowe wagi poszczególnym typom liczebności (PANEK 2009, s. 46):
𝑚1;1 + 𝑚0;0
𝑠𝑖𝑗 = , [4.26]
𝑚
gdzie:
𝑠𝑖𝑗 – wartość podobieństwa pomiędzy 𝑖-tą a 𝑗-tą jednostką,
𝑚1;1, 𝑚0;0 – odpowiednie liczebności przedstawione w tabeli 4.6,
𝑚 – liczba wszystkich zmiennych biorących udział w badaniu, gdzie 𝑚 = 𝑚1;1 + 𝑚1;0 + 𝑚0;1 + 𝑚0;0 .

Wartości współczynnika Sokala-Michenera zawierają się w przedziale [0; 1]. Przy czym jeden oznacza
doskonałą zgodność występowania zmiennych w obu obiektach. Zatem wartość współczynnika Sokala-
Michnera wskazuje, jaki procent w ogólnej liczbie zmiennych stanowią zgodne wartości zmiennych
dwóch porównywanych obiektów. HÄRDLE i SIMAR (2003, s. 304) oraz BALICKI (2009, s. 231) podkre-
ślają, że może być on wykorzystany jako miara odległości, jeżeli zastosowane zostanie przekształcenie
zgodne ze wzorem [4.22]. Tak wyrażona odległość nazywana jest niezgodnością procentową.

Przykład obliczeniowy: wskaźnik Jaccarda oraz współczynnik Sokala-Michenera


Do prezentacji sposobu wyznaczania wskaźnika Jaccarda oraz współczynnika Sokala-Michenera wyko-
rzystano dane z przykładu dotyczącego rzemiosła wiejskiego we wsi Odrowąż i Waksmund w 1970 r.,
szerzej opisanego w rozdziale dziewiątym. Punktem wyjścia do wyznaczenie macierzy podobieństwa po-
między obiektami opisanymi zmiennymi wyrażonymi w skali nominalnej jest wyznaczenie tablicy liczeb-
ności (por. tabelę 4.6). W tabeli 4.7 przestawiono dane dla dwóch pierwszych warsztatów rzemieślniczych
4.2. Miary podobieństwa 67

opisanych w tym przykładzie. Są to warsztaty specjalizujące się odpowiednio w kołodziejstwie i kowal-


stwie (𝑤1 ) oraz w stolarstwie meblowym (𝑤2 ).
Tabela 4.7. Charakterystyka wybranych warsztatów rzemieślniczych we wsi Odrowąż

Zmienne
Narzędzia Narzędzia Praca se- Praca Mały krąg Duży krąg Anonimowy
Wieś
ręczne mechaniczne zonowa stała odbiorców odbiorców odbiorca
Obiekty
𝑤1 1 0 1 0 1 0 0 1
𝑤2 0 1 1 0 0 1 0 1

Źródło: fragment tabeli 6, zawartej w Aneksie A.

Tabela 4.8. Tablica liczebności dwóch warsztatów rzemieślniczych we wsi Odrowąż

Liczba zmiennych w jednostce 𝑤1 Liczba zmiennych w jednostce 𝑤2 o wartościach:


𝑚1∙
o wartościach 1 0
1 2 2 4
0 2 2 4
𝑚∙2 4 4 8

Źródło: opracowanie własne na podstawie tabeli 4.7.

Na podstawie danych zaprezentowanych w tabeli 4.7 wyznaczono tablicę liczebności, którą z kolei
prezentuje tabela 4.8. Wyznaczenie tej tablicy przy większej liczbie danych można ułatwić, wykorzy-
stując w programie Excel możliwości, jakie daje tablica przestawna (Wstawianie/Tabela przestawna),
natomiast w programie Statistica, opcję tę uzyskuje się realizując ścieżkę: Statystyka/Statystyki podsta-
wowe i tabele/Tabele wielodzielcze.
Na podstawie wartości przedstawionych w tablicy liczebności (zob. tabela 4.8) można powiedzieć,
że porównanie obu jednostek wykazało, iż w przypadku dwóch zmiennych w obu warsztatach wystąpiły
wartości równe jedności: oba warsztaty wykonują pracę sezonowo i prowadzą warsztaty we wsi Odro-
wąż. W przypadku dwóch cech w obu jednostkach odnotowano wartość zero: co oznacza, że właściciele
tych warsztatów nie traktują swojej pracy jako stałe zajęcie i nie sprzedają swoich produktów anonimo-
wym odbiorcom. Jednostki przyjęły różne wartości dla czterech cech: warsztaty różnią się rodzajem
narzędzi, które rzemieślnicy stosowali w swojej pracy oraz kręgiem odbiorców swoich produktów.
Tablica liczebności (zob. tabela 4.8) stanowiła podstawę do wyznaczenie miar podobieństwa:
wskaźnika Jaccarda (por. wzór [4.25]) oraz współczynnika Sokala-Michenera (por. wzór [4.26]):
Wskaźnik Jaccarda:
𝑚1;1 2
𝑠1;2 = = = 0,333
𝑚1;1 + 𝑚1;0 + 𝑚0;1 2 + 2 + 2
Współczynnik Sokala-Michnera:
𝑚1;1 + 𝑚0;0 2 + 2
𝑠1;2 = = = 0,500
𝑚 8
Niejednakowe wyniki obliczeń oczywiście nie wskazują na większe lub mniejsze podobieństwo po-
między porównywanymi warsztatami. Wskazania tego typu można dokonywać dopiero w oparciu
o wszystkie wartości macierzy podobieństwa 𝑺 (por.wzór [4.21]).
68 4. Miary podobieństwa i niepodobieństwa

Z kolei dla obiektów opisanych za pomocą zmiennych nominalnych wielostanowych uogólniony


współczynnik Sokala-Michenera przyjmuje postać (COX 1957; GRABIŃSKI 1984, s. 12; ZABORSKI
1998):
𝑧𝑖𝑗1 + 𝑧𝑖𝑗2 + ⋯ + 𝑧𝑖𝑗𝑚 ∑𝑚
𝑝=1 𝑧𝑖𝑗𝑝
𝑠𝑖𝑗 = = , [4.27]
𝑚 𝑚
gdzie:
𝑠𝑖𝑗 – wartość podobieństwa pomiędzy 𝑖-tą a 𝑗-tą jednostką,
𝑚 – liczba wszystkich zmiennych biorących udział w badaniu,
𝑧𝑖𝑗𝑝 – zgodność lub niezgodność występowania tych samych stanów 𝑝-tej zmiennej w jednostkach
i-tej oraz j-tej, przy czym: 𝑧𝑖𝑗𝑝 = 1, jeżeli dla 𝑝-tej zmiennej jednostki 𝑖-ta oraz 𝑗-ta należą do tej samej
kategorii; w pozostałych przypadkach 𝑧𝑖𝑗𝑝 = 0.

Punktem wyjścia do wyznaczenia uogólnionego współczynnika Sokala-Michenera pomiędzy


dwoma jednostkami jest oszacowanie poziomu zgodności pomiędzy nimi. Zadanie to zostało przedsta-
wione w tabeli 4.9. Z kolei miara niepodobieństwa zbudowana w oparciu o współczynnik Sokala-Mi-
chenera przyjmuje postać zgodną z przekształceniem [4.22] (WALESIAK 1993b, s. 43 za: KAUFMAN,
ROUSSSEUW 1990, s. 28; Zaborski 1998).

Tabela 4.9. Wyznaczanie zgodności dla dwóch jednostek wielostanowych

Zmienne opisujące 𝑖-tą oraz 𝑗-tą jednostkę:


𝑋1 𝑋2 … 𝑋𝑚
𝑚
Zgodność wartości zmiennych w 𝑖-tej
𝑧𝑖𝑗1 𝑧𝑖𝑗2 … 𝑧𝑖𝑗𝑚 𝑧𝑖𝑗∙ = ∑ 𝑧𝑖𝑗𝑝
i 𝑗-tej jednostce 𝑝=1

Źródło: opracowanie własne.

Przykład obliczeniowy: uogólniony współczynnik Sokala-Michenera


Przykładem jednostek opisanych za pomocą zmiennych wielostanowych mogą być zestawy mebli seg-
mentowych produkowanych w latach 70. XX w. Źródłem danych do tego przykładu był Katalog Me-
blowego Domu Sprzedaży Wysyłkowej w Łodzi. Zostały one w szerszej formie zaprezentowane w publi-
kacji MYNARSKIEGO (1990, s. 79). Dane do przykładu zestawiono w tabeli 4.10.
Jednostkami w badaniu jest siedem zestawów meblowych (𝑛 = 7), które zostały opisane za pomocą
trzech zmiennych nominalnych wielostanowych (𝑚 = 3). Aby wyznaczyć odległości między nimi wy-
korzystano uogólniony współczynnik Sokala-Michenera (por. wzór [4.27]). Przykładowe obliczenia dla
odległości wyznaczonej za pomocą tej miary pomiędzy zestawem Miron a Akwilon prezentuje ta-
bela 4.11.
4.2. Miary podobieństwa 69

Tabela 4.10. Przykładowe dane dotyczące jednostek wielostanowych

Zmienne
Okleina Powierzchnia Wykończenie
Obiekty: zestawy meblowe
Miron 𝑜1 dąb rustykalna mat
Akwilon 𝑜2 orzech rustykalna mat
Polo Var II 𝑜3 sosna gładka mat
Nida 𝑜4 mahoń gładka połysk
Słowiniec 𝑜5 orzech gładka połysk
Kwartet 𝑜6 dąb inkrustowana mat
Kartusz 𝑜7 mahoń gładka mat

Źródło: przykład zaczerpnięty z publikacji MYNARSKI (1990, s. 79).

Tabela 4.11. Tablica zgodności dla zestawów mebli segmentowych Miron oraz Akwilon

Zmienne opisujące obiekt 𝑜1 oraz 𝑜2


Okleina Powierzchnia Wykończenie
Zgodność stanu zmiennych
0 1 1 𝑧1;2∙ = 2
w p obiektach 𝑜1 oraz 𝑜2

Źródło: opracowanie własne.

Uogólniony współczynnik Sokala-Michenera:


∑3𝑝=1 𝑧1;2𝑝
2
𝑠1;2 = = 0,667.=
𝑚 3
Warto podkreślić, że dla trzech zmiennych wielostanowych, w zależności od tego ile zmiennych
opisujących jednostki okazało się zgodnych, współczynniki podobieństwa mogą przyjąć tylko cztery
wartości: 𝑠𝑖𝑗 = 0, 𝑠𝑖𝑗 = 0,33, 𝑠𝑖𝑗 = 0,67 oraz 𝑠𝑖𝑗 = 1,00.
Odległości pomiędzy wszystkimi parami zestawów meblowych zestawiono w macierz odległości.
Przyjęto sposób przeliczenia współczynnika podobieństwa w odległość zapisanego jako wzór [4.22],
czyli 𝑑𝑖𝑗 = 1 − 𝑠𝑖𝑗 . Najbardziej podobne do zestawu meblowego Miron, ze względu na uwzględnione
w badaniu parametry okazały się zestawy Akwilon oraz Kwartet (𝑑1;2 = 𝑑1;6 = 𝟎, 𝟑𝟑).

0,00 0,33 0,67 1,00 1,00 0,33 0,67


0,33 0,00 0,67 1,00 0,67 0,67 0,67
0,67 0,67 0,00 0,67 0,67 0,67 0,33
𝑫 = 1,00 1,00 0,67 0,00 0,33 1,00 0,33 [4.28]
1,00 0,67 0,67 0,33 0,00 1,00 0,67
0,33 0,67 0,67 1,00 1,00 0,00 0,67
[0,67 0,67 0,33 0,33 0,67 0,67 0,00]

Wśród wielu zadań, jakie stawiane są metodom taksonomicznym w badaniach społeczno-gospodar-


czych, które zostały opisane w rozdziale drugim, ważne miejsce zajmuje grupowanie zmiennych celem
ograniczenia ich ilości bądź wskazania współzależności. Należy zaznaczyć, że współczynniki asocjacji
mogą być także stosowane do porównywania siły związku pomiędzy zmiennymi. W takim przypadku
w tablicy liczebności dla zmiennych wyrażonych w skali dychotomicznej (por. tabela 4.6) zamiast zli-
czać cechy spełniające zdefiniowane tam warunki, zliczane są jednostki te warunki spełniające (liczeb-
ności cech 𝑚 zmienione są na liczebności obiektów 𝑛). Natomiast dla zmiennych wyrażonych w skali
70 4. Miary podobieństwa i niepodobieństwa

nominalnej wielostanowej wykorzystywane są wskaźniki, które w swojej budowie opierają się na sta-
tystyce 𝜒 2 . Zostały one opisane poniżej. Więcej informacji na temat analizy zależności pomiędzy
zmiennymi można znaleźć w publikacji MYNARSKIEGO (2006, s. 98-153).

4.2.2. Wskaźniki podobieństwa zbudowane w oparciu o statystykę 𝝌𝟐

Punktem wyjścia w porównaniach dwóch zmiennych wielostanowych jest budowa odpowiedniej tablicy
liczebności. Jej uogólnioną postać zaprezentowano w formie tablicowej (tabela 4.12). Należy zwrócić
uwagę, że postać tablicowa, zaprezentowana poniżej, jest typowym rozwiązaniem stosowanym w pre-
zentacji wyników spisów powszechnych i często konstruowane są w ten sposób tabele statystyczne.

Tabela 4.12. Tablica liczebności dla zmiennych wielostanowych

Kategorie zmiennej 𝑗-tej


Kategorie zmiennej 𝑖-tej 𝑛𝑖∙
1 2 … 𝑟
1 𝑛1;1 𝑛1;2 … 𝑛1𝑟 𝑛1∙
2 𝑛2;1 𝑛2;2 … 𝑛2𝑟 𝑛2∙
… … … … ….
𝑠 𝑛𝑠1 𝑛𝑠2 … 𝑛𝑠𝑟 𝑛𝑠∙
𝑛∙𝑗 𝑛∙1 𝑛∙2 … 𝑛∙𝑟 n

Źródło: opracowanie własne.

Tablica liczebności dla zmiennych wielostanowych stanowi podstawę do wyznaczenia statystyki


𝟐
𝝌 , nazywanej także wielodzielnością kwadratową:
𝑟 𝑠 𝑡 2
2
(𝑛𝑖𝑗 − 𝑛𝑖𝑗 )
𝜒 = ∑∑ 𝑡 , [4.29]
𝑛𝑖𝑗
𝑖=1 𝑗=1

gdzie:
𝜒 2 – statystyka testowa (chi kwadrat), wielodzielność kwadratowa,
𝑟 – liczba kolumn w tablicy liczebności (por. tablicę przedstawioną jako tabela 4.12),
𝑠 – liczba wierszy w tablicy liczebności,
𝑛 – liczba porównywanych jednostek wielowymiarowych,
𝑛𝑖𝑗 – liczebność w polu 𝑖𝑗-tym w tablicy liczebności,
𝑡 𝑡 𝑛𝑖∙ 𝑛∙𝑗
𝑛𝑖𝑗 – liczebność teoretyczna w polu 𝑖𝑗-tym w tablicy liczebności, przy czym 𝑛𝑖𝑗 = 𝑛
.
𝑡
Liczebności teoretyczne 𝑛𝑖𝑗 to takie liczebności, które powinny wystąpić w poszczególnych polach ta-
blicy liczebności, gdyby zależność pomiędzy badanymi obiektami lub cechami nie istniała (WASILEW-
SKA 2008, s. 250-262). Powstają one poprzez wyznaczenie udziału iloczynu odpowiednich liczebności
brzegowych w ogólnej liczbie obiektów stanowiących podstawę porównania.
Miary podobieństwa zbudowane w oparciu o statystykę 𝜒 2 nie informują o kierunku związku – ko-
relacji między badanymi zmiennymi, ale o jego sile. Niestety nie wszystkie miary należące do tej grupy
przyjmują wartości z przedziału [0; 1]. Niemniej jednak, jeżeli współczynnik taki przyjmuje wartość
4.2. Miary podobieństwa 71

równą zeru, to świadczy o braku korelacji pomiędzy zmiennymi. Wzrost wartości współczynnika zbu-
dowanego w oparciu o statystykę 𝜒 2 oznacza zwiększenie korelacji pomiędzy badanymi zmiennymi.
Jako przykład zastosowania tych miar może być badanie strefy granicznej między województwem po-
znańskim a zielonogórskim pod względem spożycia naturalnego ludności rolniczej na przełomie lat 60.
XX wieku, prowadzone przez DOMAŃSKIEGO (1964).
Wśród wielu miar podobieństwa, zbudowanych w oparciu o statystykę 𝜒 2 , można wymienić współ-
czynnik 𝑻-Czuprowa (zob. np. YULE, KENDALL 1966, s. 78; POCIECHA i in. 1988, s. 47-48). Przyjmuje
on następującą postać:
1
𝜒2 2
𝑇=[ ] , [4.30]
𝑛√(𝑟 − 1)(𝑠 − 1)
gdzie oznaczenia są analogiczne jak we wzorze [4.29].

Podobne zastosowanie, choć nieco inną konstrukcję matematyczną, ma współczynnik 𝑽-Cramera,


który wykorzystuje się dla zmiennych nominalnych o większej liczbie kategorii. Współczynnik ten może
przyjmować wartości z przedziału [0; 1], gdzie jeden oznacza maksymalne współwystępowanie (BRZE-
ZIŃSKI 1980, s. 115; ZAKRZEWSKA 1987, s. 253; STATYSTYCZNY DROGOWSKAZ…2013, s. 219-220):
1
𝜒2 2
[4.31]
𝑉=[ ] ,
𝑛 ∗ min(𝑟 − 1; 𝑠 − 1)
gdzie oznaczenia są analogiczne jak we wzorze [4.29].

Do grupy wskaźników podobieństwa zbudowanych w oparciu o statystykę 𝜒 2 należy także współ-


czynnik kontyngencji 𝑪-Pearsona (BRZEZIŃSKI 1980, s. 114-115):
1
𝜒2 2 [4.32]
𝐶=[ 2 ] ,
𝜒 +𝑛
gdzie oznaczenia są analogiczne jak we wzorze [4.29].

Współczynnik kontyngencji 𝐶-Pearsona przyjmuje wartość zero, gdy zmienne są niezależne. Jego
wartość maksymalna zależy jednak od liczby stanów zmiennych jakościowych biorących udział w ba-
daniu (liczby wierszy i kolumn w tabeli liczebności – por. wartości w tabeli 4.12). Dla tabeli o wymia-
rach (2 × 2) maksymalna wartość współczynnika wynosi 0,707. Dla uproszczenia interpretacji przy po-
równywaniu wartości współczynników uzyskanych w oparciu o formułę [4.32] warto przeprowadzić
ich normalizację, dzieląc otrzymane wartości przez wartość maksymalną (WIECZORKOWSKA, WIERZ-
BIŃSKI 2007, s. 307), czyli stosując odpowiednie przekształcenie ilorazowe (por. wzór [3.11]).

Przykład obliczeniowy: wskaźniki podobieństwa zbudowane w oparciu o statystykę 𝝌𝟐


Prezentowany w tym miejscu przykład został zaczerpnięty z publikacji YULE’A i KENDALLA (1966,
s. 89). Dotyczy on wyników spisu przeprowadzonego w 1901 r. w Anglii i Walii. Prezentowane w tabeli
4.13 dane dotyczą badań w obszarze budownictwa. W poszczególnych komórkach tablicy liczebności
znajdują się wartości oznaczające liczbę budynków spełniających warunki, określone przez dwie badane
zmienne. I tak wartość 4064 oznacza, że w 1901 r. w badanym obszarze znajdowało się 4064 tys. za-
mieszkałych budynków, zlokalizowanych w okręgach miejskich.
72 4. Miary podobieństwa i niepodobieństwa

Tabela 4.13. Tablica liczebności dla zmiennych wielostanowych: rodzaj budownictwa i charakter okręgu w którym dany
budynek się mieści [tys. obiektów]

Kategorie zmiennej 𝑖-tej: Kategorie zmiennej 𝑗-tej: rodzaj budownictwa


𝑛𝑖∙
charakter okręgu zamieszkałe niezamieszkałe w budowie
Londyński 571 40 5 616
Inne miejskie 4064 285 45 4394
Rolnicze 1625 124 12 1761
𝑛∙𝑗 6260 449 62 6771

Źródło: YULE, KENDALL 1966, s. 89.

Aby określić siłę związku pomiędzy badanymi zmiennymi – stanem budownictwa a miejskim cha-
rakterem okręgu – należy zbudować tablicę liczebności teoretycznych. Została ona zaprezentowania
jako tabela 4.14. Warto przypomnieć, że w każdej komórce tej tabeli zastosowano wyrażenie
𝑡 𝑛𝑖∙ 𝑛∙𝑗
𝑛𝑖𝑗 = 𝑛
. Następnie wyznaczono odchylenia wartości empirycznych od teoretycznych, które są z ko-
lei niezbędne do wyznaczenia wartości statystyki 𝜒 2 (por. wzór [4.29]). Wyniki tych obliczeń zesta-
wiono w tabeli 4.15. Na ich podstawie można stwierdzić, że statystyka 𝜒 2 osiągnęła w tym zadaniu
wartość 2,307.

Tabela 4.14. Tablica liczebności teoretycznych dla zmiennych wielostanowych: rodzaj budownictwa i charakter okręgu
w którym dany budynek się mieści [tys. obiektów].

Kategorie zmiennej 𝑖-tej: Kategorie zmiennej 𝑗-tej: rodzaj budownictwa


𝑛𝑖∙
charakter okręgu zamieszkałe niezamieszkałe w budowie
Londyński (616 ∗ 6260)/6771 (616 ∗ 449)/6771 5,64 616,00
= 569,51 = 40,85
Inne miejskie (4394 ∗ 6260) 291,38 40,23 4394,00
/6771 = 4062,39
Rolnicze 1628,10 116,78 16,12 1761,00

𝑛∙𝑗 6260,00 449,00 62,00 6771,00

Źródło: obliczenia własne.

Tabela 4.15. Tablica unormowanych odchyleń kwadratowych wartości empirycznych od wartości teoretycznych
w przypadku zmiennych wielostanowych

Kategorie zmiennej 𝑖-tej: Kategorie zmiennej 𝑗-tej: rodzaj budownictwa


𝑛𝑖∙
charakter okręgu zamieszkałe niezamieszkałe w budowie
Londyński (571 − 569,51)2 (40 − 40,85)2 0,073 0,094
/569,51 = 0,004 /40,85 = 0,018
Inne miejskie 0,001 0,140 0,564 0,705
Rolnicze 0,006 0,447 1,055 1,508

𝑛∙𝑗 0,010 0,604 1,692 2,307

Źródło: obliczenia własne.


4.2. Miary podobieństwa 73

Jak wspomniano wcześniej, statystyka 𝜒 2 jest podstawą do wyznaczenia różnych miar podobień-
stwa. Wśród nich można wymienić współczynniki 𝑇-Czuprowa, 𝑉-Cramera oraz 𝐶-Pearsona (por.
wzory [4.30]-[4.32]). Odpowiednie obliczenia zawarto poniżej:
współczynnik 𝑇-Czuprowa:
1 1
𝜒2 2 2,307 2
𝑇=[ ] =[ ] = 0,013,
𝑛√(𝑟 − 1)(𝑠 − 1) 6771√2 ∗ 2
współczynnik 𝑉-Cramera:
1 1
𝜒2 2 2,307 2
𝑉=[ ] =[ ] = 0,013,
𝑛 × min(𝑟 − 1; 𝑠 − 1) 6771 ∗ 2
.
współczynnik 𝐶-Pearsona:
1 1
𝜒2 2 2,307 2
𝐶=[ 2 ] =[ ] = 0,018.
𝜒 +𝑛 2,307 + 6771

Obliczone współczynniki podobieństwa wskazują na słaby związek obu badanych zmiennych. Stan
budownictwa okazał się zatem niemal niezależny od charakteru okręgu, w którym budynki zostały zbu-
dowane.

4.2.3. Współczynniki podobieństwa dla zmiennych ilościowych

Przedmiotem badań historycznych może być określenie podobieństwa struktur. Przykładem tego typu
rozważań są wspomniane wcześniej porównania podobieństwa między dokumentami. Wspomnieć
można także o strukturach demograficznych czy ekonomicznych. (WIERZCHOŃ, KŁOPOTEK 2015,
s. 28). W tego typu zagadnieniach dobrą rekomendacją jest implementacja miar podobieństwa stosowa-
nych w przypadku badań biologicznych czy rolniczych, w których porównywane są siedliska na pod-
stawie występujących w nich gatunków roślin czy zwierząt. Do tej grupy należą współczynnik Renko-
nena oraz kosinus kąta między wektorami.
Rekomendowaną miarą podobieństwa obiektów opisanych za pomocą wskaźników struktury jest
współczynnik Renkonena, opisany szczegółowo przez między innymi CZERWIŃSKĄ i GEMBARZEW-
SKIEGO (1975):
𝑚

𝑠𝑖𝑗 = ∑ min(𝑥𝑖𝑘 , 𝑥𝑗𝑘 ), [4.33]


𝑘=1
gdzie:
𝑠𝑖𝑗 – wartość podobieństwa pomiędzy 𝑖-tą a 𝑗-tą jednostką,
𝑥𝑖𝑘 – obserwacja 𝑘-tej zmiennej na 𝑖-tej jednostce,
𝑥𝑗𝑘 – obserwacja 𝑘-tej zmiennej na 𝑗-tej jednostce.

Współczynnik Renkonena może przyjmować wartości z przedziału [0, 1]. Jest on miarą podobieństwa
struktur dwu zbiorów, które traktowane są jako odrębne całości. Jeżeli struktury obiektu 𝑖-tego oraz
74 4. Miary podobieństwa i niepodobieństwa

obiektu 𝑗-tego są identyczne, to wówczas współczynnik Renkonena przyjmuje wartość równą jeden.
W przypadku całkowitego niepodobieństwa porównywanych obiektów współczynnik ten przyjmuje
wartość równą zeru.
Współczynnik Renkonena może stanowić podstawę wyznaczenia odległości po zastosowaniu prze-
kształcenia [4.22]. CZERWIŃSKA i GEMBARZEWSKI (1975) dowiedli, że odległość uzyskana na podsta-
wie współczynnika Renkonena zgodnie z tą formułą, spełnia warunki metryki. CHOMĄTOWSKI i SOKO-
ŁOWSKI (1976) rekomendują tę miarę w przypadku badań zmiany w czasie struktury obiektów gospo-
darczych. Ważnym problemem jest wówczas podział badanego okresu na fazy wyróżniające się podo-
bieństwem struktury badanych obiektów. Miarę tę można stosować również do podziału zbioru obiek-
tów na podgrupy o podobnych strukturach biologicznych (CZERWIŃSKA, GEMBARZEWSKI 1975) czy
rolniczych (GRZYB 1964).
Kolejna metryka nazywana jest kosinusem kąta między wektorami, ponieważ wyraża ją kosinus
kąta między wektorami odpowiadającymi wartościom zmiennych porównywanych obiektów, które
mają swój początek w początku przestrzeni wielowymiarowej. Miara ta jest szczególnie polecana
w przypadku, gdy zmienne opisujące badane obiekty są ze sobą skorelowane. Przyjmuje ona postać:
∑𝑚
𝑘=1 𝑥𝑖𝑘 𝑥𝑗𝑘
𝑠𝑖𝑗 = 1 , [4.34]
(∑𝑚 2
𝑘=1 𝑥𝑖𝑘 ∑𝑚 2 2
𝑘=1 𝑥𝑗𝑘 )

gdzie oznaczenia są analogiczne jak we wzorze [4.33].

Kosinus kąta między wektorami jest miarą unormowaną: przyjmuje ona wartość równą jedności dla
obiektów identycznych, a dąży do zera, gdy obiekty całkowicie różnią się od siebie (RUTKOWSKI 1981;
POCIECHA i in. 1988, s. 46-47). Po przekształceniu tego współczynnika w odległość na podstawie for-
muły [4.22] funkcjonuje ona w literaturze także jako odległość kosinusowa (ZAKRZEWSKA 1987,
s. 219-221). Jest ona wykorzystywana, gdy analizowane jest podobieństwo struktur zmiennych opisu-
jących obiekty, wykazujących skorelowanie. Historycznie stwierdzono, że odległość ta jest dość efek-
tywna w praktycznych eksperymentach wyszukiwania informacji (HAND i in. 2005, s. 516-517). Co
więcej, własności odległości Renkonena doskonale także pasują do przykładu dotyczącego struktury
produkcji czystej przemysłu uspołecznionego w okresie PRL. Natomiast odległość kosinusowa, zgodnie
z rekomendacją HANDA i in. (2005, s. 515-517), można zastosować w przykładzie dotyczącym podo-
bieństwa między dokumentami.

Przykład obliczeniowy: odległość Renkonena oraz odległość kosinusowa


Przykładem grupowania obiektów, opisanych za pomocą zmiennych w postaci wskaźników struktury,
mogą być wpływy budżetowe województwa poznańskiego wynikające z uiszczania przez różne grupy
zawodowe podatku dochodowego i podatku obrotowego w 1958 r., które szczegółowo zostały opisane
w rozdziale dwunastym Punktem wyjścia do obliczeń stanowiła macierz obserwacji unormowanych,
zgodnie z formułą [3.11].
Przykład obliczeń niezbędnych do wyznaczenia odległości Renkonena oraz odległości kosinusowej
dla dwóch wybranych powiatów przedstawiono w tabeli 4.16. Obie odległości wyznaczono dzięki prze-
kształceniu współczynnika podobieństwa w miarę odległości, które zostało zapisane w formie wzoru
[4.22].
4.2. Miary podobieństwa 75

Tabela 4.16. Wyniki obliczeń dotyczących odległości wielowymiarowych między wybranymi powiatami województwa
poznańskiego w 1958 r.
Obiekty Chodzież Czarnków Obliczenia pomocnicze
Grupy
2 2
podatników 𝑝1 𝑝2 𝑥𝑖𝑘 ∗ 𝑥𝑗𝑘 𝑥𝑖𝑘 𝑥𝑗𝑘 min(𝑥𝑖𝑘 , 𝑥𝑗𝑘 )
przemysł 𝑋1 𝑥1;1 𝑥2;1 0,16 ∗ 0,35 0,132 0,352 min(0,16; 0,35)
= 0,16 = 0,35 = 0,055 = 0,03 = 0,12 = 0,16
rzemiosło 𝑋2 0,44 0,37 0,16 0,19 0,14 0,37
handel 𝑋3 0,15 0,12 0,02 0,02 0,02 0,12
usługi 𝑋4 0,10 0,04 0,00 0,01 0,00 0,04
zajęcia zawodowe 𝑋5 0,06 0,09 0,01 0,00 0,01 0,06
pozostali 𝑋6 0,09 0,03 0,00 0,01 0,00 0,03
suma 1,00 1,00 0,25 0,26 0,28 0,79

Źródło: obliczenia własne na podstawie danych znormalizowanych zawartych w tabeli 8 w Aneksie A.

Wyniki przeprowadzonych obliczeń przedstawiono poniżej:


współczynnik Renkonena:
𝑚

𝑠1;2 = ∑ 𝑚𝑖𝑛(𝑥𝑖𝑘 , 𝑥𝑗𝑘 ) = 0,79,


𝑘=1
kosinus kąta między wektorami:
∑𝑚
𝑘=1 𝑥𝑖𝑘 𝑥𝑗𝑘 0,25 0,25
𝑠1;2 = 1 = 1 = = 0,97.
0,26
(∑𝑚 2 𝑚 2 2
𝑘=1 𝑥𝑖𝑘 ∑𝑘=1 𝑥𝑗𝑘 )
(0,26 ∗ 0,28)2

Współczynniki odległości dla obu miar wynoszą odpowiednio 𝟎, 𝟐𝟏 oraz 0,03.

W prezentowanym przykładzie ostatecznie wybrano prostszą pod względem algebraicznym odle-


głość Renkonena. Wszystkie obliczenia konieczne do stworzenia macierzy odległości przeprowadzono
za pomocą arkusza kalkulacyjnego Excel. Pełna macierz odległości dla powiatów województwa po-
znańskiego, grupowanych ze względu na wpływy podatkowe w 1958 r., liczy 34 wiersze i 34 kolumny.
Jej fragment przedstawiono poniżej.
0,00 𝟎, 𝟐𝟏 0,14 0,10 0,17 0,14 0,18 0,08 ⋯
𝟎, 𝟐𝟏 0,00 0,23 0,25 0,29 0,15 0,26 0,26 ⋯
0,14 0,23 0,00 0,22 0,27 0,13 0,23 0,19 ⋯
0,10 0,25 0,22 0,00 0,18 0,18 0,13 0,08 ⋯
𝑫1958 = 0,17 0,29 0,27 0,18 0,00 0,27 0,13 0,19 ⋯ [4.35]
0,14 0,15 0,13 0,18 0,27 0,00 0,24 0,16 ⋯
0,18 0,26 0,23 0,13 0,13 0,24 0,00 0,20 ⋯
0,08 0,26 0,19 0,08 0,19 0,16 0,20 0,00 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]
Spośród zaprezentowanych w formie tablicy odległości par połączeń najbliższe sobie pod względem
struktury wpływów podatkowych okazały się powiaty chodzieski i kolski (𝑑1;8 = 0,08). Natomiast naj-
większy dystans odnotowano pomiędzy powiatem czarnkowskim i jarocińskim (𝑑2;5 = 0,29).
76 4. Miary podobieństwa i niepodobieństwa

4.3. Współczynniki korelacji

Specyficznymi miarami podobieństwa są współczynniki korelacji. Jednak ze względu na interpretację


częściej współczynniki te są używane jako miara podobieństwa zmiennych niż jednostek. Być może
warto wspomnieć, że współczynniki korelacji są zazwyczaj wartościami unormowanymi w przedziale
[-1; 1], przy czym zero oznacza brak korelacji. W wyniku ich zastosowania, w zależności od rozwiązy-
wanego problemu, powstaje macierz korelacji, która przyjmuje ona postać:
1 𝑟1;2 ⋯ 𝑟1𝑚
𝑟2;1 1 ⋯ 𝑟1𝑚
𝑹=[ ], [4.36]
⋮ ⋮ ⋱ ⋮
𝑟𝑚1 𝑟𝑚2 ⋯ 1
gdzie 𝑟1;2 – wartość współczynnika korelacji pomiędzy pierwszą a drugą zmienną.

Macierz korelacji jest 𝑹 [4.36] macierzą symetryczną, tzn. 𝑟𝑗𝑘 = 𝑟𝑘𝑗 , kwadratową. W odróżnieniu
od macierzy odległości na przekątnej macierzy korelacyjnej znajdują się jedynki (𝑟𝑗𝑗 = 1), które ozna-
czają pełną korelację pomiędzy takimi samymi obiektami czy zmiennymi. W sumie macierz ta zawiera
𝑛(𝑛 − 1)/2 współczynników. W literaturze znany jest szeroki wachlarz wskaźników oraz metod testo-
wania istotności wartości korelacji pomiędzy badanymi obiektami czy zmiennymi. Niektóre z nich
można znaleźć np. w publikacji KĘDELSKIEGO i ROESKE-SŁOMKI (1995, s. 159-200) lub KOWAL (1998,
s. 99-113).
Jak wspomniano wcześniej, współczynniki korelacji mogą być potraktowane jako wskaźniki podo-
bieństwa. Zastosowanie tej miary w metodach taksonomicznych opisali między innymi ANDERBERG
(1973, s. 113-114) czy KAROŃSKI i CALIŃSKI (1973a). Niemniej jednak zastosowanie współczynników
korelacji jest rekomendowane przede wszystkim w sytuacjach, w których przedmiotem klasyfikacji są
zmienne opisujące badane jednostki, a nie same jednostki. Współczynniki korelacji używane są zatem
często w procedurach doboru zmiennych biorących udział w analizie skupień (PARYSEK 1982, s. 80;
ZAKRZEWSKA 1987, s. 214). POCIECHA i in. (1988, s. 51) postulują, aby nie stosować tych samych miar
odległości do obiektów i zmiennych. W tej sytuacji lepiej jest opierać taksonomię zmiennych na trady-
cyjnych miarach związku między zmiennymi, czyli na korelacjach, a taksonomię jednostek na metry-
kach odległości.
Niemniej jednak, jeśli współczynniki korelacji mają stanowić podstawę grupowania w metodach
taksonomicznych, to wymagane jest ich przekształcenie w miary odległości. POCIECHA (1988, s. 51)
wskazuje, że przekształcenia takie w większości przypadków nie spełniają postulatu nierówności trój-
kąta, przez co trudno je traktować jako metryki. CRONBACH i GLESER (1953), łącząc standaryzację
z kwadratem odległości euklidesowej, zaproponowali następujące podejście, które zostało szczegółowo
przez opisane przez ANDERBERGA (1973, s. 113) oraz w publikacji STEINHAUSENA i LANGERA (1977):
1
𝑑𝑗𝑘 = [2(1 − 𝑟𝑗𝑘 )]2 , [4.37]

gdzie:
𝑑𝑗𝑘 – miara odległości pomiędzy 𝑗-tą oraz 𝑘-tą zmienną,
𝑟𝑗𝑘 – wartość współczynnika korelacji pomiędzy 𝑗-tą oraz 𝑘-tą zmienną.

Rozwiązanie to jest rekomendowane także przez PARYSKA (1982, s. 54), ZAKRZEWSKĄ (1987, s. 212)
oraz TROSSETA (2005). W przypadku tego przekształcenia [4.37], uzyskiwane są wartości odległości
4.3. Współczynniki korelacji 77

z przedziału [0, 2]. POCIECHA i in. (1988, s. 50) zwracają jednak uwagę, że dla doskonałej ujemnej
korelacji 𝑟𝑖𝑗 = −1 odległość wyrażona wzorem [4.37] przyjmuje wartość równą dwa, co mylnie świad-
czy o doskonałym niepodobieństwie cech. O semimetryce o podobnej strukturze wspominją także
SNEATH i SOKAL (1973, s. 140).
Rozwiązaniem eliminującym opisywane ograniczenie jest zastosowanie we wzorze [4.37] wartości
bezwzględnej współczynnika korelacji. Taką formę przekształcenia zaproponowali HELLWIG (1981)
oraz NOWAK (1990, s. 27). W podejściu tym zmienne nieskorelowane ze sobą są od siebie najbardziej
oddalone (𝑟𝑖𝑗 = 0 ⇒ 𝑑𝑖𝑗 = 1,41). Z kolei najbliższe sobie są zmienne doskonale skorelowane dodatnio
lub ujemnie (𝑟𝑖𝑗 = 1 ⇒ 𝑑𝑖𝑗 = 0 oraz 𝑟𝑖𝑗 = −1 ⇒ 𝑑𝑖𝑗 = 0). Ostatecznie wspomniana zależność przyj-
muje postać:
1
𝑑𝑗𝑘 = [2(1 − |𝑟𝑗𝑘 |)]2 , [4.38]

gdzie oznaczenia są analogiczne jak we wzorze [4.37].

Podobne idee przyświecały także KUKULE (1975), który zamiast wartości bezwzględnej współczyn-
nika korelacji zastosował jego kwadrat. Natomiast nieco inną postać przekształcenia współczynników
korelacji w odległości zaproponował WALESIAK (2011, S. 38). Formułę zapisaną we wzorze [4.39] re-
komendował w przypadku wykorzystania opisanego niżej współczynnika korelacji 𝜏 Kendalla:
1 𝐾
𝑑𝑗𝑘 = 2 (1 − 𝑟𝑗𝑘 ), [4.39]

gdzie oznaczenia są analogiczne jak we wzorze [4.37].

4.3.1. Korelacje zmiennych wyrażonych w skalach ilościowych

Najczęściej stosowaną miarą korelacji pomiędzy zmiennymi jest współczynnik korelacji Pearsona.
Należy jednak podkreślić, że współczynnik ten może być użyty jedynie w przypadku zmiennych wyra-
żonych co najmniej w skali przedziałowej (CHOJNICKI, Czyż 1973, s. 42; ZELIAŚ i in. 2002, s. 103). Do
obliczenia korelacji Pearsona między zmiennymi można zastosować zależność w postaci [4.40]:

𝑃
∑𝑛𝑖=1(𝑥𝑖𝑗 − 𝑥̅𝑗 )(𝑥𝑖𝑘 − 𝑥̅𝑘 )
𝑟𝑗𝑘 = 1,
2
[4.40]
[∑𝑛𝑖=1(𝑥𝑖𝑗 − 𝑥̅𝑗 ) ∑𝑛𝑖=1(𝑥𝑖𝑘 − 𝑥̅𝑘 )2 ]2
gdzie:
𝑃
𝑟𝑗𝑘 – wartość współczynnika korelacji Pearsona pomiędzy 𝑗-tą a k-tą zmienną,
𝑥𝑖𝑗 – wartość 𝑗-tej zmiennej w 𝑖-tej jednostce,
𝑥𝑖𝑘 – wartość 𝑘-tej zmiennej w 𝑖-tej jednostce,
𝑛 – liczba jednostek opisanych za pomocą j-tej oraz 𝑘-tej zmiennej,
𝑥̅𝑗 – średnia wartość 𝑗-tej zmiennej po wszystkich jednostkach.

Wartości współczynnika korelacji Pearsona mieszczą się w przedziale [−1; 1], przy czym zero
oznacza brak zależności korelacyjnej pomiędzy badanymi obiektami. Korelacja dodatnia, a więc miesz-
cząca się w przedziale (0; 1] występuje wtedy, gdy wzrostowi wartości jednej zmiennej towarzyszy
wzrost wartości drugiej zmiennej. Jeżeli wartość współczynnika korelacji mieści się w przedziale
78 4. Miary podobieństwa i niepodobieństwa

[−1; 0), to występuje wówczas korelacja ujemna. Znak współczynnika korelacji informuje zatem o kie-
runku korelacji, a jego wartość o sile związku.
Współczynniki korelacji Pearsona jako miary podobieństwa znajdują zastosowanie przede wszyst-
kim w zagadnieniach dotyczących grupowania zmiennych (zob. np.: KAROŃSKI, CALIŃSKI 1973a czy
SOKAL, MICHENER 1958). Wykorzystanie współczynnika korelacji jako punktu wyjścia do wyznacze-
nia odległości między obiektami zostało zaproponowane przez DAGNELIE (1975). Wykorzystała je
w swoich badaniach regionalnych także CZYŻ (1967). Niemniej jednak, jak wspomniano wcześniej,
zastosowanie współczynnika korelacji Pearsona do grupowania obiektów nie jest oceniane jednoznacz-
nie. Dla przykładu PANEK (2009, s. 222-223) podkreśla, że współczynnik korelacji Pearsona wskazuje
raczej na podobieństwo profili niż bezwzględnych wymiarów obiektów, tzn. nawet przy różnych war-
tościach zmiennych podobieństwo obiektów może być równe jedności.

Przykład obliczeniowy: współczynnik korelacji Pearsona


Współczynnik korelacji Pearsona jest miarą ogólnie znaną, dostępną w ramach funkcji wbudowanych
arkusza kalkulacyjnego Excel i w ramach każdego oprogramowania statystycznego. Niemniej jednak
w dalszej części pracy zostaną zaprezentowane dwie kolejne miary siły związku między zmiennymi.
Aby więc uwidocznić różnice między nimi, zostały przedstawione szczegółowe obliczenia także dla
współczynnika korelacji Pearsona. Podstawą do prezentacji obliczeń były dane liczbowe wykorzystane
w przykładzie dotyczącym grupowania dokumentów i tekstów, przedstawione w tabeli 7 w ramach
Aneksu A. Obliczenia pomocnicze niezbędne do wyznaczenia współczynnika korelacji Pearsona za-
wiera tabela 4.17.
Wyznaczenie wartości współczynnika korelacji Pearsona (por. wzór [4.40]) w oparciu o obliczenia
pomocnicze przestawiono poniżej:
współczynnik korelacji Pearsona:

𝑃
∑𝑛𝑖=1(𝑥𝑖1 − 𝑥̅1 )(𝑥𝑖2 − 𝑥̅2 ) 1294,5 1294,5
𝑟1;3 = 1 = 1 = = 𝟎, 𝟖𝟖.
1478,23
[∑𝑛𝑖=1(𝑥𝑖1 − 𝑥̅1 )2 ∑𝑛𝑖=1(𝑥𝑖2 − 𝑥̅2 )2 ]2 [2014,9 ∗ 1084,5]2

Powtórzenie tej procedury dla wszystkich kombinacji par zmiennych umożliwia wyznaczenie ma-
cierzy korelacji Pearsona. W przypadku badań dotyczących klasyfikacji dokumentów i tekstów
uwzględniono sześć zmiennych (𝑚 = 6). Z tego powodu macierz korelacji Pearsona miała wymiar
(6 × 6). Zaprezentowano ją jako macierz 𝑹𝑷 [4.41]. Kolejne wiersze i kolumny odnoszą się do poszcze-
gólnych zmiennych, których nazwy zostały wymienione w tabeli danych zamieszczonych w Aneksie A.
1,00 −0,72 𝟎, 𝟖𝟖 −0,43 0,90 −0,45
−0,72 1,00 −0,76 0,81 −0,61 0,56
𝟎, 𝟖𝟖 −0,76 1,00 −0,48 0,95 −0,52
𝑹𝑷 = [4.41]
−0,43 0,81 −0,48 1,00 −0,35 0,62
0,90 −0,61 0,95 −0,35 1,00 −0,45
[−0,45 0,56 −0,52 0,62 −0,45 1,00 ]

𝑃
Wyznaczony powyżej współczynnik korelacji Pearsona 𝑟1;3 = 0,88, znajduje się na trzecim miejscu
w pierwszej kolumnie i w pierwszym wierszu macierzy 𝑹𝑷 [4.41].
4.3. Współczynniki korelacji 79

Tabela 4.17. Obliczenia pomocnicze do wyznaczenia współczynnika korelacji Pearsona między wybranymi zmiennymi
opisującymi dokumenty

danych”
Zmienne

„SQL”
„baza
Obliczenia pomocnicze
dla współczynnika korelacji Pearsona

(𝑥𝑖1 − 𝑥̅1 ) ∗ 2
Obiekty 𝑋1 𝑋3 (𝑥𝑖1 − 𝑥̅1 ) (𝑥𝑖3 − 𝑥̅3 ) (𝑥𝑖;1 − 𝑥̅1 ) (𝑥𝑖3 − 𝑥̅3 )2
(𝑥𝑖3 − 𝑥̅ 3 )
Dokument nr 1 𝑂1 24 21 24 − 12,9 21 − 8,5 11,1 ∗ 12,5 11,12 12,52
= 11,1 = 12,5 = 138,75 = 123,21 = 156,25
Dokument nr 2 𝑂2 32 10 19,1 1,5 28,65 364,81 2,25
Dokument nr 3 𝑂3 12 16 –0,9 7,5 –6,75 0,81 56,25
Dokument nr 4 𝑂4 6 7 –6,9 –1,5 10,35 47,61 2,25
Dokument nr 5 𝑂5 43 31 30,1 22,5 677,25 906,01 506,25
Dokument nr 6 𝑂6 2 0 –10,9 –8,5 92,65 118,81 72,25
Dokument nr 7 𝑂7 0 0 –12,9 –8,5 109,65 166,41 72,25
Dokument nr 8 𝑂8 3 0 –9,9 –8,5 84,15 98,01 72,25
Dokument nr 9 𝑂9 1 0 –11,9 –8,5 101,15 141,61 72,25
Dokument nr 10 𝑂10 6 0 –6,9 –8,5 58,65 47,61 72,25
średnia 12,9 8,5
suma 1294,50 2014,90 1084,50
Źródło: opracowanie własne na podstawie tabeli 7 w Aneksie A.

Do nieparametrycznych miar podobieństwa należy współczynnik korelacji Spearmana (SPEARMAN


1904). Jest on rekomendowany w sytuacji, gdy wśród zmiennych znajdują się wartości odstające lub
zmienne mają rozkład niesymetryczny. Można go stosować także w przypadku, gdy zmienne zostały wy-
rażone w skali porządkowej, ale tylko wtedy, jeśli można założyć równość przedziałów rang w tej skali.
Wyznaczenie współczynnika korelacji Spearmana polega na porównaniu rang przypisanych obiek-
tom dla dwóch zmiennych. Rangi zmiennej tworzy się poprzez przypisanie kolejnych liczb naturalnych
wartościom tej zmiennej dla poszczególnych obiektów, uporządkowanych rosnąco. Jeżeli kilka obiek-
tów przyjmuje tę samą wartość cechy, to jako rangę przyjmuje się średnią arytmetyczną z rang, które
byłyby przypisane tym obiektom. Co więcej, gdy obserwacje na zmiennych są liczbami naturalnymi, to
współczynnik korelacji Pearsona przekształca się we współczynnik korelacji Spearmana (WIŚNIEWSKI
2014). Współczynnik korelacji Spearmana określa wzór [4.42]:
2
𝑆
6 ∑𝑛𝑖=1(𝑒𝑖𝑗 − 𝑒𝑖𝑘 )
𝑟𝑗𝑘 =1− , [4.42]
𝑛(𝑛2 − 1)
gdzie:
𝑆
𝑟𝑗𝑘 – wartość współczynnika korelacji Spearmana pomiędzy 𝑗-tą a k-tą zmienną,
𝑒𝑖𝑗 – numer rangi przypisanej 𝑖-tej jednostce w ramach 𝑗-tej zmiennej,
𝑒𝑖𝑘 – numer rangi przypisanej 𝑖-tej jednostce w ramach 𝑘-tej zmiennej,
𝑛 – liczba analizowanych obiektów opisanych za pomocą j-tej oraz 𝑘-tej zmiennej.

Macierz korelacji rang Spearmana ma takie same własności jak macierz korelacji Pearsona. W obu
przypadkach rozpiętość wartości współczynników korelacji zawarta jest w granicach [−1; 1]. Współ-
czynnik korelacji Spearmana został zastosowany jako miara podobieństwa dla przykładu w publikacji
ALEKSANDROWICZA (1979), dotyczącej badań geologicznych.
80 4. Miary podobieństwa i niepodobieństwa

Przykład obliczeniowy: współczynnik korelacji Spearmana


Procedurę wyznaczania wartości współczynnika korelacji Spearmana pomiędzy dwoma zmiennymi do-
tyczącymi sytuacji demograficznej w departamencie poznańskim w 1810 r. przedstawiono w tabeli
4.18. Jak wspomniano wcześniej, normalizacja zmiennych nie wpływa na kierunek i siłę korelacji mię-
dzy nimi. Z tego powodu do obliczeń można zastosować zarówno dane surowe, jak i znormalizowane.

Tabela 4.18. Obliczenia pomocnicze do wyznaczenia współczynnika korelacji Spearmana między wybranymi zmiennymi
opisującymi powiaty departamentu poznańskiego w 1810 r.

Gęstość
Zmienne Odsetek ludności Obliczenia pomocnicze
zaludnienia
miejskiej [%] dla współczynnika korelacji Spearmana
[tys. osób/1 milę2]
Obiekty 2
𝑋1 𝑋2 𝑒𝑖1 𝑒𝑖2 (𝑒𝑖𝑗 − 𝑒𝑖𝑘 ) )
Wschowa 𝑝1 2,24 33,5 12 14 (12 − 14)2 = 4
Krobia 𝑝2 2,78 33,3 14 13 1
Międzyrzecz 𝑝3 1,13 30,4 1 12 121
Krotoszyn 𝑝4 2,25 28,1 13 11 4
Babimost 𝑝5 1,58 28,0 7 10 9
Oborniki 𝑝6 1,40 23,7 3 9 36
Kościan 𝑝7 1,75 20,6 8 8 0
Śrem 𝑝8 1,99 20,3 11 7 16
Gniezno 𝑝9 1,46 18,9 4 6 4
Pyzdry 𝑝10 1,86 17,7 9 5 16
Powidz 𝑝11 1,51 17,1 6 4 4
Środa 𝑝12 1,86 12,8 10 3 49
Poznań 𝑝13 1,50 10,2 5 2 9
Wągrowiec 𝑝14 1,19 9,7 2 1 1
suma 274

Źródło: opracowanie własne w oparciu o dane z tabeli 1 zamieszczonej w Aneksie A.

W przypadku wyznaczania współczynnika korelacji Spearmana konieczne jest w pierwszym kroku


nadanie rang zmiennym, dla których jest on wyznaczany. W tym celu najpierw należy porządkować
wszystkie wartości danej zmiennej rosnąco. W zaprezentowanym w tabeli 4.18 przykładzie dla zmien-
nej: gęstość zaludnienia najniższe jej wartości odnotowano kolejno w powiecie międzyrzeckim
(𝑥3;1 = 1,13), wągrowieckim (𝑥14;1 = 1,19) oraz obornickim (𝑥6;1 = 1,40). Z tego powodu warto-
ściom tym przypisano rangi w postaci kolejnych liczb naturalnych. Zatem ranga zmiennej gęstość za-
ludnienia dla powiatu międzyrzeckiego wynosiła jeden (𝑒3;1 = 1), dla powiatu wągrowieckiego dwa
(𝑒14;1 = 2), a dla powiatu obornickiego trzy (𝑒6;1 = 3). Działanie kontynuowano aż do nadania ostat-
niej rangi, której wartość jest równa liczbie obiektów biorących udział w badaniu. W przypadku zmien-
nej: gęstość zaludnienia rangę tę przypisano powiatowi krobskiemu (𝑒2;1 = 𝑛 = 14). Taką samą proce-
durę nadania rang powtórzono dla drugiej zmiennej: odsetek ludności miejskiej.
Na podstawie informacji zawartych w tabeli 4.18 możliwe było przeprowadzenie obliczeń korelacji
Spearmana pomiędzy wspomnianymi zmiennymi (por. wzór [4.42]):
współczynnik korelacji Spearmana:

𝑆
6 ∑𝑛𝑖=1(𝑒𝑖1 − 𝑒𝑖2 )2 6 ∗ 274
𝑟1;2 =1− 2
=1− = 𝟎, 𝟒𝟎.
𝑛(𝑛 − 1) 14(142 − 1)
4.3. Współczynniki korelacji 81

Postępując w ten sam sposób dla pozostałych par zmiennych, wyznaczono macierz korelacji Spearmana
𝑹𝑺 [4.43]:
1,00 𝟎, 𝟒𝟎 −0,43 0,23 −0,18 −0,19 −0,16 −0,16 0,09 −0,08 ⋯
𝟎, 𝟒𝟎 1,00 −0,76 0,53 0,43 −0,42 −0,45 −0,33 −0,80 0,77 ⋯
−0,43 −0,76 1,00 −0,65 −0,35 0,53 0,46 0,52 0,58 −0,58 ⋯
0,23 0,53 −0,65 1,00 0,32 −0,54 −0,55 −0,46 −0,47 0,48 ⋯
−0,18 0,43 −0,35 0,32 1,00 −0,17 −0,19 −0,11 −0,48 0,54 ⋯
𝑹𝑺 = −0,19 −0,42 0,53 −0,54 −0,17 1,00 0,98 0,95 0,45 −0,45 ⋯ [4.43]
−0,16 −0,45 0,46 −0,55 −0,19 0,98 1,00 0,91 0,52 −0,52 ⋯
−0,16 −0,33 0,52 −0,46 −0,11 0,95 0,91 1,00 0,33 −0,33 ⋯
0,09 −0,80 0,58 −0,47 −0,48 0,45 0,52 0,33 1,00 −0,99 ⋯
−0,08 0,77 −0,58 0,48 0,54 −0,45 −0,52 −0,33 −0,99 1,00 ⋯
[ 0,01 0,66 −0,31 −0,02 0,25 0,04 −0,02 0,10 −0,61 0,52 ⋯]

Każda kolumna i każdy wiersz macierzy korelacji 𝑹𝑺 [4.43] odpowiada kolejnej zmiennej, która
brała udział w charakterystyce powiatów departamentu poznańskiego w 1810 r. Obliczona w przykła-
𝑆
dzie korelacja pomiędzy pierwszymi dwoma zmiennymi (𝑟1;2 = 0,40) znajduje się na drugim miejscu
w pierwszej kolumnie oraz na drugim miejscu w pierwszym wierszu.

Pracochłonność wyznaczania macierzy korelacji można ograniczyć poprzez zastosowanie oprogra-


mowania statystycznego. Możliwość wyznaczenia współczynnika korelacji Pearsona jest dostępna
w niemal każdym programie statystycznym. W arkuszu kalkulacyjnym Excel należy zastosować funkcję
PEARSON() dla pojedynczych par zmiennych lub po zainstalowaniu dodatku analiza danych5 wyko-
rzystać dostępną w jego ramach opcję korelacje. W programie Statistica macierz korelacji Pearsona
można wywołać, korzystając z funkcji Statystyka/Statystyki podstawowe i tabele/Macierze korela-
cji/Korelacje. Natomiast wyznaczenie macierzy korelacji Spermana możliwe jest w ramach programu
Statistica. Macierz tę można wywołać realizując ścieżkę postępowania: Statystyka/Statystyki niepara-
metryczne/Korelacje (Spearmana, Tau-Kendalla, gamma)/R Spearmana.

4.3.2. Korelacje obiektów i zmiennych wyrażonych w skali porządkowej

W przypadku analiz, w których podstawą są zmienne wyrażone w skali porządkowej, często rekomen-
dowany jest opisany wcześniej współczynnik korelacji Spearmana (por. wzór [4.41]). Nie wszystkie
zmienne rangowane są tożsame ze skalą porządkową. WIŚNIEWSKI (1986) oraz WALESIAK (1991a) pod-
kreślają, że współczynnik ten nie jest typową miarą korelacji rang. Stosując go, zakłada się bowiem, że
odległości między dowolnymi dwiema rangami są sobie równe, a na skali porządkowej odległości mię-
dzy dowolnymi dwiema rangami zwykle nie są znane. STECZKOWSKI i ZELIAŚ (1997, s. 208) stwier-
dzają natomiast, że kluczowym zagadnieniem w praktycznych zastosowaniach korelacji rang jest kon-
strukcja właściwej – do konkretnego problemu – skali porządkowej, to znaczy takiej, dla której zakłada
się równość odstępów między rangami.
W przypadkach, gdy spełnienie warunku równości odstępów między rangami jest niemożliwe, na-
leży zastosować współczynnik korelacji rang 𝝉 Kendalla (KENDALL 1938, 1955, s. 19-21), którego

5 Dodatek po zainstalowaniu jest dostępny w zakładce Dane.


82 4. Miary podobieństwa i niepodobieństwa

struktura przewiduje realizację tylko tych operacji matematycznych, które są dozwolone dla skali po-
rządkowej (por. tabelę 3.2). Jego postać matematyczna została przedstawiona jako wzór [4.44]:

𝐾
2 ∑𝑛ℎ=𝑖+1 ∑𝑛−1
𝑖=1 𝑎𝑖ℎ𝑗 𝑏𝑖ℎ𝑘
𝑟𝑗𝑘 = , [4.44]
𝑛(𝑛 − 1)
gdzie:
𝐾
𝑟𝑗𝑘 – wartość współczynnika korelacji rang 𝜏 Kendalla pomiędzy 𝑗-tą a 𝑘-tą zmienną,
𝑛 – liczba analizowanych jednostek, opisanych za pomocą j-tej oraz 𝑘-tej zmiennej,
𝑖, ℎ – numery analizowanych jednostek: 𝑖 = 1, 2, … , 𝑛 − 1; ℎ = 2, 3, … , 𝑛,
𝑗, 𝑘 – numery analizowanych zmiennych,
𝑎𝑖ℎ𝑗 – wartość funkcji relacji dla 𝑗-tej zmiennej pomiędzy 𝑖-tą oraz ℎ-tą jednostką,
𝑏𝑖ℎ𝑘 – wartość funkcji relacji dla 𝑘-tej zmiennej pomiędzy 𝑖-tą oraz ℎ-tą jednostką:
1 jeżeli 𝑥𝑖𝑗 > 𝑥ℎ𝑗 (𝑥𝑖𝑘 > 𝑥ℎ𝑘 )
𝑎𝑖ℎ𝑗 (𝑏𝑖ℎ𝑘 ) = { 0 jeżeli 𝑥𝑖𝑗 = 𝑥ℎ𝑗 (𝑥𝑖𝑘 = 𝑥ℎ𝑘 ).
−1 jeżeli 𝑥𝑖𝑗 < 𝑥ℎ𝑗 (𝑥𝑖𝑘 < 𝑥ℎ𝑘 )

Współczynnik korelacji rang 𝜏 Kendalla, podobnie jak dwa wspomniane wcześniej współczynniki
korelacji, jest miarą siły i kierunku skorelowania dwóch zmiennych lub jednostek, dla których obserwacje
zostały zmierzone na skali porządkowej i może przyjmować wartości z przedziału [−1; 1]. Jeżeli upo-
𝐾
rządkowanie zmiennych jest zupełnie przeciwne, wówczas 𝑟𝑗𝑘 = −1, natomiast gdy występuje pełna
𝐾
zgodność uporządkowań, 𝑟𝑗𝑘 = 1. Z kolei zerowa wartość tego współczynnika świadczy o braku związku
korelacyjnego pomiędzy analizowanymi obiektami lub zmiennymi (por. MYNARSKI 1990, s. 58-59).
Postać matematyczna zależności [4.44] powoduje, że obliczenia wartości współczynnika korelacji
Kendalla są bardziej złożone w porównaniu z wcześniej prezentowanymi współczynnikami korelacji.
Wynika to z faktu, że w przypadku tego współczynnika porównywane są zgodności relacji pomiędzy
wartościami porównywanych zmiennych dla badanych obiektów, a nie same wartości różnic zmiennych
pomiędzy obiektami. W przypadku wyznaczania tego współczynnika pomiędzy dwoma zmiennymi (po-
między zmienną 𝑗-tą oraz zmienną 𝑘-tą) dla czterech obiektów (𝑛 = 4; zatem 𝑖 = 1, 2, 3; ℎ = 2, 3, 4),
możliwe jest ustalenie następujących wartości funkcji relacji dla j-tej zmiennej: 𝑎1;2𝑗 , 𝑎1;3𝑗 , 𝑎1;4𝑗 , 𝑎2;3𝑗 ,
𝑎2;4𝑗 , 𝑎3;4𝑗 . W ten sam sposób definiowane są wartości funkcji relacji dla 𝑘-tej zmiennej (𝑏𝑖ℎ𝑘 ). Zatem
w liczniku wzoru [4.44]) znajdzie się suma sześciu iloczynów. W przypadku, gdy w badaniu uwzględ-
niona jest większa liczba zmiennych, liczba składowych sumy w liczniku wzoru [4.44] odpowiednio
rośnie. Należy jednak podkreślić, że miara ta jest wysoko oceniana. STECZKOWSKI i ZELIAŚ (1997,
s. 200) podkreślają, że współczynnik korelacji 𝜏 Kendalla zezwala na bardziej wnikliwą analizę, ponie-
waż jest szybciej zbieżny do rozkładu normalnego, co ma istotne znaczenie w postępowaniu testującym
(por. DOMAŃSKI 1990, s. 170).

Przykład obliczeniowy: współczynnik korelacji 𝝉 Kendalla


Prezentację obliczeń wyznaczania współczynnik korelacji τ Kendalla przedstawiono w oparciu o przy-
kład zaprezentowany przez DOMAŃSKIEGO (1990, s. 171). Przytoczone w tabeli 4.19 dane, dotyczą
czasu pracy i wydajności pracowników, które zostały przedstawione w postaci rang. Przykład uwzględ-
nia dwie zmienne (𝑋𝑗 oraz 𝑋𝑘 ), które są charakterystykami odnoszącymi się do sześciu pracowników
(𝑛 = 6).
4.3. Współczynniki korelacji 83

Na podstawie informacji zawartych w tabeli 4.19 wyznaczono wartości funkcji relacji 𝑎𝑖ℎ𝑗 oraz
𝑏𝑖ℎ𝑘 , a także ich iloczyny. Te ostatnie zestawiono w tabeli 4.20.

Tabela 4.19. Dane dotyczące czasu pracy i wydajności pracowników- zmienne wyrażone w skali porządkowej
Zmienne Czas pracy Wydajność pracy

Obiekty 𝑋𝑗 𝑋𝑘
𝑝1 10 8
𝑝2 1 0
𝑝3 2 1
𝑝4 5 2
𝑝5 20 10
𝑝6 11 7

Źródło: opracowanie własne w oparciu o: DOMAŃSKI (1990, s. 171).

Tabela 4.20. Wartości funkcji relacji 𝑎𝑖ℎ𝑗 oraz 𝑏𝑖ℎ𝑘 oraz ich iloczyny wyznaczone dla danych dotyczących czasu pracy
i wydajności pracowników

𝑎𝑖ℎ𝑗
𝑖=1 𝑖=2 𝑖=3 𝑖=4 𝑖=5
ℎ=2 10 > 1 ⇒ 1
ℎ=3 10 > 2 ⇒ 1 1 < 2 ⇒ −1
ℎ=4 10 > 5 ⇒ 1 1 < 5 ⇒ −1 2 < 5 ⇒ −1
ℎ=5 10 < 20 ⇒ −1 1 < 20 ⇒ −1 2 < 20 ⇒ −1 –1
ℎ=6 10 < 11 ⇒ −1 1 < 11 ⇒ −1 2 < 11 ⇒ −1 –1 1
𝑏𝑖ℎ𝑘
𝑖=1 𝑖=2 𝑖=3 𝑖=4 𝑖=5
ℎ=2 8>0 ⇒1
ℎ=3 8>1 ⇒1 0 < 1 ⇒ −1
ℎ=4 8>2 ⇒1 0 < 2 ⇒ −1 –1
ℎ=5 8 < 10 ⇒ −1 0 < 10 ⇒ −1 –1 –1
ℎ=6 8>7 ⇒1 0 < 7 ⇒ −1 –1 –1 1
𝑎𝑖ℎ𝑗 𝑏𝑖ℎ𝑘
𝑖=1 𝑖=2 𝑖=3 𝑖=4 𝑖=5
ℎ=2 1∗1 =1
ℎ=3 1∗1 =1 −1 ∗ −1 = 1
ℎ=4 1 ∗1=1 −1 ∗ −1 = 1 1
ℎ=5 −1 ∗ −1 = 1 −1 ∗ −1 = 1 1 1
ℎ=6 −1 ∗ 1 = −1 −1 ∗ −1 = 1 1 1 1
suma 3 4 3 2 1
Źródło: obliczenia własne w oparciu o: DOMAŃSKI (1990, s. 171).
84 4. Miary podobieństwa i niepodobieństwa

Wyznaczenie wartości współczynnika korelacji rang 𝜏 Kendalla sprowadza się do podstawienia wy-
ników obliczeń pomocniczych, przedstawionych w tabeli 4.20 do wzoru (4.44):

𝐾
2 ∑𝑛𝑖+1 ∑𝑛−1
𝑖=1 𝑎𝑖ℎ𝑗 𝑏𝑖ℎ𝑘
𝑟𝑗𝑘 = =
𝑛(𝑛 − 1)
2 ∗ [(1 + 1 + 1 + 1 − 1) + (1 + 1 + 1 + 1) + (1 + 1 + 1) + (1 + 1) + (1)]
= =
6 ∗ (6 − 1)
2 ∗ (3 + 4 + 3 + 2 + 1)
= = 𝟎, 𝟖𝟕.
6∗5

Wysoka wartość współczynnika korelacji rang 𝜏 Kendalla wskazuje na silny związek czasu poświęca-
nego na pracę przez pracownika z osiąganą przez niego wydajnością. To z kolei prowadzi do wniosku,
że wzrost produkcji osiągany był raczej przez wydłużenie czasu pracy, a nie przez wpływ innych czyn-
ników, np.: przez wzrost produktywności pracowników.

Ze względu na złożoność i obszerność obliczeń przy wyznaczaniu korelacji rang 𝜏 Kendalla warto
posłużyć się oprogramowaniem statystycznym. W programie Statistica macierz korelacji rang 𝜏 Ken-
dalla znajduje się w zakładce Statystyka/Statystyki nieparametryczne/Korelacje (Spearmana, Tau-Ken-
dalla, gamma)/Tau-Kendalla.
Współczynnik korelacji rang 𝜏 Kendalla jest rekomendowany do wyznaczania siły i kierunku
związku między zmiennymi. Niemniej jednak w oparciu o ten wskaźnik WALESIAK (2002b, s. 170)
zbudował uogólnioną miarę odległości dla zmiennych wyrażonych w różnych skalach. Zatem miara ta,
po odpowiednim przekształceniu (por. wzór [4.39]) może być zastosowana do wyznaczenia odległości
pomiędzy obiektami. Więcej szczegółów na temat pomiaru odległości obiektów opisanych zmiennymi
mierzonymi na skali porządkowej można znaleźć w publikacji ZABORSKIEGO (1998, s. 62) czy WALE-
SIAKA (2012).

4.3.3. Korelacje w przypadku zmiennych wyrażonych w skali nominalnej


Literatura statystyczna proponuje zastosowanie miar korelacji również dla zmiennych wyrażonych
w skalach nominalnych. I tak na podstawie tablicy liczebności, przedstawionej jako tabela 4.6, można
wyznaczyć współczynnik korelacji czteropunktowej, przydatnej w sytuacji określania podobieństwa
pomiędzy obiektami opisanymi za pomocą zmiennych wyrażonych w postaci dychotomicznej. W lite-
raturze znany jest on również jako współczynnik Pearsona czy współczynnik korelacji 𝜑 Yule’a-Boasa
(BALICKI 2009, s. 250-255). Współczynnik korelacji czteropunktowej przyjmuje postać:

𝑁 𝑛1;1 𝑛0;0 − 𝑛0;1 𝑛1;0


𝑟𝑗𝑘 = ,
[4.46]
√(𝑛1;1 + 𝑛0;1 )(𝑛1;0 + 𝑛0;0 )(𝑛1;1 + 𝑛1;0 )(𝑛0;1 + 𝑛0;0 )

gdzie:
𝑁
𝑟𝑗𝑘 – wartość współczynnika korelacji czteropunktowej pomiędzy 𝑗-tą a k-tą zmienną,
𝑛1;1 – liczba jednostek, dla których obserwacje obu zmiennych przyjmują wartość 1 (por. tabelę
liczebności 4.6).
4.3. Współczynniki korelacji 85

Współczynnik korelacji czteropunktowej przyjmuje wartości z przedziału [−1; 1] i posiada tę samą


interpretację, co wcześniej przytoczone współczynniki korelacji. Łatwo zauważyć, że pełna niezależ-
𝑁
ność zmiennych (𝑟𝑗𝑘 = 0) występuje wyłącznie wtedy, gdy 𝑛1;1 𝑛0;0 = 𝑛0;1 𝑛1;0. Co więcej, ANDER-
BERG (1973, s. 84-85) dowiódł, że współczynnik korelacji czteropunktowej jest zbieżny ze współczyn-
nikiem korelacji Pearsona.
W przypadku zmiennych wyrażonych w skali nominalnej wielostanowej jako miarę korelacji można
wykorzystać współczynniki oparte o statystykę χ2 , opisane w rozdziale 4.2.2, pamiętając jednak, że za
ich pomocą możliwe jest wyznaczenie jedynie siły związku zmiennych bez uwzględnienia kierunku tej
relacji.

Przykład obliczeniowy: współczynnik korelacji czteropunktowej


Prezentację sposobu wyznaczania współczynnika korelacji czteropunktowej oparto o dane zawarte
w przykładzie dotyczącym rzemiosła wiejskiego we wsi Odrowąż i Waksmund w 1970 r. W tabeli 4.21
przestawiono dane dla dwóch pierwszych zmiennych uwzględnionych w tym przykładzie: narzędzia
ręczne (𝑋1 ) oraz narzędzia mechaniczne (𝑋2 ).
Podstawą do obliczenia współczynnika korelacji czteropunktowej dla zmiennych wyrażonych
w skali nominalnej jest tablica liczebności (por. tabelę 4.6). Jej przykład dla zmiennych 𝑋1 oraz 𝑋2
prezentuje tabela 4.22. Wynika z niej, że w żadnym z analizowanych przypadków nie wystąpiła sytua-
cja jednoczesnego użycia w warsztacie narzędzi ręcznych i narzędzi mechanicznych (𝑛1;1 = 0) oraz, co
jest logiczne, że nie były używane żadne z tych narzędzi (𝑛0;0 = 0). Co więcej, osiem zakładów uży-
wało głównie narzędzi ręcznych (𝑛1;0 = 8), a jedenaście głównie narzędzi mechanicznych (𝑛0;1 = 11).

Tabela 4.21. Charakterystyka wybranych warsztatów rzemieślniczych we wsi Odrowąż

Obiekty
Zmienne
𝑤1 𝑤2 𝑤3 𝑤4 𝑤5 𝑤6 𝑤7 𝑤8 𝑤9 𝑤10 𝑤11 𝑤12 𝑤13 𝑤14 𝑤15 𝑤16 𝑤17 𝑤18 𝑤19
𝑋1 1 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 0
𝑋2 0 1 1 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 1

Źródło: fragment tabeli 6 zamieszczonej w aneksie A.

Tabela 4.22. Tablica liczebności dwóch warsztatów rzemieślniczych we wsi Odrowąż

Liczba obiektów przyjmujących Liczba obiektów przyjmujących wartość zmiennej 𝑋2 :


𝑛∙𝑗
wartość zmiennej 𝑋1 : 1 0
1 0 8 8
0 11 0 11

𝑛𝑖∙ 11 8 19

Źródło: opracowanie własne na podstawie tabeli 6 zamieszczonej w aneksie A.

Wielkości zawarte w tabeli 4.22 stanowiły podstawę do wyznaczenia współczynnika korelacji czte-
ropunktowej (por. wzór [4.46]):
86 4. Miary podobieństwa i niepodobieństwa

współczynnik korelacji czteropunktowej:


𝑁
𝑛1;1 𝑛0;0 − 𝑛0;1 𝑛1;0
𝑟1;2 = =
√(𝑛1;1 + 𝑛0;1 )(𝑛1;0 + 𝑛0;0 )(𝑛1;1 + 𝑛1;0 )(𝑛0;1 + 𝑛0;0 )

0 ∗ 0 − 8 ∗ 11 −88 −88
= = = = −𝟏.
√(0 + 11)(8 + 0)(1 + 8)(11 + 0) √11 ∗ 8 ∗ 9 ∗ 11 √7744

4.4. Pomiar podobieństwa i niepodobieństwa w sytuacjach specyficznych

Punktem wyjścia do zastosowania metod taksonomicznych jest wyznaczenie macierzy odległości. Spo-
soby rozwiązania do tego zagadnienia zostały przedstawione powyżej. Niemniej jednak, mimo bogatego
zestawu narzędzi dostępnych w ramach wielowymiarowych metod statystycznych, problematyka histo-
ryczna często powoduje konieczność zmierzenia się z kolejnymi trudnościami.
Pierwszym poruszonym tu problemem jest sytuacja, w której w zbiorze zmiennych grupowanych
lub opisujących jednostki grupowane znajdują się zmienne wyrażone w różnych skalach (WALESIAK
1993b, s. 46-47). W badaniach historycznych często można natrafić na informacje wyrażone zarówno
w skalach mocnych, jak i takie, które dotyczą jakościowych aspektów podejmowanej problematyki.
Zwykle jeżeli proces badawczy jest wspierany analizą statystyczną, to zmienne jakościowe są w niej
pomijane kosztem utraty często istotnych informacji. W literaturze znanych jest wiele podejść do tego
problemu (zob. np.: GORDON 1981, s. 21, KAUFMAN, ROUSSEEUW 1990, s. 32-37 czy JANOWITZ 2002,
s. 13). Jednym z prostych rozwiązań takiej sytuacji jest zastosowanie uogólnionych miar podobieństwa
lub niepodobieństwa.
Innym problemem, który dotyczy z kolei badań regionalnych, jest spójność terytorialna grupowa-
nych jednostek terytorialnych. Jeżeli przedmiotem badania są obiekty przestrzenne, to jednym z naj-
częściej rozpatrywanych przypadków w ekonomicznych badaniach jednostek przestrzennych jest za-
gadnienie regionalizacji, czyli wyodrębnienie spośród badanego zbioru obiektów przestrzennych takich
grup, które oprócz warunku podobieństwa będą spełniały warunek ciągłości przestrzennej (JAJUGA
1991). Spośród wielu rozwiązań (zob. np.: DOMAŃSKI 1964; CHOJNICKI, Czyż 1973; PARYSEK 1982,
s. 141; TOPOLSKI 1984, s. 495-496), jedno oparte jest na odpowiedniej korekcie macierzy odległości
w oparciu o wartości macierzy sąsiedztwa terytorialnego.
W sytuacji, gdy badacz dysponuje tzw. kostką danych, czyli określone zjawisko społeczno-ekono-
miczne miał sposobność przeanalizować nie tylko w ujęciu stacjonarnym, ale i dynamicznym, powstaje
pytanie o konwergencję, tj.: czy w badanym okresie porównywane obiekty stawały się coraz bardziej
podobne, czy dystans między nimi się zwiększał. Próby statystycznej oceny tego typu sytuacji zostały
zaprezentowane w ostatnim podrozdziale.
Trzy wspomniane zagadnienia z pewnością nie wyczerpują wachlarza kolejnych trudności i dyle-
matów związanych z pomiarem podobieństwa czy niepodobieństwa między badanymi jednostkami. Ich
wybór był jednak ściśle związany z problematyką omawianych badań historycznych, a w szczególności
ich przykładów, prezentowanych w drugiej części tej monografii.
4.4. Pomiar podobieństwa i niepodobieństwa w sytuacjach specyficznych 87

4.4.1. Miary podobieństwa obiektów opisanych zmiennymi w różnych skalach

W pracy historyka często zdarza się, że posiada on informacje o badanych obiektach czy zdarzeniach,
które można wyrazić liczbowo za pomocą zmiennych wyrażonych w różnych skalach. W takiej sytuacji
pojawia się problem wyznaczenia podobieństwa między obiektami opisanymi w ten sposób. W litera-
turze proponowanych jest kilka rozwiązań tego problemu (por. POCIECHA i in. 1988, s. 45-46). Pierw-
szym z nich jest (1) wykorzystanie w analizie zmiennych tylko jednego, dominującego typu. Niestety
rodzi to niebezpieczeństwo utraty części istotnych informacji i przez to może dojść do zniekształcenia
wyników. Można także (2) zignorować fakt, że niektóre zmienne są wyrażone w słabszych skalach i za-
stosować dla nich metody, które są przypisane skalom silnym. Podejście takie jest jednak nie do przy-
jęcia z metodologicznego punktu widzenia: następuje wtedy sztuczne wzmocnienie skal słabszych.
Trzecia droga polega na (3) dokonaniu transformacji zmiennych w taki sposób, aby ujednolicić je pod
względem skali, w której zostały wyrażone. Z punktu widzenia teorii pomiaru skalę można tylko osła-
bić, a przez to traci się część zawartej w zmiennych informacji. Można także (4) przeprowadzić osobne
klasyfikacje dla każdego zbioru zmiennych. Ryzyko w tym przypadku polega na tym, że w zależności
od grupy cech uzyska się różne efekty grupowania. Ostatnim rozwiązaniem jest (5) zastosowanie takiej
miary odległości, która pozwalałaby na obliczenie odległości pomiędzy obiektami opisanymi zmien-
nymi w różnych skalach.
Spośród pięciu zaprezentowanych rozwiązań wyznaczenia odległości pomiędzy jednostkami opisa-
nymi za pomocą zmiennych wyrażonych w różnych skalach dwa ostatnie sposoby są ze sobą ściśle
związane. Idea uogólnionego współczynnika podobieństwa polega właśnie na wyznaczeniu podobień-
stwa pomiędzy jednostkami w zależności od skali zmiennych, które je opisują, i agregacji uzyskanych
w ten sposób wyników. Próby zdefiniowania uogólnionego współczynnika podobieństwa podjęli mię-
dzy innymi GOWER (1971), NOWAK (1990, s. 46-49) oraz WALESIAK (1993b). Pierwsze, najstarsze
podejście zaprezentowano poniżej.
Uogólniony współczynnik podobieństwa został zaproponowany przez GOWERA (1971) i wielo-
krotnie opisany w literaturze (zob. np.: EVERITT 1980, s. 16; NOWAK 1990, s. 45; KORONACKI, ĆWIK
2008, s. 273-274; BALICKI 2009, s. 240-243). Jest on ważoną sumą cząstkowych współczynników po-
dobieństwa badanych jednostek wyznaczonych dla każdej grupy zmiennych w zależności od skali po-
miarowej, w której zostały wyrażone. Miara ta przyjmuje postać:
(.)
∑𝑚
𝑘=1 𝑠𝑖𝑗𝑘
𝑠𝑖𝑗 = (.)
, [4.47]
∑𝑚
𝑘=1 𝑤𝑖𝑗𝑘

gdzie:
𝑠𝑖𝑗 – uogólniony współczynnik podobieństwa 𝑖-tej oraz j-tej jednostki,
(. ) – skala, w której została wyrażona 𝑘-ta zmienna: (𝑛) oznacza skalę nominalną, (𝑝) skalę porząd-
kową, (𝑖) skalę interwałową lub ilorazową,
(.)
𝑠𝑖𝑗𝑘 – cząstkowy współczynnik podobieństwa 𝑖-tej oraz j-tej jednostki ze względu na k-tą zmienną,
wyrażoną w określonej skali,
(.)
𝑤𝑖𝑗𝑘 – waga cząstkowego współczynnika podobieństwa, zwykle zależna od liczby zmiennych występu-
jących w określonej skali.

Wyznaczenie uogólnionego wskaźnika podobieństwa Gowera polega na potraktowaniu każdej


zmiennej indywidualnie: wtedy liczba składowych wskaźnika przedstawionego we wzorze [4.47] jest
88 4. Miary podobieństwa i niepodobieństwa

równa liczbie zmiennych. Jeżeli każda z cech traktowana jest równorzędnie, to wszystkie wagi są równe
(.)
jedności (𝑤𝑖𝑗𝑘 = 1). Wyjątek stanowią tu zmienne dychotomiczne, które przyjmują wartość zero, gdy
zmienna jest nieznana dla jednej lub obu jednostek (EVERITT 1980, s. 16).
Cząstkowym współczynnikom podobieństwa wyznaczonym dla jednostek, które zostały opisane za
(𝑛)
pomocą zmiennych wyrażonych w skali nominalnej (𝑠𝑖𝑗𝑘 ), zarówno dychotomicznej, jak i wielostano-
(𝑝)
wej oraz w skali porządkowej (𝑠𝑖𝑗𝑘 ), przypisywana jest wartość jeden, jeżeli obie jednostki przyjmują
takie same stany 𝑘-tej zmiennej. W pozostałych przypadkach przypisywana jest im wartość równa zeru.
Wartości wag i współczynników podobieństwa wyznaczonych dla jednostek 𝑖-tej oraz j-tej, które zo-
stały opisane za pomocą zmiennej dychotomicznej, przedstawia tabela 4.23. Przy takich założeniach,
jeżeli wszystkie cechy porównywanych jednostek są wyrażone w skali dychotomicznej, to ogólny
współczynnik Gowera jest równy wartości wskaźnika Jaccarda (por. wzór [4.25]).

Tabela 4.23. Wartości współczynników podobieństwa i wag między obiektami opisanymi za pomocą zmiennych
dychotomicznych

Kategorie zmiennej dychotomicznej


obiekt 𝑖-ty 1 1 0 0
obiekt 𝑗-ty 1 0 1 0
𝑠𝑖𝑗 1 0 0 0
𝑤𝑖𝑗 1 1 1 0
Źródło: EVERITT (1980, s. 16).

Jeżeli natomiast zmienne opisujące porównywane obiekty zostały wyrażone w skali przedziałowej
(𝑖)
lub ilorazowej, to wartość współczynnika 𝑠𝑖𝑗 wyznaczana jest ze wzoru:

(𝑖) |𝑥𝑖𝑘 − 𝑥𝑗𝑘 |


𝑠𝑖𝑗 = 1 − , [4.48]
𝑅𝑘
gdzie:
(𝑖)
𝑠𝑖𝑗 – wskaźnik podobieństwa jednostki 𝑖-tej oraz 𝑗-tej ze względu na 𝑘-tą zmienną, wyrażoną w skali
przedziałowej lub ilorazowej,
𝑅𝑘 – rozstęp 𝑘-tej zmiennej,
𝑥𝑖𝑘 – obserwacja 𝑘-tej zmiennej w 𝑖-tej jednostce,
𝑥𝑗𝑘 – obserwacja 𝑘-tej zmiennej w 𝑗-tej jednostce,

Dokładniejsza analiza idei uogólnionego współczynnika Gowera dla mieszanych zmiennych po-
zwala zauważyć, że jest to ważona miara podobieństwa, w której wagami są liczby cech występujących
w danej skali. Współczynnik Gowera jest podstawą do wyznaczenia odległości pomiędzy obiektami
opisanymi za pomocą zmiennych wyrażonych w różnych skalach. Stosowane jest w tym przypadku naj-
prostsze przekształcenie 𝑑𝑖𝑗 = 1 − 𝑠𝑖𝑗 (por. wzór [4.22]).
Wyznaczenie uogólnionego wskaźnika podobieństwa można także przeprowadzić poprzez zastoso-
wanie dla każdej grupy zmiennych odpowiedniego wskaźnika podobieństwa, który został opisany w po-
przednich podrozdziałach. Ważne jest jednak, aby dokonać takiego wyboru cząstkowych wskaźników
podobieństwa, których wartości mieszczą się w przedziale [0; 1]. W tym podejściu wagami będą liczby
zmiennych w poszczególnych grupach (NOWAK 1990, s. 46).
4.4. Pomiar podobieństwa i niepodobieństwa w sytuacjach specyficznych 89

Przykład obliczeniowy: uogólniony współczynnik podobieństwa Gowera


Przykładem obiektów opisanych za pomocą zmiennych wielostanowych są charakterystyki mebli
zestawów segmentowych. Przykład ten został już częściowo wykorzystany wcześniej do prezentacji
uogólnionego współczynnika Sokala-Michenera. Do wartości przedstawionych w tabeli 4.10, dodano
dwie zmiennewyrażone w skali przedziałowej, dotyczące długości i szerokości zestawu segmentowego.
Uzupełniony zestaw danych przedstawia tabela 4.24, natomiast przykładowe obliczenia uogólnionego
współczynnika podobieństwa dla obiektów 𝑜1 oraz 𝑜2 zawarto w tabeli 4.25.

Tabela 4.24. Przykładowe dane dotyczące jednostek wielostanowych

Zmienne Okleina Powierzchnia Wykończenie Długość [cm] Szerokość [cm]


Obiekty 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5
Miron 𝑜1 dąb rustykalna mat 406 220
Akwilon 𝑜2 orzech rustykalna mat 397 185
Polo Var II 𝑜3 sosna gładka mat 264 187
Nida 𝑜4 mahoń gładka połysk 454 223
Słowiniec 𝑜5 orzech gładka połysk 350 210
Kwartet 𝑜6 dąb inkrustowana mat 275 185
Kartusz 𝑜7 mahoń gładka mat 400 181
Źródło: przykład zaczerpnięty z publikacji MYNARSKI (1990, s. 79).

Tabela 4.25. Obliczenia pomocnicze do wyznaczenia uogólnionego współczynnika podobieństwa Gowera

Zmienne Okleina Powierzchnia Wykończenie Długość [cm] Szerokość [cm]


Obiekty 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5
Miron 𝑜1 dąb rustykalna mat 406 220
Akwilon 𝑜2 orzech rustykalna mat 397 185
(.)
𝑤12𝑘 1 1 1 1 1
|406 − 397| |220 − 185|
(.) 1− 1−
𝑠12𝑘 0 1 1 190 42
= 0,95 = 0,17
Źródło: obliczenia własne.

rozstęp zmiennej 𝑋4 : 𝑅4 = max{𝑥𝑖4 } − min{𝑥𝑖4 } = 454 − 264 = 190,


𝑖 𝑖
rozstęp zmiennej 𝑋5 : 𝑅5 = max{𝑥𝑖5 } − min{𝑥𝑖5 } = 223 − 181 = 42,
𝑖 𝑖
uogólniony współczynnik podobieństwa Gowera:
(.)
∑𝑚
𝑘=1 𝑠𝑖𝑗𝑘 0 + 1 + 1 + 0,95 + 0,17
𝑠1;2 = (.)
= = 0,62,
∑𝑚 1+1+1+1+1
𝑘=1 𝑤𝑖𝑗𝑘

uogólniony współczynnik odległości Gowera: 𝑑1;2 = 1 − 𝑠1;2 = 1 − 0,62 = 0,38.


Odległości pomiędzy wszystkimi parami zestawów meblowych zestawiono w macierz odległości
𝑫 [4.49]. Mimo wprowadzenia dwóch nowych zmiennych najbardziej podobne do zestawu meblowego
Miron, ze względu na uwzględnione w badaniu parametry, okazały się zestawy Akwilon oraz Kwartet
(𝑑1;2 = 𝑑1;6 = 0,38).
90 4. Miary podobieństwa i niepodobieństwa

0,00 0,38 0,63 0,44 0,51 0,38 0,49


0,38 0,00 0,44 0,73 0,28 0,41 0,28
0,63 0,44 0,00 0,71 0,50 0,28 0,37
𝑫 = 0,44 0,73 0,71 0,00 0,37 0,95 0,32 [4.49]
0,51 0,28 0,50 0,37 0,00 0,66 0,49
0,38 0,41 0,28 0,95 0,66 0,00 0,44
[0,49 0,28 0,37 0,32 0,49 0,44 0,00]

4.4.2.Miary podobieństwa i niepodobieństwa w analizach regionalnych

W przypadku badań dotyczących danych regionalnych niezbędne jest uwzględnienie warunku spójności
terytorialnej grupowanych obiektów (DOMINIK i in. 1990, s. 108-125). CHOJNICKI i CZYŻ (1973, s. 69)
warunek ten nazywają przymusem spójności. Punktem wyjścia do tego działania jest stworzenie macie-
rzy sąsiedztwa terytorialnego 𝑪, nazywanej również macierzą wag przestrzennych (por. BUNGE 1962,
s. 53; KING 1969; PARYSEK 1982, s 172-173; JAJUGA 1991; GATNAR, WYWIAŁ 1998). Najczęściej
stosowaną macierzą sąsiedztwa terytorialnego jest macierz pierwszego stopnia – macierz zero-jedyn-
kowa, w której jedynki oznaczają, że dany region sąsiaduje z innym, czyli oba regiony posiadają
wspólną granicę. W przeciwnym wypadku w odpowiednim miejscu w macierzy sąsiedztwa pojawia się
zero (por. macierz [4.50]). Oczywiście możliwe jest zastosowanie macierzy sąsiedztwa drugiego i ko-
lejnego stopnia. Wtedy poziom sąsiedztwa jest oznaczony kolejnymi liczbami naturalnymi, przy czym
najbliższemu sąsiedztwu przypisana jest zawsze największa wartość. Zatem macierz sąsiedztwa teryto-
rialnego mierzy przestrzenne powiązania grupowanych jednostek. Macierze tego typu zostały wykorzy-
stane np. w badaniach KOPCZEWSKIEJ (2007, s. 55-68).
0 𝑐1;2 … 𝑐1𝑛
𝑐2;1 0 … 𝑐2𝑛
𝑪=[ ], [4.50]
⋮ ⋮ … ⋮
𝑐𝑛1 𝑐𝑛2 … 0

Macierz sąsiedztwa terytorialnego 𝑪 jest definiowana jako macierz kwadratowa, a jej niezerowe
elementy odpowiadają obszarom sąsiadującym według przyjętego kryterium. Podobnie jak w przy-
padku macierzy odległości, na przekątnej macierzy 𝑪 znajdują się zera.
Aby wymusić spełnienie warunku przestrzennej przyległości grupowanych obiektów w oparciu
o macierz sąsiedztwa terytorialnego 𝑪 [4.50] korygowana jest macierz odległości 𝑫 [4.5]. Przekształce-
nie to odbywa się dwuetapowo. W pierwszym kroku macierz sąsiedztwa terytorialnego 𝑪 modyfikuje
się w taki sposób, aby odzwierciedlała niepodobieństwo obiektów. W tym celu stosuje się przekształce-

nie 𝑐𝑖𝑗 = 1 − 𝑐𝑖𝑗 . W rezultacie otrzymuje się macierz 𝑪’, która zawiera zera i jedynki, przy czym zera
tym razem oznaczają sąsiadów. Następnie stosowany jest iloczyn Hadamarda (por. GATNAR, WYWIAŁ
1998) do przemnożenia macierzy odległości 𝑫 i macierzy 𝑪’:
𝑫′ = 𝑫 × 𝑪′, [4.51]

gdzie 𝑑𝑖𝑗 = 𝑑𝑖𝑗 ∙ 𝑐′𝑖𝑗 .
4.4. Pomiar podobieństwa i niepodobieństwa w sytuacjach specyficznych 91

Tak uzyskana skorygowana macierz odległości 𝑫′ jest podstawą grupowania. WYWIAŁ (1994), przy
uwzględnieniu warunku spójności terytorialnej, rekomenduje spośród wielu dostępnych w ramach me-
tod taksonomicznych algorytmów zastosowanie metody Warda6.

Przykład obliczeniowy:
korekta macierzy odległości o wartości macierzy sąsiedztwa terytorialnego
Macierz sąsiedztwa terytorialnego 𝑪 [4.50] wyznaczono na podstawie mapy departamentu poznań-
skiego z okresu Księstwa Warszawskiego, uwzględniającego podział na powiaty (rys. 4.1).

Rysunek 4.1. Mapa departamentu poznańskiego z 1810 r.

Źródło: BARANOWSKI (1966, mapa 53).

Podobnie jak w macierzy odległości pierwszy wiersz i pierwsza kolumna macierzy sąsiedztwa 𝑪
[4.52] odnosiła się do powiatu wschowskiego (𝑝1 ) (por. tabelę 1 w aneksie A). Powiat ten graniczy
z trzema powiatami: Krobia (𝑝2 ), Kościan (𝑝7 ) i Babimost (𝑝5 ). W związku z tym w pierwszej kolumnie
i w pierwszym wierszu elementy 𝑐1;2, 𝑐1;7 i 𝑐1;5 przyjęły wartości równe jedności, a pozostałe są równe
zeru. W ten sam sposób przeanalizowano sąsiedztwo w kolejnych powiatach.

6 Zostanie ona szczegółowo opisana w dalszych rozdziałach.


92 4. Miary podobieństwa i niepodobieństwa

0 1 0 0 1 0 1 0 0 0 0 0 0 0
1 0 0 1 0 0 1 1 0 0 0 0 0 0
0 0 0 0 1 1 0 0 0 0 0 0 1 0
0 1 0 0 0 0 0 1 0 1 0 1 0 0
1 0 1 0 0 0 1 0 0 0 0 0 1 0
0 0 1 0 0 0 0 0 1 0 0 0 1 1
1 1 0 0 1 0 0 1 0 0 0 0 1 0
𝑪= , [4.52]
0 1 0 1 0 0 1 0 1 0 0 1 1 0
0 0 0 0 0 1 0 1 0 1 1 1 1 1
0 0 0 1 0 0 0 0 1 0 1 1 0 0
0 0 0 0 0 0 0 0 1 1 0 0 0 0
0 0 0 1 0 0 0 1 1 1 0 0 0 0
0 0 1 0 1 1 1 1 1 0 0 0 0 1
[0 0 0 0 0 1 0 0 1 0 0 0 1 0]

Macierz sąsiedztwa terytorialnego 𝑪 [4.52] została przekształcona zgodnie ze wzorem



𝑐𝑖𝑗 = 1 − 𝑐𝑖𝑗 . Następnie przemnożono poszczególne jej elementy z odpowiadającymi im elementami
macierzy odległości 𝑫 [4.11]. W ten sposób macierz odległości została skorygowana o aspekt sąsiedz-
twa 𝑫’ [4.53]. Jej porównanie z macierzą odległości 𝑫 [4.11] prowadzi do wniosku, że wszystkie odle-
głości pomiędzy powiatami sąsiadującymi ze sobą zostały zastąpione zerami – czyli założono dla nich
maksymalne podobieństwo.

0,00 0,00 1,67 1,91 0,00 1,32 0,00 2,55 3,06 3,72 6,24 ⋯
0,00 0,00 2,17 0,00 1,39 1,81 0,00 0,00 2,03 2,79 3,88 ⋯
1,67 2,17 0,00 1,68 0,00 0,00 3,63 2,23 2,81 2,73 3,64 ⋯
1,91 0,00 1,68 0,00 1,59 0,88 1,67 0,00 1,00 0,00 1,75 ⋯
0,00 1,39 0,00 1,59 0,00 1,00 0,00 1,84 2,00 2,57 3,26 ⋯
1,32 1,81 0,00 0,88 1,00 0,00 2,58 1,11 0,00 1,24 2,53 ⋯
0,00 0,00 3,63 1,67 0,00 2,58 0,00 0,00 1,66 2,32 3,59 ⋯
𝑫′ = [4.53]
2,55 0,00 2,23 0,00 1,84 1,11 0,00 0,00 0,00 0,67 1,30 ⋯
3,06 2,03 2,81 1,00 2,00 0,00 1,66 0,00 0,00 0,00 0,00 ⋯
3,72 2,79 2,73 0,00 2,57 1,24 2,32 0,67 0,00 0,00 0,00 ⋯
6,24 3,88 2,64 1,75 3,26 2,53 3,59 1,30 0,00 0,00 0,00 ⋯
3,68 1,92 3,43 0,00 2,71 1,91 1,48 0,00 0,00 0,00 1,48 ⋯
4,24 2,50 0,00 1,10 0,00 0,00 0,00 0,00 0,00 0,88 1,17 ⋯
[4,01 2,61 2,94 1,37 2,52 0,00 2,19 0,75 0,00 1,43 1,80 ⋯]

4.4.3. Zmiany poziomu podobieństwa i niepodobieństwa w analizach dynamicznych

Jeżeli zjawisko społeczno-ekonomiczne jest analizowane nie tylko stacjonarnie, ale i w ujęciu dyna-
micznym, to uzyskiwana jest macierz odległości dla każdego z badanych okresów:
𝑡 𝑡
0 𝑑1;2 … 𝑑1𝑛
𝑡 𝑡
𝑫𝒕 = 𝑑2;1 0 … 𝑑2𝑛 , [4.54]
⋮ ⋮ ⋱ ⋮
𝑡 𝑡
[ 𝑑𝑛1 𝑑𝑛2 … 0 ]
𝑡
gdzie 𝑑𝑖𝑗 – wartość odległości pomiędzy 𝑖-tą oraz 𝑗-tą jednostką w okresie 𝑡, przy czym 𝑡 = 1,2, … , 𝑇.
4.4. Pomiar podobieństwa i niepodobieństwa w sytuacjach specyficznych 93

WYDYMUS (1988, s. 183) wskazuje, że znajomość ciągu macierzy odległości umożliwia śledzenie
procesu upodabniania się (lub oddalania) poszczególnych par jednostek pod względem badanych cech.
W takim przypadku można zapisać zmiany odległości pomiędzy dwoma jednostkami w badanym okre-
sie w postaci wektora [4.55]:
1 2 𝑇
[𝑑𝑖𝑗 , 𝑑𝑖𝑗 , … , 𝑑𝑖𝑗 ], [4.55]
gdzie:
𝑇 – liczba analizowanych okresów,
𝑡
𝑑𝑖𝑗 – wartość odległości pomiędzy jednostkami 𝑖-tą oraz 𝑗-tą w okresie 𝑡, przy czym 𝑡 = 1, 2, … , 𝑇.

ZELIAŚ (2000b, s. 100 za: NOWAK 1990, s. 154) proponuje do oceny zmian w poziomie odległości
między dwoma obiektami w badanym okresie zastosować indywidualny wskaźnik natężenia zmian
odległości:
𝑇
(𝑖) 1 𝑡 𝑡−1
𝑤𝑖𝑗 = ∑|𝑑𝑖𝑗 − 𝑑𝑖𝑗 |, [4.56]
𝑇−1
𝑡=2
gdzie:
(𝑖)
𝑤𝑖𝑗 – indywidualny wskaźnik natężenia zmian odległości pomiędzy jednostkami 𝑖-tą oraz 𝑗-tą,
𝑇 – liczba analizowanych okresów, przy czym 𝑡 = 1, 2, … , 𝑇,
𝑡
𝑑𝑖𝑗 – wartość odległości pomiędzy jednostkami 𝑖-tą oraz 𝑗-tą w okresie 𝑡,
𝑡−1
𝑑𝑖𝑗 – wartość odległości pomiędzy jednostkami 𝑖-tą oraz 𝑗-tą w okresie poprzedzającym okres 𝑡.

Zaproponowany przez NOWAKA (1990, s. 154) wskaźnik funkcjonuje także w wersji względnej jako
względny wskaźnik natężenia zmian odległości:
𝑡 𝑇 𝑡−1
(𝑤) 1 |𝑑𝑖𝑗 − 𝑑𝑖𝑗 |
𝑤𝑖𝑗 = ∑ 𝑡−1 , [4.57]
𝑇−1 𝑑𝑖𝑗
𝑡=2
gdzie oznaczenia są analogiczne jak we wzorze [4.56].

Pierwszy z wymienionych wskaźników (wzór [4.56]) mierzy średnią zmianę odległości pomiędzy parą
obiektów, wyrażoną w wartościach bezwzględnych w badanym okresie. Natomiast drugi wskaźnik
(wzór [4.57]) można interpretować jako średnią procentową zmianę odległości wielowymiarowej po-
między parą jednostek. Niska wartość obu wskaźników świadczy o niewielkich przeciętnych wahaniach
w poziomie odległości pomiędzy jednostkami 𝑖-tą oraz 𝑗-tą w badanym okresie (ZELIAŚ 2000b, s. 101).
Oba przedstawione wyżej wskaźniki, wyznaczone dla każdej pary obiektów, można zapisać w for-
mie macierzy, której wiersze i kolumny będą odpowiadały poszczególnym jednostkom. Jej przykład
w odniesieniu do względnych wskaźników natężenia zmian odległości przestawiono jako macierz
𝑫𝒘 [4.58].
(𝑤) (𝑤)
0 𝑤1;2 … 𝑤1𝑛
(𝑤) (𝑤)
𝑫𝒘 = 𝑤2;1 0 … 𝑤2𝑛 . [4.58]
⋮ ⋮ ⋱ ⋮
(𝑤) (𝑤)
𝑤
[ 𝑛1 𝑤𝑛2 … 0 ]
94 4. Miary podobieństwa i niepodobieństwa

Macierz 𝑫𝒘 [4.58], ze względu na interpretację jej składowych, może stanowić podstawę do oceny
konwergencji w badanym okresie pomiędzy analizowanymi jednostkami. Natomiast ze względu na kon-
strukcję matematyczną stanowi ona pewną formę macierzy odległości. Interpretacja wyników grupo-
wania obiektów w oparciu o taką macierz będzie jednak nieco inna. Obiekty należące do wyodrębnio-
nego w grupowaniu przykładowego skupienia w analizowanym okresie bardziej upodobniły się pod
względem badanych cech do siebie niż do obiektów nienależących do tego skupienia. Przy dużej liczbie
jednostek terytorialnych, analizowanych w czasie, umożliwia to wskazanie obszarów konwergencji
strukturalnej.
Podobne podejście do oceny zmian w przypadku analiz przestrzenno-czasowych zaproponował KU-
KUŁA (1975). Natomiast bardziej złożone propozycje miar podobieństwa macierzy odległości w ujęciu
dynamicznym, zbudowane w oparciu o rachunek macierzowy zaproponowane zostały w publikacji
TAKSONOMIA STRUKTUR… (1998, s. 49-55).

Przykład obliczeniowy: wskaźnik natężenia zmian odległości


Aby przedstawić ideę obliczeń związanych z wyznaczaniem wskaźnika natężenia zmian odległości, na-
wiązano do danych dotyczących wpływów budżetowych powiatów województwa poznańskiego, wyni-
kających z uiszczania przez różne grupy zawodowe podatku dochodowego i podatku obrotowego w la-
tach 1958-1970. W badanym okresie wybrano do analizy następujące lata: 1958, 1961, 1964, 1967,
1970. Odpowiednie dane ilościowe zawierają tabele 8-12, zestawione w Aneksie A. Dla każdego z nich
wyznaczono macierz odległości Renkonena w oparciu o sześć uwzględnionych w przykładzie zmien-
nych. W tym celu powtórzono procedurę przeprowadzoną dla danych z roku 1958, której efektem była
macierz 𝑫1958 [4.35]. Każda z macierzy zawierała 34 wiersze i tyle samo kolumn. Przy takich założe-
niach można zatem wyznaczyć 𝑛(𝑛 − 1)/2 = 561 wskaźników natężenia zmian odległości dla wszyst-
kich możliwych par powiatów.

Tabela 4.26. Obliczenia pomocnicze do wyznaczenia wskaźnika natężenia zmian odległości

Odległości Renkonena 𝑑𝑖𝑗


Różnice w odległościach Renkonena 𝑑𝑖𝑗
wyznaczone dla poszczególnych lat:
′61 ′58 ′64 ′61 ′67 ′64 ′70 ′67
|𝑑𝑖𝑗 − 𝑑𝑖𝑗 | |𝑑𝑖𝑗 − 𝑑𝑖𝑗 | |𝑑𝑖𝑗 − 𝑑𝑖𝑗 | |𝑑𝑖𝑗 − 𝑑𝑖𝑗 |
1958 1961 1964 1967 1970 ′58 ′61 ′64 ′67
𝑑𝑖𝑗 𝑑𝑖𝑗 𝑑𝑖𝑗 𝑑𝑖𝑗
𝑑1;2 0,21 0,17 0,07 0,05 0,05 0,17 0,57 0,39 0,00
𝑑1;3 0,14 0,18 0,16 0,14 0,12 0,33 0,12 0,12 0,16
𝑑1;4 0,10 0,10 0,11 0,13 0,05 0,09 0,07 0,17 0,60
𝑑1;5 0,17 0,11 0,07 0,18 0,08 0,38 0,32 1,51 0,54
Źródło: obliczenia własne.

Aby przez ogrom obliczeń nie zatracić idei wspominanych wskaźników, w tabeli 4.26 przedsta-
wiono obliczenia niezbędne do wyznaczenia względnych wskaźników odległości (por. wzór [4.57]) dla
odległości pomiędzy powiatem chodzieskim (𝑝1 ), a powiatami: czarnkowskim (𝑝2 ), gnieźnieńskim
(𝑝3 ), gostyńskim (𝑝4 ) oraz jarocińskim (𝑝5 ). Pierwsze kolumny tabeli 4.26 zawierają fragmenty macie-
rzy odległości Renkonena dotyczące wymienionych par powiatów, wyznaczone dla danych z pięciu ba-
danych lat. Stanowią one zatem składowe wektora [4.55]. Kolejne kolumny tabeli 4.26 odnoszą się już
do poszczególnych elementów względnego wskaźnika natężenia zmian odległości [4.57]:
4.4. Pomiar podobieństwa i niepodobieństwa w sytuacjach specyficznych 95

względny wskaźnik natężenia zmian odległości:


(𝑤) 1
𝑤1;2 = (0,17 + 0,57 + 0,39 + 0,00) = 0,28;
5−1
(𝑤) 1
𝑤1;3 = (0,33 + 0,12 + 0,12 + 0,16) = 0,18;
5−1
(𝑤) 1
𝑤1;4 = (0,09 + 0,07 + 0,17 + 0,60) = 0,23;
5−1
(𝑤) 1
𝑤1;5 = (0,38 + 0,32 + 1,51 + 0,54) = 0,69;
5−1
Biorąc pod uwagę cztery analizowane pary obiektów, można powiedzieć, że średnio największe
zmiany odległości ze względu na wpływy podatkowe, wystąpiły pomiędzy powiatem chodzieskim a po-
wiatem jarocińskim. Wyniosły one średnio 69% w stosunku do roku poprzedniego.
5
Dobór zmiennych do badania

W badaniach historycznych często występuje konieczność analizy badanego zjawiska za pomocą dużej
liczby zmiennych. Uwzględnienie wszystkich dostępnych zmiennych w opisie jest czasochłonne, a po-
nadto może prowadzić do zwiększenia objętości opracowania, nie wnosząc dodatkowych treści do
pracy. Ustalenie zestawu zmiennych, które ostatecznie powinny wziąć udział w badaniu, jest jednym
z najważniejszych, a jednocześnie najtrudniejszych zagadnień w wielowymiarowej analizie statystycz-
nej (NOWAK 1981a; WALESIAK 1996b, s. 25-26). To właśnie odpowiednio przeprowadzony dobór
zmiennych decyduje o trafności i wiarygodności końcowego wnioskowania.
Wybór zmiennych, ostatecznie uwzględnionych w badaniu, poprzedza skonstruowanie na podsta-
wie wiedzy merytorycznej wstępnej listy zmiennych, które objaśniają przedmiot badania. NOWAK
(1981a) podkreśla, że mniejszym błędem jest wprowadzenie w początkowej fazie zmiennych nieistot-
nych niż ich pominięcie. W drugim etapie tego procesu badacz podejmuje działania zmierzające do
selekcji wstępnej listy zmiennych. Polegają one na eliminacji zmiennych powielających informacje do-
starczane przez inne zmienne oraz usunięcie zmiennych będących nośnikami informacji przypadko-
wych. Ograniczenie liczby zmiennych jest konieczne również z tego powodu, że zbyt liczny zbiór
zmiennych diagnostycznych biorących udział w badaniu często utrudnia, a niekiedy nawet uniemożli-
wia klasyfikację obiektów wielocechowych (ZELIAŚ 1989, s. 36-43; 2000a, s. 37). Punktem wyjścia
tego działania są kryteria związane z własnościami zmiennych oraz ich wartością informacyjną. Pierw-
sze z nich zostały opisane w rozdziale trzecim. Natomiast ocena wartości informacyjnej zmiennych wy-
maga nie tylko wiedzy merytorycznej o badanym zjawisku (HAIR i in. 1995, s. 428; RUNGE 2006, s. 81),
ale także zastosowania adekwatnych metod statystycznych (GRABIŃSKI i in. 1982). W efekcie tego dzia-
łania powstaje lista zmiennych diagnostycznych.
Należy zauważyć, że proces doboru zmiennych diagnostycznych jest szczególnie istotny w grupo-
waniu. Wśród nielicznych słabych stron analizy skupień wymienia się właśnie małą jej odporność na
skorelowanie zmiennych (ROGERS, TANIMOTO 1960). Zastosowanie jako podstawy grupowania zmien-
nych skorelowanych powoduje, że wpływ tych zmiennych na wynik grupowania jest większy (por. HAIR
i in. 1995, s. 436). Co więcej, EVERITT (1980, s. 9-10) podkreśla, że na podobieństwo czy różnice po-
między obiektami wpływa nie tylko wartość zmiennych porównywanych obiektów, ale także ich liczba.
Z kolei MAREK (1989, s. 110-111) warunkuje uzyskanie rzetelnego opisu struktury badanej rzeczywi-
stości koniecznością uwzględnienia w analizie wyłącznie zmiennych esencjalnych, opisujących grupo-
wane obiekty. Wprowadzenie zmiennych nieesencjalnych jest jeszcze jednym (dodatkowym) źródłem
zniekształceń przestrzeni oraz zaburzeń struktury i zawartości skupień.
STECZKOWSKI i ZELIAŚ (1997, s. 32) za FIERICHEM (1957) sformułowali ogólne postulaty, które
powinny spełniać zmienne diagnostyczne. Najważniejszy z nich (1) głosi, że wybrane zmienne po-
winny w najlepszy możliwy sposób ujmować istotne właściwości badanej zbiorowości. Drugi postulat
(2) to dążenie do przyjmowania cech prostych i logicznie powiązanych z przedmiotem badania. Ważne
jest także, (3) aby zmienne diagnostyczne były jednoznacznie określone co do ich jednostki i interpre-
98 5. Dobór zmiennych do badania

tacji. Kolejny postulat (4) głosi, że zmienne powinny dobrze i ostro rozgraniczać typy, przy czym bar-
dziej diagnostyczne są zawsze te zmienne, które charakteryzują się większą zmiennością. Postulat (5)
równego wpływu na przeprowadzaną typologię związany jest z wcześniej omówioną koniecznością nor-
malizacji zmiennych. Ostatnia sugestia (6) dotyczy korelacji zmiennych. Zmienne uznane za diagno-
styczne nie powinny być ze sobą zbyt ściśle skorelowane.
Znanych jest wiele metod selekcji zmiennych uwzględniających wyżej wymienione wymagania
(zob. np.: HELLWIG 1969; CHOJNICKI, CZYŻ 1973, s. 23-37; KOLUPA, NAPIÓRKOWSKI 1979; ZELIAŚ
1982; GRABIŃSKI i in. 1982; NOWAK 1984, s. 110-116; SOBCZAK, MALINA 1985; PLUTA 1986; ZELIAŚ
2000a). Znamienne jest jednak, że źródłem ich powstania była często konieczność opracowania boga-
tego materiału uzyskanego w wyniku dociekań historycznych. Przykładem tego typu motywacji jest
najstarsza metoda Czekanowskiego oraz taksonomia wrocławska. Można zatem powiedzieć, że właśnie
rezultaty badań historycznych, a w szczególności archeologicznych, stały się motywatorem do rozwoju
metod taksonomicznych.
Procedury postępowania przy doborze zmiennych można podzielić zasadniczo na dwie grupy.
Pierwszą z nich tworzą metody pozwalające na bezpośredni wybór zmiennych diagnostycznych ze
wstępnej listy zmiennych bez jej wcześniejszego podziału na grupy (ZELIAŚ 2000a, s. 40, GRABIŃSKI
1992, s. 43-47). Drugie podejście tworzą tzw. dualne procedury taksonomiczne, które polegają na
podziale wstępnej listy zmiennych na grupy silnie ze sobą powiązane, a następnie na wyborze reprezen-
tantek poszczególnych grup, które tworzą listę zmiennych diagnostycznych. Na podstawie wyodrębnio-
nych grup, zamiast wyboru reprezentantek, można stworzyć zmienną syntetyczną (zob. np.: NOWAK
1984, s. 108-138; GRABIŃSKI i in. 1990, 37-39). Podejście takie wymaga dodatkowego rozróżnienia
zmiennych na stymulanty i destymulanty. Działanie takie jest jednak związane z utratą bezpośrednich
możliwości interpretacyjnych. MŁODAK (2006, s. 32) proponuje stworzenie „sztucznej” zmiennej po-
przez dodanie odpowiednich wartości silnie ze sobą skorelowanych cech. Postępowanie to warunko-
wane jest wyrażeniem zmiennych w tej samej skali pomiarowej i ich spójnością logiczną.
Tematyka doboru zmiennych jest szeroka i bogata w literaturę i opracowania. Prezentację selekcji
zmiennych można znaleźć niemal w każdej publikacji dotyczącej zastosowania analizy skupień (zob.
np.: DILLON, GOLDSTEIN 1984, s. 20-21). Spektakularnym przykładem procedury selekcji zmiennych
jest praca SOKOŁOWSKIEGO i ZAJĄCA (1987, s.144-171), którzy zredukowali bazę czterdziestu dwu
zmiennych do trzech zmiennych diagnostycznych, które następnie uwzględnili w końcowej analizie.
Tego typu badania przeprowadziła także SŁODOWA-HEŁPA (1988, s. 228-229) w odniesieniu do prze-
strzennego zróżnicowania struktury społeczno-ekonomicznej wsi wielkopolskiej w latach 1960-1970.
Z kolei BERRY (1961), EVERITT i DUNN (1991, s. 45-66) oraz GRABIŃSKI (1992, s. 42-61) w ramach
procedur selekcji zmiennych rekomendują zastosowanie jednej z metod wielowymiarowych – analizę
czynnikową, w tym metodę składowych głównych lub analizę korespondencji. Natomiast propozycję
zastosowania metod modelowych i heurystycznych selekcji zmiennych w analizie skupień można zna-
leźć w publikacji KORZENIEWSKIEGO (2012). Część badaczy skłania się także do podejścia, w którym
różnym zmiennym nadaje się różne wagi. GRABIŃSKI (1985) dowiódł jednak, że najbardziej wskazane
jest używanie systemu wag stałych, tzn. że wszystkie zmienne powinny być traktowane w sposób rów-
noważny. Podejście to poleca także SOKOŁOWSKI (1992, s. 12).
W pracy przyjęto podział metod doboru zmiennych na dualne procedury taksonomiczne, metody
bezpośredniego wyboru zmiennych oraz metody stosowane w przypadku badań przekrojowo-czaso-
wych. Dodatkowo ich charakterystykę poprzedzono podrozdziałem, w którym uwzględniono sposoby
na wstępną selekcję zmiennych. Należy podkreślić, że liczba zaprezentowanych metod ograniczona zo-
stała ze względu na objętość pracy i podjętą tematykę. Kolejnym kryterium doboru przedstawionych
5.1. Wstępna statystyczna selekcja zmiennych 99

zagadnień była ich funkcjonalność i przydatność w badaniach historycznych. Co więcej, zaprezento-


wane metody cechuje prostota zastosowania. Każdą z nich można przeprowadzić, dysponując jedynie
arkuszem kalkulacyjnym Excel.
W odróżnieniu od zagadnień przedstawionych w rozdziale poprzednim przypisanie metod doboru
zmiennych do prezentowanych przykładów było losowe. Należy pamiętać, że w wyniku zastosowania
różnych metod do redukcji wstępnie zadanej listy zmiennych otrzymuje się z reguły różne zbiory zmien-
nych diagnostycznych, a więc różne wyniki tego procesu (NOWAK 1981a). W takiej sytuacji warto za-
stosować kilka metod wyboru zmiennych diagnostycznych i porównać uzyskane wyniki pod względem
zgodności rezultatów.

5.1. Wstępna statystyczna selekcja zmiennych

NOWAK (1990, s. 26) wskazuje, że wstępnym warunkiem uznania różnych wielkości za zmienne dia-
gnostyczne jest ich zdolność do dyskryminacji badanych obiektów. W tym celu bada się, czy potencjalne
zmienne odznaczają się dostatecznie dużą zmiennością. Do zbioru zmiennych nie powinny zostać za-
kwalifikowane te zmienne, które nie wykazują zmienności w obszarze badanych obiektów. Traktować
je należy jako stałe lub quasi-stałe. Zagadnienie to zajmuje także swoje miejsce wśród postulatów, jakie
powinny spełniać zmienne diagnostyczne, sformułowanych przez STECZKOWSKIEGO i ZELIASIA (1997,
s. 32; zob. także ZELIAŚ 1982, 2000a, s. 43).
Punktem wyjścia do eliminacji zmiennych stałych lub quasi-stałych wyrażonych w skali ilorazowej
może być wartość współczynnika zmienności, czyli iloraz odchylenia standardowego i średniej arytme-
tycznej:
𝑠𝑗
𝑣𝑗 = , [5.1]
|𝑥̅𝑗 |
gdzie:
𝑣𝑗 – współczynnik zmienności 𝑗-tej zmiennej, przy czym 𝑗 = 1, 2, … , 𝑚,
𝑠𝑗 – odchylenie standardowe 𝑗-tej zmiennej po wszystkich jednostkach,
𝑥̅𝑗 – średnia arytmetyczna 𝑗-tej zmiennej po wszystkich jednostkach.

Ponadto należy usunąć ze zbioru zmiennych potencjalnych te, dla których spełniona jest nierówność
[5.2]. Zwykle przyjmuje się, że progowa wartość współczynnika zmienności wynosi 𝜀 = 0,1 (por. MA-
LINA, ZELIAŚ 1997). Zmienne, które przekroczyły ten poziom, odznaczają się dostateczną zmiennością:

𝑣𝑗 ≤ 𝜀, [5.2]
gdzie 𝜀 jest arbitralnie zadaną małą liczbą dodatnią.

5.2 Dualne procedury taksonometryczne

Zmienne charakteryzujące złożone zjawiska ekonomiczne, tworzące zbiór potencjalnych zmiennych


diagnostycznych, najczęściej są w różnym stopniu ze sobą powiązane, co oznacza, że są nośnikami
podobnych informacji. ZELIAŚ (1982) zwraca uwagę, że zmienne ostatecznie uwzględnione w bada-
100 5. Dobór zmiennych do badania

niu nie powinny być wzajemnymi kombinacjami liniowymi. Nie mogą być zatem ze sobą silnie sko-
relowane. Zuważa on jednak, że sytuacja całkowitej eliminacji skorelowania zmiennych jest prak-
tycznie niemożliwa. Konieczne jest zatem wyznaczenie ich grup i dla każdej z nich wyznaczenie re-
prezentantów. Można oczywiście zastosować tu różne metody wielowymiarowe (zob. np.: ZELIAŚ
1968; 2000, s. 40).
Jedną z najczęściej stosowanych metod doboru zmiennych diagnostycznych polega na zastoso-
waniu dualnej procedury taksonometrycznej (GRABIŃSKI 1992, s. 44-47). Przebiega ona zwykle
w dwóch etapach. Pierwszy etap polega na grupowaniu zmiennych w przestrzeni obiektów lub okre-
sów przy pomocy jednej z procedur taksonometrycznych. Można tu zastosować metody diagramowe,
grafowe czy hierarchiczne. Przykłady tych metod zostaną opisane w kolejnych podrozdziałach.
W drugim etapie przeprowadza się wybór reprezentantek wyodrębnionych grup zmiennych, które
z kolei stworzą zbiór zmiennych diagnostycznych. Działanie to, niezależnie od przyjętej metody
w pierwszym etapie procedury dualnej, przebiega tak samo. Z tego powodu etap ten został opisany
w pierwszym podrozdziale.
Dualna procedura taksonomiczna była dotychczas wielokrotnie opisywana i stosowana w badaniach
społeczno-gospodarczych. Dla przykładu podejście takie zastosowali PODOLEC i ZAJĄC (1978, s. 59-
-66) w przypadku doboru zmiennych diagnostycznych oceniających rejony konsumpcji w Polsce. Na-
tomiast POCIECHA i in. (1988, s. 108-110) w opisywany sposób ograniczyli liczbę zmiennych w bada-
niach ekonomiczno-rolniczych, a FRANKOWSKI (1991, s. 24-26) w badaniach przedsiębiorstw przemy-
słowych.

5.2.1. Wybór najlepszych reprezentantek

Końcowym etapem dualnej procedury taksonomicznej jest wybór spośród pogrupowanych zmiennych
tej, która będzie reprezentować całą grupę. Wyboru takiego można dokonać subiektywnie, na podstawie
wiedzy merytorycznej. W bardziej złożonych sytuacjach można posiłkować się metodami statystycz-
nymi. PODOLEC i ZAJĄC (1978, s. 64-65) zwracają dodatkowo uwagę, że przy wyborze zmiennych-
-reprezentantek należy zrezygnować z takich, które odznaczają się niskim poziomem zmienności, oraz
ze zmiennych skorelowanych z tymi, które z przyczyn merytorycznych (a nie statystycznych) nie po-
winny być pominięte.
Zmienna-reprezentanka powinna oczywiście wchodzić w skład tej grupy, którą reprezentuje, oraz
jeżeli nie jest to grupa dwuelementowa, powinna być najbardziej podobna do pozostałych cech z tej
grupy (GRABIŃSKI 1992, s. 46). Jednocześnie stawiany jest wymóg słabego skorelowania z pozostałymi
zmiennymi diagnostycznymi oraz wspomnianej wyżej zdolności dyskryminacji badanych jednostek
(PLUTA 1977, s. 45). ZELIAŚ (2000a, s. 42) postuluje, aby wyselekcjonowane zmienne odznaczały się
niskim stopniem podobieństwa w sensie przynoszonych informacji o badanym zjawisku.
Założenia takie realizuje metoda środka ciężkości (PLUTA 1977, s. 41-42; POCIECHA i in. 1988,
s. 105-106). W tym celu w wieloelementowych grupach zmiennych oblicza się odległość każdej zmien-
nej od pozostałych według wzoru [5.3], a następnie wybiera się taką, dla której suma wyznaczonych
w ten sposób odległości jest najmniejsza.
𝑛𝑙

𝐷𝑖𝑤 = ∑ 𝑑𝑖𝑗 , [5.3]


𝑖≠𝑗;𝑗=1
5.2 Dualne procedury taksonometryczne 101

gdzie:
𝐷𝑖𝑤 – suma odległości 𝑖-tej zmiennej od pozostałych zmiennych w 𝑙-tej grupie,
𝑛𝑙 – liczba zmiennych w 𝑙-tej grupie,
𝑑𝑖𝑗 – wartość odległości 𝑖-tej zmiennej od 𝑗-tej zmiennej, przy czym 𝑖 ≠ 𝑗 oraz 𝑗 = 1, 2, … , 𝑛𝑙 .

Jeżeli grupa zmiennych jest dwuelementowa, to wybiera się tę zmienną, która jest najbardziej od-
dalona od wcześniej ustalonych reprezentantek. Taki warunek spełnia ta zmienna, dla której suma od-
ległości między nią a wcześniej wybranymi zmiennymi, przedstawiona jako wzór [5.4], jest większa.
𝑔−𝑘

𝐷𝑖𝑧 = ∑ 𝑑𝑖𝑗 [5.4]


𝑖≠𝑗;𝑗=1

gdzie:
𝐷𝑖𝑧 – suma odległości 𝑖-tej zmiennej od pozostałych zmiennych-reprezentantek,
𝑔 – liczba wyodrębnionych grup zmiennych, przy czym 𝑙 = 1, 2, … , 𝑔,
𝑘 – liczba grup dwuelementowych,
𝑑𝑖𝑗 – wartość odległości 𝑖-tej zmiennej od 𝑗-tej zmiennej-reprezentantki jednej z pozostałych grup, przy
czym 𝑖 ≠ 𝑗 oraz 𝑗 = 1, 2, … , 𝑔 − 𝑘.

Uzyskany w ten sposób zbiór zmiennych diagnostycznych spełnia postulat, że reprezentantki po-
winny w jak największym stopniu reprezentować cechy swojej grupy i jednocześnie być możliwie różne
od zmiennych reprezentujących inne grupy.
W pewnych sytuacjach można zamiast wybierać reprezentantki grup zmiennych, wyrazić grupę
zmiennych za pomocą jednej zmiennej syntetycznej (PLUTA 1977, s. 77-88). W tym celu rekomendo-
wane są np. metody porządkowania liniowego czy metody analizy czynnikowej. Nie będą one jednak
rozważane w tym rozdziale.

5.2.2. Metoda Czekanowskiego

Za najstarszą procedurę taksonomiczną jest uznawana metoda Czekanowskiego (NOWAK 1990, s. 64).
Jak wspomniano wcześniej, została ona opracowana przez polskiego uczonego Jana Czekanowskiego
na początku XX w. (CZEKANOWSKI 1913). W literaturze funkcjonuje ona pod nazwą metody różnic,
metody różnic przeciętnych, metody podobieństwa, diagraficznej metody Czekanowskiego (por.: HEN-
ZEL 1953; SZPADERSKI 1960; GŁUGIEWICZ 1960; LICZKOWSKI 1961; FAJFEREK 1965; PODOLEC, ZA-
JĄC 1978, s. 38). Zalicza się ona do metod bezwzorcowych, iteracyjnych.
Metodę tę można stosować do grupowania różnego typu jednostek taksonomicznych: obiektów,
zmiennych czy okresów (GRABIŃSKI 1992, s. 77). STECZKOWSKI i ZELIAŚ (1981, s. 24) za GŁUGIEWI-
CZEM (1960) podkreślają, że wśród jej zalet należy wymienić fakt, że oprócz wskazania związków naj-
bliższych nie gubi i nie zaciera związków dalszych. Dotychczas znalazła ona zastosowanie w różnych
typach badań, również przy grupowaniu obiektów i rejonizacji (GŁUGIEWICZ 1960; SZPADERSKI 1960;
FAJFEREK 1965; WYSOCKI 1965; ZAMBRZYCKA-KUNACHOWICZ 1974a; PLIT 1979; STECZKOWSKI, ZE-
LIAŚ 1981; KOLENDA 2006; RUNGE 2006, s. 206-212). STECZKOWSKI i ZELIAŚ (1997, s. 36-43) zasto-
102 5. Dobór zmiennych do badania

sowali tę metodę w badaniach jakościowych, natomiast NAJGRAKOWSKI (1976) do określania zróżni-


cowania rozwoju społeczno-gospodarczego Polski na podstawie danych dla 323 jednostek terytorial-
nych. Natomiast DOMAŃSKI (1986) z wykorzystaniem tej metody badał zróżnicowanie regionalne miast
i gmin województwa poznańskiego w latach 1979-1981. W niniejszym opracowaniu procedura metody
Czekanowskiego zostanie opisana w odniesieniu do taksonomii zmiennych.
STOKOWSKI (1971) wskazuje jednak, że w przypadku analizy dużego zbioru zmiennych metoda
Czekanowskiego może prowadzić do niejednoznacznych wniosków. Co więcej, LICZKOWSKI (1961,
s. 40) oraz GRABIŃSKI (1992, s. 78) wskazują na trudność w grupowaniu jednostek, gdy w zbiorze za-
miast rozłącznych grup pojawią się grupy w postaci „łańcuszków”. Problemem może być również duża
pracochłonność metody Czekanowskiego, zwłaszcza przy klasyfikowaniu większych zbiorów liczących
powyżej stu elementów.
Grupowanie zmiennych za pomocą metody Czekanowskiego przebiega w kilku etapach (por. PO-
DOLEC, ZAJĄC 1978, s. 33-38; STECZKOWSKI, ZELIAŚ 1981, s. 24; GRABIŃSKI 1992, s. 77-78). Punktem
wyjścia diagraficznej metody Czekanowskiego jest (1) dowolnie zdefiniowana, symetryczna macierz
odległości pomiędzy zmiennymi opisującymi obiekty. Odległości zawarte w tej macierzy w drugim
kroku (2) są dzielone na klasy, a klasom tym przyporządkowuje się odpowiednie symbole graficzne,
które odzwierciedlają różne poziomy mierników odległości. Na podstawie tych klas (3) sporządzany
jest diagram Czekanowskiego. Następnie (4) diagram ten jest w taki sposób porządkowany, aby wzdłuż
jego głównej przekątnej znajdowały się elementy możliwie najmniejsze, a wraz z oddalaniem się od
głównej przekątnej wartości pojawiających się mierników odległości były coraz większe. W rezultacie
uzyskuje się uporządkowany diagram Czekanowskiego, który pozwala na (5) wyznaczenie grup zmien-
nych. Ostatnim etapem postępowania jest (6) ocena poprawności grupowania.
Przykładowy przebieg procesu grupowania zmiennych w oparciu o metodę Czekanowskiego przed-
stawiono na rys. 5.1. Należy jednak przypomnieć, że ze względu na fakt grupowania zmiennych przy-
gotowanie macierzy odległości (etap 1) powinno bazować na ich wzajemnych korelacjach. Proces two-
rzenia macierzy korelacji został szczegółowo opisany w rozdziale czwartym.
Pewną trudność w metodzie Czekanowskiego przysparza podzielenie wartości odległości, które po-
jawiły się w macierzy odległości, na klasy (etap 2). O zagadnieniu tym wspominali m.in. LICZKOWSKI
(1961, s. 40) oraz GRABIŃSKI (1992, s. 78). ZAJĄC (1967, s.102) oraz STECZKOWSKI (1970, s. 35) sfor-
mułowali w tym zakresie zalecenia, które zawarto w tabeli 5.1. Oprócz ustalenia liczby klas należy pod-
jąć decyzję o ich granicach. Jedną z możliwości jest wykorzystanie własności percentyli.

Tabela 5.1. Zalecana liczba klas odległości w zależności od liczby grupowanych jednostek

Liczba grupowanych jednostek staty-


Zalecana liczba klas odległości
stycznych
40-60 6-8
60-100 7-10
100-200 9-12
Źródło: ZAJĄC (1967, s.102) oraz STECZKOWSKI (1970, s. 35).

Etap 3 polega na wyznaczeniu nieuporządkowanego diagramu Czekanowskiego. W tym celu do


wyznaczonych przedziałów odległości przyporządkowuje się oznaczenia graficzne. Dla kategorii o naj-
mniejszych odległościach powinny być one najciemniejsze, a dla kategorii obejmującej odległości naj-
większe powinno być przypisane puste okienko. Znakami graficznymi zastępuje się (bądź koloruje)
poszczególne okienka macierzy odległości (por. rys. 5.1).
5.2 Dualne procedury taksonometryczne 103

Rysunek 5.1. Wybrane etapy metody Czekanowskiego

Etap 1. Macierz odległości


0,00 4,21 6,13 4,18 4,16
4,21 0,00 6,20 2,58 4,80
𝑫 = 6,13 6,20 0,00 8,10 2,15
4,18 2,58 8,10 0,00 4,40
[4,16 4,80 2,15 4,40 0,00]

Etap 2. Wyodrębnienie klas odległości między zmiennymi

𝑑𝑖𝑗 ≤ 3 3 < 𝑑𝑖𝑗 ≤ 5 5 < 𝑑𝑖𝑗 ≤ 8 𝑑𝑖𝑗 > 8

Etap 3. Nieuporządkowany diagram Czekanowskiego


𝑋1 𝑋2 𝑋3 𝑋4 𝑋5

𝑋1 0,00 4,21 6,13 4,18 4,16

𝑋2 4,21 0,00 6,20 2,58 4,80

𝑋3 6,13 6,20 0,00 8,10 2,15

𝑋4 4,18 2,58 8,10 0,00 4,40

𝑋5 4,16 4,80 2,15 4,40 0,00

Etap 4. Uporządkowany diagram Czekanowskiego


𝑋3 𝑋5 𝑋1 𝑋2 𝑋4

𝑋3 0,00 2,15 6,13 6,20 8,10

𝑋5 2,15 0,00 4,16 4,80 4,40

𝑋1 6,13 4,16 0,00 4,21 4,18

𝑋2 6,20 4,80 4,21 0,00 2,58

𝑋4 8,10 4,40 4,18 2,58 0,00

Etap 5. Wyznaczenie grup zmiennych


Podział 1: {X3 , X5 }, {X1 },{X2 , X4 };
Podział 2: {X3 , X5 , X1 },{X2 , X4 };
Podział 3: {X3 , X5 },{X1 , X2 , X4 }.

Etap 6. Ocena poprawności grupowania zmiennych [por. wzór [5.6])


𝑝𝑏𝑤 𝑝𝑑𝑧
𝑊𝑝 = ∗ ; 𝑝𝑏𝑤 to połączenia 𝑑𝑖𝑗 < 3; podział 1 można uznać za optymalny
𝑊 𝑍
9 16
Podział 1: 𝑊1 = ∗ =1
9 16
9 12
Podział 2: 𝑊2 = ∗ = 0,69;
13 12
9 12
Podział 3: 𝑊3 = ∗ = 0,69;
13 12

Wynik grupowania: {X3 , X5 }, {X2 , X4 }, {X1 }.

Źródło: opracowanie własne.


104 5. Dobór zmiennych do badania

Można także ograniczyć pracochłonność porządkowania diagramu Czekanowskiego (etap 4). Sto-
sowne rozwiązanie zaproponował GRABIŃSKI (1989a), łącząc ten etap z oceną poprawności uporząd-
kowania macierzy odległości. Kryterium poprawności uporządkowania macierzy odległości – funkcję
𝐹 – zapisano jako wzór [5.5]. Diagram Czekanowskiego należy porządkować do momentu, gdy funkcja
𝐹 osiągnie maksimum. Przy takim uporządkowaniu wierszy i kolumn macierzy odległości należy po-
zostać. Należy je uznać za optymalne i na jegp podstawie dokonać podziału zmiennych na grupy.
𝑚 𝑚

𝐹 = ∑ ∑ 𝑑𝑖𝑗 𝑢𝑖𝑗 , [5.5]


𝑖=1 𝑗>𝑖

gdzie:
𝐹 – kryterium określające poprawność uporządkowania diagramu Czekanowskiego,
𝑚 – liczba grupowanych zmiennych, przy czym 𝑖 = 1,2, … , 𝑚,
𝑑𝑖𝑗 – wartość odległości 𝑖-tej zmiennej od 𝑗-tej zmiennej,
𝑢𝑖𝑗 – wagi elementów macierzy odległości 𝑫, przy czym 𝑢𝑖𝑗 = |𝑖 − 𝑗|/(𝑚 − 1).

Ponadto GRABIŃSKI (1989a) zaproponował algorytm porządkowania diagramu Czekanowskiego,


który jest propozycją rozwiązania problemu dużej pracochłonności tej metody. Punktem wyjścia tej
procedury jest ustalenie wartości funkcji 𝐹 dla początkowego ustawienia grupowanych elementów ma-
cierzy. Następnie należy zamienić w kolumnach i wierszach kolejność dwóch pierwszych elementów.
Jeżeli wartość funkcji 𝐹 nie wzrośnie, to wracamy do uporządkowania wyjściowego. W przeciwnym
wypadku zachowujemy przeprowadzoną zamianę. W kolejnym kroku należy przeprowadzić transpozy-
cję elementu drugiego z trzecim i na podstawie kryterium 𝐹 zmianę tę zachować lub wrócić do stanu po
etapie drugim. Czynności te należy powtarzać w kolejnych parach zmiennych: trzeciej i czwartej,
czwartej i piątej itd., aż do przedostatniej i ostatniej kolumny (wiersza) diagramu Czekanowskiego. Je-
żeli diagram Czekanowskiego w tym momencie różni się od jego pierwotnej postaci, to należy powtó-
rzyć całą procedurę, to znaczy znów kolejno sprawdzać rezultaty zamiany kolejnych elementów. Jeśli
nie, to uporządkowanie można traktować jako optymalne.
Pewne trudności w procedurze metody Czekanowskiego przysparza także wyznaczenie ostatecz-
nych grup zmiennych (etap 5) na podstawie uporządkowanego już diagramu Czekanowskiego. W nie-
których przypadkach badacz musi podjąć decyzję do której grupy zaliczy zmienne sąsiadujące w dia-
gramie. Może także stworzyć dla takich zmiennych jednoelementowe grupy. Należy zatem przeanali-
zować kilka możliwości ostatecznego podziału zmiennych na grupy. O końcowej decyzji może przesą-
dzić przeprowadzona w ostatnim etapie procedury Czekanowskiego (etap 6) ocena poprawności gru-
powania. Można w tym celu wykorzystać wskaźnik poprawności podziału, zaproponowany przez
Barbarę PODOLEC oraz Kazimierza ZAJĄCA (1978, s. 37-38):
𝑝𝑏𝑤 𝑝𝑑𝑧
𝑊𝑝 = ∗ [5.6]
𝑊 𝑍
gdzie:
𝑊𝑝 – wskaźnik poprawności podziału,
𝑝𝑏𝑤 – liczba powiązań bliskich między obiektami wewnątrz wyodrębnionych grup,
𝑝𝑑𝑧 – liczba powiązań dalszych między obiektami na zewnątrz wyodrębnionych grup,
𝑊 – liczba wszystkich powiązań wewnątrz grup,
𝑍 – liczba wszystkich powiązań na zewnątrz grup.
5.2 Dualne procedury taksonometryczne 105

Wyznaczenie wskaźnika poprawności podziału polega zatem na zliczaniu odpowiednich komórek


uporządkowanego diagramu Czekanowskiego. Jeżeli na etapie drugim wyznaczono klasy odległości
pomiędzy zmiennymi, to za bliskie powiązania należy uznać te, które należą do pierwszego przedziału,
obejmującego najmniejsze odległości. Jeżeli wyznaczonych klas odległości było więcej, to za bliskie
powiązania można uznać dwie pierwsze wspomniane klasy. Pozostałe klasy należy traktować jako po-
wiązania dalsze.
Procedurę Czekanowskiego wykorzystano w jednym przykładów historycznych, zaprezentowanych
w części praktycznej w rozdziale jedenastym dotyczącym identyfikacji dokumentów lub tekstów. We
wspomnianym przykładzie posłużyła ona do ograniczenia liczby zmiennych biorących udział w grupo-
waniu.

5.2.3. Taksonomia wrocławska

Metoda taksonomia wrocławska, przyjęła swoją nazwę, ze względu na fakt, że została opracowana na
początku lat 50. XX wieku przez naukowców tworzących Grupę Zastosowań Państwowego Instytutu
Matematycznego we Wrocławiu, na której czele stał Hugo Steinhaus (1887-1972). W literaturze funk-
cjonuje ona także pod nazwą metoda dendrytowa.
Taksonomia wrocławska należy do grupy hierarchicznych procedur taksonomicznych (FLOREK i in.
1951). Na etapie budowy grafów można ją zaliczyć do metod stosujących procedury aglomeracyjne,
a przy analizie powstałych dendrytów konieczne jest zastosowanie procedur podziału. W metodzie tej
do prezentacji wyników stosuje się graf – dendryt. Jest on definiowany przez autorów jako linia łamana
„…która może się rozgałęziać, lecz nie może zawierać łamanych zamkniętych i taka, że każde dwa
punkty zbioru 𝑍 są przez nią połączone”. Dendryt uzyskany w wyniku zastosowania tej metody jest
dendrytem o najmniejszych odległościach pomiędzy poszczególnymi elementami (PLUTA 1977, s. 29;
GRABIŃSKI 1992, s. 89-91).
Przykłady zastosowań taksonomii wrocławskiej można znaleźć w pracach HELLWIGA (1968),
SZCZOTKI (1972), FRĄCKIEWICZ i ZADĘCKIEGO (1973), NOWAKA (1990, s. 72-80). Taksonomia wro-
cławska jest stosowana również współcześnie (zob. np.: KOWALEWSKI 2006). Do doboru zmiennych
proponuje ją także ZELIAŚ (1982). W badaniach demograficznych korzystał z niej STOKOWSKI (1971),
a w badaniach dążących do wyodrębnienia regionów jednolitych PLIT (1979) czy SZCZEPANIAK (1990).
Współczesnym przykładem wykorzystania tej metody w badaniach historycznych jest analiza proble-
mów demograficznych i zdrowotność głównych ośrodków miejskich na Pomorzu Zachodnim
w XIX w., zawarta w monografii Dariusza K. CHOJECKIEGO (2014, s. 47-50).
Metodzie tej przypisuje się wiele zalet, takich jak duża czytelność i poprawność formalna procedury.
Nie daje ona jednak pełnego obrazu przestrzeni, w której znajdują się badane obiekty, jak ma to miejsce
w przypadku metody Czekanowskiego (PODOLEC, ZAJĄC 1978, s. 39). Co więcej, SIEDLECKA (1976)
wskazuje na to, że w taksonomii wrocławskiej zakładana jest przechodniość relacji podobieństwa mię-
dzy elementami zbiorów. Niemniej jednak opisywana metoda znajduje zastosowanie w grupowaniu za-
równo obiektów, jak i zmiennych.
Zastosowanie taksonomii wrocławskiej w przypadku grupowania zmiennych przebiega w kilku eta-
pach (por. PLUTA 1977, s. 28-32; GRABIŃSKI 1992, s. 90-91; SIEDLECKA 1999). Podobnie jak w meto-
dzie Czekanowskiego pierwszy etap (1) polega na konfiguracji macierzy odległości pomiędzy zmien-
nymi. Etap drugi (2) to stworzenie dla każdej zmiennej i zmiennej jej najbliższej grafu niezorientowa-
nego. W kolejnym kroku (3) wszystkie grafy niezorientowane łączy się w jeden graf spójny. Nazywany
106 5. Dobór zmiennych do badania

jest on także dendrytem wrocławskim. Aby uzyskać podział na grupy zmienne, graf ten należy ostat-
nim kroku (4) odpowiednio podzielić.
Tworzenie macierzy odległości (etap 1) dla zmiennych, w zależności od skali w której zostały wy-
rażone, zostało opisane w rozdziale poprzednim. Aby stworzyć w etapie 2 grafy niezorientowane, na-
leży w każdym wierszu (lub kolumnie) macierzy odległości wskazać parę obiektów najbardziej podob-
nych, czyli najbliższych sobie. W przykładzie zaprezentowanym na rysunku 5.2 zapisano je w postaci
wektora 𝑑𝑚𝑖𝑛 . Otrzymane wartości przedstawia się w postaci grafów, w których długości krawędzi od-
powiadają odległościom pomiędzy zmiennymi.
W następnym etapie (etap 3) łączy się grafy niezorientowane. Jeżeli wszystkie obiekty tworzą jedną
całość, to graf można uznać za spójny. Jeśli tak nie jest, to jego poszczególne składowe łączy się ze sobą
w miejscu wyznaczonym przez minimalną odległość między zmiennymi – wierzchołkami – należącymi
do łączonych składowych. W przedstawionym na rysunku 5.2 przykładzie zmienne 𝑋1 , 𝑋3 oraz 𝑋5 stwo-
rzyły jeden graf. Analizując odległości zmiennej 𝑋2 do wymienionych zmiennych, mamy:
𝑑2;1 = 4,21, 𝑑2;3 = 6,2, 𝑑2;5 = 4,8. Z kolei odległości wyznaczone dla zmiennej 𝑋4 , wynoszą odpo-
wiednio: 𝑑4;1 = 4,18, 𝑑4;3 = 8,1, 𝑑4;5 = 4,4. Zatem najmniejsza z wymienionych odległości to 𝑑4;1 =
4,18. W konsekwencji połączenie grafów nastąpi między wierzchołkiem 𝑋4 oraz 𝑋1 . W ten sposób
połączono wszystkie zmienne w jednym grafie.
W celu uzyskania podziału zbioru zmiennych na dowolną liczę grup (etap 4), należy w odpowied-
nich miejscach poprzecinać uzyskany dendryt. Liczba skupień zmiennych 𝑙 może być ustalana arbitral-
nie przez badacza. Natomiast aby wskazać miejsca przecięcia dendrytu, należy uporządkować wszystkie
wyznaczone w grafie krawędzie malejąco oraz usunąć odpowiednią liczbę najdłuższych połączeń. Jeżeli
ostatecznie ma być 𝑙 grup zmiennych, to należy odrzucić 𝑙 − 1 najdłuższych krawędzi. Takie uporząd-
kowanie przyjmie postać zapisaną jako wzór [5.7]:

𝑑1 > 𝑑2 > ⋯ > 𝑑𝑘 , [5.7]


gdzie:
𝑑1 – najdłuższa z krawędzi w dendrycie wrocławskim,
𝑑𝑘 – najkrótsza z krawędzi w dendrycie wrocławskim,
𝑘 – liczba krawędzi w dendrycie wrocławskim.

Aby uzyskać dwie grupy zmiennych (𝑔 = 2) należy usunąć połączenie 𝑑1 . Jeżeli odrzucone zostałyby
dwie najdłuższe krawędzie w dendrycie wrocławskim (𝑑1 oraz 𝑑2 ), to zmienne zostałyby podzielone
na trzy grupy (𝑔 = 3).
Bardziej sformalizowaną procedurę przecięcia dendrogramu wrocławskiego – regułę stopu – przed-
stawił HELLWIG (1968). Podejście to można uznać za tożsame z zaproponowanym przez MOJENĘ
(1977). Zgodnie z nim w dendrycie wrocławskim należy odrzucić wszystkie krawędzie dłuższe od war-
tości krytycznej 𝑑∗ , którą zdefiniowano jako (por. GRABIŃSKI 1989a):

𝑑∗ = 𝑑̅ + 𝑘𝑠𝑑 , [5.8]
gdzie:
𝑑∗ – krytyczna wartość długości krawędzi w dendrycie wrocławskim,
𝑑̅ – średnia najbliższych połączeń w dendrycie wrocławskim,
𝑠𝑑 – odchylenie standardowe najbliższych połączeń w dendrycie wrocławskim,
𝑘 – stała, zwykle 𝑘 = 1 lub 𝑘 = 2.
5.2 Dualne procedury taksonometryczne 107

Rysunek 5.2. Wybrane etapy taksonomii wrocławskiej

Etap 1. Macierz odległości i wektor najkrótszych połączeń

0,00 4,21 6,13 4,18 4,16 𝑑1;2 = 4,16


4,21 0,00 6,20 2,58 4,80 𝑑2;4 = 2,58
𝑫 = 6,13 6,20 0,00 8,10 2,15 𝑑min = 𝑑3;5 = 2,15
4,18 2,58 8,10 0,00 4,40 𝑑4;2 = 2,58
[4,16 4,80 2,15 4,40 0,00] [𝑑5;3 = 2,15]

Etap 2. Budowa grafów niezorientowanych

4,16 2,58 2,15


𝑋1 𝑋5 𝑋2 𝑋4 𝑋3 𝑋5

Etap 3a. Łączenie grafów niezorientowanych

4,16 2,15 2,58


𝑋1 𝑋5 𝑋3 𝑋2 𝑋4

Etap 3b. Budowa grafu spójnego

4,16 2,15
𝑋1 𝑋5 𝑋3
4,18

2,58
𝑋4 𝑋2

Etap 5. Wyznaczenie grup zmiennych


𝑑1;4 > 𝑑1;5 > 𝑑2;4 > 𝑑3;5

Reguła stopu (wzór [5.8]): 𝑑 ∗ = 𝑑̅ + 𝑘𝑠𝑑 = 2,72 + 0,74 =3,46


1
𝑑̅ = (4,16 + 2,58 + 2,15 + 2,58 + 2,15) = 2,72, 𝑠𝑑 = 0,74; 𝑘 = 1
5

Wynik grupowania: {X3 , X5 }, {X2 , X4 }, {X1 }.

Źródło: opracowanie własne.


108 5. Dobór zmiennych do badania

Należy podkreślić, że długości najbliższych połączeń w dendrycie wrocławskim są tożsame z mini-


malnymi odległościami poszczególnych zmiennych do wszystkich pozostałych zmiennych, zapisanych
w prezentowanym przykładzie jako składowe wektora 𝑑min (GRABIŃSKI i in. 1982, s. 149; SIEDLECKA
1999, s. 104; RUNGE 2006, s. 235-237). Dzięki temu reguła ta znajduje zastosowanie w innych meto-
dach, np. w metodzie hiperkul1.
Kolejne metody podziału dendrytu wrocławskiego na g części przedstawili także FLOREK i in.
(1951), PERKAL (1953b), NOWAK (1990, s. 76) oraz PODOLEC i ZAJĄC (1978, s. 39) Należy na koniec
podkreślić, że różne metody wyznaczania liczby grup zmiennych na podstawie dendrytu wrocławskiego
mogą prowadzić do różnych podziałów (SIEDLECKA 1999). Część z nich została opisana rozdziale 6.1.2,
dotyczącym podział dendrytu uzyskanego w wyniku zastosowania w grupowaniu hierarchicznych me-
tod analizy skupień.
Przykład zastosowania taksonomii wrocławskiej w badaniach historycznych zaprezentowano
w rozdziale ósmym, dotyczącym rolnictwa części ziem polskich w okresie międzywojennym. Dzięki
wykorzystaniu tej metody udało się pogrupować jedenaście zmiennych w pięć rozłącznych grup.
W konsekwencji interpretacja uzyskanych wyników grupowania powiatów tworzących te ziemie oka-
zała się bardziej klarowna.

5.2.4. Metoda eliminacji wektorów

Kolejna metoda doboru zmiennych, którą można zastosować w badaniach historycznych to metoda eli-
minacji wektorów. Została ona zaproponowana przez Stanisława CHOMĄTOWSKIEGO i Andrzeja SO-
KOŁOWSKIEGO (1978). Ze względu na swoje pierwotne przeznaczenie funkcjonuje ona w literaturze pod
nazwą taksonomii struktur. Jest ona jednak również rekomendowana do klasyfikacji obiektów opisywa-
nych przez cechy innego rodzaju (NOWAK 1990, s. 108). Jej opis wraz z przykładami można znaleźć
w licznych publikacjach (zob. np.: PODOLEC, ZAJĄC 1978, s. 50-51; POCIECHA i in. 1988, s. 87-
-88; NOWAK 1990, s. 108-114).
CHOMĄTOWSKI i SOKOŁOWSKI (1978) zaproponowali, aby za kryterium podziału jednostek,
w przypadku zmiennych, przyjąć zasadę, że w jednej podgrupie mogą się znaleźć tylko obiekty o struk-
turach parami podobnych (na poziomie 𝑑∗ ). Podział taki można uzyskać, eliminując kolejno zmienne
najbardziej niepodobne do pozostałych. Procedura eliminacji wektorów przebiega zatem w kilku pę-
tlach. Ich ilość jest zdeterminowana liczbą wyodrębnionych grup. Każda z pętli dzieli się na kilka eta-
pów. Podobnie jak we wcześniej prezentowanych metodach punktem wyjścia (1) jest wyznaczenie ma-
cierzy odległości 𝑫 pomiędzy zmiennymi. W następnym kroku (2) należy ustalić krytyczny poziom
niepodobieństwa 𝑑∗ . Na jego podstawie (3) przekształcana jest macierz odległości w macierz zeroje-
dynkową. To z kolei pozwala na (4) wyznaczenie wektora 𝑑0 , którego składowe stanowią sumę wartości
występujących w wierszach skorygowanej macierzy odległości. Etap (5) polega na eliminacji kolejnych
wierszy i kolumn macierzy odległości na podstawie wartości niezerowych wektora 𝑑0 . Zmienne, które
odpowiadają pozostałym wartościom zerowym w wektorze 𝑑0 , tworzą pierwszą wyodrębnioną grupę.
Pętlę kończy (6) usunięcie wyodrębnionych zmiennych z macierzy odległości. Proces należy powtarzać,
aż do wyodrębnienia wszystkich grup zmiennych. Analogicznie do poprzednich przykładów wybrane
etapy metody eliminacji wektorów przedstawiono na rysunku 5.3.

1
Metoda ta została opisana w rozdziale 5.3.1.
5.2 Dualne procedury taksonometryczne 109

Rysunek 5.3. Wybrane etapy metody eliminacji wektorów

PĘTLA PIERWSZA

Etap 1. Macierz odległości


0,00 4,21 6,13 4,18 4,16
4,21 0,00 6,20 2,58 4,80
𝑫 = 6,13 6,20 0,00 8,10 2,15
4,18 2,58 8,10 0,00 4,40
[4,16 4,80 2,15 4,40 0,00]

Etap 2. Wyznaczenie krytycznego poziomu niepodobieństwa


𝑑max −𝑑min 8,10−2,15
Reguła stopu [5.9] dla 𝑐 = 2: 𝑑 ∗ = = = 2,98;
𝑐 2

Etap 3 i 4. Przekształcenie macierzy odległości i wyznaczenie wektora 𝑑0


0 1 1 1 1 ∑1 = 𝟒 ⟸ max
1 0 1 0 1 ∑2 = 3
𝑫𝟏 = 1 1 0 1 0 𝑑0 = ∑3 = 3
1 0 1 0 1 ∑4 = 3
[1 1 0 1 0] [∑5 = 3]

Etap 5. Eliminowanie wierszy i kolumn w przekształconej macierzy odległości

0 1 0 1 ∑2 = 𝟐
0 1 0 ∑3 = 1
1 0 1 0 ′ ∑ =2 0 0 ′′′ ∑ =0

𝑫𝟏 = [ ]𝑑 = 3 𝑫′′
𝟏 = [1 0 1] 𝑑0′′ = [∑4 = 𝟐] 𝑫′′′
𝟏 =[ ]𝑑 =[ 3 ]
0 1 0 1 0 ∑4 = 2 0 0 0 ∑5 = 0
0 1 0 ∑5 = 1
1 0 1 0 [∑5 = 2]

Pierwsza grupa zmiennych to: {X3 , X5 }.

Etap 6. Usunięcie wyodrębnionych zmiennych z macierzy odległości


0 1 1
𝑫𝟐 = [1 0 0]
1 0 0

PĘTLA DRUGA

Etap 4. Wyznaczenie wektora 𝑑0


0 1 1 ∑1 = 𝟐
𝑫𝟐 = [1 0 0] 𝑑0 = [∑2 = 1 ]
1 0 0 ∑4 = 1

Etap 5. Eliminowanie wierszy i kolumn w przekształconej macierzy odległości


0 0 ′ ∑ =0
𝑫′𝟐 = [ ]𝑑 =[ 2 ]
0 0 0 ∑4 = 0
Druga grupa zmiennych to: {X2 , X4 }.

Wynik grupowania: {X 3 , X5 }, {X2 , X4 }, {X1 }.

Źródło: opracowanie własne.


110 5. Dobór zmiennych do badania

Szerszego omówienia w tej metodzie wymaga etap 2, który polega na wyznaczeniu krytycznego
poziomu niepodobieństwa 𝑑∗ . Można go podać odgórnie (zob. np.: POCIECHA i in. 1988, s. 87). W przy-
padku badań strukturalnych przyjmuje się, że 𝑑∗ = 0,05 lub mniej. Można także skorzystać z reguły
stopu, przedstawionej dla taksonomii wrocławskiej (por. wzór [5.8]). Prostym rozwiązaniem jest reguła
stopu zaproponowana przez GOWERA i ROSSA (1969, por. Grabiński i in. 1982, s. 141):

𝑑max − 𝑑min
𝑑∗ = , [5.9]
𝑐
gdzie:
𝑑∗ – krytyczny poziom niepodobieństwa,
𝑑max – maksymalna wartość w macierzy odległości,
𝑑min – minimalna wartość w macierzy odległości (poza elementami na przekątnej),
𝑐 – wartość stała ustalana a priori.

Dzięki wyznaczeniu krytycznego poziomu niepodobieństwa możliwe jest (etap 3) przekształcenie


macierzy odległości w macierz zerojedynkową W tym celu każdy element macierzy odległości 𝑫 więk-
szy od wartości krytycznej jest zastępowany jednością (𝑑𝑖𝑗 > 𝑑∗ ⇒ 𝑑𝑖𝑗 = 1). W przeciwnym razie
przypisywana jest mu wartość zero (𝑑𝑖𝑗 < 𝑑∗ ⇒ 𝑑𝑖𝑗 = 0). Powstaje w tej sposób przekształcona ma-
cierz odległości 𝑫𝟏 , której składowymi są zera i jedynki.
Tworzony na etapie 4 wektor sum składowych wierszy przekształconej macierzy odległości 𝑑0 in-
formuje, która zmienna przekroczyła w największym stopniu krytyczny poziom niepodobieństwa. War-
tość ta wskazuje, którą kolumnę i odpowiadający jej wiersz należy wyeliminować z macierzy odległości
w pierwszym rzędzie (etap 5). Etapy 4 i 5 należy powtarzać do momentu, aż wszystkie składowe wek-
tora 𝑑0 będą równe zeru. Zmienne odpowiadające zerowym elementom wektora 𝑑0 będą tworzyły
pierwszą podgrupę zmiennych.
Dla pozostałych zmiennych tworzy się w etapie 6 macierz 𝑫𝟐 . Jest to macierz zerojedynkowa 𝑫𝟏 ,
z której zostały usunięte wiersze i kolumny odpowiadające zmiennym, które stworzyły pierwszą pod-
grupę zmiennych. Następnie dla tej macierzy powtarza się w drugiej pętli etapy 2-6, otrzymując w ten
sposób kolejne podgrupy obiektów. Jedną z wad tej metody, jest fakt, że każda kolejna grupa zmiennych
jest zawsze mniej liczna od poprzedniej.
Przykład zastosowania metody eliminacji wektorów w badaniach historycznych przedstawiono
w odniesieniu do rzemiosło wiejskiego we wsi Odrowąż i Waksmund w 1970 r. Został on zaprezento-
wany w części empirycznej tej monografii i stanowi część rozdziału dziesiątego.

5.3. Bezpośredni wybór zmiennych diagnostycznych

Drugą grupę procedur doboru zmiennych diagnostycznych stanowią metody pozwalające na jednoeta-
powy ich wybór z wstępnej listy zmiennych (ZELIAŚ 2000a, s. 40, GRABIŃSKI 1992, s. 43-47). W od-
różnieniu od procedur dualnych w wyniku zastosowania tego podejścia uzyskiwany jest jednocześnie
podział zmiennych na grupy i wyodrębnienie zmiennych – reprezentujących te grupy. Do rezultatów
tego typu prowadzą m.in. metody obszarowe.
5.3. Bezpośredni wybór zmiennych diagnostycznych 111

Inne podejście do problemu doboru zmiennych do badania polega na modyfikacji listy zmiennych
w oparciu o określone kryterium. W ten sposób jednoetapowo zostaje ona ograniczona do listy zmien-
nych diagnostycznych. Takie założenia spełnia metoda odwrotnej macierzy korelacji. Należy jednak
pamiętać, że stosując to podejście, badacz rezygnuje z informacji o powiązaniu zmiennych diagnostycz-
nych ze zmiennymi odrzuconymi w tym podejściu.

5.3.1. Metoda hiperkul

Metoda hiperkul została opracowana w środowisku wrocławskim pod kierunkiem Zdzisława Hellwiga
(1925-2013). Po raz pierwszy została zaprezentowana w 1969 r. (BUKIETYŃSKI i in. 1969). Metoda ta
jest szczegółowo opisana w wielu publikacjach (zob. np.: PLUTA 1977, s. 35-37; HELLWIG 1981; PO-
CIECHA i in. 1988, s. 85-87; NOWAK 1990, s. 28-28; ZELIAŚ 2000a, s. 41-45). W literaturze metoda
hiperkul funkcjonuje również pod nazwami: metoda wrocławska, metoda Hellwiga czy metoda kul.
Metoda ta należy do grupy metod obszarowych, w których przestrzeń dzieli się, zgodnie z odpo-
wiednio ustalonymi zasadami, na rozłączne podobszary, natomiast obiekty znajdujące się w tych obsza-
rach traktuje się jako odrębne grupy. Podobszary stanowią hiperkule o arbitralnie wyznaczonym pro-
mieniu. ZELIAŚ (2000a, s. 42) natomiast podkreśla, że zaletą tej metody jest jej prostota rachunkowa.
Dodatkowo cenną jej własnością jest to, że dla różnych wartości progowych d* otrzymuje się różne
podziały zbioru zmiennych na skupienia. Im d* bliższe jedności, tym uzyskuje się mniej skupień zmien-
nych o większej liczebności. Im d* bliższe zeru, tym powstaje więcej skupień o mniejszej liczebności.
GRABIŃSKI (1989b) wskazuje, że w wyniku stosowania metody hiperkul powstaje duża liczba grup
zmiennych zawierających małą liczbę obiektów. MŁODAK (2006, s. 31) zauważa także, że metoda ta
skupia się jedynie na powiązaniach bezpośrednich zmiennych, a nie uwzględnia powiązań pośrednich.
Podobnie jak metodzie eliminacji wektorów zastosowanie metody hiperkul wymaga sekwencji dzia-
łań wykonanych w kilku pętlach, których ilość jest zdeterminowana liczbą wyodrębnionych ostatecznie
grup obiektów. Schemat obrazujący ten proces został zaprezentowany na rysunku 5.4. Punktem wyjścia
w opisywanej metodzie jest (1) wyznaczenie macierzy odległości. Następnie (2) wyznaczany jest pro-
mień hiperkul, który traktowany jest jako progowa wartość niepodobieństwa 𝑑∗ . W następnym etapie
(3) każda ze zmiennych uznawana jest za zmienną centralną, wokół której zatacza się kulę o promieniu
𝑑∗ . Dzięki temu (4) obiekty należące do najliczniejszej hiperkuli traktuje się jako odrębną grupę zmien-
nych. Pętlę kończy (5) korekta macierzy odległości. Procedurę tę powtarza się aż do wyczerpania
wszystkich grupowanych zmiennych. Zatem pętli jest tyle, ile wyodrębnionych grup.
Zadaniem etapu 1 jest wyznaczenie macierzy odległości na podstawie macierzy korelacji. Zostało
ono opisane w rozdziale czwartym. Jak wielokrotnie wspominano wcześniej, należy pamiętać, że wybór
miary korelacji jest ściśle zależny od skali pomiarowej, w której zostały wyrażone zmienne.
Aby wyznaczyć w etapie 2 promień hiperkul, autorzy metody zaproponowali następujące podejście:

𝑑∗ = max min{𝑑𝑖𝑗 }, [5.10]


𝑗 𝑖
gdzie:
𝑑∗ – krytyczny poziom niepodobieństwa, promień hiperkul,
𝑑𝑖𝑗 – wartość odległości pomiędzy 𝑖-tą oraz 𝑗-tą zmienną,
112 5. Dobór zmiennych do badania

Rysunek 5.4. Wybrane etapy metody hiperkul

PĘTLA PIERWSZA
Etap 1. Macierz odległości i wektor najkrótszych połączeń
0,00 4,21 6,13 4,18 4,16 𝑑1;2 = 4,16
4,21 0,00 6,20 2,58 4,80 𝑑2;4 = 2,58
𝑫 = 6,13 6,20 0,00 8,10 2,15 𝑑𝑚𝑖𝑛 = 𝑑3;5 = 2,15
4,18 2,58 8,10 0,00 4,40 𝑑4;2 = 2,58
[4,16 4,80 2,15 4,40 0,00] [𝑑5;3 = 2,15]

Etap 2. Wyznaczenie krytycznego poziomu niepodobieństwa


Promień hiperkuli [5.10]: 𝑑 ∗ = max min{𝑑𝑖𝑗 } = max{4,16; 2,58; 2,15; 2,58; 2,15} = 4,16.
𝑗 𝑖 𝑗

Etap 3. Wyznaczanie dla każdej zmiennej kuli o promieniu 𝑑 ∗


𝑋1 𝑋2 𝑋3 𝑋4 𝑋5
𝑋1 0,00 4,21 6,13 4,18 4,16
𝑋2 4,21 0,00 6,20 2,58 4,80
Macierz odległości 𝑫
𝑋3 6,13 6,20 0,00 8,10 2,15
𝑋4 4,18 2,58 8,10 0,00 4,40
𝑋5 4,16 4,80 2,15 4,40 0,00
Środek kul 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5
Liczba zmiennych satelitarnych 2 1 1 1 1 2

Etap 5. Wyznaczenie pierwszej grupy zmiennych


Pierwsza grupa zmiennych to: {𝑋1 , 𝑋3 , 𝑋5 }; pierwsza zmienna centralna to: 𝑋5 .

PĘTLA DRUGA
Etap 1. Macierz odległości i wektor najkrótszych połączeń
0,00 2,58 𝑑2;4 = 2,58
𝑫′ = [ ] 𝑑𝑚𝑖𝑛 = [ ]
2,58 0,00 𝑑4;2 = 2,58

Etap 2. Wyznaczenie krytycznego poziomu niepodobieństwa


Promień hiperkuli (5.14) 𝑑∗ = max min{𝑑𝑖𝑗 } = max{2,58; 2,58} = 2,58.
𝑗 𝑖 𝑗

Etap 3. Wyznaczanie dla każdej zmiennej kuli o promieniu 𝑑∗


𝑋2 𝑋4
Macierz odległości 𝑫′ 𝑋2 0,00 2,58
𝑋4 2,58 0,00
Środek kul 𝑋2 𝑋4
Liczba zmiennych satelitarnych 1 1

Etap 5. Wyznaczenie drugiej grupy zmiennych


Druga grupa zmiennych to: {𝑋2 , 𝑋4 }, druga zmienna centralna3 to: 𝑋2 .

Wynik grupowania: {X1 , X3 , X5 }, {X 2 , X4 }; zmienne centralne: 𝑋2 , 𝑋5 .

Źródło: opracowanie własne.

2 W przypadku większej liczby zmiennych do zliczania zmiennych satelitarnych w programie Excel można wykorzystać

funkcję LICZ.JEŻELI().
3 Zakładając, że znajduje się bliżej początku układu współrzędnych.
5.3. Bezpośredni wybór zmiennych diagnostycznych 113

W myśl wzoru [5.10] należy wyznaczyć dla każdego wiersza macierzy odległości jej wartość mini-
malną, najczęściej zapisaną w postaci wektora 𝑑min . Najwyższa wartość w wektorze 𝑑min stanowi pro-
mień hiperkul. Na jego podstawie możliwe jest w etapie 3 wykreślenie hiperkul dla każdej zmiennej
biorącej udział w badaniu oraz wskazanie zmiennych, które będą się znajdowały w obrębie tak wyzna-
czonego obszaru hiperkuli. Praktycznie działanie to polega na wskazaniu i zliczeniu w każdej kolumnie
macierzy 𝑫 odległości mniejszych lub równych wartości promienia wyznaczonego na etapie 2.
W kolejnym kroku (etap 4), zmienne należące do najliczniejszej hiperkuli traktuje cię jako odrębną
grupę. Zmienna, której odpowiada wyznaczona w ten sposób kolumna macierzy odległości nazywana
jest pierwszą zmienną centralną. Natomiast zmienne, które znalazły się w obrębie tak wyznaczonego
obszaru hiperkuli, nazwane są zmiennymi satelitarnymi zmiennej centralnej. Jeżeli uzyskuje się kilka
hiperkul równolicznych, to jako pierwszą grupę powinno się wybrać tę, której środek znajduje się naj-
bliżej początku układu współrzędnych (por. GRABIŃSKI i in. 1982, s. 149).
Na etapie 5 pierwszej pętli następuje wykreślenie z macierzy odległości 𝑫 wierszy i kolumn odpo-
wiadających zmiennej centralnej i jej zmiennych satelitarnych wyodrębnionych w etapie 4. W wyniku
tego otrzymuje się zredukowaną macierz odległości 𝑫′ , która z kolei jest punktem wyjścia do sekwencji
działań w pętli drugiej. Procedurę tę powtarza się aż do momentu wyczerpania możliwości wykreślenia
wierszy i kolumn z analizowanej macierzy odległości.
Metoda hiperkul okazała się użyteczna w grupowaniu zmiennych w przykładzie dotyczącym struk-
tury przemysłu uspołecznionego w latach 1958-1989. Szczegółowy przebieg wyodrębniania grup po-
szczególnych przemysłu opisano w rozdziale dziewiątym tego opracowania.

5.3.2. Metoda odwrotnej macierzy korelacji


Nieco inną ideę redukcji wstępnej listy zmiennych prezentuje metoda odwrotnej macierzy korelacji.
W metodzie tej pominięty został etap grupowania zmiennych. Lista zmiennych diagnostycznych jest
tworzona poprzez usunięcie ze wstępnej listy tych zmiennych, które okazały się być silnie skorelowane
z pozostałymi zmiennymi.
Metodę odwrotnej macierzy korelacji wykorzystali w swoich badaniach ZELIAŚ (1984, s. 110; 1997,
s. 142), MALINA i ZELIAŚ (1997) oraz LIRA i in. (2002). Rekomenduje ją także MŁODAK (2006, s. 31-
-33). Odznacza się ona dużą prostotą obliczeniową i jednoznacznością uzyskiwanych wyników. Co wię-
cej, MŁODAK (2006, s. 31) podkreśla, że metoda odwrotnej macierzy korelacji skupia się nie tylko na
powiązaniach bezpośrednich zmiennych, ale uwzględnia także powiązania pośrednie, co daje możliwość
wierniejszego odwzorowania rzeczywistości badanych zjawisk. W jego opinii życie społeczno-gospodar-
cze to swoisty system naczyń połączonych, w którym powiązania pośrednie odgrywają znaczącą rolę.
Schemat postępowania w metodzie odwrotnej macierzy korelacji zaprezentowano na rysunku 5.5.
W odróżnieniu od wcześniej zaprezentowanych podejść do redukcji wstępnej listy zmiennych, jak su-
geruje nazwa metody, należy (1) wyznaczyć macierz odwrotną do macierzy korelacji 𝑹 pomiędzy
zmiennymi. W metodzie tej może być wykorzystany nie tylko współczynnik korelacji Pearsona, ale
także Spearmana czy Kendalla. Współczynniki te zostały opisane wcześniej w rozdziale 4.3. Następnie
należy (2) wyznaczyć macierz odwrotną do macierzy korelacji: 𝑹−𝟏 . W tym celu wygodnie posłużyć
się jedną z funkcji tablicowych arkusza kalkulacyjnego Excel: MACIERZ.ODW(). Elementy diago-
nalne tej macierzy przyjmują wartości z przedziału (0; ∞). W przypadku, gdy zmienna jest wysoce sko-
relowana z pozostałymi zmiennymi, wówczas elementy diagonalne tej macierzy przyjmują wartości
znacznie większe od jedności. MALINA i ZELIAŚ (1997) przyjęli, że należy (3) usunąć te zmienne, dla
których elementy diagonalne macierzy odwrotnej przyjmują wartości większe od 10 (𝑟𝑖𝑖−1 ≥ 10).
114 5. Dobór zmiennych do badania

Rysunek 5.5. Wybrane etapy metody odwrotnej macierzy korelacji

Etap 1. Macierz korelacji


1,00 0,88 0,39 0,82 −0,18
0,88 1,00 −0,49 0,21 0,78
𝑹 = 0,39 −0,49 1,00 0,27 0,32
0,82 0,21 0,27 1,00 −0,65
[−0,18 0,78 0,32 −0,65 1,00 ]

Etap 2. Wyznaczenie macierzy odwrotnej do macierzy korelacji


𝟏𝟎, 𝟓𝟑 −0,60 1,50 −14,54 −7,39
−0,60 −0,22 −0,74 1,60 1,34
𝑹−𝟏 = 1,50 −0,74 0,44 −1,28 −0,13
−14,54 1,60 −1,28 𝟏𝟖, 𝟒𝟗 8,56
[ −7,39 1,34 −0,13 8,56 4,23 ]

Etap 3. Wyznaczenie zmiennych najsilniej skorelowanych z pozostałymi


Warunek usunięcia zmiennych: 𝑟𝑖𝑖−1 ≥ 10.
−1 −1
Należy ze zbioru zmiennych potencjalnych usunąć zmienną 𝑋1 (𝑟1;1 = 𝟏𝟎, 𝟓𝟑). 𝑋4 (𝑟4;4 = 𝟏𝟖, 𝟒𝟗).

Wynik redukcji listy zmiennych: w grupowaniu należy uwzględnić zmienne: 𝑋2 , 𝑋3 , 𝑋5 .


Źródło: opracowanie własne.

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Wartości liczbowe na przekątnej macierzy odwrotnej są uzależnione nie tylko od stopnia skorelo-
wania określonej zmiennej z pozostałymi zmiennymi, ale także od liczby zmiennych biorących udział
w badaniu. Dlatego próg eliminacji zmiennych należy dostosować do liczby analizowanych zmiennych.
Dobrym rozwiązaniem może być uwzględnienie poziomu pierwszej istotnej różnicy odległości. Jed-
nakże, jak wspomniano na początku rozdziału, przy usuwaniu zmiennych można kierować się nie tylko
względami statystycznymi, ale także merytorycznymi.
Zastosowanie metody odwrotnej macierzy korelacji w badaniach historycznych można prześledzić
w przykładzie dotyczącym sytuacji demograficznej departamentu poznańskiego w 1810 r. Został on
szczegółowo opisany w rozdziale siódmym. Dzięki zastosowaniu metody odwrotnej macierzy korelacji
ograniczono w grupowaniu liczbę zmiennych do sześciu, usuwając tylko te, które były najsilniej skore-
lowane z pozostałymi. Nie wnosiły zatem do badaniach nowych informacji różnicujących grupowane
powiaty.

5.4. Dobór zmiennych w przypadku badań przekrojowo-czasowych

Jeżeli badaniu podlega zjawisko zmieniające się w czasie, to klasyczne metody doboru zmiennych dia-
gnostycznych mogą być niewystarczające. Spełnienie warunku porównywalności wymaga, aby wnioski
wyciągane dla każdego okresu były oparte o ten sam zestaw zmiennych diagnostycznych. Jednak zestaw
zmiennych diagnostycznych przyjęty dla jednego roku, nie zawsze jest poprawny pod względem mery-
torycznym i statystycznym w innym roku badanego okresu. Może zmieniać się nie tylko natężenie
zmiennych, ale i ich znaczenie, a także charakter powiązań między nimi. Co więcej, nieuwzględnienie
w analizie dynamicznych powiązań między dostępnymi zmiennymi powoduje, że formułowane sądy
mogą mieć mniejszą wartość poznawczą (ZELIAŚ 2000a, s. 51).
5.4. Dobór zmiennych w przypadku badań przekrojowo-czasowych 115

Z tego względu przy doborze zmiennych diagnostycznych w przypadku badań przekrojowo-czaso-


wych należy zastosować nieco inne metody postępowania. Tym razem z listy zmiennych powinny być
usunięte te, które wykazują znikomą zmienność czasowo-przestrzenną (Zeliaś 1997, s. 43-48; 2000a,
s. 52).
Podobnie jak w przypadku badań stacjonarnych – dotyczących jednego roku – punktem wyjścia
może być wstępna statyczna selekcja zmiennych oparta o współczynniki zmienności (por. wzór [5.1]),
wyznaczone w każdym z badanych okresów. Powyższe działania powodują, że możliwe jest zestawie-
nie wyznaczonych wartości w postaci macierzy współczynników zmienności 𝑽𝒕 [5.11]. W macierzy
tej kolumny oznaczają badane okresy, natomiast wiesze odnoszą się do uwzględnionych w analizie
zmiennych:
𝑣1;1 𝑣1;2 … 𝑣1𝑇
𝑣2;1 𝑣2;2 … 𝑣2𝑇
𝑽𝒕 = [ … … … … ], [5.11]
𝑣𝑖1 𝑣𝑖2 … 𝑣𝑚𝑇
gdzie:
𝑣𝑖𝑡 – współczynnik zmienności 𝑖-tej zmiennej (𝑖 = 1, 2, … , 𝑚) w okresie t (𝑡 = 1, 2, … , 𝑇).

W ten sposób każdy wiersz macierzy 𝑽𝒕 [5.11] stanowi kolejne współczynniki zmienności, wyznaczone
dla poszczególnych okresów. Dla każdego wiersza tej macierzy możliwe jest wyznaczenie średniej war-
tości współczynników zmienności w badanym okresie:
𝑇
1
𝑣̅𝑖 = ∑ 𝑣𝑖𝑡 , [5.12]
𝑇
𝑡=1

gdzie:
𝑣̅𝑖 – średnia współczynników zmienności 𝑖-tej zmiennej po okresach 𝑡 (𝑡 = 1, 2, … , 𝑇),
𝑣𝑖𝑡 – współczynnik zmienności 𝑖-tej zmiennej (𝑖 = 1, 2, … , 𝑚) wyznaczony dla okresu 𝑡.

Warto w tym miejscu przypomnieć, że jeżeli wartość współczynnika zmienności 𝑣𝑖𝑡 , wyznaczonego
dla okresu t, jest bliska zeru, to oznacza, że poszczególne wartości zmiennych w okresie t oscylowały
wokół ich średniej. Zatem jeżeli średnia współczynników zmienności danej zmiennej 𝑣̅𝑖 , wyznaczona
po wszystkich uwzględnionych w badaniu okresach 𝑡 = 1, 2, … , 𝑇 jest bliska zeru, to oznacza, że
zmienna ta odznaczała się dużą stabilnością w całym badanym okresie. Zmienne, których właśnie taka
sytuacja dotyczy, powinny zostać usunięte, bo nie różnicują w wystarczającym stopniu porównywanych
obiektów. Natomiast w wypadku, gdy zmienność zmienia się w sposób systematyczny, to oznacza, że
można wyznaczyć dla nich określoną tendencję (ZELIAŚ 2000a). Ten aspekt jest szczególnie istotny
w przypadku prognozowania na podstawie danych historycznych. W przypadku badań przekrojowo-
czasowych wystarczy, że na podstawie analizy wartości współczynników zmienności w czasie zostaną
usunięte te zmienne, które nie osiągnęły zadanego przeciętnego progu zmienności 𝜀 𝑡 . ZELIAŚ (1989,
s. 45) proponuje, aby próg taki, w przypadku analiz przekrojowo-czasowych, wynosił 𝜀 𝑡 = 0,35.
W miarę upływu czasu może zmieniać się nie tylko zróżnicowanie wartości zmiennych, ale i siła
powiązań między nimi. Z tego powodu w drugim etapie doboru zmiennych diagnostycznych w przy-
padku badań w ujęciu dynamicznym konieczna jest także analiza współczynników korelacji w każdym
z badanych okresów. W rezultacie uzyskuje się obraz dynamicznych zmian zachodzących w sile powią-
zań między rozpatrywanymi zmiennymi. Interesujące jest zwłaszcza, czy wartości współczynników ko-
relacji zmieniają się w czasie, czy też mają charakter stacjonarny (ZELIAŚ 1989). Szczegółowa analiza
116 5. Dobór zmiennych do badania

ciągów tego typu wskaźników pozwala również na znalezienie momentów gwałtownych zmian struk-
tury, a tym samym może przyczynić się do poznania pewnych przełomowych okresów, które mają
istotne znaczenie w badaniach zjawisk historycznych (KUKUŁA 1975).
Na podstawie ciągów współczynników korelacji, wyznaczonych dla poszczególnych okresów, ana-
logicznie jak w przypadku współczynników zmienności, można zbudować macierz średnich współ-
czynników korelacji:

1 𝑟̅1;2 ⋯ 𝑟̅1𝑚
𝑟̅
̅ 𝑡 = [ 2;1 1 ⋯ 𝑟̅1𝑚
𝑹 ], [5.13]
⋮ ⋮ ⋱ ⋮
𝑟̅𝑚1 𝑟̅𝑚2 ⋯ 1
gdzie:
𝑟̅𝑖𝑗 – średnia współczynników korelacji pomiędzy 𝑖-tą oraz 𝑗-tą zmienną (𝑖, 𝑗 = 1, 2, … , 𝑚)
po t-okresach (t =1, 2, …, T).

W oparciu o macierz średnich współczynników korelacji 𝑹 ̅ 𝑡 [5.13] w drugim etapie doboru zmien-
nych do badania w przypadku danych przekrojowo-czasowych można zastosować jedną w metod dual-
nych lub bezpośredniego doboru zmiennych, opisaną w poprzednich podrozdziałach. Ze względu na
fakt, że dobór zmiennych będzie opierał się na wartościach uśrednionych współczynników korelacji,
decyzje co do ostatecznej listy zmiennych diagnostycznych lepiej opierać na mniej restrykcyjnych kry-
teriach.
Zastosowanie wyżej opisanej procedury doboru zmiennych w przypadku historycznych badań prze-
krojowo-czasowych można prześledzić w ostatnim rozdziale tej monografii. Został w nim zaprezento-
wany przykład dotyczący wpływów podatkowych z poszczególnych rodzajów działalności indywidual-
nej w latach 1958-1970 r. Dostępne dane dotyczyły poszczególnych powiatów województwa poznań-
skiego i sześciu grup podatników. Co więcej, źródła archiwalne pozwoliły na porównanie tych informa-
cji w pięciu latach badanego okresu: 1958, 1961. 1964. 1967, 1970. W oparciu o wyznaczone wartości
macierzy średnich współczynników korelacji 𝑹 ̅ 𝑡 [5.13] i taksonomię wrocławską pogrupowano
zmienne dotyczące poszczególnych rodzajów działalności, co ułatwiło dalszy proces taksonomiczny.
6
Wybrane metody hierarchiczne i kombinatoryczne

Jak wspomniano wcześniej, liczba podejść i algorytmów zaliczanych do metod taksonomicznych jest
ogromna. W rozdziale tym dokonany został subiektywny ich wybór, którego kluczem była dostępność
oprogramowania statystycznego ułatwiającego ich stosowanie i jednoznaczność uzyskanych wyni-
ków grupowania. Warunki te spełniają metody hierarchiczne i kombinatoryczne. Procedury te są udo-
stępniane m.in. w ramach programu SAS, SPSS, R czy Statistica (zob. np.: WALESIAK 1996b, 2009;
AFIFI, CLARK 1998, s. 404-406). Znane są także programy pisane celowo dla tych metod (por. KA-
ROŃSKI, CALIŃSKI 1973; KAUFMAN, ROUSSEEUW 2005). W niniejszym opracowaniu skorzystano
z możliwości, jakie daje zastosowanie tych grup metod w ramach programu Statistica (STANISZ 2007,
str. 113-164; MIGUT 2009). Wspomniane algorytmy tworzą w nim w moduł wielowymiarowe techniki
eksploracyjne/analiza skupień.
Warto w tym miejscu raz jeszcze wrócić do podstawowej terminologii. W wyniku zastosowania
metod taksonomicznych grupowane są obiekty wielowymiarowe. Grupowane obiekty wielowymia-
rowe tworzą możliwie jednorodne wewnętrznie skupienia. Obiektami grupowania mogą być zarówno
jednostki, jak i zmienne je charakteryzujące. Z tego względu mówi się o grupowaniu odpowiednio
jednostek w przestrzeni zmiennych lub grupowaniu zmiennych w przestrzeni jednostek. W przypadku
zastosowania metod taksonomicznych w grupowaniu jednostek wszystkie kryteria grupowania (ce-
chy tych jednostek) są uwzględnione jednocześnie i traktowane równorzędnie. Co więcej, gdy obiek-
tem grupowania są jednostki terytorialne, mówi się o regionalizacji. Z kolei periodyzacją nazywany
jest proces grupowania, w którym obiektami są jednostki czasu.
Przyjęło się także, że ze względu na ograniczenia związane z odczytaniem dendrogramu – rezul-
tatu zastosowania metod hierarchicznych – metody te stosowane są raczej do grupowania mniejszej
liczby obiektów. Natomiast metody kombinatoryczne dobrze sprawdzają się przy porównywaniu
większej liczby obiektów. Metody taksonomiczne polecane w grupowaniu zmiennych zostały zapre-
zentowane w rozdziale piątym. Nie oznacza to, że metody hierarchiczne i metody kombinatoryczne
nie mogą być stosowane w taksonomii zmiennych. Jednak dla porządku w rozdziale Wybrane metody
hierarchiczne i kombinatoryczne większy nacisk został położony na grupowaniu wielowymiarowych
jednostek.
Ostatecznie w prezentowanym rozdziale zostało przedstawionych siedem metod hierarchicznych
i jedna metoda kombinatoryczna. Mimo to, ograniczając się jedynie do tych wybranych metod takso-
nomicznych, trudno wskazać taką, której przewaga nad innymi byłaby powszechnie akceptowana. Co
więcej, jak już wielokrotnie podkreślano, dobór metod taksonomicznych zależy od wcześniejszych
decyzji badacza o sposobie normalizacji zmiennych oraz doborze miary podobieństwa bądź odległo-
ści pomiędzy grupowanymi obiektami. Wybierając konkretną metodę taksonomiczną, należy brać
także pod uwagę dostępność oprogramowania i istotę metody, a także cel badania i możliwości inter-
pretacji oczekiwanych wyników klasyfikacji. Te ostatnie, niezależnie od wspomnianych procedur po-
przedzających proces grupowania, zależą jednak przede wszystkim od dokonanego przez badacza
118 6. Wybrane metody hierarchiczne i kombinatoryczne

doboru zmiennych w odniesieniu do badanego zjawiska (EVERITT 1980, s. 9; WYSOCKI 2010, s. 87-
-90; SOKOŁOWSKI 1992, s. 23-24; HAIR i in. 1995, s. 441-442). Ze względu na tę liczbę uwarunkowań
dobór metody grupowania i ocena uzyskanych wyników grupowania jest zagadnieniem dość złożo-
nym, a równocześnie bardzo istotnym. W literaturze przedmiotu funkcjonuje kilka podejść to tego
problemu (por. POCIECHA 1982; KORZENIEWSKI 2005, 2012, s. 15-16; 2014). Wśród nich o praktycz-
nym zastosowaniu można mówić w przypadku tzw. strategii grupowania. Podejście to zostało zapro-
ponowane przez GORDONA (1999, s. 96-100) i polega na zastosowaniu wielu metod grupowania, a na-
stępnie na porównaniu ich wyników oraz ocenie uzyskanych rezultatów. Zagadnieniu oceny grupo-
wania poświęcono uwagę na końcu rozdziału.

6.1. Hierarchiczne metody analizy skupień

W wyniku zastosowania metod hierarchicznych analizy skupień uzyskiwany jest układ skupień two-
rzących swoistą hierarchię. Są one najczęściej stosowane i stosunkowo najlepiej opracowane pod
względem metodologicznym. W literaturze przedmiotu metody hierarchiczne analizy skupień funk-
cjonują także pod nazwą metod SAHN (sekwencyjne, aglomeracyjne, hierarchiczne i rozłączne – por.
SNEATH, SOKAL 1973, s. 214; MAREK 1989). WALESIAK (1993b, s. 50) podkreśla, że metody nale-
żące do tej grupy odznaczają się następującymi zaletami: działają według jednej procedury, wyniki
klasyfikacji są przedstawione w postaci ciągu klasyfikacji, możliwa jest zatem szczegółowa analiza
całego procesu. Trzecia zaleta dotyczy efektów klasyfikacji – dendrogramu, który w klarowny sposób
przedstawia przebieg analizy. TIMM (2002, s. 523) wskazuje także, że wybrane metody należące do
tej grupy można stosować nie tylko do grupowania jednostek, ale i zmiennych.
Podstawą grupowania obiektów, zapisanych w postaci wektorów, są miary odległości lub podo-
bieństwa. Są one wielkościami skalarnymi, dzięki czemu możliwe jest wyznaczenie odległości po-
między każdą z par badanych obiektów. Im mniejsza jest jej wartość, tym bardziej obiekty, pomiędzy
którymi została wyznaczona odległość, uznaje się za podobne. Gdy grupowanie przebiega stopniowo,
od znalezienia obiektów najbardziej podobnych do połączenia wszystkich obiektów w jedną grupę,
mówi się o hierarchicznych metodach aglomeracyjnych. Są one szczególnie polecane w sytua-
cjach, w których brak jest wiedzy teoretycznej o strukturze zbiorowości (CHOJNICKI, CZYŻ 1973,
s. 8). Drugi sposób uzyskania hierarchii grupowanych obiektów prezentują hierarchiczne metody
podziału. Tym razem proces przebiega „od góry”. Najpierw grupowane obiekty dzielone są na dwa
skupienia, a te z kolei w kolejnych krokach dzielone są na mniejsze skupienia (BALICKI 2009, s. 291;
MUCHA 2012). W przeważającej liczbie przypadków wykorzystywane są jednak metody aglomera-
cyjne (MARDIA i in. 1979, s. 376-381; HÄRDLE, SIMAR 2012, s. 335-337). Wynika to głównie z faktu,
że są one prostsze do programowania. Przykłady charakterystyki algorytmów hierarchicznych metod
podziału można zaleźć w opracowaniu SNEATHA I SOKALA (1973, s. 203-205) czy PANKA (2009,
s. 123-128).
Efektem zastosowania zarówno metod aglomeracyjnych, jak i podziału jest hierarchiczny układ
skupień, w którym jedne skupienia są zawarte w drugich. Zwykle prezentowany jest on w formie den-
drogramu. Na wykresie tym układ skupień wskazuje na kolejność ich tworzenia. Dzięki tej hierarchii
można wskazać położenie określonego skupienia, a także określić, jakie mniejsze skupienia wchodzą
w skład skupienia większego, nadrzędnego. Jeżeli jednostki zostały opisane w dwuwymiarowej prze-
6.1. Hierarchiczne metody analizy skupień 119

strzeni zmiennych, to grupowanie można przedstawić za pomocą diagramu Venna (por. PĘCZKOW-
SKI 2009, s. 121). Przykłady obu diagramów zostaną zaprezentowane w dalszej części pracy. Bardziej
złożony wykres, na którym można przedstawić efekty grupowania, to biplot (GORDON 1999, s. 172-
-182). Jego zastosowanie jest jednak ściślej związane ze skalowaniem wielowymiarowym, nie będzie
zatem szerzej omawiane w tym rozdziale. Inne możliwości prezentacji efektów grupowania zostały
zaprezentowane w pracy SNEATHA i SOKALA (1973, s. 259).

6.1.1. Algorytmy hierarchicznych metod analizy skupień

W metodach hierarchicznych analizy skupień zakłada się, że liczba uzyskanych w wyniku zastoso-
wania tej metody skupień 𝑔 nie jest z góry znana, ale jest mniejsza niż liczba grupowanych jednostek,
tzn. 𝑔 < 𝑛. Co więcej, otrzymane w wyniku grupowania skupienia spełniają warunek wewnętrznej
jednorodności i zewnętrznej niejednorodności. Jak wspomniano wcześniej, metody te, w zależności
od przyjętej procedury, dzieli się na metody aglomeracyjne i podziału. W każdej z wymienionych
procedur można zbudować dendrogram prezentujący hierarchiczną strukturę, uzyskanego w wyniku
zastosowania jednej z metod, układu skupień.
Algorytm metod hierarchicznych przebiega w kilku etapach. Punktem wyjścia jest dowolnie
zdefiniowana, symetryczna macierz odległości pomiędzy obiektami. Pierwszy krok różni się w za-
leżności od tego, czy stosowana jest hierarchiczna metoda aglomeracyjna czy podziału. W przypadku
hierarchicznych metod aglomeracyjnych pierwszy krok polega na stopniowym łączeniu wszystkich
jednostek w jedno skupienie przy równoległej korekcie macierzy odległości. W przypadku hierar-
chicznych metod podziału przeprowadzany jest proces odwrotny: początkowo wszystkie jednostki
tworzą jedno skupienie, które w kolejnych etapach tego kroku zostaje dzielone aż do momentu, gdy
wszystkie skupienia staną się jednoelementowe.
Rezultaty procesu budowy hierarchicznego układu skupień, przeprowadzonego w pierwszym
kroku, można w drugim kroku przedstawić na dendrogramie, który następnie w ramach kroku trze-
ciego zostaje „przecięty”. W efekcie tego działania można wyznaczyć kilka odrębnych skupień jed-
nostek. Przykładowy przebieg budowy aglomeracji oraz tworzenia dendrogramu przedstawiono na
rysunku 6.1.
Rysunek 6.1. Wybrane etapy algorytmu hierarchicznych metod aglomeracyjnych

Krok pierwszy: BUDOWA AGLOMERACJI


Macierz odległości 𝑫:
Skorygowana
A B C D E macierz odległości 𝑫′ :
Skorygowana
A 0,00 1,12 1,12 4,00 4,03 A B C DE macierz odległości 𝑫′′ :
Skorygowana
B 1,12 0,00 0,71 3,04 3,00 A 0,00 1,12 1,12 4,03 A BC DE macierz odległości 𝑫′′′ :
C 1,12 0,71 0,00 3,64 3,54 B 1,12 0,00 0,71 3,04 A 0,00 1,12 4,03 ABC DE
D 4,00 3,04 3,64 0,00 0,50 C 1,12 0,71 0,00 3,64 BC 1,12 0,00 3,64 ABC 0,00 4,03
E 4,03 3,00 3,54 0,50 0,00 DE 4,03 3,04 3,64 0,00 DE 4,03 3,64 0,00 DE 4,03 0,00

Pierwszy etap wiązania Drugi etap wiązania Trzeci etap wiązania Czwarty etap wiązania
𝑑min = 𝑑𝐷;𝐸 = 0,50 𝑑min = 𝑑𝐵;𝐶 = 0,71 𝑑min = 𝑑𝐴;𝐵𝐶 = 1,12 𝑑𝑚𝑖𝑛 = 𝑑𝐴𝐵𝐶;𝐷𝐸 = 4,03
Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷, 𝐸} Skupienia: {𝐴}, {𝐵, 𝐶}, {𝐷, 𝐸} Skupienia: {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸} Skupienia: {𝐴, 𝐵, 𝐶, 𝐷, 𝐸}

Korekta macierzy odległości: Korekta macierzy odległości: Korekta macierzy odległości:


𝑑𝐴;𝐷𝐸 = max{4,00; 4,03} = 4,03 𝑑𝐴;𝐵𝐶 = 1,12; 𝑑𝐵𝐶;𝐷𝐸 = 3,64 𝑑𝐴𝐵𝐶;𝐷𝐸 = 4,03
𝑑𝐵;𝐷𝐸 = 3,04; 𝑑𝐶;𝐷𝐸 = 3,64

Krok drugi: DENDROGRAM

dij dij dij dij


4 4 4 4

3 3 3 3

2 2 2 2

1 1 1 1

0 0 0 0
A B C D E A B C D E A B C D E A B C D E
Spośród wielu dostępnych algorytmów wybrano metodę pełnego wiązania (porównaj rozdział 6.1.3), skorygowaną macierz odległości zapisano jako punkt wyjścia następnego etapu
wiązania. Źródło: opracowanie własne.
6.1. Hierarchiczne metody analizy skupień 121

Bez względu na przyjętą metodę punktem wyjścia grupowania hierarchicznego jest macierz odle-
głości. Tworzenie takiej macierzy zostało opisane w rozdziale czwartym. W hierarchicznych metodach
aglomeracyjnych na początku zakłada się, że każdy obiekt tworzy osobne skupienie 𝑠1 , 𝑠2 , … , 𝑠𝑛 , czyli
liczba obiektów równa jest liczbie skupień 𝑔 = 𝑛 . Następnie, w ramach pierwszego etapu wiązania,
na podstawie wartości zawartych w (𝑛 × 𝑛) wymiarowej macierzy odległości 𝑫 wybierana jest wartość
najmniejsza i łączone są ze sobą dwa najbliższe sobie obiekty: obiekt 𝑖-ty oraz obiekt 𝑗-ty. Oba obiekty
zostają połączone w jedno skupienie 𝑠𝑛 i w ten sposób liczba skupień zostaje zredukowana o jeden
(𝑔 = 𝑛 − 1). Ta decyzja powoduje, że przed kolejnym połączeniem skupień należy odpowiednio sko-
rygować macierz odległości. W tym celu konieczne jest wyznaczenie nowych odległości pomiędzy
nowo powstałym skupieniem 𝑠𝑛 , łączącym dwa mniejsze skupienia 𝑠𝑖 oraz 𝑠𝑗 , oraz pozostałymi skupie-
niami 𝑠𝑘 , niewchodzącymi w skład nowopowstałego skupienia 𝑠𝑛 . W literaturze tematu dostępnych jest
wiele procedur rozwiązania tego zagadnienia (zob. np. CORMACK 1971; MAREK 1989, s. 75-79; TIMM
2002, s. 515–541]. To właśnie przyjęty algorytm modyfikacji macierzy odległości różnicuje poszcze-
gólne metody hierarchiczne. Zostaną one szczegółowo opisane w podrozdziale 6.1.3. Korzystając z wy-
branego algorytmu, po połączeniu w ramach pierwszego etapu wiązania dwóch najbliższych sobie
obiektów i zmniejszeniu ogólnej liczby skupień o jeden, wymiar macierzy odległości również ulegnie
zmniejszeniu ((𝑛 − 1) × (𝑛 − 1)). Zamiast wartości w wierszach i kolumnach dotyczących 𝑖-tego oraz
𝑗-tego obiektu, pojawia się nowy wiersz i nowa kolumna odpowiadające wartościom odległości wyzna-
czonych dla skupienia 𝑠𝑛 oraz pozostałych skupień 𝑠𝑘 .
Po odpowiedniej korekcie macierzy odległości powstaje macierz 𝑫′. Spośród poszczególnych jej
wartości, w ramach drugiego etapu wiązania, znowu wybierana jest z niej wartość najmniejszej odle-
głości, na podstawie której tworzy się nowe skupienie lub dołączany jest nowy obiekt do powstałego
wcześniej skupienia. Po tej operacji, tak jak po pierwszym etapie wiązania, należy zredukować macierz
odległości. Procedurę kontynuuje się do momentu włączenia wszystkich obiektów w jedno skupienie,
tj. gdy 𝑔 = 1.
Jak wspomniano wcześniej, algorytm hierarchicznych metod podziału jest przeciwieństwem al-
gorytmu metod aglomeracyjnych i w praktyce stosuje się go dużo rzadziej niż metody aglomeracyjne.
Przykładem takiej metody jest algorytm EWARDSA i CAVALLI-SFORZA (1965). Niemniej jednak punk-
tem wyjścia metod podziałowych jest przyjęcie założenia, że wszystkie obiekty tworzą jedno skupienie.
W kolejnych krokach skupienie to jest dzielone na coraz mniejsze skupienia. W tym celu z macierzy
odległości wybierana jest para najdalszych sobie obiektów. Pozostałe obiekty zostają przypisane do
grupy tego z wybranych obiektów, do którego jest im bliżej. W kolejnym kroku w każdej grupie zostają
ponownie znalezione najdalsze sobie obiekty. Procedura powtarzana jest do momentu, aż każdy z obiek-
tów stworzy osobne skupienie. Więcej informacji na temat metod podziału można znaleźć w publikacji
PARYSEK (1982, s. 100-102).
W kroku drugim algorytmu hierarchicznych metod analizy skupień, zarówno aglomeracyjnych jak
i podziału, powstaje dendrogram, inaczej nazywany drzewem połączeń (zob. np.: BERRY 1961). Jest
to dwuwymiarowy diagram ilustrujący połączenia lub podziały, które zostały dokonane na poszczegól-
nych etapach grupowania. Końcówki dendrogramu przedstawiają badane obiekty, natomiast rozgałę-
zienia tego drzewka dotyczą poszczególnych etapów wiązania. Zatem oś odciętych w układzie współ-
rzędnych nie ma szczególnego znaczenia, z wyjątkiem umieszczenia na niej grupowanych obiektów.
Z kolei oś rzędnych przestawia wartości współczynników odległości. Najmniejsza wartość na tej osi
oznacza maksymalne podobieństwo lub zerową odległość pomiędzy obiektami. Natomiast największa
wartość na osi OY wyraża poziom podobieństwa lub odległości, który był niezbędny do połączenia
wszystkich obiektów w jedno skupienie. Pierwsze rozgałęzienie, na najniższym poziomie, wskazuje
122 6. Wybrane metody hierarchiczne i kombinatoryczne

pierwsze połączenie pomiędzy najbliższymi sobie obiektami. Stanowi to pierwszy etap wiązania. Dru-
gie połączenie to drugi etap wiązania itd. Etapy budowy dendrogramu na poszczególnych etapach wią-
zania stanowią element rysunku 6.1.
Dendrogram po odpowiednim przecięciu (krok trzeci) wskazuje skład powstałych skupień oraz
pokazuje moment włączenia każdego obiektu do określonego skupienia, jak również moment łączenia
się skupień. Szerzej etap ten zostanie opisany w kolejnym podrozdziale.
Jeżeli obiekty zostały opisane przez dwie zmienne, przebieg budowy aglomeracji można przedsta-
wić za pomocą diagramu Venna. Przykład takiego schematu, obrazujący przebieg budowy aglomeracji
przedstawiony na rysunku 6.1, prezentuje kolejny rysunek (6.2).

Rysunek 6.1. Diagram Venna obrazujący przykładowy przebieg budowy aglomeracji w hierarchicznych

W nazwie skupienia si zawarto numer etapu wiązania, w którym dane skupienie powstało.
Źródło: opracowanie własne dla przykładu przedstawionego na rysunku 6.1.

6.1.2. Optymalny podział dendrogramu

Jak wspomniano wcześniej, zarówno metody aglomeracyjne, jak i podziału prowadzą do hierarchicz-
nego układu skupień, który można przedstawić w postaci dendrogramu. Powstaje zatem pytanie, w któ-
rym momencie przerwać proces grupowania, aby otrzymany podział skupień można było uznać za op-
tymalny. W literaturze istnieje wiele propozycji wyboru klasyfikacji optymalnej. Można przerwać pro-
ces grupowania, gdy efektem jest taka liczba skupień jaką planowaliśmy osiągnąć. Takie podejście
przedstawili FRIEDMAN i RUBIN (1967), SZCZOTKA (1972) oraz JAJUGA (1984), a także GRABIŃSKI
(1989a) i MILLIGAN (1981). Niestety zwykle informacji takiej badacz nie posiada i sam musi zadecy-
dować, kiedy klasyfikację można uznać za optymalną.
SOKAL i ROHLF (1962) podkreślają z kolei, że dobór liczby skupień powinien zależeć od liczby
grupowanych obiektów. W przypadku, gdy grupowanych jest mniej niż dziesięć obiektów, w wyniku
grupowania nie powinno powstać więcej niż trzy skupienia; z kolei przy stu jednostkach takich skupień
powinno być co najmniej dziesięć. Co więcej, ze statystycznego punktu widzenia zbyt duża liczba klas
nigdy nie przynosi szkody.
6.1. Hierarchiczne metody analizy skupień 123

W literaturze funkcjonuje także opinia, że badacz znający problem którym się zajmuje, intuicyjnie
potrafi odróżnić dobre grupowanie od złego (zob. np.: JOHNSON, WICHERN 1998, s. 574). MIGDAŁ-
NAJMAN i NAJMAN (2005) podkreślają, że zwykle decyzję o miejscu przecięcia dendrogramu można
podjąć, kierując się zdrowym rozsądkiem i znajomością badanego zagadnienia. Badacz próbuje zatem
podzielić dendrogram tak, aby obiekty należące do danego skupienia miały jak najwięcej wspólnych
cech, a jednocześnie jak najmniej wspólnych cech z obiektami spoza tego skupienia. Jednak w przy-
padku badań empirycznych, w których uwzględniono znaczną liczbę zmiennych opisujących ogromną
liczbę obiektów, podziały na grupy obiektów wewnętrznie jednorodne są trudne i intuicyjnie nieobser-
wowalne. Należy w takim przypadku odwołać się do metod ilościowych.
Pewne rozwiązania zostały zaproponowane przez CONSTANZĘ i AFIFI (1979) czy MILLIGANA i CO-
OPERA (1985). Ich zestawienie zostało przedstawione także w monografii EVERITTA i DUNNA (1991,
s. 107-111), SOKOŁOWSKIEGO (1992, s. 25-29) czy WALESIAKA (1993a, 60-67) oraz w książce TAKSO-
NOMIA STRUKTUR… (1998, s. 79-80). Bardziej złożone podejścia do optymalnego podziału dendro-
gramu zawierają publikacje: STANISZA (2007, s. 142), KORZENIEWSKIEGO (2005; 2012, s. 17-18; 2014)
czy MIGDAŁ-NAJMAN i NAJMANA (2005, 2006). Można tu wyróżnić metody opierające się na maksy-
malnej różnicy kolejnych odległości aglomeracyjnych, podejście opierające się na jakości podziału, po-
równaniu macierzy kofenetycznej z macierzą odległości, na weryfikacji hipotezy dotyczącej aktualnie
łączonych podgrup, weryfikacji hipotezy dotyczącej całej klasyfikacji (zob. np.: SNEATH, SOKAL 1973,
s. 277-290).
Zaprezentowane w literaturze metody charakteryzują się różnym poziomem złożoności. Poniżej zo-
staną przedstawione wybrane podejścia. KORZENIEWSKI (2012, s. 18) podkreśla, że stosowanie różnych
podejść do zagadnienia przecięcia dendrogramu może prowadzić do różnych wyników. Co więcej, „nie-
które z indeksów mogą okazać się nieefektywne, w przypadku niektórych zbiorów danych. Dlatego też,
nie należy wyników badań traktować z całkowitą pewnością”.

Reguła pierwszego znaczącego skoku odległości aglomeracyjnej


Jedno z najprostszych rozwiązań problemu wyboru klasyfikacji optymalnej polega na podziale dendro-
gramu na poziomie pierwszego znaczącego skoku odległości aglomeracyjnej (por. BUNGE 1962, s. 95-
-96). Dla każdego etapu grupowania można podać pewną minimalną wartość odległości dzielącą przy-
łączony na tym etapie do grupy obiekt od wszystkich pozostałych skupień. Gdy skok między dwiema
sąsiednimi wartościami odległości jest największy, logiczne wydaje się zatrzymanie procedury grupo-
wania. Przydatnym narzędziem do wyznaczenia punktu przecięcia dendrogramu jest zatem wykres prze-
biegu aglomeracji (MIGUT 2009). Jego przykład został zaprezentowany na rysunku 6.3.
Zastosowanie reguły pierwszego znaczącego skoku odległości aglomeracyjnych jest rekomendo-
wane w wielu publikacjach (zob. np.: THORNDIKE 1953; POCIECHA i in. 1988, s. 98; SOKOŁOWSKI
1992, s. 29; BŁAŻEJCZYK-MAJKA, KALA 2005). TIMM (2002, s. 531) proponuje podobną metodę nazy-
waną zjawiskiem łokcia, które z kolei bazuje na zależności pomiędzy etapem wiązania a spełnieniem
określonego kryterium jakościowego grupowania. Należy jednak pamiętać, że decyzja o wyraźnym
skoku na podstawie wykresu liczby skupień i kryterium oceny skupiania bądź odległości jest zawsze
decyzją subiektywną (por. EVERITT 1980, s. 64).
124 6. Wybrane metody hierarchiczne i kombinatoryczne

Przykład obliczeniowy: reguła pierwszego znaczącego skoku odległości aglomeracyjnych


Zastosowanie przedstawionego na rysunku 6.1 algorytmu hierarchicznych metod aglomeracyjnych pro-
wadzi do zbudowania pełnej aglomeracji w czterech etapach wiązania. Poszczególne obiekty, bądź sku-
pienia, były łączone w większe na poziomie następujących odległości: 𝑑𝐷;𝐸 = 0,50; 𝑑𝐵;𝐶 = 0,71;
𝑑𝐴;𝐵𝐶 = 1,12; 𝑑𝐴𝐵𝐶;𝐷𝐸 = 4,03. Wykres przebiegu aglomeracji pozwala na przedstawienie etapu wiąza-
nia w relacji z poziomem odległości na jakiej wiązanie to następowało. Dla danych prezentowanych
w tym przykładzie wykres taki zestawiono z dendrytem na rysunku 6.3. Wynika z niego, że o znaczą-
cym skoku odległości aglomeracyjnej można mówić dopiero na czwartym etapie wiązania. Z tego po-
wodu dendrogram należy przeciąć na wysokości większej niż 𝑑𝐴;𝐵𝐶 = 1,12 (trzeci etap wiązania)
i mniejszej niż 𝑑𝐴𝐵𝐶;𝐷𝐸 = 4,03 (czwarty etap wiązania). Działanie to oznaczono na obu wykresach prze-
rywaną linią. W efekcie w wyniku zastosowania tego podejścia podzielono obiekty na dwa skupienia:
{𝐴, 𝐵, 𝐶 }, {𝐷, 𝐸 }.

Rysunek 6.3. Wykres przebiegu aglomeracji oraz „przecięty” dendrogram

etapy wiązania obiekty

Źródło: obliczenia własne na podstawie danych przedstawionych na rysunku 6.1.

Reguła ilorazu odległości aglomeracyjnej


Dobrze znane w literaturze polskiej jest podejście oparte na ilorazie odległości aglomeracyjnych. Re-
guła ta jest znana również jako naturalny podział dendrytu. Stworzyli ją autorzy taksonomii wrocław-
skiej (por. FLOREK i in. 1951). Podejście to rekomendowane jest w pracach: POCIECHA i in. (1988,
s. 98), SOKOŁOWSKI (1992, s. 29) czy MIGUT (2009).
Aby uzyskać naturalny podział dendrytu, należy wszystkie odcinki występujące w dendrycie usta-
wić w porządku malejącym. W przypadku dendrogramu są to wartości odległości, na poziomie których
miały miejsce kolejne etapy tworzenia aglomeracji (por. SOKOŁOWSKI 1992, s. 27):

𝑑1 > 𝑑2 > ⋯ > 𝑑𝑛−1 , [6.1]


gdzie:
𝑑1 – odległość w dendrogramie pozwalająca połączyć wszystkie obiekty w jedno skupienie,
𝑑𝑛−1 – najkrótszy odcinek w dendrogramie
(𝑛 − 1) – liczba wszystkich połączeń w dendrogramie.
6.1. Hierarchiczne metody analizy skupień 125

Na podstawie tak uporządkowanych odległości tworzy się odpowiednie ilorazy długości odcinków
sąsiednich:
𝑑𝑖−1
𝑤𝑖 = [6.2]
𝑑𝑖

Następnie należy sprawdzić relacje pomiędzy kolejnymi wartościami 𝑤𝑖 . Dendrogram rozpada się
w sposób naturalny na 𝑔 części, jeśli 𝑤𝑔 < 𝑤𝑔+1. Jeśli takich relacji jest więcej, to należy wybrać mi-
nimalny iloraz odległości aglomeracyjnych spełniających ten warunek. Jeśli taka relacja nie istnieje, co
może mieć miejsce szczególnie w badaniach uwzględniających niewielką liczbę obiektów, można wy-
brać największą wartość ilorazu odległości aglomeracyjnych 𝑤𝑖 . Takie rozwiązanie jest tożsame z po-
działem dendrogramu na poziomie największego skoku odległości aglomeracyjnej.

Przykład obliczeniowy: reguła ilorazu odległości aglomeracyjnych


Biorąc pod uwagę przykład przedstawiony na rysunku 6.1, w którym grupowanych było pięć obiektów,
należy rozważyć cztery odległości aglomeracyjne: 𝑑𝐷;𝐸 = 0,50; 𝑑𝐵;𝐶 = 0,71; 𝑑𝐴;𝐵𝐶 = 1,12; 𝑑𝐴𝐵𝐶;𝐷𝐸 =
= 4,03.
W tabeli 6.1 w pierwszych kolumnach zawarto wartości odległości uporządkowanych malejąco
(por. wzór [6.1]). Przecięcie dendrogramu na poziomie odległości 𝑑1 , spowodowałoby rozpad dendrytu
na 𝑔 = 2 skupienia. Kolejne kolumny dotyczą ilorazów odległości aglomeracyjnych oraz relacji mniej-
szości lub większości między nimi (por. wzór [6.2]). Żadna z relacji ilorazów odległości aglomeracyj-
nych przestawionych w ostatniej kolumnie tabeli 6.1 nie spełniła warunku naturalnego rozpadu den-
drytu: 𝑤𝑔 < 𝑤𝑔+1 . W tej sytuacji, wzięto pod uwagę wartość maksymalną ilorazów odległości aglome-
racyjnych: 𝑤max = 𝑤2 = 3,60. Dendrogram przedstawiony na rysunku 6.1 należy zatem przeciąć
w taki sposób, aby uzyskać 𝑔 = 2 skupienia. Wiąże się to z odrzuceniem najdłuższej odległości
𝑑1 = 𝑑𝐴𝐵𝐶;𝐷𝐸 = 4,03. Uzyskany ostatecznie układ skupień to: {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸}.

Tabela 6.1. Przykład liczbowy: iloraz odległości aglomeracyjnych


Uporządkowane malejąco
Ilorazy odległości aglomeracyjnych
odległości aglomeracyjne
𝑑1 4,03 𝑤2 = 𝑑1 /𝑑2 3,60 𝑤2 > 𝑤3
𝑑2 1,12 𝑤3 = 𝑑2 /𝑑3 1,57 𝑤3 > 𝑤4
𝑑3 0,71 𝑤4 = 𝑑3 /𝑑4 1,42
𝑑4 0,50 𝑤4 = 𝑑4 /𝑑5

Źródło: obliczenia własne na podstawie danych przedstawionych na rysunku 6.1.

Reguła górnego obszaru odrzucenia


Porównanie odległości międzyklasowych było podstawą do podejścia zaproponowanego przez MOJENĘ
(1977), nazywanego także regułą górnego obszaru odrzucenia (por. MIKULEC 2012, 2013). Podejście
to jest tożsame z propozycją reguły stopu HELLWIGA (1968) podziału dendrytu wrocławskiego, która
zastała opisana w rozdziale 5.2.3 (por. wzór [5.8]). Nie może być ono jednak wykorzystane w przy-
padku metody środków ciężkości i ważonych środków ciężkości. MOJENA (1977) uważa, że optymalny
126 6. Wybrane metody hierarchiczne i kombinatoryczne

podział obiektów następuje na 𝑒-tym etapie wiązania, dla którego odległość aglomeracyjna pierwszego
następnego etapu spełnia nierówność:

𝑑𝑒+1 > 𝑑̅ + 𝑘𝑠𝑑 , [6.3]


gdzie:
𝑑𝑒 – wartość odległości w momencie łączenia się skupień na 𝑒-tym etapie wiązania,
𝑑𝑒+1 – wartość odległości w momencie łączenia się skupień na etapie 𝑒 + 1,
𝑑̅ – średnia arytmetyczna odległości, na poziomie których łączone były obiekty w kolejnych etapach
wiązania,
𝑠𝑑 – odchylenie standardowe odległości, na poziomie których łączone były obiekty w kolejnych eta-
pach wiązania,
𝑘 – dowolna liczba rzeczywista.

MOJENA (1977) dowodził, że najlepsze wyniki otrzymywane są dla wartości 𝑘 z zakresu


[2,75; 3,50]. Z kolei MILLIGAN i COOPER (1985) proponowali wartość 𝑘 = 1,25, natomiast WALESIAK
(1993b, s. 61) opowiadał się za przedziałem [−3; 3]. Co więcej, MOJENA (1977) proponuje trzy roz-
wiązania w sytuacji, gdy żadna z wartości 𝑑𝑒+1 nie przekracza wartości warunku przedstawionego jako
wzór [6.3]. Może ona mieć miejsce, gdy obiekty wykazują mniejsze zróżnicowanie (PARYSEK 1982,
s. 107). Można wtedy wszystkie obiekty pozostawić w jednym skupieniu. Innym rozwiązaniem jest wy-
branie jako optymalnego na 𝑒-tym etapie wiązania takiego podziału, dla którego wartość (𝑑𝑒+1 − 𝑑̅)/𝑠𝑑
jest maksymalna. W sytuacji braku wartości spełniającej warunek [6.3] można także wybrać inną regułę
podziału dendrogramu.
Użyteczność wskaźnika Mojeny w doborze optymalnego podziału dendrogramu była podkreślana
przez EVERITTA i DUNA (1991, s. 110-111) ora EVERITTA i in. (2011, s. 95-96). Została ona zastoso-
wana m.in. w pracy OTRĘBALSKIEGO i WALESIAKA (1991). MIKULEC (2013) wskazuje jednak, że me-
toda ta nie sprawdza się z punktu widzenia wyboru liczby skupień w zbiorach danych, w których sku-
pienia są wygenerowane na podstawie różnych macierzy kowariancji zmiennych. W takich przypadkach
poleca on bardziej złożoną regułę średniej ruchomej, również zaproponowaną przez MOJENĘ (1977).

Przykład obliczeniowy: reguła górnego obszaru odrzucenia


W przykładzie przedstawionym na rysunku 6.1, grupowanych było pięć obiektów, które łączone były
na czterech etapach wiązania. Odległości aglomeracyjne wynosiły na tych etapach odpowiednio: 𝑑𝐷;𝐸 =
0,50; 𝑑𝐵;𝐶 = 0,71; 𝑑𝐴;𝐵𝐶 = 1,12; 𝑑𝐴𝐵𝐶;𝐷𝐸 = 4,03. Na ich podstawie wyznaczono średnią arytmetyczną
i odchylenie standardowe:

średnia arytmetyczna: 𝑑̅ = (0,5 + 0,71 + 1,12 + 4,03)⁄4 = 1,59,


odchylenie standardowe: 𝑠𝑑 = [[(0,5 − 1,59)2 + (0,71 − 1,59)2 + (1,12 − 1,59)2 +
0,5 0,5
+ (4,03 − 1,59)2 ]/4] = [[8,13]/4] = 1,43.

W tabeli 6.2 przedstawiono wyniki podziału dendrogramu w zależności od przyjętej wartości 𝑘 (por.
wzór [6.3]). Uwzględniono w nim przedziały wartości 𝑘, zaproponowane przez WALESIAKA (1993a,
s. 61), MILLIGANA i COOPERA (1985) oraz autora tego podejścia MOJENĘ (1977). Ostatecznie wartości
𝑘 w przedziale [0; 3,5] prowadzą do podziału grupowanych obiektów na skupienia: {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸}.
6.1. Hierarchiczne metody analizy skupień 127

Tabela 6.2. Przykład liczbowy: reguła górnego obszaru odrzucenia

𝑑𝑒+1 (𝑑𝑒+1 − 𝑑̅ )/𝑠𝑑 Optymalne wyniki podziału dendrogramu


k
(1) (2) na podstawie (1) na podstawie (2)
–3,0 –2,689
–2,5 –1,976
–2,0 –1,263
–1,5 –0,549
–1,0 0,164
–0,5 0,877 {𝐴}, {𝐵, 𝐶}, {𝐷, 𝐸}
0,0 1,590 {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸}
0,5 2,303 {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸}
1,0 3,016 {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸}
1,5 3,729 {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸}
2,0 4,443 2,0 {𝐴, 𝐵, 𝐶, 𝐷, 𝐸} {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸}
2,5 5,156 2,5 {𝐴, 𝐵, 𝐶, 𝐷, 𝐸} {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸}
3,0 5,869 3,0 {𝐴, 𝐵, 𝐶, 𝐷, 𝐸} {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸}
3,5 6,582 3,5 {𝐴, 𝐵, 𝐶, 𝐷, 𝐸} {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸}

Źródło: obliczenia własne na podstawie danych przedstawionych na rysunku 6.1.

Reguła maksimum jakości podziału


Część metod wyznaczania klasyfikacji optymalnej bazuje na maksimum funkcji jakości podziału
zbioru obiektów na skupienia. W podejściu tym wprowadzana jest określona funkcja, która ma za zada-
nie mierzyć „jakość” podziału, otrzymanego na danym poziomie aglomeracji. Przykładem tego podej-
ścia jest wskaźnik gamma 𝛾 (BAKER, HUBERT 1975). Jako funkcja jakości podziału często przyjmowane
są wartości wskaźnika 𝐶 Calińskiego-Harabasza lub całkowitego indeksu sylwetkowego 𝐺𝑆𝐼. Wskaź-
niki te wyznaczane są na poszczególnych etapach wiązania. Za optymalny podział uznawany jest taki,
w którym wartość przyjętego wskaźnika osiąga poziom maksymalny. Oba wskaźniki są jednak uzna-
wane za uniwersalne – można je stosować nie tylko do metod hierarchicznych. Z tego względu zostały
opisane w rozdziale 6.3.

6.1.3. Wybrane hierarchiczne metody analizy skupień

Metody hierarchiczne należą do grupy najczęściej używanych metod taksonomicznych. Stanowią one
także stosunkowo najlepiej opisaną w literaturze grupę metod (zob. np. CORMACK 1971; MARDIA i in.
1979; MAREK 1989, s. 75-79 lub TIMM 2002, s. 515–541).
Poszczególne metody hierarchiczne różnią się między sobą algorytmem przekształcenia macierzy
odległości. Efektem każdego etapu wiązania, opisanego szczegółowo w rozdziale 6.1.1, jest połączenie
dwóch skupień 𝑠𝑖 oraz 𝑠𝑗 w jedno większe 𝑠𝑛 . Korekta macierzy odległości 𝑫 przed kolejnym etapem
polega de facto na wyznaczeniu nowych odległości pomiędzy nowo powstałym skupieniem 𝑠𝑛 oraz
pozostałymi skupieniami 𝑠𝑘 , niewchodzącymi w skład nowo powstałego skupienia. LANCE i WILLIAMS
(1967a, 1968) stworzyli ogólny algorytm korekty macierzy odległości, który można zapisać jako
wzór [6.4]:
128 6. Wybrane metody hierarchiczne i kombinatoryczne

𝑑𝑠𝑛 ;𝑠𝑘 = 𝛼𝑖 𝑑𝑠𝑖;𝑠𝑘 + 𝛼𝑗 𝑑𝑠𝑗;𝑠𝑘 + 𝛽𝑑𝑠𝑖 ;𝑠𝑗 + 𝛾 |𝑑𝑠𝑖;𝑠𝑘 − 𝑑𝑠𝑗 ;𝑠𝑘 |, [6.4]
gdzie:
𝑑𝑠𝑛 ;𝑠𝑘 – odległość nowo powstałego skupienia 𝑠𝑛 oraz skupienia 𝑠𝑘 ,
𝑠𝑛 – nowe skupienie łączące dwa mniejsze skupienia 𝑠𝑖 oraz 𝑠𝑗 ,
𝑠𝑘 – dowolne skupienie, które nie wchodzi w skład nowo powstałego skupienia 𝑠𝑛 ,
𝛼𝑖 , 𝛼𝑗 , 𝛽, 𝛾 – parametry charakterystyczne dla poszczególnych hierarchicznych metod aglomeracyj-
nych.

Wartości parametrów 𝛼𝑖 , 𝛼𝑗 , 𝛽 oraz 𝛾 są zależne od metody przyjętej w ramach analizy skupień.


Wykaz metod hierarchicznych zaprezentowanych w pracy wraz z ich wartościami zapisano w tabeli 6.3.
W tabeli tej przyjęto dla jasności obrazu dwa warianty nazewnictwa. Tłustym drukiem zapisano polskie
nazwy metod hierarchicznych, których algorytmy są dostępne w ramach programu Statistica. Pod nimi
umieszczono adekwatne nazwy w języku angielskim, zaproponowane przez SNEATHA i SOKALA
(1973).
Pewna trudność występuje w momencie porównania nazw algorytmów z wartościami ich parame-
trów zapisanymi w kolejnych kolumnach, szczególnie w przypadkach metod ważonych i nieważonych.
Ta pozorna „sprzeczność” wynika z faktu, że SNEATH i SOKAL (1973, s. 230-234) nazwy algorytmów
odnosili nie do matematycznych działań, które zostają przy nich użyte, ale do efektów tych działań.
Zatem dla przykładu zastosowanie średniej arytmetycznej prowadzi do uzyskania wyników, które są
obciążone wartościami liczebności łączonych podgrup i stąd nazwa metody – metoda średnich połączeń
ważonych.
Należy pamiętać, że wybór algorytmu korekty macierzy odległości, po przeprowadzonym łączeniu
dwóch skupień w jedno, jest uzależniony od wielu czynników. Wśród niech jednym z najważniejszych
jest przyjęty sposób przygotowania macierzy odległości oraz znajomość specyficznych własności po-
szczególnych metod (MUCHA 2012). Opis metod wymienionych w tabeli 6.3 zawarto poniżej.

Metoda pojedynczego wiązania


Metoda pojedynczego wiązania należy do najstarszych metod należących do grupy analizy skupień.
Metoda pojedynczego wiązania funkcjonuje w literaturze również jako metoda najbliższego sąsiedztwa,
metoda najbliższego sąsiada czy metoda minimum (single linkage, nearest neighbour, minimum). Punk-
tem wyjścia tej metody był stworzony przez polskich uczonych dendryt wrocławski (FLOREK i in. 1951)
i metoda Prima (PRIM 1957). Ostatecznie uznaje się, że metoda pojedynczego wiązania została wpro-
wadzona do literatury tematu niezależnie przez FLORKA i in (1951) oraz SNEATH’A (1957). Przykładem
zastosowania metody pojedynczego wiązania są prace: HODSONA i in., (1966), CZYŻ (1971, s. 82-93)
oraz MALLORY-GREENOUGH i GREENOUGH (1998). Została ona szczegółowo opisana w literaturze
(zob. np.: SNEATH, SOKAL 1973, s. 216-222; EVERITT 1980, s. 26; SOKOŁOWSKI 1992, s. 19; WALE-
SIAK 1993b, s. 52-54; BALICKI 2009, s. 261).
Jak wspomniano w rozdziale 6.1.1, opisującym algorytm hierarchicznych metod analizy skupień,
w pierwszym etapie zostaje wybrana najmniejsza wartość w macierzy odległości. Wartość ta odpowiada
dwóm skupieniom jednoelementowym 𝑠𝑖 oraz 𝑠𝑗 , które w efekcie zostają połączone w nowe większe
skupienie 𝑠𝑛 . Dalsza budowa aglomeracji wymaga korekty macierzy odległości, a w szczególności wy-
znaczenia odległości nowego skupienia od wszystkich pozostałych skupień 𝑠𝑘 , które nie wchodzą
Tabela 6.3. Wybrane metody hierarchiczne wraz z ich algorytmami modyfikacji macierzy odległości

Parametry algorytmu
Nazwa metody Algorytmy modyfikacji macierzy odległości
𝑖 𝑗  

𝑑𝑠𝑛 ;𝑠𝑘 = min (𝑑𝑠𝑖 ;𝑠𝑘 ; 𝑑𝑠𝑗 ;𝑠𝑘 ) lub


Pojedyncze wiązanie 1 1 1
0 − 1 1 1
Single linkage 2 2 2 𝑑𝑠𝑛 ;𝑠𝑘 = 𝑑𝑠𝑖 ;𝑠𝑘 + 𝑑𝑠𝑗 ;𝑠𝑘 − |𝑑𝑠𝑖 ;𝑠𝑘 − 𝑑𝑠𝑗 ;𝑠𝑘 |
2 2 2

𝑑𝑠𝑛 ;𝑠𝑘 = max (𝑑𝑠𝑖 ;𝑠𝑘 ; 𝑑𝑠𝑗 ;𝑠𝑘 ) lub


Pełne wiązanie 1 1 1
0 1 1 1
Complete linkage 2 2 2 𝑑𝑠𝑛 ;𝑠𝑘 = 𝑑𝑠𝑖 ;𝑠𝑘 + 𝑑𝑠𝑗 ;𝑠𝑘 + |𝑑𝑠𝑖 ;𝑠𝑘 − 𝑑𝑠𝑗 ;𝑠𝑘 |
2 2 2
𝑛𝑛
Średnich połączeń 𝑛𝑖 𝑛𝑗 1 𝑛𝑖 𝑛𝑗
𝑑𝑠𝑛 ;𝑠𝑘 = ∑ 𝑑𝑖;𝑠𝑘 lub 𝑑𝑠𝑛 ;𝑠𝑘 = 𝑑 + 𝑑
Unweighted Pair Group Method
𝑛𝑖 + 𝑛𝑗 𝑛𝑖 + 𝑛𝑗
0 0 𝑛𝑛 𝑛𝑖 + 𝑛𝑗 𝑠𝑖 ;𝑠𝑘 𝑛𝑖 + 𝑛𝑗 𝑠𝑗 ;𝑠𝑘
𝑖=1
with Averaging 𝑖∈𝑠𝑛

𝑛𝑛
Średnich połączeń ważonych 1 𝑐𝑖 1 1
1 1 𝑑𝑠𝑛 ;𝑠𝑘 = ∑ ( ) 𝑑𝑖;𝑠𝑘 lub 𝑑𝑠𝑛 ;𝑠𝑘 = 𝑑𝑠𝑖 ;𝑠𝑘 + 𝑑𝑠𝑗 ;𝑠𝑘
Weighted Pair Group Method 0 0 2 2 2
2 2 𝑖=1
with Averaging 𝑖∈𝑠𝑛

Środków ciężkości 𝑛𝑖 𝑛𝑗 𝑛𝑖 𝑛𝑗 𝑛𝑖 𝑛𝑗
−𝛼𝛼′ 𝑑𝑠𝑛 ;𝑠𝑘 = 𝑑 + 𝑑 − 𝑑
Unweighted Pair Group Method 𝑛𝑖 + 𝑛𝑗 𝑛𝑖 + 𝑛𝑗
0 𝑛𝑖 + 𝑛𝑗 𝑠𝑖 ;𝑠𝑘 𝑛𝑖 + 𝑛𝑗 𝑠𝑗 ;𝑠𝑘 (𝑛 + 𝑛 )2 𝑠𝑗 ;𝑠𝑘
𝑖 𝑗
with Centroid

Ważonych środków ciężkości


(mediany)* 1 1 1 1 1 1
− 0 𝑑𝑠𝑛 ;𝑠𝑘 = 𝑑𝑠𝑖 ;𝑠𝑘 + 𝑑𝑠𝑗 ;𝑠𝑘 − 𝑑𝑠𝑖 ;𝑠𝑗
Weighted Pair Group Method 2 2 4 2 2 4
with Centroid
𝑛𝑖 +𝑛𝑘 𝑛𝑗 +𝑛𝑘 −𝑛𝑘 𝑛𝑖 +𝑛𝑘 𝑛𝑗 +𝑛𝑘 𝑛𝑘
Metoda Warda* 0 𝑑𝑠𝑛 ;𝑠𝑘 = 𝑑 + 𝑑 − 𝑑
𝑛𝑖 + 𝑛𝑗 + 𝑛𝑘 𝑛𝑖 + 𝑛𝑗 + 𝑛𝑘 𝑛𝑖 + 𝑛𝑗 + 𝑛𝑘 𝑛𝑖 + 𝑛𝑗 + 𝑛𝑘 𝑠𝑖 ;𝑠𝑘 𝑛𝑖 + 𝑛𝑗 + 𝑛𝑘 𝑠𝑗 ;𝑠𝑘 𝑛𝑖 + 𝑛𝑗 + 𝑛𝑘 𝑠𝑗 ;𝑠𝑘

ni – liczebność i-tego skupienia;


𝑐𝑖 – liczba wcześniejszych etapów wiązania, które dotyczyło 𝑖-tego obiektu;
* – postać w przypadku odległości euklidesowych.
Źródło: na podstawie zestawienia CORMACK 1971; SNEATH, SOKAL 1973, s. 218-219; EVERITT 1980, s. 33; GORDON 1987; HÄRDLE, SIMAR 2003, s. 309.
130 6. Wybrane metody hierarchiczne i kombinatoryczne

w jego skład. W metodzie pojedynczego wiązania porównuje się w tym celu odległości każdej ze skła-
dowych skupienia 𝑠𝑛 z obiektami należącymi do skupień zewnętrznych, czyli porównywana jest warto-
ści odległości 𝑑𝑠𝑖;𝑠𝑘 oraz 𝑑𝑠𝑗;𝑠𝑘 i wybierana spośród nich do nowego skupienia ta odległość, która oka-
zała się mniejsza – wybierany jest „najbliższy sąsiad”.
Prostszą formę algorytmu metody pojedynczego wiązania można zatem zapisać w formie równania
przedstawionego jako wzór [6.5]. Oczywiście odległość tę można również wyznaczyć, stosując ogólny
wzór LANCE’A i WILLIAMSA (1967a, 1968), który zapisano w odpowiednim wierszu tabeli 6.3.

𝑑𝑠𝑛 ;𝑠𝑘 = min (𝑑𝑠𝑖;𝑠𝑘 ; 𝑑𝑠𝑗;𝑠𝑘 ), [6.5]


gdzie oznaczenia są analogiczne jak we wzorze [6.4].

Sposób wyznaczania odległości dla nowo powstałego skupienia 𝑠𝑛 , w przypadku gdy obiekty są
scharakteryzowane tylko dwoma zmiennymi, można zobrazować za pomocą diagramu Venna, przed-
stawionego na rysunku 6.4. Odpowiada on sytuacji, jaka ma miejsce na trzecim etapie wiązania w przy-
kładzie przedstawionym na rysunku 6.1. Z kolei przykładowy przebieg korekty macierzy odległości
w metodzie pojedynczego wiązania zaprezentowano na rysunku 6.5. W wyniku stosowania tej metody
otrzymuje się najkrótszą sieć połączeń między grupowanymi obiektami (WALESIAK 1993a, s. 56; BA-
LICKI 2009, s. 267). Potwierdzeniem tego jest porównanie odległości maksymalnych, na poziomie któ-
rych w poszczególnych algorytmach (z wyjątkiem metody Warda) łączone zostały wszystkie obiekty
w jedno skupienie. W metodzie najbliższego sąsiedztwa wartość ta jest najmniejsza.

Rysunek 6.4. Diagram Venna obrazujący sposób wyznaczania odległości pomiędzy skupieniami
w metodzie pojedynczego wiązania

Źródło: obliczenia własne na podstawie danych przedstawionych na rysunku 6.1.

Specyficzną własnością metody pojedynczego wiązania jest możliwość powstania efektu łańcusz-
kowego (ANDERBERG 1973, s.137-138). Polega on na tym, że kolejne obiekty są częściej kolejno łań-
cuchowo przyporządkowywane do istniejących już grup niż dzielone na mniejsze skupienia. Skutkiem
tego efektu może być sytuacja, w której ostatni przyłączony obiekt jest bardziej oddalony od pierwszego
obiektu należącego do grupy niż do obiektu spoza tej grupy (por. HAIR i in. 1995, s. 438;
6.1. Hierarchiczne metody analizy skupień 131

Rysunek 6.5. Korekta macierzy odległości w metodzie pojedynczego wiązania


A B C D E
Krok pierwszy: budowa aglomeracji A 0,00 1,12 1,12 4,00 4,03
Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷}, {𝐸}
B 1,12 0,00 0,71 3,04 3,00
Macierz odległości 𝑫 C 1,12 0,71 0,00 3,64 3,54
D 4,00 3,04 3,64 0,00 0,50
E 4,03 3,00 3,54 0,50 0,00

Pierwszy etap wiązania Skorygowana macierz odległości D′ :


Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷, 𝐸} A B C DE
A 0,00 1,12 1,12 4,00
Korekta macierzy odległości 𝑫:
𝑑𝐴;𝐷𝐸 = min{4,00; 4,03} = 4,00 B 1,12 0,00 0,71 3,00
𝑑𝐵;𝐷𝐸 = min{3,04; 3,00} = 3,00 C 1,12 0,71 0,00 3,54
𝑑𝐶;𝐷𝐸 = min{3,64; 3,54} = 3,54
DE 4,00 3,00 3,54 0,00

Drugi etap wiązania Skorygowana macierz odległości 𝑫′′ :


Skupienia: {𝐴}, {𝐵, 𝐶}, {𝐷, 𝐸} A BC DE
A 0,00 1,12 4,00
Korekta macierzy odległości 𝑫′ :
BC 1,12 0,00 3,00
𝑑𝐴;𝐵𝐶 = min{1,12; 1,12} = 1,12
𝑑𝐵𝐶;𝐷𝐸 = min{3,00; 3,54} = 3,00 DE 4,00 3,00 0,00

Trzeci etap wiązania Skorygowana macierz odległości 𝑫′′′ :


Skupienia: {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸} ABC DE
ABC 0,00 3,00
Korekta macierzy odległości 𝑫′′ :
𝑑𝐴𝐵𝐶;𝐷𝐸 = min{4,00; 3,00} = 3,00 DE 3,00 0,00

Czwarty etap wiązania


Skupienie: {𝐴, 𝐵, 𝐶, 𝐷, 𝐸} 4,0
3,5
Odległość wiązania

3,0
2,5
Krok drugi: dendrogram 2,0
1,5
1,0
0,5
0,0
E D C B A
Źródło: opracowanie własne w oparciu o przykład przedstawiony na rysunku 6.1. Dendrogram został wygenerowany w pro-
gramie Statistica.
132 6. Wybrane metody hierarchiczne i kombinatoryczne

TAKSONOMIA STRUKTUR… 1998, s. 78). W niektórych sytuacjach efekt łańcuszkowy może mieć jednak
znaczenie korzystne. Wskazują na to np. SOKOŁOWSKI (1992, s. 19) oraz POCIECHA i in. (1988, s. 163),
przywołując choćby zagadnienia periodyzacji, w których grupowanymi obiektami są jednostki czasu.
Badacz jest wówczas zainteresowany otrzymaniem takich podgrup, które tworzą jednoczęściowe fazy
rozwojowe. W takiej sytuacji właśnie efekt łańcuszkowy jest w stanie uchwycić pewną naturalną cią-
głość badanego procesu.

Metoda pełnego wiązania


Jako przeciwieństwo metody pojedynczego wiązania w literaturze podaje się metodę pełnego wiąza-
nia. Metoda ta inaczej nazywana jest także metodą najdalszego sąsiedztwa, kompletnego połączenia
czy maksimum (complete linkage lub furthest neighbour, diameter metod, maximum metod). Została ona
opisana przez MCQUITTY’EGO (1957, 1960), JOHNSONA (1967) oraz SOKALA i SNEATHA (1963, 1973,
s. 222-228).
W metodzie pełnego wiązania korekta macierzy odległości po wyborze najbliższych sobie skupień
𝑠𝑖 oraz 𝑠𝑗 , które stworzą nowe skupienie 𝑠𝑛 , polega na tym, że zamiast dwóch wartości, które definiują
odległość jednostek tworzących to skupienie, do skupienia zewnętrznego 𝑠𝑘 wybierana jest ta wartość,
która okazała się największa. Zatem jako odległość między dwoma skupieniami przyjmuje się odległość
między dwoma „najdalszymi sąsiadami” należącymi do porównywanych skupień:
𝑑𝑠𝑛 ;𝑠𝑘 = max (𝑑𝑠𝑖;𝑠𝑘 ; 𝑑𝑠𝑗;𝑠𝑘 ), [6.6]
gdzie oznaczenia są analogiczne jak we wzorze [6.4].

Korektę macierzy odległości w oparciu algorytm pełnego wiązania można przeanalizować na pod-
stawie rysunku 6.7, natomiast algorytm tej metody, przedstawiony jako wzór [6.6], zobrazowano za
pomocą diagramu Venna na rysunku 6.6.

Rysunek 6.6. Diagram Venna obrazujący sposób wyznaczania odległości pomiędzy skupieniami w metodzie pełnego wiązania

Źródło: obliczenia własne na podstawie danych przedstawionych na rysunku 6.1.


6.1. Hierarchiczne metody analizy skupień 133

Rysunek 6.7. Korekta macierzy odległości w metodzie pełnego wiązania


A B C D E
Macierz odległości D: A 0,00 1,12 1,12 4,00 4,03
Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷}, {𝐸}
B 1,12 0,00 0,71 3,04 3,00
Macierz odległości 𝑫 C 1,12 0,71 0,00 3,64 3,54
D 4,00 3,04 3,64 0,00 0,50
E 4,03 3,00 3,54 0,50 0,00

Pierwszy etap wiązania Skorygowana macierz odległości D′ :


Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷, 𝐸} A B C DE
A 0,00 1,12 1,12 4,03
Korekta macierzy odległości 𝑫:
𝑑𝐴;𝐷𝐸 = max{4,00; 4,03} = 4,03 B 1,12 0,00 0,71 3,04
𝑑𝐵;𝐷𝐸 = max{3,04; 3,00} = 3,04 C 1,12 0,71 0,00 3,64
𝑑𝐶;𝐷𝐸 = max{3,64; 3,54} = 3,64
DE 4,03 3,04 3,64 0,00

Drugi etap wiązania Skorygowana macierz odległości 𝑫′′ :


Skupienia: {𝐴}, {𝐵, 𝐶}, {𝐷, 𝐸} A BC DE
A 0,00 1,12 4,03
Korekta macierzy odległości 𝑫′ :
𝑑𝐴;𝐵𝐶 = max{1,12; 1,12} = 1,12 BC 1,12 0,00 3,64
𝑑𝐵𝐶;𝐷𝐸 = max{3,04; 3,64} = 3,64 DE 4,03 3,64 0,00

Trzeci etap wiązania Skorygowana macierz odległości 𝑫′′′ :


Skupienia: {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸} ABC DE
ABC 0,00 4,03
Korekta macierzy odległości 𝑫′′ :
𝑑𝐴𝐵𝐶;𝐷𝐸 = max{4,03; 3,64} = 4,03 DE 4,03 0,00

Czwarty etap wiązania


Skupienie: {𝐴, 𝐵, 𝐶, 𝐷, 𝐸} 4,0
3,5
Odległość wiązania

3,0
2,5
Krok drugi: dendrogram 2,0
1,5
1,0
0,5
0,0
E D C B A
Źródło: opracowanie własne w oparciu o przykład przedstawiony na rysunku 6.1. Dendrogram został wygenerowany w pro-
gramie Statistica.
134 6. Wybrane metody hierarchiczne i kombinatoryczne

W odróżnieniu od metody pojedynczego wiązania metoda ta skupia się na wewnętrznej spójności


grup (BALICKI 2009, s. 268), w efekcie czego powstaje raczej kilka mniejszych skupień. Co więcej,
EVERITT i in. (2011, s. 79) zwracają uwagę, że zastosowanie tej metody dąży do znalezienia zwartych
skupień obiektów o równych średnicach. Metoda pełnego wiązania jest zatem polecana w przypadkach,
kiedy obiekty naturalnie tworzą oddzielne grupy. Nie powinno się jej jednak stosować, jeśli skupienia
mają naturę „łańcucha”. W wyniku zastosowania tej metody uzyskuje się najdłuższą sieć połączeń mię-
dzy grupowanymi obiektami (WALESIAK 1993a, s. 56). Z tego powodu spośród przedstawionych w tym
rozdziale metod hierarchicznych maksymalne połączenie na dendrycie powstałym w wyniku tej metody
przyjmuje najwyższe wartości.
W badaniach nad efektywnością poszczególnych metod hierarchicznych metoda pełnego wiązania
jest wskazywana, obok metody Warda, jako jedna z najefektywniejszych (por. SMOLUK 1976;
BLASHFIELD 1976). Z kolei TIMM (2002, s. 523) podkreśla, że algorytm metody pojedynczego wiązania
i metody pełnego wiązania są polecane do grupowania nie tylko obiektów, ale także zmiennych. Należy
jednak pamiętać, że przebieg grupowania w metodzie najbliższego i najdalszego sąsiada jest uwarun-
kowany położeniem jednostek ekstremalnych w skupieniach. Co więcej, algorytmy te ignorują strukturę
skupień, dla których wyznaczana jest nowa odległość (BALICKI 2009, s. 269). Problem ten nie wystę-
puje w procedurach zaproponowanych w kolejnych metodach.

Metoda średnich połączeń


Pośrednim rozwiązaniem problemu korekty macierzy odległości po kolejnych etapach wiązania jest za-
stosowanie metody średnich połączeń. Podejście to nazywane jest także metodą średniej klasowej, me-
todą średniej grupowej (average linkage, unweighted pair-group method using arithmetic averages:
UPGMA). Metoda ta została opisana w publikacji SOKALA i MICHENERA (1958), HODSONA i in. (1966),
MC QUITTY’EGO (1967) oraz SNEATHA i SOKALA (1973, s. 230-234). Za jedno z pierwszych zastoso-
wań tej metody uznaje się pracę ROHLFA (1963) dotyczącą klasyfikacji moskitów.
Odległość nowo powstałego skupienia 𝑠𝑛 od pozostałych skupień 𝑠𝑘 jest wyznaczana na podstawie
obliczonego środka ciężkości nowej grupy i jego odległości do środków ciężkości pozostałych grup.
Środki ciężkości są ustalane każdorazowo po powiększeniu danego skupienia na podstawie średnich
arytmetycznych współrzędnych obiektów wchodzących w skład danego skupienia 𝑠𝑖 oraz 𝑠𝑗 . Do obli-
czeń wykorzystywana jest jednak średnia ważona, w której wagami są liczebności poszczególnych pod-
grup łączonych na poszczególnych etapach:
𝑛𝑖 𝑛𝑗
𝑑𝑠𝑛 ;𝑠𝑘 = 𝑑𝑠𝑖;𝑠𝑘 + 𝑑 , [6.7]
𝑛𝑖 + 𝑛𝑗 𝑛𝑖 + 𝑛𝑗 𝑠𝑗;𝑠𝑘

gdzie oznaczenia są analogiczne jak we wzorze [6.4].

SNEATH i SOKAL (1973, s. 229) podkreślają, że ważenie w metodzie średnich połączeń jest zwią-
zane z obiektami tworzącymi skupienie, a nie z odległościami w formule Lance’a i Williamsa (por.
wzór [6.4]), w której równe wagi mają zastosowanie w grupowaniu ważonym, a zróżnicowane wagi są
użyte w grupowaniu nieważonym. Korektę macierzy odległości w oparciu algorytm średnich połączeń
przedstawiono na rysunku 6.8, natomiast algorytm tej metody (por. wzór [6.7]), zobrazowano za po-
mocą diagramu Venna na rysunku 6.9.
6.1. Hierarchiczne metody analizy skupień 135

Rysunek 6.8. Korekta macierzy odległości w metodzie średnich połączeń

Macierz odległości 𝑫: A B C D E
Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷}, {𝐸} A 0,00 1,12 1,12 4,00 4,03

Macierz odległości 𝑫 B 1,12 0,00 0,71 3,04 3,00


C 1,12 0,71 0,00 3,64 3,54
D 4,00 3,04 3,64 0,00 0,50
E 4,03 3,00 3,54 0,50 0,00

Pierwszy etap wiązania Skorygowana macierz odległości 𝑫′ :


Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷, 𝐸} A B C DE
A 0,00 1,12 1,12 4,02
Korekta macierzy odległości 𝑫:
1 1 B 1,12 0,00 0,71 3,02
𝑑𝐴;𝐷𝐸 = ∗ 4,00 + ∗ 4,03 = 4,02
2 2 C 1,12 0,71 0,00 3,59
1 1
𝑑𝐵;𝐷𝐸 = ∗ 3,04 + ∗ 3,00 = 3,02
2 2 DE 4,02 3,02 3,59 0,00
1 1
𝑑𝐶;𝐷𝐸 = ∗ 3,64 + ∗ 3,54 = 3,59
2 2

Drugi etap wiązania Skorygowana macierz odległości 𝑫′′ :


Skupienia: {𝐴}, {𝐵, 𝐶}, {𝐷, 𝐸} A BC DE
A 0,00 1,12 4,02
Korekta macierzy odległości 𝑫′ :
1 1 BC 1,12 0,00 3,31
𝑑𝐴;𝐵𝐶 = ∗ 1,12 + ∗ 1,12 = 1,12
2 2 DE 4,02 3,31 0,00
1 1
𝑑𝐵𝐶;𝐷𝐸 = ∗ 3,02 + ∗ 3,59 = 3,31
2 2

Trzeci etap wiązania Skorygowana macierz odległości 𝑫′′′ :


ABC DE
Skupienia: {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸}
ABC 0,00 3,54
Korekta macierzy odległości 𝑫′′ : DE 3,54 0,00
1 1 1
𝑑𝐴𝐵𝐶;𝐷𝐸 = ∗ 4,02 + ∗ 3,02 + ∗ 3,59 = 3,54
3 3 3

Czwarty etap wiązania


Skupienie: {𝐴, 𝐵, 𝐶, 𝐷, 𝐸} 4,0
3,5
Odległość wiązania

3,0
2,5
Krok drugi: dendrogram 2,0
1,5
1,0
0,5
0,0
E D C B A
Źródło: opracowanie własne w oparciu o przykład przedstawiony na rysunku 6.1. Dendrogram został wygenerowany w pro-
gramie Statistica.
136 6. Wybrane metody hierarchiczne i kombinatoryczne

Rysunek 6.9. Diagram Venna obrazujący sposób wyznaczania odległości pomiędzy skupieniami
w metodzie średnich połączeń

Źródło: obliczenia własne na podstawie danych przedstawionych na rysunku 6.1; por. KAUFMAN, ROUSSEEUW 1990, s. 47.

Wyniki metody średnich połączeń można uznać za pośrednie rozwiązanie pomiędzy metodą poje-
dynczego i pełnego wiązania. Wartość odległości maksymalnej łączącej wszystkie obiekty w jedno sku-
pienie jest większa od wartości wyznaczonej w metodzie pojedynczego wiązania, a mniejsza od wyzna-
czonej w metodzie pełnego wiązania. Co więcej, metoda średnich połączeń uznawana jest w literaturze
za stosunkowo stabilną ze względu na fakt, że ma tendencję do łączenia skupień z małą wariancją (zob.
np. EVERITT i in. 2011, s. 79). Jest ona rekomendowana przez WALESIAKA i DUDKA (2009) do grupo-
wania obiektów opisanych zmiennymi wyrażonymi w skali porządkowej.
Zastosowanie średniej ważonej do wyznaczania odległości pomiędzy nowo powstałym skupieniem 𝑠𝑛
a pozostałymi skupieniami 𝑠𝑘 pozwala zmniejszyć wpływ efektu przyciągania na osiągnięte wyniki gru-
powania Zatem metoda ta powinna być stosowana wtedy, gdy liczności skupień są wyraźnie nierówne.

Metoda średnich połączeń ważonych


Podobnie jak w pozostałych metodach opisywanych w tym rozdziale dla metody średnich połączeń
ważonych w literaturze funkcjonują również inne nazwy: metoda ważonej średniej grupowej, metoda
ważonej średniej klasowej (weighted average link, uweighted pair-group average, weighted pair-group
method using arithmetic averages: WPGA). Metoda ta została szczegółowo opisana w publikacji
MCQUITTY’EGO (1966 i 1967) oraz SNEATHA i SOKALA (1973, s. 234).
Aby obliczyć korekty macierzy odległości na każdym etapie wiązania, w metodzie tej wykorzystuje
się średnią odległość podgrup tworzących nowe skupienie od pozostałych obiektów:
1 1
𝑑𝑠𝑛 ;𝑠𝑘 = 𝑑𝑠𝑖;𝑠𝑘 + 𝑑𝑠𝑗;𝑠𝑘 , [6.8]
2 2
gdzie oznaczenia są analogiczne jak we wzorze [6.4].

Metoda średnich połączeń ważonych różni się od metody średnich połączeń tym, że wagi obiektów
dołączanych do skupienia w ostatnim etapie są mniejsze od wag przypisanych obiektom, które wcze-
śniej tworzyły to skupienie. Warto przeanalizować spojrzenie SNEATHA i SOKALA (1973, s. 229) na ten
sposób ważenia na podstawie przebiegu korekty macierzy odległości na każdym etapie wiązania przed-
stawionego na rysunku 6.10.
6.1. Hierarchiczne metody analizy skupień 137

Rysunek 6.10. Korekta macierzy odległości w metodzie średnich połączeń ważonych

Macierz odległości D: A B C D E
Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷}, {𝐸} A 0,00 1,12 1,12 4,00 4,03

Macierz odległości 𝑫 B 1,12 0,00 0,71 3,04 3,00


C 1,12 0,71 0,00 3,64 3,54
D 4,00 3,04 3,64 0,00 0,50
E 4,03 3,00 3,54 0,50 0,00

Pierwszy etap wiązania Skorygowana macierz odległości D′ :


Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷, 𝐸} A B C DE
A 0,00 1,12 1,12 4,02
Korekta macierzy odległości 𝑫:
1 1 1 1 B 1,12 0,00 0,71 3,02
𝑑𝐴;𝐷𝐸 = ( ) 4,00 + ( ) 4,03 = 4,02
2 2 C 1,12 0,71 0,00 3,59
𝑑𝐵;𝐷𝐸 = (3,04 + 3,00)/2 = 3,02
𝑑𝐶;𝐷𝐸 = (3,64 + 3,54)/2 = 3,59 DE 4,02 3,02 3,59 0,00

Drugi etap wiązania Skorygowana macierz odległości 𝑫′′ :


Skupienia: {𝐴}, {𝐵, 𝐶}, {𝐷, 𝐸} A BC DE
A 0,00 1,12 4,02
Korekta macierzy odległości 𝑫′ :
1 1 1 1 BC 1,12 0,00 3,31
𝑑𝐴;𝐵𝐶 = ( ) 1,12 + ( ) 1,12 = 1,12
2 2 DE 4,02 3,31 0,00
𝑑𝐵𝐶;𝐷𝐸 = (3,02 + 3,59)/2 = 3,31

Trzeci etap wiązania Skorygowana macierz odległości 𝑫′′′ :


Skupienia: {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸} ABC DE
ABC 0,00 3,66
Korekta macierzy odległości 𝑫′′ :
1 1 1 2 1 2 DE 3,66 0,00
𝑑𝐴𝐵𝐶;𝐷𝐸 = ( ) 4,02 + ( ) 3,02 + ( ) 3,59 =
2 2 2
= 3,66

Czwarty etap wiązania


Skupienie: {𝐴, 𝐵, 𝐶, 𝐷, 𝐸} 4,0
3,5
Odległość wiązania

3,0
2,5
2,0
Krok drugi: dendrogram 1,5
1,0
0,5
0,0
E D C B A
Źródło: opracowanie własne w oparciu o przykład przedstawiony na rysunku 6.1. Dendrogram został wygenerowany w pro-
gramie Statistica.
138 6. Wybrane metody hierarchiczne i kombinatoryczne

Jak wspomniano wyżej, odległość między dwoma skupieniami jest równa średniej odległości mię-
dzy wszystkimi parami obiektów należących do porównywanych skupień (por. WIERZCHOŃ, KŁOPO-
TEK 2015, s. 35). Niestety, jeżeli do bardzo licznego skupienia dołączany jest jeden obiekt lub inne
skupienie o małej liczbie obiektów, to środek ciężkości nowego skupienia nie będzie się różnił znacząco
od najliczniejszego podkupienia wchodzącego w jego skład. Działa tzw. efekt przyciągania. HAIR i in.
(1995 s. 440) oraz BALICKI (2009, s. 270) zwracają uwagę, że obie metody średniej grupowej wykazują
tendencję do tworzenia skupień o małych, w miarę równych wariancjach, i wyniki uzyskane przy ich
zastosowaniu nie są zależne od wartości odstających.

Metoda środków ciężkości


W kolejnej metodzie rozważane są nie tyle odległości pomiędzy poszczególnymi obiektami należącymi
do skupień, ile odległości pomiędzy środkami ciężkości tych skupień. Z tak zdefiniowanego podejścia
wynika kolejna metoda hierarchiczna: metoda środków ciężkości. Nazywana jest ona również metodą
centroidalną (centroid clustering, unweighted pair-group method using the centroid average: UPGC).
Została wprowadzona przez SOKALA i MICHENERA (1958) oraz GOWERA (1967a), a opisana szczegó-
łowo m.in. przez ANDERBERGA (1973, s. 141). Metoda ta była stosowana już na początku lat 60.
XX wieku i cieszy się nadal popularnością (zob. np.: BERRY 1961, SWINNEN 1989).
Algorytm modyfikacji macierzy odległości w przypadku metody środków ciężkości można zapisać
jako wzór [6.9]. Oprócz odległości poszczególnych skupień 𝑠𝑖 oraz 𝑠𝑗 , tworzących nowe skupienie 𝑠𝑛
ze skupieniem zewnętrznym 𝑠𝑘 , algorytm ten zawiera korektę odległości między nimi (𝑑𝑠𝑖;𝑠𝑗 ). Dodat-
kowo uwzględnienie liczebności łączonych skupień pozwala na ominięcie wpływu efektu przyciągania
na wyniki grupowania (TAKSONOMIA STRUKTUR… 1998, s. 79).
𝑛𝑖 𝑛𝑗 𝑛𝑖 𝑛𝑗
𝑑𝑠𝑛 ;𝑠𝑘 = 𝑑𝑠𝑖 ;𝑠𝑘 + 𝑑𝑠𝑗;𝑠𝑘 − 2 𝑑𝑠𝑖 ;𝑠𝑗 , [6.9]
𝑛𝑖 + 𝑛𝑗 𝑛𝑖 + 𝑛𝑗 (𝑛 + 𝑛 )
𝑖 𝑗

gdzie oznaczenia są analogiczne jak we wzorze [6.4].

Metodę środków ciężkości można stosować w oparciu o różnego typu macierze odległości i podo-
bieństwa. Stosowanie metody środków ciężkości nie jest jednak zalecane w przypadku wykorzystania
macierzy współczynników korelacji (BALICKI 2009, s. 274-275 za: EVERITT 1993). WALESIAK (1993b,
s. 56) oraz EVERITT i in. (2011, s. 79) podkreślają jednak, że jeżeli metoda ta zastosowana jest dla od-
ległości euklidesowych, to w takiej sytuacji ma ona geometryczną interpretację (por. rysunek 6.12). Je-
żeli jako odległości byłby zastosowany kwadrat odległości euklidesowej, to można mówić, że metoda
ta pozwala na wskazanie takiego podziału, który daje minimalną sumę kwadratów odległości pomiędzy
centroidami łączonych skupień (MAREK 1989, s. 107).
6.1. Hierarchiczne metody analizy skupień 139

Rysunek 6.11. Korekta macierzy odległości w metodzie środków ciężkości

Macierz odległości 𝑫: A B C D E
Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷}, {𝐸} A 0,00 1,12 1,12 4,00 4,03

Macierz odległości 𝑫 B 1,12 0,00 0,71 3,04 3,00


C 1,12 0,71 0,00 3,64 3,54
D 4,00 3,04 3,64 0,00 0,50
E 4,03 3,00 3,54 0,50 0,00

Pierwszy etap wiązania Skorygowana macierz odległości 𝑫′ :


Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷, 𝐸} A B C DE
A 0,00 1,12 1,12 3,89
Korekta macierzy odległości 𝑫:
1 1 1 B 1,12 0,00 0,71 2,90
𝑑𝐴;𝐷𝐸 = ∗ 4,0 + ∗ 4,03 − ∗ 0,5 = 3,89
2 2 4 C 1,12 0,71 0,00 3,47
1 1 1
𝑑𝐵;𝐷𝐸 = ∗ 3,04 + ∗ 3,0 − ∗ 0,5 = 2,90
2 2 4 DE 3,89 2,90 3,47 0,00
1 1 1
𝑑𝐶;𝐷𝐸 = ∗ 3,64 + ∗ 3,54 − ∗ 0,5 = 3,47
2 2 4

Drugi etap wiązania Skorygowana macierz odległości 𝑫′′ :


Skupienia: {𝐴}, {𝐵, 𝐶}, {𝐷, 𝐸} A BC DE
A 0,00 0,94 3,89
Korekta macierzy odległości 𝑫′ :
1 1 1 BC 0,94 0,00 3,00
𝑑𝐴;𝐵𝐶 = ∗ 1,12 + ∗ 1,12 − ∗ 0,71 = 0,94
2 2 4 DE 3,89 3,00 0,00
1 1 1
𝑑𝐵𝐶;𝐷𝐸 = ∗ 2,90 + ∗ 3,47 − ∗ 0,71 = 3,00
2 2 4

Trzeci etap wiązania Skorygowana macierz odległości 𝑫′′′ :


Skupienia: {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸} ABC DE
ABC 0,00 3,09
Korekta macierzy odległości 𝑫′′ :
1 2 2 DE 3,09 0,00
𝑑𝐴𝐵𝐶;𝐷𝐸 = ∗ 3,89 + ∗ 3,00 − ∗ 0,94 = 3,09
3 3 9

Czwarty etap wiązania


Kolejność aglomeracji (odległości

Skupienie: {𝐴, 𝐵, 𝐶, 𝐷, 𝐸}
4
nie-monotoniczne)

Krok drugi: dendrogram


3

0
E D C B A

Źródło: opracowanie własne w oparciu o przykład przedstawiony na rysunku 6.1. Dendrogram został wygenerowany w pro-
gramie Statistica.
140 6. Wybrane metody hierarchiczne i kombinatoryczne

Rysunek 6.12. Diagram Venna obrazujący sposób wyznaczania odległości pomiędzy skupieniami
w metodzie środków ciężkości

Źródło: obliczenia własne na podstawie danych przedstawionych na rysunku 6.1; por. KAUFMAN, ROUSSEEUW 1990, s. 47.

Metoda ważonych środków ciężkości


Metoda ważonych środków ciężkości została opisana przez LANCE i WILLIAMSA (1966) oraz GOWERA
(1967a). Funkcjonuje ona w literaturze także jako metoda mediany (median linkage, median clustering).
SNEATH i SOKAL (1973) na oznaczenie tej metody stosują natomiast skrót WPGMC (weighted pair-
group method using the centroid average).
Wyznaczenie odległości pomiędzy nowo powstałym skupieniem 𝑠𝑛 a skupieniem zewnętrznym 𝑠𝑘
polega w tym podejściu na obliczeniu odległości pomiędzy środkami ciężkości obu skupień. Za taki
środek ciężkości uznaje się średni punkt w przestrzeni wielowymiarowej zdefiniowanej przez te wy-
miary, który jest niezależny od liczby obiektów tworzących skupienia:
1 1 1
𝑑𝑠𝑛 ;𝑠𝑘 = 𝑑𝑠𝑖 ;𝑠𝑘 + 𝑑𝑠𝑗 ;𝑠𝑘 − 𝑑𝑠𝑖 ;𝑠𝑗 , [6.10]
2 2 4
gdzie oznaczenia są analogiczne jak we wzorze [6.4].

Podobnie jak w metodzie średnich połączeń ważonych może w przypadku metody ważonych środ-
ków ciężkości występować efekt przyciągania. Jeżeli scalane są dwa skupienia, to dominuje to, które
jest bardziej liczne i środek ciężkości nowo powstałego skupienia będzie pozostawał w obrębie liczniej-
szego podskupienia (zob. BALICKI 2009, s. 272-273, za: EVERITT 1980, s. 28-30). Warto wtedy sięgnąć
do opisanej wyżej metody środków ciężkości.
ANDENBERG (1973, s. 141- 142), GORDON (1981) oraz WALESIAK (1993b, s. 56) podkreślają, że
charakterystyczną cechą metody środków ciężkości i ważonych środków ciężkości (centroidalnej i me-
diany) jest to, że wartości poziomu połączenia klas, mogą podnosić się i spadać w momencie przecho-
dzenia z jednego etapu wiązania w następny. Metody te nie posiadają zatem własności poprawnej struk-
tury, jaką można zobrazować za pomocą drzewa połączeń (por. JOHNSON, WICHERN 1998, s. 754).
Z tego powodu na dendrogramach oś OY nie odnosi się do wartości odległości, na której następowało
określone łączenie skupień, ale do kolejnych etapów budowy aglomeracji (por. dendrogramy na rysunku
6.11 oraz 6.13). Fakt ten należy uwzględnić m.in. przy doborze metody podziału dendrogramu oraz
ocenie jakości grupowania.
6.1. Hierarchiczne metody analizy skupień 141

Rysunek 6.13. Korekta macierzy odległości w metodzie ważonych środków ciężkości

Macierz odległości 𝑫: A B C D E
Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷}, {𝐸} A 0,00 1,12 1,12 4,00 4,03

Macierz odległości 𝑫 B 1,12 0,00 0,71 3,04 3,00


C 1,12 0,71 0,00 3,64 3,54
D 4,00 3,04 3,64 0,00 0,50
E 4,03 3,00 3,54 0,50 0,00

Pierwszy etap wiązania Skorygowana macierz odległości 𝑫′ :


Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷, 𝐸} A B C DE
A 0,00 1,12 1,12 3,89
Korekta macierzy odległości 𝑫:
1 1 1 B 1,12 0,00 0,71 2,90
𝑑𝐴;𝐷𝐸 = ∗ 4,0 + ∗ 4,03 − ∗ 0,5 = 3,89
2 2 4 C 1,12 0,71 0,00 3,47
1 1 1
𝑑𝐵;𝐷𝐸 = ∗ 3,04 + ∗ 3,0 − ∗ 0,5 = 2,90
2 2 4 DE 3,89 2,90 3,47 0,00
1 1 1
𝑑𝐶;𝐷𝐸 = ∗ 3,64 + ∗ 3,54 − ∗ 0,5 = 3,47
2 2 4

Drugi etap wiązania Skorygowana macierz odległości 𝑫′′ :


Skupienia: {𝐴}, {𝐵, 𝐶}, {𝐷, 𝐸} A BC DE
A 0,00 0,94 3,89
Korekta macierzy odległości 𝑫′ :
1 1 1 BC 0,94 0,00 3,00
𝑑𝐴;𝐵𝐶 = ∗ 1,12 + ∗ 1,12 − ∗ 0,71 = 0,94
2 2 4 DE 3,89 3,00 0,00
1 1 1
𝑑𝐵𝐶;𝐷𝐸 = ∗ 2,90 + ∗ 3,47 − ∗ 0,71 = 3,00
2 2 4

Trzeci etap wiązania Skorygowana macierz odległości 𝑫′′′ :


Skupienia: {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸} ABC DE
ABC 0,00 3,21
Korekta macierzy odległości 𝑫′′ :
1 1 1 DE 3,21 0,00
𝑑𝐴𝐵𝐶;𝐷𝐸 = ∗ 3,89 + ∗ 3,00 − ∗ 0,94 = 3,21
2 2 4

Czwarty etap wiązania


Kolejność aglomeracji (odległości

Skupienie: {𝐴, 𝐵, 𝐶, 𝐷, 𝐸}
4
nie-monotoniczne)

2
Krok drugi: dendrogram

0
E D C B A

Źródło: opracowanie własne w oparciu o przykład przedstawiony na rysunku 6.1. Dendrogram został wygenerowany w pro-
gramie Statistica.
142 6. Wybrane metody hierarchiczne i kombinatoryczne

Metoda Warda
Najważniejszym postulatem analizy skupień jest stworzenie skupień obiektów możliwie najbardziej
jednorodnych wewnętrznie i możliwie najbardziej odmiennych od pozostałych skupień. Właśnie analiza
zmienności wewnątrzgrupowej na poszczególnych etapach wiązania jest punktem wyjścia w metodzie
Warda (WARD 1963, WISHART 1969). Jest ona nazywana także powiększoną sumą kwadratów odle-
głości lub metodą minimalnej wariancji Warda (incremental sum of squers, Ward’s method).
Celem metody Warda jest łączenie skupień obiektów 𝑠𝑖 oraz 𝑠𝑗 w jedno skupienie 𝑠𝑛 w taki sposób,
aby zmienność w obszarze nowo powstałego skupienia 𝑠𝑛 zbyt nie wzrosła (TAKSONOMIA STRUKTUR…
1998, s. 79; HÄRDLE, SIMAR 2003, s. 312-313). Z tego powodu w metodzie tej macierz odległości mo-
dyfikuje się poprzez wyznaczenie różnicy pomiędzy sumami kwadratów odchyleń odległości poszcze-
gólnych obiektów od środka ciężkości skupień, do których te jednostki należą (GRABIŃSKI 2003, s. 110-
-111). W rezultacie skupienia są tak wewnętrznie jednorodne, jak to tylko możliwe. Ogólny algorytm
modyfikacji macierzy odległości na każdym etapie wiązania można zapisać następująco:
𝑛𝑘 + 𝑛𝑖 𝑛𝑘 + 𝑛𝑗 𝑛𝑘
𝑑𝑠𝑛 ;𝑠𝑘 = 𝑑𝑠𝑖 ;𝑠𝑘 + 𝑑𝑠𝑗 ;𝑠𝑘 − 𝑑 , [6.11]
𝑛𝑘 + 𝑛𝑖 + 𝑛𝑗 𝑛𝑘 + 𝑛𝑖 + 𝑛𝑗 𝑛𝑘 + 𝑛𝑖 + 𝑛𝑗 𝑠𝑖;𝑠𝑗

gdzie oznaczenia są analogiczne jak we wzorze [6.4].

W przypadku metody Warda, podobnie jak w metodzie środków ciężkości, powinno się stosować
odległość euklidesową lub kwadratową odległość euklidesową (MAREK 1989, s. 107; SAGAN, ŁAP-
CZYŃSKI 2009). Tylko w takim przypadku otrzymane skupienia mogą być uznawane za zbiory obiektów
o minimalnej wariancji. Metoda Warda prowadzi do w miarę równolicznych podziałów, gdzie nie po-
jawia się tzw. efekt łańcuchowania, polegający na dołączaniu do wyjściowej grupy pojedynczych jed-
nostek. Co więcej, w rezultacie stosowania metody Warda rzadko występują pojedyncze obiekty izolo-
wane. Jest ona polecana w przypadku badań regionalnych, w których na tworzone grupy nałożony został
warunek wewnętrznej spójności. SOKOŁOWSKI (1976), SMOLUK (1976) i BLASHFIELD (1976) w swoich
badaniach nad efektywnością poszczególnych metod wskazali metodę Warda jako jedną z najlepszych,
szczególnie ze względu na kryterium efektywności odtwarzania rzeczywistej struktury danych (por. SO-
KOŁOWSKI 1992).
Metoda Warda cieszy się szerokim zainteresowaniem w badaniach społeczno-gospodarczych. Zo-
stała ona zastosowana w celu wyodrębniania jednorodnych demograficznie regionów Europy (GRABIŃ-
SKI 2003, s. 110-119). BŁACZKOWSKA i in. (2008) wykorzystali metodę Warda do analizy porównaw-
czej struktury wieku w państwach Unii Europejskiej, a ANDERSON i in. (1987) dzięki tej metodzie zde-
finiowali segmenty rynku pracy w USA. W tym samym celu zastosował ją również MIGUT (2009). MA-
LINA (1992) przy zastosowaniu metody Warda porównała polskie województwa w 1986 r. w pod
względem rozwoju społecznego, przemysłowego i rolniczego. Przykładem badań historycznych w tym
obszarze jest opracowanie GAZIŃSKIEJ i GAZIŃSKIEGO (2010) dotyczące struktury rzemiosła w osiem-
nastowiecznych miastach Pomorza Pruskiego.
6.1. Hierarchiczne metody analizy skupień 143

Rysunek 6.14. Korekta macierzy odległości w metodzie Warda

Macierz odległości 𝑫: A B C D E
Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷}, {𝐸} A 0,00 1,12 1,12 4,00 4,03
B 1,12 0,00 0,71 3,04 3,00
C 1,12 0,71 0,00 3,64 3,54
D 4,00 3,04 3,64 0,00 0,50
E 4,03 3,00 3,54 0,50 0,00

Pierwszy etap wiązania Skorygowana macierz odległości 𝑫′ :


Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷, 𝐸} A B C DE
A 0,00 1,12 1,12 5,19
Korekta macierzy odległości 𝑫:
2 2 1 B 1,12 0,00 0,71 3,86
𝑑𝐴;𝐷𝐸 = ∗ 4,0 + ∗ 4,03 − ∗ 0,5 = 5,19
3 3 3 C 1,12 0,71 0,00 4,62
2 2 1
𝑑𝐵;𝐷𝐸 = ∗ 3,04 + ∗ 3,0 − ∗ 0,5 = 3,86
3 3 3 DE 5,19 3,86 4,62 0,00
2 2 1
𝑑𝐶;𝐷𝐸 = ∗ 3,64 + ∗ 3,54 − ∗ 0,5 = 4,62
3 3 3

Drugi etap wiązania Skorygowana macierz odległości 𝑫′′ :


Skupienia: {𝐴}, {𝐵, 𝐶}, {𝐷, 𝐸} A BC DE
A 0,00 1,25 5,19
Korekta macierzy odległości 𝑫′ :
2 2 1 BC 1,25 0,00 6,01
𝑑𝐴;𝐵𝐶 = ∗ 1,12 + ∗ 1,12 − ∗ 0,71 = 1,25
3 3 3 DE 5,19 6,01 0,00
3 3 2
𝑑𝐵𝐶;𝐷𝐸 = ∗ 3,86 + ∗ 4,62 − ∗ 0,71 = 6,01.
4 4 4

Trzeci etap wiązania Skorygowana macierz odległości 𝑫′′′ :


Skupienia: {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸} ABC DE
ABC 0,00 7,41
Korekta macierzy odległości 𝑫′′ :
3 4 2 DE 7,41 0,00
𝑑𝐷𝐸;𝐴𝐵𝐶 = ∗ 5,19 + ∗ 6,01 − ∗ 1,25 = 7,41
5 5 5

Czwarty etap wiązania 8


Skupienie: {𝐴, 𝐵, 𝐶, 𝐷, 𝐸}
7
Odległość wiązania

Krok drugi: dendrogram 6


5
4
3
2
1
0
E D C B A

Źródło: opracowanie własne w oparciu o przykład przedstawiony na rysunku 6.1. Dendrogram został wygenerowany w pro-
gramie Statistica.
144 6. Wybrane metody hierarchiczne i kombinatoryczne

6.2. Metody kombinatoryczne analizy skupień

Jak wspomniano wcześniej, obiekty można podzielić na rozłączne skupienia za pomocą hierarchicznych
metod aglomeracyjnych. Metody te nie dają jednak ostatecznej odpowiedzi, który układ skupień jest
optymalny. Badacz musi zatem podejmować decyzje nie tylko o doborze metody grupowania, ale także
o wyborze optymalnego podziału dendrytu. W tym celu stosowane są dodatkowe reguły optymalnego
podziału dendrogramu, które nierzadko prowadzą do różnych wyników. Co więcej, MIGUT (2009) oraz
WYSOCKI (2010, s. 109) zwracają uwagę, że metody aglomeracyjne są użyteczne dla małych zbiorów
danych. W przypadku gdy grupowanych jest więcej niż sto obiektów, ich użyteczność spada ze względu
na konieczność wyznaczenia macierzy odległości oraz czytelność dendrogramu. Wśród słabych stron
metod hierarchicznych wymieniany jest także brak możliwości przemieszczenia obiektu raz zakwalifi-
kowanego pomiędzy skupieniami, wpływ na wyniki grupowania jednostek odstających oraz wydłużony
czas obliczeń dla bardziej licznego zbioru obiektów (por. HAIR i in. 1995, s. 441-442).
Rozwiązaniem niedostatków metod hierarchicznych może być zastosowanie jednej z metod kombi-
natorycznych analizy skupień. W przeciwieństwie do metod hierarchicznych nie prowadzą one do hie-
rarchicznego łączenia skupień, aby stworzyć ich aglomerację. Nie jest zatem konieczna konstrukcja
dendrogramu. Ideą przewodnią metod kombinatorycznych jest przyporządkowywanie poszczególnych
obiektów do z góry ustalonej liczby skupień. Decyzja o tym, do którego skupienia dany obiekt należy
przypisać, zależy od stopnia zgodności jego charakterystyk (wartości zmiennych) z charakterystykami
środków ciężkości skupień (punkty średnie skupień). Charakterystyki te są zmieniane po każdym prze-
mieszczeniu obiektów między skupieniami. Co więcej, ze względu na stopień zgodności z charaktery-
stykami nowych prototypów na każdym etapie obiekt może zmienić swoje położenie. Proces iteracyjny
jest kontynuowany, dopóki klasyfikacja nie osiągnie pewnego założonego stopnia stabilności (WY-
SOCKI 2010, s. 109-110). Główną korzyścią stosowania metod kombinatorycznych analizy skupień jest
stosunkowo krótki czas obliczeń, nawet przy przetwarzaniu dużych zbiorów danych. Zwraca się rów-
nież uwagę, że wyniki klasyfikacji w oparciu o te metody są mniej wrażliwe na występowanie obser-
wacji odstających, wybór miary odległości czy udział w badaniu zmiennych mało istotnych (HAIR i in.
1995, s 442; WYSOCKI 2010, s. 110).
Metody kombinatoryczne grupowania nie są jednak wolne od ograniczeń. Wyniki klasyfikacji tymi
metodami zależą od zadanej początkowej klasyfikacji obiektów lub środków ciężkości skupień i w re-
zultacie ich algorytmy pozwalają na osiągnięcie minimum lokalnego funkcji kryterium. Co więcej, sto-
sując metody kombinatoryczne należy określić z góry liczbę skupień, co w wielu przypadkach nie jest
dla badacza oczywiste. Z kolei JOHNSON i WICHERN (1998, s. 754) wskazują, że metod kombinatorycz-
nych należy używać raczej do grupowania obiektów, a nie zmiennych. W wyniku ich stosowania uzy-
skiwany jest podział obiektów na skupienia, badacz nie ma jednak żadnej informacji na temat struktury
obiektów w ramach utworzonych skupień.
Spośród wielu kombinatorycznych algorytmów grupowania do najbardziej znanych należy metoda
𝒌-średnich (WYSOCKI 2010, s. 109-110). W literaturze zaproponowano także podejścia łączące za-
równo kryteria grupowania, jak i metody ich optymalizacji. Wykaz takich metod można znaleźć w wielu
publikacjach (zob. np.: EVERITT 1980, s. 40-46; SOBCZAK, MALINA 1985, s. 147-153; KOWALEWSKI
2006; WIERZCHOŃ, KŁOPOTEK 2015, s. 38-53). GRABIŃSKI (1992, s. 124-135) szczegółowo opisał i za-
prezentował metodę 𝑘-średnich, metodę 𝑘-centroidów, metodę Forgy-Jancey’a, metodę Wisharta oraz
metodę Thotndike’a. Znana jest również tzw. metoda genetyczna (MORAJDA, GRABOWSKI 2001).
6.2. Metody kombinatoryczne analizy skupień 145

W literaturze zaproponowano zatem wiele wersji metody k-średnich. Ta różnorodność wynika


z przyjmowania różnych sposobów ustalania początkowej konfiguracji środków podgrup, kryteriów
oceny dobroci klasyfikacji, reguł przesuwania obiektów do innych podgrup czy, reguł zatrzymywania
procesu poprawiania klasyfikacji (TAKSONOMIA STRUKTUR… 1998, s. 80). Przyjmując różne założenia
początkowe tej metody, można uzyskać różne wyniki. Zatem podobnie jak w metodach hierarchicznych
i tu występuje problem wyboru rozwiązania optymalnego. EVERITT (1980, s. 42-43, 99) oraz GRABIŃ-
SKI (1992, s. 125) podkreślają, że kryterium wyboru optymalnego podziału obiektów na skupienia po-
winno opierać się na minimalizacji wariancji wewnątrzgrupowej. Procedury tego typu zostaną opisane
w podrozdziale 6.3.
Metoda 𝑘-średnich znajduje szeroki zakres zastosowań. Można tu wymienić choćby monografię
TAKSONOMIA STRUKTUR… (1998). Metodę tę wykorzystał m.in. HODSON (1971) w swoich badaniach
dotyczących toporów znalezionych na Wyspach Brytyjskich oraz GAZIŃSKA i DMYTRÓW (2000) do
podziału Polski ze względu na poziom nadumieralności wiejskiej. CHOJNICKI i CZYŻ (1973, s. 72-81)
proponowali zastosowanie metod kombinatorycznych analizy skupień w badaniach przestrzennych,
a w szczególności w celu wyznaczania granic okręgów wyborczych oraz okręgów szkolnych.
O zastosowaniu metody 𝑘-średnich do oceny podziału administracyjnego Polski pisał także
KOPOCIŃSKI (1960a,b).
W pracy opisane zostaną podstawy teoretyczne jedynie jednej z metod kombinatorycznych: metody
𝑘-średnich. Podobnie jak w przypadku metod hierarchicznych decyzja ta była podyktowana zakresem
oferty w ramach programu Statistica.

6.2.1. Algorytm metody 𝒌-średnich

Metoda 𝑘-średnich należy do metod optymalizacyjno-iteracyjnych. Jej podstawowa idea została opra-
cowana przez DALENIUSA (1950). Wśród twórców algorytmu tej metody wymienia się także COXA
(1957), SEBESTYENA (1962) oraz MCQUEENA (1967). GRABIŃSKI (1989b, s. 78; 1992, s. 125; 2003,
s. 110-111) wskazuje, że algorytm metody 𝑘-średnich stosuje się do otrzymania takiego podziału jed-
nostek, aby uzyskać jak najbardziej istotne wyniki analizy wariacji. Głównym założeniem tej metody
jest zatem minimalizacja wariancji wewnątrzgrupowej i maksymalizacja wariancji pomiędzy skupie-
niami. Aby uzyskać największy poziom istotności analizy wariancji, w kolejnych iteracjach przeno-
szone są obiekty między grupami i sprawdzane efekty tych zmian. Innymi słowy, dzięki tej metodzie
zostaje utworzona z góry określona liczba skupień (k-skupień), które w możliwie największym stopniu
będą różniły się od siebie.
W taksonomicznych metodach kombinatorycznych zakłada się, że liczba uzyskanych w wyniku
zastosowania tej metody skupień 𝑔 jest z góry znana i jest mniejsza niż liczba grupowanych obiektów:
tzn. 𝑔 < 𝑛 (TAKSONOMIA STRUKTUR… 1998, s. 80-81). Jeżeli metoda k-średnich jest stosowana w re-
gionalizacji, to jednostka centralna wyodrębnionych skupień może być traktowana jako ośrodek cen-
tralny regionu wyodrębnionego w grupowaniu jednostek terytorialnych (BUNGE 1966, s. 238-248).
Algorytm metod kombinatorycznych przebiega w kilku etapach (por. HARTIGAN 1979; GRABIŃ-
SKI 1989b, s. 78-82; POCIECHA i in. 1988, s 95-96; JOHNSON, WICHERN 1998, s. 555-557; GRABIŃSKI
2003, s. 110-111; PĘCZKOWSKI 2009, s. 127-131). Jego schemat został zaprezentowany na rysunku
6.15. Punktem wyjścia (etap pierwszy) jest zdefiniowanie ostatecznej liczby skupień oraz pierwszych
146 6. Wybrane metody hierarchiczne i kombinatoryczne

Rysunek 6.15. Wybrane etapy metody 𝒌-średnich

Etap 1. Założenia początkowe


1,0 1,0
2,0 1,5 grupowaniu podlega 𝑛 = 5 obiektów: 𝐴, 𝐵, 𝐶, 𝐷, 𝐸 opisanych 𝑚 = 2 zmiennymi;
𝑿 = 1,5 2,0 liczba skupień: 𝑔 = 2;
5,0 1,0 pierwsze centra skupień: 𝑐1 = 𝐴 (1,0; 1,0) oraz 𝑐2 = 𝐵(2,0; 1,5)
[5,0 1,5]

Etap 2. Przydzielenie obiektów do skupień

Krok 1. Wyznaczenie odległości obiektów od środków ciężkości


Najbliższe
Nazwa Odległość obiektu od 𝑐1 Odległość obiektu od 𝑐2 Minimum
centrum
obiektu 𝑐1 = 𝐴 (1,0; 1,0) 𝑐2 = 𝐵(2,0; 1,5) odległości
skupień
1 1
A = [0,5((𝟏 − 1)2 + (𝟏 − 1)2 )]2 = 𝟎 = [0,5((𝟐 − 1)2 + (𝟏, 𝟓 − 1)2 )]2 = 𝟎, 𝟕𝟗 0 A
1 1
B = [0,5((𝟏 − 2)2 + (𝟏 − 1,5)2 )]2 = 𝟎, 𝟕𝟎 = [0,5((𝟐 − 2)2 + (𝟏, 𝟓 − 1,5)2 )]2 =𝟎 0 B
1 1
C = [0,5((𝟏 − 1,5)2 + (𝟏 − 2)2 )]2 = 𝟎, 𝟕𝟗 = [0,5((𝟐 − 1,5)2 + (𝟏, 𝟓 − 2)2 )]2 = 𝟎, 𝟓𝟎 0,50 B
1 1
D = [0,5((𝟏 − 5)2 + (𝟏 − 1)2 )]2 = 𝟐, 𝟖𝟑 = [0,5((𝟐 − 5)2 + (𝟏, 𝟓 − 1)2 )]2 = 𝟐, 𝟏𝟓 2,15 B
1 1
E = [0,5((𝟏 − 5)2 + (𝟏 − 1,5)2 )]2 = 𝟐, 𝟖𝟓 = [0,5((𝟐 − 5)2 + (𝟏, 𝟓 − 1,5)2 )]2 = 𝟐, 𝟏𝟐 2,12 B

średnia 0,95

Krok 2. Przydzielenie obiektów do skupień Krok 3. Wyznaczenie nowych środków ciężkości

Nazwa
𝑋1 𝑋2
obiektu
B 2,0 1,5
C 1,5 2,0 𝑐1 = 𝐴 (1,0; 1,0)
𝑐2 = 𝐶2 (3,38; 1,5)
D 5,0 1,0
E 5,0 1,5
średnia 3,38 1,5

Etap 3. Ponowne przydzielenie obiektów do skupień

Krok 1. Wyznaczenie odległości obiektów od środków ciężkości


Naj-
Nazwa Odległość obiektu od 𝑐1 Odległość obiektu od 𝑐2 Minimum bliższe
obiektu 𝑐1 = 𝐴 (1,0; 1,0) 𝑐2 = 𝐶2 (3,38; 1,5) odległości centrum
skupień
1 1
A = [0,5((𝟏 − 1)2 + (𝟏 − 1)2 )]2 = 𝟎 = [0,5((𝟑, 𝟑𝟖 − 1)2 + (𝟏, 𝟓 − 1)2 )]2 = 𝟏, 𝟕𝟐 0 A
1 1
B = [0,5((𝟏 − 2)2 + (𝟏 − 1,5)2 )]2 = 𝟎, 𝟕𝟗 = [0,5((𝟐, 𝟑𝟖 − 2)2 + (𝟏, 𝟓 − 1,5)2 )]2 = 𝟎, 𝟗𝟕 0,79 A
1 1
C = [0,5((𝟏 − 1,5)2 + (𝟏 − 2)2 )]2 = 𝟎, 𝟕𝟗 = [0,5((𝟑, 𝟑𝟖 − 1,5)2 + (𝟏, 𝟓 − 2)2 )]2 = 𝟏, 𝟑𝟕 0,79 A
1 1
D = [0,5((𝟏 − 5)2 + (𝟏 − 1)2 )]2 = 𝟐, 𝟖𝟑 = [0,5((𝟑, 𝟑𝟖 − 5)2 + (𝟏, 𝟓 − 1)2 )]2 = 𝟏, 𝟐𝟎 1,20 𝐶2
1 1
E = [0,5((𝟏 − 5)2 + (𝟏 − 1,5)2 )]2 = 𝟐, 𝟖𝟓 = [0,5((𝟑, 𝟑𝟖 − 5)2 + (𝟏, 𝟓 − 1,5)2 )]2 = 𝟏, 𝟏𝟓 1,15 𝐶2

średnia 0,79
6.2. Metody kombinatoryczne analizy skupień 147

cd. rys. 6.15

Krok 2. Przydzielenie obiektów do skupień Krok 3.: Wyznaczenie nowych środków ciężkości

Nazwa Nazwa
X1 X2 X1 X2
obiektu obiektu
A 1,0 1,0 D 5,0 1,0
B 2,0 1,5 E 5,0 1,5
C 1,5 2,0 średnia 5,0 1,25
średnia 1,5 1,5
𝑐1 = 𝐶1 (1,5; 1,5) 𝑐2 = 𝐶2 (5,0; 1,25)

Etap 4. Ponowne przydzielenie obiektów do skupień

Krok 1.: Wyznaczenie odległości obiektów od środków ciężkości


Mini- Najbliż-
Nazwa Odległość obiektu od 𝑐1 Odległość obiektu od 𝑐2 mum sze cen-
obiektu 𝑐1 = 𝐶1 (1,5; 1,5) 𝑐2 = 𝐶2 (5,00; 1,25) odległo- trum
ści skupień
1 1
A = [0,5((𝟏, 𝟓 − 1)2 + (𝟏, 𝟓 − 1)2 )]2 = 𝟎,50 = [0,5((𝟓 − 1)2 + (𝟏, 𝟐𝟓 − 1)2 )]2 = 𝟐, 𝟖𝟑 0,50 𝐶1
1 1
B = [0,5((𝟏, 𝟓 − 2)2 + (𝟏, 𝟓 − 1,5)2 )]2 = 𝟎, 𝟑𝟓 = [0,5((𝟓 − 2)2 + (𝟏, 𝟐𝟓 − 1,5)2 )]2 = 𝟐, 𝟏𝟑 0,35 𝐶1
1 1
C = [0,5((𝟏, 𝟓 − 1,5)2 + (𝟏, 𝟓 − 2)2 )]2 = 𝟎, 𝟑𝟓 = [0,5((𝟓 − 1,5)2 + (𝟏, 𝟐𝟓 − 2)2 )]2 = 𝟐, 𝟓𝟑 0,35 𝐶1
1 1
D = [0,5((𝟏, 𝟓 − 5)2 + (𝟏, 𝟓 − 1)2 )]2 = 𝟐, 𝟓𝟎 = [0,5((𝟓 − 5)2 + (𝟏, 𝟐𝟓 − 1)2 )]2 = 𝟎, 𝟏𝟖 0,18 𝐶2
1 1
E = [0,5((𝟏, 𝟓 − 5)2 + (𝟏, 𝟓 − 1,5)2 )]2 = 𝟐, 𝟒𝟕 = [0,5((𝟓 − 5)2 + (𝟏, 𝟐𝟓 − 1,5)2 )]2 = 𝟎, 𝟏𝟖 0,18 𝐶2

średnia 0,31

Krok 2. Przydzielenie obiektów do skupień Krok 3. Wyznaczenie nowych środków ciężkości

Nazwa Nazwa
𝑋1 𝑋2 𝑋1 𝑋2
obiektu obiektu
A 1,0 1,0 D 5,0 1,0
B 2,0 1,5 E 5,0 1,5
C 1,5 2,0 średnia 5,0 1,25
średnia 1,5 1,5
𝑐1 = 𝐶1 (1,5; 1,5) 𝑐2 = 𝐶2 (5,0; 1,25)

Źródło.: obliczenia władne na podstawie danych z przykładu zaprezentowanego na rysunku 6.1; jako miarę odległości w me-
1 2
todzie 𝑘-średnich przyjmuje się 𝑑𝑖𝑗 = √ ∑𝑚
𝑘=1(𝑥𝑖𝑘 − 𝑥𝑗𝑘 ) .
𝑚
148 6. Wybrane metody hierarchiczne i kombinatoryczne

centrów tych skupień i liczby iteracji potrzebnych do uzyskania podziału optymalnego. W etapie dru-
gim następuje przydzielenie wszystkich obiektów do tych skupień, których środki okazały się im naj-
bliższe. W tym celu wyznacza się odległości pierwszej nieprzydzielonej jednostki do środków ciężkości
poszczególnych grup (krok 1) i kwalifikuje się ją do grupy najbliżej położonej (krok 2). Zwykle do
oznaczenia tych odległości stosowana jest metryka euklidesowa (por. wzór [4.7]) lub wariancje (por.
rys. 6.15). Pierwszą iterację kończy decyzja o ostatnim, nieprzyporządkowanym obiekcie. Dla każdego
tak utworzonego skupienia wyznaczony jest nowy środek ciężkości (krok 3). Jest on punktem wyjścia
do kolejnego etapu badań, w którym sprawdza się, czy każdy obiekt jest bliżej środka własnego sku-
pienia, czy też innego. W tym ostatnim przypadku obiekt jest przesuwany do tego skupienia, do którego
środka ma najbliżej (krok 1 i 2). Kolejne kroki procedury przeprowadza się dotąd, aż w danej iteracji
nie obserwuje się żadnych przesunięć obiektów z jednego skupienia do drugiego albo do wyczerpania
założonej liczby iteracji. Zwykle liczba niezbędnych iteracji jest mniejsza od 15. Po przesunięciu obiek-
tów wyznaczane są znowu nowe środki skupień (krok 3). Cała procedura powtarzana jest aż do mo-
mentu, gdy już żadnego obiektu nie da się przesunąć do innego skupienia, ponieważ dla wszystkich
obiektów najbliższy jest ich środek skupienia, a nie inny. Ostatni etap grupowania polega na ocenie
uzystkanych wyników. Zostanie on szerzej omówiony w rozdziale 6.3.
Zazwyczaj w rezultacie grupowania metodą 𝑘-średnich, aby oszacować, na ile uzyskane skupienia
są od siebie różne, obliczane są średnie dla każdego z nich w każdym wymiarze (dla każdej zmiennej).
W sytuacji idealnej otrzymane średnie dla większości uwzględnionych w badaniu wymiarów (jeśli nie
dla wszystkich) w skupieniach są bardzo różne. Oczywiście istnieją procedury testowania statystycznej
istotności różnic tych średnich. Opisał je m.in. STANISZ (2007, s. 152-154).

6.2.2. Ustalenie liczby skupień w metodzie 𝒌-średnich

Mimo wielu niewątpliwych zalet metod kombinatorycznych badacz przed ich zastosowaniem musi za-
decydować o szeregu założeń. Pierwszym z nich jest ustalenie żądanej liczby skupień 𝒈, które mają
powstać w wyniku podziału grupowanych 𝑛 obiektów. Istnieje wiele sposobów wyznaczania optymal-
nej liczby skupień. Wykaz tych metod został przedstawiony na przykład w publikacji EVERITTA i in.
(2011, s.126-130).
Liczbę skupień można wskazać także na podstawie wyników uprzednio zastosowanych metod aglo-
meracyjnych i ustalenia dla nich optymalnej liczby skupień. Podejście to pozwala wykorzystać zarówno
atuty metod hierarchicznych i niehierarchicznych. Jest ono często polecane w literaturze (zob. np.: MIL-
LIGAN 1980; HAIR i in. 1995, s. 442; PĘCZKOWSKI 2009, s. 146-147). Jego zaletą jest prostota podejścia.
Dla tego samego zestawu danych wykonywane jest najpierw grupowanie hierarchiczne. Na podstawie
wyników tego grupowania wyznacza się liczbę skupień. Nie ma jednak konieczności szczegółowego
określenia, do których skupień poszczególne obiekty przynależą, co mogłoby przysparzać trudności
w przypadkach grupowania dużej ilości obiektów. Wyznaczona w ten sposób liczba skupień jest punk-
tem wyjścia do analizy 𝑘-średnich. Wadą tego podejścia jest jednak to, że istnieje wiele metod hierar-
chicznych i wiele metod przecięcia dendrogramu, spośród których należy wybrać rozwiązanie opty-
malne. Wybrane procedury, które mogą być zastosowane w tym ujęciu zostały opisane w rozdziale 6.1.2
oraz 6.1.3.
6.2. Metody kombinatoryczne analizy skupień 149

6.2.3. Ustalenie pierwszych punktów centralnych w metodzie k-średnich

Drugą decyzją inicjującą zastosowanie metody k-średnich jest wskazanie początkowego podziału obiek-
tów. Wybór ten wpływa na wyniki grupowania, dlatego badacz musi go podjąć rozważnie (HAIR i in.
1995, s. 441). EVERIT (1980, s. 41) podkreśla, że procedurę wstępnego podziału obiektów na skupienia
rozpoczyna znalezienie 𝑔 obiektów 𝑚-wymiarowych, które będą pierwszymi centrami skupień. Ist-
nieje wiele metod wyboru tych punktów. Pierwsza z nich została zaproponowana przez MCQUEENA
(1967), który sugeruje, aby takimi centrami były pierwsze 𝑔-obiekty. Z kolei THORNDIKE (1953) pro-
ponuje wybór takich 𝑔 punktów, które okazały się najbardziej od siebie oddalone. Zwykle odległości te
są mierzone metryką euklidesową (por. wzór [4.7]). Szereg metod w tym obszarze proponuje także
GRABIŃSKI (1989b, s. 77-78; 1992, s. 124). Wyboru takiego można dokonać w sposób losowy, w opar-
ciu o opinie ekspertów lub znajomość przedmiotu badań. Można także uporządkować wszystkie obiekty
według ich odległości od środka ciężkości całego zbioru oraz ustalić wyjściowe środki ciężkości po-
szczególnych grup na poziome współrzędnych obiektów o numerach:
𝑛
𝑏𝑙 = 1 + (𝑙 − 1),
𝑔
gdzie:
𝑏𝑙 – numer obiektu w uporządkowanym ciągu według ich odległości od środka ciężkości całego zbioru,
𝑙 – numer grupy, przy czym 𝑙 = 1, 2, … , 𝑔,
𝑛 – liczba grupowanych obiektów.

Możliwa jest także ewentualna identyfikacja obiektów odstających i na jej podstawie wyznaczenie
pierwszych punktów centralnych. W programie Statistica dostępne są trzy opcje w tym zakresie:
(1) maksymalizacja odległości skupień, a więc propozycja THORNDIKE (1953). Drugi sposób (2) – sor-
towanie odległości i wybór obserwacji przy stałym interwale – jest zbieżny z procedurą przedstawioną
powyżej. Natomiast zastosowanie dowolnej innej procedury mieści się w opcji (3), która polega na wy-
borze pierwszych 𝑔 obiektów. Badacz, mając możliwość skonfigurowania macierzy danych, może
wpłynąć bezpośrednio na to, które obiekty będą potraktowane jako pierwsze centra skupień.
Pozostałe decyzje inicjujące to wskazanie maksymalnej liczby interacji. Nie ma ona już tak
istotnego wpływu na wyniki grupowania metodą 𝑘-średnich (PĘCZKOWSKI 2009, s. 128-130).
W praktyce proces grupowania metodami kombinatorycznymi jest zbieżny w kilku lub kilkunastu
iteracjach.

6.3. Ocena grupowania

BALICKI (2009, s. 206) zwrócił uwagę, że „każda klasyfikacja polegająca na podziale obiektów na grupy
w oparciu o zbiór pewnych reguł nie jest ani prawdziwa, ani fałszywa (w przeciwieństwie do teorii)
i powinna być oceniania z punktu widzenia użyteczności wyników”. Co więcej, zauważa, że każda kla-
syfikacja powinna być oceniana przede wszystkim z punktu widzenia realizacji sprecyzowanego przez
badacza celu, z którego wynika właściwy wybór zmiennych, za pomocą których obiekty będą opisy-
wane. Opinię tę potwierdza GORDON (1999, s. 183), który przyznaje, że głównymi kryteriami oceny
uzyskanego podziału jest jego użyteczność i możliwość interpretacji uzyskanych wyników.
150 6. Wybrane metody hierarchiczne i kombinatoryczne

Z kolei SOKOŁOWSKI (1992, s. 23) uważa, że efektywność metod taksonomicznych jest najczęściej
rozumiana jako zdolność prawidłowego rozpoznawania rzeczywistej struktury obiektów w wielowy-
miarowej przestrzeni klasyfikacji. Zatem zanim przejdzie się do etapu badań związanego z opisem wy-
ników grupowania i ich interpretacji społeczno-ekonomicznej, należy przeprowadzić weryfikację po-
prawności wyodrębnienia skupień obiektów społeczno-gospodarczych, rejonów jednostek terytorial-
nych lub – w przypadku periodyzacji – podokresów.
KAUFMAN i ROUSSEEUW (2005, s. 37) wskazują, że wybór algorytmu grupowania zależy zarówno
od typu dostępnych danych, jak też partykularnych celów stawianych grupowaniu. Zdarza się, że kilka
algorytmów jest akceptowalnych. W takich sytuacjach poleca się przeprowadzić więcej niż jedną ana-
lizę i porównać rezultaty klasyfikacji (NOWAK 1990, s. 189). Rozwiązanie to jest użyteczne, ze
względu na fakt, że nie zawsze kryterium jakości podziału jest formułowane w sposób jawny i formalny.
Bardzo często tkwi ono w samej procedurze podziału. Dlatego też na ogół porównywanie wyników,
jakie dają różne procedury podziału, jest już w istocie porównywaniem różnych kryteriów podziału na
podstawie wyników uzyskanych przy ich stosowaniu. Interpretacja rezultatów takiego działania musi
bazować na dogłębnym zrozumieniu oryginalnych danych połączonym z pewnym doświadczeniem
użycia algorytmów grupowania (KAUFMAN, ROUSSEEUW (2005, s. 37).
KOLENDA (2006, s. 110) podkreśla, że metody grupowania oparte na odmiennych algorytmach
mogą dawać różne wyniki podziału obiektów na skupienia. W takich przypadkach użyteczne jest drugie
podejście, które polega na zastosowaniu jednego ze wskaźników oceny jakości grupowania (KORZE-
NIEWSKI 2012, s. 19). Najczęściej oceny wyniku grupowania dokonuje się za pomocą replikacji klasy-
fikacji i wyznaczenia dla każdego rozwiązania wartości odpowiednio dobranych miar jakości klasyfi-
kacji. Przyjęta miara jakości grupowania powinna równocześnie służyć jako kryterium rozstrzygające,
który z podziałów tego samego zbioru obiektów jest lepszy (SZCZOTKA 1976, s. 13-15).
W dalszej części rozdziału przedstawiony zostanie przegląd literatury dotyczący metod oceny gru-
powania. Wśród nich w sposób najpełniejszy weryfikują spełnienie założeń metod taksonomicznych te
metody, które opierają na ocenie zmienności wewnątrzgrupowej i zmienności międzygrupowej, co bę-
dzie stanowiło treść kolejnego poruszanego w tym rozdziale zagadnienia. Następnie spośród wielu
wskaźników bazujących na tym założeniu zaprezentowano wskaźnik C-Calińskiego-Harabasza oraz
całkowity indeks sylwetkowy 𝐺𝑆𝐼.

6.3.1. Przegląd metod oceny grupowania

MEZZICH i SOLOMON (1980, s. 10-13) wymieniają kilka wskaźników jakości grupowania. Rozpoczy-
nają od tych najprostszych, związanych z przeciętną odległością wewnątrzgrupową i przeciętnym od-
chyleniem od centrum skupienia. Zwracają jednak uwagę, że najważniejsze kryterium jakościowe
opiera się na porównaniu zmienności wewnątrzgrupowej do zmienności międzygrupowej. Wynika to
z założeń metod taksonomicznych: poprawny podział to taki, który odznacza się słabym
zróżnicowaniem jednostek znajdujących się wewnątrz skupień oraz silnym zróżnicowaniem jednostek
wchodzących w skład różnych skupień.
MILLIGAN i COOPER (1985) przeanalizowali trzydzieści procedur oceny poprawności grupowania
w odniesieniu do czterech metod hierarchicznych. W wyniku tych badań najwyższą ocenę przyznano
wskaźnikowi 𝐶 Calińskiego-Harabasza (CALIŃSKI, HARABASZ 1974). Wskaźnik ten należy do miar
oceny grupowania opartych na porównaniu zmienności wewnątrzgrupowych i międzygrupowych.
6.3. Ocena grupowania 151

W podejściu tym wykorzystuje się analizę wariancji, zatem może być ono wykorzystywane w przypad-
kach, w których zmienne opisujące grupowane jednostki zostały wyrażone w silnych skalach.
GRABIŃSKI i in. (1989a) przeanalizowali 62 mierniki poprawności grupowania. Swój ostateczny
wybór najlepszych miar oparli na analizie korelacji miedzy danym miernikiem poprawności a wszyst-
kimi pozostałymi miernikami, liczbą skorelowań danego miernika z pozostałymi oraz współczynnikiem
zmienności danego miernika poprawności. Na tej podstawie do oceny poprawności grupowania reko-
mendowali oni mierniki bazujące na pomiarze stosunku odległości obiektów od środków ciężkości sku-
pień i odległości pomiędzy skupieniami. W tych obliczeniach miary zmienności wewnątrz- i między-
grupowej nie były zgodne z wynikami pozostałych mierników. Natomiast badania DIMITRIADOU i in.
(2002), przeprowadzone w odniesieniu do grupowania metodą 𝑘-średnich, doprowadziły do rankingu
15 wskaźników oceny grupowania. Pierwsze miejsce pod względem możliwości rekomendowania od-
powiedniej liczby skupień zajął ponownie wskaźnik Calińskiego-Harabasza. Wysokie miejsca odnoto-
wano także dla wskaźnika Xu (XU 1997) oraz wskaźnika Ratkowskiego-Lance (RATKOWSKY-LANCE
1978). Osobną grupę metod stanowią te dotyczące podobieństwa wyników grupowania. Na temat tej
ostatniej grupy można przeczytać w publikacji EVERITTA i in. (2011, s. 264-267).
Część metod opiera się na kryterium jakościowym. NOWAK (1990, s 190-196) podkreśla, że synte-
tyczne mierniki jakości klasyfikacji pozwalają nie tylko na ocenę jakości przeprowadzonego grupowa-
nia, ale także na porównanie wyników kilku metod taksonomicznych i wybór tej, której wyniki są naj-
lepsze. Można tu wymienić indeks Szczotki (SZCZOTKA 1972) czy indeks DAVIESA-BOULDINA opisany
m.in. w artykule MIGDAŁ-NAJMAN i NAJMANA (2005). Większość tych wskaźników jest wyznaczanych
w oparciu o macierz odległości, która była podstawą grupowania (EVERITT i in. 2011, s. 112). Punktem
wyjścia do ich wyznaczenia jest założenie, że optymalnym podziałem obiektów na grupy jest taki, który
minimalizuje zróżnicowanie obiektów w skupieniach i jednocześnie maksymalizuje odległości między
centrami klas. Jeżeli odległości między centrami skupień są duże w stosunku do zmienności obiektów
w skupieniach, wtedy takie grupowanie jest uznawane za dobre. Miary te są także podstawowymi kry-
teriami stosowanymi w metodach kombinatorycznych (WIERZCHOŃ, KŁOPOTEK 2015, s. 39). Zostały
one opisane także przez SZCZOTKĘ (1976, s. 38-39);,NOWAKA (1990, s. 192) oraz WIERZCHONIA i KŁO-
POTKA (2015, s. 40). Do grupy tej należy również opisany w tej pracy całkowity indeks sylwetkowy
oceniający strukturę grupowania (KORZENIEWSKI 2012, s. 20-21 za: KAUFMAN, ROUSSEEUW 1990).
Przegląd innych miar jakości grupowania można znaleźć w polskich publikacjach: GRABIŃSKI i in.
(1989) oraz GRABIŃSKI (1992, s. 156-163), KOLENDA (2006, s. 110-125).

6.3.2. Wskaźnik 𝑪 Calińskiego-Harabasza

Podstawowym celem analizy skupień jest wyodrębnienie takich grup obiektów, że obiekty, które tworzą
określone skupienie, są do siebie bardziej podobnie niż do obiektów nienależących do ich skupienia.
Zatem, jak już podkreślano, podział obiektów na skupienia powinien charakteryzować się równocześnie
wewnętrzną jednorodnością skupień (niewielką zmiennością wewnątrzgrupową) i zewnętrzną ich nie-
jednorodnością (dużą zmiennością międzygrupową). Jeśli zmienne są wyrażone w skali ilorazowej, to
można do pomiaru tych dwóch warunków wykorzystać własności wariancji całkowitej (KORZENIEWSKI
2012, s. 21-22).
152 6. Wybrane metody hierarchiczne i kombinatoryczne

𝑻 = 𝑾 + 𝑩, [6.12]
gdzie:
𝑻 – macierz wariancji ogólnej,
𝑾 – macierz wariancji wewnątrzgrupowej,
𝑩 – macierz wariancji międzygrupowej.

Macierz wariancji wewnątrzgrupowej 𝑾 jest macierzą, którą tworzą następujące elementy (SO-
KOŁOWSKI 1992, s. 25; GRABIŃSKI i in. 1989, s 155-157; KORZENIEWSKI 2012, s. 21-22):
𝑔 𝑛𝑙
𝑙
𝑤𝑗𝑘 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅𝑗𝑙 ) (𝑥𝑖𝑘
𝑙
− 𝑥̅𝑘𝑙 ), [6.13]
𝑙=1 𝑖=1

gdzie:
𝑤𝑗𝑘 – wariancja wewnątrzgrupowa pomiędzy 𝑗-tą oraz 𝑘-tą zmienną,
𝑙 – numer skupienia, przy czym 𝑙 = 1, 2, … , 𝑔,
𝑛𝑙 – liczba obiektów należących do skupienia 𝑙,
𝑙
𝑥𝑖𝑗 – wartość 𝑗-tej zmiennej w 𝑖-tym obiekcie należącym do 𝑙-tego skupienia,
𝑥̅𝑗𝑙 – średnia wartość 𝑗-tej zmiennej po obiektach należącym do 𝑙-tego skupienia.

Stosując rachunek macierzowy, poszczególne elementy macierzy 𝑾 można wyznaczyć poprzez za-
stosowanie odpowiedniego iloczynu macierzy. Został on zaprezentowany jako wzór [6.14]. Należy jed-
nak pamiętać, że rozwiązanie to można wykorzystać jedynie w przypadku, gdy grupowanie zostało po-
przedzone normalizacją zmiennych w taki sposób, aby średnia każdej z nich wynosiła zero (FRIEDMAN,
RUBIN 1967). Takie warunki spełnia dla przykładu standaryzacja (por. wzór [3.6]). Warto w tym celu
wyręczyć się arkuszem kalkulacyjnym Excel i funkcjami tablicowymi, jakie on oferuje: wyznaczanie
macierzy odwrotnej: MACIERZ.ODW(), transponowanie macierzy: TRANSPONUJ() czy obliczenie
iloczynu macierzy: MACIERZ.ILOCZYN().
−1
𝑾 = 𝑿𝑻 𝑿 − 𝑿𝑻 𝒁(𝒁𝑻 𝒁) 𝒁𝑻 𝑿, [6.14]
gdzie:
𝑾 – macierz wariancji wewnątrzgrupowej,
𝑿 – macierz obserwacji znormalizowanych, w której wiersze odnoszą się do obiektów n grupowanych
obiektów (𝝎𝒊 ), a kolumny do m opisujących te obiekty zmiennych,
𝑻
𝑿 – transponowana macierz obserwacji znormalizowanych,
𝒁 – macierz przynależności obiektów do skupień, w której wiersze odnoszą się do obiektów n grupo-
wanych obiektów (𝝎𝒊 ), a kolumny do g skupień utworzonych w wyniku grupowania,

𝑥1;1 𝑥1;2 … 𝑥1𝑚


… 𝑥2𝑚
𝑿 = [𝑥…
2;1 𝑥2;2
… … … ],
𝑥𝑛1 𝑥𝑛2 … 𝑥𝑛𝑚
𝑧1;1 𝑧1;2 … 𝑧1𝑔
… 𝑧2𝑔 1 jeżeli 𝝎𝒊 ∈ 𝑠𝑙
𝒁 = [𝑧…
2;1 𝑧2;2
… … … ],
przy czym 𝑧𝑖𝑙 = { [6.15]
0 w pozostałych przypadkach
𝑧𝑛1 𝑧𝑛2 … 𝑧𝑛𝑔
6.3. Ocena grupowania 153

Dla przykładu zaprezentowanego na rysunku 6.1 macierze przynależności obiektów do skupień na


każdym etapie wiązania wyglądałyby następująco:
1 0 0 0 1 0 0 1 0 1
0 1 0 0 0 1 0 1 0 1
𝒁𝟏 = 0 0 1 0 , 𝒁𝟐 = 0 1 0 , 𝒁𝟑 = 1 0 , 𝒁𝟒 = 1 .
0 0 0 1 0 0 1 0 1 1
[0 0 0 1] [0 0 1] [0 1] [ 1]

Wiersze macierzy przynależności obiektów do skupień 𝒁 [6.15] odpowiadają grupowanym obiek-


tom. Z kolei kolumny dotyczą utworzonych na danym etapie skupień. Jako że jeden obiekt może należeć
tylko do jednego skupienia (por. warunek rozłączności zapisany jako wzór [2.2], w każdym wierszu tej
macierzy znajduje się tylko jedna jedynka. Pozostałe elementy macierzy 𝒁 to zera.
Z kolei macierz wariancji międzygrupowej 𝑩 to macierz, którą tworzą następujące elementy:
𝑔

𝑏𝑗𝑘 = ∑ 𝑛𝑙 (𝑥̅𝑗𝑙 − 𝑥̅𝑗 )(𝑥̅𝑘𝑙 − 𝑥̅𝑘 ), [6.16]


𝑙=1

gdzie:
𝑏𝑗𝑘 –zmienność międzygrupowa pomiędzy 𝑗-tą oraz 𝑘-tą zmienną,
𝑙 – numer skupienia, przy czym 𝑙 = 1, 2, … , 𝑔,
𝑛𝑙 – liczba obiektów należących do skupienia 𝑙,
𝑥̅𝑗𝑙 – średnia wartość 𝑗-tej zmiennej po obiektach należących do 𝑙-tego skupienia,
𝑥̅𝑗 – średnia wartość 𝑗-tej zmiennej po wszystkich obiektach.

Podobnie jak w przypadku macierzy zmienności wewnątrzgrupowej, jeżeli grupowanie zostało po-
przedzone standaryzacją zmiennych, elementy macierzy 𝑩 można wyznaczyć, stosując rachunek ma-
cierzowy:
−1
𝑩 = 𝑿𝑻 𝒁(𝒁𝑻 𝒁) 𝒁𝑻 𝑿, [6.17]
gdzie oznaczenia są analogiczne jak we wzorze [6.14].

W oparciu o zależność przedstawioną jako wzór [6.12] zbudowano wiele wskaźników, służących
zarówno do wyznaczania optymalnego punktu przecięcia dendrogramu, jak i do oceny jakości grupo-
wania. Można wśród nich wymienić wskaźniki Friedmana i Rubina (FRIEDMAN, RUBIN 1967),
Edwardsa i Cavalli-Sforzy (EDWARDS, CAVALLI-SFORZA 1965) czy Scotta i Symonsa (SCOTT, SY-
MONS 1971). Jednak od lat największym uznaniem, wynikającym z wielokrotnie potwierdzanej empi-
rycznie wysokiej efektywności i stabilności (por. CORMACK 1971; MILLIGAN, COOPER 1985; WALE-
SIAK 2009; WALESIAK, DUDEK 2009; KORZENIEWSKI 2014), cieszy się wskaźnik 𝑪 Calińskiego i Ha-
rabasza (CALIŃSKI, HARABASZ 1974). Na uwagę zasługuje fakt, że stworzony on został przez poznań-
skie środowisko naukowe.
CALIŃSKI i HARABASZ (1974), bazując na zależnościach, jakie występują pomiędzy zmiennością
wewnątrzgrupową a zmiennością międzygrupową, stworzyli wskaźnik 𝐶 w postaci:

𝑡𝑟(𝑩) 𝑡𝑟(𝑾)
𝐶= ⁄ , [6.18]
𝑔−1 𝑛−𝑔
154 6. Wybrane metody hierarchiczne i kombinatoryczne

gdzie:
𝑡𝑟(𝑩) – ślad macierzy zmienności międzygrupowej,
𝑡𝑟(𝑾) – ślad macierzy zmienności wewnątrzgrupowej,
𝑛 – liczba grupowanych obiektów,
𝑔 – liczba skupień uzyskanych na 𝑒-tym etapie wiązania.

Wskaźnik ten pierwotnie służył do wyboru optymalnego punktu przecięcia dendrogramu. Jeżeli
wartość 𝐶 rośnie wraz ze wzrostem liczby grup 𝑔, to oznacza, że badany zbiór nie ma struktury skupień.
Zatem jeżeli wartość 𝐶 maleje wraz ze wzrostem 𝑔, to oznacza, że badany zbiór obiektów ma strukturę
hierarchiczną. Z kolei wartość maksymalna wskaźnika 𝐶 Calińskiego-Harabasza, osiągnięta dla okre-
ślonej liczby skupień 𝑔, wyznacza podział optymalny. GORDON (1999, s. 60-65) wskazuje jednak, że
metoda wyznaczenia optymalnej liczby skupień oparta o wskaźnik 𝐶 Calińskiego-Harabaszasza prowa-
dzi zwykle do większej liczby skupień niż inne metody.
Wskaźnik 𝐶 stosowany jest również do porównań wyników dwóch grupowań przeprowadzonych
dla tej samej grupy obiektów, ale w oparciu o różne metody. W takich przypadkach wyższa wartość
wskaźnika 𝐶 Calińskiego-Harabasza przesądza o wyborze najlepszego podejścia.
Jeżeli grupowanie zostało przeprowadzone w oparciu o macierz odległości euklidesowych, CALIŃ-
SKI i HARABASZ (1974) zaproponowali uproszczony sposób wyznaczania śladu macierzy zmienności
wewnątrzgrupowej, który stanowi jeden z podstawowych składowych ich wskaźnika. W przypadkach,
gdy grupowanie zostało przeprowadzone w oparciu o inną miarę odległości, zastosowanie tego rozwią-
zania wymaga dodatkowej operacji wyznaczenia macierzy odległości euklidesowych:
1 ̅̅̅2 + (𝑛 − 1)𝑑
̅̅̅2 + ⋯ + (𝑛 − 1)𝑑
̅̅̅2 ],
𝑡𝑟(𝑾) = [(𝑛1 − 1)𝑑 1 2 2 𝑔 𝑔 [6.19]
2
gdzie:
𝑡𝑟(𝑾) – ślad macierz wariancji wewnątrzgrupowej,
𝑛 – liczba grupowanych obiektów, przy czym 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑔 = 𝑛,
𝑔 – liczba skupień uzyskanych na 𝑒-tym etapie wiązania,
̅̅̅2
𝑑 – średnia po tych, podniesionych do kwadratu elementów macierzy odległości euklidesowych,
𝑙
które oznaczają odległości pomiędzy obiektami należącymi do 𝑙-tego skupienia, uprzednio,
przy czym 𝑙 = 1, 2, … , 𝑔.

Z kolei bazując na relacji zapisanej jako wzór [6.12], ślad macierzy wariancji międzygrupowej
𝑡𝑟(𝑩) można zapisać jako:
1 ̅̅̅2 − 𝑡𝑟(𝑾),
𝑡𝑟(𝑩) = (𝑛 − 1)𝑑 [6.20]
2
gdzie:
𝑡𝑟(𝑩) – ślad macierz wariancji międzygrupowej,
𝑡𝑟(𝑾) – ślad macierz wariancji wewnątrzgrupowej,
𝑛 – liczba grupowanych obiektów, przy czym 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑔 = 𝑛,
̅̅̅2
𝑑 – średnia po wszystkich elementach, znajdujących się nad przekątną macierzy odległości eukli-
desowych, które oznaczają odległości pomiędzy grupowanymi obiektami, podniesionymi
wcześniej do kwadratu.
6.3. Ocena grupowania 155

Przykład obliczeniowy: wskaźnik 𝑪 Calińskiego-Harabasza


W ramach przykładu przedstawionego na rysunku 6.1 uzyskano dendrogram. W wyniku jego prze-
cięcia uzyskano rozłączny układ skupień: {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸}. Należy podkreślić, że na taki podział wska-
zywały wyniki zastosowania trzech reguł optymalnego podziału dendrogramu. Powstaje zatem pytanie,
czy rzeczywiście podział na tym poziomie jest lepszy od innego, losowego podziału: {𝐴, 𝐷}, {𝐶},
{𝐵, 𝐸}. Odpowiedź ułatwi wyznaczenie wskaźnika 𝐶 Calińskiego-Harabasza (1974). Jego wyższa war-
tość przesądza bowiem, który wynik można uznać za jakościowo lepszy.
Punktem wyjścia do wyznaczenia wskaźnika C Calińskiego-Harabasza jest obliczenie śladu macie-
rzy wariancji wewnątrzgrupowej i międzygrupowej (por. wzór [6.18]). Ze względu na fakt, że podstawą
grupowania w prezentowanym przykładzie były zmienne niestandaryzowane, wspomniane macierze nie
mogą zostać wyznaczone na podstawie wzorów [6.14] oraz [6.17]. Możliwe jest za to zastosowanie
uproszczonego sposobu wyznaczania śladów obu macierzy, zaproponowane przez autorów wskaźnika
𝐶 (CALIŃSKI, HARABASZ (1974). Wskaźnik ten został wyznaczony dwa razy: dla podejścia pierwszego,
w którym rozpatrywany był układ skupień {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸}, oraz drugiego, w którym ocenie podlegał
losowy podział obiektów na trzy skupienia: {𝐴, 𝐷}, {𝐶}, {𝐵, 𝐸}.
Grupowaniu przedstawionemu na rysunku 6.1 podlegało pięć obiektów opisanych za pomocą dwóch
zmiennych. Wskaźnik 𝐶 Calińskiego-Harabasza [6.18] został wyznaczony przy wykorzystaniu wzorów
[6.19] oraz [6.20]. Punktem wyjścia do obliczeń jest macierz odległości Euklidesa 𝑫 (por. wzór [4.7]),
którą przedstawiono na rysunku 6.1.
0,00 1,12 1,12 4,00 4,03
1,12 0,00 0,71 3,04 3,00
𝑫 = 1,12 0,71 0,00 3,64 3,54 [6.21]
4,00 3,04 3,64 0,00 0,50
[4,03 3,00 3,54 0,50 0,00]

Poszczególne wartości macierzy 𝑫 [6.21] podniesiono do potęgi, uzyskując w ten sposób macierz
𝟐
𝑫 . Ze względu na fakt, że obliczenia śladu macierzy wewnątrzgrupowej oraz międzygrupowej (por.
wzór [6.19] oraz [6.20]) opierają się jedynie na 𝑛(𝑛 − 1)/2 odległościach, prezentację macierzy 𝑫𝟐
ograniczono jedynie do tych wartości, które znajdują się ponad jej przekątną. Aby ułatwić dalsze obli-
czenia zapisano ją w formie tabelarycznej:
𝐴 𝐵 𝐶 𝐷 𝐸
𝐴 1,25 1,25 16,00 16,24
𝐵 0,50 9,24 9,00
𝑫𝟐 =
𝐶 13,25 12,53
𝐷 0,25
𝐸

Podejście pierwsze
W podejściu pierwszym rozważany jest podział na dwa skupienia 𝑠1 = {𝐴, 𝐵, 𝐶}, 𝑠2 = {𝐷, 𝐸}. Zatem
liczebności poszczególnych skupień wynoszą odpowiednio: 𝑛1 = 3, 𝑛2 = 2, a liczba obiektów grupo-
wanych 𝑛 = 5, natomiast liczba skupień uzyskanych w wyniku grupowania 𝑔 = 2. Na podstawie ma-
cierzy odległości euklidesowych, podniesionych do kwadratu, można już wyznaczyć średnią odległość
̅̅̅2 ) oraz średnie odległości pomiędzy obiek-
podniesioną do kwadratu pomiędzy wszystkimi obiektami (𝑑
̅̅̅2 ):
tami w skupieniach (𝑑 𝑙
156 6. Wybrane metody hierarchiczne i kombinatoryczne

̅̅̅2 = (𝑑𝐴;𝐵
𝑑 2 2
+ 𝑑𝐴;𝐶 2
+ 𝑑𝐴;𝐷 2
+ ⋯ + 𝑑𝐷;𝐸 )/10 = (1,25 + 1,25 + 16 + ⋯ + 0,25)/10 = 7,95;
̅̅̅
𝑑 2 = (𝑑 2 + 𝑑 2 + 𝑑 2 )/3 = (1,25 + 1,25 + 0,50)/3 = 1,00;
1 𝐴;𝐵 𝐴;𝐶 𝐵;𝐶
̅̅̅
𝑑22 = (𝑑𝐷;𝐸
2
)/1 = (0,25)/1 = 0,25.

Ślad macierzy wariancji wewnątrzgrupowej i międzygrupowej wyznaczono, podstawiając wyliczone


wyżej wartości do wzorów [6.19] oraz [6.20]:
1 ̅̅̅2 + (𝑛 − 1)𝑑
̅̅̅2 + ⋯ + (𝑛 − 1)𝑑 1
𝑡𝑟(𝑾) = [(𝑛1 − 1)𝑑 2 𝑔
̅̅̅
2
𝑔] = [(3 − 1) ∗ 1,00 + (2 − 1) ∗ 0,25] = 1,13;
1 2
2 2
1 1
𝑡𝑟(𝑩) = (𝑛 − 1)𝑑 ̅̅̅2 − 𝑡𝑟(𝑾) = (5 − 1) ∗ 7,95 − 1,13 = 14,78.
2 2

Wskaźnik 𝐶 Calińskiego-Harabasza (por. wzór [6.18]) dla grupowania pięciu obiektów metodą peł-
nego wiązania w oparciu o odległość euklidesową na dwa skupienia wynosi zatem:
𝑡𝑟(𝑩) 𝑡𝑟(𝑾) 14,78 1,13
𝐶= ⁄ = ⁄ = 39,40.
𝑔−1 𝑛−𝑔 2−1 5−2
Podejście drugie
W podejściu drugim rozważany jest podział na trzy skupienia 𝑠1 = {𝐴, 𝐷}, 𝑠2 = {𝐶}, 𝑠3 = {𝐵, 𝐸}. Za-
tem liczebności poszczególnych skupień wynoszą odpowiednio: 𝑛1 = 2, 𝑛2 = 1 oraz 𝑛3 = 2. Podobnie
jak w podejściu pierwszym, liczba obiektów grupowanych 𝑛 = 5, natomiast liczba skupień uzyskanych
w wyniku grupowania 𝑔 = 3. Wartość średniej odległości podniesiona do kwadratu pomiędzy wszyst-
̅̅̅2 ) była oczywiście taka sama jak w podejściu pierwszym. Natomiast średnie odległo-
kimi obiektami (𝑑
̅̅̅2 ) wyniosły w tym przypadku odpowiednio:
ści pomiędzy obiektami w skupieniach (𝑑 𝑙
̅̅̅2 = (𝑑 2 )/1 = (16,00)/1 = 16,00;
𝑑 1 𝐴;𝐷
̅̅̅
2
𝑑 = 0,00;
2
̅̅̅2 = (𝑑 2 )/1 = (9,00)/1 = 9,00.
𝑑 3 𝐵;𝐸

Ślad macierzy wariancji wewnątrzgrupowej i międzygrupowej można wyznaczyć, podstawiając


wyliczone wartości do wzorów [6.19] oraz [6.20]:
1 ̅̅̅2 + ⋯ + (𝑛 − 1)𝑑 1
𝑡𝑟(𝑾) = [(𝑛1 − 1)𝑑 𝑔
̅̅̅
2
𝑔] = [(2 − 1) ∗ 16 + (1 − 1) ∗ 0 + (2 − 1) ∗ 9] = 12,50;
1
2 2
1 1
𝑡𝑟(𝑩) = (𝑛 − 1)𝑑 ̅̅̅2 − 𝑡𝑟(𝑾) = (5 − 1) ∗ 7,95 − 12,50 = 3,41.
2 2

Wskaźnik 𝐶 Calińskiego-Harabasza (por. wzór [6.18]) dla grupowania na trzy skupienia wynosi zatem:
𝑡𝑟(𝑩) 𝑡𝑟(𝑾) 3,41 12,50
𝐶= ⁄ = ⁄ = 0,27.
𝑔−1 𝑛−𝑔 3−1 5−3

Grupowanie, dla którego wartość wskaźnika 𝐶 Calińskiego-Harabasza jest wyższa, należy uznać za
lepsze. W prezentowanym przykładzie dokonano oceny grupowania przeprowadzonego w oparciu
o metodę pełnego wiązania oraz losowego podziału grupowanych obiektów. Oszacowane dla obu po-
dejść wartości wskaźnika 𝐶 Calińskiego-Harabasza potwierdziły, że podział pięciu obiektów w oparciu
o metodę hierarchiczną daje bardziej spójne wewnętrznie skupienia niż zaproponowany podział losowy
tych samych obiektów.
6.3. Ocena grupowania 157

6.3.3. Całkowity indeks sylwetkowy GSI

W przypadku gdy zmienne wyrażone zostały w słabszych skalach, nie można oceniać jakości grupowa-
nia, bazując na analizie wariancji. W tej sytuacji w literaturze funkcjonują wskaźniki oparte na macierzy
odległości, wyznaczonej adekwatnie do skali, w której wyrażone zostały zmienne będące podstawą gru-
powania. Jednym z takich wskaźników jest całkowity indeks sylwetkowy GSI. Został one szczegółowo
opisany w publikacjach KAUFMANA i ROUSSEEUWA (1990; 2005, s. 84-88) oraz KORZENIEWSKIEGO
(2012, s. 18-21). Należy on do grupy wskaźników oceniających strukturę grupowania.
Wyznacza się go na podstawie wzoru:
𝑔
1
𝐺𝑆𝐼 = ∑ 𝑆(𝑠𝑙 ), [6.22]
𝑔
𝑙=1

gdzie:
𝐺𝑆𝐼 – całkowity indeks sylwetkowy,
𝑔 – liczba wyodrębnionych w wyniku grupowania skupień,
𝑠𝑙 – skupienie 𝑙-te, przy czym 𝑙 = 1, 2, … , 𝑔,
𝑆(𝑠𝑙 ) – cząstkowy indeks sylwetkowy wyznaczony dla skupienia 𝑠𝑙 .

Nieco szerszego omówienia wymaga sposób wyznaczenia cząstkowego indeksu sylwetowego, wy-
znaczanego osobno dla każdego skupienia:
𝑛𝑙 𝑛𝑙
1 1 𝑏𝑖 − 𝑎𝑖
𝑆(𝑠𝑙 ) = ∑ 𝑆(𝑖) = ∑ ,
𝑛𝑙 𝑛𝑙 max{𝑎𝑖 ; 𝑏𝑖 } [6.23]
𝑖=1; 𝑖=1; 𝑖
𝑖∈𝑠𝑙 𝑖∈𝑠𝑙
gdzie:
𝑆(𝑠𝑙 ) – cząstkowy indeks sylwetkowy, wyznaczony dla skupienia 𝑠𝑙 ,
𝑆(𝑖) – cząstkowy indeks sylwetkowy, wyznaczony dla 𝑖-tego obiektu, przy czym 𝑖 = 1, 2, … , 𝑛𝑙 ,
𝑛𝑙 – liczba obiektów należących do l-tego skupienia,
𝑠𝑙 – 𝑙-te skupienie, przy czym 𝑙 = 1, 2, … , 𝑔.

Składowe cząstkowego indeksu sylwetkowego 𝑎𝑖 oraz 𝑏𝑖 to odpowiednio średnie wewnątrzgrupowe


i międzygrupowe. Wiedząc, że 𝑑𝑖𝑗 to odległość obiektu 𝑖-tego od 𝑗-tego, można je zapisać jako wielko-
ści [6.24] oraz [6.25]. Zatem:
𝑛𝑙
1
𝑎𝑖 = ∑ 𝑑𝑖𝑗 , przy czym 𝑖, 𝑗 ∈ 𝑠𝑙 , [6.24]
𝑛𝑙 − 1
𝑖,𝑗=1;
𝑖≠𝑗
gdzie:
𝑎𝑖 – średnia odległość obiektu 𝑖-tego od pozostałych obiektów należących do skupienia 𝑠𝑙 ,
𝑛𝑙 – liczba obiektów należących do l-tego skupienia,
𝑑𝑖𝑗 – odległość pomiędzy obiektem 𝑖-tym oraz 𝑗-tym.
158 6. Wybrane metody hierarchiczne i kombinatoryczne

Natomiast:
𝑛𝑟
1
𝑏𝑖 = 𝑠min 𝑑 ,
≠𝑠 𝑖;𝑠𝑟
przy czym 𝑑𝑖;𝑠𝑟 = ∑ 𝑑𝑖𝑞 , [6.25]
𝑟 𝑙 𝑛𝑟
𝑖∈𝑠𝑙 𝑞=1;
𝑞∈𝑠𝑟
gdzie:
𝑏𝑖 – minimalna odległość obiektu 𝑖-tego, należącego do skupienia 𝑠𝑙 , do pozostałych skupień,
𝑛𝑙 – liczba obiektów należących do l-tego skupienia,
𝑑𝑖;𝑠𝑟 – odległość pomiędzy obiektem 𝑖-tym oraz skupieniem 𝑠𝑟 , przy czym 𝑟 = 1, 2, 𝑔 − 1,
𝑑𝑖𝑞 – odległość pomiędzy obiektem i-tym oraz q-tym, przy czym 𝑖 ∈ 𝑠𝑘 oraz 𝑞 ∈ 𝑠𝑟 .

Podstawiając kolejno oszacowaną wartość średniej wewnątrzgrupowej 𝑎𝑖 [6.24] oraz miarę odle-
głości międzygrupowej 𝑏𝑖 [6.25], otrzymuje się dla każdego obiektu wartość cząstkowego indeksu syl-
wetowego 𝑆(𝑖). Uśrednienie cząstkowych indeksów sylwetkowych po obiektach należących do danego
skupienia pozwala na wyznaczenie cząstkowego indeksu sylwetkowego 𝑆(𝑠𝑙 ) [6.23] . Z kolei uśrednie-
nie cząstkowych indeksów sylwetkowych dla wyodrębnionych w grupowaniu skupień prowadzi do wy-
znaczenia całkowitego indeksu sylwetkowego 𝐺𝑆𝐼 [6.22], oceniającego przeprowadzoną klasyfikację.
Całkowity indeks sylwetkowy (GSI) może przyjmować wartości z przedziału [-1, 1], dzięki czemu
można go wykorzystać nie tylko przy porównywaniu różnych podejść w grupowaniu, ale także do oceny
pojedynczego przypadku grupowania. I tak KAUFMAN i ROUSSEEUW (2005, s. 88) proponują następu-
jącą interpretację dla określonych przedziałów wartości GSI:
𝐺𝑆𝐼 > 0,70 silna struktura uzyskanych grup,
0,71 ≥ 𝐺𝑆𝐼 > 0,50 poprawna struktura grupowania,
0,50 ≥ 𝐺𝑆𝐼 > 0,25 słaba struktura grupowania,
0,25 ≥ 𝐺𝑆𝐼 brak skupień w danym zbiorze.
W przypadku słabej struktury grupowania KAUFMAN i ROUSSEEUW (2005, s. 88) sugerują koniecz-
ność zastosowania innej metody grupowania.

Przykład obliczeniowy: całkowity indeks sylwetkowy GSI


Po raz kolejny prezentacja przebiegu obliczeń przedstawiona w tym rozdziale nawiązywać będzie do
przykładu przedstawionego na rysunku 6.1. W wyniku przeprowadzonego grupowania metodą pełnego
wiązania uzyskano dendrogram, który po przecięciu pozwolił na wyodrębnienie dwóch skupień:
{𝐴, 𝐵, 𝐶}, {𝐷, 𝐸}. Ocenę struktury uzyskanego grupowania przeprowadzono w oparciu o całkowity in-
deks sylwetkowy 𝐺𝑆𝐼.
Jak już wspominano wielokrotnie, grupowaniu przedstawionemu na rysunku 6.1 podległo pięć
obiektów opisanych za pomocą dwóch zmiennych. Punktem wyjścia do jego przeprowadzenia była ma-
cierz odległości euklidesowych 𝑫 (por. wzór [4.7] oraz wzór [6.21]), którą również przedstawiono na
rysunku 6.1:
0,00 1,12 1,12 4,00 4,03
1,12 0,00 0,71 3,04 3,00
𝑫 = 1,12 0,71 0,00 3,64 3,54 .
4,00 3,04 3,64 0,00 0,50
[4,03 3,00 3,54 0,50 0,00]
6.3. Ocena grupowania 159

Punktem wyjścia do wyznaczenia całkowitego indeksu sylwetkowego jest oszacowanie dla każdego
z grupowanych obiektów cząstkowych indeksów sylwetkowych. Stosowne obliczenia przedstawiono
w formie tabeli 6.4.

Tabela 6.4. Cząstkowe indeksy sylwetowe 𝑆(𝑖) wyznaczone dla każdego obiektu w przykładzie zaprezentowanym na rysunku
6.1 z podziałem na skupienia 𝑠1 = {𝐴, 𝐵, 𝐶}, 𝑠2 = {𝐷, 𝐸}
Skupienia

Obiekty

𝑎𝑖 𝑏𝑖 𝑺(𝒊)
𝑑𝑖;𝑠1 𝑑𝑖;𝑠2
[6.24] [6.25] [6.23]

= (1,12 + 1,12)/2 = (4,00 + 4,03)/2 4,02 − 1,12


A 4,02 = = 0,72
= 1,12 = 4,02 max{4,02; 1,12}
𝑖
= (1,12 + 0,71)/2 = (3,04 + 3,00)/2
𝑠1 B 3,02 = 0,70
= 0,91 = 3,02
= (1,12 + 0,71)/2 = (3,64 + 3,54)/2
C 3,59 = 0,75
= 0,91 = 3,59
= (4,00 + 3,04
D = (0,50)/1 = 0,50 3,56 = 0,86
+ 3,64)/3 = 3,56
𝑠2
= (4,03 + 3,00
E = (0,50)/1 = 0,50 3,52 = 0,86
+ 3,54)/3 = 3,52
W nawiasach kwadratowych zaznaczono odniesienia do odpowiednich wzorów.
Źródło: opracowanie własne w oparciu o przykład przedstawiony na rysunku 6.1.

Opierając się na cząstkowych indeksach sylwetowych wyznaczonych dla każdego obiektu na pod-
stawie obliczeń zaprezentowanych w tabeli 6.4, można już przy zastosowaniu wzoru [6.23] wyznaczyć
cząstkowe indeksy sylwetkowe dla każdego skupienia 𝑆(𝑠𝑙 ):

𝑛11 1
𝑆(𝑠1 ) = 𝑛 ∑ 𝑖=1; 𝑆(𝑖) = 3 (0,72 + 0,70 + 0,75) = 0,72,
1
𝑖∈𝑠1
1 𝑛2 1
𝑆(𝑠2 ) = ∑ 𝑆(𝑖) = (0,86 + 0,86) = 0,86.
𝑛2 𝑖=1; 2
𝑖∈𝑠2
Podstawienie z kolei powyższych obliczeń do wzoru [6.22] prowadzi do oszacowania całkowitego in-
deksu sylwetkowego 𝐺𝑆𝐼:
𝑔
1 1
𝐺𝑆𝐼 = ∑ 𝑆(𝑠𝑙 ) = (0,72 + 0,86) = 0,79.
𝑔 2
𝑙=1
Na podstawie tak wyznaczonej wartości całkowitego indeksu sylwetkowego 𝐺𝑆𝐼 dla wyników grupo-
wania pięciu obiektów metodą pełnego wiązania, można uzyskany podział na dwa skupienia uznać za
odznaczający się silną strukturą.
Przykłady zastosowania
metod taksonomicznych
7
Regionalizacja na przykładzie grupowania powiatów ze względu na
sytuację demograficzną w departamencie poznańskim w 1810 r.

Punktem wyjścia do prezentacji zagadnień związanych z regionalizacją były wyniki spisu ludności
z 1810 r. dla Księstwa Warszawskiego. Informacje dotyczące tego spisu są udostępniane przez Archi-
wum Główne Akt Dawnych w ramach zespołu „Archiwum Zamoyskich”, pod nazwą „Statystyka Księ-
stwa Warszawskiego i Królestwa Kongresowego z lat 1806-1812, 1817-1824, 1852 i wywozu gdań-
skiego 1691-1817”. Inspirację do przeanalizowania sytuacji demograficznej w departamencie poznań-
skim w 1810 r. stanowiło opracowanie Mieczysława Kędelskiego pt. Umieralność i trwanie życia lud-
ności Wielkopolski w XIX w. (KĘDELSKI 1996). W prezentowanym przykładzie celem badania było wy-
odrębnienie grup powiatów departamentu poznańskiego możliwie najbardziej jednolitych w 1810 r. ze
względu na sytuację demograficzną w pierwszym dziesięcioleciu XIX w.
Prezentowany przykład jest pierwszym spośród zagadnień historycznych przedstawionych w tej
części pracy. Z tego powodu, szczególnie skrupulatnie został w nim opisany proces konstruowania ma-
cierzy obserwacji, będącej podstawą wielowymiarowych analiz statystycznych (por. rozdział 3.2).
W grupowaniu regionalnym obiektami są najczęściej jednostki terytorialne, które zostały scharaktery-
zowane z pomocą wielu zmiennych, odzwierciedlających poruszane zagadnienie. Zmienne te, szczegól-
nie w badaniach historycznych, są często wyrażone w różnych jednostkach, a co więcej, odznaczają się
różnym rzędem wielkości. Ma to istotny wpływ na grupowanie, ponieważ zmienne przyjmujące wyższe
wartości wpływają w większym stopniu na wartość wielowymiarowych wskaźników podobieństwa lub
niepodobieństwa pomiędzy grupowanymi obiektami, a w konsekwencji na rezultat grupowania. Z tego
powodu bardzo ważnym etapem w badaniach dotyczących regionalizacji jest starannie przeprowadzona
normalizacja zmiennych. Podstawy teoretyczne tego zagadnienia zostały opisane w rozdziale 3.4. Nie
bez znaczenia na wyniki grupowania ma także proces doboru zmiennych diagnostycznych. W prezen-
towym przykładzie zastosowano metodę macierzy odwrotnej (por. rozdział 5.3.2).
Drugim istotnym problemem w zagadnieniach regionalizacji jest wymóg ciągłości terytorialnej. Ba-
dacz może założyć, choć nie musi, że otrzymane skupienia będą tworzyły spójne regiony. Z technicz-
nego punktu widzenia działanie to polega na odpowiedniej modyfikacji macierzy odległości (por. roz-
dział 4.4.2). Należy jednak pamiętać, że wprowadzenie tego warunku może wiązać się z pogorszeniem
jakości wyników grupowania. Co więcej, nie we wszystkich badaniach jest on konieczny. W prezento-
wanym przykładzie wyniki procedury, w której taki warunek został przyjęty, skonfrontowano z rezul-
tatami uzyskanymi bez tego obciążenia.
W przypadku regionalizacji szczególnie polecane są metody hierarchiczne. Pozwalają one bowiem
na wskazanie regionów na kilku poziomach, co koresponduje z powszechnie przyjętymi podziałami ad-
ministracyjnymi kraju, np.: gmina, powiat, województwo, region itp. Spośród wielu możliwości, w pre-
zentowanym przykładzie grupowanie przeprowadzono w oparciu o metodę Warda, opisaną w rozdziale
6.1.3. Aby uwypuklić różnice pomiędzy uzyskanymi skupieniami, jako miarę odległości pomiędzy nimi
wybrano kwadrat odległości euklidesowych (por. wzór [4.8]).
164 7. Regionalizacja na przykładzie grupowania powiatów

7.1. Przygotowanie danych demograficznych


do badań wielowymiarowych

W ciągu kilku lat pewnej niezależności Księstwa Warszawskiego rząd przeprowadził trzy spisy ludno-
ści – w latach: 1808, 1810, 1812 (BOROWSKI 1962). Zadania spisowe były realizowane zwykle pod
koniec roku przez duchownych katolickich i protestanckich. Taką samą ewidencję dla pozostałych wy-
znań prowadziły sądy. Sprawozdania przekazywane były władzom powiatowym. Stąd opracowania tra-
fiały do prefektów w departamentach, a ci z kolei wysyłali zbiorcze dane do Komisji Rządzącej, a póź-
niej do Biura Statystycznego przy Ministerstwie Spraw Wewnętrznych w Warszawie (BOROWSKI 1967;
KĘDELSKI 1985). Najbardziej szczegółowe badanie przeprowadzone zostało w 1810 r. Na wiarygod-
ność statystyk wielkopolskich tego okresu wskazywali w swoich pracach m.in. BOROWSKI (1970) czy
GIEYSZTOROWA (1976, s. 80-109; 1980). Na temat spisów ludności w 1808 oraz 1810 r. wypowiadał
się także GROSSMAN (1925, s. 45), który stwierdził, że spis ludności z roku 1810 „zdołał lepiej ująć
masę ludności, niż to uczynił spis 1808 r. Nie znaczy to, by wyniki jego były ścisłe. Potem przekonamy
się, na zasadzie danych o ruchu naturalnym ludności, że i on nie ujął całkowitej masy ludności, atoli
stopień pominięć jest znacznie mniejszy, niż w r. 1808 i wynosi jakieś 8,4% ludności”.
Dobór zmiennych w badaniach dotyczących demografii może być szeroki. Należy podkreślić, że
dane ilościowe wynikające ze spisu powszechnego z 1810 r. dają wiele możliwości podejścia do tego
problemu. Przedstawiony przykład ma służyć prezentacji wykorzystania metod taksonomicznych w za-
gadnieniach regionalizacji. Z tego powodu, aby nie zatracić głównego celu tego przesłania, w prezento-
wanym materiale posłużono się zestawem zmiennych, które w swoich badaniach wykorzystał KĘDEL-
SKI (1996, s. 25).
Przedmiotem badania w prezentowanym przykładzie będzie zbiorowość statystyczna, na którą skła-
dają się poszczególne powiaty departamentu poznańskiego uwzględnione w spisie z 1810 r. Warto
w tym miejscu podkreślić, że stolica departamentu – Poznań – nie została uwzględniona we wspomnia-
nych statystykach. Ostatecznie jednostki w tak zdefiniowanej zbiorowości statystycznej można zapisać
następująco:
𝑊𝑠𝑐ℎ𝑜𝑤𝑎 𝑝1
𝐾𝑟𝑜𝑏𝑖𝑎 𝑝2
𝜴 = 𝑀𝑖ę𝑑𝑧𝑦𝑟𝑧𝑒𝑐𝑧 = 𝑝3 .
… …
[ 𝑊ą𝑔𝑟𝑜𝑤𝑖𝑒𝑐 ] [ 14 ] 𝑝

Ujęta w ten sposób zbiorowość powiatów departamentu poznańskiego liczyła 𝑛 = 14 jednostek.


W badaniach demografii tego rejonu uwzględniono następujące cechy: wielkość zaludnienia, udział lud-
ności miejskiej, poziom feminizacji, wdowieństwo, umieralność oraz strukturę wyznaniową. Oczywi-
ście korzystamy z pomiaru dokonanego w roku 1810 r., czyli ze spisu powszechnego. Na podstawie
jego wyników dla pierwszych trzech cech można w badaniu uwzględnić odpowiednio następujące
zmienne: (𝑋1 ) liczba ludności [tys. osób], (𝑋2 ) odsetek ludności miejskiej [% ludności ogółem] oraz (𝑋3 )
relacja liczby mężczyzn do liczby kobiet [liczba mężczyzn/1 kobietę]. Natomiast poziom wdowieństwa
w badanych społecznościach można wyrazić już tylko przy użyciu dwóch zmiennych: (𝑋4 ) odsetek
wdowców [% ludności ogółem] oraz (𝑋5 ) odsetek wdów [% ludności ogółem]. Z kolei umieralności
dotyczą następujące zmienne: (𝑋6 ) zgony ogółem [zgony/1000 mieszkańców], (𝑋7 ) zgony kobiet [zgony
kobiet/1000 kobiet], (𝑋8 ) zgony mężczyzn [zgony mężczyzn/1000 mężczyzn]. Podobnie ma się sytuacja
w przypadku cechy dotyczącej struktury wyznaniowej. Wykorzystane zostały tu takie zmienne jak:
7.1. Przygotowanie danych demograficznych do badań wielowymiarowych 165

(𝑋9 ) liczba katolików [% ludności ogółem], (𝑋10 ) liczba protestantów [% ludności ogółem] oraz (𝑋11 )
liczba żydów [% ludności ogółem].
Podsumowując, w badaniu dotyczącym sytuacji demograficznej w departamencie poznańskim
uwzględniono 𝑛 = 14 powiatów stanowiących obiekty tego badania oraz 𝑚 = 11 zmiennych, repre-
zentujących sześć cech badanych obiektów. Dane liczbowe dotyczące tego zagadnienia można zapisać
w formie tabelarycznej (tabela 7.1).
W takim zestawieniu wektor zmiennych dla powiatu krotoszyńskiego przyjmie wartości (por. wek-
tor [3.2]):
𝒑𝟒 = [59,1 28,1 1,00 2,6 7,7 34,9 35,2 34,6 76,7 18,4 4,9].

Zestawienie w ten sam sposób skonfigurowanych wektorów wartości zmiennych dla każdego
obiektu tworzy macierz obserwacji (por. macierz [3.3]) o wymiarach 14 × 11 (14 wierszy i 11 ko-
lumn). W macierzy takiej każdy wiersz dotyczy odrębnego powiatu, natomiast każda kolumna jednej
zmiennej. W macierzy obserwacji nie uwzględnia się wartości ogółem, dotyczących całego departa-
mentu.

52,5 33,5 0,94 2,2 8,4 23,1 23,5 22,7 57,1 35,3 7,6
50,4 33,3 0,96 2,2 8,0 30,6 33,1 28,2 63,5 33,2 3,3
40,0 30,4 0,98 2,4 8,7 35,2 37,6 32,8 46,5 46,0 7,5
59,1 28,1 1,00 2,6 7,7 34,9 35,2 34,6 76,7 18,4 4,9
44,7 28,0 0,99 2,0 6,2 31,1 33,0 29,2 42,4 52,5 5,1
46,8 23,7 1,00 1,8 8,2 32,4 33,7 31,2 62,0 30,4 7,6
39,7 20,6 0,97 4,9 4,6 27,2 29,2 25,3 78,8 17,2 4,0
𝑿= . [7.1]
34,5 20,3 0,99 1,8 7,2 34,7 36,7 32,7 81,7 14,3 4,0
32,5 18,9 1,05 2,0 7,2 28,5 28,8 28,1 79,7 17,0 3,3
39,6 17,7 1,04 1,6 5,9 37,1 38,4 35,8 84,4 9,0 6,6
24,5 17,1 1,05 1,3 5,3 44,8 45,2 44,5 80,9 14,8 4,3
26,7 12,8 1,00 2,1 6,9 33,3 36,0 30,6 88,6 8,5 2,9
43,9 10,2 1,01 1,8 7,3 35,3 38,0 32,6 87,5 9,4 3,1
[30,1 9,7 1,03 2,1 8,1 32,2 33,2 31,3 79,6 17,7 2,7]

Oczywiście macierz 𝑿 [7.1] ma znaczenie techniczne w wielowymiarowych analizach statystycz-


nych. Zatem w sytuacjach, w których występuje konieczność prezentacji danych ilościowych, bardziej
przejrzystą formą jest przedstawienie danych w formie tabeli (w prezentowanym przykładzie tabela
7.1). Z kolei jeżeli dane ilościowe mają służyć jako punkt wyjścia do dalszych obliczeń, niezbędnych
w grupowaniu wielowymiarowym, dogodniejsza jest forma macierzowa (w prezentowanym przykła-
dzie macierzy [7.1]). Pozwala ona między innymi na łatwiejszą ich implementację do programów sta-
tystycznych. Z tego powodu taka postać prezentacji danych jest powszechnie stosowania zarówno w ba-
daniach społecznych, jak i ekonomicznych.
Sytuację demograficzną w powiatach departamentu poznańskiego opisano za pomocą zmiennych,
które wyrażono w skali ilościowej, a dokładniej w skali ilorazowej. Zatem spełniony został jeden z po-
stulatów analizy wielowymiarowej – postulat jedności skal, w których przedstawione są zmienne
uwzględnione w badaniu.
Tabela 7.1. Zmienne dotyczące sytuacji demograficznej w departamencie poznańskim w 1810 r.

Odsetek ludności Odsetek wdowców Zgony Struktura wyznaniowa


Relacja M/K
Ludność miejskiej [% ludności ogółem] [osoby/ 1000 mieszkańców] [% ludności ogółem]
[liczba mężczyzn/
Powiat [tys.] [% ludności
1 kobietę] M K Ogółem M K katolicy ewangelicy żydzi
ogółem]
𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6 𝑋7 𝑋8 𝑋9 𝑋10 𝑋11
Wschowa 𝑝1 52,5 33,5 0,94 2,2 8,4 23,1 23,5 22,7 57,1 35,3 7,6
Krobia 𝑝2 50,4 33,3 0,96 2,2 8,0 30,6 33,1 28,2 63,5 33,2 3,3
Międzyrzecz 𝑝3 40,0 30,4 0,98 2,4 8,7 35,2 37,6 32,8 46,5 46,0 7,5
Krotoszyn 𝑝4 59,1 28,1 1,00 2,6 7,7 34,9 35,2 34,6 76,7 18,4 4,9
Babimost 𝑝5 44,7 28,0 0,99 2,0 6,2 31,1 33,0 29,2 42,4 52,5 5,1
Oborniki 𝑝6 46,8 23,7 1,00 1,8 8,2 32,4 33,7 31,2 62,0 30,4 7,6
Kościan 𝑝7 39,7 20,6 0,97 4,9 4,6 27,2 29,2 25,3 78,8 17,2 4,0
Śrem 𝑝8 34,5 20,3 0,99 1,8 7,2 34,7 36,7 32,7 81,7 14,3 4,0
Gniezno 𝑝9 32,5 18,9 1,05 2,0 7,2 28,5 28,8 28,1 79,7 17,0 3,3
Pyzdry 𝑝10 39,6 17,7 1,04 1,6 5,9 37,1 38,4 35,8 84,4 9,0 6,6
Powidz 𝑝11 24,5 17,1 1,05 1,3 5,3 44,8 45,2 44,5 80,9 14,8 4,3
Środa 𝑝12 26,7 12,8 1,00 2,1 6,9 33,3 36,0 30,6 88,6 8,5 2,9
Poznań 𝑝13 43,9 10,2 1,01 1,8 7,3 35,3 38,0 32,6 87,5 9,4 3,1
Wągrowiec 𝑝14 30,1 9,7 1,03 2,1 8,1 32,2 33,2 31,3 79,6 17,7 2,7
Ogółem 581,2 25,2 0,99 2,3 7,3 32,9 34,6 31,2 70,4 24,2 5,4
M – mężczyźni, K – kobiety.
Źródło: AGAD, Biblioteka Ordynacji Zamoyskich, sygn. 9; por. KĘDELSKI (1996, s. 25).
7.1. Przygotowanie danych demograficznych do badań wielowymiarowych 167

Tabela 7.2. Zmienne i ich podstawowe statystyki opisujące sytuację demograficzną w powiatach departamentu poznańskiego
w 1810 r.

Zmienne Podstawowe statystyki opisowe


średnia odchylenie współczynnik
nazwa [jednostka] symbol kurtoza
arytmetyczna standardowe asymetrii
liczba ludności [tys. osób] 𝑋1 40,357 10,049 0,131 –0,582
odsetek ludności miejskiej [% ludności 𝑋2 21,736 8,028 0,026 –1,138
ogółem]
relacja liczby mężczyzn do liczby ko- 𝑋3 1,001 0,033 –0,014 –0,565
biet [liczba mężczyzn/1 kobietę]
odsetek wdowców [% ludności ogó- 𝑋4 2,200 0,843 2,786 9,249
łem]
odsetek wdów [% ludności ogółem] 𝑋5 7,121 1,224 –0,764 –0,225
zgony ogółem [zgony/1000 mieszkań- 𝑋6 32,886 5,075 0,401 1,910
ców]
zgony kobiet [zgony kobiet/1000 ko- 𝑋7 34,400 5,167 –0,129 1,310
biet]
zgony mężczyzn [zgony męż- 𝑋8 31,400 5,158 0,920 2,608
czyzn/1000 mężczyzn]
liczba katolików [% ludności ogółem] 𝑋9 72,100 15,061 –0,924 –0,390
liczba protestantów [% ludności ogó- 𝑋10 23,121 14,039 0,975 –0,092
łem]
liczba żydów [% ludności ogółem] 𝑋11 4,779 1,824 0,640 –1,164

Charakterystykę statystyk opisowych zawiera np. publikacja: KOPCZYŃSKI (2005).


Źródło: obliczenia własne na podstawie danych z tabeli 7.1.

Sytuację demograficzną w departamencie poznańskim w 1810 r. scharakteryzowano ze względu na


przykładowe dopuszczalne miary statystyczne, przedstawione w tabeli 7.2. Analiza ich wartości wska-
zuje, że zmienne są wyrażone w różnych jednostkach, odznaczają się różnym poziomem przeciętnym
i różnym zakresem zmienności. Zatem przed przystąpieniem do badań konieczne będzie ich unormo-
wanie. Co więcej, wartości współczynników asymetrii wskazują, że badane zmienne charakteryzują
odmienne kształty rozkładu ich liczebności. W przypadku części zmiennych przeważająca liczba jed-
nostek przyjmuje wartości mniejsze od średniej (odznaczają się one asymetrią prawostronną: współ-
czynnik asymetrii >0). W przypadku innych jest odwrotnie (asymetria lewostronna: współczynnik asy-
metrii <0). Różnie rozkłada się także koncentracja punktów wokół średniej, o czym z kolei mówi kur-
toza. Należy przypomnieć, że jeżeli rozkład zmiennej jest zbliżony do rozkładu normalnego, to zarówno
wartości współczynnika asymetrii, jak i kurtozy, oscylują wokół zera. Tę sytuację niewątpliwie należy
wziąć pod uwagę w momencie wyboru opisanej w części teoretycznej formuły normalizacyjnej dla
zmiennych.
W przypadku regionalizacji ważnym elementem przygotowawczym jest doprowadzenie zmien-
nych do wzajemnej porównywalności. W pierwszym etapie tego działania należy dążyć do tego, aby
zmienne będące podstawą grupowania wyrażone zostały w jednostkach realnych, a nie nominalnych.
W prezentowanym przykładzie jedna spośród badanych zmiennych ma charakter nominalny: (𝑋1 ) liczba
ludności wyrażona została w tysiącach osób (por. tabelę 7.1). Ze względu na to, że przedmiotem badania
jest grupowanie powiatów, należy porównywać raczej gęstość zaludnienia, wyrażoną w liczbie osób
przypadających na jednostkę powierzchni, niż nominalną liczbę ludności zamieszkującej dany powiat.
168 7. Regionalizacja na przykładzie grupowania powiatów

Rozwiązaniem jest zatem odniesienie wartości zmiennej (𝑋1 ) do powierzchni poszczególnych powia-
tów. Szczegółowo o pomiarze gruntów w Wielkopolsce w tym okresie traktuje m.in. publikacja GÓR-
SKIEJ (1956). Ostatecznie informację o wielkości powiatów zaczerpnięto z danych zawartych w zespole
„Rada Ministrów Księstwa Warszawskiego, Księgi Kancelaryjne”, mieszczącym się w Archiwum
Głównym Akt Dawnych. Według danych zaczerpniętych z tego źródła1 Księstwo Warszawskie zajmo-
wało powierzchnię 7790 mil2, a departament poznański 338,562 mil2.
Po wprowadzeniu przedstawionej wyżej zmiany, skorygowana macierz danych dla tego przykładu
przyjęła postać2 𝑿′ [7.2]. W porównaniu z macierzą obserwacji 𝑿 [7.1], zmieniono w niej jedynie war-
tości w kolumnie pierwszej. Tym razem zmienną 𝑋1 : ludność, wyrażono w jednostkach względnych:
[tys. osób/1 milę2].
2,24 33,5 0,94 2,2 8,4 23,1 23,5 22,7 57,1 35,3 7,6
2,78 33,3 0,96 2,2 8,0 30,6 33,1 28,2 63,5 33,2 3,3
1,13 30,4 0,98 2,4 8,7 35,2 37,6 32,8 46,5 46,0 7,5
2,25 28,1 1,00 2,6 7,7 34,9 35,2 34,6 76,7 18,4 4,9
1,58 28,0 0,99 2,0 6,2 31,1 33,0 29,2 42,4 52,5 5,1
1,40 23,7 1,00 1,8 8,2 32,4 33,7 31,2 62,0 30,4 7,6
1,75 20,6 0,97 4,9 4,6 27,2 29,2 25,3 78,8 17,2 4,0
𝑿′ = [7.2]
1,99 20,3 0,99 1,8 7,2 34,7 36,7 32,7 81,7 14,3 4,0
1,46 18,9 1,05 2,0 7,2 28,5 28,8 28,1 79,7 17,0 3,3
1,86 17,7 1,04 1,6 5,9 37,1 38,4 35,8 84,4 9,0 6,6
1,51 17,1 1,05 1,3 5,3 44,8 45,2 44,5 80,9 14,8 4,3
1,86 12,8 1,00 2,1 6,9 33,3 36,0 30,6 88,6 8,5 2,9
1,50 10,2 1,01 1,8 7,3 35,3 38,0 32,6 87,5 9,4 3,1
[1,19 9,7 1,03 2,1 8,1 32,2 33,2 31,3 79,6 17,7 2,7]

Na kolejnym etapie badań należy rozważyć sposób normalizacji zmiennych. Z rachunkowego


punktu widzenia ani standaryzacja, ani unitaryzacja nie przysparzają większych trudności. Przykładowe
obliczenia dla gęstości zaludnienia (pierwsza kolumna z macierzy [7.2]) zostały przedstawione w od-
niesieniu dla każdej z zaproponowanych czterech metod normalizacji zmiennych w rozdziale trzecim
(tabela 3.5). Punktem wyjścia do podjęcia decyzji o sposobie normalizacji jest sprawdzenie, czy rozkład
zmiennych, biorących udział w grupowaniu jest zbliżony do rozkładu normalnego. W literaturze do-
stępnych jest szereg testów, weryfikujących to założenie (zob. np.: GUZIK, JUREK 1993, s. 64-69; KALA
2003, s. 43-48). Niemniej jednak już analiza statystyk opisowych przedstawionych w tabeli 7.2 pozwala
na wyciągnięcie wniosków w tym obszarze. O rozkładzie zbliżonym do normalnego można mówić je-
dynie w przypadku zmiennych dotyczących liczby ludności, odsetka ludności miejskiej, względnej
liczby mężczyzn, liczby zgonów i odsetka wdów. Ze względu na wymóg, że wszystkie zmienne muszą
być unormowane przy pomocy tej samej metody, bezpieczniejszym rozwiązaniem jest zastosowanie
standaryzacji pozycyjnej lub jednej z metod unitaryzacji. Ostatecznie macierz zmiennych unormowa-
nych, przedstawiona poniżej, jest efektem zastosowania unitaryzacji zerowanej (por. wzór [3.9]).

1
Z kolei KLENIEWICZ (1947, s. 4) podaje, że Księstwo Warszawskie zajmowało obszar 155,8 tys. km 2.
2
BUZEK (1915, s. 5) podaje, że w Poznańskiem w 1816 r. na kilometrze kwadratowym mieszkało 28 osób.
7.1. Przygotowanie danych demograficznych do badań wielowymiarowych 169

0,67 1,00 0,00 0,25 0,93 0,00 0,00 0,00 0,32 0,61 1,00
1,00 0,99 0,18 0,25 0,83 0,35 0,44 0,25 0,46 0,56 0,12
0,00 0,87 0,36 0,31 1,00 0,56 0,65 0,46 0,09 0,85 0,98
0,68 0,77 0,55 0,36 0,76 0,54 0,54 0,55 0,74 0,23 0,45
0,27 0,77 0,45 0,19 0,39 0,37 0,44 0,30 0,00 1,00 0,49
0,16 0,59 0,55 0,14 0,88 0,43 0,47 0,39 0,42 0,50 1,00
0,37 0,46 0,27 1,00 0,00 0,19 0,26 0,12 0,79 0,20 0,27
𝑿′′ = [7.3]
0,52 0,45 0,45 0,14 0,63 0,53 0,61 0,46 0,85 0,13 0,27
0,20 0,39 1,00 0,19 0,63 0,25 0,24 0,25 0,81 0,19 0,12
0,44 0,34 0,91 0,08 0,32 0,65 0,69 0,60 0,91 0,01 0,80
0,23 0,31 1,00 0,00 0,17 1,00 1,00 1,00 0,83 0,14 0,33
0,44 0,13 0,55 0,22 0,56 0,47 0,58 0,36 1,00 0,00 0,04
0,22 0,02 0,64 0,14 0,66 0,56 0,67 0,45 0,98 0,02 0,08
[0,03 0,00 0,82 0,22 0,85 0,42 0,45 0,39 0,81 0,21 0,00]

7.2. Dobór zmiennych diagnostycznych

W opisywanym przykładzie jako wstępną listę zmiennych można potraktować dane przedstawione w ta-
beli 7.1. Lista ta zawiera jedenaście zmiennych. Warto przypomnieć, że zmienna: ludność (𝑋1 ) została,
zastąpiona zmienną gęstość zaludnienia.
Dobór zmiennych diagnostycznych warto rozpocząć od wstępnej statystycznej selekcji zmien-
nych, której podstawy teoretyczne opisano w rozdziale 5.1. Wartości współczynników zmienności (por.
wzór [5.1]), wyznaczonych dla każdej zmiennej uwzględnionej w badaniu, zawiera tabela 7.3.

Tabela 7.3. Współczynniki zmienności wyznaczone dla zmiennych uwzględnionych w przykładzie dotyczącym sytuacji
demograficznej departamentu poznańskiego w 1810 r.

średnia odchylenie współczynnik


Zmienne
arytmetyczna standardowe zmienności
gęstość zaludnienia [tys. osób/1 milę2] 𝑋1 1,749 0,455 0,260
odsetek ludności miejskiej [% ludności ogółem] 𝑋2 21,736 8,028 0,356
relacja liczby mężczyzn do liczby kobiet 𝑋3 1,001 0,033 0,033
[liczba mężczyzn/1 kobietę]
odsetek wdowców [% wdów i wdowców ogółem] 𝑋4 2,200 0,843 0,369
odsetek wdów [% wdów i wdowców ogółem] 𝑋5 7,121 1,224 0,166
zgony ogółem [zgony/1000 mieszkańców] 𝑋6 32,886 5,075 0,149
zgony kobiet [zgony kobiet/1000 kobiet zamieszkujących 𝑋7 34,400 5,167 0,145
powiat]
zgony mężczyzn [zgony mężczyzn/1000 mężczyzn za- 𝑋8 31,400 5,158 0,158
mieszkujących powiat]
liczba katolików [% ludności ogółem], 𝑋9 72,100 15,061 0,201
liczba protestantów [% ludności ogółem] 𝑋10 23,121 14,039 0,585
liczba żydów [% ludności ogółem] 𝑋11 4,779 1,824 0,368
Źródło: obliczenia własne na podstawie danych z tabeli 7.1 z uwzględnieniem zamiany zmiennej liczba ludności na zmienną
gęstość zaludnienia.

Z tabeli wynika, że największą zmiennością odznaczają się zmienne opisujące udział ludności pro-
testanckiej (𝑋10 ) i żydowskiej (𝑋11 ) oraz udział ludności miejskiej (𝑋2 ) w ludności ogółem poszczegól-
nych powiatów. Te właśnie zmienne różnicują najsilniej badane powiaty pod względem demograficz-
nym. Natomiast najmniejszą zmienność, co wydaje się naturalne, odnotowano w obszarze relacji liczby
170 7. Regionalizacja na przykładzie grupowania powiatów

mężczyzn do liczby kobiet (𝑋3 ) oraz zmiennych dotyczących liczby zgonów (𝑋6 , 𝑋7 , 𝑋8 ). Zakładając, że
progowa wartość współczynnika zmienności wynosi 𝜀 = 0,1, można stwierdzić, że zmienność w ob-
szarze zmiennej 𝑋3 nie przekroczyła tego poziomu (𝑣𝑋3 = 0,041). Nie różni się ona zatem na tyle po-
między grupowanymi obiektami, aby uwzględnić ją w badaniu.
W celu dokonania doboru zmiennych diagnostycznych spośród kilku możliwości zaprezentowanych
w rozdziale piątym wybrano metodę odwrotnej macierzy korelacji. Jak już wskazuje sama nazwa,
punktem wyjścia do zastosowania tego podejścia jest macierz korelacji. W przykładzie dotyczącym sy-
tuacji demograficznej departamentu poznańskiego, ze względu na wspomniany wyżej brak normalności
rozkładów części zmiennych, jako miarę związku między zmiennymi wybrano współczynnik korelacji
Spearmana (por. wzór [4.42]). Za jego pomocą zmierzono siłę związku pomiędzy każdą parą zmiennych
uwzględnionych w powyższym przykładzie, z wyjątkiem zmiennej (𝑋3 ), która została usunięta na etapie
wstępnej statystycznej selekcji zmiennych. Poniżej przedstawiono macierz korelacji Spearmana 𝑹𝑺 ,
którą zapisano jako macierz 𝑹𝑺 [7.4].

1,00 0,40 0,23 −0,18 −0,19 −0,16 −0,16 0,09 −0,08 0,01
0,40 1,00 0,53 0,43 −0,42 −0,45 −0,33 −0,80 0,77 0,66
0,23 0,53 1,00 0,32 −0,54 −0,55 −0,46 −0,47 0,48 −0,02
−0,18 0,43 0,32 1,00 −0,17 −0,19 −0,11 −0,48 0,54 0,25
−0,19 −0,42 −0,54 −0,17 1,00 0,98 0,95 0,45 −0,45 0,04
𝑹𝑺 = [7.4]
−0,16 −0,45 −0,55 −0,19 0,98 1,00 0,91 0,52 −0,52 −0,02
−0,16 −0,33 −0,46 −0,11 0,95 0,91 1,00 0,33 −0,33 0,10
0,09 −0,80 −0,47 −0,48 0,45 0,52 0,33 1,00 −0,99 −0,61
−0,08 0,77 0,48 0,54 −0,45 −0,52 −0,33 −0,99 1,00 0,51
[ 0,01 0,66 −0,02 0,25 0,04 −0,02 0,10 −0,61 0,51 0,00 ]

Poszczególne kolumny i wiersze macierzy korelacji Spearmana 𝑹𝑺 [7.4], w prezentowanym przykła-


dzie, odnoszą się odpowiednio do następujących zmiennych: 𝑋1 , 𝑋2 , 𝑋4 , 𝑋5 , 𝑋6 , 𝑋7 , 𝑋8 , 𝑋9 , 𝑋10 , 𝑋11 .
Spośród uwzględnionych w badaniu zmiennych najsilniejszy związek korelacyjny charakteryzuje udział
w społeczności powiatów ludności katolickiej i ewangelickiej. Wartość współczynnika korelacji wyniosła
𝑆
w tym przypadku 𝑟9;10 = −0,99 i oznacza, że im wyższy udział w społeczeństwie danego powiatu lud-
ności jednego wyznania, tym udział ludności drugiego wyznania okazywał się proporcjonalnie niższy.
Silną zależność odnotowano również pomiędzy zmiennymi zgony ogółem oraz zgony mężczyzn i zgony
𝑆 𝑆
kobiet (𝑟6;7 = 0,98; 𝑟6;8 = 0,95). Tym razem interpretacja jest oczywista: wzrost liczby zgonów ogółem
oznaczał wzrost zarówno zgonów kobiet, jak i mężczyzn. Interesujące jest także, że wzrost liczby ludności
𝑆
w miastach determinował spadek liczby mężczyzn w liczbie ludności ogółem (𝑟2;3 = −0,76).
Silny dodatni związek korelacyjny charakteryzuje także zmienne udział ludności miejskiej oraz
zmienne dotyczące struktury wyznaniowej mieszkańców departamentu poznańskiego. Im większy
udział w danym powiecie stanowili mieszczanie, tym więcej zamieszkiwało w nim ewangelików i lud-
𝑆 𝑆 𝑆
ności wyznania mojżeszowego, a mniej katolików (𝑟2;10 = 0,77; 𝑟2;11 = 0,66; 𝑟2;9 = −0,80). Obser-
wacje te są zbieżne z wnioskami GROSSMANA (1925, s. 46-49), dotyczącymi całego Księstwa Warszaw-
skiego. Wspomina on także o prowadzonej w tym okresie polityce ograniczania liczby mieszkańców
wyznania mojżeszowego na terenie miast, w wyniku czego pomiędzy spisem z 1808 r. a spisem
z 1810 r. odnotowano w całym Księstwie Warszawskim spadek liczby ludności żydowskiej. Sytuacja ta
nie miała jednak miejsca w departamencie poznańskim.
Na podstawie macierzy korelacji Spearmana 𝑹𝑺 [7.4], została wyznaczona macierz odwrotna do
macierzy korelacji 𝑹−𝟏𝑺 , którą zaprezentowano wraz z symbolami zmiennych w tabeli 7.4.
7.2. Dobór zmiennych diagnostycznych 171

Tabela 7.4. Macierz odwrotna do macierzy korelacji Spearmana pomiędzy zmiennymi opisującymi sytuację demograficzną
w departamencie poznańskim w 1810 r.

𝑋1 𝑋2 𝑋4 𝑋5 𝑋6 𝑋7 𝑋8 𝑋9 𝑋10 𝑋11

–6,4 –0,8 –0,7 –4,8 –29,2 –21,8 –3,1


Macierz odwrotna do macierzy korelacji:

𝑋1 5,4 2,9 7,1


𝑋2 –6,4 14,5 –2,2 –2,1 –1,5 –3,5 4,8 11,3 2,7 –4,0
𝑋4 –0,8 –2,2 3,4 –1,6 –3,8 2,1 1,0 21,3 18,8 5,3
𝑋5 2,9 –2,1 –1,6 4,1 7,2 –2,2 –3,5 –32,9 –28,5 –5,2
–1,5 –3,8 –39,4 –27,5 –93,4 –80,6 –17,6
𝑹𝑺−𝟏 ,

𝑋6 7,1 7,2 72,0


𝑋7 –0,7 –3,5 2,1 –2,2 –39,4 32,8 6,8 27,1 27,5 6,8
𝑋8 –4,8 4,8 1,0 –3,5 –27,5 6,8 18,5 43,3 34,2 6,1
𝑋9 –29,2 11,3 21,3 –32,9 –93,4 27,1 43,3 443,4 381,0 77,1
𝑋10 –21,8 2,7 18,8 –28,5 –80,6 27,5 34,2 381,0 334,1 67,9
𝑋11 –3,1 –4,0 5,3 –5,2 –17,6 6,8 6,1 77,1 67,9 17,6
Elementy
5,4 14,5 3,4 4,1 72,0 32,8 18,5 443,4 334,1 17,6
diagonalne
Źródło: obliczenia własne na podstawie macierzy 𝑹𝑺 [7.4].

Przyjęto, że wartość krytyczna, przy prezentowanej liczbie zmiennych, będzie wynosiła 𝑟𝑖𝑖−1 ≥ 20.
Analiza elementów diagonalnych macierzy odwrotnej do macierzy korelacji 𝑹−𝟏
𝑺 wskazuje, że najsilniej
−1
ze wszystkimi zmiennymi okazała się być skorelowana zmienna liczba katolików (𝑟9;9 = 443,4) oraz
−1
liczba protestantów (𝑟10;10 = 331,4). Należy przypomnieć, że zmienne te okazały się silnie skorelo-
wane nie tylko ze sobą, ale także z udziałem mieszczan w ludności ogółem (por. macierz 𝑹𝑺 [7.4]).
−1
W następnej kolejności uplasowały się zmienne związane ze śmiertelnością: zgony ogółem (𝑟6;6 =
−1 −1
72,0), zgodny mężczyzn (𝑟7;7 = 32,8) oraz zgony kobiet (𝑟8;8 = 18,5). Przeprowadzona wcześniej ana-
liza macierzy korelacji wykazała, że te trzy wymienione zmienne są ściśle ze sobą skorelowane.
Względy merytoryczne przemawiają jednak za tym, żeby raczej spośród nich do dalszej analizy pozo-
stawić zmienną zgodny ogółem.
Ostatecznie do zbioru zmiennych diagnostycznych zakwalifikowano zmienne: 𝑋1 , 𝑋2 , 𝑋4 , 𝑋5 , 𝑋6
oraz 𝑋11 . Zatem grupowanie powiatów departamentu poznańskiego ze względu na sytuację demogra-
ficzną w 1810 r. zostało przeprowadzone w oparciu o dane dotyczące: gęstości zaludnienia (𝑋1 ), udziału
w liczbie ludności ogółem ludności miejskiej (𝑋2 ), odsetka wdów (𝑋4 ) i wdowców (𝑋5 ), liczby zgonów
ogółem (𝑋6 ) i udziału w ludności zamieszkującej dany powiat ludności wyznania mojżeszowego (𝑋11 ).
Należy podkreślić, że po takiej korekcie listy zmiennych najwyższy współczynnik korelacji pomiędzy
𝑆
zmiennymi wyniósł 𝑟2;11 = 0,66 (por. macierz 𝑹𝑺 [7.4]).

7.3. Macierz odległości jako podstawa grupowania hierarchicznego

Realizacja celu badania, zdefiniowanego na początku tego wywodu, oznacza, że w prezentowanym


przykładzie powinno dążyć się do wyodrębnienia powiatów (lub ich grup) najbardziej wyróżniających
się ze względu na strukturę demograficzną w 1810 r. Z tego powodu spośród prezentowanych możli-
wości miar odległości wybrano kwadratową odległość euklidesową (por. wzór [4.8]). W rozdziale
172 7. Regionalizacja na przykładzie grupowania powiatów

4.1.1, zaprezentowano proces jej wyznaczania dla każdej pary obiektów i budowy adekwatnej macierzy
odległości.
Należy przypomnieć, że ostatecznie macierz kwadratów odległości euklidesowych, prezentowana
w tym przykładzie, została wyznaczona w oparciu o wartości zmiennych wskazane na etapie doboru
zmiennych diagnostycznych: 𝑋1 , 𝑋2 , 𝑋4 , 𝑋5 , 𝑋6 oraz 𝑋11 . Zatem z macierzy zmiennych unormowanych
𝑿′′ , przedstawionej jako macierz [7.3], usunięto kolumny odpowiadające zmiennym: 𝑋3 , 𝑋7 , 𝑋8 , 𝑋9 ,
𝑋10 . Tak zmodyfikowana macierz zmiennych unormowanych 𝑿′′ , stała się podstawą do wyznaczenia
macierzy kwadratów odległości euklidesowych 𝑫 [7.5]:

0,00 1,01 0,79 0,69 0,90 0,63 2,38 1,25 1,52 1,35 2,76 2,09 2,40 ⋯
1,01 0,00 1,83 0,32 0,91 1,66 1,98 0,63 1,06 1,58 2,03 1,15 1,64 ⋯
0,79 1,83 0,00 0,81 0,74 0,17 2,44 1,13 1,25 1,04 1,77 1,83 1,72 ⋯
0,69 0,32 0,81 0,00 0,36 0,68 1,33 0,23 0,62 0,65 1,11 0,70 0,97 ⋯
0,90 0,91 0,74 0,36 0,00 0,55 0,99 0,31 0,36 0,40 0,72 0,68 0,84 ⋯
0,63 1,66 0,17 0,68 0,55 0,00 2,17 0,76 0,91 0,55 1,38 1,32 1,23 ⋯
2,38 1,98 2,44 1,33 0,99 2,17 0,00 1,29 1,11 1,45 1,73 1,16 1,56 ⋯
𝑫= . [7.5]
1,25 0,63 1,13 0,23 0,31 0,76 1,29 0,00 0,21 0,42 0,56 0,17 0,30 ⋯
1,52 1,06 1,25 0,62 0,36 0,91 1,11 0,21 0,00 0,79 0,87 0,19 0,24 ⋯
1,35 1,58 1,04 0,65 0,40 0,55 1,45 0,42 0,79 0,00 0,42 0,72 0,78 ⋯
2,76 2,03 1,77 1,11 0,72 1,38 1,73 0,56 0,87 0,42 0,00 0,64 0,59 ⋯
2,09 1,15 1,83 0,70 0,68 1,32 1,16 0,17 0,19 0,72 0,64 0,00 0,09 ⋯
2,40 1,64 1,72 0,97 0,84 1,23 1,56 0,30 0,24 0,78 0,59 0,09 0,00 ⋯
[2,59 1,94 1,76 1,26 1,11 1,37 1,78 0,58 0,27 1,27 1,09 0,27 0,11 ⋯]

Dla przypomnienia, każda kolumna i każdy wiersz macierzy odległości 𝑫 [7.5] odpowiadają kolej-
nym powiatom uwzględnionym w badaniu. Pierwsza kolumna i pierwszy wiersz dotyczy zatem powiatu
wschowskiego, druga kolumna i drugi wiersz powiatowi krobskiemu itd. Porównując oznaczenia za-
warte w tabeli 7.1, można zatem powiedzieć, że powiat wschowski okazał się być najbliższy pod wzglę-
dem demograficznym w 1810 r. powiatowi obornickiemu (𝑑1;6 = 0,63), a najdalszy powiatowi powidz-
kiemu (𝑑1;11 = 2,76). Z kolei analizując wszystkie powiaty departamentu poznańskiego w 1810 r.,
można stwierdzić, że najbliższymi sobie powiatami okazały się powiat średzki i śremski (𝑑8;12 = 0,17).
Należy podkreślić, że stwierdzenia te są zbieżne z wnioskami, jakie można było wyciągnąć na podsta-
wie macierzy odległości zbudowanej w oparciu o jedenaście zmiennych.

7.4. Macierz sąsiedztwa terytorialnego 𝑪 w regionalizacji

Charakterystycznym problemem badań regionalnych jest wymóg ciągłości terytorialnej. Technicz-


nym aspektem tego zagadnienia jest wyznaczenie i uwzględnienie w badaniu macierzy sąsiedztwa te-
rytorialnego 𝑪, co zostało opisane w rozdziale 4.4.2. Na podstawie mapy departamentu poznańskiego
z okresu Księstwa Warszawskiego (rys. 7.1) dla każdej pary powiatu oznaczono sąsiedztwo. Jeśli po-
wiaty bezpośrednio ze sobą graniczyły, to sąsiedztwu przypisywano wartość jeden. W pozostałych przy-
padkach relacji sąsiedztwa przypisywano wartość zero. W ten sposób została zbudowana macierz są-
siedztwa terytorialnego 𝑪, którą przedstawiono jako 𝑪 [7.6].
7.4. Macierz sąsiedztwa terytorialnego C w regionalizacji 173

Rysunek 7.1. Mapa departamentu poznańskiego Księstwa Warszawskiego z 1810 r. z uwzględnieniem podziału na powiaty

Źródło: opracowanie własne w oparciu o BARANOWSKI (1966, mapa 53).

Podobnie jak w macierzy odległości, pierwszy wiersz i pierwsza kolumna macierzy sąsiedztwa 𝑪
[7.6] odnosiły się do powiatu wschowskiego (𝑝1 ) (por. tabelę 7.1). Powiat ten graniczył z trzema po-
wiatami: Krobia (𝑝2 ), Kościan (𝑝7 ) i Babimost (𝑝5 ). W związku z tym, w pierwszej kolumnie i w pierw-
szym wierszu elementy 𝑐1;2, 𝑐1;7 i 𝑐1;5 przyjęły wartości równe jedności, a pozostałe były równe zeru.
W ten sam sposób przeanalizowano sąsiedztwo w kolejnych powiatach.
0 1 0 0 1 0 1 0 0 0 0 0 0 0
1 0 0 1 0 0 1 1 0 0 0 0 0 0
0 0 0 0 1 1 0 0 0 0 0 0 1 0
0 1 0 0 0 0 0 1 0 1 0 1 0 0
1 0 1 0 0 0 1 0 0 0 0 0 1 0
0 0 1 0 0 0 0 0 1 0 0 0 1 1
1 1 0 0 1 0 0 1 0 0 0 0 1 0
𝑪= , [7.6]
0 1 0 1 0 0 1 0 1 0 0 1 1 0
0 0 0 0 0 1 0 1 0 1 1 1 1 1
0 0 0 1 0 0 0 0 1 0 1 1 0 0
0 0 0 0 0 0 0 0 1 1 0 0 0 0
0 0 0 1 0 0 0 1 1 1 0 0 0 0
0 0 1 0 1 1 1 1 1 0 0 0 0 1
[0 0 0 0 0 1 0 0 1 0 0 0 1 0]


Macierz sąsiedztwa terytorialnego 𝑪 [7.6] została przekształcona zgodnie ze wzorem 𝑐𝑖𝑗 = 1 − 𝑐𝑖𝑗 .
Następnie przemnożono poszczególne jej elementy z odpowiadającymi im elementami macierzy odle-
głości 𝑑𝑖𝑗 , przedstawionej jako 𝑫 [7.5]. Uzyskano w ten sposób skorygowaną o aspekt sąsiedztwa ma-
cierz odległości 𝑫’ [7.7]. Jej porównanie z macierzą odległości 𝑫 [7.5] prowadzi do wniosku, że wszyst-
kie odległości pomiędzy powiatami sąsiadującymi bezpośrednio ze sobą zostały zastąpione zerami –
czyli założono dla nich maksymalne podobieństwo.
174 7. Regionalizacja na przykładzie grupowania powiatów

0,00 0,00 0,79 0,69 0,00 0,63 0,00 1,25 1,52 1,35 2,76 2,09 2,40 ⋯
0,00 0,00 1,83 0,00 0,91 1,66 0,00 0,00 1,06 1,58 2,03 1,15 1,64 ⋯
0,79 1,83 0,00 0,81 0,00 0,00 2,44 1,13 1,25 1,04 1,77 1,83 0,00 ⋯
0,69 0,00 0,81 0,00 0,36 0,68 1,33 0,00 0,62 0,00 1,11 0,00 0,97 ⋯
0,00 0,91 0,00 0,36 0,00 0,55 0,00 0,31 0,36 0,40 0,72 0,68 0,00 ⋯
0,63 1,66 0,00 0,68 0,55 0,00 2,17 0,76 0,00 0,55 1,38 1,32 0,00 ⋯
0,00 0,00 2,44 1,33 0,00 2,17 0,00 0,00 1,11 1,45 1,73 1,16 0,00 ⋯
𝑫′ = [7.7]
1,25 0,00 1,13 0,00 0,31 0,76 0,00 0,00 0,00 0,42 0,56 0,00 0,00 ⋯
1,52 1,06 1,25 0,62 0,36 0,00 1,11 0,00 0,00 0,00 0,00 0,00 0,00 ⋯
1,35 1,58 1,04 0,00 0,40 0,55 1,45 0,42 0,00 0,00 0,00 0,00 0,78 ⋯
2,76 2,03 1,77 1,11 0,72 1,38 1,73 0,56 0,00 0,00 0,00 0,64 0,59 ⋯
2,09 1,15 1,83 0,00 0,68 1,32 1,16 0,00 0,00 0,00 0,64 0,00 0,09 ⋯
2,40 1,64 0,00 0,97 0,00 0,00 0,00 0,00 0,00 0,78 0,59 0,09 0,00 ⋯
[2,59 1,94 1,76 1,26 1,11 0,00 1,78 0,58 0,00 1,27 1,09 0,27 0,00 ⋯]

Analizując mapę przedstawioną na rysunku 7.1 oraz macierz odległości 𝑫’ [7.7], można zauważyć,
że uwzględnienie sąsiedztwa spowodowało jeszcze przed grupowaniem wyodrębnienie następujących
skupień powiatów:
{Pyzdry (𝑝10 ), Powidz (𝑝11 )},
{Krotoszyn (𝑝4 ), Śrem (𝑝8 ), Środa (𝑝12 )},
{Oborniki (𝑝6 ), Gniezno (𝑝9 ), Wągrowiec (𝑝14 )},
{Międzyrzecz (𝑝3 ), Babimost (𝑝5 ), Poznań (𝑝13 )}
{Wschowa (𝑝1 ), Krobia (𝑝2 ), Kościan (𝑝7 )}.
Należy zwrócić uwagę, że nałożenie warunku ciągłości terytorialnej spowodowało, że odległości mię-
dzy powiatami w ramach wskazanych skupień są równe zeru; co więcej, skupienia te powstały nieza-
leżnie od sytuacji demograficznej w badanych powiatach w 1810 r. Badacz staje zatem przed dylema-
tem, czy zrezygnować z części informacji na rzecz uzyskania spójnych terytorialnie skupień, czy też
zgodzić się na sytuację, że powiaty tworzące poszczególne skupienia nie zawsze będą ze sobą sąsiado-
wały. Warto zatem, w oparciu o ten problem, przeprowadzić grupowanie w dwóch wariantach.

7.5. Grupowanie powiatów metodą Warda

Jak wspomniano wcześniej, grupowanie powiatów departamentu poznańskiego Księstwa Warszaw-


skiego ze względu na sytuację demograficzną w 1810 r. zostało przeprowadzone w dwóch wariantach.
Pierwszy zakładał nałożenie warunku spójności terytorialnej, natomiast drugi – nie uwzględniał tego
założenia. W przypadku grupowania z uwzględnieniem macierzy sąsiedztwa rekomendowana jest me-
toda Warda. Aby zachować porównywalność wyników, została ona wykorzystana także w drugim wa-
riancie. Metoda Warda należy do jednej z metod hierarchicznych opisanych w rozdziale 6.1.3. Grupo-
wanie przeprowadzono przy wykorzystaniu programu Statistica. Wariant pierwszy wymagał przygoto-
wania macierzy odległości w arkuszu kalkulacyjnym. Procedura importowania takiej macierzy do pro-
gramu statystycznego została opisana w Aneksie B.

Wariant pierwszy
W wariancie pierwszym podstawą regionalizacji przeprowadzonej metodą Warda była macierz odległo-
ści 𝑫’ [7.7]. Jej rezultaty przedstawiono w formie dendrogramu na rysunku 7.2. Dodatkowo na rysunku
7.3 przestawiono wykres przebiegu aglomeracji.
7.5. Grupowanie powiatów metodą Warda 175

Rysunek 7.2. Dendrogram grupowania metodą Warda (kwadratowa odległość euklidesowa) czternastu powiatów departa-
mentu poznańskiego w 1810 r. ze względu na sytuację demograficzną (z uwzględnieniem warunku spójności
terytorialnej)

5
Odległość wiązania

Oborniki
Krotoszyn

Krobia
Gniezno
Pyzdry

Kościan
Wągrowiec
Powidz

Śrem
Środa

Babimost
Poznań

Międzyrzecz

Wschowa
S1 S2 S3

Źródło: opracowanie własne z wykorzystaniem programu Statistica.

Analiza dendrogramu oraz wykresu przebiegu aglomeracji, przedstawionych odpowiednio na ry-


sunkach 7.2 oraz 7.3, potwierdzają wcześniejsze wnioski, że pierwsze dziesięć etapów wiązania prze-
biegło równolegle. W ten sposób powstało pięć odrębnych grup powiatów: {Pyzdry, Powidz}, {Środa,
Śrem, Krotoszyn}, {Wągrowiec, Gniezno, Oborniki}, {Poznań, Babimost, Międzyrzecz}, {Kościan,
Krobia, Wschowa}. Następnie nastąpiły trzy etapy wiązania, w których wymienione skupienia powia-
tów łączyły się kolejno ze sobą.

Rysunek 7.3. Wykres przebiegu aglomeracji (na podstawie dendrogramu przedstawionego na rysunku 7.2).

4
Odległość wiązania

-1
0 2 4 6 8 10 12 14
Krok

Źródło: opracowanie własne z wykorzystaniem programu Statistica.


176 7. Regionalizacja na przykładzie grupowania powiatów

Tabela 7.5. Obliczenia pomocnicze do wyznaczenia optymalnego punktu podziału dendrogramu w oparciu o regułę ilorazu
odległości (warunek spójności terytorialnej)

Uporządkowane malejąco
Ilorazy odległości aglomeracyjnych
odległości aglomeracyjne
𝑑1 5,0198 𝑤2 = 𝑑1 /𝑑2 2,0037
𝒅𝟐 2,5053 𝒘𝟑 = 𝒅𝟐 /𝒅𝟑 1,4948 𝒘𝟑 < 𝒘𝟒
𝑑3 1,6761 𝑤4 = 𝑑3 /𝑑4 1,5340
𝑑4 1,0926 𝑤5
𝑑5 0,0000 𝑤6

Źródło: obliczenia własne na podstawie wyników grupowania metodą Warda (kwadrat odległości euklidesowej), przedstawio-
nego na rys. 7.2.

Aby wskazać optymalną liczbę skupień, wykorzystano regułę ilorazu odległości aglomeracyjnych
(FLOREK i in. 1951), opisaną w rozdziale 6.1.2. Obliczenia pomocnicze zawarto w tabeli 7.5. Wynika
z nich, że dendrogram przedstawiony na rysunku 7.2 naturalnie rozpada się na trzy skupienia. Należy
go zatem przeciąć na wysokości 𝑑2 = 2,5053, co zaznaczono przerywaną prostą. Można zatem na tej
podstawie rozstrzygnąć, że w wyniku grupowania powiatów departamentu poznańskiego w 1810 r. uzy-
skano następujące grupy powiatów: 𝑠1 ={Pyzdry, Powidz, Środa, Śrem, Krotoszyn}, 𝑠2 ={Wągrowiec,
Gniezno, Oborniki, Poznań, Babimost, Międzyrzecz}, 𝑠3 ={Kościan, Krobia, Wschowa}. Uzyskane
w wariancie pierwszym wyniki grupowania przedstawiono także w formie mapy na rysunku 7.4.

Rysunek 7.4. Powiaty departamentu poznańskiego pogrupowane ze względu na sytuację demograficzną w 1810 r. przy
zachowaniu warunku spójności terytorialnej

Źródło: opracowanie własne w oparciu o wyniki grupowania metodą Wardą (kwadrat odległości euklidesowej).
7.5. Grupowanie powiatów metodą Warda 177

Wariant drugi
W drugim wariancie grupowania zastosowano metodę Warda, bez uwzględnienia warunku spójności
terytorialnej. Tym razem punktem wyjścia do jej przeprowadzenia była macierz odległości 𝑫 [7.5].
Przebieg procedury był podobny jak w wariancie pierwszym. Wyniki tego grupowania w przedsta-
wiono w postaci dendrogramu na rysunku 7.5. Do wyznaczenia optymalnego punkt przecięcia dendro-
gramu zastosowano tę samą regułę, jak w podejściu pierwszym. Adekwatne obliczenia pomocnicze
przedstawiono w tabeli 7.6.

Rysunek 7.5. Dendrogram grupowania metodą Warda (kwadratowa odległość euklidesowa) czternastu powiatów departa-
mentu poznańskiego w 1810 r. ze względu na sytuacje demograficzną (bez wymogu spójności terytorialnej)

4
Odległość wiązania

0
Oborniki
Krotoszyn

Krobia
Gniezno
Pyzdry
Kościan

Wągrowiec
Powidz

Śrem
Środa

Babimost
Poznań

Międzyrzecz

Wschowa

S3 S1 S2
Źródło: opracowanie własne z wykorzystaniem programu Statistica.

Tabela 7.6. Obliczenia pomocnicze do wyznaczenia optymalnego punktu podziału dendrogramu w oparciu o regułę ilorazu
odległości (bez warunku spójności terytorialnej)
Uporządkowane malejąco
Ilorazy odległości aglomeracyjnych
odległości aglomeracyjne
𝑑1 4,4833 𝑤2 = 𝑑1 /𝑑2 2,1785
𝒅𝟐 2,0580 𝒘𝟑 = 𝒅𝟐 /𝒅𝟑 1,0066 𝒘𝟑 < 𝒘𝟒
𝑑3 2,0444 𝑤4 = 𝑑3 /𝑑4 1,4378
𝑑4 1,4219 𝑤5 1,4114
𝑑5 1,0075 𝑤6 1,1334 𝑤6 < 𝑤7
𝑑6 0,8889 𝑤7 2,1127

Źródło: obliczenia własne na podstawie wyników grupowania Warda (kwadrat odległości euklidesowej) przeprowadzonego
dla przykładu 1.
178 7. Regionalizacja na przykładzie grupowania powiatów

Rysunek 7.5. Powiaty departamentu poznańskiego pogrupowane ze względu na sytuację demograficzną w 1810 r.
bez uwzględnienia warunku spójności terytorialnej

Źródło: opracowanie własne w oparciu o wyniki grupowania metodą Wardą (kwadrat odległości euklidesowej).

I tym razem dendrogram, przedstawiony na rysunku 7.5, rozpadł się w sposób naturalny na trzy
skupienia. Ich skład jest jednak inny: 𝑠1 ={Krobia, Krotoszyn}, 𝑠2 ={Oborniki, Międzyrzecz,
Wschowa}, 𝑠3 ={Wągrowiec, Poznań, Środa, Gniezno, Śrem, Babimost, Pyzdry, Powidz, Kościan}.
Wyniki grupowania przedstawione zostały również w formie mapy (rysunek 7.6). Analizując rezultaty
grupowania uzyskane w drugim podejściu, można zauważyć, że mimo braku włączenia do procedury
warunku spójności terytorialnej uzyskanych skupień, o takiej spójności można jednak mówić. Wyjątek
stanowi tu jedynie powiat ze stolicą w Wschowie.

7.6. Ocena grupowania i opis uzuskanych wyników

Wyniki uzyskane w obu grupowaniach wykazały pewne zróżnicowanie. Doświadczony historyk – spe-
cjalizujący się w historii Polski tego okresu – potrafi, kierując się posiadaną wiedzą i doświadczeniem,
wskazać to podejście, które przyniosło bardziej adekwatne do ówczesnej sytuacji społecznej wyniki.
Innym rozwiązaniem jest wsparcie tej decyzji metodami ilościowym. Przegląd metod służących ocenie
wyników grupowania zaprezentowano w rozdziale 6.3.1. Jednym z wysoko ocenianych podejść w tym
obszarze jest wskaźnik C Calińskiego-Harabasza (por. wzór [6.18]). Szczegółowo przebieg obliczeń
służących jego wyznaczeniu można prześledzić w rozdziale 6.3.2 oraz w rozdziale 11.4.
W prezentowanym przykładzie wartość wskaźnika C Calińskiego-Harabasza wyznaczona dla
układu skupień na podstawie macierzy kwadratów odległości euklidesowych 𝑫, przedstawionych jako
macierz [7.5], wyniosła dla pierwszego wariantu 𝐶𝐼 = 2.014. Natomiast ten sam wskaźnik wyznaczony
7.6. Ocena grupowania i opis uzyskanych wyników 179

dla wyników grupowania uzyskanych w drugim podejściu wynosił 𝐶𝐼𝐼 = 5.020. W tej sytuacji opis wy-
ników grupowania został przeprowadzony w oparciu o wariant drugi, którego układ skupień charakte-
ryzował się większa jednorodnością wewnętrzną i niejednorodnością zewnętrzną.
Dla wyodrębnionych w wyniku zastosowania metody Warda, grup powiatów wyznaczono wartości
średnie i odchylenia standardowe sześciu zmiennych, które stanowiły podstawę grupowania. Zesta-
wiono je w postaci tabeli 7.7. Biorąc pod uwagę układ skupień uzyskany dzięki zastosowaniu metody
Warda, można zauważyć, że najbardziej wyraźne różnice pomiędzy skupieniami odnotowano w zakre-
sie gęstości zaludnienia i odsetka ludności miejskiej, liczby wdów oraz udziału ludności wyznania moj-
żeszowego. Znacznie mniejsze zróżnicowanie pomiędzy skupieniami wykazano w obszarze zmiennych
związanych z liczbą wdowców oraz liczbą zgonów ogółem.
Szczególnie interesująca jest obserwacja dotycząca gęstości zaludnienia. BOROWSKI (1964) wska-
zuje, że po 1807 r., odnotowano napływ siły roboczej do Wielkopolski, który był wynikiem ruchów
migracyjnych ludności bezrolnej z ziem sąsiadujących od zachodu i wschodu. Okres ten uznawany jest
za bezpośrednio poprzedzający rewolucję demograficzną (BOROWSKI 1970). W prezentowanym przy-
kładzie najwyższą gęstość zaludnienia odnotowano w powiatach południowych (skupienie 𝑠1), najniż-
szą w powiatach północnych (skupienie 𝑠2). Potwierdza to wnioski BOROWSKIEGO (1970), który stwier-
dził, że w okresie przed rewolucją demograficzną gęstość zaludnienia zmieniała się od południa ku pół-
nocy i wynosiła w 1816 r. na Śląsku 48 osób/km2, w Wielkopolsce – 29 a na Pomorzu – 22.
Na uwagę zasługuje również fakt, że odsetek wdowców w każdym skupieniu okazał się kilkakrotnie
niższy niż odsetek wdów. Sytuacja ta jest interpretowana w literaturze jako rezultat udziału w kampa-
niach wojennych czy przesłanek kulturowych (por. BUZEK 1915, s. 3-4; GIEYSZTOROWA 1976, s. 89;
KĘDELSKI 1996, s. 23-24). Najbardziej wiarygodna wydaje się jednak hipoteza BOROWSKIEGO (1970),
który argumentuje , że w latach 1806-1807 na terenie Wielkopolski występowała klęska głodowa połą-
czona z działaniami wojennymi, czego konsekwencją była nadwyżka zgonów nad urodzeniami (por.
wykres 1 w BOROWSKI 1967).

Tabela 7.7. Średnie wartości zmiennych wraz z odchyleniami standardowymi w wyodrębnionych grupach powiatów ze
względu na sytuację demograficzną w 1810 r. (bez wymogu spójności terytorialnej)

Wągrowiec, Poznań,
Skupienia powiatów Oborniki, Środa, Gniezno,
Krobia,
Międzyrzecz, Śrem, Babimost,
Krotoszyn
Wschowa Pyzdry, Powidz,
Zmienne Kościan
uwzględnione w badaniu
𝑠1 𝑠2 𝑠3
gęstość zaludnienia
𝑋1 2,514 [0,266] 1,592 [0,471] 1,631 [0,238]
[tys. osób/1milę2]
odsetek ludności miejskiej
𝑋2 30,700 [2,600] 29,200 [4,090] 17,256 [5,432]
[% ludności ogółem]
odsetek wdowców
𝑋4 2,400 [0,200] 2,133 [0,249] 2,178 [0,993]
[% ludności ogółem]
odsetek wdów
𝑋5 7,850 [0,150] 8,433 [0,205] 6,522 [1,045]
[% ludności ogółem]
zgony ogółem
𝑋6 32,750 [2,150] 30,233 [5,172] 33,800 [4,907]
[zgony/1000 mieszkańców]
liczba Żydów
𝑋11 4,100 [0,800] 7,567 [0,047] 4,000 [1,167]
[% ludności ogółem]
W nawiasach wstawiono wartości odchyleń standardowych.
Źródło: zestawienie własne na podstawie wyników grupowania metodą Warda (kwadrat odległości euklidesowej).
180 7. Regionalizacja na przykładzie grupowania powiatów

Ostatnia ze zmiennych dotyczy udziału mieszkańców wyznania mojżeszowego w społeczności


Wielkopolski początku XIX w. GROSSMAN (1925, s. 46) wskazuje, że przeciętny udział ludności ży-
dowskiej w całym Księstwie Warszawskim wynosił w 1810 r. 7% ogółu ludności. Dla przykładu
w Warszawie ludność ta stanowiła 18%. Natomiast w Poznaniu, którego nie uwzględniono w prezen-
towanym przykładzie, udział ludności wyznania mojżeszowego osiągnął poziom 23,3%. Zatem najwyż-
sze przeciętne wartości udziału ludności żydowskiej w ludności ogółem, odnotowane w badanych sku-
pieniach, nie przekroczyły średniej wartości tej zmiennej wyznaczonej dla Księstwa Warszawskiego.
Skupienie pierwsze, łączące powiat krobski i krotoszyński, odznacza się najwyższą przeciętną gę-
stością zaludnienia i najwyższym odsetkiem ludności miejskiej. Charakterystyczną cechą tego skupie-
nia jest także stosunkowo wysoka śmiertelność i związana z nią liczba wdów i wdowców. Liczba Ży-
dów zamieszkujących ten obszar nieznacznie przekroczyła w 1810 r. 4%.
Porównywalny z wartościami wskazywanymi w pierwszym skupieniu odsetek ludności miejskiej
odnotowano również w powiatach należących do skupienia drugiego: {Oborniki, Międzyrzecz,
Wschowa}. Jednak przeciętnie powiaty te okazały się najrzadziej zaludnionymi. Jedynie powiat
wschowski charakteryzował się w obszarze tej zmiennej nieco wyższymi wartościami. Skupienie to od-
znacza się także relatywnie najwyższym udziałem ludności żydowskiej w społeczeństwie. Charaktery-
styczne dla tego skupienia jest również to, że liczba wdów przypadająca na jednego wdowca była
w 1810 r. najwyższa. Sytuacja ta musiała być jednak rezultatem śmiertelności mężczyzn w poprzednich
latach, bowiem w roku spisu powszechnego liczba zgonów w powiatach należących do tego skupienia
była w porównaniu z innymi skupieniami najniższa.
Najliczniejsze skupienie połączyło powiaty przede wszystkim z przewagą ludności wiejskiej: {Wą-
growiec, Poznań, Środa, Gniezno, Śrem, Babimost, Pyzdry, Powidz, Kościan}. Warto w tym miejscu
przypomnieć, że miasto Poznań zostało wyłączone z rozważań. Stosunkowo niewiele zamieszkiwało te
tereny wdów i wdowców. KĘDELSKI (1996, s. 23), charakteryzując strukturę społeczno-demograficzną
i warunki bytowe ludności w Wielkopolsce na początku XIX w., stwierdził, że „przeciętny współczyn-
nik zgonów w latach 1809-1810 (a więc w okresie „normalnym”) wynosił w miastach 35,6, a na wsi
31,3”. Analizując natomiast dane przedstawione w tabeli 7.7, okazało się, że przeciętna liczba zgonów
w tym skupieniu, mimo jego „wiejskości”, okazała się być najwyższa. Należy jednak podkreślić, że na
wartość tę, wyznaczoną dla skupienia trzeciego, niewątpliwy wpływ miała śmiertelność w Pyzdrach
i Powidzu, które odnotowały najwyższe wartości tej zmiennej. Być może relatywnie wysoka śmiertel-
ność jest związana także z relatywnie najniższą liczbą wdów w tym skupieniu.

Na zakończenie warto podsumować uzyskane wyniki grupowania z perspektywy zastosowanych


metod ilościowych. W prezentowanym przykładzie zostały pogrupowane powiaty pod względem sytu-
acji demograficznej, którą scharakteryzowano za pomocą jedenastu zmiennych. Te ostatnie, uzyskane
w wyniku spisu powszechnego, wyrażone były w skali przedziałowej. Już wstępna analiza danych
wskazała, że wartości nie wszystkich zmiennych różnią się wystarczająco pomiędzy badanymi powia-
tami. Zwykle tego typu sytuacje dotyczą pewnych stałych zależności. W prezentowanym przykładzie
była to relacja liczby mężczyzn do liczby kobiet.
Wyodrębnienie zmiennych diagnostycznych pozwoliło na uproszczenie interpretacji i poprawę ja-
kości grupowania. Zaprezentowana metoda macierzy odwrotnej do macierzy korelacji odznacza się
dużą prostotą. Jednak ze względu na fakt, że w nie prowadzi ona do wyodrębnienia grup zmiennych,
uzyskane wyniki grupowania powiatów można odnosić jedynie do wyodrębnionych zmiennych diagno-
stycznych. Rozszerzenie wniosków na pozostałe zmienne z metodologicznego punktu widzenia wydaje
się nieuprawnione.
7.6. Ocena grupowania i opis uzyskanych wyników 181

Przeprowadzone grupowania powiatów departamentu poznańskiego w 1810 r. wykazało, że nało-


żenie warunku spójności terytorialnej odbijać się może negatywnie na jakości grupowania. Wpływ ten
może być jednak mniejszy, gdy grupowaniu podlegałaby większa liczba jednostek. W takim przypadku
udział powiatów przygranicznych byłby mniejszy w stosunku do ogólnej liczby powiatów.
8
Weryfikacja hipotez historycznych na przykładzie
regionalizacji produkcji rolniczej na części ziem polskich
w okresie międzywojennym
(od 1939 do 1945 r. tworzących tzw. Kraj Warty)
Jest to przykład obrazujący wykorzystanie metod grupowania w przypadku konieczności weryfikacji
hipotez badawczych. Prezentowane zagadnienie jest również interesujące ze względów metodologicz-
nych: zmienne ilościowe opisujące poszczególne powiaty zostały przedstawione w skali porządkowej.
Z tą skalą zmiennych ilościowych historyk często jest zmuszony się zmierzyć, kiedy wykorzystuje dane
uzyskane z materiałów kartograficznych. Innym źródłem tego typu informacji są już gotowe opracowa-
nia spisowe. W prezentowanym przykładzie na etapie doboru zmiennych diagnostycznych zastosowano
metodę taksonomii wrocławskiej. Grupowanie powiatów przeprowadzono natomiast metodami hierar-
chicznymi. Co więcej, prezentowane zagadnienie stało się pretekstem do przedstawienia jednego z moż-
liwych rozwiązań w sytuacji podejmowania przez badacza decyzji o doborze ostatecznej metody gru-
powania.

8.1. Zarys problemu

Po zwycięstwie w 1939 r. władze hitlerowskie podzieliły przedwojenne polskie terytorium na dwie –


niemal równe – części: Generalne Gubernatorstwo oraz tzw. ziemie wschodnie wcielone do Rzeszy.
Ziemie wschodnie wcielone do Rzeszy zostały z kolei podzielone na dwa okręgi: Reichsgau Danzig-
-Westpresussen i Reichsgau Posen oraz dwie rejencje: katowicką i ciechanowską. Największym z no-
wych okręgów administracyjnych był okręg Reichsgau Posen. Dzielił się on z kolei na trzy rejencje:
poznańską, inowrocławską i kaliską. W styczniu 1940 r. przemianowany został na Reichsgau Warthe-
land – Kraj Warty. Tylko jego zachodnia część należała w okresie zaborów do Prus. Wschodnia część
rejencji inowrocławskiej oraz cała rejencja kaliska należała przed 1918 r. do Królestwa Kongresowego
(MARCZEWSKI 1979, s. 111-113; ŁUCZAK 1996, s. 3-4). Granice większości powiatów wchodzących
w skład Kraju Warty pozostawiono bez zmian w stosunku do ich przedwojennego stanu, zwiększając
tylko obszar powiatów leżących na jego wschodnich krańcach. Sytuacja ta dotyczyła powiatu łaskiego
(do którego przyłączono część powiatu piotrowskiego), łódzkiego (powiększonego o część powiatu
brzezińskiego), wieluńskiego (powiększonego o część powiatu radomszczańskiego), mogileńskiego
(powiększonego o część powiatu inowrocławskiego) oraz powiatów konińskiego i kolskiego (do któ-
rych przyłączono część powiatu tureckiego). Co więcej, z powiatów poznańskiego, łódzkiego i kali-
skiego wydzielono tereny włączone odpowiednio do miast Poznania, Łodzi i Kalisza (ŁUCZAK 1972,
s. 10-31). Kraj Warty istniał w granicach ustalonych w listopadzie 1939 r. przez cały okres wojny.
184 8. Weryfikacja hipotez historycznych na przykładzie regionalizacji produkcji rolniczej

W przedwojennych planach niemieckich Kraj Warty miał być obszarem niemieckiej kolonizacji na
wschodzie (CYPRIAN, SAWICKI 1946, s. 48; MARCZEWSKI 1979, s. 83-84). Ze względu na potrzeby
gospodarki wojennej Niemcy planowali szybką integrację tych ziem pod względem ekonomicznym
z Rzeszą. Rolnictwo tego terenu było w zamierzeniach dostawcą żywności, zarówno w okresie wojen-
nym, jak i po planowanym zwycięstwie. Kraj Warty miał być „spichlerzem Rzeszy” (ŁUCZAK 1977,
1996, s. 101).
Naziści już przed wybuchem II wojny światowej dysponowali dość dokładnymi informacjami do-
tyczącymi rolnictwa na tym terenie. Przykładem może być „S-Planung Gebiet II. Die bäuerlieche Be-
siedlung Pommerellen und Posen”, opracowany pod auspicjami Richarda W. Darrégo (ministra wyży-
wienia i rolnictwa Trzeciej Rzeszy oraz przywódcy chłopów Rzeszy), który zawierał szczegółowy plan
skolonizowania Pomorza i Poznańskiego (por. MADAJCZYK 1961). Szczególna troska o rolnictwo wy-
nikała z niekorzystnej sytuacji aprowizacyjnej Rzeszy w ostatnich latach przed agresją na Polskę (ŁU-
CZAK 1982, s. 142). Niemcy dostrzegali jednak zasadnicze różnice pomiędzy wschodnią i zachodnią
częścią tego obszaru, czego główną przyczyną była m.in. odmienna kultura rolna oraz wydajność pro-
dukcji roślinnej i zwierzęcej, i tłumaczyli taki stan okresem zaborów (JANICKI 1996, s. 98-100).
Oczywiście dostępna jest bardziej szczegółowa statystyka gospodarcza byłej dzielnicy pruskiej
w omawianym okresie. Takie opracowanie w odniesieniu do rolnictwa można znaleźć w publikacji GU-
ENTHER-SWART (1941, s. 22-115). Część z danych ilościowych tam zawartych została przedstawiona
w postaci map. Do tego typu zmiennych odwołał się m.in. w swoich badaniach JANICKI (1966, s. 97-101)
i to podejście do prezentacji danych ilościowych zostanie wykorzystane w niniejszym opracowaniu.
JANICKI (1996) za punkt wyjścia do charakterystyki rolnictwa Kraju Warty w okresie II wojny świa-
towej przyjął liczne mapy poglądowe wyników produkcyjnych rolnictwa na poziomie powiatów przed
wybuchem II wojny światowe. W swoich badaniach uwzględnił łącznie dziesięć zmiennych, opisują-
cych cechy związane z osiąganą przeciętną wydajnością produkcji roślinnej i zwierzęcej oraz jakością
gleb. W pierwszym przypadku zostały one wyrażone jako średnie z okresu 1933-1937, natomiast obsada
zwierząt i jakość gleb dotyczyła sytuacji w roku 1937 r. Dodatkowo zaprezentowane przez niego mapy
przedstawiały podział administracyjny Polski w okresie międzywojennym, z uwzględnieniem woje-
wództw i powiatów. Szczegółowy wykaz wartości wspomnianych zmiennych zawierają tabele 2 oraz 3,
zawarte w aneksie A.
W opracowaniu JANICKIEGO (1996) każda ze wspomnianych zmiennych została przedstawiona jako
osobny problem na osobnej mapie. Powstaje zatem pytanie, czy analiza wszystkich zmiennych jedno-
cześnie prowadziłaby do takiego podziału, o którym wspominano w planach niemieckich jeszcze przed
przystąpieniem do wojny. Ciekawe jest także, czy ewentualny podział powiatów ze względu na ich
potencjał rolniczy byłby zbieżny z granicami zaborowymi. Odpowiedź na to ostatnie pytanie można
traktować jako jeden ze sposobów weryfikacji hipotezy stawianej przez Niemców o wpływie zaborów
na gospodarkę rolną Wielkopolski w okresie międzywojennym.

8.2. Dane ilościowe wyrażone w skali porządkowej

Konsekwencją pozyskania danych ze źródeł kartograficznych jest to, że zwykle zmienne wyrażone są
w skali porządkowej. Tak też było w przypadku danych dotyczących rolnictwa na ziemiach polskich
tworzących w czasie II wojny światowej Kraj Warty. Wybrane przedwojenne statystyki opisowe cha-
rakterystyczne dla tej skali pomiarowej w odniesieniu do rozważanego zagadnienia zawarto w ta-
8.2. Dane ilościowe wyrażone w skali porządkowej 185

beli 8.1. Dane te pozyskane zostały z niemieckojęzycznej publikacji GUENTHER-SWART (1941, s. 24-
-54); wykorzystał je także w swej publikacji JANICKI (1996, s. 119-141).
Biorąc pod uwagę strukturę upraw, największy udział na badanym obszarze miało żyto. Powierzch-
nia jego zasiewów w każdym powiecie stanowiła od jednej czwartej od jednej drugiej ogólnej po-
wierzchni uprawowej (mediana powierzchni uprawy żyta wyniosła: 25-35%). Na drugim miejscu pod
względem udziału w powierzchni upraw znalazły się ziemniaki (mediana powierzchni uprawy ziemnia-
ków – 14-16%), a na kolejnym owies (mediana powierzchni uprawy owsa: 6-8%). Z kolei wyniki ana-
lizy statystycznej dla chowu zwierząt wskazują, że przeciętnie na 100 ha użytków rolniczych na bada-
nym obszarze przed II wojną światową przypadało 40-50 świń, 40-45 sztuk bydła oraz 15-18 koni.
Wartość modalnej wskazuje natomiast, że w blisko połowie badanych powiatów produkcję rolniczą
prowadzono głównie na glebach słabych.

Tabela 8.1. Podstawowe statystyki opisowe dla zmiennych uwzględnionych w przykładzie dotyczącym produkcji rolniczej
na części ziem polskich w okresie międzywojennym
Liczność Kwartyl Kwartyl Maksi-
Zmienna Modalna Minimum Mediana
modalnej pierwszy trzeci mum
powierzchnia uprawy 𝑋1 25-35 20 15-25 25-35 25-35 35-40 >40
żyta [% UR]
powierzchnia uprawy 𝑋2 5-7 9 <2 3-5 5-7 7-10 >10
pszenicy [% UR]
powierzchnia uprawy 𝑋3 <4 17 <4 <4 4-7 4-7 >10
jęczmienia [% UR]
powierzchnia uprawy 𝑋4 6-8 15 <5 5-6 6-8 8-10 >10
owsa [% UR]
powierzchnia uprawy 𝑋5 14-16 17 9-12 12-14 14-16 14-16 >16
ziemniaka [% UR]
powierzchnia uprawy 𝑋6 <1 19 <1 <1 1-2 2-3 5-8
buraka cukrowego
[% UR]
obsada koni 𝑋7 15-18 26 9-12 12-15 15-18 15-18 18-20
[szt./100 ha UR]
obsada bydła 𝑋8 35-40 14 25-35 35-40 40-45 40-45 50-60
[szt./100 ha UR]
obsada trzody chlew- 𝑋9 40-50 14 <20 30-40 40-50 50-60 >70
nej [szt./100 ha UR]
obsada owiec 𝑋10 <5 oraz 15 <5 <5 5-8 8-10 15-20
[szt./100 ha UR] 5-8
jakość gleb 𝑋11 słabe 20 słabe słabe średnie dobre dobre

UR – użytki rolnicze.
Źródło: obliczenia własne na podstawie danych z tabeli 2 i 3, zawartych w aneksie A.

Na uwagę zasługuje fakt, że wartość modalnej nie zawsze pokrywała się z wartością mediany. Taka
sytuacja wystąpiła w przypadku zmiennych dotyczących jakości gleb (𝑋11 ), powierzchni uprawy jęcz-
mienia (𝑋3 ), powierzchni uprawy buraka cukrowego (𝑋6 ) i obsady bydła (𝑋8 ). Zatem już na podstawie
statystyk opisowych można domyślać się, że badany obszar nie był rolniczo jednolity.
186 8. Weryfikacja hipotez historycznych na przykładzie regionalizacji produkcji rolniczej

8.3. Normalizacja zmiennych wyrażonych w skali porządkowej

Jak wspomniano wcześniej, w analizowanym przykładzie wykorzystano zmienne przedstawione


w skali porządkowej. Wartości rang zostały jednak przestawione słownie, np. przypadku zmiennej ja-
kość gleb słabe, średnie i dobre, lub w formie przedziałów liczbowych, np.: „<5”, „30-50”, itp. W tej
sytuacji, aby ułatwić dalsze obliczenia konieczne do przeprowadzenia grupowania, odpowiednio zako-
dowano wartości rang dla poszczególnych zmiennych. Podjęte działania zestawiono w tabeli 8.2.
W przypadku kodowania zmiennych warto wykorzystać w programie EXCEL możliwości, jakie daje
funkcji JEŻELI (). Dla przykładu, zgodnie z przyjętym kodowaniem, wszystkie wartości zmiennej do-
tyczącej powierzchni uprawy żyta w przedziale „15–25” zastąpiono cyfrą 1, natomiast wartości „>40”
cyfrą 4. Natomiast przypisane kody 1, 2, 3 dla zmiennej jakość gleb, dotyczą odpowiednio kategorii
„słabe”, „średnie”, „dobre”.

Tabela 8.2. Kodowanie rang zmiennych dotyczących produkcji rolniczej na części ziem polskich w okresie międzywojennym

Przypisane kody
Zmienne 1 2 3 4 5 6 7
oryginalne
żyto 𝑋1 15–25 25–35 35–40 >40
𝑋2
Powierzchnia uprawy

pszenica <2 2–3 3–5 5–7 7–10 >10

jęczmień 𝑋3 <4 4–7 7–10 >10


[UR]

owies 𝑋4 <5 5–6 6–8 8–10 >10

ziemniaki 𝑋5 9–12 12–14 14–16 >16

buraki cukrowe 𝑋6 <1 1–2 2–3 3–5 5–8

konie 𝑋7 9–12 12–15 15–18 18–20


Hodowla zwierząt
[szt./100 ha UR]

bydło 𝑋8 25–35 35–40 40–45 45–50 50–60

trzoda chlewna 𝑋9 <20 20–30 30–40 40–50 50–60 60–70 >70

owce 𝑋10 <5 5–8 8–10 10–15 15–20

Jakość gleb 𝑋11 słabe średnie dobre

Źródło: obliczenia własne na podstawie danych zawartych w tabelach 2 i 3 w aneksie A.

Na podstawie tabeli 8.2 łatwo zauważyć, że zmienne odznaczają się różną liczbą kategorii. Z tego
względu poddano je normalizacji zgodnie ze wzorem [3.12]. Znormalizowane wartości kategorii zmien-
nych uwzględnionych w badaniu przedstawiono w tabeli 8.3, natomiast fragment macierzy danych
znormalizowanych przedstawiono jako macierz 𝑿′ [8.1].
We fragmencie macierzy obserwacji znormalizowanych zawarto informacje dotyczące pierwszych
dziesięciu powiatów (𝑝1 − 𝑝10 ), które stanowią wiersze tej macierzy. Kolumny dotyczą pierwszych
ośmiu zmiennych (𝑋1 − 𝑋8 )1. I tak, powiat czarnkowski (𝑝1 ) wyróżnia się najwyższym udziałem zasie-
wów żyta (𝑧1;1 = 1,00) oraz ziemniaków (𝑧1;5 = 1,00) w uprawach polowych. Stosunkowo niewielki
procent powierzchni zasiewów stanowią natomiast buraki cukrowe (𝑧1;6 = 0,20) i pszenica

1
Nazwy powiatów i zmiennych łatwo odczytać z tabel 2 i 3 zawartej w aneksie A.
8.3. Normalizacja zmiennych wyrażonych w skali porządkowej 187

(𝑧1;2 = 0,33). W uprawie tej ostatniej dominującą pozycję, spośród powiatów uwzględnionych we frag-
mencie macierzy danych znormalizowanych, zajmował powiat szamotulski (𝑧5;2 = 0,83). W ten sam
sposób można scharakteryzować osobno każdy z czterdziestu jeden powiatów uwzględnionych w bada-
niu lub jedenaście zmiennych, te powiaty opisujące.

Tabela 8.3. Normalizacja zmiennych dotyczących produkcji rolniczej na części ziem polskich w okresie międzywojennym
Przypisane kody
Zmienne 1 2 3 4 5 6 7
unormowane
żyto 𝑋1 0,25 0,50 0,75 1,00
𝑋2
Powierzchnia uprawy

pszenica 0,17 0,33 0,50 0,67 0,83 1,00

jęczmień 𝑋3 0,25 0,50 0,75 1,00


[UR]

owies 𝑋4 0,20 0,40 0,60 0,80 1,00

ziemniaki 𝑋5 0,25 0,50 0,75 1,00

buraki cukrowe 𝑋6 0,20 0,40 0,60 0,80 1,00

konie 𝑋7 0,25 0,50 0,75 1,00


Hodowla zwierząt
[szt./100 ha UR]

bydło 𝑋8 0,20 0,40 0,60 0,80 1,00

trzoda chlewna 𝑋9 0,14 0,29 0,43 0,57 0,71 0,86 1,00

owce 𝑋10 0,20 0,40 0,60 0,80 1,00

Jakość gleb 𝑋11 0,33 0,67 1,00

Źródło: obliczenia własne na podstawie danych zawartych w tabeli 3.10.

1,00 0,33 0,50 0,60 1,00 0,20 0,75 0,80 ⋯


0,75 0,33 0,25 0,60 0,75 0,20 0,25 0,20 ⋯
0,50 0,67 0,50 0,40 1,00 0,60 0,50 0,40 ⋯
0,75 0,33 0,25 0,60 0,75 0,20 0,50 0,60 ⋯
0,50 0,83 0,50 0,40 0,75 0,80 0,50 0,40 ⋯
𝑿′ = 0,25 0,67 0,50 0,40 0,50 0,60 0,50 0,40 ⋯ [8.1]
0,25 0,67 0,50 0,80 0,75 0,60 0,75 1,00 ⋯
0,50 0,17 0,50 0,60 0,50 0,20 0,50 0,40 ⋯
0,50 0,50 0,50 0,40 0,50 0,40 0,50 0,20 ⋯
0,50 0,50 0,50 0,40 1,00 0,40 0,50 0,20 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]

8.4. Dobór zmiennych diagnostycznych z wykorzystaniem taksonomii


wrocławskiej

Dobór zmiennych diagnostycznych przeprowadzono za pomocą taksonomii wrocławskiej. Szczegó-


łowy opis tej procedury został przedstawiony w rozdziale 5.2.3. Punktem wyjścia do wyznaczenia
zbioru zmiennych diagnostycznych, które ostatecznie stały się podstawą grupowania powiatów, była
macierz danych zakodowanych i znormalizowanych, której fragment przedstawiono jako 𝑿′ [8.1]. Dla
188 8. Weryfikacja hipotez historycznych na przykładzie regionalizacji produkcji rolniczej

tak przygotowanych zmiennych wyznaczono, przy wykorzystaniu możliwości programu Statistica, ma-
cierz korelacji rang 𝜏 Kendalla 𝑹𝑲 [8.2]. Charakterystykę tej miary współzależności zmiennych można
znaleźć w rozdziale 4.3.2.

1,00 −0,50 −0,58 0,12 0,46 −0,61 0,14 0,19 −0,33 −0,31 ⋯
−0,50 1,00 0,46 −0,16 −0,45 0,60 0,11 −0,06 0,03 0,24 ⋯
−0,58 0,46 1,00 −0,35 −0,45 0,65 −0,26 −0,31 0,37 0,58 ⋯
0,12 −0,16 −0,35 1,00 0,30 −0,11 0,21 0,49 −0,04 −0,35 ⋯
0,46 −0,45 −0,45 0,30 1,00 −0,41 0,06 0,24 −0,06 −0,33 ⋯
𝑹𝑲 = −0,61 0,60 0,65 −0,11 −0,41 1,00 −0,13 −0,08 0,14 0,31 ⋯ [8.2]
0,14 0,11 −0,26 0,21 0,06 −0,13 1,00 0,62 −0,24 −0,17 ⋯
0,19 −0,06 −0,31 0,49 0,24 −0,08 0,62 1,00 −0,03 −0,31 ⋯
−0,33 0,03 0,37 −0,04 −0,06 0,14 −0,24 −0,03 1,00 0,24 ⋯
−0,31 0,24 0,58 −0,35 −0,33 0,31 −0,17 −0,31 0,24 1,00 ⋯
[−0,61 0,63 0,60 −0,18 −0,43 0,70 −0,04 −0,07 0,16 0,20 ⋯]

Na podstawie zestawienia wartości współczynników korelacji rang 𝜏 Kendalla 𝑹𝑲 [8.2] z nazwami


poszczególnych zmiennych, zawartymi w tabeli 2 oraz 3 w aneksie A, można stwierdzić, że najsilniej-
szy związek korelacyjny charakteryzował powierzchnię upraw buraków cukrowych i pszenicy z jako-
𝐾 𝐾
ścią gleb (odpowiednio 𝑟11;6 = 0,70 oraz 𝑟11;2 = 0,63). O równie silnej relacji można mówić także
𝐾
w odniesieniu do upraw buraków cukrowych i jęczmienia (𝑟3;6 = 0,65). Dla zmiennych dotyczących
produkcji zwierzęcej okazało się, że obsada bydła była dość silnie skorelowana z obsadą koni
𝐾
(𝑟7;8 = 0,62).
Na podstawie macierzy korelacji 𝑹𝑲 [8.2], wyznaczono macierz odległości 𝑫𝑿 , zapisaną jako [8.3].
W tym celu wykorzystano zależność [4.39].

0,00 0,75 0,79 0,44 0,27 0,80 0,43 0,40 0,67 0,65 0,81
0,75 0,00 0,27 0,58 0,72 0,20 0,44 0,53 0,48 0,38 0,18
0,79 0,27 0,00 0,67 0,72 0,18 0,63 0,65 0,32 0,21 0,20
0,44 0,58 0,67 0,00 0,35 0,55 0,39 0,26 0,52 0,68 0,59
0,27 0,72 0,72 0,35 0,00 0,70 0,47 0,38 0,53 0,66 0,72
𝑫𝑿 = 0,80 0,20 0,18 0,55 0,70 0,00 0,56 0,54 0,43 0,34 0,15 , [8.3]
0,43 0,44 0,63 0,39 0,47 0,56 0,00 0,19 0,62 0,58 0,52
0,40 0,53 0,65 0,26 0,38 0,54 0,19 0,00 0,51 0,66 0,54
0,67 0,48 0,32 0,52 0,53 0,43 0,62 0,51 0,00 0,38 0,42
0,65 0,38 0,21 0,68 0,66 0,34 0,58 0,66 0,38 0,00 0,40
[0,80 0,18 0,20 0,59 0,72 0,15 0,52 0,54 0,42 0,40 0,00]

Wartości macierzy odległości 𝑫𝑿 [8.3] pozwoliły na wskazanie dla każdej zmiennej zmienną jej
najbliższą. Wyniki zapisano w formie wektora 𝒅𝐦𝐢𝐧, na podstawie którego możliwe było z kolei wy-
znaczenie grafów niezorientowanych (por. rysunek 8.1). Grafy te połączono, w wyniku czego powstały
trzy oddzielne grupy zmiennych: {𝑋1 , 𝑋5 }, {𝑋4 , 𝑋7 , 𝑋8 }, {𝑋2 , 𝑋3 , 𝑋6 , 𝑋9 , 𝑋10 , 𝑋11 }. Aby stworzyły
one jeden graf spójny, konieczne jest ponowne przeanalizowanie poszczególnych wartości macierzy
odległości 𝑫𝑿 [8.3]. I tak, wybierając połączenia dla zmiennych {𝑋1 , 𝑋5 }, wyszukano najmniejsze od-
ległości od zmiennych, które nie należały do tej grupy. Wynosiły one odpowiednio: 𝑑1;8 = 0,40; 𝑑5;4 =
0,35. Na tej podstawie przyłączono zmienną 𝑋5 ze zmienną 𝑋4 krawędzią długości 0,35. W ten sposób
dwie mniejsze grupy zmiennych połączone zostały w jedną: {𝑋1 , 𝑋5 , 𝑋4 , 𝑋7 , 𝑋8 }. Takie samo postępo-
wanie powtórzono dla nowo powstałej grupy zmiennych. W wyniku tego działania powstał graf spójny,
przedstawiony na rysunku 8.2.
8.4. Dobór zmiennych diagnostycznych z wykorzystaniem taksonomii wrocławskiej 189

Rysunek 8.1. Grafy niezorientowane zbudowane dla zmiennych opisujących produkcję rolniczą na części ziem polskich
w okresie międzywojennym

𝑑1;5 = 0,27 𝑋1 0,27 𝑋5 𝑋7 0,19 𝑋8


𝑑2;11 = 0,18
𝑑3;6 = 0,18 𝑋2 0,18 0,32
𝑋11 𝑋9 𝑋3
𝑑4;8 = 0,26
𝑑5;1 = 0,27 0,18 0,21
𝑋3 𝑋6 𝑋10 𝑋3
𝑑𝑚𝑖𝑛 = 6;11 = 0,15 ,
𝑑
𝑑7;8 = 0,19
𝑋4 0,26 𝑋8
𝑑8;7 = 0,19
𝑑9;3 = 0,32
𝑑10;3 = 0,21 𝑋6
0,15 𝑋11
[𝑑11;6 = 0,15]

𝑋9
𝑋10

0,27 0,32
𝑋1 𝑋5 0,21

𝑋3

0,18
𝑋6
𝑋4 0,26 𝑋8 𝑋2

0,19 0,15
0,18
𝑋7
𝑋11

Pozostaje zatem do ustalenia, w których miejscach graf przedstawiony na rysunku 8.2 przeciąć, aby
otrzymać w jednorodne grupy zmiennych, i ile takich grup powinno być utworzonych. Spośród wielu
możliwości odpowiedzi na to pytanie w prezentowanym przykładzie zastosowano regułę stopu zapro-
ponowaną przez Hellwiga (por. wzór [5.8]). W pierwszym rzędzie uporządkowano malejąco wszystkie
wyznaczone w grafie długości krawędzi:
𝑑2;7 > 𝑑4;5 > 𝑑3;9 > 𝑑1;5 > 𝑑4;8 > 𝑑3;10 > 𝑑7;8 > 𝑑3;6 > 𝑑2;11 > 𝑑6;11
0,44 > 0,35 > 0,32 > 0,27 > 0,26 > 0,21 > 0,19 > 0,18 ≥ 0,18 > 0,15.

Następnie na ich podstawie obliczona została średnia arytmetyczna oraz odchylenie standardowe.
W tym celu wykorzystano wartości wektora 𝑑min , przedstawionego na rysunku 8.1. Dzięki temu, przy
założeniu 𝑘 = 1, wyznaczono wartość krytyczną 𝑑∗ :

𝑑∗ = 𝑑̅ + 𝑘𝑠𝑑 = 0,21 + 0,05 = 0,26.

Należy zatem usunąć wszystkie te krawędzie grafu, wyznaczonego w tym przykładzie, które okazały
się dłuższe od wartości krytycznej. Warunek ten spełniają krawędzie: 𝑑2;7 ; 𝑑4;5 ; 𝑑3;9 ; 𝑑1;5 . Działanie to
190 8. Weryfikacja hipotez historycznych na przykładzie regionalizacji produkcji rolniczej

zostało zaznaczone na dendrycie, zaprezentowanym na rysunku 8.2, za pomocą symbolu „\\”. Dopro-
wadziło to do ostatecznego podziału zmiennych na następujące grupy {𝑋1 }, {𝑋5 }, {𝑋4 , 𝑋7 , 𝑋8 }, {𝑋2 ,
𝑋3 , 𝑋6 , 𝑋10 , 𝑋11 } oraz {𝑋9 }.

Rysunek 8.2. Graf spójny dla zmiennych opisujących produkcję rolniczą na części ziem polskich w okresie międzywojennym

𝑋9

𝑋1

0,32
0,27

𝑋5 𝑋10 𝑋3
0,21

0,18
0,35

𝑋6
𝑋4

0,15
0,26
𝑋8
𝑋11
0,19 𝑋2 0,18
𝑋7 0,44

Źródło: opracowanie własne.

Drugi etap dualnej procedury taksonomicznej, do których zaliczana jest taksonomia wrocławska,
zakłada wybór zmiennych, które będą reprezentowały wyodrębnione wcześniej grupy. W tym celu
wykorzystano metodę środka ciężkości zaprezentowaną w rozdziale 5.2.1. Grupy jednoelementowe nie
wymagają dodatkowych działań. Dla grup {𝑋4 , 𝑋7 , 𝑋8 }, {𝑋2 , 𝑋3 , 𝑋6 , 𝑋10 , 𝑋11 } zastosowano wzór [5.3].
Podstawiając odpowiednie odległości z macierzy odległości 𝑫𝑿 [8.3], dla grupy {𝑋4 , 𝑋7 , 𝑋8 }, otrzy-
mano:
𝐷4 = 𝑑4;7 + 𝑑4;8 = 0,39 + 0,26 = 0,65,
𝐷7 = 𝑑7;4 + 𝑑7;8 = 0,39 + 0,19 = 0,58,
𝐷8 = 𝑑8;4 + 𝑑8;7 = 0,26 + 0,19 = 0,45 ⇒ min.

Z kolei odliczenia dla grupy {𝑋2 , 𝑋3 , 𝑋6 , 𝑋10 , 𝑋11 } wartości te są następujące:


𝐷2 = 𝑑2;3 + 𝑑2;6 + 𝑑2;10 + 𝑑2;11 = 0,27 + 0,20 + 0,38 + 0,18 = 1,05,
𝐷3 = 𝑑3;2 + 𝑑3;6 + 𝑑3;10 + 𝑑3;11 = 0,27 + 0,18 + 0,21 + 0,20 = 0,86 ⇒ min,
𝐷6 = 𝑑6;2 + 𝑑6;3 + 𝑑6;10 + 𝑑6;11 = 0,20 + 0,18 + 0,34 + 0,15 = 0,87,
𝐷10 = 𝑑10;2 + 𝑑10;3 + 𝑑10;6 + 𝑑10;11 = 0,38 + 0,21 + 0,34 + 0,40 = 1,33,
𝐷11 = 𝑑11;2 + 𝑑11;3 + 𝑑11;6 + 𝑑11;10 = 0,18 + 0,20 + 0,15 + 0,40 = 0,93.

Zatem przedstawicielką grupy {𝑋4 , 𝑋7 , 𝑋8 } została zmienna 𝑋8 , natomiast grupę {𝑋2 , 𝑋3 , 𝑋6 , 𝑋9 , 𝑋10 ,
𝑋11 } reprezentuje zmienna 𝑋3 .
Podsumowując, w wyniku zastosowania taksonomii wrocławskiej w grupowaniu zmiennych opisu-
jących produkcję rolniczą na ziemiach polskich przed wybuchem II wojny światowej, tworzących
8.4. Dobór zmiennych diagnostycznych z wykorzystaniem taksonomii wrocławskiej 191

w czasie jej trwania Kraj Warty, został wyznaczony zbiór zmiennych diagnostycznych: {𝑋1 }, {𝑋3 },
{𝑋5 }, {𝑋8 } oraz {𝑋9 }. W dalszych badaniach potencjał rolnictwa tego obszaru, będzie charakteryzo-
wany przez powierzchnię uprawy odpowiednio: żyta, jęczmienia i ziemniaków oraz obsadę bydła
i trzody chlewnej. Należy pamiętać, że zmienna powierzchnia uprawy jęczmienia (𝑋3 ) reprezentuje
grupę zmiennych, którą oprócz niej tworzyły takie zmienne jak: powierzchnia uprawy pszenicy (𝑋2 ),
powierzchnia uprawy buraków cukrowych (𝑋6 ), jakość gleb (𝑋11 ) i pogłowie owiec (𝑋10 ). Natomiast
zmienna obsada bydła (𝑋8 ) została wyłoniona jako przedstawicielka grupy, w skład której wchodziły
również zmienne obsada koni (𝑋7 ) i powierzchnia uprawy owsa (𝑋4 ).

8.5. Wyznaczenie macierzy odległości i grupowanie powiatów

Po wyborze zmiennych diagnostycznych można przystąpić do grupowania powiatów, które w czasie


okupacji niemieckiej II wojny światowej tworzyły Kraj Warty. Ze względu na skalę porządkową, w któ-
rej zostały wyrażone zmienne, punktem wyjścia w tym działaniu było wyznaczenie macierzy odległości
𝑫 w oparciu o współczynnik korelacji rang 𝜏 Kendalla. W odróżnieniu od macierzy 𝑫𝑿 [8.3] została
ona skonstruowana w odniesieniu do poszczególnych powiatów, dlatego jej wymiar wynosi
𝑛 × 𝑛 (41 × 41). Jej fragment, dotyczący pierwszych dziesięciu powiatów przedstawiono jako macierz
𝑫 [8.4]. Aby ją wyznaczyć skorzystano z zależności [4.44].

0,00 0,19 0,25 0,06 0,25 0,63 0,56 0,29 0,29 0,37 ⋯
0,19 0,00 0,17 0,11 0,17 0,50 0,66 0,31 0,31 0,17 ⋯
0,25 0,17 0,00 0,28 0,00 0,28 0,45 0,19 0,19 0,22 ⋯
0,06 0,11 0,28 0,00 0,28 0,61 0,55 0,44 0,44 0,28 ⋯
0,25 0,17 0,00 0,28 0,00 0,28 0,45 0,19 0,19 0,22 ⋯
𝑫 = 0,63 0,50 0,28 0,61 0,28 0,00 0,45 0,44 0,44 0,28 ⋯ [8.4]
0,56 0,66 0,45 0,55 0,45 0,45 0,00 0,68 0,68 0,66 ⋯
0,29 0,31 0,19 0,44 0,19 0,44 0,68 0,00 0,00 0,44 ⋯
0,29 0,31 0,19 0,44 0,19 0,44 0,68 0,00 0,00 0,44 ⋯
0,37 0,17 0,22 0,28 0,22 0,28 0,66 0,44 0,44 0,00 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]

Macierz odległości 𝑫 [8.4] stała się podstawą do grupowania badanego obszaru. Grupowanie prze-
prowadzono w dwóch wariantach. Zastosowano w nich, zgodnie z zaleceniami WALESIAKA i DUDKA
(2009) dotyczącymi skali porządkowej, odpowiednio metodę średnich połączeń (wariant pierwszy) oraz
średnich połączeń ważonych (wariant drugi).

Wariant pierwszy
Wyniki grupowania, uzyskane jako rezultat zastosowania metody średnich połączeń, przedstawiono
na rysunku 8.3. Wykres przebiegu aglomeracji przedstawiony na kolejnym rysunku (8.4) stał się pod-
stawą wyznaczenia optymalnego punktu przecięcia. Zastosowano zatem w tym zakresie, opisaną w roz-
dziale 6.1.2, regułę pierwszego znaczącego skoku odległości aglomeracyjnej.
Zgodnie z tym podejściem, w oparciu o wykres przebiegu aglomeracji (rysunek 8.4) przecięto den-
drogram (rysunek 8.3) na poziomie 0,3 odległości aglomeracyjnej, uzyskując w ten sposób podział
czterdziestu jeden grupowanych powiatów na sześć rozdzielnych skupień.
192 8. Weryfikacja hipotez historycznych na przykładzie regionalizacji produkcji rolniczej

Rysunek 8.3. Dendrogram grupowania metodą średnich połączeń (odległość na podstawie współczynnika korelacji
rang 𝜏 Kendalla) powiatów części ziem polskich w okresie międzywojennym

0,6

0,5
Odległość wiązania

0,4

0,3

0,2

0,1

0,0
Oborniki

Nowy Tomyśl
Krotoszyn

Kępno
Gniezno
Poznań

Koło
Szubin

Międzychód

Wolsztyn
Mogilno

Leszno

Łask
Włocławek

Szamotuły
Kutno

Gostyń

Brzeziny
Gostynin
Konin
Kościan
Jarocin
Żnin

Turek
Wieluń
Radomsko
Inowrocław

Czarnków
Piotrków
Ostrów
Śrem

Środa

Chodzież

Sieradz
Rawicz
Nieszawa

Wągrowiec

Łęczyca
Września

Łódź
Kalisz

S3 S4 S5 S2 S6 S1

Źródło: opracowanie własne z wykorzystaniem programu Statistica.

Rysunek 8.4. Wykres przebiegu aglomeracji w grupowaniu metodą średnich połączeń (odległość na podstawie współczyn-
nika korelacji rang 𝜏 Kendalla) powiatów części ziem polskich w okresie międzywojennym

0,6

0,5
Odległość wiązania

0,4

0,3

0,2

0,1

0,0
0 4 8 12 16 20 24 28 32 36 40
Etapy wiązania

Źródło: opracowanie własne z wykorzystaniem programu Statistica.

Wariant drugi
W drugim wariancie wykorzystano w grupowaniu powiatów tworzących w czasie II wojny światowej
Kraj Warty metodę średnich połączeń ważonych. Podobnie jak powyżej, do podziału dendrogramu
8.5. Wyznaczenie macierzy odległości i grupowanie powiatów 193

wykorzystano regułę pierwszego znaczącego skoku odległości aglomeracyjnej (por. rysunek 8.6). Zgod-
nie z tym podejściem tym razem dendrogram, przestawiony na rysunku 8.5, podzielono na poziomie
0,35 odległości aglomeracyjnej. W wyniku tego działania uzyskano także sześć rozdzielnych skupień.

Rysunek 8.5. Dendrogram grupowania metodą średnich połączeń ważonych (odległość na podstawie współczynnika korela-
cji rang 𝜏 Kendalla) powiatów części ziem polskich w okresie międzywojennym

0,7

0,6

0,5
Odległość wiązania

0,4

0,3

0,2

0,1

0,0

Oborniki

Nowy Tomyśl
Krotoszyn

Kępno
Gniezno
Koło

Szubin

Poznań
Międzychód

Wolsztyn
Łask

Leszno

Mogilno
Kutno

Brzeziny
Gostynin
Konin

Gostyń

Włocławek

Szamotuły
Turek

Kościan
Wieluń
Radomsko

Jarocin
Żnin
Inowrocław

Czarnków
Piotrków

Ostrów

Śrem
Środa

Chodzież
Sieradz

Rawicz

Nieszawa
Łęczyca

Wągrowiec
Łódź

Września
Kalisz

Źródło: opracowanie własne z wykorzystaniem programu Statistica.

Rysunek 8.6. Wykres przebiegu aglomeracji w grupowaniu metodą średnich połączeń ważonych (odległość na podstawie
współczynnika korelacji rang 𝜏 Kendalla) powiatów części ziem polskich w okresie międzywojennym

0,7

0,6

0,5
Odległość wiązania

0,4

0,3

0,2

0,1

0,0
0 4 8 12 16 20 24 28 32 36 40
Etap wiązania

Źródło: opracowanie własne z wykorzystaniem programu Statistica.


194 8. Weryfikacja hipotez historycznych na przykładzie regionalizacji produkcji rolniczej

8.6. Ocena grupowania i opis uzyskanych wyników

Analiza obu podejść, przedstawionych jako wariant pierwszy oraz wariant drugi, doprowadziła do zbli-
żonych, ale jednak nieco odmiennych wyników. O wyborze ostatecznego rozwiązania zadecydowano
na podstawie wartości całkowitego indeksu sylwetkowego, opisanego szczegółowo w rozdziale 6.3.3.
Jego wartość w przypadku podziału na sześć skupień uzyskanych metodą średnich połączeń wyniosła
𝐺𝑆𝐼𝐼 = 0,67, natomiast drugi podział, uzyskany metodą średnich połączeń ważonych, ocieniono na po-
ziomie 𝐺𝑆𝐼𝐼𝐼 = 0,55. Zatem, zgodnie z interpretacją zaproponowaną przez KAUFMANA i ROUSSEEUWA
(2005, s. 88), oba podziały można uznać za poprawne. Niemniej jednak bliższy ocenie wskazującej na
silną strukturę uzyskanych grup okazał się podział przedstawiony jako wariant drugi. Być może wyni-
kało to z faktu, że grupowanie przyniosło różnoliczne skupienia, a w podejściu opartym o metodę śred-
nich połączeń korekta macierzy odległości na poszczególnych etapach wiązania uwzględniała liczebno-
ści łączonych skupień (por. wzór [6.7]).

Rysunek 8.7. Powiaty części ziem polskich w okresie międzywojennym (od 1939 do 1945 r. tworzących tzw. Kraj Warty)

Źródło: opracowanie własne w oparciu o wyniki grupowania metodą średnich połączeń (odległość na podstawie współczyn-
nika korelacji rang 𝜏 Kendalla).

Uzyskane ostatecznie wyniki grupowania metodą średnich połączeń przedstawiono na mapie (rysu-
nek 8.7). Uwagę zwraca przede wszystkim większość powiatów południowo-wschodnich tworzących
jedno skupienie. Co więcej, porównując wyniki grupowania przedstawione w postaci dendrogramu (ry-
sunek 8.3) oraz mapy (rysunek 8.7), można zauważyć na kolejnym etapie wiązania nastąpiłoby łączenie
8.6. Ocena grupowania i opis uzyskanych wyników 195

tych skupień, w skład których wchodziły powiaty zlokalizowane na zachodzie i północy badanego ob-
szaru. Na tej podstawie można powiedzieć, że powiaty tworzące w okresie II wojny światowej tzw. Kraj
Warty, leżące na zachodnich jego krańcach, okazały się być bardziej zróżnicowane pod względem po-
tencjału rolniczego od powiatów, które mieściły się w południowo-wschodniej części badanego ob-
szaru.

Tabela 8.4. Mediany zmiennych oraz ich przedziały zmienności w wyodrębnionych grupach powiatów części ziem polskich
w okresie międzywojennym (od 1939 do 1945 r. tworzących tzw. Kraj Warty)

Zmienne Powierzchnia uprawy Pogłowie zwierząt


uwzględnione [% UR] [szt./100 ha UR]
w badaniu
żyto jęczmień ziemniaki bydło trzoda chlewna
Skupienia
𝑋5 𝑋5 𝑋5 𝑋5 𝑋5
powiatów
Brzeziny, Czarnków, Gniezno,
Gostynin, Kalisz, Kępno, Koło,
Konin, Łask, Łęczyca, Łódź, 35-40 <4 14-16 40-45 30-40
𝑠1
Międzychód, Ostrów, Piotr- [35; >40] [<4; 7] [12; >16] [25; 60] [<20; >70]
ków, Radomsko, Sieradz, Tu-
rek, Wieluń, Wolsztyn
Kutno 𝑠2 25-35 4-7 9-12 40-45 30-40
Inowrocław, Mogilno, Nie- 25-35 7-10 9-12 35-40 40-50
𝑠3
szawa, Włocławek, Żnin [15; 35] [7; >10] [9; 14] [35; 40] [30; 60]
Kościan, Poznań, Śrem, Środa, 25-35 7 14-16 35-40 40
𝑠4
Wągrowiec, Września [15; 35] [4; 10] [12; >16] [25; 45] [30; 60]
Chodzież, Jarocin, Nowy To-
25-35 4-7 12-14 35-40 50
myśl, Oborniki, Szamotuły, 𝑠5
[25;35] [4; 7] [12; >16] [25; 40] [40; 60]
Szubin
Gostyń, Krotoszyn, Leszno, 15-25 4-7 14 50-60 60
𝑠6
Rawicz [15; 25] [4; 10] [12; 16] [45; 60] [40; 70]
W nawiasach podano wartości przedziału zmienności zmiennych [min; max]. Źródło: zestawienie własne na podstawie wyni-
ków grupowania metodą średnich połączeń (odległość na podstawie współczynnika korelacji rang 𝜏 Kendalla).

Najliczniejsze skupienie (skupienie 𝑠1 ), łączące południowo-wschodnie powiaty, odznaczały się


najniższym udziałem w powierzchni upraw jęczmienia. Należy przypomnieć, że udział tego zboża
w strukturze zasiewów był ściśle skorelowany z powierzchnią uprawy pszenicy i buraków cukrowych
oraz jakością gleb. Warunki glebowe z pewnością zdeterminowały również fakt, że udział w po-
wierzchni zasiewów żyta i ziemniaków okazał się w tych powiatach najwyższy. Południowo-wschodnie
powiaty (𝑠1, 𝑠2) badanego obszaru odznaczały się nieco przekraczającym poziom przeciętny w całym
Kraju Warty pogłowiem bydła. Z kolei pogłowie trzody chlewnej w tych powiatach okazało się najniż-
sze. Taki stan rzeczy wynikał być może z faktu, że w powiatach należących wcześniej do zaboru rosyj-
skiego dominowały gospodarstwa karłowate, o powierzchni od 2 do 10 hektarów, niezdolne do produk-
cji rynkowej, które nie miały ani odpowiednich budynków, ani paszy koniecznych do tuczu świń (JA-
NICKI 1996, s. 98).
O odrębności powiatu ze stolicą w Kutnie (𝑠2) przesądziła, zdeterminowana wysoką jakością gleb
występujących na tym terenie, struktura zasiewów. Jednak najwyższy udział w powierzchni użytków
rolniczych jęczmienia odnotowano w skupieniu łączącym powiaty inowrocławski, mogileński, nie-
szawski, włocławski i żniński (𝑠3). Zwiększenie udziału roślin, wymagających wysokiej jakości gleb,
196 8. Weryfikacja hipotez historycznych na przykładzie regionalizacji produkcji rolniczej

odbywało się w tych powiatach kosztem powierzchni uprawy ziemniaków. W powiatach tych odnoto-
wano także najmniejszą obsadę bydła.
Z kolei skupienie łączące powiat poznański i przyległe do niego powiaty: kościański, śremski,
średzki oraz o powiaty wrzesiński i wągrowiecki (𝑠4 ), odznaczały się stosunkowo niewielką obsadą
zwierząt i największym udziałem w strukturze uprawowej ziemniaków, co można wiązać z produkcją
ukierunkowaną na zaspokojenie potrzeb żywieniowych stolicy regionu. Co więcej, w Luboniu od po-
czątku XX w. funkcjonowały Zakłady Przemysłu Ziemniaczanego, skupujące surowiec z okolicznych
powiatów (DZIEJE ZAKŁADU… 1986, s. 19-20).
O przeciętnej strukturze upraw można za to mówić w przypadku powiatów chodzieskiego, szamo-
tulskiego, obornickiego, nowotomyskiego i szubińskiego, tworzących skupienie (𝑠5). W przypadku pro-
dukcji zwierzęcej odznaczały się one bardzo niskim pogłowiem bydła. Za to pogłowie trzody chlewnej
można uznać w powiatach tworzących to skupienie za ponadprzeciętne. Ostatnie skupienie (𝑠6), w skład
którego wchodził powiat leszczyński, gostyński, rawicki i krotoszyński, przodowało w produkcji zwie-
rzęcej. W stosunku do innych skupień odnotowano tu najniższy udział żyta w strukturze zasiewów.
Rozwój produkcji zwierzęcej na tym terenie był niewątpliwie związany występowaniem licznych mle-
czarni. Z kolei intensywna produkcja zwierzęca ze względu na produkcję nawozów naturalnych wpły-
nęła niewątpliwie na odmienną strukturę produkcji roślinnej tego podregionu.
Wyniki grupowania w obszarze pogłowia zwierząt można traktować jako częściowo zbieżne
z wnioskami prezentowanymi przez JANICKIEGO (1996, s. 99-100). Dysponując dużo szerszym wachla-
rzem informacji ilościowych, dotyczących struktury gospodarstw, kultury rolnej czy wydajności pro-
dukcji roślinnej i zwierzęcej, stwierdził on, że w produkcji roślinnej zdecydowanie wyższe wyniki uzy-
skiwano w zachodniej części obszaru tworzącego w czasie wojny Kraj Warty. Niemcy tłumaczyli taki
stan rzeczy okresem zaborów, w czasie którego niemiecki sposób gospodarowania zakorzenił się na tym
terenie. Podkreślone zostało również, że obsada zwierząt, z wyjątkiem świń, była wyższa w części
wschodniej, w związku z tym można mówić o znacznym zróżnicowaniu poziomu i rodzaju hodowli
w skali całego Kraju Warty. Bazując zatem jedynie na przedwojennych sprawozdaniach niemieckich,
dotyczących struktury upraw oraz pogłowia zwierząt, można nie tylko wiązać uzyskane wyniki z po-
działem tego obszaru zgodnie z granicami Rzeszy do 1919 r. Przeprowadzone badania potwierdziły
bowiem odrębność i jednolitość powiatów południowo-wschodnich w badanym obszarze. Zastosowa-
nie metod taksonomicznych pozwala jednak na dalsze wnioski. Różnorodność potencjału rolniczego
mniejszych skupień w części zachodniej późniejszego Kraju Warty można wiązać ze specjalizacją rol-
niczą każdego z nich. Skupienie łączące powiaty sąsiadujące z Poznaniem odznaczało się relatywnie
wysokim udziałem ziemniaków w strukturze zasiewów, czyli produkcją nakierowaną na cele konsump-
cyjne. Natomiast powiaty tworzące skupienia leżące w większej odległości stolicy regionu specjalizo-
wały się w produkcji zwierzęcej: w zależności od ich położenia przeważała w nich produkcja trzody
chlewnej lub bydła. Natomiast o odrębności trzech powiatów: wolsztyńskiego, międzyrzeckiego
i czarnkowskiego, przesądził zapewne relatywnie wysoki stopień zalesienia na tych terenach.

W prezentowanym przykładzie zaprezentowano propozycję zastosowania metod taksonomicznych


w celu weryfikacji historycznych hipotez badawczych w przypadku, gdy badacz dysponuje danymi wy-
rażonymi w skali porządkowej. Grupowanie zmiennych przeprowadzono metodą taksonomii wrocław-
skiej. Mimo że jest ona uznawana za nieco archaiczną i pracochłonną, pozwala połączyć zmienne
w miarę jednorodne skupienia, spośród których wyodrębniane są z kolei zmienne-reprezentantki. Takie
podejście pozwala, po przeprowadzonym w ostatnim etapie grupowaniu, na rozszerzenie interpretacji
uzyskanych wyników na zmienne niebiorące bezpośredniego udziału w tym procesie.
8.6. Ocena grupowania i opis uzyskanych wyników 197

Jedną z decyzji, jaką podejmuje badacz, jest dobór metody taksonomicznej. W powyższym roz-
dziale grupowanie badanych powiatów przeprowadzono w oparciu o dwie metody. Każde z zaprezen-
towanych podejść doprowadziło do nieco odmiennych rezultatów. Opierając się na ocenie jakościowej
uzyskanych wyników, wykazano, że w przypadku powiatów części ziem polskich w okresie między-
wojennym lepiej stosować metodę średnich połączeń, uwzględniającą na etapie korekty macierzy odle-
głości liczebności łączonych skupień. Zaprezentowane podejście doboru metody grupowania można
oczywiście rozszerzyć i przeprowadzić w oparciu o większą liczbę algorytmów.
9
Periodyzacja w badaniach historycznych na przykładzie
struktury gałęziowej produkcji czystej
w przemyśle uspołecznionym w latach 1958-1989

Charakterystycznymi obiektami w zagadnieniach periodyzacji są jednostki czasu. Analizy wielowy-


miarowe pozwalają na porównywanie wielu obiektów w określonym okresie. Ważnym aspektem
w analizach dynamicznych jest zapewnienie porównywalności zmiennych, które wiąże się
z uwzględnieniem inflacji czy wyrażeniem badanych cech w jednostkach niemianowanych. Zwykle
przed przystąpieniem do periodyzacji konieczna jest zatem normalizacja zmiennych (por. rozdział
3.4). Jeżeli zmienne odznaczają się wysokim poziomem korelacji, należy proces periodyzacji poprze-
dzić także grupowaniem zmiennych. Ostatnie zagadnienie zostało opisane w rozdziale piątym.
Często w procesie periodyzacji uwzględniane są zmienne typu strukturalnego, co oznacza, że każ-
dy okres jest scharakteryzowany za pomocą struktury dotyczącej badanego zagadnienia. Może to być
np. struktura zatrudnienia, struktura narodowa, struktura wiekowa czy – tak jak w prezentowanym
przykładzie – struktura przemysłowa. Cechą charakterystyczną zmiennych strukturalnych jest to, że
przyjmują wartości z przedziału [0; 1] oraz sumują się do jedności. Tego typu zmienne wymagają
specyficznych miar niepodobieństwa, dzięki którym można zbudować macierz odległości. Opisano je
w rozdziale 4.1.3.
Periodyzacja w badaniach historycznych polega na wyodrębnieniu w danym okresie jednolitych
podokresów (LIAO 2005). Ważne jest także uwzględnienie ciągłości czasowej tych podokresów.
Z tego powodu spośród wielu algorytmów analizy skupień polecana jest metoda pojedynczego wiąza-
nia (por. rozdział 6.1.3). Jedną z jej cech charakterystycznych jest występowanie efektu łańcuszkowe-
go, który polega na większej skłonności do włączania kolejnych obiektów do istniejących już skupień
niż do wyodrębniania nowych skupień.

9.1. Różne spojrzenia na periodyzację gospodarki okresu powojennego


w Polsce

Rozwój gospodarki polskiej w okresie powojennym do 1989 r. podlegał wielu różnym cezurom po-
działu, tworzonym zarówno w trakcie tego okresu, jak i po jego zakończeniu. Pierwsze lata zgodnie
wiązano z procesem odbudowy. RUSIŃSKI (1982, s. 336) wskazuje, że za formalne ramy wzrostu go-
spodarczego we wspomnianym okresie można uznać kolejne plany wieloletnie: plan sześcioletni
1950-1955 oraz następujące po nim cztery plany pięcioletnie, zamykające okres do 1975 r. Śledzenie
wielkości zaplanowanych oraz sposobu i stopnia ich realizacji może być punktem wyjścia syntetycz-
nej oceny postępów gospodarczych w tamtym okresie.
200 9. Periodyzacja w badaniach historycznych na przykładzie struktury gałęziowej produkcji czystej

Podejście zaproponowane przez Rusińskiego nie jest to jednak jedynym sposobem na periodyzację
gospodarki polskiej okresu powojennego. W literaturze tematu brane są pod uwagę inne kryteria po-
działu, takie jak wzrost i struktura dochodu narodowego, wielkość i struktura inwestycji, wielkość
i struktura produkcji, wielkość i struktura zatrudnienia, kształtowanie się dochodów ludności, zmiany
w układzie własnościowym (sektorowym) gospodarki i w trybie zarządzania. Uwzględnia się także
kryteria społeczno-polityczne, tj. ogólniejsze zmiany w strategii rozwoju wynikające z potrzeb krajo-
wych i zarazem uwzględniające sytuację Polski w świecie oraz jej ścisłe więzi z innymi krajami socja-
listycznymi (zob. np.: LANDAU 1994, s. 18-26).
Z kolei KARPIŃSKI (1965; 1980, s. 84-104) proponuje następujący podział okresu powojennego
w obszarze rozwoju gospodarczego. Lata 1945-1948 to według niego faza odbudowy powojennej.
Następny okres, pomiędzy 1950 a 1970 r., nazywa pierwszą fazą industrializacji. Wyróżnia w niej
dwa cykle – 1950-1958 oraz 1959-1970 – w których powtarzał się ten sam schemat: najpierw nastę-
powało przyspieszenie gospodarcze, a później wyrównywanie frontu. W czasie pierwszej fazy indu-
strializacji następowało tworzenie rozwiniętej struktury gospodarczej. Po 1971 r. według Karpińskie-
go nastąpiła druga faza uprzemysłowienia. Znowu w jej ramach uwzględniono etap rozwoju 1970-
-1976, nazywany przyspieszeniem lat siedemdziesiątych, oraz lata 1977-1985, związane z manewrem
gospodarczym.
Trudności w ustaleniu wspólnej cezury dla periodyzacji gospodarki polskiej okresu powojennego
wynikają z całą pewnością z faktu, że niemożliwe jest oddzielenie zagadnień gospodarczych od za-
gadnień społecznych czy politycznych. Co więcej, ograniczenie zmian gospodarczych jedynie do
zmian w strukturze przemysłu byłoby także nieprawidłowe. Trudno jednoznacznie ocenić, na ile sytu-
acja gospodarcza wywoływała zmiany społeczne i przewroty polityczne w tym okresie i czy zmienia-
jące się społeczeństwo wymuszało realne zmiany w prowadzonej polityce gospodarczej,
a w szczególności zmiany w strukturze przemysłu. Niemniej jednak w okresie powojennym pierw-
szym efektem wprowadzanych zmian w polityce gospodarczej były właśnie zmiany struktury przemy-
słu. Z tego powodu wydaje się, że periodyzacja okresu 1956-1989 w gospodarce polskiej, przeprowa-
dzona w oparciu o zmiany strukturalne przemysłu, a w szczególności w obszarze wartości produkcji
czystej tego sektora, może być dobrą osią do szerszych rozważań na temat gospodarki PRL. Podejście
to uzasadniają dwie kwestie. Pierwsza to znaczenie przemysłu w gospodarce socjalistycznej, druga to
realność zmian strukturalnych, jakie zachodziły w tym okresie w przemyśle, i ich bezpośredni, wydaje
się że bezsprzeczny, wpływ na zmiany społeczno-polityczne tego okresu.

9.2. Dane ilościowe w porównaniach dynamicznych

Badania mające na celu periodyzację okresu powojennego w gospodarce przeprowadzone zostały


w oparciu o zmienne odzwierciedlające zmiany struktury przemysłu uspołecznionego w latach 1958-
1989. W tym celu wykorzystano dostępne dane statystyczne publikowane przez Główny Urząd Staty-
styczny (GUS), dotyczące produkcji czystej wytwarzanej w badanym okresie w poszczególnych gałę-
ziach przemysłu uspołecznionego.
ZAJDA (1960) zauważa, że produkcja globalna zawiera w sobie nie tylko wartość nowo wytwo-
rzoną, ale również wartość przeniesioną – wytworzoną w przeszłości. Co więcej, zawiera element
powiązań pomiędzy zakładami wytwórczości – składnik produkcji obcej. Na skutek tego wskaźnik
produkcji globalnej nie jest prawidłowym odpowiednikiem dochodu narodowego. Rachunek ekono-
9.2. Dane ilościowe w porównaniach dynamicznych 201

miczny występuje tylko na szczeblu gospodarki narodowej. Dlatego od połowy lat 50. XX w. na
szczeblu centralnym dla danej gałęzi lub grupy przedsiębiorstw przemysłowych stosuje się dwa
wskaźniki: wartość produkcji towarowej i wartość produkcji czystej. Produkcja czysta to produkcja
globalna pomniejszona o koszty materiałowe. Na produkcję czystą składają się koszty niematerialne,
w tym wynagrodzenia, oraz akumulacja. Akumulacja obejmuje wartość nakładów inwestycyjnych na
środki trwałe oraz wartość przyrostu materialnych środków obrotowych. Co więcej, powojenne rocz-
niki statystyczne zawierały dane w tym zakresie dotyczące przemysłu uspołecznionego w skład które-
go zaliczano państwowe, spółdzielcze i należące do organizacji społecznych przedsiębiorstwa prze-
mysłowe, gospodarstwa pomocnicze jednostek budżetowych oraz do 1985 r. zakłady przemysłowe
spółdzielczych przedsiębiorstw handlowych (ROCZNIK STATYSTYCZNY 1989…, s. 221-222).
W przykładzie dotyczącym periodyzacji struktury produkcji przemysłowej jako miarę zmian
w strukturze przemysłu wybrano zatem wartość produkcji czystej. Zestawienie danych statystycznych
dla poszczególnych lat zawierają tabele 4 i 5, zamieszczone w Aneksie A. Podobny zestaw danych
został uwzględniony w pracy CHOMĄTOWSKIEGO i SOKOŁOWSKIEGO (1978). W prezentowanym
przykładzie zbiorowość tworzą specyficzne obiekty, jakimi są jednostki czasu. Analizie poddano
okres 1958-1989, czyli 32 kolejne lata, więc zdefiniowana zbiorowość liczyła 𝑛 = 32 jednostek ba-
dawczych. Cechą badaną była struktura przemysłu uspołecznionego. Oczywiście nie sposób sformu-
łowanej w ten sposób cechy wyrazić za pomocą jednej zmiennej. W badaniu uwzględniono ostatecz-
nie 𝑚 = 20 zmiennych, przy czym każda z nich stanowiła wartość produkcji czystej wytworzonej
przez poszczególne gałęzie przemysłu w gospodarce uspołecznionej w badanym okresie. I tak: (𝑋1 )
dotyczyła przemysłu energetycznego, (𝑋2 ) przemysłu paliwowego i węglowego, (𝑋3 ) hutnictwa żelaza,
(𝑋4 ) przemysłu metali nieżelaznych, (𝑋5 ) przemysłu metalowego, (𝑋6 ) przemysłu elektrotechnicznego,
(𝑋7 ) przemysłu wytwarzającego środki transportu, (𝑋8 ) przemysłu maszynowego, (𝑋9 ) przemysłu che-
micznego, (𝑋10 ) przemysłu materiałów budowlanych, (𝑋11 ) przemysłu szklarskiego, (𝑋12 ) przemysłu
ceramiki szlachetnej, (𝑋13 ) przemysłu drzewnego, (𝑋14 ) przemysłu papierniczego, (𝑋15 ) przemysłu
poligraficznego, (𝑋16 ) przemysłu włókienniczego, (𝑋17 ) przemysłu odzieżowego, (𝑋18 ) przemysłu skó-
rzanego, (𝑋19 ) przemysłu spożywczego, (𝑋20 ) innych gałęzi przemysłu.
Przy takich założeniach wiersze w macierzy obserwacji dla tego przykładu dotyczyły poszczegól-
nych lat objętych badaniem, natomiast kolumny prezentowały wartości produkcji czystej wyrażonej
w milionach złotych. Macierz obserwacji osiągnęła zatem wymiar 32 × 20. Jej fragment przestawiono
poniżej.
1,93 5,98 5,54 1,31 6,59 4,47 8,82 8,30 7,32 ⋯
3,44 13,43 4,77 0,97 7,59 5,38 9,89 9,34 6,90 ⋯
3,64 18,86 7,22 1,96 8,59 6,52 11,49 10,42 8,37 ⋯
3,93 20,82 9,91 2,86 9,71 7,85 12,81 11,92 11,02 ⋯
5,23 20,93 9,52 3,05 11,22 9,72 15,00 12,98 13,76 ⋯
𝑿 = 7,21 22,06 9,68 2,98 12,50 10,30 15,20 13,83 14,71 ⋯ [9.1]
7,95 24,73 11,02 3,22 13,95 11,52 16,89 15,87 17,02 ⋯
9,00 27,02 12,25 3,54 15,41 13,12 19,63 17,02 18,15 ⋯
9,48 28,47 12,70 3,68 16,03 14,37 20,31 18,28 20,53 ⋯
10,58 29,15 13,10 4,32 15,75 13,34 20,59 19,49 23,19 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]

Wiersze zaprezentowanego fragmentu macierzy obserwacji 𝑿 [9.1] dotyczą pierwszych lat


w badanego okresu (1958-1967). Natomiast kolumny odnoszą się do pierwszych dziewięciu zmien-
nych uwzględnionych w badaniu. Dla przykładu wartość 𝑥1958;1 = 1,93 oznacza, że w 1958 r. prze-
202 9. Periodyzacja w badaniach historycznych na przykładzie struktury gałęziowej produkcji czystej

mysł energetyczny wytworzył produkcję czystą o wartości 1,93 mln zł. Z kolei wartość 𝑥1961;2 =
20,82 dotyczy wartości produkcji czystej wytworzonej w ramach działalności przemysłu paliwowego
i węglowego w 1961 r.
Jak wspomniano w rozdziale 3.3.5, zdefiniowanie skali, w której zostały wyrażone zmienne, nie
zawsze jest jednoznaczne. W proponowanym przykładzie dane dotyczące produkcji czystej mają być
podstawą do porównań dynamicznych struktury przemysłu. Gdyby wielkość produkcji była wyrażona
w jednostkach fizycznych, sytuacja byłaby oczywista – zmienną jednoznacznie można byłoby przypi-
sać do skali ilorazowej.
O ile jednak w jednostkach fizycznych niemożliwe jest wyprodukowanie ujemnej ilości towarów
(ujemne wartości są nieuzasadnione w skali ilorazowej), to w kategoriach ekonomicznych jest to moż-
liwe, choć na poziomie gospodarki narodowej nieuzasadnione. W prezentowanym przykładzie pro-
dukcja czysta w pięciu przypadkach przyjmowała wartości ujemne. Przypomnijmy, że produkcja czy-
sta to produkcja globalna pomniejszona o koszty materiałowe. Jeżeli zatem koszty w danej branży
okazały się zbyt wysokie, to branża odnotowywała stratę, a produkcja czysta przyjmowała wartości
ujemne. Według źródeł GUS (ROCZNIK STATYSTYCZNY 1989, s. 221-222) straty pojawiły się ze
względu na stosowany w tamtym okresie system cen i dotacji w zakresie pasz treściwych. Z tego po-
wodu, w niektórych latach produkcja czysta przemysłu paszowego i utylizacyjnego, wliczonego do
kategorii pozostałe gałęzie przemysłu, przyjmowała wartości ujemne, tzn. że koszty przekraczały war-
tość produkcji sprzedanej. Ta sama sytuacja dotyczyła także przemysłu spożywczego w 1981 r. Ogól-
nie tego typu przypadki stanowiły niecały 1% wszystkich obserwacji zarówno pod względem ilościo-
wym, jak i wartościowym.
W tej sytuacji badacz może pominąć zmienne, w których wystąpiły przypadki ujemnych wartości,
a pozostałe zmienne potraktować jako wyrażone w skali ilorazowej. Innym rozwiązaniem jest skumu-
lowanie kilku kategorii przemysłu i w ten sposób „ukrycie” niewygodnych rekordów. Można także
przyjąć, że jeżeli produkcja czysta danej branży przyjmowała w określonym roku wartości ujemne, to
udział takiej branży w krajowej produkcji przemysłowej jest równy zero. W dalszych rozważaniach,
ze względu na fakt, że celem badań jest porównywanie struktury produkcji, a nie jej wielkości, zosta-
ło zastosowane właśnie to ostatnie podejście.

9.3. Normalizacja zmiennych w zagadnieniach dynamicznych

Już pobieżna analiza tabel 4 i 5 zestawionych w Aneksie A wskazuje, że wartości produkcji osiągnięte
w poszczególnych branżach rosły nie tylko ze względu na wzrost skali produkcji, ale i ze względu na
inflację. Z tego powodu przed przystąpieniem do periodyzacji badanego okresu konieczne jest prze-
prowadzenie normalizacji zmiennych.
Wybór odpowiedniej procedury normalizacyjnej podyktowany jest w tym przykładzie przede
wszystkim celem podjętego badania. Głównym zamierzeniem jest porównanie poszczególnych okre-
sów ze względu na zmiany w strukturze udziałowej poszczególnych branż przemysłowych w krajowej
produkcji czystej. Wydaje się, że w tym przypadku najodpowiedniejszą jej formą będą przekształcenia
ilorazowe (por. wzór [3.11]), których podstawą była suma wartości produkcji czystej wytworzonej
w całym kraju (𝑥0𝑘 = ∑𝑚 𝑖=1 𝑥𝑖𝑘 ) w danym roku. Zatem wartość produkcji każdej z uwzględnionej
w badaniu branży produkcji przemysłowej podzielono przez wartość produkcji ogółem wytworzonej
w danym roku. Dzięki temu podejściu zmienne po przekształceniu będą miały swoją interpretację,
9.3. Normalizacja zmiennych w zagadnieniach dynamicznych 203

a mianowicie każda obserwacja będzie stanowiła procentowy udział danej branży w produkcji krajo-
wej (por. NOWAK 1981b). Takie samo założenie przyjęli GAZIŃSKA i GAZIŃSKI (2010) w swoich ba-
daniach dotyczących struktury rzemiosła w XVIII-wiecznych miastach Pomorza Pruskiego. Fragment
znormalizowanej w ten sposób macierzy danych przestawiony został poniżej:
0,013 0,041 0,038 0,009 0,046 0,031 ⋯
0,022 0,085 0,030 0,006 0,048 0,034 ⋯
0,021 0,111 0,042 0,012 0,050 0,038 ⋯
0,016 0,110 0,052 0,015 0,051 0,042 ⋯
0,019 0,102 0,046 0,015 0,055 0,047 ⋯
𝑿′ = 0,024 0,102 0,045 0,014 0,058 0,048 ⋯. [9.2]
0,030 0,103 0,046 0,013 0,058 0,048 ⋯
0,030 0,103 0,047 0,013 0,059 0,050 ⋯
0,032 0,102 0,045 0,013 0,057 0,051 ⋯
0,033 0,102 0,046 0,015 0,055 0,047 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]

Dla przypomnienia wiersze w znormalizowanej macierzy obserwacji 𝑿′ [9.2] dotyczą poszczegól-


nych lat objętych badaniem, natomiast kolumny prezentują udziały poszczególnych gałęzi przemysłu
uspołecznionego w produkcji czystej całego sektora. Macierz obserwacji w takim ujęciu osiągnęła
zatem wymiar 32 × 20. Dla przykładu wartość 𝑥1958;1 = 0,013 oznacza, że w 1958 r. przemysł ener-
getyczny wytworzył produkcję czystą stanowiącą 1,3% łącznej produkcji czystej wytworzonej
w sektorze uspołecznionym. Z kolei wartość 𝑥1961;2 = 0,110 dotyczy udziału produkcji wytworzonej
w ramach działalności przemysłu paliwowego i węglowego w 1961 r. w produkcji czystej sektora
uspołecznionego. Należy podkreślić, że wszystkie elementy składowe poszczególnych wierszy macie-
rzy obserwacji przyjmują wartości z przedziału [0; 1] i sumują do jedności.

9.4. Wstępna statystyczna selekcja zmiennych


i dobór zmiennych diagnostycznych

W badaniach dotyczących struktury produkcji czystej w przemyśle uspołecznionym uwzględniono


dwadzieścia zmiennych, które określają udziały poszczególnych gałęzi w produkcji czystej wytwo-
rzonej w całym kraju. Listę wspomnianych zmiennych wraz ze średnimi i odchyleniami standardo-
wymi oraz wyznaczonymi dla każdej z nich współczynnikami zmienności (por. wzór [5.1]), zawiera
tabela 9.1. Wszystkie obliczenia zostały przeprowadzone w oparciu o macierz zmiennych znormali-
zowanych 𝑿′ [9.2].
Przedstawione zestawienie pozwala stwierdzić, że największą stabilnością w zakresie udziału
w produkcji czystej przemysłu uspołecznionego w badanym okresie wykazywał przemysł drzewny
(𝑋13 ) i przemysł metalowy (𝑋5 ). Współczynniki zmienności dla tych zmiennych nie przekroczyły war-
tości krytycznej 𝜀 = 0,1, zatem zmienne te powinny być pominięte w dalszych analizach. Z kolei do
grupy zmiennych najbardziej różnicujących struktury w badanym okresie należały udziały
w produkcji czystej przemysłu metali nieżelaznych (𝑋4 ), spożywczego (𝑋19 ) oraz pozostałych gałęzi
przemysłu (𝑋20 ).
204 9. Periodyzacja w badaniach historycznych na przykładzie struktury gałęziowej produkcji czystej

Tabela 9.1. Podstawowe statystyki zmiennych uwzględnionych w przykładzie dotyczącym


struktury produkcji czystej w polskiej gospodarce uspołecznionej w latach 1958-1989

średnia odchylenie współczynnik


Zmienne
arytmetyczna standardowe zmienności
energetyczny 𝑋1 0,024 0,005 0,221
paliw i węglowy 𝑋2 0,113 0,023 0,205
hutnictwo żelaza 𝑋3 0,042 0,009 0,205
metali nieżelaznych 𝑋4 0,020 0,008 0,385
metalowy 𝑋5 0,053 0,005 0,090
elektrotechniczny 𝑋6 0,052 0,009 0,169
środków transportu 𝑋7 0,083 0,012 0,151
maszynowy 𝑋8 0,096 0,030 0,315
chemiczny 𝑋9 0,082 0,018 0,214
materiałów budowlanych 𝑋10 0,027 0,006 0,234
szklarski 𝑋11 0,010 0,001 0,134
ceramiki szlachetnej 𝑋12 0,004 0,001 0,250
drzewny 𝑋13 0,034 0,003 0,078
papierniczy 𝑋14 0,012 0,003 0,217
poligraficzny 𝑋15 0,007 0,001 0,111
włókienniczy 𝑋16 0,111 0,020 0,176
odzieżowy 𝑋17 0,024 0,003 0,125
skórzany 𝑋18 0,027 0,006 0,222
spożywczy 𝑋19 0,167 0,055 0,329
pozostałe gałęzie przemysłu 𝑋20 0,012 0,008 0,680
Źródło: obliczenia własne na podstawie znormalizowanych danych przedstawionych
w tabelach 4 i 5 z aneksu A.

Procedurę doboru zmiennych diagnostycznych wsparto metodą hiperkul, opisaną w rozdziale


5.3.1. Należy ona do grupy metod, w których dobór zmiennych odbywa się w sposób bezpośredni.
Punktem wyjścia w tym podejściu jest macierz korelacji Pearsona (por. wzór 4.40]. W prezentowanym
przykładzie została ona zbudowana w oparciu o osiemnaście zmiennych. Nie uwzględniono w niej,
usuniętych w ramach wstępnej selekcji, zmiennych dotyczących udziału w łącznej produkcji przemy-
słowej przemysłu drzewnego (𝑋13 ) i przemysłu metalowego (𝑋5 ). Fragment macierzy korelacji 𝑹𝑷
[9.3] przedstawiono poniżej. Poszczególne wiersze i kolumny dotyczą w niej kolejno zmiennych: 𝑋1 ,
𝑋2 , 𝑋3 , 𝑋4 , 𝑋6 , 𝑋7 , 𝑋8 , 𝑋9 , 𝑋10 , 𝑋11 .

1,00 0,07 0,37 0,04 −0,01 −0,20 −0,33 0,10 0,24 0,27 ⋯
0,07 1,00 −0,01 −0,29 0,28 0,40 0,32 0,36 −0,32 −0,38 ⋯
0,37 −0,01 1,00 −0,30 −0,22 −0,38 −0,52 −0,08 0,37 −0,62 ⋯
0,04 −0,29 −0,30 1,00 0,42 0,27 0,26 0,22 −0,41 0,58 ⋯
−0,01 0,28 −0,22 0,42 1,00 0,76 0,85 0,58 −0,62 0,27 ⋯
𝑹𝑷 = −0,20 0,40 −0,38 0,27 0,76 1,00 0,84 0,77 −0,77 0,11 ⋯ [9.3]
−0,33 0,32 −0,52 0,26 0,85 0,84 1,00 0,60 −0,72 0,28 ⋯
0,10 0,36 −0,08 0,22 0,58 0,77 0,60 1,00 −0,81 −0,26 ⋯
0,24 −0,32 0,37 −0,41 −0,62 −0,77 −0,72 −0,81 1,00 −0,07 ⋯
−0,27 −0,38 −0,62 0,58 0,27 0,11 0,28 −0,26 −0,07 1,00 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]
Tabela 9.2. Macierz odległości dla zmiennych opisujących strukturę produkcji czystej w gospodarce uspołecznionej w PRL w latach 1958-1989 oraz obliczenia pomocnicze
niezbędne w metodzie hiperkul (pętla pierwsza)

𝑋1 𝑋2 𝑋3 𝑋4 𝑋6 𝑋7 𝑋8 𝑋9 𝑋10 𝑋11 𝑋12 𝑋14 𝑋15 𝑋16 𝑋17 𝑋18 𝑋19 𝑋20
𝑋1 0,00 1,36 1,12 1,38 1,42 1,55 1,63 1,34 1,23 1,59 1,65 1,30 1,50 1,55 1,34 1,58 1,30 1,54
𝑋2 1,36 0,00 1,42 1,60 1,20 1,09 1,16 1,13 1,62 1,66 1,38 1,83 1,59 1,75 1,38 1,88 1,68 1,71
𝑋3 1,12 1,42 0,00 1,61 1,56 1,66 1,74 1,47 1,13 1,80 1,66 1,07 1,46 1,42 1,45 1,47 1,19 1,52
𝑋4 1,38 1,60 1,61 0,00 1,08 1,21 1,22 1,25 1,68 0,92 1,31 1,41 1,27 1,38 1,41 1,41 1,64 1,20
𝑋6 1,42 1,20 1,56 1,08 0,00 0,70 0,55 0,92 1,80 1,21 0,86 1,80 1,29 1,83 0,91 1,72 1,93 1,49
𝑋7 1,55 1,09 1,66 1,21 0,70 0,00 0,56 0,68 1,88 1,34 1,17 1,91 1,58 1,67 1,17 1,81 1,94 1,71
Macierz odległości 𝑫

𝑋8 1,63 1,16 1,74 1,22 0,55 0,56 0,00 0,89 1,85 1,20 0,88 1,87 1,37 1,71 1,02 1,71 1,95 1,58
𝑋9 1,34 1,13 1,47 1,25 0,92 0,68 0,89 0,00 1,90 1,59 1,50 1,78 1,67 1,50 1,10 1,85 1,90 1,85
𝑋10 1,23 1,62 1,13 1,68 1,80 1,88 1,85 1,90 0,00 1,46 1,51 0,83 1,20 1,35 1,59 0,95 0,63 1,01
𝑋11 1,59 1,66 1,80 0,92 1,21 1,34 1,20 1,59 1,46 0,00 0,88 1,42 1,18 1,46 1,41 1,08 1,48 0,80
𝑋12 1,65 1,38 1,66 1,31 0,86 1,17 0,88 1,50 1,51 0,88 0,00 1,66 1,07 1,79 1,09 1,36 1,66 1,06
𝑋14 1,30 1,83 1,07 1,41 1,80 1,91 1,87 1,78 0,83 1,42 1,66 0,00 1,17 0,95 1,61 0,76 0,78 1,03
𝑋15 1,50 1,59 1,46 1,27 1,29 1,58 1,37 1,67 1,20 1,18 1,07 1,17 0,00 1,45 1,25 1,03 1,41 1,00
𝑋16 1,55 1,75 1,42 1,38 1,83 1,67 1,71 1,50 1,35 1,46 1,79 0,95 1,45 0,00 1,65 0,99 1,12 1,43
𝑋17 1,34 1,38 1,45 1,41 0,91 1,17 1,02 1,10 1,59 1,41 1,09 1,61 1,25 1,65 0,00 1,49 1,76 1,43
𝑋18 1,58 1,88 1,47 1,41 1,72 1,81 1,71 1,85 0,95 1,08 1,36 0,76 1,03 0,99 1,49 0,00 0,90 0,77
𝑋19 1,30 1,68 1,19 1,64 1,93 1,94 1,95 1,90 0,63 1,48 1,66 0,78 1,41 1,12 1,76 0,90 0,00 1,11
𝑋20 1,54 1,71 1,52 1,20 1,49 1,71 1,58 1,85 1,01 0,80 1,06 1,03 1,00 1,43 1,43 0,77 1,11 0,00
𝑑min 1,12 1,09 1,07 0,92 0,55 0,56 0,55 0,68 0,63 0,80 0,86 0,76 1,00 0,95 0,91 0,76 0,63 0,77
Środek kul 𝑋1 𝑋2 𝑋3 𝑋4 𝑋6 𝑋7 𝑋8 𝑋9 𝑋10 𝑋11 𝑋12 𝑋14 𝑋15 𝑋16 𝑋17 𝑋18 𝑋19 𝑋20
Liczba
zmiennych 1 1 2 2 6 4 5 4 4 4 6 6 3 3 4 7 5 7
satelitarnych
Źródło: obliczenia własne.
206 9. Periodyzacja w badaniach historycznych na przykładzie struktury gałęziowej produkcji czystej

Na podstawie macierzy korelacji Pearsona 𝑹𝑷 [9.3] wyznaczono macierz odległości 𝑫𝑿 . W tym


celu wykorzystano przekształcenie zapisane jako wzór [4.37]. Ze względu na dalsze etapy prezento-
wanej metody kul, macierz odległości przedstawiono w pierwszych wierszach tabeli 9.2. Zawarto
w niej także obliczenia pomocnicze, niezbędne do realizacji pierwszej pętli w metodzie hiperkul.
Wyznaczenie promienia hiperkul wiąże się z zastosowaniem wzoru [5.10]. Możliwe jest także
wykorzystanie innej reguły stopu zaprezentowanej we wcześniejszych metodach grupowania zmien-
nych. Najbliższe połączenia z każdej ze zmiennych zapisano w wierszu 𝑑min w tabeli 9.2.

Promień hiperkuli [5.10]): 𝑑∗ = max min{𝑑𝑖𝑗 } = max{1,12; 1,09; … ; 0,77} = 1,12.


𝑗 𝑖 𝑗

W następnym etapie dla każdej zmiennej wykreślono hiperkulę o promieniu równym 𝑑∗ = 1,12.
Liczbę zmiennych satelitarnych, które zmieściły się w obrębie każdej z hiperkuli, zapisano w ostatnim
wierszu tabeli 9.2. Okazało się, że najwięcej takich zmiennych posiadały hiperkule o środku 𝑋18 oraz
𝑋20 . Ich skład zapisano poniżej, przy czym zmienną centralną zapisano na pierwszym miejscu:
{𝑿𝟏𝟖 , 𝑋10 , 𝑋11 , 𝑋14 , 𝑋15 , 𝑋16 , 𝑋19 , 𝑋20 },
{𝑿𝟐𝟎 , 𝑋10 , 𝑋11 , 𝑋12 , 𝑋14 , 𝑋15 , 𝑋18 , 𝑋19}.
Aby wybrać pierwszą grupę zmiennych, należy wskazać, która ze zmiennych stanowiących środek
hiperkuli znajduje się bliżej początku układu współrzędnych. Jednym ze sposobów odpowiedzi na to
pytanie jest wyznaczenie średniej wartości danej zmiennej. W prezentowanym przykładzie podstawą
obliczeń będą dane, na podstawie których wyznaczono macierz korelacji, przedstawione jako macierz
zmiennych znormalizowanych 𝑿′ [9.2]. Należy przypomnieć, ze stosowne obliczenia, przeprowadzo-
ne dla tego przykładu zawarte są także w tabeli 9.1.
Z porównania wartości średnich arytmetycznych:
𝑋̅18 = 0,027
𝑋̅20 = 0,012
wynika, że jako pierwszą grupę zmiennych należy wyodrębnić hiperkulę, której środek stanowi
zmienna centralna 𝑋20 .
W wyniku tej decyzji zmienna pozostałe gałęzie przemysłu (𝑋20 ) będzie reprezentowała
w dalszych obliczeniach grupę zmiennych dotyczących udziału w produkcji czystej przemysłu uspo-
łecznionego, przemysłu materiałów budowlanych (𝑋10 ), szklarskiego (𝑋11 ), ceramiki szlachetnej
(𝑋12 ), papierniczego (𝑋14 ) i poligraficznego (𝑋15 ) oraz skórzanego (𝑋18 ) i spożywczego (𝑋19 ). Wydaje
się, że grupę tę można wiązać z kategorią gałęzi przemysłowych skierowanych na wytwarzanie
przedmiotów spożycia (por. KALIŃSKI 2012, s. 51). Pętlę pierwszą kończy modyfikacja macierzy
odległości. Zostały z niej usunięte wiersze i kolumny odpowiadające zmiennym:
𝑋10 , 𝑋11 , 𝑋12 , 𝑋14 , 𝑋15 , 𝑋18 , 𝑋19 , 𝑋20 .
Zmodyfikowaną macierz odległości 𝑫′𝑿 wraz z obliczeniami pomocniczymi dla drugiej pętli zawarto
w tabeli 9.3. Najwięcej zmiennych satelitarnych znalazło się tym razem w hiperkuli o środku 𝑋6 :
{𝑿𝟔 , 𝑋4 , 𝑋7 , 𝑋8 , 𝑋9 , 𝑋17 }.

Zatem zmienna oznaczająca udział przemysłu elektrotechnicznego (𝑋6 ) w produkcji czystej prze-
mysłu uspołecznionego, jako druga zmienna centralna, będzie w dalszych obliczeniach reprezentować
grupę zmiennych, którą oprócz niej tworzyły zmienne przemysł metali nieżelaznych (𝑋4 ), przemył
środków transportu (𝑋7 ), przemysł maszynowy (𝑋8 ) oraz przemysł chemiczny (𝑋9 ) i przemysł odzieżo-
9.4. Wstępna statystyczna selekcja zmiennych i dobór zmiennych diagnostycznych 207

Tabela 9.3. Fragment macierzy odległości dla zmiennych opisujących strukturę produkcji czystej w gospodarce uspołecz-
nionej w PRL w latach 1958-1989 oraz obliczenia pomocnicze niezbędne w metodzie hiperkul (pętla druga)

0,00 1,36 1,12 1,38 1,42 1,55 1,63 1,34 1,55 1,34
1,36 0,00 1,42 1,60 1,20 1,09 1,16 1,13 1,75 1,38
1,12 1,42 0,00 1,61 1,56 1,66 1,74 1,47 1,42 1,45
Macierz odległości

1,38 1,60 1,61 0,00 1,08 1,21 1,22 1,25 1,38 1,41
1,42 1,20 1,56 1,08 0,00 0,70 0,55 0,92 1,83 0,91
1,55 1,09 1,66 1,21 0,70 0,00 0,56 0,68 1,67 1,17
1,63 1,16 1,74 1,22 0,55 0,56 0,00 0,89 1,71 1,02
1,34 1,13 1,47 1,25 0,92 0,68 0,89 0,00 1,50 1,10
1,55 1,75 1,42 1,38 1,83 1,67 1,71 1,50 0,00 1,65
1,34 1,38 1,45 1,41 0,91 1,17 1,02 1,10 1,65 0,00
Środek kul
Liczba zmiennych
1 1 1 1 5 4 4 4 0 3
satelitarnych
Źródło: obliczenia własne.

wy ( ). Z wyjątkiem przemysłu odzieżowego można utożsamiać tę grupę z gałęziami przemysłu


uspołecznionego nastawionymi na produkcję środków wytwarzania oraz artykułów konsumpcyj-
nych trwałego użytku (por. Kaliński 2012, s. 52). Należy w tym miejscu podkreślić zbieżność uzyska-
nych wyników dokonanego do tej pory podziału na grupy gałęzi przemysłu z jednym z podziałów pro-
dukcji globalnej stosowanym w rocznikach statystycznych tego okresu. Wymienia się w nich dwie kate-
gorie globalnej produkcji przemysłowej: produkcję środków wytwarzania (grupa A) oraz produkcję
przedmiotów spożycia (grupa B). Przy czym przeprowadzony w ten sposób przez Główny Urząd Staty-
styczny podział produkcji globalnej opierał się na podstawie przypisania danych o wartości poszczegól-
nych wyrobów do jednej z wymienionych grup według przeważającego przeznaczenia wytwarzanego
wyrobu (por. ROCZNIK STATYSTYCZNY 1970…, s. 116). Biorąc pod uwagę przesłanki merytoryczne,
przemysł odzieżowy powinien znaleźć się w grupie gałęzi wytwarzających przedmioty spożycia. Jednak
ze względu na wynik grupowania dwudziestu zmiennych podział ten pozostawiono bez korekty.
Usuwając odpowiednie wiersze i kolumny w macierzy odległości , odpowiadające wymienio-
nym zmiennym wchodzącym w skład hiperkuli o środku , uzyskano macierz odległości , którą
z kolei prezentuje tabela 9.4.

Tabela 9.4. Fragment macierzy odległości dla zmiennych opisujących strukturę produkcji czystej w gospodarce
uspołecznionej w latach 1958-1989 oraz obliczenia pomocnicze niezbędne w metodzie hiperkul (pętla trzecia)

0,00 1,36 1,12 1,55


Macierz odległości 1,36 0,00 1,42 1,75
1,12 1,42 0,00 1,42
1,55 1,75 1,42 0,00
Środek kul
Liczba zmiennych satelitarnych 1 0 1 0

Źródło: obliczenia własne.


208 9. Periodyzacja w badaniach historycznych na przykładzie struktury gałęziowej produkcji czystej

W ramach trzeciej pętli, dla której podstawowe obliczenia zestawiono w tabeli 9.4, należało pod-
jąć decyzję co do wyboru spośród następujących hiperkul:
{𝑿𝟏 , 𝑋3 }, 𝑋̅1 = 0,024,
{𝑿𝟑 , 𝑋1 }, 𝑋̅3 = 0,042.
Ostatecznie wybrano jako trzecią zmienną centralną 𝑋1 , reprezentującą udział przemysłu energe-
tycznego w łącznej produkcji czystej przemysłu uspołecznionego. Zmienna ta stworzyła jedną grupę
z hutnictwem żelaza (𝑋3 ).

Tabela 9.5. Fragment macierzy odległości dla zmiennych opisujących strukturę produkcji czystej w gospodarce
uspołecznionej w latach 1958-1989 oraz obliczenia pomocnicze niezbędne w metodzie hiperkul (pętla czwarta)

𝑋2 𝑋16
Macierz odległości 𝑫′′′
𝑿 𝑋2 0,00 1,75
𝑋16 1,75 0,00
Środek kul 𝑋2 𝑋16
Liczba zmiennych satelitarnych 0 0

Źródło: obliczenia własne.

Natomiast w obszarze hiperkul o środkach w 𝑋2 oraz 𝑋16 w promieniu 𝑑∗ = 1,12 nie znalazły się
żadne inne zmienne (por. wartości w tabeli 9.5). Z tego powodu stworzyły one grupy jednoelemento-
we. Zatem zmienne dotyczące udziału przemysłu paliwowego i węglowego (X 2 ) oraz przemysłu włó-
kienniczego (X16 ) w produkcji czystej przemysłu uspołecznionego, potraktowano jako kolejne zmien-
ne diagnostyczne.
Na podstawie przeprowadzonej procedury doboru zmiennych diagnostycznych stwierdzono, że
w dalszych obliczeniach wezmą udział następujące zmienne centralne: 𝑋20 , 𝑋6 , 𝑋1 , 𝑋2 , 𝑋16 , które
reprezentują odpowiednio gałęzie przemysłu wytwarzające przedmioty spożycia, gałęzie przemysłu
produkujące środki wytwarzania i dobra konsumpcyjne trwałego użytku, przemysł energetyczny
i hutniczy, przemysł paliwowy i węglowy oraz przemysł włókienniczy. Alternatywą do wykorzystania
zmiennych centralnych, byłoby stworzenie zmiennych agregatowych. W przypadku danych struktu-
ralnych można zastosować sumę wartości zmiennych tworzących wyodrębnione hiperkule. Takie
rozwiązanie zastosowali między innymi MALINA i ZELIAŚ (1997). W prezentowanym przykładzie
byłyby to trzy zmienne agregatowe: zmienna 𝑋𝐴1 = 𝑋1 + 𝑋3 , zmienna 𝑋𝐴2 = 𝑋4 + 𝑋6 + 𝑋7 + 𝑋8 +
𝑋9 + 𝑋17 oraz zmienna 𝑋𝐴3 = 𝑋10 + 𝑋11 + 𝑋12 + 𝑋14 + 𝑋15 + 𝑋19 + 𝑋20 .

9.5. Periodyzacja z wykorzystaniem metod hierarchicznych

Podstawą procesu grupowania w prezentowanym przykładzie były zmienne strukturalne. Wykaz miar
podobieństwa i niepodobieństwa dedykowanych dla tego typu danych opisano w rozdziałach 4.1.3
oraz 4.2.3. Ostatecznie, ze względu na własności opisywanych wskaźników oraz ograniczenia objęto-
ściowe pracy, przyjęto, że podstawą periodyzacji okresu 1958-1989 będzie macierz odległości „Can-
berra”. Z uwagi na cel badania wykorzystano metodę pojedynczego wiązania, opisaną z kolei
w rozdziale 6.1.3.
9.5. Periodyzacja z wykorzystaniem metod hierarchicznych 209

Na podstawie przedstawionej w poprzednim rozdziale metody hiperkul, wyodrębniono pięć


zmiennych centralnych. Ze względu na strukturalnych charakter zmiennych można było jednak
w dalszych badaniach wykorzystać zbudowane w oparciu o te same wyniki zmienne agregatowe.
Trudno arbitralnie stwierdzić, które z rozwiązań doprowadziłoby do bardziej adekwatnych wyników.
Dlatego proces periodyzacji przeprowadzony został dwa razy. Pierwszy wariant dotyczył wykorzysta-
nia w grupowaniu pięciu zmiennych centralnych wyodrębnionych w ramach zastosowania metody
hiperkul. Drugie podejście opierało się zaś na wspomnianych zmiennych, stanowiących sumy wyod-
rębnionych w metodzie hiperkul grup zmiennych.

Wariant pierwszy
W podejściu pierwszym grupowanie metodą pojedynczego wiązania przeprowadzono w oparciu
o wyodrębnione w metodzie hiperkul zmienne centralne. Macierz odległości „Canberra”, wyznaczono
w oparciu o wzór [4.14], uwzględniając jedynie pięć wspomnianych wyżej zmiennych , , ,
, .

[9.4]

W prezentowanym fragmencie macierzy odległości „Canberra” [9.4] przedstawiono odległości


pomiędzy strukturą produkcji czystej w poszczególnych latach okresu 1958-1966. Kompletna macierz
odległości w tym przykładzie liczyła 32 wiersze i tyle samo kolumn. Wartość ,
oznacza odległość pomiędzy strukturą produkcji czystej w roku 1958 oraz 1959. Biorąc pod uwagę
tylko te wartości, które zostały zaprezentowane jako fragment macierzy [9.4], można stwierdzić, że
największym podobieństwem ze względu na strukturę produkcji czystej odznaczały się lata 1965 oraz
1966 ( ). Co więcej, można również zaobserwować sytuację charakterystyczną
w przypadku analiz czasowych: niepodobieństwo pomiędzy strukturami wyznaczonymi dla poszcze-
gólnych lat wzrasta wraz z upływem czasu. Dla przykładu:
. Oczywiście tempo tych zmian jest różne w zależności od
badanego okresu.
Macierz odległości [9.4] przygotowano w arkuszu Excel, natomiast procedurę grupowania
przeprowadzono z wykorzystaniem programu Statisitica. Szczegóły techniczne dotyczące zarówno
importowania macierzy odległości, jak i samego zastosowania metody pojedynczego wiązania
w programie Statisitica zawarto w aneksie B. Wyniki budowy aglomeracji poszczególnych lat bada-
nego okresu 1958-1989 r. w oparciu o metodę pojedynczego wiązania można zaprezentować w postaci
dendrogramu, przedstawionego na rysunku 9.1.
Aby uzyskać na podstawie grupowania jednolite pod względem badanych zmiennych podokresy,
co jest celem periodyzacji, należy w odpowiednim punkcie przeciąć dendrogram. W tym celu, spośród
210 9. Periodyzacja w badaniach historycznych na przykładzie struktury gałęziowej produkcji czystej

Rysunek 9.1. Dendrogram grupowania metodą pojedynczego wiązania (odległość „Canberra”) struktur produkcji czystej
przemysłu uspołecznionego w latach 1956-1989 w oparciu o wyselekcjonowane zmienne

0,03
Odległość wiązania

0,02

0,01

0,00
1989
1981
1983
1988
1987
1986
1985
1984
1982
1975
1974
1976
1980
1979
1978
1977
1971
1973
1972
1970
1969
1968
1967
1966
1965
1964
1963
1962
1961
1960
1959
1958
Źródło: opracowanie własne z wykorzystaniem programu Statistica.

metod zaprezentowanych w rozdziale 6.1.2, wykorzystano regułę opartą o ilorazy odległości aglo-
meracyjnych (por. FLOREK i in. 1951). Procedurę tę rozpoczyna uporządkowanie malejąco wszyst-
kich odległości występujących w dendrycie (por. wzór [6.1]). Następne na ich podstawie wyznaczono
ilorazy odcinków sąsiednich (por. wzór [6.2]). Wyniki tych obliczeń zaprezentowane zostały
w postaci tabeli 9.6. Wydaje się, że podział okresu trzydziestodwuletniego w prezentowanym przykła-
dzie na więcej niż dwanaście podokresów jest nieracjonalny. Z tego powodu procedurę wyznaczenia
optymalnego punktu podziału dendrytu ograniczono do tego założenia.

Tabela 9.6. Obliczenia pomocnicze do wyznaczenia optymalnego punktu podziału dendrogramu w oparciu o regułę ilorazu
odległości (zmienne wyselekcjonowane)
Uporządkowane malejąco
Ilorazy odległości aglomeracyjnych
odległości aglomeracyjne
𝑑1 0,0336 𝑤2 = 𝑑1 /𝑑2 1,8622
𝑑2 0,0181 𝑤3 = 𝑑2 /𝑑3 1,4375
𝑑3 0,0126 𝑤4 = 𝑑3 /𝑑4 1,0280 𝑤4 < 𝑤5
𝑑4 0,0122 𝑤5 1,4152
𝑑5 0,0086 𝑤6 1,2389 𝑤6 < 𝑤7
𝑑6 0,0070 𝑤7 1,8534
𝑑7 0,0038 𝑤8 1,0786 𝑤8 < 𝑤9
𝑑8 0,0035 𝑤9 1,8451
𝑑9 0,0019 𝑤10 1,0863
𝒅𝟏𝟎 0,0017 𝒘𝟏𝟏 1,0133 𝒘𝟏𝟏 < 𝒘𝟏𝟐
𝑑11 0,0017 𝑤12 1,8622
𝑑12 0,0016

Źródło: obliczenia własne na podstawie wyników periodyzacji okresu 1958-1989 metodą pojedynczego wiązania (odległość
„Canberra”) w oparciu o strukturę gałęziową produkcji czystej przemysłu uspołecznionego w PRL.
9.5. Periodyzacja z wykorzystaniem metod hierarchicznych 211

Rysunek 9.2. Przecięcie dendrogramu grupowania metodą pojedynczego wiązania (odległość „Canberra”) struktur
produkcji czystej przemysłu uspołecznionego w latach 1956-1989 w oparciu o wyselekcjonowane zmienne

0,005

0,004
Odległość wiązania

0,003

0,002

0,001

0,000
1989
1981
1983
1988
1987
1986
1985
1984
1982
1975
1974
1976
1980
1979
1978
1977
1971
1973
1972
1970
1969
1968
1967
1966
1965
1964
1963
1962
1961
1960
1959
1958
S11 S7 S9 S10 S8 S6 S5 S4 S3 S2 S1

Źródło: opracowanie własne z wykorzystaniem programu Statistica.

Na podstawie obliczeń zawartych w tabeli 9.6 można powiedzieć, że dendrogram rozpada się
w sposób naturalny na cztery, sześć, osiem i jedenaście skupień. Spośród tych czterech możliwości
najmniejszy iloraz odległości aglomeracyjnych wykazano w przypadku podziału na jedenaście sku-
pień. Dendrogram, przedstawiony na rysunku 9.1, przecięto zatem na poziomie odległości 𝑑10 =
0,0017. Działanie to, przedstawione na rysunku 9.2, doprowadziło do wyodrębnienia następujących
skupień: {1958}, {1959}, {1960, 1961, 1962, 1963, 1964, 1965, 1966, 1967, 1968, 1969}, {1970,
1971, 1972, 1973, 1976, 1977, 1978, 1979, 1980}, {1974}, {1975}, {1981}, {1982}, {1983}, {1984,
1985, 1986, 1987, 1988}, {1989}. Na podstawie przedstawionego wykazu można zauważyć, że dwa
największe skupienia łączą ze sobą kolejne lata 60. oraz niemal całe lata 70. Co więcej, aż w ośmiu
przypadkach struktura przemysłu uspołecznionego była na tyle odmienna, że nie stworzyła wspólnego
skupienia choćby ze strukturą roku sąsiadującego. Można mówić zatem o latach, w których nastąpiły
zmiany gospodarcze prowadzące do przekształcenia struktury przemysłu: 1958, 1959, 1974, 1975,
1981, 1982, 1983, 1989.

Wariant drugi
Część badaczy (zob. np.: GORDON 1999, s. 96-100) sugeruje ponowne przeprowadzenie grupowania
w oparciu o inną odległość czy metodę analizy skupień. Dopiero na podstawie porównania osiągnię-
tych w różnych podejściach podziałów można wyciągnąć ostateczne wnioski dotyczące periodyzacji.
Zatem w podejściu drugim procedurę grupowania powtórzono tą samą metodą, ale w oparciu
o zmienne syntetyczne odnoszące się do każdej z wyodrębnionych grup. Wykorzystano zmienne 𝑋𝐴1 ,
𝑋2 , 𝑋𝐴2 , 𝑋16 , 𝑋𝐴3 , przy czym zmienna 𝑋𝐴1 = 𝑋1 + 𝑋3 , zmienna 𝑋𝐴2 = 𝑋4 + 𝑋6 + 𝑋7 + 𝑋8 + 𝑋9 +
𝑋17 , natomiast zmienna 𝑋𝐴3 = 𝑋10 + 𝑋11 + 𝑋12 + 𝑋14 + 𝑋15 + 𝑋19 + 𝑋20 . Zastosowanie zmiennych
syntetycznych było możliwe ze względu na strukturalny charakter badań.
Dla tak zdefiniowanych zmiennych ponownie wyznaczono macierz odległości „Canberra” 𝑫𝑰𝑰 ,
której fragment zapisano jako macierz [9.5]:
212 9. Periodyzacja w badaniach historycznych na przykładzie struktury gałęziowej produkcji czystej

0,000 0,072 0,129 0,152 0,155 0,163 0,176 0,176 0,178 ⋯


0,072 0,000 0,068 0,091 0,093 0,101 0,114 0,114 0,116 ⋯
0,129 0,068 0,000 0,024 0,038 0,046 0,058 0,059 0,062 ⋯
0,152 0,091 0,024 0,000 0,022 0,023 0,035 0,035 0,039 ⋯
0,155 0,093 0,038 0,022 0,000 0,009 0,022 0,022 0,024 ⋯ [9.5]
𝑫𝑰𝑰 = .
0,163 0,101 0,046 0,023 0,009 0,000 0,014 0,019 0,025 ⋯
0,176 0,114 0,058 0,035 0,022 0,014 0,000 0,008 0,014 ⋯
0,176 0,114 0,059 0,035 0,022 0,019 0,008 0,000 0,006 ⋯
0,178 0,116 0,062 0,039 0,024 0,025 0,014 0,006 0,000 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]

Wyniki procesu grupowania w oparciu o metodę pojedynczego wiązana przedstawia dendrogram


zamieszczony na rysunku 9.3. Wybór optymalnego punktu przecięcia dendrogramu przeprowadzono –
podobnie jak w wyżej prezentowanym podejściu – stosując regułę ilorazów odległości aglomeracyj-
nych (FLOREK i in. 1951). Niezbędne obliczenia do wyznaczenia optymalnego punktu podziału den-
drogramu zaprezentowano w tabeli 9.7. Tym razem naturalny rozpad dendrogramu miał miejsce
w przypadku czterech, siedmiu, dziewięciu oraz jedenastu skupień. Najmniejsza wartość ilorazu odle-
głości wskazywała, że dendrogram przedstawiony na rysunku 9.3 należało przeciąć w taki sposób, aby
uzyskać siedem skupień. Dlatego ostatecznie dendrogram podzielono na wysokości 𝑑6 = 0,0399.

Tabela 9.7. Obliczenia pomocnicze do wyznaczenia optymalnego punktu podziału dendrogramu w oparciu o regułę ilorazu
odległości (zmienne syntetyczne)
Uporządkowane malejąco
Ilorazy odległości aglomeracyjnych
odległości aglomeracyjne
𝑑1 0,1086 𝑤2 = 𝑑1 /𝑑2 1,5177
𝑑2 0,0716 𝑤3 = 𝑑2 /𝑑3 1,0571
𝑑3 0,0677 𝑤4 = 𝑑3 /𝑑4 1,0085 𝑤4 < 𝑤5
𝑑4 0,0671 𝑤5 1,6537
𝑑5 0,0406 𝑤6 1,0168
𝒅𝟔 0,0399 𝒘𝟕 1,0003 𝒘𝟕 < 𝒘𝟖
𝑑7 0,0399 𝑤8 1,0417
𝑑8 0,0383 𝑤9 1,0192 𝑤9 < 𝑤10
𝑑9 0,0376 𝑤10 1,0279
𝑑10 0,0366 𝑤11 1,0041 𝑤11 < 𝑤12
𝑑11 0,0364 𝑤12 1,1912
𝑑12 0,0306

Źródło: obliczenia własne na podstawie wyników periodyzacji okresu 1958-1989 metodą pojedynczego wiązania (odległość
„Canberra”) w oparciu o strukturę gałęziową produkcji czystej przemysłu uspołecznionego w PRL.

Na podstawie wartości odległości aglomeracyjnych przedstawionych w tabeli 6.6 można zauwa-


żyć, że podział ten jest niemal tożsamy z podziałem na osiem skupień. Z tego powodu ostatecznie po
przecięciu uzyskano osiem skupień: {1958}, {1959}, {1960, 1961, 1962, 1963, 1964, 1965, 1966,
1967, 1968, 1969, 1970, 1971, 1972; 1973}; {1974, 1975}, {1976, 1977, 1978, 1979, 1980}, {1981},
{1982, 1983, 1984, 1985, 1986, 1987, 1988}, {1989}. Można zatem mówić o pewnej zgodności
z wynikami periodyzacji uzyskanymi w pierwszym wariancie obliczeń w oparciu o zmienne centralne.
Jednak szczegółowo proces oceny grupowania i opis wyników grupowania zostanie przedstawiony
w następnym podrozdziale.
9.5. Periodyzacja z wykorzystaniem metod hierarchicznych 213

Rysunek 9.3. Dendrogram grupowania metodą pojedynczego wiązania (odległość „Canberra”) struktur produkcji czystej
przemysłu uspołecznionego w latach 1956-1989 w oparciu o zmienne pogrupowane

0,10

0,08
Odległość wiązania

0,06

0,04

0,02

0,00
1981
1989
1988
1983
1987
1986
1985
1984
1982
1980
1979
1978
1977
1976
1975
1974
1973
1972
1971
1970
1969
1968
1967
1966
1965
1964
1963
1962
1961
1960
1959
1958
S6 S8 S7 S5 S4 S3 S2 S1

Źródło: opracowanie własne z wykorzystaniem programu Statistica.

9.6. Ocena grupowania i synteza historyczna uzyskanych wyników

Przykład periodyzacji analizowany w tym rozdziale dotyczył struktury produkcji przemysłowej sekto-
ra uspołecznionego w latach 1958-1960. Spośród wielu możliwości wybrano, polecaną w tego typu
zagadnieniach, metodę pojedynczego wiązania. Metodą tą przeprowadzono grupowania w dwóch
wariantach: (I) w oparciu o zmienne reprezentujące wyodrębnione w procesie doboru zmiennych gru-
py oraz (II) w oparciu o zmienne syntetyczne zbudowane jako suma wartości zmiennych tworzących
wyodrębnione grupy. W obu przypadkach zastosowano odległość „Canberra”. Natomiast wyznaczenie
optymalnego punktu podziału dendrogramu oparto o regułę ilorazów odległości aglomeracyjnych,
zaproponowaną przez FLORKA i in. (1951). Ostatecznie przeprowadzenie obu grupowań pozwoliło na
podział okresu 1958-1989 na odpowiednio jedenaście i osiem podokresów. Wyniki obu procesów
periodyzacji zestawiono w tabeli 9.8.
Zestawienie przedstawione w tabeli 9.8 daje pewne podstawy na podział badanego okresu. Na
podstawie już tych dwóch grupowań można wyróżnić podokresy: 1958, 1959, 1960-1973, 1974-1975,
1976-1980, 1981, 1982-1988, 1989. Widać także, że wyniki uzyskane w podejściu pierwszym stano-
wią pewne uszczegółowienie rezultatów uzyskanych w grupowaniu drugim. Mimo to, aby przeprowa-
dzić ostateczny opis wyników periodyzacji, należy wskazać, które z grupowań okazało się lepsze, tzn.
spełnia w większym stopniu warunek maksymalizacji zmienności międzygrupowej i minimalizacji
zmienności wewnątrzgrupowej (por. rozdział 6.3).
214 9. Periodyzacja w badaniach historycznych na przykładzie struktury gałęziowej produkcji czystej

Tabela 9.8. Podział okresu 1958-1989 ze względu na strukturę produkcji czystej przemysłu uspołecznionego uzyskany
metodą pojedynczego wiązania (odległość „Canberra”)
podejście
1958
1959
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
I 𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠4 𝑠7 𝑠8 𝑠9 𝑠10 𝑠11
II 𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7 𝑠8

Podejście I opiera się na zmiennych reprezentujących wyodrębnione grupy zmiennych, podejście II opiera się na zmiennych
syntetycznych stanowiących sumę zmiennych tworzących wyodrębnione grupy zmiennych.
Źródło: zestawienie własne na podstawie wyników grupowania przedstawionych na rysunkach 9.2 oraz 9.3.

W tym celu dla obu wariantów oszacowano wskaźnik Calińskiego-Harabasza (por. wzór [6.18]).
Szczegółowo procedurę wyznaczenia tego wskaźnika opisano w rozdziale 6.3.2 oraz w przykładzie
zaprezentowanym w rozdziale jedenastym.
W pierwszym wariancie obliczeń, opartym o wybór zmiennych centralnych, wyniósł on 𝐶𝐼 =
1,891. Natomiast wartość współczynnika Calińskiego-Harabasza wyznaczonego dla wyników grupo-
wania w drugim podejściu, bazującym na zmiennych syntetycznych, wyniosła 𝐶𝐼𝐼 = 2,148. Zatem do
szczegółowego opisu rezultatów grupowania zastosowano wyniki wariantu drugiego.

Tabela 9.9. Średnie wartości zmiennych syntetycznych dla wyodrębnionych w wyniku podziału okresu 1958-1989 pod-
okresów ze względu na strukturę produkcji czystej przemysłu uspołecznionego w PRL

Wyodrębnione 𝑋𝐴1 𝑋2 𝑋𝐴2 𝑋16 𝑋𝐴3


Skupienie
podokresy [% produkcji czystej przemysłu sektora uspołecznionego]
𝑠1 1958 5,16 4,13 23,33 16,21 42,96
𝑠2 1959 5,17 8,46 22,44 15,02 40,73
𝑠3 1960-1973 7,54 10,73 31,30 11,73 30,07
𝑠4 1974-1975 6,82 16,52 37,05 11,37 21,01
𝑠5 1976-1980 5,59 11,93 42,11 11,65 19,62
𝑠6 1981 3,73 9,03 53,36 13,09 9,95
𝑠7 1982-1988 6,16 12,91 39,59 8,26 24,77
𝑠8 1989 8,39 7,72 40,93 8,86 25,22

𝑋2 dotyczyło przemysłu paliwowego i węglowego; 𝑋16 dotyczyło przemysłu włókienniczego, 𝑋𝐴1 – zmienna syntetyczna
odnosząca się do przemysłu energetycznego i hutniczego, 𝑋𝐴2 – zmienna syntetyczna dotycząca gałęzi przemysłu, które
wytwarzały dobra konsumpcyjne trwałego użytku, 𝑋𝐴3 – zmienna syntetyczna dotycząca gałęzi przemysłu zajmującego się
przedmiotami spożycia.
Źródło: zestawienie własne na podstawie wyników periodyzacji metodą pojedynczego wiązania (odległość „Canberra”).

Puntem wyjścia do opisu wyników periodyzacji było zestawienie przedstawione w tabeli 9.9. Po-
szczególne kolumny dotyczą zmiennych lub zmiennych syntetycznych uwzględnionych w analizie.
I tak 𝑋𝐴1 to zmienna syntetyczna odnosząca się do przemysłu energetycznego i hutniczego. Z kolei 𝑋2
dotyczy przemysłu paliwowego i węglowego. Kolejna kolumna tabeli 9.9 ma związek ze zmienną
syntetyczną 𝑋𝐴2 , łączącą udział tych gałęzi przemysłu, które produkowały środki wytwarzania lub
środki konsumpcji trwałego użytku, co opisano wyżej. Na łączną wartość zmiennej 𝑋𝐴2 składają się
zatem udziały przemysłu elektrotechnicznego, środków transportu, metali nieżelaznych, maszynowe-
9.6. Ocena grupowania i synteza historyczna uzyskanych wyników 215

go, chemicznego i odzieżowego. Oddzielnie była potraktowana zmienna 𝑋16 , dotycząca przemysłu
włókienniczego. Ostatnia zmienna 𝑋𝐴3 odnosiła się natomiast do udziału gałęzi przemysłu zajmujące-
go się wytwarzaniem dobra konsumpcyjne trwałego i bieżącego użytku: materiałów budowlanych,
przemysłu szklarskiego, ceramiki szlachetnej, papierniczego, poligraficznego, skórzanego, spożyw-
czego oraz innych gałęzi przemysłu. Wszystkie zmienne zostały wyrażone jako udział danej gałęzi
przemysłu lub grup gałęzi w produkcji czystej ogółem w przemyśle sektora uspołecznionego. Warto
przypomnieć, że przedstawione w tabeli 6.9 udziały w poszczególnych wierszach nie sumują się do
100%, ponieważ w analizie pominięto produkcję przemysłu drzewnego oraz metalowego, których
wartość była na tyle stała w badanym okresie, że nie mogła wpłynąć na wyniki periodyzacji.
Jak już wspomniano wcześniej, istnieje wiele sposobów podziału badanego okresu na podokresy
KALIŃSKI (1995) w książce o przemianach strukturalnych w latach 1944-1995 wyróżnił następujące
fazy rozwoju gospodarczego w Polsce powojennej: faza odbudowy (do 1949), forsowne przemiany
(1950-1955), ograniczone reformy strukturalne (1959-1965), nieudany zwrot w polityce strukturalnej
(1966-1970), gierkowskie przyspieszenie (1971-1975), rozwiane nadzieje (1976-1980), dramatyczny
zastój (1981-1989). Podobne podokresy, choć może pod nieco innymi nazwami, przyjęte zostały
w monografii KALIŃSKIEGO i LANDAU (1998, s. 252-359). Podziału okresu polityki gospodarczej
w Polsce Ludowej w oparciu o kryterium planów gospodarczych przyjął także RUSIŃSKI (1986,
s. 378-385). Z kolei JEZIERSKI i LESZCZYŃSKA (2001, s. 497-506) wyróżnili bardziej ogólnie trzy
główne okresy w polityce przemysłowej Polski Ludowej: reformy zarządzania przemysłem na prze-
łomie lat 60. i 70. (1958-1973), „cud gospodarczy” Edwarda Gierka (1974-1981) oraz polityka prze-
mysłowa w latach 80. (1982-88). Z tego punktu widzenia wydaje się, że przeprowadzona metodą po-
jedynczego wiązania periodyzacja przyniosła zadawalające wyniki, wpisujące się w retorykę tematu.
Charakteryzując jedynie szczątkowo wyróżnione podokresy, można powiedzieć, że o odmienności
struktury przemysłu uspołecznionego w 1958 r. świadczy przede wszystkim wysoki udział w krajowej
produkcji czystej gałęzi przemysłu, nastawionych na produkcję dóbr konsumpcyjnych bieżącego
użytku oraz najniższy w całym badanym okresie udział przemysłu paliwowego i węglowego. Relacja
ta koresponduje z opisem dotyczącym sytuacji gospodarczej tego okresu przedstawionym przez KA-
LIŃSKIEGO (1995, s. 91): w latach 1956-1958 odnotowano spadek dynamiki wytwórczości przemy-
słowej, „a przede wszystkim odmienne niż w okresie poprzednim kształtowanie się proporcji wzrostu.
Wyższe wzrosty cechowała wytwórczość przedmiotów spożycia (+33,4%) niż środków wytwórczych
(+30%). W ogólnej strukturze produkcji zmalał m.in. udział paliw i surowców hutniczych, a także
przemysłu spożywczego i włókienniczego na korzyść chemicznego i maszynowego”. RUSIŃSKI (1986,
s. 378-379) zwraca uwagę, że począwszy od 1958 r., zgodnie z wytycznymi planu pięcioletniego, na-
stąpiło ponowne rozszerzenie zadań inwestycyjnych przede wszystkim w przemył ciężki. Wzrost go-
spodarczy miał jednak charakter ekstensywny; opierał się nie tyle na podniesieniu wydajności pracy,
ile na wzroście zatrudnienia. Stworzenie nowych miejsc pracy pozwalało wykorzystać istniejące re-
zerwy siły roboczej, a zarazem zatrudniać wschodzące stopniowo w wiek produkcyjny roczniki powo-
jennego wyżu demograficznego. Z kolei KALIŃSKI (1995, s. 80) podkreśla, że postulat poprawy wa-
runków bytowych społeczeństwa został wysunięty dopiero po wydarzeniach poznańskich w czerwcu
1956 r.
Kolejny rok 1959 przyniósł w łącznej produkcji przemysłowej sektora uspołecznionego wzrost
udziału przemysłu paliwowego i węglowego. KALIŃSKI (1995, s. 81) akcentuje, że rok ten rozpoczyna
etap intensywnej industrializacji kraju: „Z całym przekonaniem stwierdzić można, że do 1958 r. prze-
ważały poglądy o niezbędności zlikwidowania dysproporcji i podniesienia stopy życiowej ludności.
Po tym roku znalazły się one w mniejszości, ustępując polityce uprzemysłowienia wzmacniającej
216 9. Periodyzacja w badaniach historycznych na przykładzie struktury gałęziowej produkcji czystej

ogólny potencjał gospodarczy i militarny kraju”. RUSIŃSKI (1986, s. 379) wspomina, że podjęte decy-
zje strukturalne, związane m.in. ze zwiększeniem globalnego funduszu płac, wywołały braki rynkowe
i tendencje inflacyjne. Ich powstrzymaniu miało służyć ograniczenie wzrostu zatrudnienia i zabiegi
w dziedzinie cen. W końcu 1959 r. podniesiono ceny na mięso. Z końcem lat 50. podjęto działania
mające na celu zmiany w obszarze wsi i rolnictwa. Rozwój przemysłu obsługującego potrzeby pro-
dukcyjne wsi został podporządkowany nowej polityce rolnej. Maszyny, urządzenia i narzędzia kiero-
wano jednak w pierwszej kolejności do spółdzielni produkcyjnych, gospodarstw państwowych i kółek
rolniczych (KALIŃSKI 1995, s. 88).
Z kolei lata 1960-1973 wyróżniają się wzrostem znaczenia przemysłu energetycznego i hutniczego
oraz paliwowego i węglowego, który wynikał z oddanych do użytku w tym okresie licznych inwesty-
cji: kopali węgla, miedzi, siarki, elektrowni i hut (por. KALIŃSKI 2012, s. 53). Skutkiem tego w tym
okresie znacząco wzrósł udział tych gałęzi przemysłu, które specjalizowały się w wytwarzaniu dóbr
inwestycyjnych. Jednak za szybkim wzrostem udziału gałęzi przemysłu ciężkiego, chemicznego
i elektromaszynowego nie nadążała produkcja przemysłu lekkiego i spożywczego. Utrzymanie wyso-
kiego tempa inwestycji przy zachowaniu priorytetu produkcji środków wytwarzania w stosunku do
produkcji środków spożycia spowodowało deficyt niektórych artykułów zarówno spożywczych (np.
mięsa), jak i przemysłowych (RUSIŃSKI 1986, s. 380). Potwierdzeniem tego był spadek udziału tych
gałęzi przemysłu, które specjalizowały się w wytwarzaniu dóbr konsumpcyjnych bieżącego użytku
oraz przemysłu włókienniczego o odpowiednio 10% i 4% w stosunku do roku 1959 (por. tab. 99).
Zapoczątkowany planem pięcioletnim (1960-1965) kierunek zmian strukturalnych w przemyśle
kontynuowano w kolejnych latach (KALIŃSKI 1995, s. 123). Pogłębiające się dysproporcje skłoniły
jednak kierownictwo PZPR do skonkretyzowania nowych elementów polityki gospodarczej. Podjęto
zasadę, aby wspierać te gałęzie przemysłu, w których stosunkowo szybko można osiągnąć pozytywne
efekty (JEZIERSKI, LESZCZYŃSKA 2001, s. 502-503). Kierunki selektywnego wzrostu ujęto w uchwale
rządu z kwietnia 1969 r. (KALIŃSKI 1995, s. 135). W grudniu 1970 r., po kolejnej podwyżce cen, do-
szło do tragicznych wydarzeń na Wybrzeżu, które były przesłanką zmian personalnych
w komunistycznym kierownictwie kraju. Pierwsze posunięcia nowej ekipy rządzącej w sferze gospo-
darczej dotyczyły odwołania koncepcji „selektywnego wzrostu” na rzecz koncepcji „harmonijnego
rozwoju”. W efekcie odwołano podwyżki cen żywności i zamrożono ceny detaliczne podstawowych
artykułów żywnościowych w latach 1971-1972, podniesiono najniższe płace, dodatki rodzinne, renty
i emerytury oraz ceny skupu żywca. Tym razem źródła finansowe niezbędne do przeprowadzenia re-
form pozyskiwano z kredytów zagranicznych (KALIŃSKI 1995, s. 149-150). Pierwsze lata reformy
były bardzo obiecujące. Jednak relatywnie wyższe przyrosty wystąpiły w przypadku maszyn, urzą-
dzeń technicznych i środków transportu niż budynków i budowli (KALIŃSKI 1995, s. 154-159).
W rozważanym okresie 1960-1973 najszybciej rozwijały się przemysły elektromaszynowy
i chemiczny, które były głównymi adresatami kredytów zagranicznych i licencji, co ma potwierdzenie
w wartościach przedstawionych w tabeli 9.9. RUSIŃSKI (1986, s. 382) zwraca uwagę, że wzrost go-
spodarczy realizowany przez ekipę W. Gomułki osiągnięto głównie kosztem zwiększonych inwestycji
i wzrostu zatrudnienia. Nie wzrastała jednak w stopniu zadawalającym wydajność pracy. Mimo to
w pierwszych latach tej dekady nastąpił największy w ciągu całego okresu Polski Ludowej wzrost płac
realnych.
Najwyższy udział przemysłu paliwowego i węglowego w krajowej przemysłowej produkcji czy-
stej miał miejsce w podokresie 1974-1975 i osiągnął poziom ponad 16% (por. tab. 9.9). Co więcej,
w tym okresie po raz kolejny wzrosło znaczenie tych gałęzi przemysłu, które wytwarzały dobra inwe-
stycyjne. Obu tym sytuacjom towarzyszył silny spadek udziału produkcji przemysłowej wytwarzającej
9.6. Ocena grupowania i synteza historyczna uzyskanych wyników 217

dobra konsumpcyjne. KALIŃSKI (2012, s. 54) zauważa, że podjęty po 1970 r., oparty na kredytach
zachodnich, szeroki front inwestycji spowodował, że w 1975 r., wartość inwestycji nieprzekazanych
w terminie sięgnęła 63%. Jednak narastające od 1974 r. trudności w realizacji programu dynamiczne-
go rozwoju społeczno-gospodarczego kraju nie skłoniły władz do zmiany polityki gospodarczej. Na
strukturę przemysłu sektora uspołecznionego w tym okresie miały bez wątpienia wpływ zmiany
w systemie kierowania gospodarką, które sprowadzały się do tworzenia wielkich organizacji gospo-
darczych, koncentrujących dotychczas samodzielne przedsiębiorstwa i zakłady. Najwięcej ich powsta-
ło właśnie w latach 1974-1975 (por. JEZIERSKI, LESZCZYŃSKA 2001, s. 504; KALIŃSKI, LANDAU
1998, s. 300-301). W 1975 r. funkcjonowało w Polsce 110 wielkich organizacji gospodarczych, które
wytwarzały 67% produkcji przemysłowej, wykorzystując swoją monopolistyczną pozycję do wzrostu
płac i cen. Co więcej, powstanie wielkich organizacji gospodarczych wiązało się z likwidacją znacznej
części państwowego przemysłu terenowego, mającego poważny udział w zaopatrzeniu rynku
w artykuły konsumpcyjne (KALIŃSKI 1995, s, 162). W efekcie pod koniec 1975 r. uciążliwości co-
dziennego bytowania, wynikłe głównie wskutek niedoborów rynkowych, stawały się coraz bardziej
dokuczliwe, a oficjalna propaganda sukcesu rozmijała się coraz bardziej z powszechnym odczuciem
społecznym (RUSIŃSKI 1986, s. 384).
Następny wyodrębniony w wyniku periodyzacji podokres obejmuje lata 1976-1980. Jego początek
można wiązać z sytuacją kolejnego masowego protestu społecznego (Radom, Ursus, Płock).
W czerwcu 1976 r. władze skorygowały założenia polityki ekonomicznej kraju poprzez wprowadzenie
koncepcji „manewru gospodarczego” . Realizacja tej koncepcji miała doprowadzić do stopniowego
zmniejszania udziału akumulacji w dochodzie narodowym, uzyskania dodatniego bilansu handlowego,
zwiększenia produkcji artykułów kierowanych na rynek i rozmiarów budownictwa mieszkaniowego
Spadek aktywności gospodarczej najwcześniej ujawnił się w sferze inwestowania. Załamanie inwesty-
cyjne, początkowo obserwowane w komunikacji i handlu, od 1978 r. objęło całą sferę produkcyjną,
poprzedzając kryzys i długotrwałą recesję gospodarczą (KALIŃSKI 1995, s. 178-180). W efekcie tych
działań ograniczony został udział przemysłu energetycznego i hutniczego oraz paliwowego
i węglowego na rzecz tych gałęzi przemysłu, które wywarzały produkty inwestycyjne. Niestety udział
gałęzi przemysłowych nastawionych na produkcję dóbr konsumpcyjnych ponownie uległ znaczącemu
ograniczeniu (por. tabela 9.9). Charakterystyczną cechą tego okresu jest niekomplementarność rozwo-
ju polskiego przemysłu: niedostatek energii elektrycznej powodował ograniczenia w dostawach, co
skutkowało spadkiem produkcji, obniżeniem jakości i wywoływało zakłócenia w kooperacji (KALIŃ-
SKI 1995, s. 183). Ogromne znaczenie w efektywności polskiej gospodarki tego okresu miała również
„zima stulecia” 1978/1979 oraz następująca po niej powódź. „Zbieg tak wielu niekorzystnych czynni-
ków spowodował, że systematycznie spadała dynamika produkcji przemysłowej, osiągając w 1980 r.
po raz pierwszy w dziejach gospodarczych Polski powojennej, wartość ujemną” (KALIŃSKI 1995,
s. 183). W połowie 1980 r. robotnicy dużych zakładów przemysłowych odpowiedzieli na urzędową
podwyżkę cen mięsa. Strajki zakończyły się podpisaniem tzw. porozumień sierpniowych.
Już w listopadzie 1980 r. rząd podjął decyzję o wstrzymaniu realizacji wielu inwestycji gospodar-
czych. Od początku roku 1981 (kolejny wyodrębniony podokres) ograniczono cele gospodarcze kraju
do spraw decydujących o bycie narodu: wyżywienie, ochrona zdrowia, wytworzenie dla ludności
i gospodarki odpowiedniej ilości energii elektrycznej, utrzymanie produkcji eksportowej (KALIŃSKI
1995, s. 203). Skutkowało to tym, że w przemyśle odnotowano najniższy w całym badanym okresie
udział tych gałęzi przemysłu, które produkowały dobra konsumpcyjne bieżącego użytku: nie przekro-
czył on 10% (por. tabela 9.9). Spadki odnotowano także w branży paliwowej, węglowej, przemyśle
hutniczym oraz mimo składanych deklaracji w przemyśle energetycznym. Z kolei ponad połowa całej
218 9. Periodyzacja w badaniach historycznych na przykładzie struktury gałęziowej produkcji czystej

produkcji przemysłowej wytwarzana była w tych gałęziach przemysłu, które wytwarzały dobra inwe-
stycyjne. Wyjątkowo wysoki udział, ponad 13%, odnotowano także w produkcji czystej przemysłu
włókienniczego. Rok zakończył się wprowadzeniem stanu wojennego.
Kolejny wyodrębniony w wyniku zastosowania analizy skupień okres obejmował lata 1982-1988.
W pierwszym roku stanu wojennego powołano Konsultacyjną Radę Gospodarczą. Wobec braku planu
gospodarczego podstawą kwartalnych planów produkcyjnych przedsiębiorstw były tzw. zamówienia
rządowe (JEZIERSKI, LESZCZYŃSKA 2001, s. 505). Próbę przełamania kryzysu gospodarczego podjęto
w kolejnych latach. W planie gospodarczym na lata 1983-1985, którego priorytetem było powstrzy-
manie spadku dochodu narodowego, zakładano, że przedsiębiorstwa państwowe będą samodzielne,
samorządne i samofinansujące się (KALIŃSKI, LANDAU 1998, s. 332-334; JEZIERSKI, LESZCZYŃSKA
2001, s. 505). Uzyskano w ten sposób tylko krótką poprawę koniunktury. Jednocześnie wprowadzano
idee swobody przy zakładaniu nowych przedsiębiorstw dla działalności sektora prywatnego, w tym
kapitału zagranicznego, i zreformowano system bankowy. W planie gospodarczym 1986-1990 całko-
wicie pominięto zmiany strukturalne w przemyśle. Drastyczna podwyżka cen po raz kolejny wywołała
strajki. W okresie 1982-1988 silnie wzrósł udział gałęzi przemysłu nastawionych na produkcję dóbr
konsumpcyjnych bieżącego użytku. Wzmocnił się także udział przemysłu paliwowego i węglowego
oraz przemysłu energetycznego i węglowego (por. wartości w tabeli 9.9). Należy podkreślić, że ostat-
nie z wymienionych preferowano w trosce o zniwelowanie deficytów energetycznych (KALIŃSKI
1995, s. 209-212). Wzrosty względne możliwe były dzięki ograniczeniu produkcji gałęzi przemysłu
wytwarzających dobra inwestycyjne i konsumpcyjne trwałego użytku. W wartościach bezwzględnych
w 1986 r. przemysł nie odzyskał jednak poziomu produkcji sprzed kryzysu (JEZIERSKI, LESZCZYŃSKA
2001, s. 505). Następny rok przyniósł kolejne załamanie gospodarki.
Ostatni rok badanego okresu – 1989 – związany ze wspomnianym już wyżej kryzysem gospodar-
czym, odznaczał się najwyższym udziałem w produkcji czystej sektora uspołecznionego przemysłu
energetycznego i hutniczego oraz gałęzi przemysłu nastawionych na produkcję dóbr inwestycyjnych
i konsumpcyjnych trwałego użytku. Spadło jednak drastycznie znaczenie przemysłu paliwowego
i węglowego (por. wartości w tabeli 9.9). Jest to kolejny rok istotnych zmian politycznych. Od począt-
ku nowego roku podczas obrad okrągłego stołu nastąpiło pokojowe objęcie władzy w kraju przez for-
mację wywodzącą się z „Solidarności” i przeprowadzenia radykalnych zmian systemowych
w gospodarce (KALIŃSKI 1995, s. 210).

Rozważania dotyczące przestawionego w tym rozdziale zagadnienia periodyzacji warto zakończyć


kilkoma uwagami metodologicznymi. W badaniach dynamicznych, uwzględniających perspektywę
czasową analizowanego zjawiska gospodarczego, historyk często musi się zmierzyć z problemem
porównywalności danych ze względu na inflację lub zmiany jakościowe wytwarzanych produktów
wynikające z postępu technicznego. Jednym ze sposobów podejścia do tego typu problemów jest wy-
korzystanie możliwości, jakie dają przekształcenia ilorazowe. W przedstawionym przykładzie, obok
prezentacji tego podejścia, opisane zostały jego silne strony i ograniczenia. Do tych ostatnich należy
konieczność wyrażenia zmiennych w skali ilorazowej. Natomiast wśród pozytywnych cech prze-
kształceń ilorazowych w odniesieniu do periodyzacji należy wymienić wyrażenie zmiennych
w jednostkach względnych oraz porównywalność ostatecznych ich wartości w wyodrębnionych podo-
kresach. Duże znaczenie z perspektywy syntez historycznych odgrywa także możliwość agregowania
przedstawionych w ten sposób zmiennych.
Niewątpliwie użyteczna w prezentacji struktury gałęziowej produkcji czystej w przemyśle uspo-
łecznionym w latach 1958-1989 okazała się metoda pojedynczego wiązania. Uznawany powszechnie
9.6. Ocena grupowania i synteza historyczna uzyskanych wyników 219

za słabość tej metody efekt łańcuszkowy w procesie periodyzacji jest zjawiskiem pożądanym. W toku
badań dowiedziono, że zastosowanie metod hierarchicznych w procesie periodyzacji pozwala na wy-
różnienie odrębnych okresów i podokresów w analizowanym zjawisku, jednak stopień szczegółowości
przeprowadzonych syntez zależy ostatecznie od badacza, który dokonuje, arbitralnie lub w oparciu
o wskaźniki statystyczne, wyboru miejsca przerwania procesu aglomeracji.
10
Grupowanie obiektów historycznych
na przykładzie rzemiosła wiejskiego we wsi Odrowąż i Waksmund
w 1970 r.

Dane statystyczne dla kolejnego przykładu zostały zaczerpnięte z artykułu ZAMBURZYCKIEJ-


-KUNACHOWICZ (1974a), dotyczącego typologii zjawisk etnograficznych. Przykład ten potwierdza
opinię TOPOLSKIEGO (1984, s. 244-268), który stwierdza, że „w etnografii, gdzie spojrzenie na rze-
czywistość może mieć charakter statyczny lub dynamiczny, metody taksonomiczne stają się więc na-
rzędziem ułatwiającym proces poznawczy”. ZAMBURZYCKA-KUNACHOWICZ (1974a) przebadała
warsztaty rzemieślnicze związane z obróbką drewna w dwóch wsiach powiatu nowotarskiego: Odro-
wąż oraz Waksmund. Źródłem danych ilościowych prezentowych w tym przykładzie były wywiady
pogłębione, które autorka przeprowadziła w roku 1970. Uzyskane wyniki stały się podstawą do szer-
szej interpretacji etnograficznej.
Główną motywacją do podjęcia tego tematu z metodologicznego punktu widzenia była skala po-
miarowa, w której wyrażone zostały zmienne: wszystkie dane zostały opisane w skali dychotomicznej.
Co więcej, w prezentowanym przykładzie autorka zastosowała metodę Czekanowskiego. Interesujące
zatem było, czy wyniki bardziej złożonej metody taksonomicznej pozwalającą na sformułowanie
wniosków syntetyzujących stwierdzenia ZAMBURZYCKIEJ-KUCHNATOWICZ (1974a). Dobór zmien-
nych będących podstawą grupowania warsztatów przeprowadzono metodą eliminacji wektorów, opi-
saną w rozdziale 5.2.4. Natomiast spośród metod hierarchicznych do grupowania warsztatów zastoso-
wano metodę Warda, opisaną w rozdziale 6.1.3. Dodatkowo w prezentowanym przykładzie przedsta-
wiono problem ostatecznego wyboru optymalnego punktu przecięcia uzyskanego dendrogramu
w sytuacji, gdy zastosowanie kilku reguł prowadzi do odmiennych wyników.

10.1. Opis wcześniejszych badań

ZAMBURZYCKA-KUNACHOWICZ (1974a, s. 37) jako cel swoich badań podała ustalenie struktury rze-
miosła w określonych społecznościach wiejskich. Jako rzemiosło definiuje ona: „wytwarzanie wyro-
bów na zbyt, przy osobistym zaangażowaniu wytwórcy w produkcję prowadzoną na własny rachunek
i za pomocą własnych urządzeń”.
Strukturę rzemiosła, właściwą dla każdej badanej wsi, autorka badań określiła głównie na podsta-
wie przebadanych warsztatów rzemieślniczych, które prowadziły swoją działalność w roku 1970
w dwóch wsiach powiatu nowotarskiego. ZAMBURZYCKA-KUNACHOWICZ (1974a) dzięki zastosowa-
niu metody Czekanowskiego wyodrębniła jednolite typy warsztatów. W efekcie swoich badań ustaliła
sposoby funkcjonowania rzemiosła o znanej strukturze, będącego integralną częścią układu gospodar-
czo-społecznego oraz kulturowego, jakim jest wieś. Ustalone typy badaczka powiązała z „warunkami,
jakie pozwalają na istnienie określonej struktury rzemiosła, na którą składają się warsztaty (traktowa-
ne jako elementy) o cechach regresywnych, adekwatnych lub progresywnych w stosunku do istnieją-
cego układu” ZAMBURZYCKA-KUNACHOWICZ (1974a, s. 38). Przyjmowano, iż występowanie warsz-
222 10. Grupowanie obiektów historycznych na przykładzie rzemiosła wiejskiego

tatów o określonych cechach strukturalnych może stać się wskaźnikiem dla oceny stopnia zaawanso-
wania przemian społecznych, gospodarczych i kulturowych badanych zbiorowości.
ZAMBURZYCKA-KUCHNATOWICZ (1974a) przeprowadziła swoje badania osobno dla wsi Waks-
mund oraz Odrowąż. Głównymi motywami nawiązania do badań ZAMBURZYCKIEJ-KUCHNATOWICZ
(1974a) było pytanie, czy wspólna analiza dotycząca obu wsi przebadanych etnograficznie doprowa-
dzi do zbieżnych wyników oraz w jaki sposób zastosowanie jednej z metod hierarchicznych wpłynie
na podział typologiczny rzemiosła w latach 70. ubiegłego wieku, zaproponowany przez autorkę badań.
Przykład ten jest także interesujący z punktu widzenia rachunkowego. Przedstawia bowiem dane wy-
rażone w słabych skalach, z którymi historyk niejednokrotnie musi się zmierzyć.

10.2. Dane ilościowe w skali nominalnej w badaniach historycznych

Jak wspomniano wcześniej, badanymi jednostkami w prezentowanym przykładzie były warsztaty


prowadzące swoją działalność w dwóch wsiach powiatu nowotarskiego w roku 1970. Punktem wyj-
ścia do wyznaczenia typów warsztatów rzemieślniczych były następujące cechy: stopień zmechanizo-
wania warsztatu, charakter uprawianego zajęcia oraz zakres rynku zbytu i lokalizacja zakładu. Cechy
te wyrażono za pomocą następujących zmiennych: (𝑋1 ) narzędzia ręczne, (𝑋2 ) narzędzia mechanicz-
ne, (𝑋3 ) praca sezonowa, (𝑋4 ) praca stała, (𝑋5 ) praca na zamówienie małego kręgu odbiorców, (𝑋6 )
praca na zamówienie dużego kręgu odbiorców, (𝑋7 ) praca dla anonimowego odbiorcy, (𝑋8 ) wieś,
w której zlokalizowany był zakład. Wszystkie zmienne zostały wyrażone w skali nominalnej, dycho-
tomicznej, zatem przyjmują wartość zero dla odpowiedzi negatywnej lub jeden w razie pozytywnej
odpowiedzi. W przypadku ostatniej zmiennej (𝑋8 ) zero oznacza, że warsztat działał we wsi Waks-
mund, natomiast jeden, że był zlokalizowany we wsi Odrowąż. Specjalności poszczególnych warszta-
tów i wartości zmiennych ich charakteryzujących przedstawiono w tabeli 6 w Aneksie A.
Na podstawie zmiennych wyrażonych w skali dychotomicznej możemy jedynie przekształcić war-
tości zmiennych w taki sposób, aby przedstawiały tę samą informację. Można zatem wartości jeden
i zero w tabeli zastąpić wyrażeniami: „tak”, „nie” lub „występują” „nie występują”, „wieś Odrowąż”
„wieś Waksmund”. Spośród dozwolonych operacji matematycznych możliwe jest jedynie zliczenie
liczby jednostek odznaczających się określoną cechą i wyznaczenie modalnej (por. tab. 3.2 oraz 3.3).

Tabela 10.1. Statystyki opisowe warsztatów rzemieślniczych we wsi Odrowąż i Waksmund


Narzędzia Anoni-
Statystyki Narzędzia Praca Praca Mały krąg Duży krąg
mecha- mowy Wieś
opisowe ręczne sezonowa stała odbiorców odbiorców
niczne odbiorca
Liczebność „1” 8 11 15 4 8 11 3 10
Liczebność „0” 11 8 4 15 11 8 16 9
Modalna 0 1 1 0 0 1 0 1
Źródło: obliczenia własne na podstawie danych z tabeli 6, zawartej w aneksie 1.

Zestawienie statystyk opisowych, zawarte w tabeli 10.1, pozwoliło na wyciągnięcie wniosków do-
tyczących wszystkich zakładów rzemieślniczych w obu wsiach. W 1970 r. były to najczęściej zakłady
rzemieślnicze wykorzystujące narzędzia mechaniczne; w przeważającej części rzemieślnicy pracowali
w nich sezonowo dla dużego kręgu znanych sobie odbiorców.
10.3. Metoda eliminacji wektorów w sytuacji doboru zmiennych diagnostycznych 223

10.3. Metoda eliminacji wektorów w sytuacji doboru


zmiennych diagnostycznych

Jak wspomniano w rozdziale piątym, dobór zmiennych powinien opierać się na analizie ich współza-
leżności. W przypadku zmiennych wyrażonych w skali nominalnej miarą statystyczną używaną do
pomiaru współzależności może być wartość współczynnika korelacji czteropunktowej (por. wzór
[4.46]). Szczegółowo proces wyznaczania tego współczynnika przedstawiono w rozdziale 4.3.3.
Wartości współczynnika korelacji czteropunktowej wyznaczono dla każdej pary zmiennych, opi-
sujących warsztaty rzemieślnicze we wsi Odrowąż oraz Waksmund. Ich zestawienie prezentuje ma-
𝑁
cierz 𝑹𝑵 [10.1]. I tak współczynnik korelacji czteropunktowej 𝑟1;2 = −1 oznacza, że zmienna pierw-
sza i druga są ze sobą doskonale ujemnie skorelowane: w każdym warsztacie preferowano zatem tylko
jeden rodzaj narzędzi.

1,00 −1,00 0,44 −0,44 0,14 −0,14 −0,37 0,60


−1,00 1,00 −0,44 0,44 −0,14 0,14 0,37 −0,60
0,44 −0,44 1,00 −1,00 0,18 −0,18 −0,48 0,29
−0,44 0,44 −1,00 1,00 −0,18 0,18 0,48 −0,29
𝑹𝑵 = [10.1]
0,14 −0,14 0,18 −0,18 1,00 −1,00 0,22 −0,04
−0,14 0,14 −0,18 0,18 −1,00 1,00 −0,22 0,04
−0,37 0,37 −0,48 0,48 0,22 −0,22 1,00 −0,17
[ 0,60 −0,60 0,29 −0,29 −0,04 0,04 −0,17 1,00 ]

Na podstawie macierzy korelacji czteropunktowej 𝑹𝑵 [10.1] stwierdzono również, że w badaniu


brały udział cztery pary zmiennych doskonale ze sobą skorelowanych. Ta sytuacja dotyczy opisanych
𝑁 𝑁
wyżej narzędzi (𝑟1;2 = −1), a także czasu wykonywanej pracy (𝑟3;4 = −1) oraz kręgu odbiorców
𝑁
(𝑟5;6 = −1). Na podstawie zaprezentowanych wyników obliczeń można także zauważyć silne skorelo-
𝑁 𝑁
wanie rodzaju używanych narzędzi z lokalizacją warsztatu (𝑟1;8 = 0,60 oraz 𝑟2;8 = −0,60), co ozna-
cza, że mieszkańcy wsi Odrowąż używali w swoich warsztatach częściej narzędzi ręcznych,
a rzemieślnicy z Waksmundu uprawiali swoje rzemiosło przy użyciu głównie narzędzi mechanicznych.
Na podstawie macierzy korelacji czteropunktowej 𝑹𝑵 [10.1] wyznaczona została macierz odległo-
ści 𝑫𝑿 . W tym celu wykorzystano zależność zapisaną za pomocą wzoru [4.38]. Taką formę prze-
kształcenia zaproponowali HELLWIG (1981) oraz NOWAK (1990, s. 27). W podejściu tym zmienne
nieskorelowane ze sobą są od siebie najbardziej oddalone. Z kolei najbliższe sobie są zmienne dosko-
nale skorelowane dodatnio lub ujemnie. Macierz odległości pomiędzy ośmioma uwzględnionymi
w badaniu zmiennymi przedstawiono jako macierz 𝑫𝑿 [10.2].

0,00 0,00 1,06 1,06 1,31 1,31 1,12 0,90


0,00 0,00 1,06 1,06 1,31 1,31 1,12 0,90
1,06 1,06 0,00 0,00 1,28 1,28 1,02 1,20
1,06 1,06 0,00 0,00 1,28 1,28 1,02 1,20
𝑫𝑿 = . [10.2]
1,31 1,31 1,28 1,28 0,00 0,00 1,25 1,38
1,31 1,31 1,28 1,28 0,00 0,00 1,25 1,38
1,12 1,12 1,02 1,02 1,25 1,25 0,00 1,29
[0,90 0,90 1,20 1,20 1,38 1,38 1,29 0,00]

Już wstępna analiza wartości macierzy korelacji 𝑹𝑵 [10.1] i macierzy odległości 𝑫𝑿 [10.2] wska-
zuje na połączenie zmiennych parami. Niemniej jednak w ich doborze zaprezentowano kolejną
z metod stosowaną w tego typu zagadnieniach: metodę eliminacji wektorów. Jak wspomniano wcze-
224 10. Grupowanie obiektów historycznych na przykładzie rzemiosła wiejskiego we wsi Odrowąż

śniej w rozdziale 5.2.4, punktem wyjścia w tej procedurze taksonomicznej jest wyznaczenie krytycz-
nego poziomu niepodobieństwa. Można w tym celu zastosować jedną z reguł stopu. W prezentowa-
nym przykładzie wybrano tę, która została zaprezentowana jako wzór [5.9]:
𝑑max −𝑑min 1,38−0
𝑑 ∗ (𝑐 = 1,0): 𝑑∗ = 𝑐
= = 1,38;
1

𝑑max −𝑑min 1,38−0


𝑑 ∗ (𝑐 = 1,5): 𝑑∗ = = = 0,92;
𝑐 1,5

𝑑max −𝑑min 1,38−0


𝑑 ∗ (𝑐 = 2,0): 𝑑∗ = 𝑐
= 2
= 0,69.

W przypadku pierwszego założenia (𝑐 = 1,0), wartość krytyczna niepodobieństwa jest równa


wartości maksymalnej odległości. W związku z tym wszystkie zmienne zostałyby przypisane do jed-
nej grupy. Więcej grup zmiennych silnie ze sobą skorelowanych zostanie utworzonych przy drugim
założeniu (𝑐 = 1,5). Ostatnie założenie: (𝑐 = 2,0) sprowadza się do tego, że do jednej grupy trafią
tylko zmienne skorelowane w stopniu najwyższym.
Ostatecznie macierz odległości 𝑫𝑿 [10.2] skorygowano, zastępując jedynkami wszystkie jej war-
tości większe od krytycznego poziom niepodobieństwa, który wynosił 𝑑∗ = 0,92. Wartości mniejsze
zastąpiono zerami. W ten sposób powstała macierz 𝑫𝟏 . Następnie na podstawie jej wartości utworzo-
no wektor 𝒅𝟎 , w którym zliczono jedynki poszczególnych wierszy macierzy 𝑫𝟏 :

0 0 1 1 1 1 1 0 ∑1 = 5
0 0 1 1 1 1 1 0 ∑2 = 5
1 1 0 0 1 1 1 1 ∑3 = 6
1 1 0 0 1 1 1 1 ∑4 = 6
𝑫𝟏 = 𝑑0 = .
1 1 1 1 0 0 1 1 ∑5 = 6
1 1 1 1 0 0 1 1 ∑6 = 6
1 1 1 1 1 1 0 1 ∑7 = 𝟕 ⟸ 𝑚𝑎𝑥
[0 0 1 1 1 1 1 0] [ ∑8 = 5 ]

Na podstawie pozycji wartości maksymalnej w wektorze 𝑑0 można wnioskować, że


w największym stopniu krytyczny poziom niepodobieństwa przekroczyła zmienna siódma. W związku
z tym zmienną 𝑋7 usunięto z macierzy 𝑫𝟏 . W ten sam sposób w kolejnych etapach usunięto zmienne:
𝑋3 , 𝑋4 , 𝑋5 , 𝑋6 .

0 0 1 1 1 1 0 ∑1 = 4
0 0 1 1 1 0 ∑1 = 3
0 0 1 1 1 1 0 ∑2 = 4
0 0 1 1 1 0 ∑2 = 3
1 1 0 0 1 1 1 ∑3 = 𝟓
1 1 0 1 1 1 ∑ 4 =𝟓
𝑫′𝟏 = 1 1 0 0 1 1 1 𝒅′𝟎 = ∑4 = 5 , ′′
𝑫𝟏 = 𝒅′′
𝟎 = ∑ ,
1 1 1 0 0 1 5= 4
1 1 1 1 0 0 1 ∑5 = 5
1 1 1 0 0 1 ∑6 = 4
1 1 1 1 0 0 1 ∑6 = 5 [0
[0 0 1 1 1 0] [ ∑8 = 3 ]
0 1 1 1 1 0] [ ∑8 = 4 ]

0 0 1 1 0 ∑1 = 2
0 0 1 0 ∑1 = 1
0 0 1 1 0 ∑2 = 2
0 0 1 0 ∑2 = 1
𝑫′′′
𝟏 = 1 1 0 0 1 𝒅′′′
𝟎 = ∑5 = 𝟑 , 𝑫′′′′
𝟏 =[ ] 𝒅′′′′
𝟎 = ,
1 1 0 1 ∑6 = 𝟑
1 1 0 0 1 ∑6 = 3
[0 0 0 1 0 [ ∑8 = 1 ]
0 1 1 0] [ ∑8 = 2 ]

0 0 0 ∑1 = 0
𝑫′′′′′
𝟏 = [0 0 0] 𝒅′′′′′
𝟎 = [ ∑ 2 = 0].
0 0 0 ∑8 = 0
10.3. Metoda eliminacji wektorów w sytuacji doboru zmiennych diagnostycznych 225

W wyniku tego działania pierwsza podgrupę stworzyły zmienne {𝑋1 , 𝑋2 , 𝑋8 }. Zatem zmienne do-
tyczące rodzaju narządzi używanych w badanych warsztatach (zmienne 𝑋1 oraz 𝑋2 ) stworzyły jedną
grupę ze zmienną wskazującą na wieś, w której dany warsztat był zlokalizowany (zmienna 𝑋8 ).
W ostatnim kroku pętli pierwszej usunięte zostały z macierzy 𝑫𝟏 wiersze i kolumny, które odpowia-
dały zmiennym tworzącym pierwszą wyodrębnioną grupę zmiennych. W ten sposób powstała
macierz 𝑫𝟐 .
Z kolei na podstawie macierzy 𝑫𝟐 przeprowadzono drugą pętlę, w wyniku której wyodrębniono
drugą grupę zmiennych: {𝑋3 , 𝑋4 }:

0 0 1 1 1 ∑3 = 3
0 0 1 1 ∑3 = 3
0 0 1 1 1 ∑4 = 3
0 0 1 1 ∑ =3
𝑫𝟐 = 1 1 0 0 1 𝑑0 = ∑5 = 3 , 𝑫′𝟐 = [ ] 𝑑0′ = 4 ,
1 1 0 0 ∑5 = 𝟑
1 1 0 0 1 ∑6 = 3
[1 1 1 0 0 [ ∑6 = 3 ]
1 1 1 0] [∑7 = 𝟒]

0 0 1 ∑3 = 1
0 0 ∑ =0
𝑫′′
𝟐 = [0 0 1] 𝑑0′′ = [∑4 = 1], 𝑫′′′
𝟐 = [ ] 𝑑0′′′ = [ 3 ].
0 0 ∑4 = 0
1 1 0 ∑6 = 𝟐

Pętlę trzecią rozpoczęto od wyznaczenia macierzy 𝑫𝟑 . W jej efekcie powstała grupa zmiennych:
{𝑋5 , 𝑋6 }:

0 0 1 ∑5 = 1
0 0 ∑5 = 0
𝑫𝟑 = [0 0 1] 𝑑0 = [∑6 = 1], 𝑫′𝟑 = [ ] 𝑑0′ = [ ].
0 0 ∑6 = 0
1 1 0 ∑7 = 𝟐

Podsumowując, w efekcie zastosowania metody eliminacji wektorów utworzone zostały następu-


jące grupy zmiennych: {𝑋1 , 𝑋2 , 𝑋8 }; {𝑋3 , 𝑋4 }; {𝑋5 , 𝑋6 } oraz {𝑋7 }. Podobnie jak we wcześniej
przedstawionych przykładach dualnych procedur taksonomicznych, pozostaje do rozstrzygnięcia kwe-
stia wskazania w każdej z wyodrębnionych grup tej zmiennej, która w dalszych badaniach będzie re-
prezentowała wyodrębnione grupy. Oczywiście problem ten nie dotyczy grup jednoelementowych,
w tym przykładzie {𝑋7 }. Dla grupy {𝑋1 , 𝑋2 , 𝑋8 } zastosowano wzór [5.3]. Podstawiając odpowiednie
odległości z macierzy odległości 𝑫𝑿 [10.2], otrzymano:

𝐷1 = 𝑑1;2 + 𝑑1;8 = 0,00 + 0,90 = 0,90 ⇒ min,


𝐷2 = 𝑑2;1 + 𝑑2;8 = 0,00 + 0,90 = 0,90 ⇒ min,
𝐷8 = 𝑑8;1 + 𝑑8;2 = 0,90 + 0,90 = 1,80.

Z obliczeń wynika, że w najbliższej odległości od pozostałych zmiennych w grupie są dwie


zmienne: 𝑋1 , 𝑋2 . W prezentowanym przykładzie rozwiązaniem tego problemu będzie wykorzystanie
zmiennej agregatowej stworzonej z obu zmiennych. Dla zmiennych: narzędzia ręczne (𝑋1 ) oraz na-
rzędzia mechaniczne (𝑋2 ) można stworzyć nową zmienną: rodzaj narzędzi (𝑋1+2), w której wartości
zerowe będą odpowiadały sytuacji, w której w warsztacie przeważały narzędzia ręczne, natomiast
jedynki, gdy rzemieślnicy stosowali głównie narzędzia mechaniczne. Co więcej, zmienna ta będzie
reprezentowała także zmienną 𝑋8 związaną z wsią, w której prowadzony był badany zakład.
W ten sam sposób potraktowane zostały dwie pozostałe dwuelementowe grupy zmiennych: {𝑋3 ,
𝑋4 }; {𝑋5 , 𝑋6 }. Dla nich także stworzone zostały dwie kolejne zmienne „sztuczne”. Pierwsza z nich to
zmienna czas pracy (𝑋3+4 ), w której wartości zerowe przypisano, gdy praca w warsztacie była wyko-
226 10. Grupowanie obiektów historycznych na przykładzie rzemiosła wiejskiego we wsi Odrowąż

nywana sezonowo, a jedynki odpowiadają sytuacji, gdy praca wykonywana w warsztacie była trakto-
wana przez właściciela jako zajęcie stałe. Natomiast w zmiennej krąg odbiorców (𝑋5+6 ) wartości ze-
rowe oznaczają, że usługi w warsztacie były skierowane do wąskiego kręgu klientów, natomiast je-
dynki przypisano wtedy, gdy krąg ten był uznany za szeroki. W rezultacie do dalszych badań został
wybrany następujący zestaw zmiennych diagnostycznych: 𝑋1+2, 𝑋3+4, 𝑋5+6 oraz 𝑋7 .

10.4. Wyznaczenie macierzy odległości dla zmiennych wyrażonych


w skali nominalnej

W przypadku zmiennych wyrażonych w skali nominalnej, binarnej, punktem wyjścia do wyznaczenia


macierzy odległości jest zdefiniowanie macierzy podobieństwa 𝑺. W prezentowanym przykładzie tę
ostatnią ustalono, korzystając z współczynnika Sokala-Michenera (wzór [4.26]), opisanego szczegó-
łowo w rozdziale 4.2.1. Należy podkreślić, że podstawą do wyznaczenia podobieństwa pomiędzy każ-
dą parą obiektów były wskazane powyżej zmienne diagnostyczne: 𝑋1+2, 𝑋3+4 , 𝑋5+6 oraz 𝑋7 . Wy-
miar macierzy podobieństwa 𝑺 był równy liczbie porównywanych warsztatów i wynosił (19 × 19):
dziewiętnaście wierszy i tyle samo kolumn. Fragment macierzy 𝑺 dla pierwszych dziesięciu warszta-
tów rzemieślniczych przedstawiono jako [10.3].

1,00 0,50 0,75 1,00 1,00 0,75 0,75 0,75 0,75 0,13 ⋯
0,50 1,00 0,75 0,50 0,50 075 0,75 0,75 0,75 0,50 ⋯
0,75 0,75 1,00 0,75 0,75 0,50 0,50 0,50 0,50 0,25 ⋯
1,00 0,50 0,75 1,00 1,00 0,75 0,75 0,75 0,75 0,00 ⋯
1,00 0,50 0,75 1,00 1,00 0,75 0,75 0,75 0,75 0,00 ⋯
𝑺 = 0,75 0,75 0,50 0,75 0,75 1,00 1,00 1,00 1,00 0,25 ⋯ , [10.3]
0,75 0,75 0,50 0,75 0,75 1,00 1,00 1,00 1,00 0,25 ⋯
0,75 0,75 0,50 0,75 0,75 1,00 1,00 1,00 1,00 0,25 ⋯
0,75 0,75 0,50 0,75 0,75 1,00 1,00 1,00 1,00 0,25 ⋯
0,00 0,50 0,25 0,00 0,00 0,25 0,25 0,25 0,25 1,00 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]

Na podstawie macierzy podobieństwa 𝑺 [10.3]), korzystając z przekształcenia [4.22], można wy-


znaczyć macierz odległości 𝑫. Jej fragment zapisano jako [10.4]. Jak wspomniano wcześniej, w ten
sposób wyznaczona odległość w pakietach statystycznych nosi nazwę niezgodności procentowej.
Można ją także uzyskać bezpośrednio w programie Statistica, realizując ścieżkę: Statysty-
ka/Wielowymiarowe techniki eksploracyjne/Analiza skupień/Aglomeracja/Więcej. Wśród możliwych
opcji miar odległości, należy wybrać właśnie niezgodność procentową. Szerzej ten proces został opi-
sany w Aneksie B.
0,00 0,50 0,25 0,00 0,00 0,25 0,25 0,25 0,25 1,00 ⋯
0,50 0,00 0,25 0,50 0,50 025 0,25 0,25 0,25 0,50 ⋯
0,25 0,25 0,00 0,25 0,25 0,50 0,50 0,50 0,50 0,75 ⋯
000 0,50 0,25 0,00 0,00 0,25 0,25 0,25 0,25 1,00 ⋯
0,00 0,50 0,25 0,00 0,00 0,25 0,25 0,25 0,25 1,00 ⋯
𝑫 = 0,25 0,25 0,50 0,25 0,25 0,00 0,00 0,00 0,00 0,75 ⋯, [10.4]
0,25 0,25 0,50 0,25 0,25 0,00 0,00 0,00 0,00 0,75 ⋯
0,25 0,25 0,50 0,25 0,25 0,00 0,00 0,00 0,00 0,75 ⋯
0,25 0,25 0,50 0,25 0,25 0,00 0,00 0,00 0,00 0,75 ⋯
1,00 0,50 0,75 1,00 1,00 0,75 0,75 0,75 0,75 0,00 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]
10.4. Wyznaczenie macierzy odległości dla zmiennych wyrażonych w skali nominalnej 227

Już na podstawie zaprezentowanej części macierzy podobieństwa 𝑺 [10.3] i odległości 𝑫 [10.4]


można wskazać dwie grupy identycznych, ze względu na analizowane zmienne, warsztatów rzemieśl-
niczych. Do pierwszej należą warsztat pierwszy, czwarty i piąty. Natomiast drugą grupę stanowi
warsztat szósty, siódmy, ósmy oraz dziewiąty. Ten przykład zatem dobrze obrazuje, że macierz podo-
bieństwa/odległości może stanowić dobrą podstawę do grupowania obiektów.

10.5. Grupowanie warsztatów i wybór ostatecznego wyniku


w oparciu o wskaźnik GSI

Grupowanie przeprowadzono na podstawie macierzy odległości D [10.4]. Ze względu na fakt, że ma-


cierz odległości została wyznaczona w oparciu o współczynniki korelacji, nie jest zalecany dobór me-
tod związanych z wyznaczaniem środka ciężkości: metody średnich połączeń oraz średnich połączeń
ważonych. W tej sytuacji zaproponowano metodę Warda. Jej wyniki przedstawiono w postaci dendro-
gramu (rysunek 10.1).

Rysunek 10.1. Dendrogram grupowania metodą Warda (odległość: niezgodność procentowa) warsztatów rzemieślniczych
we wsi Odrowąż oraz Waksmund w 1970 r.

2,5

2,0
Odległość wiązania

1,5

1,0

0,5

0,0
w14 w12 w9 w7 w19 w16 w11 w3 w5 w1
w13 w10 w8 w6 w17 w2 w15 w18 w4

Źródło: opracowanie własne z wykorzystaniem programu Statistica.

W przykładzie tym oprócz zagadnień historycznych został przeanalizowany problem wpływu wy-
boru metody optymalnego podziału dendrogramu na wyniki grupowania. Jak wspomniano w rozdziale
6.1.2, metody podziału dendrogramu nie muszą prowadzić do identycznych wyników
i w ostateczności to badacz podejmuje decyzję, który wariant rozwiązania przyjmuje. Aby zaprezen-
tować tę sytuację, przeanalizowane zostaną trzy warianty rozwiązań. Wariant pierwszy stanowi pre-
zentację reguły pierwszego znaczącego skoku odległości aglomeracyjnej. W wariancie drugim opty-
228 10. Grupowanie obiektów historycznych na przykładzie rzemiosła wiejskiego we wsi Odrowąż

malny punkt przecięcia dendrogramu wyznaczony został w oparciu o iloraz odległości aglomeracyj-
nych. Natomiast w ostatnim podejściu (wariant trzeci) zaprezentowano możliwości, jakie daje reguła
górnego obszaru odrzucenia.

Wariant pierwszy
Punktem wyjścia do wyznaczenia optymalnego punktu przecięcia dendrogramu w oparciu o zastoso-
wanie reguły pierwszego znaczącego skoku odległości aglomeracyjnej jest wykres przebiegu aglo-
meracji przedstawiony na rysunku 10.2.

Rysunek 10.2. Wykres przebiegu aglomeracji w grupowaniu metodą Warda (odległość: niezgodność procentowa)
warsztatów rzemieślniczych we wsi Odrowąż oraz Waksmund w 1970 r.

3,0

2,5

2,0
Odległość wiązania

1,5

1,0

0,5

0,0

-0,5
0 2 4 6 8 10 12 14 16 18
Et ap wiązania

Źródło: opracowanie własne z wykorzystaniem programu Statistica.

Trudno w oparciu o jego analizę wskazać jednoznacznie pierwszy „znaczący” skok odległości
aglomeracyjnej, który wskazywałby jednoznacznie punkt przecięcia dendrogramu przedstawionego na
rysunku 10.1. Jest zatem oceną subiektywną badacza, którą zmianę odległości aglomeracyjnej uzna za
„znaczącą”. W tej sytuacji wskazano trzy takie odległości: 𝑑1 = 0,15, 𝑑2 = 0,50 oraz 𝑑3 = 1,50. Na
podstawie dendrogramu przedstawionego na rysunku 10.1. można stwierdzić, że w pierwszym przy-
padku, oznaczonym dalej jako wariant Ia, w wyniku podziału powstaje osiem skupień, które łączą
identyczne pod względem analizowanych cech warsztaty. W drugim przypadku (wariant Ib)
w wyniku podziału powstaje sześć skupień, a w trzecim jedynie trzy (wariant Ic).

Wariant drugi
W wariancie drugim optymalny punkt przecięcia dendrogramu wyznaczony został zgodnie z regułą
ilorazu odległości aglomeracyjnych. Obliczenia konieczne do zastosowania tego wariantu przedsta-
wiono w tabeli 10.2. Tym razem dendrogram przedstawiony na rysunku 10.1. w naturalny sposób
rozpadł się na cztery skupienia.
10.5. Grupowanie warsztatów i wybór ostatecznego wyniku 229

Tabela 10.2. Wyznaczenie optymalnego punktu przecięcia w oparciu iloraz odległości aglomeracyjnych
Uporządkowane malejąco
Ilorazy odległości aglomeracyjnych
odległości aglomeracyjne
𝑑1 2,40 𝑤2 = 𝑑1 /𝑑2 1,25 𝑤2 < 𝑤3
𝑑2 1,91 𝑤3 = 𝑑2 /𝑑3 1,91
𝒅𝟑 1,00 𝒘𝟒 = 𝒅𝟑 /𝒅𝟒 1,05 𝒘𝟒 < 𝒘𝟓
𝑑4 0,95 𝑤5 = 𝑑4 /𝑑5 1,52 𝑤5 < 𝑤6
𝑑5 0,63 𝑤6 = 𝑑5 /𝑑6 1,88
𝑑6 0,33 𝑤7 = 𝑑6 /𝑑7 1,33
𝑑7 0,25 𝑤8 = 𝑑7 /𝑑8 1,25 𝑤8 < 𝑤9
𝑑8 0,00 𝑤9 = 𝑑8 /𝑑9 1,91
... … …
𝑑18 0,00

Źródło: obliczenia własne na podstawie danych przedstawionych na rysunku 10.1.

Wariant trzeci
Ostatnie podejście wynikało z zastosowania reguły górnego obszaru odrzucenia. Zastosowanie wzo-
ru [6.3] wymaga wyznaczenia średniej ze wszystkich odległości aglomeracyjnych oraz ich odchylenia
standardowego. Wartości te wynosiły odpowiednio 𝑑̅ = 0,42 oraz 𝑠𝑑 = 0,72. W tej sytuacji, przyjmu-
jąc że 𝑘 = 1, dendrogram należy przeciąć na poziomie 𝑑5 = 1,14, a za optymalny przyjąć podział
czternastu warsztatów na trzy skupienia.

Podsumowując ten etap badań, warto zauważyć, że jedno z rozwiązań wariantu pierwszego oraz
wynik uzyskany w wariancie trzecim doprowadziły zgodnie do trzech skupień. Ich skład oraz ocena
jakościowa uzyskanych podziałów znajduje się w kolejnych kolumnach tabeli 10.3. Ostatnią jej ko-
lumnę stanowi całkowity indeks sylwetkowy 𝐺𝑆𝐼. O jego doborze przesądziła skala, w której wyrażo-
ne zostały zmienne opisujące grupowane warsztaty. Należy podkreślić, że zgodnie z interpretacją tej
miary, przedstawioną w rozdziale 6.3.3, można powiedzieć, że każde z uzyskanych grupowań można
uznać za poprawne: przeciętna odległość pomiędzy obiektami należącymi do poszczególnych skupień
okazała się być przeciętnie mniejsza niż przeciętna odległość pomiędzy obiektami tworzącymi różne
skupienia.

Tabela 10.3. Skład skupień po przecięciu dendrogramu i ich ocena: indeks 𝐺𝑆𝐼

Wariant Skład skupień 𝐺𝑆𝐼


{𝑤1 ; 𝑤4 ; 𝑤5 ; 𝑤18 }, {𝑤3 ; 𝑤15 }, {𝑤11 },
Wariant Ia 1,00
{𝑤2 , 𝑤16 , 𝑤17 , 𝑤19 }, {𝑤6 ; 𝑤7 ; 𝑤8 ; 𝑤9 }, {𝑤10 ; 𝑤12 }, {𝑤13 }, {𝑤14 }
{𝑤1 ; 𝑤4 ; 𝑤5 ; 𝑤18 }, {𝑤3 ; 𝑤15 ; 𝑤11 },
Wariant Ib 0,91
{𝑤2 , 𝑤16 , 𝑤17 , 𝑤19 }, {𝑤6 ; 𝑤7 ; 𝑤8 ; 𝑤9 }, {𝑤10 ; 𝑤12 }, {𝑤13 ; 𝑤14 }
{𝑤1 ; 𝑤4 ; 𝑤5 ; 𝑤18 ; 𝑤3 ; 𝑤15 ; 𝑤11 }
Wariant II 0,62
{𝑤2 , 𝑤16 , 𝑤17 , 𝑤19 }, {𝑤6 ; 𝑤7 ; 𝑤8 ; 𝑤9 }, {𝑤10 ; 𝑤12 ; 𝑤13 ; 𝑤14 }
Wariant Ic; {𝑤1 ; 𝑤4 ; 𝑤5 ; 𝑤18 ; 𝑤3 ; 𝑤15 ; 𝑤11 }
0,51
Wariant III {𝑤2 , 𝑤16 , 𝑤17 , 𝑤19 ; 𝑤6 ; 𝑤7 ; 𝑤8 ; 𝑤9 }, {𝑤10 ; 𝑤12 ; 𝑤13 ; 𝑤14 }

Źródło: obliczenia własne na podstawie macierzy odległości 𝑫 [10.4].


230 10. Grupowanie obiektów historycznych na przykładzie rzemiosła wiejskiego we wsi Odrowąż

Oczywiście podział na osiem skupień uzyskał najwyższą ocenę, ze względu na fakt, że w tym wa-
riancie (Ia) połączone w poszczególne skupienia zostały tylko jednostki identyczne. Szczegółową
charakterystykę tych wyników zamieściła w swoich pracach autorka badania (por. ZAMBURZYCKA-
-KUCHNATOWICZ 1974a oraz 1974b). Należy jednak podkreślić, że do uzyskania takiego wyniku nie
potrzebne było stosowanie złożonych metod taksonomicznych. Wystarczyło, po wyodrębnieniu
zmiennych diagnostycznych, uporządkować odpowiednio badane warsztaty w taki sposób, aby wyod-
rębnione skupienia łączyły tylko jednostki jednakowe.
Dużo ciekawszy wydaje się wskazany w dwóch wariantach (Ic i III) podział badanych warsztatów
na trzy skupienia. Właśnie ten wariant, ze względu na porównywalność w dwóch podejściach, można
uznać za ostateczny. Wyniki uzyskane przy takim podziale warsztatów scharakteryzowane zostały
w następnym rozdziale.

10.6. Charakterystyka uzyskanych wyników

Charakterystykę wyodrębnionych przy pomocy metody Warda skupień zawarto w tabeli 10.4. Ze
względu na skalę, w której zostały wyrażone zmienne, w tabeli 10.4 cechy charakterystyczne wyod-
rębnionych skupień wyrażone zostały jako udział warsztatów należących do danego skupienia, które
w przypadku danej zmiennej przyjęły wartości równe jedności. Obok uwzględnionych w badaniu
zmiennych w tabeli tej zamieszczono informacje dotyczące specjalizacji warsztatów tworzących po-
szczególne skupienia.

Tabela 10.4. Udział warsztatów rzemieślniczych o określonych cechach lub specjalnościach w wyodrębnionych grupach
warsztatów we wsi Odrowąż oraz Waksmund w 1970 r.

Skupienie 1 Skupienie 2 Skupienie 3


liczba zakładów 7 8 4
narzędzia mechaniczne 43% 50% 100%
pełny etat 100%
szeroki krąg odbiorców 100% 75%
anonimowy odbiorca 14% 50%
kołodziejstwo 43% 25%
kowalstwo 14%
stolarstwo 63% 75%
bednarstwo 43% 25%
ciesielstwo 29%
stolarstwo 29%
gnatki do wozów 14% 25%
pamiątkarstwo 25%

Źródło: obliczenia własne na podstawie podziału dendrytu przedstawionego na rysunku 10.1 na trzy skupienia.

Na podstawie przeprowadzonego grupowania można powiedzieć, że pierwszą grupę warsztatów


tworzy siedem z nich. Mniej niż połowa posiada i wykorzystuje w swojej pracy narzędzia mechanicz-
10.6. Charakterystyka uzyskanych wyników 231

ne. Wytwarzanie dóbr rzemieślniczych jest dla nich jedynie zajęciem dodatkowym, wykonywanym
w okresach wolniejszych od prac w gospodarstwie rolnym. Żaden z należących do tego skupienia
warsztatów nie wytwarza swoich dóbr dla szerokiego grona odbiorców. Są to w przeważającej części
sąsiedzi. Jedynie wskazywany przez jeden warsztat wyrób gnatek do wozów jest przeznaczany dla
anonimowego odbiorcy. Jak doprecyzowuje autorka badania, rzemieślnik wykonuje te wyroby w celu
sprzedaży na rynku w Nowym Targu oraz na zamówienie małego kręgu odbiorców. Na uwagę zasłu-
guje również, że do skupienia tego należały warsztaty trudniące się aż sześcioma różnymi profesjami
– najczęściej deklarowane to bednarstwo i kołodziejstwo.
Drugie najliczniejsze skupienie łączy warsztaty traktujące rzemiosło również jako zajęcie dodat-
kowe, wykonywane jako wsparcie budżetów domowych gospodarstw rolnych. Połowa z nich dyspo-
nuje jednak narzędziami mechanicznymi i wszyscy produkują dla szerokiego grona odbiorców, ale
odbiorcy są im znani. Warsztaty należące do tej grupy trudnią się bednarstwem, kołodziejstwem
i stolarstwem. Ta ostatnia profesja jednak przeważa.
Trzecie skupienie łączy tylko te warsztaty, które traktują swoje rzemiosło jako główne źródło
utrzymania. Są to warsztaty dysponujące przede wszystkim narzędziami mechanicznymi. Produkują
do szerokiego grona odbiorców, a połowa z nich wytwarza produkty dla anonimowych odbiorców, co
wiąże się z pewnością z ich standaryzacją. Uwagę zwraca fakt, że w ten sposób traktują swoją profesję
tylko warsztaty stolarskie.
Przedstawione badania, mimo że mają charakter statyczny, mogą służyć do sformułowania bar-
dziej syntetycznych wniosków dotyczących przemian zawodowych na polskiej wsi polskiej, a zatem
do zobrazowania procesów przemian na polskiej u progu lat 70. ubiegłego wieku. Wymieranie niektó-
rych zawodów wiązało się z takimi procesami, jak: profesjonalizacja zawodowa, specjalizacja oraz
standaryzacja wytwarzanych wyrobów. Co więcej, na profesjonalizację zawodową, zapewne ze
względu na zmieniający się rynek zbytu, mogli tylko liczyć stolarze.

W obszarze wniosków metodologicznych na uwagę zwraca przede wszystkim sposób postępowa-


nia w przypadku, gdy obiekty opisane zostały za pomocą zmiennych wyrażonych w skali dychoto-
micznej. W takiej sytuacji odległości między grupowanymi obiektami wyznaczane są w oparciu
o adekwatne do skali miary podobieństwa. Skala nominalna determinuje także ograniczenie liczby
dozwolonych metod taksonomicznych, których można użyć. Jednakże w przykładzie dotyczącym
rzemiosła zaprezentowano, że przypadku zmiennych binarnych, doskonale ze sobą skorelowanych,
można zastosować agregację zmiennych, co z jednej strony upraszcza proces obliczeniowy, a z drugiej
ułatwia wnioskowanie syntetyzujące.
W prezentowanym przykładzie szczególny nacisk położono na prezencję procesu doboru opty-
malnego miejsca przecięcia dendrogramu. Różne reguły proponowane w tym obszarze prowadzą do
zbliżonych, ale zwykle nietożsamych wyników. Wybór ostateczny należy zawsze do badacza. W ba-
daniach dotyczących rzemiosła wiejskiego pokazano, że w swoich decyzjach powinien się on kiero-
wać nie tylko osiągnięciem jak najwyższej jakości wyników grupowania, ale także spełnieniem celów
merytorycznych stawianych analizowanemu zagadnieniu.
11
Zagadnienie identyfikacji historycznej na przykładzie grupowania
dokumentów lub tekstów historycznych

Jednym z obszarów zainteresowania nauk humanistycznych zastosowaniem metod taksonomicz-


nych jest nie tyle grupowanie obiektów, co ich identyfikacja. Ma to miejsce na przykład w przypadku
analizowania dokumentów historycznych czy artefaktów. Należy jednak podkreślić, że właśnie ten ob-
szar badań w sposób niejednokrotnie bezpośredni przyczynił się do rozwoju metod taksonomicznych,
na co zwrócono uwagę w rozdziale drugim.
Zastosowanie metod grupowania w identyfikacji dokumentów i tekstów historycznych być może
w najlepszy sposób obrazuje znaczenie metod ilościowych w pracy humanisty. W momencie, kiedy ba-
dacz dysponuje już zebranym i opisanym materiałem, zweryfikowanym pod względem autentyczności,
zwykle na podstawie swojej wiedzy i doświadczenia identyfikuje badane przez siebie obiekty. W takich
sytuacjach pomoc narzędzi ilościowych jest zbędna. Jedynie w sytuacjach dwuznacznych, przy niepeł-
nej informacji, badacz odwołuje się do metod taksonomicznych, których rezultaty mogą stać się punk-
tem wyjścia w procesie wnioskowania.
W tego typu badaniach obiekty są opisane zmiennymi, które zwykle odnoszą się do charakterystycz-
nych cech badanych artefaktów lub ilości występowania charakterystycznych słów czy wyrażeń w przy-
padku dokumentów tekstowych. Takie warunki spełniają prace Henryka WĄSOWICZA (1986, s. 82-123;
1995, s. 182-312; 2007; 2016, s. 91-96), dotyczące kalendarzy świąt kościelnych, występujących w za-
leżności od zakresu badań w Europie do XVIII wieku, na ziemiach polskich lub w Krakowie, których
grupowanie przeprowadzono poprzez szczegółową analizę tkanki kalendarzy liturgicznych. Z pewno-
ścią dobrą ilustracją zagadnienia identyfikacji historycznej byłoby również grupowanie podręczników
historii dla klas gimnazjalnych, których ilościowa analiza treści przeprowadzona została przez Iwonę
CHMURĘ-RUTKOWSKĄ, Edytę GŁOWACKĄ-SOBIECH oraz Izabelę SKÓRZYŃSKĄ (2015). Oba wspo-
mniane przykłady charakteryzują się jednak dużą objętością, w konsekwencji czego prezentacja prze-
biegu całego procesu grupowania byłaby niemożliwa. Z tego powodu w rozdziale tym posłużono się
dużo prostszym przykładem.
Dane dotyczące klasyfikacji współczesnych dokumentów i tekstów zaczerpnięte zostały z publika-
cji HANDA i in. (2005, s. 514-528). Celem stawianym w tym przykładzie była identyfikacja dokumentu
dziesiątego w sytuacji, gdy historyk dysponuje wiedzą o pochodzeniu i cechach dziewięciu dokumen-
tów, a o autorstwie dziesiątego musi zdecydować na podstawie tylko szczątkowych informacji. Zatem,
w odróżnieniu od pozostałych egzemplifikacji prezentowanych w części praktycznej monografii, punk-
tem wyjścia do przedstawienia zagadnienia identyfikacji historycznej były jedynie przykładowe dane
ilościowe. Niemniej jednak wydaje się, że to uproszczenie pozwoliło w przejrzysty sposób zaprezento-
wać sposób postępowania w tego typu badaniach.
W obszarze grupowania zmiennych zastosowano, opisaną w rozdziale 5.2.2, metodę Czekanow-
skiego. Natomiast wnioskowanie dotyczące identyfikacji dokumentów wsparte zostało o wyniki jednej
234 11. Zagadnienie identyfikacji historycznej na przykładzie grupowania dokumentów lub tekstów

z metod hierarchicznych: metody pełnego wiązania, dla której podstawy teoretyczne zawarto w roz-
dziale 6.1.3. Dodatkowo w przykładzie tym porównano wpływ wyboru różnych miar odległości na wy-
niki grupowania, o czym wspomniano w rozdziale czwartym. W dwóch wariantach grupowania zasto-
sowano polecane w tego typu badaniach podejścia: odległość Marczewskiego-Steinhausa (por. wzór
[4.17]) oraz Mahalanobisa (por. wzór [4.12]). Ostateczną ocenę obu podejść oparto na wskaźniku jako-
ści grupowania 𝐶-Calińskiego-Harabasza (por. wzór [6.18]). Niewielka liczba zmiennych pozwoliła na
zaprezentowanie, opisanych w rozdziale 6.3.2, dwóch procedur jego wyznaczania.

11.1. Dane ilościowe w procesie grupowania dokumentów lub tekstów

Nieodłącznym elementem pracy historyka jest analiza dokumentów. Niejednokrotnie stoi on przed za-
daniem zidentyfikowania pochodzenia tego typu materiału lub wskazania jego autorstwa na podstawie
szczątkowych treści występujących w danym dokumencie. Nie zawsze decyzje w tym zakresie okazują
się jednoznaczne, w efekcie czego niejednokrotnie teksty historyczne poddawane są wnikliwej analizie
semantycznej. Wydaje się, że przykład ten dobrze obrazuje miejsce metod ilościowych w badaniach
historycznych. Historyk w tego typu badaniach musi zapoznać się z grupą dokumentów, wyodrębnić
słowa bądź wyrażenia kluczowe w danym okresie, dla potencjalnych autorów, w końcu zliczyć okre-
ślone wyrażenia. Przykładem tego typu badań mogą być prowadzone w środowisku poznańskim analizy
dotyczące narracji historycznej w podręcznikach historii dla gimnazjalistów (CHMURA-RUTKOWSKA
i in. 2015). Dopiero na ostatnim etapie tego typu badań można wykorzystać metody grupowania, a ich
wyniki mogą służyć jedynie jako podstawa do dalszego i zapewne szerszego wnioskowania historycz-
nego.
W badaniach dotyczących klasyfikacji dokumentów wszystkie zmienne są wyrażone jako liczba
występowania poszczególnych słów lub wyrażeń w badanych obiektach. Przytoczone dane zostały za-
prezentowane w formie tabeli 7, zamieszczonej w Aneksie A. W swoich badaniach HAND i in. (2005,
s. 515-528) przeanalizowali dziesięć dokumentów pod względem występowania w nich sześciu wyra-
żeń. Jest to zatem przykład badań strukturalnych, w których zmienne są jednoimienne, wyrażone w tej
samej skali (ilorazowej) i w tej samej jednostce pomiarowej. Powoduje to, że rząd wielkości zmiennych
jest porównywalny: zmienne dotyczące słów lub wrażeń występujących w tekście częściej przyjmują
określone wartości, niezależnie którego słowa lub wyrażenia dotyczą. Co więcej, zakres ich zmienności
jest także taki sam: [0; 𝑘], gdzie k jest maksymalną liczbą wystąpień jednego z poszukiwanych słów
lub wyrażeń. Ponadto w macierzy obserwacji nie występują wartości ujemne. Zatem zmienne w przy-
padku klasyfikacji dokumentów lub tekstów zwykle nie wymagają przeprowadzenia procesu normali-
zacji.

11.2. Dobór zmiennych diagnostycznych metodą Czekanowskiego

W prezentowanym przykładzie dobór zmiennych diagnostycznych przeprowadzono w oparciu o metodę


Czekanowskiego, która została opisana w rozdziale 5.2.2. Podobnie jak w większości metod taksonomicz-
nych stosowanych w przypadku grupowania zmiennych, punktem wyjścia w metodzie Czekanowskiego
jest wyznaczenie macierzy korelacji. W przypadku badań dotyczących klasyfikacji dokumentów i tek-
stów uwzględniono sześć zmiennych (𝑚 = 6). Z tego powodu macierz korelacji Pearsona 𝑹𝑷 (por. wzór
11.2. Dobór zmiennych diagnostycznych metodą Czekanowskiego 235

[4.40]), stosowana w przypadku zmiennych wyrażonych w skali ilorazowej, miała wymiar 6 × 6. Macierz
tę zaprezentowano jako [11.1]. Kolejne wiersze i kolumny tej macierzy odnoszą się do poszczególnych
zmiennych, których nazwy zostały wymienione w tabeli 7, zamieszczonej w Aneksie A:

1,00 −0,72 0,88 −0,43 0,90 −0,45


−0,72 1,00 −0,76 0,81 −0,61 0,56
0,88 −0,76 1,00 −0,48 0,95 −0,52
𝑹𝑷 = . [11.1]
−0,43 0,81 −0,48 1,00 −0,35 0,62
0,90 −0,61 0,95 −0,35 1,00 −0,45
[−0,45 0,56 −0,52 0,62 −0,45 1,00 ]

Występowanie wyrażenia „baza danych” było dodatnio skorelowane z wyrażeniem „SQL” oraz
𝑃 𝑃
„indeks”. Współczynniki korelacji między nimi wynosiły odpowiednio: 𝑟1;3 = 0,88 oraz 𝑟1;5 = 0,90.
Oznacza to, że w sytuacji, w której występowało w badanych dokumentach stosunkowo często wyraże-
nie „baza danych”, odnotowywana była także większa liczba występowania wyrażenia „SQL”. Wysoką
𝑃
dodatnią korelację odnotowano także między wyrażeniami „regresja” i „wiarygodność” (𝑟2;4 = 0,81).
Za to o ujemnym silnym związku można natomiast mówić w przypadku zmiennej „regresja” ze zmien-
𝑃 𝑃
nymi „baza danych” oraz „SQL” (𝑟2;1 = −0,72 oraz 𝑟2;3 = −0,76). Oznacza to, że im częściej w ba-
danych dokumentach pojawiało się pierwsze z wymienionych wyrażeń, tym rzadziej występowały
w nich frazy „baza danych” i „SQL”.
Na podstawie macierzy korelacji 𝑹𝑷 [11.1] została wyznaczona macierzy odległości 𝑫𝑿 [11.2].
W tym przypadku zastosowano przekształcenie zgodne ze wzorem [4.38], które zakłada największą od-
ległość między zmiennymi nieskorelowanymi. Wynik tego przekształcenia zaprezentowano poniżej:

0,00 0,75 0,50 1,07 0,45 1,05


0,75 0,00 0,70 0,61 0,88 0,94
0,50 0,70 0,00 1,02 0,30 0,98
𝑫𝑿 = . [11.2]
1,07 0,61 1,02 0,00 1,14 0,87
0,45 0,88 0,30 1,14 0,00 1,05
[0,05 0,94 0,98 0,87 1,05 0,00]

Na podstawie tych informacji wyodrębniono klasy odległości między zmiennymi. Już z macierzy
korelacji 𝑹𝑷 [11.1] można wywnioskować, że grup zmiennych ściśle ze sobą związanych będzie nie-
wiele. Z tego powodu na podstawie macierzy odległości 𝑫𝑿 [11.2] wyodrębniono trzy klasy odległości
między zmiennymi i przyporządkowano im odpowiednie tekstury. Przy ich wyznaczaniu posłużono się
percentylami: w arkuszu kalkulacyjnym Excel wykorzystano funkcję PERCENTYL(), wskazując war-
tość percentylu na 0,33 oraz 0,66. Zakres danych stanowiły wartości zawarte w macierzy odległości 𝑫𝑿
[11.2] .W rezultacie ustalono następujące klasy odległości:

𝑑𝑖𝑗 ≤ 0,57 0,57 < 𝑑𝑖𝑗 ≤ 0,95 𝑑𝑖𝑗 > 0,95

Wyodrębnienie klas odległości pozwoliło na budowę nieuporządkowanego diagramu Czekanow-


skiego. Został on zaprezentowany na rysunku 11.1.
236 11. Zagadnienie identyfikacji historycznej na przykładzie grupowania dokumentów lub tekstów

Rysunek 11.1. Nieuporządkowany diagram Czekanowskiego dla zmiennych


opisujących dokumenty

𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6

𝑋1 0,00 0,75 0,50 1,07 0,45 1,05

𝑋2 0,75 0,00 0,70 0,61 0,88 0,94

𝑋3 0,50 0,70 0,00 1,02 0,30 0,98

𝑋4 1,07 0,61 1,02 0,00 1,14 0,87

𝑋5 0,45 0,88 0,30 1,14 0,00 1,05

𝑋6 1,05 0,94 0,98 0,87 1,05 0,00

Źródło.: opracowanie własne.

Aby uporządkować diagram Czekanowskiego, zastosowano opisany w części teoretycznej sposób


postępowania zaproponowany przez GRABIŃSKIEGO (1989b). W tym celu wyznaczono elementy 𝑢𝑖𝑗 ,
tworzące macierz 𝑼 [11.3]. Przykładowe elementy macierzy 𝑼 [11.3] obliczono wg wzoru:

𝑢𝑖𝑗 = |𝑖 − 𝑗|/(𝑚 − 1)
|1−2| |2−2| |6−2|
𝑢1;2 = (6−1) = 0,2; 𝑢2;2 = (6−1) = 0; 𝑢6;2 = (6−1) = 0,8 …

0,0 0,2 0,4 0,6 0,8 1,0


0,2 0,0 0,2 0,4 0,6 0,8
0,4 0,2 0,0 0,2 0,4 0,6
𝑼= [11.3]
0,6 0,4 0,2 0,0 0,0 0,4
0,8 0,6 0,4 0,2 0,0 0,2
[1,0 0,8 0,6 0,4 0,2 0,0]

Na tej podstawie możliwe było wyznaczenie odpowiednich iloczynów 𝑑𝑖𝑗 𝑢𝑖𝑗 , znajdujących się nad
przekątnymi macierzy 𝑫𝑿 [11.2] oraz macierzy 𝑼 [11.3]. Funkcja kryterium 𝐹 dla diagramu Czekanow-
skiego, przedstawionego na rysunku 11.1, przyjęła następującą wartość:

𝐹 = [0,75 ∗ 0,2] + [0,50 ∗ 0,4 + 0,70 ∗ 0,2] + [1,07 ∗ 0,6 + 0,61 ∗ 0,4 + 1,02 ∗ 0,2] +
+[0,45 ∗ 0,8 + 0,88 ∗ 0,6 + 0,30 ∗ 0,4 + 1,14 ∗ 0,2] +
+[1,05 ∗ 1 + 0,94 ∗ 0,8 + 0,98 ∗ 0,6 + 0,87 ∗ 0,4 + 1,05 ∗ 0,2] = 5,77.

Wartość tej funkcji należy obliczać po każdym przestawieniu kolumny i wiersza w diagramie Czeka-
nowskiego, dlatego warto korzystać z możliwości jakie daje program Excel i stworzyć odpowiedni ar-
kusz funkcji powiązanych.
Przestawienie pierwszej kolumny z drugą i pierwszego wiersza z drugim przyniosło wzrost funkcji
kryterium do poziomu 𝐹 = 5,78. Uznano zatem, że ta zamiana jest efektywna i ją utrzymano. W następ-
nym kroku sprawdzono rezultat zamiany kolumny drugiej z trzecią (oraz wiersza drugiego z trzecim). Dla
tego ustawienia diagramu funkcja kryterium osiągnęła wartość 𝐹 = 6,40. Pozostawiono zatem tę zmianę.
11.2. Dobór zmiennych diagnostycznych metodą Czekanowskiego 237

Następnie sprawdzano rezultat zamiany kolumny trzeciej i czwartej. Proces ten był kontynuowany, aż do
momentu w którym funkcja 𝐹 osiągnęła wartość maksymalną, tzn. żadna zmiana ułożenia diagramu Cze-
kanowskiego nie podnosiła już wartości funkcji 𝐹. Efekt tych działań to uporządkowany diagram Czeka-
nowskiego, przedstawiony na rysunku 11.2.
Rysunek 11.2. Uporządkowany diagram Czekanowskiego

𝑋4 𝑋6 𝑋2 𝑋1 𝑋3 𝑋5

𝑋4 0,00 0,87 0,61 1,07 1,02 1,14

𝑋6 0,87 0,00 0,94 1,05 0,98 1,05

𝑋2 0,61 0,94 0,00 0,75 0,70 0,88

𝑋1 1,07 1,05 0,75 0,00 0,50 0,45

𝑋3 1,02 0,98 0,70 0,50 0,00 0,30

𝑋5 1,14 1,05 0,88 0,45 0,30 0,00

Źródło.: opracowanie własne.

Dla uporządkowanego diagramu Czekanowskiego można zaproponować kilka możliwych podzia-


łów zmiennych. Ich przykłady przedstawiono w tabeli 11.1. Zawarta w niej ocena poprawności grupo-
wania została przeprowadzona w oparciu o wzór [5.6]. Za powiązania bliskie uznano te, które należały
do pierwszej klasy odległości i były oznaczone w diagramie Czekanowskiego najciemniejszym kolo-
rem. Powiązania dalsze stanowiły dwie pozostałe klasy odległości. Na podstawie wskaźnika poprawno-
ści podziału 𝑊𝑝 , zawartego w ostatniej kolumnie tabeli 11.1, za najlepszy uznano podział zmiennych na
jedną grupę trzyelementową {𝑋1 ,𝑋3 , 𝑋5 } oraz trzy grupy jednoelementowe: {𝑋2 }, {𝑋4 }, {𝑋6 }.

Tabela 11.1. Ocena poprawności podziałów zmiennych uzyskanych w wyniku zastosowania metody Czekanowskiego
Ocena poprawności grupowania
Proponowany podział zmiennych na grupy
𝑝𝑏𝑤 𝑊 𝑝𝑑𝑧 𝑍 𝑊𝑝
Podział 1: {𝑋4 }, {𝑋6 }, {𝑋2 }, {𝑋1 ,𝑋3 , 𝑋5 } 12 12 24 24 1,00
Podział 2: {𝑋4 , 𝑋6 , 𝑋2 }, {𝑋1 ,𝑋3 , 𝑋5 } 12 18 18 18 0,67
Podział 3: {𝑋4 }, {𝑋6 }, {𝑋2 ,𝑋1 ,𝑋3 , 𝑋5 } 12 18 18 18 0,67
Podział 4: {𝑋4 ,𝑋6 }, {𝑋2 ,𝑋1 ,𝑋3 , 𝑋5 } 12 20 16 16 0,60
Podział 4: {𝑋4 ,𝑋6 }, {𝑋2 }, {𝑋1 ,𝑋3 , 𝑋5 } 12 14 22 22 0,86
𝑝𝑏𝑤 – liczba powiązań bliskich między obiektami wewnątrz wyodrębnionych grup; 𝑊 – liczba wszystkich powiązań wewnątrz
grup; 𝑝𝑑𝑧 – liczba powiązań dalszych między obiektami na zewnątrz wyodrębnionych grup; 𝑍 – liczba wszystkich powiązań
na zewnątrz wyodrębnionych grup; grup; 𝑊𝑝 – wskaźnik poprawności podziału.
Źródło: obliczenia własne na podstawie uporządkowanego diagramu Czekanowskiego przedstawionego na rysunku 11.2.

Dzięki powiązaniu symboli zmiennych z ich długimi nazwami, zawartymi w tabeli 7 w aneksie A,
można przeprowadzić opis uzyskanych wyników. Utworzenie grupy trzyelementowej wskazuje, że
frazy: „baza danych”, „SQL” oraz „indeks” w podobny sposób różnicowały badane dokumenty. Dla tej
238 11. Zagadnienie identyfikacji historycznej na przykładzie grupowania dokumentów lub tekstów

grupy zmiennych {𝑋1 , 𝑋3 , 𝑋5 } należy wybrać jedną zmienną diagnostyczną, która w dalszych bada-
niach będzie reprezentowała tę grupę. W tym celu wykorzystano wzór [5.3]. Podstawiając odpowiednie
odległości z macierzy odległości 𝑫𝑿 [11.2], otrzymano:

𝐷1 = 𝑑1;3 + 𝑑1;5 = 0,50 + 0,45 = 0,95,


𝐷3 = 𝑑3;1 + 𝑑3;5 = 0,50 + 0,30 = 0,80,
𝐷5 = 𝑑5;1 + 𝑑5;3 = 0,45 + 0,30 = 0,75.

Na tej podstawie można stwierdzić, że najbliższa pozostałym zmiennym w grupie {𝑋1 ,𝑋3 , 𝑋5 } oka-
zała się zmienna 𝑋3 „SQL”. Zatem dalszych badaniach zostaną uwzględnione następujące zmienne: 𝑋2 ,
𝑋4 , 𝑋6 oraz zmienna 𝑋3 . jako reprezentantka grupy {𝑋1 , 𝑋3 , 𝑋5 }.

11.3. Grupowanie dokumentów lub tekstów w oparciu o różne miary


odległości

W przypadku grupowania obiektów historycznych wskazane wydaje się stosowanie metod hierarchicz-
nych. Pozwalają one bowiem nie tylko na podział tych obiektów na grupy, ale i ukazują wewnętrzną
strukturę hierarchiczną uzyskanych skupień. Spośród dostępnych w ramach programu Statistica metod
hierarchicznych wybrano algorytm pełnego wiązania. Szczegółowy jego opis można znaleźć w roz-
dziale 6.1.3. O wyborze tej metody w prezentowanym przykładzie przesądziło to, że prowadzi ona do
wyodrębnienia zwartych skupień obiektów i cechuje się dużą efektywnością. W przypadku identyfikacji
dokumentów i tekstów ważną jej cechą jest większa niż w innych metodach skłonność do tworzenia
skupień jednoelementowych, czyli wyodrębniania obiektów odstających.
Jak wspomniano w rozdziale czwartym, wyniki grupowania zależą nie tylko od doboru zmiennych
diagnostycznych czy metody grupowania. Na rezultaty tego procesu wpływa także miara odległości.
Niestety nie zawsze dobór tej miary jest jednoznaczny. Zwykle dla uwzględnionego w badaniu typu
danych i realizacji określonych celów grupowania badacz ma do dyspozycji większą liczbę miar podo-
bieństwa i niepodonieństwa. Z tego względu tym razem w dwóch wariantach obliczeń zaprezentowano
wpływ miary odległości na rezultaty grupowania. Wariant pierwszy zakładał, że grupowanie dokumen-
tów metodą pełnego wiązania odbywać się będzie przy założeniu wcześniejszego wyznaczenia odległo-
ści między nimi miarą Marczewskiego-Steinhausa (por. wzór [4.17]). W drugim wariancie punktem
wyjścia procesu grupowania była macierz odległości Mahalanobisa (por. wzór [4.12]).

Wariant pierwszy
W wyniku zastosowania metody Czekanowskiego w badaniach dotyczących identyfikacji dokumentów
i teksów uwzględniono zmienne: 𝑋2 , 𝑋4 , 𝑋6 oraz zmienną 𝑋3 jako reprezentantkę grupy {𝑋1 , 𝑋3 , 𝑋5 }.
Dotyczyły one kolejno występowania następujących fraz: regresja (𝑋2 ), wiarygodność (𝑋4 ), liniowa
(𝑋6 ), SQL (𝑋3 ). W oparciu o te zmienne wyznaczono odległości Marczewskiego-Steinhausa pomiędzy
grupowanymi dziesięcioma dokumentami. Zestawiono je w macierz odległości 𝑫𝑴𝑺 [11.3]. Wszystkie
obliczenia przeprowadzono w programie Excel.
11.3. Grupowanie dokumentów lub tekstów w oparciu o różne miary odległości 239

0,000 0,545 0,364 0,727 0,444 0,953 0,985 0,964 0,966 0,957
0,545 0,000 0,286 0,400 0,706 1,000 0,979 1,000 1,000 1,000
0,364 0,286 0,000 0,571 0,588 1,000 0,981 1,000 1,000 1,000
0,727 0,400 0,571 0,000 0,824 1,000 0,976 1,000 1,000 1,000
0,444 0,706 0,588 0,824 0,000 1,000 0,988 1,000 1,000 1,000
𝑫𝑴𝑺 = [11.3]
0,953 1,000 1,000 1,000 1,000 0,000 0,633 0,474 0,424 0,195
0,985 0,979 0,981 0,976 0,988 0,633 0,000 0,371 0,467 0,696
0,964 1,000 1,000 1,000 1,000 0,474 0,371 0,000 0,593 0,578
0,966 1,000 1,000 1,000 1,000 0,424 0,467 0,593 0,000 0,322
[0,957 1,000 1,000 1,000 1,000 0,195 0,696 0,578 0,322 0,000]

Stosując metodę pełnego wiązania w oparciu o wyznaczoną macierz odległości Marczewskiego-


-Steinhausa 𝑫𝑴𝑺 [11.3], przeprowadzono grupowanie dziesięciu obiektów tekstowych. Podobnie jak
w przykładzie dotyczącym periodyzacji (por. rozdział dziewiąty) macierz odległości wyznaczono w ar-
kuszu kalkulacyjnym, a następnie zaimportowano ją do programu Statistica, za pomocą którego prze-
prowadzono w następnym etapie badań grupowanie. Procedura ta została opisana w Aneksie B. W wy-
niku tego procesu wyznaczono dendrogram, przestawiony na rysunku 11.3.

Rysunek 11.3. Dendrogram grupowania metodą pełnego wiązania (odległość Marczewskiego-Steinhausa)


dziesięciu dokumentów tekstowych

1,1

1,0

0,9

0,8
Odległość wiązania

0,7

0,6

0,5

0,4

0,3

0,2

0,1
O8 O7 O9 O10 O6 O4 O3 O2 O5 O1

S3 S2 S1

Źródło: opracowanie własne z wykorzystaniem programu Statistica.

Aby wskazać optymalny punkt przecięcia dendrogramu, zastosowano tym razem, opisaną w roz-
dziale 6.1.2, regułę górnego obszaru odrzucenia Mojeny (por. wzór [6.3]). W tym celu konieczne było
odczytanie z dendrogramu odległości aglomeracyjnych, na których następowały kolejne etapy wiązania.
Procedurę uzyskania takiego zestawienia w ramach oprogramowania Statistica opisano w Aneksie B.
W prezentowanym przykładzie wartości te uporządkowane rosnąco wynosiły odpowiednio:
𝑑1 = 0,195 𝑑2 = 0,286 𝑑3 = 0,371
𝑑4 = 0,424 𝑑5 = 0,444 𝑑6 = 0,571
𝑑7 = 0,696 𝑑8 = 0,824 𝑑9 = 1,000
240 11. Zagadnienie identyfikacji historycznej na przykładzie grupowania dokumentów lub tekstów

średnia odległość aglomeracyjna: 𝑑̅ = 0,535


odchylenie standardowe odległości aglomeracyjnych: 𝑠𝑑 = 0,248.

Zgodnie z regułą górnego obszaru odrzucenia (MOJENA 1977), optymalny podział obiektów dla 𝑘 =
0,75 następuje na 𝑒-tym etapie wiązania, dla którego odległość aglomeracyjna pierwszego następnego
etapu spełnia nierówność:

𝑑𝑒+1 > 𝑑̅ + 𝑘𝑠𝑑 ⇒ 𝑑𝑒+1 > 0,535 + 0,75 ∗ 0,248 ⇒ 𝑑𝑒+1 > 0,721.

W myśl tej reguły dendrogram przedstawiony na rysunku 11.3 należało przeciąć na siódmym etapie
wiązania. Wniosek ten zaznaczono na dendrogramie linią przerywaną. Przy takich założeniach uzy-
skany został podział grupowanych dokumentów na trzy skupienia: 𝑠1 ={𝑂1 ; 𝑂5 }, 𝑠2 ={𝑂2 ; 𝑂3 ; 𝑂4 },
𝑠3 ={𝑂6 ; 𝑂7 ; 𝑂8 ; 𝑂9 ; 𝑂10}.

Wariant drugi
Grupowanie metodą pełnego wiązania powtórzono. Wariant drugi dla tego grupowania bazował tym
razem na macierzy odległości Mahalanobisa 𝑫𝑴 (por. wzór [4.12]). Podobnie jak w wariancie pierw-
szym, wyznaczono ją w arkuszu kalkulacyjnym:

0,00 8,13 1,01 7,21 11,05 8,04 12,32 8,76 7,95 10,13
8,13 0,00 7,21 0,68 10,30 3,17 10,23 4,05 14,14 5,77
1,01 8,23 0,00 5,94 16,89 9,09 12,15 8,06 10,37 12,06
7,21 0,68 5,94 0,00 14,77 3,64 10,72 4,06 14,13 6,44
11,05 10,30 16,89 14,77 0,00 12,16 15,13 13,45 15,85 14,19
𝑫𝑴 = . [11.4]
8,04 3,17 9,09 3,64 12,16 0,00 9,21 3,98 5,37 0,86
12,32 10,23 12,15 10,72 15,13 9,21 0,00 1,72 10,17 15,18
8,76 4,05 8,06 4,06 13,45 3,98 1,72 0,00 8,85 8,52
7,95 14,14 10,37 14,13 15,85 5,37 10,17 8,85 0,00 5,89
[10,13 5,77 12,06 6,44 14,19 0,86 15,18 8,52 8,52 0,00 ]

Macierzy odległości 𝑫𝑴 [11.4] stanowiła podstawę grupowania metodą pełnego wiązania. W wy-
niku tego procesu wyznaczono dendrogram, przestawiony na rysunku 11.4. Podobnie jak w poprzednim
wariancie, aby wskazać optymalny punkt przecięcia dendrogramu zastosowano regułę górnego obszaru
odrzucenia Mojeny (por. wzór [6.3]). Niezbędne było zatem określenie wartości odległości aglomera-
cyjnych. W prezentowanym przykładzie wynosiły one odpowiednio:

𝑑1 = 0,676 𝑑2 = 0,865 𝑑3 = 1,014


𝑑4 = 1,723 𝑑5 = 5,885 𝑑6 = 8,227
𝑑7 = 12,324 𝑑8 = 15,176 𝑑9 = 16,891
średnia odległość aglomeracyjna: 𝑑̅ = 6,976
odchylenie standardowe odległości aglomeracyjnych: 𝑠𝑑 = 6,491.

Przyjmując w regule górnego obszaru odrzucenia wartość stałej na poziomie 𝑘 = 0,75, wyznaczono
punkt optymalnego podziału dendrytu, przedstawionego na rysunku 11.4:

𝑑𝑒+1 > 𝑑̅ + 𝑘𝑠𝑑 ⇒ 𝑑𝑒+1 > 6,876 + 0,75 ∗ 6,491 ⇒ 𝑑𝑒+1 > 11,844.
11.3. Grupowanie dokumentów lub tekstów w oparciu o różne miary odległości 241

Rysunek 11.4. Dendrogram grupowania metodą pełnego wiązania (odległość Marczewskiego-Steinhausa)


dziesięciu dokumentów tekstowych

18

16

14

12
Odległość wiązania

10

0
O5 O9 O10 O6 O8 O7 O4 O2 O3 O1

S2 S4 S3 S1

Źródło: opracowanie własne z wykorzystaniem programu Statistica.

W myśl tej reguły dendrogram należy przeciąć na siódmym etapie wiązania. W wyniku przeprowadze-
nia grupowania metodą pełnego wiązania w oparciu o wyodrębniono następujące skupienia:
𝑠1 ={𝑂1 ; 𝑂3 ; 𝑂2 ; 𝑂4 }, 𝑠2 ={𝑂5 }, 𝑠3 ={𝑂7 ; 𝑂8 }, 𝑠4 ={𝑂6 ; 𝑂9 ; 𝑂10 }. O wyborze rozwiązania ostatecz-
nego spośród obu zaprezentowanych podejść zadecyduje wartość współczynnika oceny grupowania, dla
którego proces wyznaczania opisany został w kolejnym podrozdziale.

11.4. Ocena uzyskanych wyników na podstawie wartości


wskaźnika 𝑪 Calińskiego-Harabasza

Analizowane w tym przykładzie dziesięć dokumentów pogrupowano metodą pełnego wiązania


w dwóch wariantach: w oparciu od macierz odległości Marczewskiego-Steinhausa oraz Mahalanobisa.
Wyniki grupowania uzyskane w obu podejściach nieco się różniły. Jednakże w każdym z nich obiekt
dziesiąty, który jak założono podlegał identyfikacji, znalazł się najbliżej obiektów szóstego. Zatem cel
stawiany w prezentowanym przykładzie został osiągnięty. Wniosku tego nie można uznać jednak za
regułę. Z dużo trudniejszą decyzją musiałby zmierzyć się badacz, gdyby identyfikacji podlegał dla przy-
kładu dokument piąty. Zatem powstaje pytanie, w oparciu o którą odległość grupowanie doprowadzi-
łoby do bardziej wiarygodnych wyników. Aby udzielić na nie odpowiedzi można posłużyć się wskaź-
nikiem 𝐶 Calińskiego-Harabasza.
Punktem wyjścia do wyznaczenia wskaźnika 𝐶 Calińskiego-Harabasza jest obliczenie śladu macie-
rzy wariancji wewnątrzgrupowej i międzygrupowej (por. wzór [6.18]). Ze względu na fakt, że podstawą
grupowania w prezentowanym przykładzie były zmienne niestandaryzowane, wspomniane macierze
242 11. Zagadnienie identyfikacji historycznej na przykładzie grupowania dokumentów lub tekstów

mogły zostać wyznaczone na podstawie wzorów [6.13] oraz [6.15]. Możliwe było także zastosowanie
uproszczonego sposobu wyznaczania śladów obu macierzy, zaproponowane przez autorów wskaź-
nika 𝐶 (CALIŃSKI, HARABASZ 1974). Oba podejścia zostaną zaprezentowane poniżej odpowiednio do
wyników wariantu pierwszego, w którym zastosowano metodę pełnego wiązania z wykorzystaniem od-
ległości Marczewskiego-Steinhausa oraz wariantu drugiego w którym grupowanie tą samą metodą ba-
zowało na odległości Mahalanobisa. Oczywiście wybór metody wyznaczania wskaźnika 𝐶 Calińskiego-
-Harabasza nie wpływa na uzyskaną w wyniku obliczeń jego wartość.

Wariant pierwszy
W badaniu dotyczącym grupowania czy identyfikacji dokumentów bądź tekstów ostatecznie wzięto pod
uwagę cztery zmienne. W tej sytuacji, zarówno macierze wariancji wewnątrzgrupowej, jak i między-
grupowej, powinny liczyć po cztery wiersze i cztery kolumny. Do wyznaczenia macierzy wariancji we-
wnątrzgrupowych można posłużyć się funkcją tablicową KOWARIANCJA() dostępną w arkuszu kal-
kulacyjnym Excel. Należy jednak pamiętać, że otrzymane wartości wymagają pomnożenia przez liczbę
obiektów w grupie. W wyniku grupowania metodą pełnego wiązania w oparciu o odległość Marczew-
skiego-Steinhausa ustalono, że optymalny będzie podział badanych dokumentów na następujące sku-
pienia: 𝑠1 = {𝑂1 , 𝑂5 }, 𝑠2 = {𝑂2 , 𝑂3 , 𝑂4 }, oraz 𝑠3 = {𝑂6 , 𝑂7 , 𝑂8 , 𝑂9 , 𝑂10 }. Poniżej przedstawiono macie-
rze obserwacji dla każdego z tych skupień 𝑿𝒊 , oraz wyznaczone na ich podstawie macierze wariancji
i kowariancji 𝑾𝒊 :
50,0 55,0 0 −15,0
21 9 0 3 55,0 60,5 0 −16,5
𝑿𝟏 = [ ] 𝑾𝟏 = [ ]
31 20 0 0 0 0 0 0
−15,0 −16,5 0 4,5
42,0 12,0 0 0
10 5 0 0
12,0 6,0 0 0
𝑿𝟐 = [16 5 0 0] 𝑾𝟐 = [ ]
0 0 0 0
7 2 0 0
0 0 0 0
0 0 18 16
0 0 0 0
0 1 32 0
0 0,8 7,4 −13,2
𝑿𝟑 = 0 0 22 2 𝑾𝟑 = [ ].
0 0,50 251,2 −50,6
0 0 32 25
[0 0 1,25 50,6 542,8
0 17 23]

Zsumowanie wartości macierzy 𝑾𝒊 pozwoliło na zdefiniowanie macierzy wariancji wewnątrzgrupowej:


92,0 67,0 0 −15,0
67,0 67,3 7,4 −29,7
𝑾=[ ].
0 7,4 251,2 −50,6
−15,0 −29,7 −50,6 547,3

Ślad macierzy wariancji wewnątrzgrupowych to po prostu suma tych jej elementów, które znajdują się
na jej przekątnej:
𝑡𝑟(𝑾) = 92,0 + 67,3 + 251,2 + 547,3 = 957,8.

Z kolei, aby wyznaczyć macierz wariancji międzygrupowej, skorzystano z zależności określonej


jako [6.12]. Wynika z niej, że macierz wariancji międzygrupowej stanowi różnicę pomiędzy macierzą
11.4. Ocena uzyskanych wyników na podstawie wartości wskaźnika C Calińskiego-Harabasza 243

wariancji ogólnej a macierzą wariancji wewnątrzgrupowej. Macierz wariancji ogólnej 𝑻 dla zmiennych
prezentowanego przykładu można wyznaczyć korzystając znów z funkcji KOWARIANCJA(). Tym ra-
zem uwzględniono jednak zmienne dla wszystkich obiektów biorących udział w grupowaniu, bez ich
podziału na skupienia. Na tej podstawie, opierając się na zależności 𝑩 = 𝑻 − 𝑾, można było wyzna-
czyć macierz wariancji międzygrupowej 𝑩 oraz jej ślad:

1084,5 596,0 −1045,5 −523,5


596,0 359,6 484,6 262,8
𝑻=[ ],
−1045,5 −484,6 1764,1 724,3
−523,5 −262,8 724,3 946,9
992,5 529,0 −1045,5 −508,5
529,0 292,3 −492,0 −233,1
𝑩=[ ],
−1045,5 −492,0 1512,9 774,9
−508,5 −233,1 774,9 399,6

𝑡𝑟(𝑩) = 992,5 + 292,3 + 1512,9 + 399,6 = 3197,3.

Wiedząc, że liczba grupowanych dokumentów tekstowych w prezentowanym przykładzie wynosiła


𝑛 = 10, a w wyniku zastosowania metody pełnego wiązania wyodrębnionych zostało 𝑔 = 3 skupień,
można było wyznaczyć wartość wskaźnika 𝐶 Calińskiego-Harabasza dla wariantu pierwszego grupo-
wania:

𝑡𝑟(𝑩) 𝑡𝑟(𝑾) 3197,3 957,8


𝐶𝐼 = ⁄ = ⁄ = 11,68.
𝑔−1 𝑛−𝑔 3 − 1 10 − 3

Wariant drugi
W obliczeniach dotyczących wyników grupowania dziesięciu dokumentów tekstowych metodą pełnego
wiązania w oparciu o odległość Mahalanobisa, wskaźnik 𝐶 Calińskiego-Harabasza został wyznaczony
według sposobu zaproponowanego przez autorów (por. CALIŃSKI, HARABASZ 1974). Punktem wyjścia
do obliczeń jest macierz odległości Euklidesa 𝑫𝑬 (por. wzór [4.7]). Sposób wyznaczenia takiej macierzy
za pośrednictwem programu Statistica został zaprezentowany w Aneksie C.

0,0 12,1 7,1 15,9 15,2 31,9 39,2 31,7 46,5 34,8
12,1 0,0 6,0 4,2 25,8 26,6 33,8 24,8 43,7 30,7
7,1 6,0 0,0 9,5 21,2 29,3 36,0 27,7 45,4 33,2
15,9 4,2 9,5 0,0 30,0 25,2 32,8 23,3 42,8 29,5
15,2 25,8 21,2 30,0 0,0 44,1 48,4 43,0 56,1 46,7
𝑫𝑬 = [11.5]
31,9 26,6 29,3 25,2 44,1 0,0 21,3 14,6 18,4 7,1
39,2 33,8 36,0 32,8 48,4 21,3 0,0 10,2 25,1 27,5
31,7 24,8 27,7 23,3 43,0 14,6 10,2 0,0 25,9 21,6
46,5 43,7 45,4 42,8 56,1 18,4 25,1 25,9 0,0 17,1
[34,8 30,7 33,2 29,5 46,7 7,1 27,5 21,6 17,1 0,0 ]

Dodatkowo, dla ułatwienia dalszych obliczeń, poszczególne wartości macierzy odległości 𝑫𝑬 [11.5]
podniesiono do kwadratu oraz uporządkowano ją zgodnie z podziałem osiągniętym w ramach podejścia
przedstawionego w wariancie drugim: 𝑠1 = {𝑂1 ; 𝑂3 ; 𝑂2 ; 𝑂4 }, 𝑠2 = {𝑂5 }, 𝑠3 = {𝑂7 ; 𝑂8 },
𝑠4 = {𝑂6 ; 𝑂9 ; 𝑂10 }. Ze względu na fakt, że obliczenia śladu macierzy wewnątrzgrupowej oraz między-
grupowej (por. wzór [6.19] oraz [6.20]) opierają się jedynie na 𝑛(𝑛 − 1)/2 odległościach, wartości ma-
cierzy 𝑫𝟐𝑬 , ograniczono jedynie do tych, które znajdowały się ponad przekątną macierzy:
244 11. Zagadnienie identyfikacji historycznej na przykładzie grupowania dokumentów lub tekstów

𝑂1 𝑂2 𝑂3 𝑂4 𝑂5 𝑂7 𝑂8 𝑂6 𝑂9 𝑂10

𝑂1 146 50 254 230 1538 1007 1015 2162 1211


𝑂2 36 18 666 1140 613 705 1906 943
𝑠1
𝑂3 90 450 1296 769 861 2062 1099
𝑂4 900 1074 541 633 1834 871
𝑠2 𝑂5 2346 1849 1941 3142 2179
𝑂7 105 453 630 755
𝑠3
𝑂8 212 673 466
𝑂6 337 50
𝑠4 𝑂9 293
𝑂10

Dla analizowanych wyników grupowania liczebności poszczególnych skupień wynosiły odpowied-


nio: 𝑛1 = 4, 𝑛2 = 1, 𝑛3 = 2, 𝑛4 = 3. Liczba obiektów grupowanych to 𝑛 = 10, natomiast liczba sku-
pień uzyskanych w wyniku grupowania to 𝑔 = 4. Na podstawie macierzy odległości euklidesowych
podniesionych do kwadratu można było zatem wyznaczyć średnią odległość podniesioną do kwadratu
pomiędzy wszystkimi obiektami (𝑑̅̅̅2 ) oraz średnie kwadratowe odległości pomiędzy obiektami w wy-
̅̅̅2 ):
odrębnionych skupieniach obiektów (𝑑 𝑙

̅̅̅ 2
𝑑2 = (𝑑1;2 2
+ 𝑑1;3 2
+ 𝑑1;4 2
+ ⋯ + 𝑑9;10 )/45 = (146 + 50 + 254 + ⋯ + 293)/45 = 923;
̅̅̅
2 2
𝑑 = 𝑑 = 105;
3 7;8
̅̅̅ 2
𝑑42 = (𝑑6;9 2
+ 𝑑6;10 2
+ 𝑑9;10 )/3 = (337 + 50 + 293)/3 = 227;
̅̅̅
𝑑2 = (𝑑 + 𝑑 + 𝑑 + 𝑑2 + 𝑑2 + 𝑑2 )/6 = (146 + 50 + 254 + 36 + 18 + 90)/6 = 99.
2 2 2
1 1;2 1;3 1;4 2;3 2;4 3;4

Ślad macierzy wariancji wewnątrzgrupowej i międzygrupowej wyznaczono, podstawiając wyliczone


wartości do wzorów [6.19] oraz [6.20]:

1 ̅̅̅2 + (𝑛 − 1)𝑑
̅̅̅2 + ⋯ + (𝑛 − 1)𝑑
̅̅̅2 ] =
𝑡𝑟(𝑾) = [(𝑛1 − 1)𝑑 1 2 2 𝑔 𝑔
2
1
[(4 − 1) ∗ 99 + (2 − 1) ∗ 105 + (3 − 1) ∗ 227] = 427,67;
=
2
1 ̅̅̅2 − 𝑡𝑟(𝑾) = 1 (10 − 1) ∗ 923 − 427,67 = 3727,43.
𝑡𝑟(𝑩) = (𝑛 − 1)𝑑
2 2

Wskaźnik 𝐶 Calińskiego-Harabasza (por. wzór [6.18]) w przypadku oceny grupowania dziesięciu


obiektów metodą pełnego wiązania w oparciu o odległość Mahalanobisa wynosił zatem w tym warian-
cie:
𝑡𝑟(𝑩) 𝑡𝑟(𝑾) 3727,43 427,67
𝐶= ⁄ = ⁄ = 17,43.
𝑔−1 𝑛−𝑔 4 − 1 10 − 6

Grupowanie, dla którego wartość wskaźnika 𝐶 Calińskiego-Harabasza jest wyższa, należy uznać za
lepsze. W prezentowanym przykładzie na podstawie przeprowadzonej oceny grupowania ostateczne
11.4. Ocena uzyskanych wyników na podstawie wartości wskaźnika C Calińskiego-Harabasza 245

decyzje co do identyfikacji obiektów powinny zostać podjęte na podstawie rezultatów kwalifikacji do-
kumentów przeprowadzonej metodą pełnego wiązania w oparciu o macierz odległości Mahalanobisa.

Warto na koniec przedstawić kilka wniosków dotyczących zastosowania metod taksonomicznych


w badaniach dotyczących klasyfikacji dokumentów lub tekstów. W tego typu rozważaniach decydujące
o efekcie są przede wszystkim informacje zebrane przez historyka przed przystąpieniem do obliczeń
oraz jego wiedza i doświadczenie w danym obszarze. Metody taksonomiczne są jedynie etapem końco-
wym, ułatwiającym ostateczną syntezę.
W badaniach dotyczących identyfikacji bądź klasyfikacji dokumentów tekstowych często dużym
utrudnieniem jest liczba zmiennych (wyrażeń, cech dokumentów), które można wziąć pod uwagę w pro-
cesie grupowania obiektów. Uwzględnienie ich wszystkich utrudnia, a często wręcz uniemożliwia, za-
stosowanie metod taksonomicznych. Taka sytuacja, o czym wspominano w części teoretycznej (zob.
rozdział 5.1), obniża jakość i wiarygodność uzyskiwanych wyników grupowania. Z tego względu warto
przed przystąpieniem do klasyfikacji dokumentów starannie dobrać zmienne diagnostyczne. W prezen-
towanym przykładzie przedstawiono metodę Czekanowskiego. Należy jednak podkreślić, że nie zawsze
prowadzi ona do jednoznacznych wyników i często ostateczne wyodrębnienie grup zmiennych wymaga
arbitralnych decyzji badacza. Trudno także wykorzystać metodę Czekanowskiego w przypadku więk-
szego zbioru danych. Niemniej jednak w wyniku jej zastosowania uzyskiwany jest pełen obraz prze-
strzeni grupowanych zmiennych.
Grupowanie obiektów tekstowych przeprowadzono ostatecznie na podstawie wyodrębnionych
zmiennych diagnostycznych. W tym celu zastosowano hierarchiczną procedurę pełnego wiązania. Po-
równanie efektów tego działania, przeprowadzonego w oparciu o dwie odległości: Marczewskiego-
-Steinhausa oraz Mahalanobisa, pozwala stwierdzić, że wyniki grupowania uzyskane dla drugiego wa-
riantu okazały się odznaczać wyższą jakością. Ten ostatni wniosek oparto o wartość wskaźnika C-Ca-
lińskiego-Harabasza, którego procedury wyznaczania szczegółowo opisano w tym rodziale.
12
Synteza przestrzenno-czasowa na przykładzie
struktury wpływów podatkowych z działalności indywidualnych
w powiatach województwa poznańskiego w latach 1958-1970

Jednym z trudniejszych zagadnień ilościowych rozpatrywanych w perspektywie historycznej są zmiany


strukturalne, ujmowane jednocześnie zarówno w ujęciu przestrzennym, jak i czasowym. W tego typu
sytuacjach badacz analizuje dany problem w trzech ujęciach: z perspektywy obiektów, które mają od-
wzorowywać strukturę badanego zjawiska, z perspektywy zmiennych, które opisują dane zagadnienie,
oraz z perspektywy wpływu czasu na wspomniane zmiany strukturalne. Zatem prezentowane w po-
przednich rozdziałach spojrzenie w przypadku badań przestrzenno-czasowych zostaje wzbogacone
o trzeci wymiar – tak ważny w badaniach historycznych – czas.
Przykład syntezy przestrzenno-czasowej oparty został o dane dotyczące wpływów budżetowych
województwa poznańskiego, wynikających z uiszczania przez różne grupy zawodowe podatku docho-
dowego i podatku obrotowego w latach 1958-1970. We wspomnianym okresie grupowanie przeprowa-
dzono w pięciu wybranych latach: 1958, 1961, 1964, 1967, 1970. W każdym wskazanym roku przea-
nalizowano wpływy podatkowe sześciu grup podatników w trzydziestu czterech powiatach. Zatem tzw.
kostka danych liczyła ponad tysiąc obserwacji.
Podjęte w tym przykładzie zagadnienie było interesujące nie tylko ze względu na objętość. Ciekawy
był również aspekt badań wynikający z przedstawienia zmiennych w jednostkach pieniężnych. Analizy
dynamiczne wymagają, aby dane były wyrażone w jednostkach naturalnych lub niemianowanych. Jed-
nym ze sposobów ograniczenia wpływów zmian cen w poszczególnych latach na badane zjawisko jest
przeprowadzenie odpowiedniej normalizacji zmiennych (por. rozdział 3.4), która była już kilkakrotnie
opisywana w odniesieniu do zagadnień historycznych.
Grupowanie zmiennych w analizach przestrzenno-czasowych wymaga także uwzględnienia związ-
ków między nimi w całym badanym okresie. Dzięki temu możliwe staje się porównywanie wyników
uzyskanych dla kolejnych lat badanego okresu. Zagadnienie to zostało szczegółowo opisane w części
teoretycznej, w rozdziale 5.4. W efekcie podjętych w tym temacie zadań możliwe było wykorzystanie
taksonomii wrocławskiej (por. rozdział 5.2.3).
W przypadku przeprowadzania regionalizacji większej liczby jednostek administracyjnych dobrze
jest skorzystać z kombinatorycznych metod grupowania. W prezentowanym przykładzie wykorzystano,
opisaną w rozdziale 6.2, metodę 𝑘-średnich. Wybór tego podejścia determinuje jednak konieczność
wskazania oczekiwanej liczby skupień uzyskanych w wyniku grupowania. W rozwiązaniu tego ostat-
niego problemu posłużono się wynikami oszacowań dotyczących zmiany poziomu podobieństwa i nie-
podobieństwa w analizach dynamicznych (por. rozdział 4.4.3).
Uzyskane w wyniku grupowania układy skupień dla poszczególnych lat można porównywać
w oparciu o uogólniony współczynnik Sokala-Michenera (por. wzór [4.27]) i stworzoną dla wszystkich
badanych lat macierz podobieństwa. Taki rezultat pozwala na periodyzację uzyskanych wyników. Wy-
konano ją po wygenerowaniu macierzy odległości oraz dzięki zastosowaniu hierarchicznej metody gru-
powania – metody Warda, opisanej w rozdziale 6.1.3.
248 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych

12.1. Znaczenie rzemiosła i innych działalności indywidualnych


w pierwszych latach po wojnie

Rzemiosło jest najdawniejszą postacią produkcji przemysłowej (IWASZKIEWICZ 1982, s. 5). W ramach
socjalistycznego modelu gospodarczego, jaki obowiązywał w Polsce po II wojnie światowej, oprócz
własności państwowej i spółdzielczej funkcjonowały także przedsiębiorstwa prywatne. Zaliczano do
nich przedsiębiorstwa rzemieślnicze, małe przedsiębiorstwa przemysłowe, przedsiębiorstwa prowa-
dzące swoją działalność w ramach handlu i usług, zajęć zawodowych i innych. W polskiej gospodarce
powojennej znaczenie drobnych przedsiębiorstw, w tym rzemieślniczych, polegało z jednej strony na
zaspokajaniu indywidualnych potrzeb konsumentów, a z drugiej na współpracy z przemysłem kluczo-
wym (ZIMNIEWICZ 1970, s. 7).
Oczywiście przedsiębiorstwa prywatne nie odgrywały kluczowej roli w gospodarce uspołecznionej,
ale ze względu na podstawy polityczne tego systemu nazywane były przedsiębiorstwami indywidual-
nymi. Ich istnienie i funkcjonowanie w okresie PRL budziło kontrowersje i było niejednokrotnie dys-
kutowane (zob. np.: NIEWADZI 1958, 1968; WIŚNIEWSKI 1964). Działalność rzemieślnicza podlegała
również procesom uspołeczniania gospodarki drobnotowarowej (RYCHŁOWSKI 1960). Zatem z jednej
strony negowano konieczność istnienia rzemiosła i własności indywidualnej w socjalistycznym modelu
gospodarczym, z drugiej podkreślano jego znaczenie w zakresie świadczenia usług dla ludności
(WIŚNIEWSKI 1964, s. 7-9).
Ważnym wydarzeniem w życiu organizacyjnym polskiego rzemiosła było wprowadzenie w 1948 r.
przymusu cechowego1. Jednocześnie nadzór nad cechami i ich związkami powierzono izbom rzemieśl-
niczym2. W efekcie czego w 1948 r. zmniejszono liczbę cechów (SZREJBROWSKI 1969). PRZYŁUSKI
(1972) zwraca uwagę, że zasadnicza, radykalna zmiana w stosunku do rzemiosła indywidualnego na-
stąpiła jednak dopiero w roku 1956, w wyniku uchwał VII oraz VIII Plenum KC PZPR, które uznały
rozwój rzemiosła za pożądany ze względów gospodarczych i społecznych. W myśl nowego podejścia
państwo powinno otoczyć rzemiosło pomocą i opieką i skończyć z fałszywą praktyką traktowania rze-
mieślnika jako przedstawiciela obcej socjalizmowi warstwy.
Spośród przedsiębiorstw indywidualnych najważniejszą rolę odgrywało rzemiosło. IWASZKIEWICZ
(1972), powołując się na źródła GUS i ZIR (Związek Izb Rzemieślniczych), stwierdził, że w 1955 r.
powstała kategoria statystyczna nazwana rzemiosłem przemysłowym. SADŁOWSKI (1972) podkreśla, że
rzemiosło wykonywało w okresie Polski Ludowej 50% wszystkich usług świadczonych dla ludności.
IWASZKIEWICZ (1982, s. 11-12) następująco zdefiniował pojęcie rzemieślnika w okresie powojennym:
„Być rzemieślnikiem – to być człowiekiem z głową, z własną inicjatywą, samodzielnym, a przez to
wolnym od nieprzyjemnej dla wielu zależności od przełożonych. (…) Pracując na własne ryzyko i wła-
sny rachunek, rzemieślnicy należą do najbardziej dynamicznych grup społeczeństwa polskiego. Muszą
oni mieć jedną właściwość: poczucie własnej godności zawodowej broniącej ich przed negatywnymi
ocenami niektórych urzędników czy działaczy politycznych, nie rozumiejących znaczenia drobnych
przedsiębiorstw prywatnych w kraju budującym socjalizm, żyjących poglądami z 1946 r. (gdy zakła-
dano pełną kolektywizację wsi i całkowite uspołecznienie rzemiosła)”.
Należy podkreślić, że w Wielkopolsce rzemiosło zawsze odgrywało istotną rolę. Na ten temat po-
wstała seria publikacji, napisana w ramach działalności Poznańskiego Oddziału Polskiego Towarzystwa

Dekret z dnia 3 kwietnia 1948 r. o częściowej zmianie prawa przemysłowego (Dz.U. 1948 nr 18, poz. 130).
1

Dekret z dnia 21 kwietnia 1948 r. o zmianie ustawy z dnia 19 lipca 1939 r. o izbach rzemieślniczych i ich
2

związku (Dz.U. 1948 nr 23, poz. 155).


12.1. Znaczenie rzemiosła i innych działalności indywidualnych w pierwszych latach po wojnie 249

Historycznego. Można tu wymienić takie publikacje, jak monografia napisana przez Czesława ŁU-
CZAKA (1962) pt. Położenie ekonomiczne rzemiosła wielkopolskiego w czasie zaborów czy jej druga
część opracowana przez Zdzisława GROTA (1963) pt.: Polityczna działalność rzemiosła wielkopolskiego
w okresie zaborów (1793-1918). Okresu międzywojennego dotyczyło natomiast opracowanie ŁUCZAKA
(1964) pt. Położenie ekonomiczne rzemiosła wielkopolskiego 1918-1939. Okres powojenny działalności
rzemiosła w świetle sprawozdań Izby Rzemieślniczej został opisany w dwóch publikacjach: Rzemiosło
w Wielkopolsce w latach 1945-1957. Sprawozdanie Izby Rzemieślniczej w Poznaniu (1959) pod redak-
cją Tadeusza WIESIOŁOWSKIEGO i innych. Serię wydawniczą kończy opracowanie Rzemiosło wielko-
polskie 1919-1968 przygotowane przez Zbigniewa BARAŃSKIEGO i in. (1969). To ostatnie zostało wie-
lokrotnie przywoływane jako punkt odniesienia do uzyskanych wyników.
Działaniami organizacyjnymi rzemiosła wielkopolskiego kierowała przede wszystkim Izba Rze-
mieślnicza, która rozpoczęła swoją działalność już w marcu 1945 r. Z końcem wspomnianego roku
w zasięgu poznańskiej Izby Rzemieślniczej działało 326 cechów, zrzeszających 16 054 rzemieślników.
W 1947 r. zarejestrowano 379 cechów oraz 23 749 rzemieślników]. SZREJBROWSKI (1969) podaje, że
95% rzemieślników należała w tym okresie do cechu.
Rozwój rzemiosła w Wielkopolsce po zakończeniu działań wojennych nie przebiegał równomiernie.
Warsztaty rzemieślnicze w pierwszych latach po wojnie zajmowały się przede wszystkim usługami byto-
wymi (MOZOŁOWSKI 1980, s. 34). Do 1948 r. ich liczba wzrastała. Następnie odnotowano stopniowy
spadek, zahamowanie rozwoju, który Barański (1969) argumentuje założeniami politycznymi i gospodar-
czymi planu sześcioletniego (1950-1955), ograniczeniem zbytu producenckiego usług rzemieślniczych,
wzrostem podatków i dodatkowych opłat oraz niemal zupełnym brakiem zaopatrzenia materiałowego. Po-
ważny ubytek w liczbie zakładów rzemieślniczych pogłębiał się w latach 1950-1952, kiedy to rzemieśl-
nicy przechodzili do pracy w sektorze uspołecznionym lub, na skutek konkurencji ze strony uspołecznio-
nych punktów usługowych, zmuszeni byli likwidować własne zakłady. Tendencja ta utrzymywała się do
1954 r. i dotyczyła przede wszystkim szewców i krawców (BARAŃSKI i in. 1969, s. 244).
Na fali przeobrażeń społeczno-gospodarczych, jakie miały miejsce w połowie lat 50. ubiegłego
wieku, uchwalono ustawę o izbach rzemieślniczych i Związku Izb Rzemieślniczych3, która wprowa-
dziła wybory samorządowe do poszczególnych organów cechowych, w tym na stanowiska radców, do-
tychczas powoływanych przez Ministra Przemysłu Drobnego i Rzemiosła. Od 1958 r. rozpoczął się
nowy etap działalności organizacyjnej Izby Rzemieślniczej w Poznaniu (SZREJBROWSKI 1969). Główne
obszary działalności Izby po okresie przemian to współpraca z rzemieślniczą spółdzielczością zaopa-
trzenia i zbytu, pomoc finansowa dla cechów, które coraz liczniej przystępowały do budowy swoich
domów cechowych, popieranie inicjatyw budowy pawilonów usługowych dla rzemiosła, które miały
być ułatwieniem na polu świadczenia usług dla ludności. W lipcu 1958 r. weszła w życie ustawa o ze-
zwoleniach na wykonywanie przemysłu, rzemiosła i handlu i niektórych usług przez jednostki gospo-
darki nieuspołecznionej4. Ustawa ta uzależniła wykonywanie przez osoby prywatne wszelkiej działal-
ności gospodarczej od zezwolenia wydawanego przez organ prezydium rady narodowej (powiatowej
miejskiej, dzielnicowej), właściwy dla spraw handlu lub przemysłu.
Dużą trudność w rozwoju rzemiosł w PRL stanowiła kwestia zaopatrzenia materiałowo-technicz-
nego. „W toku wieloletniej praktyki utrwalił się system, zgodnie z którym rzemieślnicy zaopatrują się

3
Ustawa z dnia 11 września 1956 r. o izbach rzemieślniczych i Związku Izb Rzemieślniczych (Dz.U. 1956
nr 41, poz. 190).
4
Ustawa z dnia 1 lipca 1958 r. o zezwoleniach na wykonywanie przemysłu, rzemiosła, handlu i niektórych
usług przez jednostki gospodarki nie uspołecznionej (Dz.U. 1958 nr 45, poz. 224).
250 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych

w potrzebne materiały i surowce z rozmaitych źródeł. Podstawowym źródłem zaopatrzenia dla więk-
szości zakładów rzemieślniczych jest detaliczna sieć handlowa” (NUROWSKI 1980, s. 51). Innym źró-
dłem zaopatrzenia były dostawy dokonywane przez zleceniodawców.
Począwszy od roku 1958, w miarę wzrastania zamożności społeczeństwa, znaczenie usług w gospo-
darce wzrastało, a wraz z nim wzrastało znaczenie rzemiosła, ponieważ to głównie rzemiosło świad-
czyło prywatne usługi społeczeństwu (MOZOŁOWSKI 1980, s. 18). Jednym ze sposobów oceny efektyw-
ności danej gałęzi produkcyjnej jest ocena zmian wysokości podatku obrotowego i dochodowego, jaki
przedsiębiorstwa należące do branży odprowadzają do budżetu. Oczywiście rachunek ekonomiczny jest
bardziej uzasadniony w przypadku analizowania problemów związanych z sytuacją przedsiębiorstw
funkcjonujących w systemie wolnorynkowym. Niemniej jednak biorąc pod uwagę, że wszystkie przed-
siębiorstwa uwzględnione w badaniu funkcjonowały w jednym systemie i podlegały tym samym ramom
prawnym, porównanie ich efektywności, badanej wpływami podatkowymi, jest dopuszczalne. Takie
podejście zostało już wykorzystane w publikacji MACYRY i BŁAŻEJCZYK-MAJKI (2012).
W tej perspektywie powstają zatem pytania, czy rzeczywiście wśród prywatnych usługodawców
rzemiosło w okresie 1958-1970 odgrywało tak znaczącą rolę, na jaką wskazywali wymienieni wyżej
autorzy oraz na ile, w wyniku zmian podejścia ustawodawcy po 1958 r. do indywidualnych usługodaw-
ców, zmieniło się rozmieszczenie rzemiosła oraz przemysłu indywidualnego wspierającego przemysł
uspołeczniony w województwie poznańskim. Próbę odpowiedzi na te pytania oparto na wynikach me-
tod taksonomicznych zastosowanych dla danych podatkowych dostarczanych przez poszczególne po-
wiaty województwa poznańskiego w latach 1958-1970. Na tej podstawie możliwe było wskazanie re-
gionów, w których dana aktywność podmiotów indywidualnych miała większe znaczenie – cieszyła się
większym powodzeniem. Zmiany struktury odprowadzanych podatków obrotowego i dochodowego
w poszczególnych powiatach i miastach na prawie powiatu województwa poznańskiego zostały przea-
nalizowane w pięciu wybranych latach badanego okresu: 1958, 1961, 1964, 1967, 1970, co pozwoliło
na sformułowanie syntezy historycznej dla całego badanego okresu.

12.2. Dane w zagadnieniach przestrzenno-czasowych


Punktem wyjścia do prezentacji zastosowania metod taksonomicznych w badaniach przestrzenno-cza-
sowych będą dane dotyczące zmian wysokości odprowadzanych podatków obrotowego i dochodowego
w poszczególnych powiatach i miastach na prawie powiatu województwa poznańskiego w latach 1958-
-1970. Są one udostępniane przez Archiwum Państwowe w Poznaniu. Podstawowym ich źródłem były
„Sprawozdania z dokonanych przypisach i odpisach i uiszczeniach 12P”. gromadzone w Wydziale Fi-
nansowym Prezydium Wojewódzkiej Rady Narodowej w Poznaniu. Jak wspomniano wcześniej, dobór
tego typu zmiennych do oceny znaczenia rzemiosła w województwie poznańskim w 1962 r. został za-
proponowany w publikacji MACYRA i BŁAŻEJCZYK-MAJKA (2012).
Obciążenia podatkiem dochodowym i obrotowym dotyczyły indywidualnej działalności w obszarze
przemysłu, rzemiosła, handlu, usług, zajęć o charakterze zawodowym i pozostałych branży. W składzie
tych ostatnich uwzględniono m.in. rzemiosło artystyczne. Dla każdego roku w analizowanym okresie
zestawiono wielkość wpływów podatkowych od wymienionych grup podatników z uwzględnieniem
ówczesnego podziału administracyjnego województwa poznańskiego na powiaty. Z analizy wyłączono
miasto Poznań, którego nie obejmowały wspomniane statystyki.
Wszystkie zmienne dotyczące wpływów budżetowych z podatku dochodowego i obrotowego ogó-
łem wyrażono w tysiącach złotych. Dane liczbowe w postaci osobnych zestawień dla wybranych pięciu
12.2. Dane w zagadnieniach przestrzenno-czasowych 251

lat badanego okresu przedstawiono w tabelach 8-12, zamieszczonych w aneksie A. Informacje ilo-
ściowe, które dotyczą procesów złożonych analizowanych w czasie, można uporządkować za pomocą
tzw. kostki danych (por. rozdział 3.2). W proponowanym ujęciu kostka ta składała się z pięciu warstw.
Dla każdego roku 𝑡 = 1958, 1961, 1964, 1967, 1970 tworzy ją (34 × 6)-wymiarowa macierz obser-
wacji. Jej wiersze dotyczyły 𝑛 = 34 obiektów – powiatów i miast na prawie powiatu województwa
poznańskiego. Z kolei 𝑚 = 6 zmienne odnosiły się do wpływów budżetowych z podatków dochodo-
wych i obrotowych, wynikających z działalności przemysłu (𝑋𝑃 ), rzemiosła (𝑋𝑅𝑍 ), handlu (𝑋𝐻 ), usług
(𝑋𝑈 ) i tych wpływów podatkowych, które wynikały z prowadzenia działalności związanych z zajęciami
zawodowymi (lekarz, adwokat, dentysta, architekt itp.; 𝑋𝑍𝑍 ). Ostatnią grupę stanowiły przychody podat-
kowe uzyskane z innych działalności nieujętych w wymienionych kategoriach (𝑋𝐼 ).

12.3. Normalizacja zmiennych za pomocą przekształceń ilorazowych

Wysokość odprowadzanych podatków obrotowego i dochodowego w poszczególnych powiatach i mia-


stach na prawie powiatu województwa poznańskiego zostały przedstawione w zestawieniach w tysią-
cach złotych (por. tabele 8-12 w aneksie A). Niemniej jednak dane dotyczą pięciu wybranych lat trzy-
nastoletniego okresu: 1958 – 1970. Opisywany przykład stanowi zatem dobrą ilustrację wpływu norma-
lizacji zmiennych na efekt grupowania.
Jak wspomniano w części teoretycznej, jednym z bardziej efektywnych sposobów ograniczenia
wpływu inflacji jest wykorzystanie możliwości, jakie dają przekształcenia ilorazowe, opisane w roz-
dziale 3.4.3. W prezentowanym przykładzie można jednak przekształcenia ilorazowe przeprowadzić
w różnoraki sposób. Pierwszy z nich (1) polega na zastosowaniu takiego przekształcenia ilorazowego,
w którym podstawą będzie wielkość powierzchni powiatu bądź liczba ludności zamieszkującej dany
obszar w danym roku. W ten sposób urealnieniu ulegają wartości zmiennych. Niestety przedstawiony
wariant normalizacji nie gwarantuje usunięcia problemu inflacyjnego. Można zatem w oparciu o to po-
dejście zastosować jedynie regionalizację dla pojedynczych lat. Trudno jednak wyniki tego typu działań
porównywać w czasie.
Drugie podejście (2) polega na takim przekształceniu ilorazowym każdej zmiennej, w którym pod-
stawą będzie suma wartości wpływów podatkowych ze wszystkich powiatów. W takim przypadku po-
szczególne zmienne w każdym obiekcie mogą być interpretowane jako udział w budżecie wojewódz-
kim, a obiekty, w tym przypadku powiaty, zostaną pogrupowane ze względu na wielkość wpływów
podatkowych odprowadzanych do budżetu wojewódzkiego. Należy się spodziewać, że powiaty, w któ-
rych wpływy podatkowe były nominalnie wysokie, znajdą się w jednej grupie.
Trzecim rozwiązaniem (3) jest zastosowanie takiego przekształcenia ilorazowego dla każdego
obiektu, w którym podstawą będzie suma pobranych podatków w danym roku w danym powiecie.
Zmienne w tym rozwiązaniu są traktowane jako udział wpływów podatkowych danej grupy podatników
w budżecie powiatowym, a obiekty pogrupowane zostaną ze względu na strukturę podatków zebranych
na ich terenie. W wyniku grupowania w jednej grupie znajdą się zatem powiaty, w których struktura
wpływów podatkowych z poszczególnych dziedzin okazała się być zbliżona.
Ostatecznie w prezentowanym przykładzie wybrano podejście ostatnie, gwarantujące porównywal-
ność wyników w pięciu wybranych latach badanego okresu oraz usunięcie problemu wpływów infla-
cyjnych czy różnej liczby ludności wpływającej na ilość zakładów rzemieślniczych na danym terenie.
252 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych

Fragment macierzy obserwacji znormalizowanych w ten sposób, odnoszący się do pierwszych dzie-
więciu analizowanych powiatów w roku 1958 przedstawiono poniżej:

[12.1]

Zestawiając informacje z fragmentu macierzy [12.1] z odpowiednią tabelą danych, zaprezento-


waną jako tabela 8 w Aneksie A, można powiedzieć, że najwyższy udział wpływów z podatku dochodo-
wego i obrotowego w powiecie chodzieskim generowało rzemiosło ( ), a najmniejszy udział we
wpływach podatkowych odnotowano z tytułu prowadzenia działalności związanych z zajęciami zawodo-
wymi ( ). W ten sam sposób można interpretować pozostałe dane znormalizowane.

12.4. Dobór zmiennych diagnostycznych


z wykorzystaniem taksonomii wrocławskiej

Punktem wyjścia do wyznaczenia zmiennych diagnostycznych były znormalizowane wartości wpływów


podatkowych z różnych działalności indywidualnych, prowadzonych na terenie województwa poznań-
skiego w latach 1958-1970, których fragment został zaprezentowany jako macierz [12.1]. Jak
wspomniano w rozdziale piątym, proces doboru zmiennych w przypadku ich wyrażenia w silnych ska-
lach rozpoczyna wstępna analiza statystyczna. W badaniach statycznych polega ona na ocenie zmienno-
ści każdej ze zmiennych. Nieco bardziej złożoną wersję tego procesu przeprowadza się w przypadku
analiz dotyczących danych przekrojowo-czasowych (por. rozdział 5.4). W analizowanym przykładzie
współczynniki zmienności zostały wyznaczone dla każdej z sześciu zmiennych uwzględnionych
w badaniu, a proces był powtarzany dla każdego badanego roku. Macierz współczynników zmienności
(por. wzór [5.11]) stanowi główną część tabeli 12.1. W ostatniej kolumnie tej tabeli umieszczono średnie
wartości tych współczynników wyznaczonych dla badanego okresu (por. wzór [5.12]).

Tabela 12.1. Współczynniki zmienności oraz ich średnie dla zmiennych dotyczących znaczenia społeczno-gospodarczego
działalności indywidualnej w poszczególnych powiatach województwa poznańskiego w latach 1958-1970

Współczynniki zmienności
Nazwa zmiennej
1958 1961 1964 1967 1970 średnia
Przemysł 0,62 0,62 0,63 0,69 0,76 0,66
Rzemiosło 0,26 0,17 0,13 0,18 0,11 0,17
Handel 0,43 0,48 0,42 0,46 0,47 0,45
Usługi 0,53 0,49 0,30 0,37 0,45 0,43
Zajęcia zawodowe 0,59 0,42 0,46 0,52 0,52 0,50
Pozostali 0,69 0,58 0,41 0,36 0,45 0,50
Źródło: obliczenia własne na podstawie znormalizowanych zmiennych, zawartych w tabelach 8-12 w Aneksie A.
12.4. Dobór zmiennych diagnostycznych z wykorzystaniem taksonomii wrocławskiej 253

Analiza współczynników zmienności, zdefiniowanych osobno dla danych z każdego z badanych lat,
wykazała, że wszystkie zmienne w wystarczającym stopniu różnicują badane powiaty. Najniższe prze-
ciętnie zróżnicowanie wykazała zmienna dotycząca wpływów podatkowych z rzemiosła (𝑣̅𝑅𝑍 = 0,17),
a najwyższe wpływów podatkowych z przemysłu (𝑣̅𝑃 = 0,66). Zróżnicowanie tych ostatnich rosło przez
cały badany okres. Natomiast zróżnicowanie wpływów podatkowych z rzemiosła (𝑋𝑅𝑍 ) oraz usług (𝑋𝑈 )
stopniowo spadało do roku 1964. W przypadku pozostałych działalności (𝑋𝐼 ) tendencja taka utrzymała
się do roku 1967. Z kolei na podstawie współczynników zmienności wyznaczonych dla handlu (𝑋𝐻 )
oraz zajęć zawodowych (𝑋𝑍𝑍 ) nie można wyodrębnić jednoznacznie takich tendencji. Podsumowując,
analiza współczynników zmienności oraz ich średnich nie doprowadziła do wyłączenia z dalszych ba-
dań którejkolwiek ze zmiennych.
W drugim etapie doboru zmiennych diagnostycznych w badaniach przekrojowo-czasowych wyzna-
czono dla każdego roku macierz korelacji Pearsona (por. wzór [4.40]). W tabeli 12.2 przedstawiono
współczynniki korelacji dla każdej pary zmiennych w badanych latach oraz ich średnie. Na tej podsta-
1967 1964
wie silną korelację odnotowano jedynie w nielicznych przypadkach: 𝑟𝑅𝑍;𝐼 = −0,80; 𝑟𝑅𝑍;𝐼 = −0,70;
1967 1967
𝑟𝑅𝑍;𝑍𝑍 = −0,69; 𝑟𝑍𝑍;𝐼 = 0,69. O jedynej stałe słabnącej tendencji można mówić w przypadku korelacji
pomiędzy przemysłem a rzemiosłem (𝑟𝑃;𝑅𝑍 ).

Tabela 12.2. Współczynniki korelacji oraz ich średnie dla zmiennych dotyczących znaczenia społeczno-gospodarczego
działalności indywidualnych w poszczególnych powiatach województwa poznańskiego w latach 1958-1970

Współczynniki korelacji 𝑟𝑖𝑗


1958 1961 1964 1967 1970 średnia
𝑟𝑃;𝑅𝑍 –0,59 –0,60 –0,41 –0,36 –0,22 –0,43
𝑟𝑃;𝐻 –0,01 –0,24 –0,43 –0,28 –0,47 –0,28
𝑟𝑃;𝑈 –0,14 –0,11 –0,18 –0,23 –0,28 –0,19
𝑟𝑃;𝑍𝑍 0,17 –0,05 –0,15 –0,06 –0,17 –0,05
𝑟𝑃;𝐼 0,40 –0,08 0,25 0,12 –0,04 0,13
𝑟𝑅𝑍;𝐻 –0,65 –0,34 –0,39 –0,64 –0,62 –0,53
𝑟𝑅𝑍;𝑈 –0,56 –0,52 –0,43 –0,55 –0,64 –0,54
𝑟𝑅𝑍;𝑍𝑍 –0,59 –0,48 –0,54 –0,69 –0,62 –0,58
𝑟𝑅𝑍;𝐼 –0,57 –0,29 –0,70 –0,80 –0,34 –0,54
𝑟𝐻;𝑈 0,50 0,55 0,18 0,62 0,48 0,47
𝑟𝐻;𝑍𝑍 0,40 0,09 0,31 0,48 0,64 0,38
𝑟𝐻;𝐼 0,08 –0,12 0,10 0,41 0,26 0,15
𝑟𝑈;𝑍𝑍 0,22 0,16 0,11 0,32 0,23 0,21
𝑟𝑈;𝐼 0,12 –0,12 0,24 0,24 –0,13 0,07
𝑟𝑍𝑍;𝐼 0,39 0,42 0,33 0,69 0,44 0,45
Źródło: obliczenia własne na podstawie zmiennych znormalizowanych (por. przykład 6.3).

Na podstawie ostatniej kolumny tabeli 12.2 zbudowano macierz średnich współczynników korelacji
̅ 𝒕 (por. wzór [5.13]):
𝑹
1,00 −0,43 −0,28 −0,19 −0,05 0,13
−0,43 1,00 −0,53 −0,54 −0,58 −0,54
̅ 𝒕 = −0,28
𝑹
−0,53 1,00 0,47 0,38 0,15
. [12.2]
−0,19 −0,54 0,47 1,00 0,21 0,07
−0,05 −0,58 0,38 0,21 1,00 0,45
[ 0,13 −0,54 0,15 0,07 0,45 1,00 ]
254 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych

Aby wyodrębnić grupy zmiennych biorących udział w badaniu, wykorzystano, opisaną w rozdziale
5.2.3, taksonomię wrocławską. W tym celu na podstawie macierzy średnich współczynników korelacji
̅ 𝒕 [12.2] zbudowano macierz odległości. Aby podkreślić, że dotyczy ona zmiennych a nie obiektów,
𝑹
oznaczono ją jako 𝑫𝑿 [12.3]. Do jej budowy tym razem zastosowano przekształcenie [4.37]. To roz-
wiązanie zakładało, że za najdalsze względem siebie zmienne uznawane były te, które odznaczały się
najsilniejszą ujemną korelacją. Natomiast najbliższe sobie były najsilniej skorelowane dodatnio pary
zmiennych. Zatem w odniesieniu do prezentowanego przykładu, jeżeli w badanym okresie wzrost
udziału we wpływach podatkowych jednej grupy podatkowej był związany ze spadkiem udziału wpły-
wów drugiej grupy podatkowej, to odpowiednie zmienne były od siebie najdalej oddalone. Z kolei silna
dodatnia korelacja pomiędzy wpływami z dwóch grup podatkowych skutkowała, że odległość między
nimi była najmniejsza.
Wyznaczenie macierzy 𝑹̅ 𝒕 [12.2] oraz 𝑫𝑿 [12.3] pozwoliło na użycie w procesie doboru zmiennych
diagnostycznych jednej z metod taksonomicznych opisanych w rozdziale piątym. Ostatecznie w pre-
zentowanym przykładzie zastosowano taksonomię wrocławską (por. rozdział 5.2.3). Na podstawie
składowych macierzy odległości 𝑫𝑿 [12.3] wybrano najbliższe sobie zmienne. Efekty tego działania
zapisano obok macierzy odległości 𝑫𝑿 , w postaci wektora 𝒅𝐦𝐢𝐧. Obie struktury posłużyły do wyzna-
czenia najpierw grafów niezorientowanych, a następnie grafu spójnego. Ten ostatni stanowi rysu-
nek 12.1.

0,00 1,69 1,60 1,54 1,45 1,32 𝑑𝑃;𝐼 = 1,32


1,69 0,00 1,75 1,76 1,78 1,75 𝑑𝑅𝑍;𝑃 = 1,69
1,60 1,75 0,00 1,03 1,11 1,31 𝑑𝐻;𝑈 = 1,03
𝑫𝑿 = , 𝒅𝐦𝐢𝐧 = [12.3]
1,54 1,76 1,03 0,00 1,26 1,36 𝑑𝑈;𝐻 = 1,03
1,45 1,78 1,11 1,26 0,00 1,05 𝑑𝑍𝑍;𝐼 = 1,05
[1,32 1,75 1,31 1,36 1,05 0,00] [ 𝑑𝐼;𝑍𝑍 = 1,05 ]

Rysunek 12.1. Graf spójny dla zmiennych dotyczących znaczenia społeczno-gospodarczego przemysłu i rzemiosła
w poszczególnych powiatach województwa poznańskiego w latach 1958-1970

1,03 𝑋𝑈
𝑋𝐻

1,11
𝑋𝑅𝑍 1,69
𝑋𝑃

1,32 𝑋𝑍𝑍

𝑋𝐼 1,05

Źródło: opracowanie własne.

Spośród wielu opcji rozcięcia grafu wrocławskiego wybrano taki, który prowadzi do podziału
zmiennych na cztery grupy: {𝑋𝑃 }, {𝑋𝑅𝑍 }, {𝑋𝐻 , 𝑋𝑈 } oraz {𝑋𝑍𝑍 , 𝑋𝐼 }. Usunięto zatem z dendrytu trzy
najdłuższe krawędzie. Zaproponowany podział jest tożsamy z wynikami reguły stopu zaproponowanej
12.4. Dobór zmiennych diagnostycznych z wykorzystaniem taksonomii wrocławskiej 255

przez Hellwiga dla 𝑘 = −0,5 (por. wzór [5.8]). W efekcie podjętych działań w prezentowanym przy-
kładzie do grupy zmiennych diagnostycznych zaliczono wpływy podatkowe z przemysłu (𝑋𝑃 ) oraz rze-
miosła (𝑋𝑅𝑍 ). Natomiast ze względu na strukturalny charakter badania zmienne dotyczące wpływów
podatkowych z handlu i usług (zmienne 𝑋𝐻 i 𝑋𝑈 ) zostały zsumowane, tworząc jedną zmienną synte-
tyczną (𝑋𝐻+𝑈 ). W ten sam sposób potraktowano także parę zmiennych 𝑋𝑍𝑍 i 𝑋𝐼 , które dotyczyły wpły-
wów podatkowych z zajęć zawodowych oraz pozostałych działalności, w efekcie czego powstała nowa
zmienna syntetyczna (𝑋𝑍𝑍+𝐼 ).

12.5. Wyznaczenie liczby skupień


w badaniach przestrzenno-czasowych

W przypadku stosowania metody k-średnich konieczne jest wskazanie liczby skupień, na które mają być
podzielone grupowane obiekty. W celu jej wyznaczenia można posłużyć się względami merytorycz-
nymi lub wesprzeć się metodami ilościowymi. Jednym z najwyżej ocenianych podejść jest wykorzysta-
nie rezultatów grupowania metodami hierarchicznymi. Podejście to zostało opisane w rozdziale 6.2.2.
W przypadku badań przestrzenno-czasowych należy oprzeć się na wynikach ze wszystkich uwzględ-
nionych w badaniu lat. Z tego powodu warto w wyznaczaniu optymalnej liczby skupień wykorzystać
własności wskaźników natężenia zmian odległości.
Jak wspomniano wcześniej, aktywność polskich przedsiębiorstw indywidualnych w latach 1958-
-1970 mierzono wielkością wpływów z podatku obrotowego i dochodowego z tych działalności. Na tej
podstawie można było wyznaczyć odległości wielowymiarowe pomiędzy powiatami województwa po-
znańskiego w badanych latach. Z kolei porównanie zmian w tych odległościach pozwoliło na wskazanie
grup powiatów, które w badanym okresie nie zmieniły swoich relacji z innymi powiatami pod wzglę-
dem struktury podatkowej (por. rozdział 4.4.3).
W rozdziale 4.1.3 oraz 4.2.3 przedstawione zostały propozycje wyznaczania odległości odpowied-
nich w porównaniach obiektów wielowymiarowych, opisanych za pomocą zmiennych strukturalnych.
W prezentowanym przykładzie ostatecznie wybrano prostszą pod względem algebraicznym odległość
Renkonena (por. wzór 4.33). Dla każdego z pięciu lat badanego okresu wyznaczona została jedna ma-
cierz odległości, która liczyła sobie 34 wiersze i 34 kolumny. Podstawą wyznaczenia każdej z nich były
wartości zmiennych uzyskane na etapie doboru zmiennych diagnostycznych. Wszystkie obliczenia ko-
nieczne do stworzenia wspomnianych pięciu macierzy odległości przeprowadzono za pomocą arkusza
kalkulacyjnego Excel. Fragment macierzy odległości 𝑫𝟏𝟗𝟓𝟖 , którą wyznaczono dla powiatów woje-
wództwa poznańskiego, grupowanych ze względu na wpływy podatkowe w 1958 r., przedstawiono po-
niżej:
0,00 0,19 0,09 0,10 0,14 0,11 0,18 0,08 ⋯
0,19 0,00 0,13 0,25 0,26 0,11 0,23 0,24 ⋯
0,09 0,13 0,00 0,18 0,16 0,10 0,19 0,17 ⋯
0,10 0,25 0,18 0,00 0,18 0,14 0,13 0,08 ⋯
𝑫𝟏𝟗𝟓𝟖 = 0,14 0,26 0,16 0,18 0,00 0,25 0,13 0,19 ⋯. [12.4]
0,11 0,11 0,10 0,14 0,25 0,00 0,21 0,14 ⋯
0,18 0,23 0,19 0,13 0,13 0,21 0,00 0,19 ⋯
0,08 0,24 0,17 0,08 0,19 0,14 0,19 0,00 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]
256 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych

Poszczególne wiersze i kolumny w zaprezentowanym fragmencie macierzy odległości 𝑫𝟏𝟗𝟓𝟖 [12.4]


odpowiadają kolejno następującym powiatom: chodzieskiemu, czarnkowskiemu, gnieźnieńskiemu, go-
styńskiemu, jarocińskiemu, kaliskiemu, kępińskiemu oraz kolskiemu. Zatem na podstawie zaprezento-
wanych danych we fragmencie macierzy odległości 𝑫𝟏𝟗𝟓𝟖 [12.4], najbliższe sobie pod względem struk-
tury wpływów podatkowych okazały się powiaty chodzieski i kolski (𝑑1;8 = 0,08) oraz powiaty go-
styński i kolski (𝑑4;8 = 0,08). Natomiast największy dystans odnotowano pomiędzy powiatem czarn-
kowskim i jarocińskim (𝑑2;5 = 0,26).
Jak wspomniano wcześniej, łącznie wyznaczono pięć macierzy odległości Renkonena: 𝑫𝟏𝟗𝟓𝟖 ,
𝑫𝟏𝟗𝟔𝟏 , 𝑫𝟏𝟗𝟔𝟒 , 𝑫𝟏𝟗𝟔𝟕 oraz 𝑫𝟏𝟗𝟕𝟎 . Porównanie wartości odległości pomiędzy każdą parą obiektów
w tych macierzach, pozwoliło na wyznaczenie macierzy względnych wskaźników natężenia 𝑫𝒘 (por.
wzór [4.58]). Przebieg tego procesu opisano szczegółowo w przykładzie obliczeniowym zawartym
w rozdziale 4.4.3. Fragment tej macierzy uwzględniający względne wskaźniki natężenia wyznaczone
pomiędzy ośmioma powiatami województwa poznańskiego przedstawiono poniżej:
0,00 0,78 0,52 0,37 0,66 0,55 0,80 0,36 ⋯
0,78 0,00 0,91 0,28 0,70 1,03 0,36 0,20 ⋯
0,52 0,91 0,00 0,24 0,53 0,36 0,27 2,29 ⋯
0,37 0,28 0,24 0,00 0,24 0,24 0,73 0,20 ⋯
𝑫𝑾 = 0,66 0,70 0,53 0,24 0,00 0,19 0,09 0,38 ⋯. [12.5]
0,55 1,03 0,36 0,24 0,19 0,00 0,16 0,63 ⋯
0,80 0,36 0,27 0,73 0,09 0,16 0,00 0,43 ⋯
0,36 0,20 2,29 0,20 0,38 0,63 0,43 0,00 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]

Należy w tym miejscu podkreślić, że różnice w wartościach względnych wskaźników natężenia za-
warte w macierzy 𝑫𝑾 [12.5] oraz w tabeli 4.26 wynikają z faktu, że w pierwszym przypadku korzystano
ze zmodyfikowanej w procesie doboru zmiennych diagnostycznych listy zmiennych, a w drugim pod-
stawą obliczeń były macierze odległości wyznaczone w oparciu o wszystkie zmienne.
Na podstawie danych zawartych we fragmencie macierzy 𝑫𝑾 [12.5] można powiedzieć, że względ-
nie najmniejsze średnie różnice odległości wielowymiarowych w badanym okresie odnotowano pomię-
(𝑤)
dzy powiatem jarocińskim i kępińskim (𝑤7;5 = 0,09). Odległości średnio z roku na rok wahały się
o 9%. Z kolei najbardziej w badanym okresie oddaliły się od siebie pod względem struktury wpływów
(𝑤)
podatkowych z działalności indywidualnej powiaty kolski i gostyński (𝑤8;3 = 2,29). Przeciętnie z roku
na rok odległości między nimi różniły się o blisko 230%.
Na podstawie macierzy względnych wskaźników natężenia 𝑫𝑾 [12.5] przeprowadzono grupowanie
powiatów. Zastosowano jedną z metod hierarchicznych – metodę Warda, opisaną rozdziale 6.1.3. Jej
wyniki obrazuje dendrogram (rysunek 12.2), którego optymalny punkt przecięcia ustalono w oparciu
o regułę pierwszego znaczącego skoku odległości aglomeracyjnej (rysunek 12.3). Wyniki grupowa-
nia aglomeracyjnego wskazały, że przy uwzględnieniu relacji pomiędzy badanymi obiektami w każdym
rozpatrywanym roku, optymalnym rozwiązaniem był podział na pięć grup powiatów, uzyskany metodą
𝑘-średnich.
12.5. Wyznaczenie liczby skupień w badaniach przestrzenno-czasowych 257

Rysunek 12.2. Dendrogram grupowania metodą Warda powiatów województwa poznańskiego pod względem przeciętnych
zmian w odległościach pomiędzy obiektami w latach 1958-1970 (odległość: macierz względnych wskaźników
natężenia)

2,0

1,5
Odległość wiązania

1,0

0,5

0,0
p9

p8

p7
p6

p5

p2

p4
p3

p1
p23
p20
p13
p24

p29
p33
p16
p19
p10
p32
p30
p26
p15
p21

p28
p27
p18
p25
p14
p31

p17

p12
p11

p34

p22
Źródło: opracowanie własne z wykorzystaniem programu Statistica.

Rysunek 12.2. Wykres przebiegu aglomeracji w grupowaniu metodą Warda powiatów województwa poznańskiego
pod względem przeciętnych zmian w odległościach pomiędzy obiektami w latach 1958-1970
(odległość: macierz względnych wskaźników natężenia)

2,0

1,5
Odległość wiązania

1,0

0,5

0,0

-0,5
0 4 8 12 16 20 24 28 32
Etap wiązania

Źródło: opracowanie własne z wykorzystaniem programu Statistica.


258 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych

12.6. Regionalizacja powiatów województwa poznańskiego ze względu


na strukturę wpływów podatkowych

Ze względu na dość liczną grupę obiektów uwzględnionych w badaniu grupowanie przeprowadzono


metodą 𝑘-średnich. Podstawy teoretyczne tego podejścia zostały opisane w rozdziale 6.2.1. Punktem
wyjścia do zastosowania metody kombinatorycznej były ustalenia przedstawione w rozdziałach 12.4
oraz 12.5. A zatem w grupowaniu uwzględniono następujące zmienne, które dotyczyły kolejno: wpły-
wów podatkowych z przemysłu (𝑋𝑃 ), rzemiosła (𝑋𝑅𝑍 ), handlu i usług (𝑋𝐻+𝑈 ) oraz zajęć zawodowych
i z pozostałych działalności (𝑋𝑍𝑍+𝐼 ). Celem badań było wyodrębnienie pięciu skupień maksymalnie jed-
norodnych wewnętrznie ze względu na strukturę wpływów podatkowych. Grupowanie przeprowadzono
osobno dla każdego z badanych lat. Założono także, że pierwsze centra powinny być wyznaczone w taki
sposób, aby zmaksymalizować odległości pomiędzy skupieniami (por. rozdział 6.2.3.).
W metodach kombinatorycznych uzyskane skupienia nie mają hierarchicznej struktury skupień.
Z tego względu wyniki grupowania metodą 𝑘-średnich można przedstawić jedynie w postaci tabela-
rycznej. Takie zestawienia wraz ze średnimi wartościami udziałów poszczególnych rodzajów działal-
ności w strukturze podatkowej przedstawiono dla każdego z badanych lat w tabelach 12.3–12.7. Dodat-
kowo uzyskane wyniki przedstawiono na mapach (rysunek 12.4– 12.8). Wszystkie obliczenia przepro-
wadzono w programie Statistica. Przykładową procedurę postępowania w tego typu badaniach zawarto
w Aneksie B.
12.6. Regionalizacja powiatów województwa poznańskiego 259

Tabela 12.3. Średnie wartości zmiennych wraz z odchyleniami standardowymi w wyodrębnionych grupach powiatów
ze względu na strukturę wpływów podatkowych z działalności indywidualnych w 1958 r.

Zajęcia zawo-
Skupienia powiatów Przemysł Rzemiosło Handel i usługi
dowe i pozostali
Kępno, Kościan, Ostrów, Ostrzeszów,
Pleszew, Poznań, Śrem, Środa, Szamo-
𝑠 0,09 [0,05] 0,70 [0,06] 0,16 [0,06] 0,05 [0,02]
tuły, Gniezno m., Kalisz m., Leszno m., 1
Ostrów m., Piła m.
Gostyń, Jarocin, Koło, Leszno, Między-
chód, Oborniki, Rawicz, Wągrowiec, 𝑠2 0,11 [0,04] 0,50 [0,05] 0,28 [0,04] 0,11 [0,05]
Września
Chodzież, Czarnków, Gniezno, Kalisz,
𝑠3 0,23 [0,07] 0,43 [0,06] 0,21 [0,05] 0,14 [0,04]
Konin, Turek, Wolsztyn
Krotoszyn, Nowy Tomyśl 𝑠4 0,02 [0,03] 0,46 [0,03] 0,43 [0,03] 0,09 [0,03]
Trzcianka, Słupca 𝑠5 0,22 [0,03] 0,26 [0,07] 0,39 [0,11] 0,13 [0,00]

W nawiasach wstawiono wartości odchyleń standardowych.


Źródło: zestawienie własne na podstawie wyników grupowania metodą k-średnich.

Rysunek 12.4. Powiaty województwa poznańskiego pogrupowane ze względu strukturę wpływów podatkowych
z działalności indywidualnych w 1958 r.

Źródło: opracowanie własne w oparciu o wyniki grupowania metodą k-średnich.


260 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych

Tabela 12.4. Średnie wartości zmiennych wraz z odchyleniami standardowymi w wyodrębnionych grupach powiatów
ze względu na strukturę wpływów podatkowych z działalności indywidualnych w 1961 r.

Zajęcia zawo-
Skupienia powiatów Przemysł Rzemiosło Handel i usługi
dowe i pozostali
Czarnków, Kościan, Leszno, Ostrów,
Trzcianka, Pleszew, Gniezno m., 𝑠1 0,08 [0,05] 0,71 [0,04] 0,09 [0,04] 0,11 [0,04]
Leszno m., Ostrów m.
Krotoszyn, Międzychód, Nowy
Tomyśl, Poznań, Września, Kalisz m., 𝑠2 0,04 [0,03] 0,61 [0,04] 0,22 [0,06] 0,12 [0,06]
Piła m.
Chodzież, Gostyń, Jarocin, Kępno,
Koło, Konin, Ostrzeszów, Słupca, 𝑠3 0,15 [0,04] 0,60 [0,04] 0,14 [0,03] 0,12[0,05]
Śrem, Środa, Wągrowiec
Gniezno, Rawicz, Szamotuły,
𝑠4 0,16 [0,02] 0,44 [0,06] 0,21 [0,05] 0,19 [0,07]
Turek
Kalisz, Oborniki, Wolsztyn 𝑠5 0,29 [0,06] 0,43 [0,01] 0,16 [0,02] 0,12 [0,04]

W nawiasach wstawiono wartości odchyleń standardowych.


Źródło: zestawienie własne na podstawie wyników grupowania metodą k-średnich.

Rysunek 12.5. Powiaty województwa poznańskiego pogrupowane ze względu strukturę wpływów podatkowych
z działalności indywidualnych w 1961 r.

Źródło: opracowanie własne w oparciu o wyniki grupowania metodą 𝑘-średnich.


12.6. Regionalizacja powiatów województwa poznańskiego 261

Tabela 12.5. Średnie wartości zmiennych wraz z odchyleniami standardowymi w wyodrębnionych grupach powiatów
ze względu na strukturę wpływów podatkowych z działalności indywidualnych w 1964 r.

Zajęcia zawo-
Skupienia powiatów Przemysł Rzemiosło Handel i usługi
dowe i pozostali
Kępno, Leszno, Ostrzeszów, Poznań,
𝑠1 0,09 [0,03] 0,73 [0,02] 0,11 [0,02] 0,07 [0,02]
Leszno m.
Chodzież, Czarnków, Jarocin, Kościan,
Krotoszyn, Międzychód, Nowy To-
myśl, Pleszew, Rawicz, Śrem, Środa, 𝑠2 0,05 [0,03] 0,63 [0,05] 0,21 [0,04] 0,11 [0,03]
Szamotuły, Września, Gniezno m., Ka-
lisz m., Ostrów m., Piła m.
Gniezno, Gostyń, Koło, Konin, Obor-
niki, Ostrów, Trzcianka, Słupca, Wolsz- 𝑠3 0,12 [0,03] 0,57 [0,03] 0,17 [0,04] 0,14 [0,02]
tyn
Kalisz, Wągrowiec 𝑠4 0,21 [0,05] 0,46 [0,02] 0,18 [0,01] 0,15 [0,01]
Turek 𝑠5 0,10 [0,00] 0,41 [0,00] 0,22 [0,00] 0,28 [0,00]

W nawiasach wstawiono wartości odchyleń standardowych.


Źródło: zestawienie własne na podstawie wyników grupowania metodą 𝑘-średnich.

Rysunek 12.6. Powiaty województwa poznańskiego pogrupowane ze względu strukturę wpływów podatkowych
z działalności indywidualnych w 1964 r.

Źródło: opracowanie własne w oparciu o wyniki grupowania metodą 𝑘-średnich.


262 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych

Tabela 12.6. Średnie wartości zmiennych wraz z odchyleniami standardowymi w wyodrębnionych grupach powiatów
ze względu na strukturę wpływów podatkowych z działalności indywidualnych w 1967 r.

Zajęcia zawodowe
Skupienia powiatów Przemysł Rzemiosło Handel i usługi
i pozostali
Gniezno, Jarocin, Kępno, Ko-
ścian, Leszno, Ostrzeszów, Po-
𝑠1 0,05 [0,03] 0,71 [0,06] 0,12 [0,03] 0,11 [0,04]
znań, Śrem, Środa, Gniezno m.,
Leszno m., Ostrów m.
Gostyń, Kalisz, Konin, Oborniki,
𝑠2 0,14 [0,02] 0,59 [0,05] 0,12 [0,04] 0,16 [0,03]
Ostrów, Trzcianka
Chodzież, Czarnków, Koło, Kro-
toszyn, Nowy Tomyśl, Pleszew,
Rawicz, Słupca, Szamotuły, Wą- 𝑠3 0,05 [0,03] 0,55 [0,04] 0,22 [0,04] 0,18 [0,05]
growiec, Września, Kalisz m.,
Piła m.
Międzychód, Wolsztyn 𝑠4 0,19 [0,00] 0,44 [0,08] 0,18 [0,07] 0,20 [0,00]
Turek 𝑠5 0,08 [0,00] 0,34 [0,00] 0,24 [0,00] 0,34 [0,00]

W nawiasach wstawiono wartości odchyleń standardowych.


Źródło: zestawienie własne na podstawie wyników grupowania metodą 𝑘-średnich.

Rysunek 12.7. Powiaty województwa poznańskiego pogrupowane ze względu strukturę wpływów podatkowych
z działalności indywidualnych w 1967 r.

Źródło: opracowanie własne w oparciu o wyniki grupowania metodą 𝑘-średnich.


12.6. Regionalizacja powiatów województwa poznańskiego 263

Tabela 12.7. Średnie wartości zmiennych wraz z odchyleniami standardowymi w wyodrębnionych grupach powiatów
ze względu na strukturę wpływów podatkowych z działalności indywidualnych w 1970 r.

Zajęcia zawodowe
Skupienia powiatów Przemysł Rzemiosło Handel i usługi
i pozostali
Gniezno, Gostyń, Kępno, Ko-
ścian, Leszno, Oborniki, Ostrze-
𝑠1 0,06 [0,03] 0,76 [0,05] 0,13 [0,04] 0,05 [0,02]
szów, Trzcianka, Poznań, Śrem,
Szamotuły, Września, Leszno m.
Chodzież, Czarnków, Jarocin,
Koło, Krotoszyn, Nowy Tomyśl,
Pleszew, Rawicz, Słupca, Wągro- 𝑠2 0,04 [0,03] 0,66 [0,03] 0,22 [0,03] 0,08 [0,02]
wiec, Gniezno m., Ostrów m.,
Piła m.
Kalisz, Ostrów, Środa 𝑠3 0,19 [0,01] 0,66 [0,03] 0,09 [0,03] 0,06 [0,03]
Konin, Wolsztyn 𝑠4 0,14 [0,01] 0,60 [0,05] 0,18 [0,02] 0,08 [0,02]
Międzychód, Turek, Kalisz m. 𝑠5 0,06 [0,02] 0,54 [0,03] 0,30 [0,05] 0,09 [0,05]

W nawiasach wstawiono wartości odchyleń standardowych.


Źródło: zestawienie własne na podstawie wyników grupowania metodą 𝑘-średnich.

Rysunek 12.8. Powiaty województwa poznańskiego pogrupowane ze względu strukturę wpływów podatkowych
z działalności indywidualnych w 1970 r.

Źródło: opracowanie własne w oparciu o wyniki grupowania metodą 𝑘-średnich.


264 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych

12.7. Periodyzacja okresu 1958-1970 ze względu na zmiany strukturalne


w działalnościach indywidualnych

W wyniku zastosowania analizy 𝑘-średnich uzyskano dla każdego z badanych lat nieco odmienny po-
dział powiatów ze względu na strukturę wpływów podatkowych z działalności indywidualnych w latach
1958-1970. Aby dokonać periodyzacji wspomnianego okresu, należy odpowiedzieć na pytanie, na ile
grupowania przeprowadzone dla pięciu wybranych lat okresu 1958-1970 są ze sobą zgodne. Zadanie to
jest dość złożone, ponieważ każde ze wspomnianych grupowań oparto o cztery wymiary. Zmienne
uwzględnione w badaniu to udział wpływów podatkowych z przemysłu (𝑋𝑃 ), rzemiosła (𝑋𝑅𝑍 ), handlu
i usług (𝑋𝐻+𝑈 ) oraz zajęć zawodowych i z pozostałych działalności (𝑋𝑍𝑍+𝐼 ).
Aby odpowiedzieć na powyższe pytanie porównywano zatem uzyskane wyniki dla każdego roku.
W tym celu skorzystano z możliwości jakie daje zastosowanie uogólnionego współczynnika Sokala-
-Michenera (por. wzór [4.27]). Jeżeli w wyniku grupowania przeprowadzonego dla danego roku
(𝑡 = 1958, 1961, 1964, 1967, 1970) dwa powiaty (powiat 𝑖-ty oraz 𝑗-ty) znalazły się w jednym sku-
pieniu, to współczynnik zgodności 𝑧𝑖𝑗𝑡 przyjmował wartość jeden. W pozostałych przypadkach wartość
tego współczynnika była równa zeru. Oszacowania współczynników zgodności wyników grupowania
dla powiatu chodzieskiego (𝑝1 ) i powiatu czarnkowskiego (𝑝2 ) przedstawiono w pierwszym wierszu
tabeli 12.8. Wynika z niego, że powiaty te należały do jednego skupienia w roku 1958, 1964, 1967 oraz
1970. Podobnie postąpiono z każdą parą powiatów. W ten sposób uzyskano 561 (𝑛(𝑛 − 1)/2) wartości
współczynników zgodności dla każdego roku.

Tabela 12.8. Wartości wybranych współczynników zgodności wyników grupowania ze względu na strukturę
wpływów podatkowych z działalności indywidualnych w wybranych latach okresu 1958-1970
Rok badania
t = 1958 1961 1964 1967 1970
Porównywane powiaty
chodzieski i czarnkowski 𝑧1;2;𝑡 1 0 1 1 1
chodzieski i gnieźnieński 𝑧1;3;𝑡 1 0 0 0 0
chodzieski i gostyński 𝑧1;4;𝑡 0 1 0 0 0
chodzieski i jarociński 𝑧1;5;𝑡 0 1 1 0 1
chodzieski i kaliski 𝑧1;6;𝑡 1 0 0 0 0
… … … … … … …
czarnkowski i gnieźnieński 𝑧2;3;𝑡 1 0 0 0 0
czarnkowski i gostyński 𝑧2;4;𝑡 0 0 0 0 0
czarnkowski i jarociński 𝑧2;5;𝑡 0 0 1 0 1
czarnkowski i kaliski 𝑧2;6;𝑡 1 0 0 0 0
… … … … … … …
Ostrów m. i Piła m. 𝑧33;34;𝑡 1 0 1 0 1
Źródło: opracowanie własne w oparciu o wyniki grupowania metodą 𝑘-średnich dla każdego roku.

Na podstawie wartości współczynników zgodności (por. tabela 12.8) wyznaczono uogólnione


współczynniki Sokala-Michenera (por. wzór [4.27]) dla każdej pary badanych lat. Dla przykładu war-
tość tego współczynnika pomiędzy rokiem 1958 oraz 1961 wyniosła: 𝑠1958;1961 = 0,64. Wszystkie
możliwe współczynniki podobieństwa Sokala-Michenera zestawiono w macierz podobieństwa 𝑺𝒕
[12.6]. Na jej podstawie można powiedzieć, że najsilniejszym podobieństwem odznaczały się wyniki
12.7. Periodyzacja okresu 1958-1970 265

grupowania uzyskane dla roku 1967 oraz 1970. W tym przypadku wartość uogólnionego współczynnika
Sokala-Michenera 𝑠1967;1970 = 0,71 wskazywała, że 71% ze wszystkich wskaźników zgodności przy-
jęło tę samą wartość.
1,00 0,64 0,61 0,64 0,60
0,64 1,00 0,61 0,65 0,61
𝑺𝒕 = 0,61 0,61 1,00 0,68 0,63 . [12.6]
0,64 0,65 0,68 1,00 0,71
[0,60 0,61 0,63 0,71 1,00]

Macierz podobieństwa 𝑺𝒕 [12.6] stała się podstawą do wyznaczenia macierzy niezgodności procen-
towej 𝑫𝒕 [12.7]. Jak wspomniano w rozdziale 4.2.1, w tym celu konieczne było wykorzystanie prze-
kształcenia [4.22].
1,00 0,36 0,39 0,36 0,40
0,36 1,00 0,39 0,35 0,39
𝑫𝒕 = 0,39 0,39 1,00 0,32 0,37 . [12.7]
0,36 0,35 0,32 1,00 0,29
[0,40 0,39 0,37 0,29 1,00]

Macierz 𝑫𝒕 [12.7] stała się podstawą grupowania pięciu uwzględnionych w badaniu lat, dla których
przeprowadzono regionalizację powiatów ze względu na strukturę wpływów podatkowych z działalno-
ści indywidualnych w latach 1958-1970. Tym razem wykorzystano metodę Warda, opisaną w roz-
dziale 6.1.3. Jej wyniki przedstawia dendrogram na rysunku 12.9. Dodatkowo wykres przebiegu aglo-
meracji (rysunek 12.10) wskazuje, że o pierwszym znaczącym skoku odległości wiązania można mó-

Rysunek 12.9. Dendrogram grupowania metodą Warda poszczególnych lat, dla których przeprowadzono grupowanie
powiatów województwa poznańskiego pod względem struktury wpływów podatkowych z działalności
indywidualnych w latach 1958-1970 (odległość: niezgodność procentowa)

0,36

0,35

0,34

0,33
Odległość wiązania

0,32

0,31

0,30

0,29

0,28

0,27
1970 1967 1964 1961 1958

S1 S2 S3 S4

Źródło: opracowanie własne z wykorzystaniem programu Statistica.


266 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych

Rysunek 12.10. Wykres przebiegu aglomeracji w grupowaniu poszczególnych lat, dla których przeprowadzono grupowanie
powiatów województwa poznańskiego pod względem struktury wpływów podatkowych z działalności indy-
widualnych w latach 1958-1970 (odległość: niezgodność procentowa)

0,37

0,36

0,35

0,34
Odległość wiązania

0,33

0,32

0,31

0,30

0,29

0,28

0,27
0 1 2 3 4 5
Etap wiązania

Źródło: opracowanie własne z wykorzystaniem programu Statistica.

wić już po pierwszym etapie wiązania. Zatem w interpretacji przestrzenno-czasowej wpływów podat-
kowych z działalności indywidualnej w poszczególnych powiatach województwa poznańskiego w la-
tach 1958-1970 można połączyć interpretację dla wyników grupowania z dwóch ostatnich lat. Rezultaty
grupowania powiatów ze względu na strukturę wpływów podatkowych z działalności indywidualnych
w pozostałych latach należy interpretować osobno.

12.8. Podsumowanie badań przestrzenno-czasowych

Przykład historycznej syntezy przestrzenno-czasowej zaprezentowano w oparciu o zmiany struktury


działalności indywidualnych w latach 1958-1970 w poszczególnych powiatach województwa poznań-
skiego. W badaniach tych wykorzystane zostały dane dotyczące wpływów z podatku obrotowego i do-
chodowego z poszczególnych działalności indywidualnych, jakie odnotowano w budżetach powiato-
wych województwa poznańskiego w formie sprawozdań finansowych Działu Finansowego Wojewódz-
kiej Rady Narodowej w Poznaniu. Stosowne obliczenia zrealizowano dla pięciu wybranych lat bada-
nego okresu. Tak szeroki zestaw informacji pozwolił na przeprowadzenie grupowania form działalności
indywidualnej w latach 1958-1970. Przeprowadzono także dla każdego z pięciu wybranych lat, regio-
nalizację powiatów województwa poznańskiego pod względem struktury wpływów podatkowych
z działalności indywidualnych. Co więcej, na podstawie uzyskanych wyników dokonano periodyzacji
badanego okresu.
12.8. Podsumowanie badań przestrzenno-czasowych 267

Wyniki grupowania form działalności indywidualnych


Już na wstępnym etapie badań wykazano, że działalność rzemieślniczą i przemysłową, należy rozważać
osobno. Z kolei porównanie zmienności wpływów podatkowych z działalności handlowej i usługowej
w poszczególnych powiatach oraz w badanych latach wskazywało, że dla obu tych działalności wnio-
skowanie można uogólnić. Taką samą sytuację odnotowano w odniesieniu do wpływów podatkowych
z działalności zawodowych i pozostałych zakładów, których nie udało się zakwalifikować do innych
grup.
Przeprowadzone badania wskazały, że najważniejszym źródłem podatku dochodowego i obroto-
wego w latach 1958-1970 były zakłady rzemieślnicze. Zakładając, że wpływy z podatku dochodowego
i obrotowego mogą być dobrym wskaźnikiem aktywności gospodarczej (por. MACYRA, BŁAŻEJCZYK-
MAJKA 2012), udział rzemiosła w badanym okresie w wyodrębnionych skupieniach powiatów tylko
dwukrotnie spadł poniżej 40%: w 1958 r. w skupieniu łączącym powiat trzcianecki i słupecki oraz
w 1967 r. w pozwiecie tureckim.
Jak wspomniano wcześniej, w 1955 r. wśród działalności indywidualnych wyodrębniono także dzia-
łalność przemysłową. Dostarczała ona, w zależności od badanego okresu i powiatu, maksymalnie do
29% łącznej wartości wpływów z tytułu podatku dochodowego i obrotowego z działalności indywidu-
alnych (w 1961 r. w skupieniu łączącym powiat kaliski, obornicki i wolsztyński). Należy zwrócić
uwagę, że wyniki badań po 1964 r. wykazują malejącą tendencję wpływów podatkowych z tego typu
działalności, co niewątpliwie wynikało z obostrzeń prawnych wypracowanych w tym okresie.
W strukturze przychodów z tytułu podatku obrotowego i dochodowego w budżetach powiatów, na
podobnym poziomie co działalność przemysłowa, kształtował się także udział działalności handlowej
i usługowej. Przynosił on od 9% wpływów do budżetów powiatowych województwa poznańskiego
w 1961 r. w skupieniu {Czarnków, Kościan, Leszno, Ostrów, Trzcianka, Pleszew, Gniezno m., Leszno
m., Ostrów m.} do 30% w 1970 r. w skupieniu {Międzychód, Kalisz m., Turek}.
Najmniej różnicującą zmienną okazały się wpływy do budżetów powiatowych z tytułu podatku do-
chodowego i obrotowego z indywidualnych działalności zawodowych i pozostałych zakładów, których
nie udało się zakwalifikować do innych grup. Z tego względu dalsza interpretacja uzyskanych wyników
dla tego obszaru, przeprowadzona w odniesieniu do regionalizacji i periodyzacji została pominięta. Sy-
tuacja ta była w pewnym stopniu rezultatem zastosowanej metody, a w szczególności przyjętego spo-
sobu normalizacji zmiennych (por. rozdział 12.3). W analizowanym przykładzie ma ona uzasadnienie
merytoryczne. Można zatem powiedzieć, że udział wpływów podatkowych z zajęć zawodowych, ściśle
związany ze świadczeniem usług dla ludności, w większym stopniu uzależniony był od innych czynni-
ków (np.: od liczby ludności czy kapitału społecznego) niż od rozwoju gospodarczego pozostałych grup
działalności indywidualnych.

Wyniki regionalizacji powiatów województwa poznańskiego


Uzyskany podział form działalności indywidualnych w województwie poznańskim w latach 1958-1970
zdeterminował formę przedstawienia dalszych wyników. W pierwszym rzędzie rozpatrywano znaczenie
rzemiosła na tle pozostały działalności indywidualnych w województwie poznańskim. Zestawienie
skupień, w których rzemiosło odgrywało najważniejszą rolę w wybranych latach badanego okresu
przedstawiono w tabeli 12.9.
268 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych

Tabela 12.9. Średnie wartości zmiennych wraz z odchyleniami standardowymi w skupieniach powiatów o najwyższym
udziale wpływów podatkowych z działalności rzemiosła w województwie poznańskim latach 1958-1970

Zajęcia
Handel
Rok Powiaty Przemysł Rzemiosło zawodowe
i usługi
i pozostali
Leszno m., Kępno, Kościan, Ostrów,
Ostrzeszów, Pleszew, Poznań, Śrem,
1958 0,09 [0,05] 0,70 [0,06] 0,16 [0,06] 0,05 [0,02]
Środa, Szamotuły, Gniezno m., Kalisz
m., Ostrów m., Piła m.
Leszno m., Kościan, Czarnków,
1961 Leszno, Ostrów, Trzcianka, Pleszew, 0,08 [0,05] 0,71 [0,04] 0,09 [0,04] 0,11 [0,04]
Gniezno m., Ostrów m.
Leszno m., Kępno, Leszno,
1964 0,09 [0,03] 0,73 [0,02] 0,11 [0,02] 0,07 [0,02]
Ostrzeszów, Poznań
Leszno m., Leszno, Kępno, Kościan,
Gniezno, Ostrzeszów, Poznań, Śrem,
1967 0,05 [0,03] 0,71 [0,06] 0,12 [0,03] 0,11 [0,04]
Środa, Gniezno m., Ostrów m.,
Jarocin,
Leszno m., Leszno, Kępno, Kościan,
Gniezno, Ostrzeszów, Poznań, Śrem,
1970 0,06 [0,03] 0,76 [0,05] 0,13 [0,04] 0,05 [0,02]
Gostyń, Oborniki, Trzcianka,
Szamotuły, Września
W nawiasach kwadratowych wstawiono wartości odchyleń standardowych.
Źródło: opracowanie własne w oparciu od grupowania metodą 𝑘-średnich.

Zestawienia przedstawione w tabelach 12.4–12.7 przekonują o dominującym znaczeniu rzemiosła


wśród działalności indywidualnych prowadzonych obok sektora uspołecznionego w latach 1958-1970.
Natomiast na podstawie tabeli 12.9 łatwo zaobserwować, że powiaty tworzące skupienia charakteryzu-
jące się bardzo wysoką aktywności gospodarczą sąsiadują z miastem wojewódzkim. Wyjątek stawią tu
wyniki uzyskane w odniesieniu do 1961 r. Co więcej, za przełomowy można w badanym okresie uznać
rok 1964. Do tego czasu liczba powiatów z dominującym znaczeniem rzemiosła spadała, a po nim za-
częła rosnąć, a zmiany znaczenia rzemiosła w wyodrębnionych grupach były związane ze zmianami
znaczenia handlu i usług.
Wnioski te są zgodne z poglądami IWASZKIEWICZA (1972) czy MACYRY i BŁAŻEJCZYK-MAJKI
(2012), którzy podkreślali znaczenie rzemiosła w gospodarce polskiej w okresie powojennym. O spo-
łeczno-gospodarczych znaczeniu rzemiosła w PRL pisał także MARCZUK (1980). Wymienia on wśród
zadań, jakie rzemiosło wypełniało w tamtym okresie, m.in. zaspokajanie potrzeb usługowych ludności,
doskonalenie systemu edukacji zawodowej w rzemiośle, kształcenie i wychowywanie uczniów czy ak-
tywność kulturalną rzemiosła. Wzrost popytu na usługi stymulował zatem szybszy rozwój prywatnego
rzemiosła i zwiększał jego gospodarność (MOZOŁOWSKI 1980, s. 34-35), a w rezultacie sumę odprowa-
dzanych podatków. W Polsce w latach 1950-1970 zatrudnienie w rzemiośle wahało się od 4,1 do 5,5%
zatrudnionych w uspołecznionym przemyśle przetwórczym. W 1955 r. w liczbach bezwzględnych
w rzemiośle pracowało 129,6 tys. osób, a w 1970 r. liczba ta wzrosła do 315,6 tys. Z kolei liczba zakła-
dów rzemieślniczych wzrosła z niemal 90 tys. w 1955 r. do nieco ponad 164 tys. w 1970 r.
IWASZKIEWICZ (1972) podkreślał także, że w latach 60. XX w. największą grupę usług świadczo-
nych przez rzemiosło stanowiły usługi budowlane, nabywane przez przemysł uspołeczniony za pośred-
nictwem spółdzielni rzemieślniczych. Były to głównie roboty drobne, których wykonanie nie opłacało
się przedsiębiorstwom uspołecznionym. Usługi nieprzemysłowe wykonywane dla przedsiębiorstw
12.8. Podsumowanie badań przestrzenno-czasowych 269

uspołecznionych miały marginalne znaczenie. Można tu wymienić usługi kominiarskie oraz fotogra-
ficzne, konserwację dźwigów, naprawę wag czy maszyn biurowych.
Ściśle związana z działalnością rzemieślniczą w okresie PRL była indywidualna działalność prze-
mysłowa (NIEWADZI 1958, s 8-9). W przypadku indywidualnej działalności przemysłowej trudno mó-
wić w odniesieniu do powiatów województwa poznańskiego o tak jednoznacznej tendencji, jak w przy-
padku rzemiosła (por. tabelę 12.10). Pamiętając, że uzyskane wyniki można traktować jako procentowy
udział w budżetach powiatów, a nie jako udział wyrażony w wartościach bezwzględnych, można zau-
ważyć utrzymujące się wysokie znaczenie podatków dochodowych i obrotowych z tej działalności
w powiecie kaliskim oraz wolsztyńskim.

Tabela 12.10. Średnie wartości zmiennych wraz z odchyleniami standardowymi w skupieniach powiatów o najwyższym
udziale wpływów podatkowych z indywidualnej działalności przemysłowej województwie poznańskim
w latach 1958-1970
Zajęcia
Rok Skupienia powiatów Przemysł Rzemiosło Handel i usługi zawodowe
i pozostali
Chodzież, Czarnków,
1958 Gniezno, Kalisz, Konin, 0,23 [0,07] 0,43 [0,06] 0,21 [0,05] 0,14 [0,04]
Turek, Wolsztyn
1958 Trzcianka, Słupca 0,22 [0,03] 0,26 [0,07] 0,39 [0,11] 0,13 [0,00]
1961 Kalisz, Oborniki, Wolsztyn 0,29 [0,06] 0,43 [0,01] 0,16 [0,02] 0,12 [0,04]
1964 Kalisz, Wągrowiec 0,21 [0,05] 0,46 [0,02] 0,18 [0,01] 0,15 [0,01]
1967 Międzychód, Wolsztyn 0,19 [0,00] 0,44 [0,08] 0,18 [0,07] 0,20 [0,00]
1970 Kalisz, Ostrów, Środa 0,19 [0,01] 0,66 [0,03] 0,09 [0,03] 0,06 [0,03]

Źródło: opracowanie własne w oparciu od grupowania metodą 𝑘-średnich.

Jak wspomniano wcześniej, rozwój indywidualnej działalności przemysłowej był uzależniony od


rozwoju przemysłowego sektora uspołecznionego, który był głównym zleceniodawcą przedsiębiorstw
indywidualnych należących do tej grupy. Trudno jednak uzyskane wyniki dotyczące znaczenia indywi-
dualnej działalności przemysłowej skojarzyć z regionalizacją przemysłu polskiego w badanym okresie.
Dla przykładu BEREZOWSKI (1959) zaproponował podział kraju na regiony gospodarcze i w jego kla-
syfikacji w województwie poznańskim występował jeden w pełni rozwinięty ośrodek przemysłowy –
Poznań, i drugi ośrodek –Piła, który wykazywał potencjał rozwojowy. Nieco inny podział zapropono-
wał RYCHLEWSKI (1960). Województwo poznańskie, jako jedno z nielicznych, odznaczało się względ-
nie pełną kompleksowością zarówno w poziomie rozwoju przemysłowego, jak i koncentracji siły robo-
czej. Co więcej, BEREZOWSKI (1959, 1962) przewidywał, że Kalisz w latach 60. i 70. stanie się alterna-
tywnym ośrodkiem regionów. Z kolei BUCH (1960) wskazywał na wysoki potencjał okręgu koniń-
skiego. Zestawiając zatem te opinie z wynikami grupowań w oparciu o wpływy podatkowe, można wy-
ciągnąć wniosek, że mniejsze ośrodki polskiego przemysłu uspołecznionego w latach 60. i 70. XX w.
częściej korzystały z usług przedsiębiorstw indywidualnych niż te duże, tworzące zwarte i samowystar-
czające kompleksy. Wniosek ten wydaje się zbieżny z opinią Floriana WIŚNIEWSKIEGO (1964, s. 16-
-17), który twierdził, że w okresie powojennym przemysł uspołeczniony nie był dostatecznie przygoto-
wany do wyparcia rzemiosła z produkcji wytwórczej, ponieważ nie był w stanie w całości wypełnić luki
powstałej przez ograniczenie działalności rzemiosła.
270 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych

Tabela 12.11. Średnie wartości zmiennych wraz z odchyleniami standardowymi w skupieniach powiatów o znaczącym
udziale wpływów podatkowych z indywidualnej działalności handlowej i usługowej w województwie po-
znańskim w latach 1958-1970
Zajęcia
Rok Skupienia powiatów Przemysł Rzemiosło Handel i usługi zawodowe
i pozostali
1958 Krotoszyn, Nowy Tomyśl 0,02 [0,03] 0,46 [0,03] 0,43 [0,03] 0,09 [0,03]
1958 Trzcianka, Słupca 0,22 [0,03] 0,26 [0,07] 0,39 [0,11] 0,13 [0,00]
Krotoszyn, Nowy Tomyśl, Międzychód,
1961 0,04 [0,03] 0,61 [0,04] 0,22 [0,06] 0,12 [0,06]
Września, Poznań, Kalisz m., Piła m.
1961 Gniezno, Rawicz, Szamotuły, Turek 0,16 [0,02] 0,44 [0,06] 0,21 [0,05] 0,19 [0,07]
1964 Turek 0,10 [0,00] 0,41 [0,00] 0,22 [0,00] 0,28 [0,00]
Krotoszyn, Nowy Tomyśl, Międzychód, ,
Września, Kalisz m., Piła m. Chodzież,
1964 Czarnków, Jarocin, Kościan, Pleszew, 0,05 [0,03] 0,63 [0,05] 0,21 [0,04] 0,11 [0,03]
Rawicz, Śrem, Środa, Szamotuły,
Gniezno m., Ostrów m.,
1967 Turek 0,08 [0,00] 0,34 [0,00] 0,24 [0,00] 0,34 [0,00]
Krotoszyn, Nowy Tomyśl, Września, Ka-
lisz m., Piła m., Chodzież, Czarnków,
1967 0,05 [0,03] 0,55 [0,04] 0,22 [0,04] 0,18 [0,05]
Koło, Pleszew, Rawicz, Słupca, Szamo-
tuły, Wągrowiec,
1970 Międzychód, Kalisz m., Turek, 0,06 [0,02] 0,54 [0,03] 0,30 [0,05] 0,09 [0,05]
Krotoszyn, Nowy Tomyśl, Chodzież,
Czarnków, Jarocin, Koło, Pleszew, Ra-
1970 0,04 [0,03] 0,66 [0,03] 0,22 [0,03] 0,08 [0,02]
wicz, Słupca, Wągrowiec, Gniezno m.,
Ostrów m., Piła m.
Źródło: opracowanie własne w oparciu od grupowania metodą 𝑘-średnich.

Wyniki grupowania uwzględniające skupienia, w których udział handlu i usług był znaczący,
przedstawiono w tabeli 12.11. Wśród powtarzających się najczęściej w uzyskanych skupieniach powia-
tów o relatywnie najwyższym udziale podatków od tej grupy przedsiębiorców w podatkach ogółem
z działalności indywidualnych w budżetach powiatowych, można wymienić powiat krotoszyński, no-
wotomyski, turecki, rawicki oraz miasta: Kalisz i Piłę. Wydaje się, że zwiększony udział przychodów
podatkowych z handlu i usług miał miejsce w powiatach, w których rzemiosło odgrywało mniej zna-
czącą rolę. Należy podkreślić że w każdym z badanych okresów wyodrębniono dwa skupienia o rela-
tywnie wysokim, ale zbliżonym poziomie udziału w podatkach ogółem przychodów z działalności han-
dlowej i usługowej. Można zatem powiedzieć, że zmienność w obszarze udziału handlu i usług, mimo
stosunkowo wysokiego udziału w wpływach podatkowych z działalności indywidualnych, ani razu
w badanym okresie nie przesądziła o specyficznym charakterze wyodrębnionych skupień. Ma to za-
pewne uzasadnienie praktyczne. Trudno mówić o możliwościach rozwoju tej dziedziny gospodarowa-
niaw oderwaniu od pozostałych obszarów życia gospodarczego. Co więcej, o ilości punktów handlo-
wych i usługowych w latach 60. i 70. ubiegłego wieku przesądzał także dostęp do towarów czy mate-
riałów, który w warunkach gospodarki socjalistycznej był ograniczony.
12.8. Podsumowanie badań przestrzenno-czasowych 271

Wyniki periodyzacji badanego okresu


Ze względu na fakt, że zmienne uwzględnione w badaniu zostały wyrażone w jednostkach względnych,
a obszar badania nie uległ zmianie, możliwe było porównanie uzyskanych w poszczególnych latach
wyników grupowania. Ze względu na dostępność literatury tematu większość wniosków dotyczących
periodyzacji badanego okresu nawiązywać jednak będzie do sytuacji rzemiosła.
W rezultacie przeprowadzonej periodyzacji okresu 1958-1970 stwierdzono, że wyniki z lat 1958,
1961, 1964 należy interpretować osobno. Syntezę regionalizacji powiatów województwa poznańskiego
ograniczono zatem do wyników badań przeprowadzonych dla lat 1967 oraz 1970. Wnioski te korespon-
dują z danymi szacunkowymi, publikowanymi przez IWASZKIEWICZA (1972). Podaje on, że wartości
usług wykonywanych przez rzemiosło w latach 1961-1970 wynosiły w 1961 oraz 1965 r. odpowiednio
3471 mln zł oraz 4430 mln zł. O skoku można mówić dopiero od drugiej połowy lat 60., w których
wartość usług Iwaszkiewicz oszacował na poziomie 9513 mln zł w 1969 r. oraz 7029 mln zł w 1970 r.
Co więcej, LANDAU (1995, s. 26-27) podkreśla wpływ czynników politycznych na proces zmian gospo-
darczych w tym okresie. Władysław Gomułka na VIII Plenum KC PZPR zarysował plan niezbędnych
zmian w gospodarce, ale jednocześnie kilkakrotnie przestrzegał przed zbyt pospiesznymi działaniami.
Obok licznych postulatów gospodarczych pojawił się tam także taki, który przewidywał rozwój produk-
cji prywatnej w tych działach, gdzie szczególnie ostro rysował się deficyt materiałów podstawowych.
W pierwszym badanym roku (1958) strukturę działalności indywidualnych można traktować jako
odzwierciedlenie rezultatów planu sześcioletniego w obszarze działalności indywidualnej. IWASZKIE-
WICZ (1972) stwierdza, że w 1951 r. w okresie planu sześcioletniego, rzemiosło odnotowało najniższy
poziom obrotów (równy stanowi z roku 1946). Obroty wzrastały stopniowo do 1954 r., kiedy osiągnęły
163% stanu z 1946 r. Czesław NIEWADZI (1958, s. 136-137) podkreślał, że decyzje polityczne planu
sześcioletniego w zakresie prowadzenia działalności rzemieślniczej i handlu odbiły się także na rozwoju
mniejszych miast w Polsce w okresie powojennym: „Wyniszczenie drobnego przemysłu, rzemiosła
i handlu prywatnego, a więc tych podstaw gospodarczych, które warunkowały istnienie ponad 75%
ogółu małych miast w Polsce, spowodowało upadek znacznej ich części. Zjawisko to wystąpiło wyraź-
nie już w latach 1949-1950 i było wynikiem przede wszystkim forsowanej akcji uspołecznienia handlu.
(…) Zapoczątkowany w ten sposób proces upadku małych miast w Polsce pogłębiony został w wyniku
polityki likwidacji prywatnego rzemiosła”. Taki stan rzeczy spowodował, że w 1956 r. nastąpiła zasad-
nicza i radykalna zmiana polityki gospodarczej w stosunku do rzemiosła indywidualnego. W wyniku
uchwał VII oraz VIII Plenum KC PZPR rozwój rzemiosła uznany został za pożądany ze względów
gospodarczych i społecznych. W rezultacie, po zakończeniu planu sześcioletniego, obserwowany był
powolny wzrost, a po 1957 r. wzrost ten okazał się wręcz masowy (RZEMIOSŁO W WIELKOPOLSCE…,
s. 9). BARAŃSKI (1969) wspomina, że na tę sytuację niewątpliwy wpływ miała przede wszystkim re-
forma podatkowa5, jaka miała miejsce w 1956 r. Wprowadzono m.in. ryczałt w formie kart podatko-
wych dla większej liczby zawodów oraz dla warsztatów zatrudniających do czterech osób (nie licząc
małżonka i uczniów) oraz ryczałt kwotowy i umowny. Co więcej, rozporządzenie z 7 grudnia 1956 r .
zwolniło z podatku obrotowego i dochodowego na dwa lata rzemieślników zakładających nowe zakłady
w miejscowościach do 5000 mieszkańców, pracujących samodzielnie bez pomocy, oraz na Ziemiach

5
Rozporządzenie Ministra Finansów z dnia 7 grudnia 1956 r. w sprawie zwolnienia od podatków nowozakła-
danych drobnych zakładów rzemieślniczych i chałupniczych oraz przemysłu ludowego i domowego (Dz.U. 1956
nr 60, poz. 289); Rozporządzenie Ministra Finansów z dnia 8 grudnia 1956 r. w sprawie poboru w formie ryczałtu
podatków obrotowego i dochodowego od osób prowadzących zakłady rzemieślnicze (Dz.U. 1956 nr 60, poz. 290);
Rozporządzenie Ministra Finansów z dnia 8 grudnia 1956 r. w sprawie kart podatkowych dla drobnych rzemieśl-
ników (Dz.U. 1956 nr 60, poz. 291).
272 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych

Zachodnich z jednym członkiem rodziny i jednym pracownikiem najemnym. Od 1958 r. rzemieślnicy


mogli ubiegać się o kredyty nie tylko w Narodowym Banku Polskim, ale także w spółdzielniach osz-
czędnościowo-pożyczkowych. Obniżono także dla rzemieślników czynsze za lokale warsztatowe
o 50%.
Zestawienie wyników regionalizacji uzyskanych dla roku 1958 z wynikami dla roku 1961 pozwala
zauważyć, że zmiana założeń politycznych nie spowodowała jednak radykalnego wzrostu znaczenia
rzemiosła. Prezentowane wyniki nie są porównywane pod względem wzrostu wartości bezwzględnych,
niemniej jednak w wyniku prezentowanych grupowań dla 1961 liczba powiatów, w których udział rze-
miosła w dochodach budżetowych powiatu stanowił więcej niż 70% zmalał (zob. tabela 12.9). Rezultaty
te można porównać z wartościami dotyczącymi liczby zakładów. PRZYŁUSKI (1972) podkreślał, że w la-
tach 1961-1962 liczba zakładów rzemieślniczych nie zwiększyła się. W kolejnym roku nawet zmalała.
Nie wzrastała również liczba uczniów w rzemiośle. W 1963 r. wprowadzono nową listę rzemiosł. Roz-
szerzono również listę rzemiosł wymagających do prowadzenia działalności zezwolenia. Co więcej,
wprowadzono limity zezwoleń dla następujących rzemiosł: tkactwa, dziewiarstwa, pończosznictwa, od-
lewnictwa, garbowania skór. Nowy zakład mógł zyskać zezwolenie tylko w przypadku rezygnacji in-
nego zakładu z tego typu działalności (BIAŁOBRZESKI (1974). To ostatnie stwierdzenie potwierdzają
wyniki z 1964 r.
Okres od 1965 r. nazywany jest okresem intensywnego popierania rzemiosła. W 1965 r. wprowa-
dzono ustawę o ubezpieczeniu społecznym rzemieślników6. W kolejnym roku wprowadzono wymóg
wydzielenia w planach rocznych uspołecznionego budownictwa mieszkaniowego 20% powierzchni
z przeznaczeniem dla rzemieślników. Wydłużono zezwolenia na prowadzenie zakładu do 10 lat, pod-
niesiono limity zatrudnienia pracowników najemnych do 6 (lub 8 w przypadku branży budowlanej).
Zaowocowało to znaczącym wzrostem liczby zakładów i zatrudnienia w nich, ale tylko w nielicznych
branżach uzyskano poziom z 1958 r.
Sytuacja poprawiła się dopiero w latach 1966-1968. Znalazło o to odzwierciedlenie w badaniach prze-
prowadzonych dla lat 1967 i 1970. Liczba zakładów oraz zatrudnionych w rzemiośle w skali kraju wzra-
stała średnio z roku na rok, odpowiednio o ponad 7% oraz 9%, osiągając szczytowy poziom w 1969 r.
SZREJBROWSKI (1969, s. 41-42) tak charakteryzuje znaczenie rzemiosła pod koniec lat 60. ubiegłego
wieku: „Stały wzrost liczby warsztatów rzemieślniczych oraz stosunkowo szybki wzrost wyników gospo-
darczych w zakresie produkcji rynkowej i zaopatrzeniowej, eksportowej oraz w dziedzinie usługowej na-
kłada coraz większe obowiązki na samorząd gospodarczy rzemiosła i jego aktyw. Sytuacja gospodarcza
rzemiosła, a zwłaszcza klimat stwarzany wokół rzemiosła, uległy zdecydowanej poprawie. Powszechnie
rozumiana jest rola rzemiosła i jego miejsce w gospodarce narodowej”. W 1970 r. spadek znaczenia rze-
miosła wynikał z ograniczeń prawnych dotyczących styku rzemiosła z gospodarką uspołecznioną. Po
zmianach w 1970 r. liczba zakładów i zatrudnionych spadła o blisko 5% oraz 7% (PRZYŁUSKI 1972). Cha-
rakterystyki te znalazły potwierdzenie w uzyskanych wynikach (por. tabele 12.6 oraz 12.7).

W prezentowanym przykładzie, ze względu na strukturę dostępnych danych ilościowych, możliwe było


przeprowadzenie syntez historycznych dotyczących działalności indywidualnych w latach 1958-1970
w trzech perspektywach: z punktu widzenia doboru zmiennych uwzględnionych w badaniu, ze względu
na rozmieszczenie przestrzenne działalności indywidualnej oraz na zmiany, jakie nastąpiły w tej dzie-
dzinie w badany okresie. Uwzględnienie trzech perspektyw spowodowało, że metody taksonomiczne
zostały zastosowane trzy razy. Po pierwsze, grupowanie wielowymiarowe wykorzystano w zagadnieniu

6
Ustawa z dnia 29 marca 1965 r. o ubezpieczeniu społecznym rzemieślników (Dz.U. 1965 nr 13, poz. 90).
12.8. Podsumowanie badań przestrzenno-czasowych 273

doboru zmiennych, który w analizach przestrzenno-czasowych wymaga, aby ostateczny zbiór zmien-
nych diagnostycznych był uniwersalny i dotyczył każdego z badanych lat, i w konsekwencji gwaranto-
wał porównywalność uzyskanych wyników w czasie. Po drugie, dzięki zastosowaniu metody k-średnich
pogrupowano powiaty ze względu na strukturę wpływów podatkowych od indywidualnych przedsię-
biorców – de facto przeprowadzono ich regionalizację. Następnie na podstawie wyników grupowania
powiatów, uzyskanych dla każdego z badanych lat, dokonano periodyzacji.
Punktem wyjścia do przeprowadzenia przestrzenno-czasowej syntezy historycznej na podstawie
wpływów podatkowych z działalności indywidualnych w powiatach województwa poznańskiego w la-
tach 1958-1970 była normalizacja zmiennych. Zaproponowane przekształcenia ilorazowe ograniczają
wpływ inflacji i prowadzą do prezentacji danych w formie, która umożliwiła ich interpretację na dal-
szych etapach badania. Prezentowany przykład obrazuje jednak, jak zagadnienie normalizacji może być
złożone – konieczna jest duża świadomość merytoryczna historyka przy podejmowaniu decyzji o tego
typu przekształceniach.
W przypadku badań przestrzenno-czasowych, jak wspominano wcześniej, dobór zmiennych powi-
nien być przeprowadzony w ten sposób, aby możliwe było przeprowadzenie grupowania na ich podsta-
wie w każdym z badanych lat, których podstawą byłby ten sam zestaw zmiennych. Aby zrealizować to
zadanie, posłużono się macierzą średnich współczynników korelacji pomiędzy wartościami wszystkich
zmiennych, dla których dostępne były dane ilościowe. Jej przekształcenie w macierz odległości pozwo-
liło już zastosować dualne procedury doboru zmiennych diagnostycznych, stosowane w grupowaniach
uwzględniających jedynie dwie perspektywy badania. W prezentowanym przykładzie posłużono się
taksonomią wrocławską. Na podstawie jej wyników dokonano syntezy najbliższych sobie zmiennych.
Takie postępowanie sprawiło, że przyjęty ostatecznie zbiór zmiennych zagwarantował porównywalność
uzyskanych wyników grupowania przeprowadzonych dla wybranych lat badanego okresu.
W przypadku większego zbioru grupowanych obiektów rekomendowane są metody optymaliza-
cyjne. W prezentowanym przykładzie zastosowano metodę 𝑘-średnich. Jednak na jej podstawie, w od-
różnieniu od metod hierarchicznych, uzyskiwane są grupy obiektów – w prezentowanym przykładzie
były to powiaty – o nieznanej strukturze wewnętrznej. Ten niedostatek metod kombinatorycznych
można zrekompensować, stosując w celu zdefiniowania pożądanej liczby skupień, jedną z metod hie-
rarchicznych. W zagadnieniu dotyczącym struktury wpływów podatkowych z działalności indywidual-
nych zastosowano metodę Warda w oparciu o macierz względnych wskaźników natężenia, która
uwzględniała zmiany odległości pomiędzy obiektami, jakie nastąpiły w całym badanym okresie.
Ostatnie zadanie, związane z periodyzacją badanego okresu, okazało się nie tyle złożone, co praco-
chłonne. Rezultaty regionalizacji poszczególnych obiektów porównywano parami w każdym okresie.
Na podstawie wyznaczonych w ten sposób wskaźników zgodności, zbudowano macierz podobieństwa
uzyskanych wyników dla poszczególnych lat badanego okresu. Dysponując tym narzędziem, dokonano
periodyzacji. Teoretycznie dla prezentowanego zagadnienia możliwa jest także podobna analiza, prze-
prowadzona jednak w oparciu o macierz podobieństwa wyznaczoną pomiędzy poszczególnymi powia-
tami i uwzględniająca wyniki ze wszystkich lat badanego okresu. W prezentowanym przykładzie, mimo
że uogólnienie pięciu wyników regionalizacji wydaje się bardzo atrakcyjnym tematem, działania tego
zaniechano. Decyzja ta wynikała z rezultatów wspomnianej już periodyzacji, która wskazywała na moż-
liwość syntezy tylko w obszarze dwóch ostatnich lat, dla których dokonano regionalizacji.
Analizę dotyczącą zagadnienia wpływów podatkowych z działalności indywidualnych można oczy-
wiście przeprowadzić, ograniczając się jedynie, do stosowanych zwykle w takich sytuacjach, uśrednień.
Należy jednak pamiętać, że takie postępowanie ogranicza się zawsze tylko do jednej perspektywy ba-
274 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych

dawczej. W prezentowanym przykładzie można dokonać tego typu uogólnień cząstkowych albo w od-
niesieniu do wszystkich powiatów województwa poznańskiego, albo do poszczególnych lat badanego
okresu, albo w perspektywie wpływów podatkowych z działalności indywidualnych uwzględnionych
w badaniu. Podsumowując zatem, zastosowanie metod taksonomicznych w badaniach przestrzenno-
czasowych z pewnością można uznać za proces złożony. Wysiłek włożony w obliczenia prowadzi jed-
nak do syntez uwzględniających jednocześnie wszystkie perspektywy badawcze, co w konsekwencji
prowadzi do uzyskania możliwie pełnego obrazu badanego zjawiska historycznego.
13
Zakończenie

Dążenie do porządkowania, a w efekcie do klasyfikowania przedmiotów i zjawisk otaczającego świata,


towarzyszy człowiekowi od zarania dziejów. Takie zachowania pozwalają lepiej zrozumieć otaczającą
rzeczywistość. W szerszym kontekście definiują pozycję jednostki w świecie, pozwalają na podejmo-
wanie racjonalnych decyzji, a w konsekwencji budują jej tożsamość. Nieodłącznym elementem tego
procesu jest zbieranie i tworzenie baz danych ilościowych. W obliczu ogromu dostępnych współcześnie
informacji ilościowych metody taksonomiczne stają się narzędziem koniecznym, umożliwiającym ich
porządkowanie, wybieranie istotnych elementów, a w końcu ich syntetyzowanie. Pozwalają one podzie-
lić badane obiekty na jednorodne grupy przy jednoczesnym uwzględnieniu wielu zmiennych. Grupo-
wanie wielowymiarowe przy użyciu metod taksonomicznych można przeprowadzić w perspektywie
jednostek lub zmiennych, które je opisują, oraz czasu, w którym przebiega badane zjawisko.
Wydaje się, że główne ograniczenia stosowania przez historyków metod ilościowych, a w szczegól-
ności metod taksonomicznych, wynikają z kilku przyczyn. Wśród nich można wymienić fakt, że histo-
ryk, częściej niż inni badacze, pracuje z różnorodnymi źródłami materiałów dostarczającymi informacji
ilościowych. Co więcej, są one wyrażone nie tylko w powszechnych we współczesnych publikacjach
statystycznych silnych skalach, ale i słabszych, które wymagają szerszej wiedzy metodologicznej.
Oprócz tego stosowane najczęściej analizy jednowymiarowe prowadzą do wyników, które dla histo-
ryka-naukowca, znającego szerszy kontekst historyczny podejmowanego zagadnienia, są po prostu nie-
wystarczające].
Szerokie spektrum źródeł informacji, do których historyk ma dostęp, pozwala m.in. na dobre roze-
znanie w zakresie wiarygodności danych ilościowych. Często jednak zachodzi sytuacja, w której histo-
ryk dysponuje różnym rodzajem danych ilościowych – wyrażonych w różnej skali – co z kolei utrudnia
stosowanie metod wielowymiarowych. W konsekwencji od historyków wymagana jest zatem znajo-
mość szerokiego wachlarza miar adekwatnych do skali, w której wyrażone zostały zmienne wykorzy-
stywane przez nich w badaniach. Prezentowane w książce przykłady historyczne zostały dobrane w taki
sposób, aby zobrazować ten problem. Ponadto, ze względu na złożony charakter badań ilościowych
prowadzonych przez historyków, w części teoretycznej szczególnie dokładnie zaprezentowano zagad-
nienie skal pomiarowych oraz, nierozłącznie związanych z nimi, miar podobieństwa i niepodobieństwa.
Zastosowanie metod wielowymiarowych pozwala jednak na kompleksowe spojrzenie na analizo-
wany przez historyka problem. W zagadnieniach dotyczących syntezy historycznej szczególnie ważne
są metody taksonomiczne, pozwalające na grupowanie obiektów opisanych za pomocą wielu zmien-
nych. W pracy wykazano użyteczność metod taksonomicznych w takich zagadnieniach historycznych,
jak regionalizacja, periodyzacja, grupowanie obiektów historycznych i ich identyfikacja oraz syntezy
w badaniach przekrojowo czasowych.
Zmorą badań społeczno-gospodarczych, szczególnie tych dotyczących XIX i XX w., jest ogrom
informacji ilościowych. Historyk, opisując dany fragment rzeczywistości, staje przed zadaniem upo-
rządkowania tego materiału tak, aby możliwe było wyciągnięcie na jego podstawie wniosków syntety-
zujących. W badaniach, w których uwzględnia się większą liczbę zmiennych, proces ten jest ważny
276 13. Zakończenie

również ze względów statystycznych. Szczególnie istotnym zagadnieniem jest wzajemna korelacja


zmiennych. Przedstawione przykłady dowiodły, że metody taksonomiczne skutecznie ułatwiają pracę
historyka w zakresie pogrupowania zmiennych oraz wyłaniania takich, które w najlepszy sposób repre-
zentują właściwości badanego zagadnienia.
Szczególnie często podejmowanym tematem w historycznych badaniach społeczno-gospodarczych
jest regionalizacja. Przykład dotyczący demografii w powiatach departamentu poznańskiego w 1810 r.
dowiódł, że metody grupowania umożliwiają uwzględnienie warunku spójności terytorialnej. Przepro-
wadzone badania pokazały jednak, że w przypadku regionalizacji niewielkiej liczby jednostek teryto-
rialnych nałożenie takiego ograniczenia może prowadzić do sytuacji, w której warunek spójności tery-
torialnej w większym stopniu wpływa na wyniki grupowania niż wartości uwzględnionych w badaniu
zmiennych. Warto zatem decyzję o ostatecznym wyniku regionalizacji oprzeć na porównaniu rezultatów
grupowań, przeprowadzonych zarówno z założeniem spójności terytorialnej, jak i bez takiego założenia.
W procesie tym można wesprzeć się zarówno wiedzą merytoryczną, jak i wartościami współczynników
jakości grupowania, które zostały opisane w części teoretycznej. Z kolei przykład dotyczący rolnictwa
na części ziem polskich w okresie międzywojennym dowiódł, że metody taksonomiczne mogą efektyw-
nie służyć także weryfikacji wcześniej postawionych hipotez historycznych.
Domeną badań historycznych jest periodyzacja. Stosowane często podejścia do podziałów określo-
nego okresu na podokresy w odniesieniu do życia społeczno-gospodarczego w oparciu o klucz zmian
politycznych w danym okresie – choć tych dziedzin życia nie sposób rozdzielić – nie zawsze przystaje
do rzeczywistości. W prezentowanym w części praktycznej niniejszej książki przykładzie dotyczącym
polskiej produkcji przemysłowej sektora uspołecznionego w latach 1958-1989 pokazano, że metody
taksonomiczne mogą być pomocne w próbach wskazania punktów zwrotnych w analizowanym zjawi-
sku w perspektywie dynamicznej. Co więcej, pozwalają one na hierarchiczny podział badanego zjawi-
ska w czasie na okresy i podokresy. O wyborze optymalnego rozwiązania decydują w pewnym zakresie
względy statystyczne. Szczególnie przydatne mogą się okazać wspomniane już miary oceny jakości
grupowania. Jednakże ostateczny wybór, na jakim poziomie zostanie przeprowadzona periodyzacja, za-
leży głównie od kontekstu podejmowanego zagadnienia.
W przykładzie dotyczącym grupowania wielowymiarowego warsztatów rzemieślniczych prowa-
dzących swoją działalność w dwóch wioskach powiatu nowotarskiego w 1970 r. potwierdzone zostały
wyniki wcześniejszych badań. Zastosowanie metod hierarchicznych pozwoliło jednak na wyższy po-
ziom syntezy. Oprócz wyróżnienia grup warsztatów rzemieślniczych odznaczających się tymi samymi
własnościami udało się także uchwycić zależności, charakterystyczne dla przemian w rzemiośle w la-
tach 70. XX w. Z kolei przykład dotyczący dokumentów tekstowych pokazał, jak w przypadku niepełnej
informacji o obiekcie zainteresowania – sytuacji dość częstej w badaniach historycznych – można do-
konać jego identyfikacji poprzez porównanie wielowymiarowe do wcześniej znanych i opisanych obiek-
tów.
Badania przekrojowo-czasowe, mimo że ujmują zjawiska w sposób kompleksowy, są rzadko opisy-
wane w literaturze, zarówno w ujęciu teoretycznym, jak i empirycznym. W ostatnim z ujętych w tym
opracowaniu przykładzie pokazano, jak w oparciu o informacje dotyczące wypływów podatkowych
z sześciu grup działalności indywidualnych do kas ponad czterdziestu powiatów można dokonać perio-
dyzacji. Przykład ten dowodzi, że grupowanie może służyć historykowi do formułowania syntez, bez
uciekania się do stosowanych zwykle w takich sytuacjach uśrednień i uogólnień, które zacierają różnice
pomiędzy grupowanymi obiektami, zmiennymi, które uwzględniono w badaniu oraz zmianami, jakie
nastąpiły z upływem czasu.
13. Zakończenie 277

Na podstawie przykładów przedstawionych w części praktycznej można wyciągnąć kolejny wnio-


sek dotyczący stosowania metod ilościowych w badaniach historycznych. Jest oczywiste, że ich wyko-
rzystanie wymaga określonej wiedzy z zakresu teorii podjętych zagadnień statystycznych. Aby jednak
dobrze je wykorzystywać, konieczne jest także podejmowanie wielu decyzji w obszarze stosowanych
metod, które wymagają szerszej wiedzy merytorycznej o podjętym zagadnieniu. Szczególnie ważny jest
proces doboru zmiennych diagnostycznych. Jednak problem ten dotyczy również sposobu ich normali-
zacji, wyboru miar podobieństwa, metody grupowania czy ostatecznej liczby skupień. Każda z tych
decyzji ma wpływ na osiągnięte wyniki. Co więcej, zastosowanie przy tych samych założeniach różnych
metod prowadzi zwykle do zbliżonych, ale nieidentycznych wyników. Należy podkreślić, że żadnej ze
wspomnianych decyzji nie można podjąć mechanicznie, bez uwzględnienia kontekstu podejmowanego
zagadnienia i celu przeprowadzanego grupowania. Świadomość, że w tym działaniu nie zastąpi histo-
ryka osoba sprawnie posługująca się oprogramowaniem statystycznym, uzasadnia podjęcie trudu zapo-
znania się z podstawami teoretycznymi prezentowanych zagadnień przez humanistę.
Wprowadzenie narzędzi ilościowych do warsztatu humanisty, a w szczególności do warsztatu hi-
storyka, staje się koniecznością nie tylko ze względu na potrzebę opanowania informacji statystycznych
dotyczących życia społeczno-gospodarczego w przeszłości. Dwudziesty wiek to bogactwo rozwoju na-
ukowego wielu dziedzin. Rozwój ten zaowocował jednak ich specjalizacją. Sytuacja ta nie jest obca
naukom historycznym, ekonomicznym czy społecznym. To z kolei sprawiło, że nauki, dotąd pokrewne,
wytworzyły swoje języki i metody. Znajomość metod ilościowych jest zatem ważna również ze względu
na potrzebę dyskusji naukowej, która jest niemożliwa, w sytuacji nierozumienia wyników badań innych
dziedzin, które z tych metod korzystają w szerszym zakresie. Stąd interdyscyplinarność stała się już nie
tylko postulatem ale i koniecznością. Poznanie przez historyka metod ilościowych pozwala zatem na
lepszą komunikację z naukami pokrewnymi poprzez stosowanie tych samych metod, a ponadto umoż-
liwia – tak ważne z punktu widzenia celowości pracy historyka – odniesienie doświadczeń z przeszłości
do współczesności.
W tym miejscu nasuwa się szersze pytanie, czy w obliczu wielu ośrodków badań ekonomicznych,
społecznych i kulturowych, obecnych we współczesnym przekazie medialnym, synteza historyczna ma
jakieś znaczenie? Przedstawione w książce badania dowiodły, że metody taksonomiczne są jedynie na-
rzędziem wspomagającym szerszą syntezę historyczną. Z tego właśnie względu analiza skupień jest
lepiej wykorzystywana przez historyków niż przez uczonych innych dziedzin. Wynika to z faktu, że dla
historyka wnioski z grupowania ilościowego są jedynie punktem wyjścia do szerszej dyskusji o powią-
zaniach, znaczeniu i wpływach w podejmowanym zagadnieniu. Metody ilościowe w żaden sposób nie
są zatem konkurencyjne do tradycyjnych metod historycznych. Paradoksalnie, metody taksonomiczne
są alternatywną drogą do „procent story”. Dzięki nim w narracji, szczególnie tej dotyczącej zjawisk
społeczno-gospodarczych, można odejść od „mówienia o liczbach” i przenieść się na jej wyższy po-
ziom, w którym omawiane są ogólne zależności i procesy.
Bibliografia

Opracowania

A
Ackoff R.L. (1969): Decyzje optymalne w badaniach stosowanych. Państwowe Wydawnictwo Naukowe, Warszawa.
Afifi A.A., Clark V. (1998): Computer-Aided Multivariate Analysis (3-rd ed.). Chapman & Hall, London-Weinheim-New York-
-Tokyo-Melbourne-Madras.
Aleksandrowicz S.W. (1979): Taksonomiczna metoda zgodności rang w badaniach geologicznych. Przegląd Geologiczny,
2/310 , s. 71-74.
Anderberg M.R. (1973): Cluster Analysis for Applications, Academic Press, New York-London.
Anderson E. (1960): A Semi-graphical Method for the Analysis of Complex Problems. Technometrics, 2, s. 387-392.
Anderson K.H., Butler J.S., Sloan F.A. (1987): Labor Market Segmentation: A Cluster Analysis of Job Groupings and Barriers
to Entry. Southern Economic Journal, 53/3, s. 571-590.
Augustyńska U. (2002): Statystyczna analiza danych w badaniach pedagogicznych z wykorzystaniem programu Statistica.
Wydawnictwo Wyższej Szkoły Pedagogicznej w Częstochowie, Częstochowa.
B
Babiński G. (1980): Wybrane zagadnienia z metodologii socjologicznych badań empirycznych. Skrypt uczelniany 340. Uni-
wersytet Jagielloński, Instytut Socjologii, Kraków.
Baker F.B., Hubert L.J. (1975): Measuring of Power of Hierarchical Cluster Analysis. Journal of the American Statistical As-
sociation, 70/349, s. 31-38.
Balicki A. (2009): Statystyczna analiza wielowymiarowa i jej zastosowania społeczno-ekonomiczne. Wydawnictwo Uniwer-
sytetu Gdańskiego, Gdańsk.
Baranowski B. (1966): Struktura produkcji roślinnej w Księstwie Warszawskim. Instytut Historii Kultury Materialnej Polskiej
Akademii Nauk, Zakład Narodowy imienia Ossolińskich Wydawnictwo Polskiej Akademii Nauk, Wrocław-Warszawa-
Kraków.
Barański Z. (1969): Sytuacja ekonomiczna [w:] Z. Barański, H. Hybiak, W. Iwaszkiewicz, A. Nowicki, K. Szrejbrowski:
Rzemiosło wielkopolskie 1919-1968. Opracowanie materiałowe działalności organizacyjnej i zawodowej. Wydawnictwo
Poznańskie, Poznań, s. 58-110.
Barański Z., Hybiak H., Iwaszkiewicz W., Nowicki A., Szrejbrowski K. (1969): Rzemiosło wielkopolskie 1919-1968. Opraco-
wanie materiałowe działalności organizacyjnej i zawodowej. Wydawnictwo Poznańskie, Poznań.
Bartosiewicz S. (1976): Propozycja metody tworzenia zmiennych syntetycznych. Prace Naukowe nr 84 Akademii Ekonomicz-
nej im. Oskara Langego we Wrocławiu, Wrocław.
Bazarnik J., Grabiński T., Wojdacki K.P. (1992): Taksonomiczne metody analizy przestrzennej struktury konsumpcji [w:]
S. Mynarski (red.): Badania przestrzenne rynku i konsumpcji: przewodnik metodyczny. Państwowe Wydawnictwo Na-
ukowe, Warszawa, s. 117-160.
Berezowski S. (1959): Problem podziału Polski na regiony gospodarcze. Gospodarka Planowa, 14/3, s. 56-63.
Berezowski S. (1962): Z teorii i praktyki równomiernego rozmieszczenia sił wytwórczych. Gospodarka Planowa, 17/7,
s. 34-39.
Berry B. J. L. (1961): A Method for Deriving Multifactor Uniform Regions. Przegląd Geograficzny, 33/2, s. 263-282.
Białobrzeski J. (1974): Opodatkowanie rzemiosła i innej działalności zarobkowej. Przepisy i komentarz wg stanu prawnego na
dzień 1 marca 1974 r. Wydawnictwo Prawnicze, Warszawa.
Blashfield R.K. (1976): Mixture Model Tests of Cluster Analysis: Accuracy of Four Agglomerative Hierarchical Methods. Psy-
chological Bulletin, 83/3, s. 377-387.
Błaczkowska A., Grześkowiak A., Przybysz K. (2008): Analiza porównawcza struktury wieku w państwach Unii Europejskiej.
Przegląd Statystyczny, 55/4, s. 114-115.
Błaczkowska A., Stanimir A. (2006): Skale pomiarowe [w:] Analiza danych marketingowych. Problemy, metody, przykłady.
Wydawnictwo Akademii Ekonomicznej im. O. Langego we Wrocławiu, Wrocław, s. 17-25.
280 Bibliografia

Błażejczyk-Majka L., Kala R. (2005): Metody analizy skupień do charakterystyki użytków rolniczych wybranych państw unij-
nych i Polski. Roczniki Naukowe Stowarzyszenia Ekonomistów Rolnictwa i Agrobiznesu, 7/5, str. 5–10.
Borowski S. (1962): Gospodarstwa rolne w Wielkopolsce w latach 1807-1823 w świetle współczesnej statystyki. Studia i Ma-
teriały do Dziejów Wielkopolski i Pomorza, 14/7/2, s. 79-137.
Borowski S. (1964): Gospodarce podłoże zmian ludnościowych w Wielkopolsce w latach 1807-1914. Roczniki Dziejów Spo-
łecznych i Gospodarczych, 25, s. 73-98.
Borowski S. (1967): Zgony i wiek zmarłych w Wielkopolsce w latach 1806-1914. Przeszłość Demograficzna Polski, Materiały
i Studia, 1, s. 111-130.
Borowski S. (1970): Rozwój demograficzny a problem maltuzjański na ziemiach polskich pod panowaniem niemieckim w la-
tach 1807-1914. Przeszłość Demograficzna Polski, Materiały i Studia, 3, s. 125-142.
Borys T. (1978): Metody normowania cech statystycznych w badaniach porównawczych. Przegląd Statystyczny, 25/2, s. 227-
-239.
Borys T. (1982): Przedmiot i podział statystyki i ekonometrii – artykuł dyskusyjny. Wiadomości Statystyczne, 5, s. 9-12.
Brandt S. (1974): Metody statystyczne i obliczeniowe analizy danych. Państwowe Wydawnictwo Naukowe, Warszawa.
Bray J.R., Curtis J.T. (1957): An Ordination of the Upland Forest Communities of Southern Wisconsin. Ecological Monogra-
phs, 27/4, s. 325-349.
Brzeziński J. (1980): Elementy metodologii badań psychologicznych. Państwowe Wydawnictwo Naukowe, Warszawa.
Buch W. (1960): Problemy rozmieszczenia przemysłu na tle ogólnych założeń planu perspektywicznego. Gospodarka Plano-
wa, 15/8-9, s. 28-34.
Bukietyński W., Hellwig Z., Królik U., Smoluk A. (1969): Uwagi o dyskryminacji zbiorów skończonych. Prace Naukowe
Wyższej Szkoły Ekonomicznej we Wrocławiu nr 21, Wrocław, s. 111-122.
Bunge M. (1968): O przyczynowości. Miejsce zasady przyczynowej we współczesnej nauce. Państwowe Wydawnictwo Na-
ukowe, Warszawa.
Bunge W. (1962): Theoretical geography. The Royal University of Lund, C.W.K. Gleerup, Lund.
Bunge W. (1966): Appendix to Theoretical Geography. The Royal University of Lund, C.W.K. Gleerup, Lund.
Buzek J. (1915): Pogląd na wzrost ludności na ziemiach ziem polskich w wieku 19-tym. Centralne Biuro Wydawnictw N.K.N.,
Kraków.
C
Caliński T., Harabasz J. (1974): A Dendrite Method for Cluster Analysis. Communications in Statistics, 3, s. 1-27.
Cameron S., Richardson S. (2005): Using Computers in History. Palgrave Mackmillan, New York.
Camper P. (1791): Dissertation physique de Mr. Pierre Camper, sur les différences réelles que présentent les traits du visage
chez les hommes de différents pays et de différents âges, sur le beau qui caractèrise les statues antiques et les pierres gra-
vées: suivie de la proposition d’une nouvelle méthode pour déssiner toutes sortes de têtes humaines avec la plus grande
sûreté. Chez B. Wild & J. Altheer, Utrecht.
Cronbach, L., Gleser, G. (1953): Assessing Similarity Between Profiles. Psychological Bulletin, 50, s. 456-473.
Chernoff H. (1973): Using Faces to Represent Points in k-dimensional Space Graphically. Journal of American Statistical As-
sociation, 68, s. 361-368.
Chmura-Rutkowska I., Głowacka-Sobiech E., Skórzyńska I. (2015): „Niegodne historii”? O nieobecności i stereotypowych
wizerunkach kobiet w świetle podręcznikowej narracji historycznej w gimnazjum. Wydawnictwo Naukowe Uniwersytetu
im. Adama Mickiewicza w Poznaniu, Poznań.
Chojecki D.K. (2014): Od społeczeństwa tradycyjnego do nowoczesnego. Demografia i zdrowotność głównych ośrodków
miejskich Pomorza Zachodniego w dobie przyspieszonej industrializacji i urbanizacji w Niemczech (1871-1913). Rozpra-
wy i Studia nr 884 Uniwersytetu Szczecińskiego, Szczecin.
Chojnicki Z. (1970): Podstawowe tendencje metodologiczne współczesnej geografii ekonomicznej. Przegląd Geograficzny,
42/2, s. 199-214.
Chojnicki Z., Czyż R. (1973): Metody taksonomii numerycznej w regionalizacji geograficznej. Państwowe Wydawnictwo
Naukowe, Warszawa.
Chomątowski S., Sokołowski A. (1978): Taksonomia struktur. Przegląd Statystyczny, 2, s. 217-125.
Choynowski M. (1971): Pomiar w psychologii [w:] J. Kozielecki (red.): Problemy psychologii matematycznej. Państwowe
Wydawnictwo Naukowe, Warszawa, s. 15-41.
Clark P.J. (1952): An Extension of the Coefficient of Divergence for Use with Multiple Characters. Copeia, 2, s. 61-64.
Constanza M.C., Afifi A.A. (1979): Comparison of Stopping Rules in Forward Stepwise Discriminant Analysis. Journal of the
American Statistical Association, 74/368, s. 777-785.
Cormack R.M. (1971): A Review of Classification (with discussion). Journal of Royal Statistical Society, seria A, 134/3, s. 321-
-367.
Cox D. R. (1957): Note on Grouping. Journal of American Statistical Association, 52/280, s. 543-547.
Cronbach L.J., Gleser, G.C. (1953): Assessing similarity between profiles. Psychological Bulletin, 50/6, s. 456-473.
Cyprian T., Sawicki J. (1948): Agresja na Polskę w świetle dokumentów, t. 1. Polski Instytut Wydawniczy, Warszawa.
Czekanowski J. (1911): Objektive Kriterien in der Ethnologie. Korrespondenz-Blatt der Deutschen Desellschaft für Anthropo-
logie, Ethnologie und Urgeschichte, 42, s.1-5.
Czekanowski J. (1913): Zarys metod statystycznych w zastosowaniu o antropologii. Prace Towarzystwa Naukowego Warszaw-
skiego nr 5, Warszawa.
Bibliografia 281

Czerwińska D., Gembarzewski H. (1975): O współczynniku Renkonena podobieństw zbiorów. Listy Biometryczne, 49-50,
s. 19-24.
Czyż T. (1967): Wyznaczanie regionów jednolitych metodą analizy czynników wielokrotnych. Przegląd Geograficzny, 39/1,
s. 135-160.
Czyż T. (1971): Zastosowanie metody analizy czynnikowej do badania ekonomicznej struktury regionalnej Polski. Ossoli-
neum, Wrocław.
D
Dąbkowski M., Laus-Mączyńska K. (1978): Metody wyszukiwania i klasyfikacji informacji. Wydawnictwa Naukowo-Tech-
niczne, Warszawa.
Dagnelie P. (1975): Analyse statistique à plusieur variables. Les Presse Agronomique, Gambloux.
Dalenius T. (1950): The Problem of Optimum Stratification. Scandinavian Actuarial Journal, 52/3-4, s. 203-213.
Daszyńska-Golińska Z. (1892): Metoda statystyki historycznej i jej dotychczasowe zdobycze. Ekonomista Polski, 11/9, s. 280-
-319.
Dillon W.R., Goldstein M. (1984): Multivariate Analysis: Methods and Applications. John Wiley & Sons, New York-Chich-
ester-Brisbane-Toronto-Singapore.
Dimitradou E., Dolnicar S., Weingessel A. (2002): An Examination of Indexes for Determining the Number of Clusters in
Binary Data Sets. Psychometrika, 67/1, s. 137-160.
Domański C. (1990): Testy statystyczne. Państwowe Wydawnictwo Ekonomiczne, Warszawa.
Domański R. (1964): Procedura typologiczna w badaniach ekonomiczno-geograficznych. Przegląd Geograficzny, 36/4, s. 627-
-660.
Domański R. (1986): Przestrzenne zagospodarowanie województwa [w:] R. Domański, S. Kozarski (red.): Województwo
poznańskie. Zagadnienia geograficzne i społeczno-gospodarcze. Państwowe Wydawnictwo Naukowe, Warszawa-Poznań,
s. 555-583.
Dominik A., Ruszkowski J., Studnicki T. (1990): Geografia ekonomiczna. Przewodnik metodyczny i przykłady analizy za-
gadnień geograficznych metodami kartograficzno-ilościowymi. Skrypty uczelniane. Akademia Ekonomiczna im. Karola
Adamieckiego w Katowicach, Katowice.
Dudek A. (2013): Metody analizy danych symbolicznych w badaniach ekonomicznych. Wydawnictwo Uniwersytetu Ekonom-
iczego we Wrocławiu, Wrocław.
Dziechciarz J., Walesiak M. (1997): Segmentacja rynku – zadanie ekonometryczne. Prace Naukowe nr 750 Akademii Eko-
nomicznej im. Oskara Langego we Wrocławiu. Informatyka i Ekonometria 4: Zastosowania metod ilościowych, s. 79-
-86.
Dzieje Zakładu Przemysłu Ziemniaczanego we Wronkach (1986): S. Kowal (oprac.). Uniwersytet im. Adama Mickiewicza
w Poznaniu. Poznań.
Dzionek-Kozłowska (2008): Relacje ekonomii i historii gospodarczej w świetle Methodenstreit [w:] J. Skodlarski (red.): Hi-
storia gospodarcza i historia myśli ekonomicznej a teoria ekonomii. Wydawnictwo Uniwersytetu Łódzkiego, Łódź, s. 101-
-113.
E
Edwards A.W.F., Cavalli-Sforza L.L. (1965): A method for cluster analysis. Biometrics, 21, s. 362-375.
Ekonometria przestrzenna (1991): A. Zeliaś (red.). Państwowe Wydawnictwo Ekonomiczne, Warszawa.
Everitt B.S. (1980): Cluster analysis (2-rd ed.). Heinemann Educational Book, John Willey & Sons, New York.
Everitt B.S. (1993): Cluster analysis (3-rd ed.). Heinemann, London.
Everitt B.S., Dunn G. (1991): Applied Multivariate Data Analysis. Edward Arnold, London-Boston-Melbourne-Auckland.
Everitt B.S., Landau S., Leese M., Stahl D. (2011): Cluster analysis (5-rd ed.). John Wiley & Sons, Chichester.
F
Fajferek A. (1965): Regionalizacja regionu ekonomicznego śląsko-krakowskiego na podstawie metody różnic przeciętnych.
Przegląd Geograficzny, 2, s. 342-353.
Falniowski A. (2003): Metody numeryczne w taksonomii. Wydawnictwo Uniwersytetu Jagielońskiego, Kraków.
Fierich J. (1957): Próba zastosowania metod taksonomicznych do rejonizacji systemów rolniczych w województwie krakow-
skim. Myśl Gospodarcza, 1.
Florek K., Łukaszewicz J., Perkal J., Steinhaus H., Zubrzycki S. (1951): Sur la liaison et la division des points d’un ensemble
fini. Colloquium Mathematicae, 2, s. 282-289.
Florek K., Łukaszewicz J., Perkal J., Steinhaus H., Zubrzycki S. (1951): Taksonomia wrocławska. Przegląd Antropologiczny,
17, s. 193-211.
Foryś I, Batóg B (2016): Porównanie struktury mieszkań w obrocie w wybranych miastach północno-zachodniej Polski. Ze-
szyty Naukowe Uniwersytetu Ekonomicznego w Krakowie, 9/957, Kraków, s. 55-70.
Frankowski Z. (1991): Zastosowanie metod taksonomicznych w badaniach przestrzennych. Agencja Wydawnicza Instytutu
Gospodarki Przestrzennej i Komunalnej, Warszawa.
Frąckiewicz L., Zadęcki J (1973): Zastosowanie taksonomii wrocławskiej do badań warunków bytu i życia ludności w regio-
nach województwa katowickiego. Wiadomości Statystyczne, 9, s. 30-34.
Friedman H.P., Rubin J. (1967): On some invariant criteria for grouping data. Journal of the American Statistical Association,
62/320, s. 1159-1178.
282 Bibliografia

G
Gałuszka B. (1992a): O metodzie szacowania brakujących danych przekrojowych. Przegląd Statystyczny, 39/2, s. 165-178.
Gałuszka B. (1992b): Taksonomiczna metoda k-średnich dla niepełnych danych. Zeszyty Naukowe Akademii Ekonomicznej
w Krakowie, 388, Kraków, s. 65-78.
Gałuszka B. (1994): Szacowanie brakujących danych w szeregach przekrojowych w oparciu o taksonomiczną metodę
k-średnich (wyniki badań). Zeszyty Naukowe Akademii Ekonomicznej w Krakowie, 440, Kraków, s. 31-40.
Gatnar E., Wywiał J. (1998): Wykorzystanie metod grupowania danych do wspomagania prac nad podziałem administracyj-
nym kraju. Sekcja Klasyfikacji i Analizy Danych Polskiego Towarzystwa Statystycznego: Taksonomia 5. Klasyfikacja
i analiza danych – teoria i zastosowania, Wrocław, s. 21-26.
Gazińska M., Dmytrów K. (2000): Statystyczna analiza nadumieralności ludności wiejskiej w Polsce. Przegląd Statystyczny,
47/1-2, s. 187-197.
Gazińska M., Gaziński R. (2010): Rzemiosło w miastach Pomorza Pruskiego w 1779 i 1782r. Analiza taksonomiczna. Prace
Naukowe nr 107 Uniwersytetu Ekonomicznego we Wrocławiu: Taksonomia 17. Klasyfikacja i analiza danych – teoria
i zastosowania, Wrocław, s. 62-70.
Gieysztorowa I. (1976): Wstęp do demografii staropolskiej. Polska Akademia Nauk, Instytut Historii, Państwowe Wydawnic-
two Naukowe, Warszawa.
Gieysztorowa I. (1980): Niewiarygodność statystyki demograficznej ziem polskich w XIX w. i potrzeba jej korekty. Przeszłość
Demograficzna Polski. Materiały i Studia, 12, s. 179-190.
Giudici P. (2003): Applied Data Mining –Statistical Methods for Business and Industry. John Wiley & Sons, Chihester-West
Sussex.
Gługiewicz Z. (1960): Rejony podaży kontraktowanej trzody chlewnej w województwie poznańskim. Ruch Prawniczy, Eko-
nomiczny i Socjologiczny, 2, s. 179-210.
Gordon A.D. (1981): Classification. Methods for the Exploratory Analysis of Multivariate Data. Chapman & Hall, London.
Gordon A.D. (1987): A review of hierarchical classification. Journal of the Royal Statistical Society. Ser. A., s. 119-137.
Gordon A.D. (1999): Classification. Methods for the Exploratory Analysis of Multivariate Data (2-nd eds.). Chapman & Hall,
London.
Gorzelak G. (1981): Statystyczna analiza porównawcza – teoria i praktyka. Wiadomości Statystyczne, 8, s. 16-19.
Gower J.C. (1967a): A comparison of some methods of cluster analysis. Biometrics, 23, s. 623-638.
Gower J.C. (1967b): Some distance properties of latent root and vector methods used in multivariate analysis. Biometrica, 53,
s. 325-338.
Gower J.C. (1971): A General Coefficient of Similarity and some of its Properties. Biometrics, 27, s. 857-874.
Gower J.C., Ross G.J.S. (1969): Minimum spanning trees and single linkage cluster analysis. Journal of the Royal Statistical
Society: Series C (Applied Statistics), 18/1, s. 54-64.
Górska K. (1956): Pomiary gruntów w Wielkopolsce w końcu XVIII i w pierwszej połowie XIX wieku. Studia i Materiały do
Dziejów Wielkopolski i Pomorza, 2/1, s. 113-166.
Grabiński T. (1975a): Numeryczne metody periodyzacji rozwoju obiektów gospodarczych. Przegląd Statystyczny, 22/3, s. 435-
-444.
Grabiński T. (1975b): Statystyczna procedura ustalania faz rozwoju obiektów historycznych [w:] K. Zając (red.): Metody
statystyczne w badaniach społeczno-ekonomicznych. Studia z zastosowań statystyki w demografii, socjologii i ekonomii.
Polska Akademia Nauk – Oddział w Krakowie. Prace Komisji Socjologicznej nr 38, Zakład Narodowy Imienia Ossoliń-
skich, Wydawnictwo Polskiej Akademii Nauk, Wrocław-Warszawa-Kraków-Gdańsk, s. 15-39.
Grabiński T. (1984): Wielowymiarowa analiza porównawcza w badaniach dynamiki zjawisk ekonomicznych. Zeszyty Nauko-
we Akademii Ekonomicznej w Krakowie, Seria specjalna: Monografie, 61, Kraków.
Grabiński T. (1985): Metody określania charakteru zmiennych w wielowymiarowej analizie porównawczej. Zeszyty Naukowe
Akademii Ekonomicznej w Krakowie, 213, Kraków.
Grabiński T. (1989a): Analiza poprawności metod grupowania [w:] A. Grabiński, S. Wydymus, A. Zeliaś: Metody taksonomii
numerycznej w modelowaniu zjawisk społeczno-gospodarczych. Państwowe Wydawnictwo Naukowe, Warszawa, s. 136-
-167.
Grabiński T. (1989b): Taksonomiczne metody porządkowania i grupowania obiektów [w:] A. Grabiński, S. Wydymus, A. Ze-
liaś: Metody taksonomii numerycznej w modelowaniu zjawisk społeczno-gospodarczych. Państwowe Wydawnictwo Na-
ukowe, Warszawa, s. 49-83.
Grabiński T. (1992): Metody taksometrii. Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków.
Grabiński T. (2003): Analiza taksonometryczna krajów Europy w ujęciu regionów. Wydawnictwo Akademii Ekonomicznej
w Krakowie, Kraków.
Grabiński T., Malina A., Zeliaś A. (1990): Metody analizy danych empirycznych na podstawie szeregów przekrojowo-czaso-
wych. Skrypt uczelniany. Akademia Ekonomiczna w Krakowie, Kraków.
Grabiński T., Wydymus S., Zeliaś A. (1979): Z badań nad metodami szacowania brakujących informacji. Zeszyty Naukowe
Akademii Ekonomicznej w Krakowie, 114, Kraków, s. 31-60.
Grabiński T., Wydymus S., Zeliaś A. (1982): Metody doboru zmiennych w modelach ekonometrycznych. Państwowe Wydaw-
nictwo Naukowe, Warszawa.
Grabiński T., Wydymus S., Zeliaś A. (1989): Metody taksonomii numerycznej w modelowaniu zjawisk społeczno-gospodar-
czych. Państwowe Wydawnictwo Naukowe, Warszawa.
Bibliografia 283

Grabiński T., Zając K. (1975): Dynamiczna metoda badania struktur demograficznych [w:] K. Zając (red.): Metody statystycz-
ne w badaniach społeczno-ekonomicznych. Studia z zastosowań statystyki w demografii, socjologii i ekonomii. Polska
Akademia Nauk – Oddział w Krakowie. Prace Komisji Socjologicznej nr 38, Zakład Narodowy Imienia Ossolińskich,
Wydawnictwo Polskiej Akademii Nauk, Wrocław-Warszawa-Kraków-Gdańsk, s. 15-39.
Grigg D (1965): The logic of regional systems. Annals of the Association of America Geographers, 55, 3, s. 465-491.
Grossman H. (1925): Struktura społeczna i gospodarcza Księstwa Warszawskiego na podstawie spisów ludności 1808 i 1810 r.
Kwartalnik Statystyczny, 1925/II/1, s. 1-108.
Grot Z. (1963): Polityczna działalność rzemiosła wielkopolskiego w okresie zaborów (1793-1918). Państwowe Wydawnictwo
Naukowe. Poznań.
Grześkowiak A., Stanimir A. (2014): Analiza wielowymiarowa [w:] J. Dziechciarz i A. Grześkowiak (red.): Statystyczno-
ekonometryczna analiza danych ekonomicznych. Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu, Wrocław,
s. 13-40.
Grzyb S. (1964): Łąki w dorzeczu rzeki Liwiec. Zagadnienia geobotaniczne i fizjograficzno-typologiczne. Roczniki Nauk
Rolniczych, Seria D, 109, Państwowe Wydanwictwo Naukowe, Warszawa.
Guenther-Swart I. (1941): Grundlagen der Landwirtschaft im Reichsgau Wartheland und im Reichsgau Danzig-Westpreussen.
S. Hirzel, Leipzig.
Guzik B. (1989): Zróżnicowanie obiektów w wielowymiarowej analizie porównawczej. Wiadomości Statystyczne, 34/4,
s. 15-19.
Guzik B., Jurek W. (1993): Ekonometria z zadaniami. Wydawnictwo Akademii Ekonomicznej w Poznaniu, Poznań.
H
Hair J.F., Anderson R.E., Tatham R.L., Black W.C. (1995): Multivariate Data Analysis with Readings. Prentice Hall Interna-
tional, London.
Hand D., Mannila H., Smyth P. (2005): Eksploracja danych. Wydawnictwo Naukowo-Techniczne, Warszawa.
Harańczyk G. (2005): Analiza skupień na przykładzie segmentacji nowotworów [w:] Przegląd programów z rodziny Statistica.
StatSoft Polska, Kraków, s. 77-92.
Härdle W., Simar L. (2003): Applied Multivariate Statistical Analysis. Springer-Verlag, Berlin-Heidelberg.
Hartigan J.A. (1979): Algorithm AS136: K-means Clustering Algorithm. Journal of the Royal Statistical Society. Series C (Ap-
plied Statistics), 28/1, s. 100-108.
Hartigan J.A. (1982): Classification [w:] Encyclopedia of statistical sciences. Vol. 2. John Wiley & Sons, New York, s. 1-10.
Hellwig Z. (1968): Zastosowanie metody taksonomicznej do typologicznego podziału krajów ze względu na poziom ich roz-
woju oraz zasoby i strukturę wykwalifikowanych kadr. Przegląd Statystyczny, 15/4, s. 307-327.
Hellwig Z. (1969): Problem optymalnego doboru predykat. Przegląd Statystyczny, 16/1, s. 221-237.
Hellwig Z. (1981): Wielowymiarowa analiza porównawcza i jej zastosowanie w badaniach wielocechowych obiektów gospo-
darczych [w:] W. Welfe (red.): Metody i modele ekonomiczno-matematyczne w doskonaleniu zarządzania gospodarką
socjalistyczną. Polskie Wydawnictwo Ekonomiczne, Warszawa, s. 46-68.
Hellwig Z. (1997): Rangowanie taksometryczne [w:] Z. Hellwig (red.): Ekspansja gospodarcza Polski końca XX wieku. Wy-
dawnictwo Wyższej Szkoły Bankowej, Poznań, s. 185-197.
Henzel T. (1953): Metoda różnic i metoda kwadratów różnic przeciętnych. Przegląd Antropologiczny, 19, s. 22-42.
Hodson F.R. (1971): Numerical typology and prehistoric archaeology [w:] F.R. Hodson, D.G. Kendall, P.A. Tautu (red.): Ma-
thematics in the Archaeological and Historical Sciences. Edinburgh University Press, Edinburgh, s. 30-45.
Hodson F.R., Sneath P.H., Doran J.E. (1966): Some experiments in the numerical analysis of archaeological data. Biometrika,
53, s. 311-324.
Hudson P. (2000): History by Numbers: An Introduction to Quantitative Approaches. Hodder Education, London.
IJ
Iwaszkiewicz W. (1969): Działalność organizacyjna i zawodowa wielkopolskiego rzemiosła [w:] Z. Barański, H. Hybiak,
W. Iwaszkiewicz, A. Nowicki, K. Szrejbrowski: Rzemiosło wielkopolskie 1919-1968. Opracowanie materiałowe działal-
ności organizacyjnej i zawodowej. Wydawnictwo Poznańskie, Poznań, s. 9-16.
Iwaszkiewicz W. (1972): Problemy ekonomiczne rzemiosła [w:] W. Okuszko, T. Przyłuski (red.): Rzemiosło w Polsce Ludo-
wej. Związek Izb Rzemieślniczych, Biuro Wydawnictw KDW, Warszawa, s. 205-224.
Iwaszkiewicz W. (1982): Czy rzemieślnikom są potrzebne spółdzielnie. Wydawnictwo Spółdzielcze, Warszawa.
Izenman A.J. (2008): Modern Multivariate Statistical Techniques. Regression, Classification, and Manifold Learning. Springer
Science+Business Media, New York.
Jajuga K. (1984): O sposobach określania ilości klas w zagadnieniach klasyfikacji i klasyfikacji rozmytej. Prace Naukowe
nr 262 Akademii Ekonomicznej im. Oskara Langego we Wrocławiu, Wrocław.
Jajuga K. (1991): Poziom zjawiska złożonego a położenie przestrzenne obiektów. Prace Naukowe nr 600 Akademii Ekono-
micznej im. Oskara Langego we Wrocławiu: Metody statystycznej analizy wielowymiarowej i ich zastosowania w bada-
niach ekonomicznych, Wrocław, s. 105-112.
Jajuga K., Walesiak M. (1999): Standardisation of Data Set Under Different Measurement Scales [w:] R. Decker, W. Gaul (red.):
Classification and Information Processing at the Turn of the Millennium. Proceedings of the 23rd Annual Conference of the
Gesellschaft für Klassification e.V., University of Bielefeld, March 10-12, 1999. Springer, Berlin-Heidelberg, s. 105-112.
Janicki T. (1996): Wieś w Kraju Warty (1939-1945). Dzieje Gospodarcze Wielkopolski, 2, PSO, Poznań.
284 Bibliografia

Janowitz M.F. (2002): Short course: a combinatorial introduction to cluster analysis. Classification Society of North America,
The State University Piscataway, Piscataway Township.
Jarocka M. (2015): Wybór formuły normalizacyjnej w analizie porównawczej obiektów wielocechowych. Economics and
Management, 1, 113-126.
Jezierski A., Leszczyńska C. (2001): Historia gospodarcza Polski. Wydawnictwo Key Text. Warszawa.
Johnson R.A., Wichern D.W. (1992): Applied Multivariate Statistical Analysis (3th edition). Prentice Hall International, Ltd.,
London.
Johnson R.A., Wichern D.W. (1998): Applied Multivariate Statistical Analysis (4th edition). Prentice Hall International, Ltd.,
New Jersey.
Johnson S.C. (1967): Hierarchical Clustering Shemes. Psychometrika, 32, s. 241-254.
K
Kaczmarczyk S. (2002): Badania marketingowe. Metody i techniki. Polskie Wydawnictwo Ekonomiczne, Warszawa.
Kaczmarek Z., Czajka S., Adamska E. (2008): Propozycja metody grupowania obiektów jedno- i wielocechowych z zastoso-
waniem odległości Mahalanobisa i analizy skupień. Biuletyn Instytutu Hodowli i Aklimatyzacji Roślin, 249, s. 9-17.
Kala R. (2003): Wprowadzenie do statystyki i ekonometrii. Wydawnictwo Akademii Rolniczej im. Augusta Cieszkowskiego
w Poznaniu, Poznań.
Kaliński J. (1995): Gospodarka Polski w latach 1944-1989. Przemiany strukturalne. Państwowe Wydawnictwo Ekonomiczne,
Warszawa.
Kaliński J. (2012): Najnowsze dzieje Polski. Gospodarka w PRL. Instytut Pamięci Narodowej, Komisja Ścigania Zbrodni
Przeciwko Narodowi Polskiemu, Warszawa.
Kaliński J., Landau Z. (1998): Gospodarka Polski w XX w. Polskie Wydawnictwo Ekonomiczne, Warszawa.
Karoński M., Caliński T. (1973a): Grupowanie cech na podstawie współczynnika korelacji. Roczniki Akademii Rolniczej
w Poznaniu: Algorytmy biometryczne i statystyczne nr 2, 64, Poznań, s. 95-103.
Karoński M., Caliński T. (1973b): Grupowanie obiektów wielocechowych na podstawie odległości euklidesowych. Roczniki
Akademii Rolniczej w Poznaniu: Algorytmy biometryczne i statystyczne nr 2, 64, Poznań, s. 117-129.
Karoński M., Caliński T. (1973c): Grupowanie populacji o rozkładach normalnych na podstawie odległości Mahalanobisa.
Roczniki Akademii Rolniczej w Poznaniu: Algorytmy biometryczne i statystyczne nr 2, 64, Poznań, s. 105-115.
Karpiński A. (1965): Próba rozgraniczenia i charakterystyki faz rozwoju gospodarczego Polski Ludowej. Gospodarka Plano-
wa, 20/3, s. 1-6.
Karpiński A. (1980): Zarys rozwoju gospodarczego Polski Ludowej (wyd. 3). Książka i Wiedza, Warszawa.
Kaufman L., Rousseeuw P.J. (1990): Findings Groups in Data: an Introduction to Cluster Analysis. John Willey & Sons, New
York.
Kaufman L., Rousseeuw P.J. (2005): Findings Groups in Data: an Introduction to Cluster Analysis. John Willey & Sons, Hobo-
ken.
Kendall M. G., Buckland W.R. (1986): Słownik terminów statystycznych. Państwowe Wydawnictwo Ekonomiczne, Warsza-
wa.
Kendall M.G. (1938): A New Measure of Rank Correlation. Biometrika, 30/1-2, s. 81-93.
Kendall M.G. (1955): Rank Correlation Methods. Charles Griffin & Company Limited, London.
Kendall M.G. (1957): A Course of Multivariate Analysis. Charles Griffin & Company Limited, London.
Kędelski M. (1985): Umieralność i trwanie życia w Wielkopolsce w latach 1916-1875. Przeszłość Demograficzna Polski.
Materiały i Studia, 16, s. 109-138.
Kędelski M. (1996): Umieralność i trwanie życia ludności Wielkopolski w XIX w. Akademia Ekonomiczna w Poznaniu, Po-
znań.
Kędelski M., Roeske-Słomka I. (1995): Statystyka. Skrypt uczelniany 453. Akademia Ekonomiczna w Poznaniu, Poznań.
Kidder A.V. (1915): Pottery of the Pajarito Plateau and of Some Adjacent Regions in New Mexico. Memoirs of the American
Anthropological Association, 2/6, s. 407-482.
King B. (1967): Step-Wise Clustering Procedures. Journal of the American Statistical Association, 62, s. 86-101.
Kleniewicz K. (1947): Polska współczesna. Część III. Statystyka Polski. Księgarnia Łódzka Wydawnicza „Czytaj”. Łódź.
Kolenda M. (2006): Taksonomia numeryczna. Klasyfikacja, porządkowanie i analiza obiektów wielocechowych, Wydawnic-
two Akademii Ekonomicznej we Wrocławiu, Wrocław.
Kolupa M., Napiórkowski G. (1979): Metody doboru zmiennych objaśniających w modelach ekonometrycznych [w:] M. Grusz-
czyński, E. Leniewska, M. Kolupa, G. Napiórkowski (red.): Miary zgodności, metody doboru zmiennych, problemy
współliniowości, Państwowe Wydawnictwo Naukowe, Warszawa, s. 116-184.
Konferowicz S. (1968): Problemy badawcze rozwoju polskiej myśli statystycznej (przedsłowie) [w:] Rozwój polskiej myśli
statystycznej. Wybór pism statystyków polskich (1968). Państwowe Wydawnictwo Ekonomiczne, Warszawa, s. 7-30.
Kopczewska K. (2007): Ekonometria i statystyka przestrzenna z wykorzystaniem programu R CRAN. CeDeWu Wydawnictwa
Fachowe, Warszawa.
Kopczyński M. (2005): Podstawy statystyki: podręcznik dla humanistów. Oficyna Wydawnicza “Mówią Wieki”, Warszawa.
Kopociński B. (1960a): Dyskryminacja za pomocą dendrytów. Zastosowania Matematyki, 5/3, s. 271--279.
Kopociński B. (1960b): O podziale terytorialnym Polski na części. Zastosowania Matematyki, 5/2, s. 173-177.
Koronacki J., Ćwik J. (2008): Statystyczne systemy uczące się (wyd. 2). EXIT, Warszawa.
Bibliografia 285

Korzeniewski J. (2005): Propozycja nowego algorytmu wyznaczającego liczbę skupień. Prace naukowe nr 1076 Akademii
Ekonomicznej im. Oskara Langego we Wrocławiu: Taksonomia 12. Klasyfikacja i analiza danych – teoria i zastosowania,
Wrocław, s. 257-264.
Korzeniewski J. (2012): Metody selekcji zmiennych w analizie skupień. Nowe procedury. Wydawnictwo Uniwersytetu Łódz-
kiego, Łódź.
Korzeniewski J. (2014): Indeks wyboru liczby skupień w zbiorze danych. Przegląd Statystyczny, 61/2, s. 169-180.
Korzybski Z.E.J. (1870): Wstęp do teorii statystyki, cz. I. Rys historyczny i ogólne zasady. Drukarnia K. Kowalewskiego,
Warszawa. Przedruk [w:] Rozwój polskiej myśli statystycznej. Wybór pism statystyków polskich (1968). Państwowe
Wydawnictwo Ekonomiczne, Warszawa, s. 112-120.
Kowal J. (1998): Metody statystyczne w badaniach sondażowych rynku. Wydawnictwo Naukowe PWN, Warszawa.
Kowalewski G. (2006): Metody klasyfikacji i porządkowania [w:] A. Stanimir (red.): Analiza danych marketingowych. Proble-
my, metody, przykłady. Skrypt uczelniany. Wydawnictwo Akademii Ekonomicznej im. Oskara Langego we Wrocławiu,
Wrocław, s. 101-126.
Kozielecki J. (1971): Problemy psychologii matematycznej. Państwowe Wydawnictwo Naukowe, Warszawa.
Kozłowski F.A. (1838): Rys statystyki ogólnej porównawczej pod względem darów przyrodzenia, ludności, przemysłu pier-
wotnego, rękodzielnego, fabrycznego, handlu i kultury państwa Europy. Warszawa, s. 21-27. Przedruk [w:] Rozwój pol-
skiej myśli statystycznej. Wybór pism statystyków polskich (1968). Państwowe Wydawnictwo Ekonomiczne, Warszawa,
s. 93-96.
Kroeber A.I. (1916): Zuni potsherds. American Museum of Natural History, Anthropological Papers, 18, s. 1-38.
Kroeber A.I., Dixon R.B. (1903): Native Langue of California. American Anthropologist, 5, s. 1-26.
Kukuła K. (1975): Propozycja w zakresie pewnych zmian dynamiki struktury. Przegląd Statystyczny, 22/3, s. 453-462.
Kukuła K. (1996): Statystyczne metody analizy struktur ekonomicznych. Wydawnictwo Edukacyjne, Kraków.
Kukuła K. (2000): Metoda unitaryzacji zerowanej. Wydawnictwo Naukowe PWN. Warszawa.
Kukuła K. (2012): Propozycja budowy rankingu obiektów z wykorzystaniem cech ilościowych oraz jakościowych. Metody
Ilościowe w Badaniach Ekonomicznych, 13/1, s. 5-16.
Kula W. (1963): Problemy i metody historii gospodarczej. Państwowe Wydawnictwo Naukowe, Warszawa.
Kurkiewicz J. (1992): Podstawowe metody analizy demograficznej. Państwowe Wydawnictwo Naukowe, Warszawa.
Kurkiewicz J., Pociecha J., Zając K. (1991): Metody wielowymiarowej analizy porównawczej w badaniach rozwoju demogra-
ficznego. Szkoła Główna Handlowa, Instytut Statystyki i Demografii, Warszawa.
L
Lance G.N., Williams W.T. (1966a): A generalized sorting strategy for computer classifications. Nature, 212, s. 218.
Lance G.N., Williams W.T. (1966b): Computer programs for hierarchical polythetic classification (similarity analysis). Com-
puter Journal, 9/1, s. 60–64.
Lance G.N., Williams W.T. (1967a): A general theory of classificatory sorting strategies. I: Hierarchical systems. Computer
Journal, 9, s. 373-380.
Lance G.N., Williams W.T. (1967b): Mixed-data classificatory programs. I: Agglomerative Systems. Australian Computer
Journal, 1, s. 15-20.
Lance G.N., Williams W.T. (1968): A general theory of classificatory sorting strategies. II: Clustering systems. Computer Jo-
urnal, 10, s. 271-277.
Landau Z. (1994): Gospodarka Polski Ludowej. Wydawnictwa Szkolne i Pedagogiczne, Warszawa.
Landau Z. (1995): Polska Gomułki. Wydawnictwa Szkolne i Pedagogiczne, Warszawa.
Liao T. W. (2005): Clustering of Time Series Data – a Survey. Pattern Recognition, 38, s. 1857-1874.
Liczkowski J. (1961): Próba delimitacji rejonów intensywności za pomocą taksonomicznej metody różnic przeciętnych. Za-
gadnienia Ekonomiki Rolnej, 3/45, s. 37-58.
Lipieta A. (2000): Jakość życia. Metody mierzenia [w:] A. Zeliaś (red.): Taksonomiczna analiza przestrzennego zróżnicowania
poziomu życia w Polsce w ujęciu dynamicznym. Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków, s. 23-34.
Lira J., Wagner W., Wysocki F. (2002): Mediana w zagadnieniach porządkowania obiektów wielocechowych [w:] J Paradysz
(red.): Statystyka regionalna w służbie samorządu lokalnego i biznesu. Internetowa Oficyna Wydawnicza, Centrum Staty-
styki Regionalnej, Akademia Ekonomiczna w Poznaniu, Poznań, s. 87-99.
Luszniewicz A., Słaby T. (2008): Statystyka z pakietem komputerowym STATISTICA PL. Teoria i zastosowania (wyd. 3).
Wydawnictwo C.H. Beck, Warszawa.
Łuczak C. (1962): Położenie ekonomiczne rzemiosła wielkopolskiego w okresie zaborów (1793-1918). Państwowe Wydaw-
nictwo Naukowe, Oddział Poznaniu, Poznań.
Łuczak C. (1972): „Kraj Warty” 1939-1945. Studium historyczno-gospodarcza okupacji hitlerowskiej. Wydawnictwo Poznań-
skie, Poznań.
Łuczak C. (1977): Hitlerowskie plany przestrzennego zagospodarowania okupowanej Polski (1939-1945) [w:] A. Czubiński
(red.): Polska - Niemcy - Europa. Studia z dziejów myśli politycznej i stosunków międzynarodowych. Wydawnictwo
Naukowe Uniwersytetu im. Adama Mickiewicza w Poznaniu, Poznań, s. 589-596.
Łuczak C. (1982): Polityka ekonomiczna Trzeciej Rzeszy w latach drugiej wojny światowej. Wydawnictwo Poznańskie, Po-
znań.
Łuczak C. (1996): Pod niemieckim jarzmem (Kraj Warty 1939-1945). PSO, Poznań.
286 Bibliografia

M
Macyra R. (2011): O historii gospodarczej inaczej [w:] R. Matera i A. Pieczewski (red.): Przegląd badań nad historią gospodar-
czą w XXI wieku. Wydawnictwo Uniwersytetu Łódzkiego, Łódź, s. 15-25.
Macyra R., Błażejczyk-Majka L. (2012): „Nieprzemysłowa” bogata Wielkopolska 1956-1970: uwagi wstępne [w:] E. Kościk
i R. Klementowski (red.): Z dziejów przemysłu po 1945 roku, tom 2. Wydawnictwo GAJT, Wrocław, s. 197-212.
Madajczyk C. (1961): Projekt osadnictwa hitlerowskiego w Poznańskiem i na Pomorzu z sierpnia 1939 r. Najnowsze Dzieje
Polski. Materiały i studia z okresu II wojny światowej, 5, s. 103-151.
Mahalanobis P.C. (1936): On Generalized Distance in Statistics. Proceedings of National Institute of Sciences of India, 2,
s. 49-55.
Malina A. (1992): Badanie przestrzennego zróżnicowania poziomu rozwoju społeczno-ekonomicznego Polski. Zeszyty Na-
ukowe Akademii Ekonomicznej w Krakowie, 388, Kraków, s. 51-64.
Malina A. (2008): Analiza zmian struktury zatrudnienia w Polsce w porównaniu z krajami Unii Europejskiej. Zeszyty Naukowe
Akademii Ekonomicznej w Krakowie, 726, Kraków, s. 5-21.
Malina A., Wanat S. (2000): Badanie podobieństwa dynamicznego województw ze względu na poziom życia ludności w latach
1990-1997 [w:] A. Zeliaś (red.): Taksonomiczna analiza przestrzennego zróżnicowania poziomu życia w Polsce w ujęciu
dynamicznym. Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków, s. 180-197.
Malina A., Zeliaś A. (1997): Taksonomiczna analiza przestrzennego zróżnicowania jakości życia ludności w Polsce w 1994 r.
Przegląd Statystyczny, 44/1, s. 11-27.
Mallory-Greenough J.M., Greenough J.D. (1998): New Data for Old Pots: Trace Element Characterization of Ancient Egyptian
pottery using ICP-MS. Journal of Archeological Science, 25, s. 85-97.
Mańkowski D.R., Laudański Z., Janaszek M. (2011): Przydatność wybranych miar podobieństwa dla danych binarnych do ana-
liz wielocechowych w badaniach molekularnych. Biuletyn Instytutu Hodowli i Aklimatyzacji Roślin, 262, s. 155-173.
Marassé M. (1866): O pojęciu i zadaniu statystyki. Kraków, s. 38-41, 139-141. Przedruk [w:] Rozwój polskiej myśli statystycz-
nej. Wybór pism statystyków polskich (1968). Państwowe Wydawnictwo Ekonomiczne, Warszawa, s. 142-145.
Marczewski E., Steinhaus H. (1958): On a Certain Distance of Sets and the Corresponding Distance of Functions. Colloquium
Mathematicum, 6, s. 319-327.
Marczewski J. (1979): Hitlerowska koncepcja polityki kolonizacyjno-wysiedleńczej i jej realizacja w „Okręgu Warty”. Instytut
Zachodni, Poznań.
Marczuk J. (1980): Podstawowe funkcje i zadania rzemiosła [w:] J. Marczuk, M. Nurowski: Rzemiosło w życiu społeczno-
-gospodarczym, Wydawnictwo Epoka, Warszawa, s. 5-33.
Mardia K.V., Kent J.T., Bibby J.M. (1979): Multivariate analysis. Academic Press Inc. London.
Marek T. (1989): Analiza skupień w badaniach empirycznych. Metody SAHN. Państwowe Wydawnictwo Naukowe, Warsza-
wa.
Markowska M. (2008). Wykorzystanie miary Braya-Curtisa do oceny zmian innowacyjności europejskiej przestrzeni regio-
nalnej. Prace Naukowe nr 21 Akademii Ekonomicznej im. Oskara Langego we Wrocławiu: Ekonometria 6: Zastosowania
metod ilościowych, Wrocław, s. 17–25.
Markowska M. (2012): Dynamiczna taksonomia innowacyjności regionów. Wydawnictwo Uniwersytetu Ekonomicznego we
Wrocławiu, Wrocław.
Markowska M. (2015). Ocena zmian struktury pracujących w unijnych regionach szczebla NUTS 2 z wykorzystaniem miary
Braya i Curtisa. Prace Komisji Geografii Przemysłu Polskiego Towarzystwa Geograficznego, 29/2, s. 7–22.
Mathematics in the Archeological and Historical Sciences (1971): F.R. Hodson, D.G. Kendall, P.A. Tautu (red.). Edinburgh
University Press, Edinburgh.
McQueen J. (1967): Some Methods for Classification and Analysis of Multivariate Observations [w:] L.M. LeCam, J. Ney-
man (eds.): Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, Volume 1: Statis-
tics. University of California Press, Berkeley, s. 281-297.
McQuitty L.L. (1957): Elementary Linkage Analysis for Isolating Orthogonal and Oblique Types and Typal Relevancies. Edu-
cational Psychological Measurement, 17, s. 207-229.
McQuitty L.L. (1960): Hierarchical Linkage Analysis for the Isolation of Types. Educational Psychological Measurement, 20,
s. 55-67.
McQuitty L.L. (1966): Similarity Analysis by Reciprocal Pairs for Discrete and Continuous Data. Educational Psychological
Measurement, 26, s. 825-831.
McQuitty L.L. (1967): Expansion Analysis of Similarity Analysis by Reciprocal Pairs for Discrete and Continuous Data. Edu-
cational Psychological Measurement, 27, s. 253-255.
Mezzich J.E., Solomon H. (1980): Taxonomy and behavioral science. Comparative Performance of Grouping Method. Aca-
demic Press Inc., London.
Migdał-Najman K., Najman K. (2005): Analityczne metody ustalania liczby skupień. Prace Naukowe nr 1076 Akademii Eko-
nomicznej im. Oskara Langego we Wrocławiu: Taksonomia 12. Klasyfikacja i analiza danych – teoria i zastosowania,
Wrocław, s. 265-273.
Migut G. (2009): Zastosowanie technik analizy skupień i drzew decyzyjnych do segmentacji rynku [w:] Zastosowanie nowo-
czesnej analizy danych w marketingu i badaniach rynku - materiały z seminarium. StatSoft Polska, Kraków, s. 75-92.
Mikulec A. (2012): Metody oceny wyniku grupowania w analizie skupień. Prace Naukowe Uniwersytetu Ekonomicznego we
Wrocławiu nr 242: Taksonomia 19. Klasyfikacja i analiza danych teoria i zastosowania, Wrocław, s. 460-468.
Bibliografia 287

Mikulec A. (2013): Kryterium Mojeny i Wisharta w analizie skupień – przypadek skupień o różnych macierzach kowariancji.
Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu nr 278: Taksonomia 20. Klasyfikacja i analiza danych teoria
i zastosowania, Wrocław, s. 206-215.
Milligan G.W. (1980): An examination of the effect of six types of error perturbation on fifteen clustering algorithms. Psy-
chometrika, 45/8, s. 325-342.
Milligan G.W. (1981): A Review of Monte Carlo Tests of Cluster Analysis. Multivariate Behavioral Research, 16, s. 379-407.
Milligan G.W., Cooper M.C. (1985): An Examination of Procedures for Determining the Number of Clusters in a Data Set.
Psychometrika, 50/2, s. 159-179.
Miśkiewicz R. (2016): Problem oceny struktur organizacyjnych w kontekście ich podobieństwa. Organizacja i Zarządzanie,
1, s. 83-99.
Młodak A. (2006): Analiza taksonomiczna w statystyce regionalnej. Centrum Doradztwa i Informacji, Difin, Warszawa.
Mojena R. (1977): Hierarchical Grouping Method and Stopping Rules. An Evaluation. Computer Journal, 20/4, s. 359-363.
Molik W. (2007): O nowy model syntezy dziejów regionu na przykładzie Wielkopolski [w:] K.A. Makowski (red.): O nowy
model historycznych badań regionalnych. Instytut Zachodni, Centrum „Instytut Wielkopolski” Uniwersytetu im. Adama
Mickiewicza w Poznaniu, Poznań, s. 5-34.
Morajda J., Grabowski M. (2001): Zastosowanie algorytmów genetycznych w klasyfikacji bezwzorcowej. Przegląd Statystycz-
ny, 48/3-4, s. 301- 314.
Morawski W. (2008): Czy historia gospodarcza jest jeszcze potrzebna? [w:] J. Skodlarski (red.): Historia gospodarcza i historia
myśli ekonomicznej a teoria ekonomii. Wydawnictwo Uniwersytetu Łódzkiego, Łódź, s. 11-17.
Morawski W. (2011): Czego historią jest historia gospodarcza? [w:] R. Matera i A. Pieczewski (red.): Przegląd badań nad hi-
storią gospodarczą w XXI wieku. Wydawnictwo Uniwersytetu Łódzkiego, Łódź, s. 15-25.
Mozołowski A. (1980): Usługi i rzemiosło. Uwagi i propozycje. Krajowa Agencja Wydawnicza, Warszawa.
Mucha H.J. (2012): Method Selection in Cluster Analysis Followed by Build-in Validation [w:] J. Pociecha, R. Decker (red.):
Data Analysis Methods and its Applications. Wydawnictwo C.H. Beck, Warszawa, s. 125-142.
Mydlarski J. (1953): Rzut oka na próby typologiczego określenia człowieka. Przegląd Antropologiczny, 19, s. 6-21.
Mynarski S. (1990): Metody badań marketingowych. Państwowe Wydawnictwo Ekonomiczne, Warszawa.
Mynarski S. (2006) : Analiza danych rynkowych i marketingowych z wykorzystane programu EXCEL. Wydawnictwo Akade-
mii Ekonomicznej w Krakowie, Kraków.
N
Najgrakowski M. (1976): Jednostki przestrzenne w badaniach międzyregionalnego rozwoju gospodarczego i społecznego.
Próba wydzielenia regionów rozwoju społeczno-ekonomicznego w Polsce. Biuletyn Komitetu Przestrzennego Zagospo-
darowania Kraju, 89: Regionalne zróżnicowanie rozwoju społeczno-gospodarczego Polski, s. 39-70.
Narojczyk K. (2005): Budowa badawczych baz danych w oparciu o historyczne źródła statystyczne. Wydawnictwo LITTERA,
Olsztyn.
Nawrol C. (1989): Analiza skupień w badaniach empirycznych. Rozmyte modele hierarchiczne. Państwowe Wydawnictwo
Naukowe, Warszawa.
Niemczyk A. (2001): Poziom rozwoju społecznego w nowym układzie administracyjnym Polski. Przegląd Statystyczny,
48/3-4, s. 289-300.
Niewadzi Cz. (1958): Małe przedsiębiorstwa przemysłowe w gospodarce narodowej. Przemysł drobny i rzemiosło. Polskie
Wydawnictwa Gospodarcze, Warszawa.
Niewadzi Cz. (1968): Polityka rozwoju rzemiosła w Polsce. Państwowe Wydawnictwo Naukowe, Warszawa.
North D.C. (1976): The Place of Economic History in the Discipline of Economics. Economic Inquiry, 14/1, s. 461-465.
Nowak E. (1979): Propozycja prostej metody konstruowania miernika rozwoju i jego wykorzystania do badań regresyjnych.
Przegląd Statystyczny, 25/1-2, s. 127-133.
Nowak E. (1981a): Badanie zgodności wyboru cech diagnostycznych. Przegląd Statystyczny, 28/3-4, s. 301-309.
Nowak E. (1981b): Porównywanie obiektów społeczno-gospodarczych ze względu na ich strukturę. Wiadomości Statystyczne,
7, s. 21-25.
Nowak E. (1984): Problemy doboru zmiennych do modelu ekonometrycznego. Polskie Wydawnictwo Naukowe, Warszawa.
Nowak E. (1990): Metody taksonomiczne w klasyfikacji obiektów społeczno-gospodarczych. Polskie Wydawnictwo Ekono-
miczne, Warszawa.
Nowak E. (2004): Metody klasyfikacji w badaniach geograficznych (analiza porównawcza). Akademia Świętokrzyska im. Jana
Kochanowskiego w Kielcach, Bogucki Wydawnictwo Naukowe, Kielce-Poznań.
Nurowski M. (1980): Prawno-ekonomiczne warunki wykonywania rzemiosła [w:] J. Marczuk, M. Nurowski: Rzemiosło w ży-
ciu społeczno-gospodarczym. Wydawnictwo Epoka, Warszawa, s. 34-66.
O
O nowy model historycznych badań regionalnych (2007): K.A. Makowski (red.). Instytut Zachodni, Centrum „Instytut Wiel-
kopolski” Uniwersytetu im. Adama Mickiewicza w Poznaniu, Poznań.
Orłowski K. (2001): Zastosowanie pakietu Statistica w analizie wyników badań społecznych. Wydawca Stowarzyszenie Psy-
chologia i Architektura, Poznań.
Ostasiewicz W. (2003): Istota pomiaru statystycznego [w:] W. Ostasiewicz (red.): Pomiar statystyczny. Wydawnictwo Akade-
mii Ekonomicznej im. Oskara Langego we Wrocławiu, Wrocław, s. 11-45.
288 Bibliografia

Ostasiewicz W. (2012): Myślenie statystyczne. Oficyna a Wolters Cluwer Bussines, Warszawa.


Otrębalski M., Walesiak M. (1991): Pomiar i identyfikacja zmian poziomu warunków mieszkaniowych ludności miejskiej
regionu jeleniogórskiego w latach 1978-1988. Prace Naukowe nr 600 Akademii Ekonomicznej im. Oskara Langego we
Wrocławiu: Metody statystycznej analizy wielowymiarowej i ich zastosowania w badaniach ekonomicznych, Wrocław,
s. 39-50.
P
Pamiętnik IV Powszechnego Zjazdu Historyków Polskich w Poznaniu 6-8 grudnia 1925. II. Protokóły (1927): K. Tyszkowski
(wyd.). Polskie Towarzystwo Historyczne, Zakład Narodowy im. Ossolińskich we Lwowie, Lwów, s. 92-95.
Panek T. (2009): Statystyczne metody wielowymiarowej analizy porównawczej. Szkoła Główna Handlowa w Warszawie,
Warszawa.
Parysek J.J. (1979): Zastosowanie taksonomicznej odległości Mahalanobisa w dynamicznych badaniach strukturalno-prze-
strzennych. Przegląd Geograficzny, 50/2, 293-308.
Parysek J.J. (1982): Modele klasyfikacji w geografii. Seria Geografia nr 31, Wydawnictwo Naukowe Uniwersytetu im. Adama
Mickiewicza w Poznaniu, Poznań.
Parysek J.J., Wojtasiewicz L. (1979): Metody analizy regionalnej i metody planowania regionalnego. Polska Akademia Nauk,
Komitet Przestrzennego Zagospodarowania Kraju, Państwowe Wydawnictwo Naukowe, Warszawa.
Pawełek B. (2000) Metody normalizacji zmiennych diagnostycznych [w:] A. Zeliaś (red.): Taksonomiczna analiza przestrzen-
nego zróżnicowania poziomu życia w Polsce w ujęciu dynamicznym. Wydawnictwo Akademii Ekonomicznej w Krako-
wie, Kraków, s. 56-74.
Pawełek B. (2004): Wpływ normalizacji zmiennych diagnostycznych na dopuszczalność prognoz zmiennej syntetycznej. Prze-
gląd Statystyczny, 51/4, s. 81-87.
Pawełek B. (2006): Wpływ normalizacji zmiennych na porządkowanie liniowe obiektów z wykorzystaniem wielowymiarowej
odległości. Przegląd Statystyczny, 53/2, s. 57-67.
Pawełek B. (2008): Metody normalizacji zmiennych w badaniach porównawczych złożonych zjawisk ekonomicznych. Wy-
dawnictwo Uniwersytetu Ekonomicznego w Krakowie, Kraków.
Pawełek B.(2007): Kilka uwag dotyczących miar Braya-Curtisa, Canberra i Clarka. Przegląd Statystyczny, 54/3, s. 92-102.
Pawłowski T. (1969): Metodologiczne zagadnienia humanistyki. Państwowe Wydawnictwo Naukowe, Warszawa.
Pawłowski T. (1977): Pojęcia i metody współczesnej humanistyki. Wydawnictwo Zakład Narodowy Imienia Ossolińskich,
Wrocław, Warszawa, Kraków, Gdańsk.
Perkal J. (1953a): O wskaźnikach antropologicznych. Przegląd Antropologiczny, 19, s. 209-221.
Perkal J. (1953b): Taksonomia Wrocławska. Przegląd Antropologiczny, 19, s. 82-96.
Pęczkowski M. (2009): Analiza skupień [w:] E. Frątczak (red.): Wielowymiarowa analiza statystyczna. Teoria – przykłady
zastosowań z systemem SAS. Szkoła Główna Handlowa – Oficyna Wydawnicza, Warszawa, s. 117-175.
Plit J. (1979): Próba opracowania metody regionalizacji roślinności na podstawie „Mapy potencjalnej roślinności Polski”.
Przegląd Geograficzny, 51/4, s. 671-685.
Pluta W. (1977): Wielowymiarowa analiza porównawcza w badaniach ekonomicznych. Państwowe Wydawnictwo Ekonomicz-
ne, Warszawa.
Pluta W. (1986): Wielowymiarowa analiza porównawcza w modelowaniu ekonometrycznym. Państwowe Wydawnictwo Na-
ukowe, Warszawa.
Pociecha J. (1986): Statystyczne metody segmentacji rynku. Zeszyty Naukowe Akademii Ekonomicznej w Krakowie, Seria
specjalna: Monografie,71, Kraków.
Pociecha J., Podolec B., Sokołowski A., Zając K. (1988): Metody taksonomiczne w badaniach społeczno-ekonomicznych.
Państwowe Wydawnictwo Naukowe, Warszawa.
Podolec B., Szymanowicz K. (1984): Próba usystematyzowania miar podobieństwa. Zeszyty Naukowe Akademii Ekonomicz-
nej w Krakowie, 203, Kraków, s. 55-72.
Podolec B., Zając K. (1978): Ekonometryczne metody ustalania regionów konsumpcji. Państwowe Wydawnictwo Ekonomicz-
ne, Warszawa.
Położenie ekonomiczne rzemiosła wielkopolskiego w latach 1918-1939 (1964): C. Łuczak (red.). Wydawnictwa Poznańskiego
Oddziału Polskiego Towarzystwa Ekonomicznego, Poznań.
Prim R.C. (1957): Shortest Connection Networks and Some Generalization. The Bell System Technical Journal, 36/6, s. 1389-
-1401.
Przyłuski T. (1972): Rola rzemiosła indywidualnego w gospodarce narodowej Polskiej Rzeczpospolitej Ludowej [w:]
W. Okuszko, T. Przyłuski (red.): Rzemiosło w Polsce Ludowej. Związek Izb Rzemieślniczych, Biuro Wydawnictw KDW,
Warszawa, s. 25-52.
R
Rao C.R. (1994): Statystyka i prawda. Państwowe Wydawnictwo Naukowe, Warszawa.
Ratkowsky D.A., Lance G.N. (1978): A Criterion for Determining the Number of Groups in a Classification. Australian Com-
puter Journal, 10/3, s. 115-117.
Rogers D. J., Tanimoto T.T. (1960): A Computer Program for Classifying Plants. Science, 132/3434, s. 1115-1118.
Rohlf D.J. (1963): Classification of Aedes by Numerical Taxonomic Methods (Diptera: Culicidae). Annals of Entomological
Society of America, 56, s. 798-804.
Bibliografia 289

Rószkiewicz M. (2002): Metody ilościowe w badaniach marketingowych. Wydawnictwo Naukowe PWN, Warszawa.
Runge J. (2006): Metody badań w geografii społeczno-ekonomicznej – elementy metodologii, wybrane narzędzia badawcze.
Wydawnictwo Uniwersytety Śląskiego, Katowice.
Rusiński W. (1968): Historia gospodarcza i ekonomia polityczna. Podział zadań i formy współpracy. Ruch Prawniczy, Ekono-
miczny i Socjologiczny, 30/2, s. 145-157.
Rusiński W. (1982): Zarys historii gospodarczej Polski na tle dziejów gospodarczych powszechnych. Wydawnictwo Akademii
Ekonomicznej w Poznaniu, Poznań.
Rusiński W. (1986): Zarys historii gospodarczej Polski na tle dziejów gospodarczych powszechnych. Państwowe Wydawnic-
two Naukowe, Warszawa.
Rutkowski J. (1918): Statystyka zawodowa ludności wiejskiej w Polsce w drugiej połowie XV w. Akademia Umiejętności
w Krakowie, Kraków.
Rutkowski J. (1925): Zagadnienie syntezy w historii gospodarczej [w:] Pamiętnik IV Zjazdu Historyków Polskich w Poznaniu
6-9 grudnia 1925. I. Referaty. Polskie Towarzystwo Historyczne, Zakład Narodowy im. Ossolińskich we Lwowie, Lwów,
s. 1-7. Przedruk [w:] Jan Rutkowski. Wokół teorii ustroju feudalnego (1982): J. Topolski (wybór i oprac.). Państwowy
Instytut Wydawniczy, Warszawa, s. 455-461.
Rutkowski J. (1937): O podniesieniu poziomu naszej twórczości naukowej. Nauka Polska: jej potrzeby, organizacja i rozwój,
22, s. 37-55.
Rutkowski J. (1946): Historia gospodarcza Polski. T. 1. Czasy przedrozbiorowe. Księgarnia Akademicka, Poznań.
Rutkowski J. (1981): Podobieństwo struktur i zmiany strukturalne – zagadnienia kwantyfikacji, Wiadomości Statystyczne, 8,
s. 20-23.
Rychłowski (1960): Podział Polski na regiony ekonomiczne. Gospodarka Planowa, 15/1, s. 43-47.
Rzemiosło w Wielkopolsce w latach 1954-1957. Sprawozdanie Izby Rzemieślniczej w Poznaniu (1959): T. Wiesiołowski,
A. Nowicki, K. Szrejbrowski (red.). Wydawnictwo Poznańskie, Poznań.
S
Sadłowski J. (1972): Udział rzemiosła w życiu społecznym Polski Ludowej [w:] W. Okuszko, T. Przyłuski (red.): Rzemiosło
w Polsce Ludowej. Związek Izb Rzemieślniczych, Biuro Wydawnictw KDW, Warszawa, s. 9-24.
Sagan A., Łapczyński M. (2009): Techniki segmentacji w badaniach rynkowych. Materiały szkoleniowe StatSoft Polska, Kra-
ków.
Sambor J. (1972): Słowa i liczby. Zagadnienia językoznawstwa statystycznego. Zakład Narodowy Imienia Ossolińskich, Wy-
dawnictwo Polskiej Akademii Nauk, Wrocław-Warszawa-Kraków-Gdańsk.
Samuelson P.A. (1952): Economic Theory and Mathematics – An Appraisal. American Economic Review, 42/2, s. 56–66.
Scott A.J., Symons M. (1971): Clustering Methods Based on Likelihood Ratio Criteria. Biometrics, 27, s. 387-397.
Sebestyen G.S. (1962): Decision Making Process in Pattern Recognition. Macmillan, New York.
Sharma S. (1996): Applied Multivariate Techniques. John Wiley & Sons, New York.
Siedlecka U. (1976): Zastosowanie metody taksonomii stochastycznej do dyskryminacji zbiorów skończonych. Przegląd Sta-
tystyczny, 23/3, s. 275-288.
Siedlecka U. (1990): Przestrzenna analiza wyposażenia gospodarstw domowych w wybrane dobra trwałego użytkowania.
Wiadomości Statystyczne, 35/1, s. 28-30.
Siedlecka U. (1999): Metody klasyfikacji obiektów wielocechowych [w:] W. Ostasiewicz (red.): Statystyczne metody analizy
danych. Wydawnictwo Akademii Ekonomicznej we Wrocławiu, Wrocław, s. 83-157.
Simpson G.G. (1961): Principles of Animal Taxonomy. Tokyo.
Słodowa-Hełpa M. (1988): Ludność wiejska wielkopolski w procesie przemian społeczno-ekonomicznych. Przeobrażenia
struktury społeczno-zawodowej w latach 1945-1970. Państwowe Wydawnictwo Naukowe, Warszawa-Poznań.
Smoluk A. (1976): Uwagi o dyskryminacji w zwartych przestrzeniach metrycznych. Przegląd Statystyczny, 23/4, s. 483-489.
Sneath P.H.A. (1957): Application of Computers to Taxonomy. Journal of General Microbiology, 17/1, s. 201-226.
Sneath P.H.A., Sokal R.R. (1973): Numerical Taxonomy : the Principles and Practice of Numerical Classification. W.H. Fre-
eman & Company, San Francisco.
Sobczak E., (1994): O klasyfikacji struktur handlu zagranicznego wybranych państw świata. Prace Naukowe nr 667 Akademii
Ekonomicznej im. Oskara Langego we Wrocławiu: Ekonomia matematyczna, Wrocław, s. 133-138.
Sobczak W., Malina W. (1985): Metody selekcji i redukcji informacji. Wydawnictwa Naukowo-Techniczne, Warszawa.
Sobczyk M. (1997): Statystyka. Wydawnictwo Naukowe PWN, Warszawa.
Sokal R.R., Michener C.D. (1958): A Statistical Method for Evaluating Systematic Relationships. The University of Kansas
Science Bulletin, 38/22, s. 1409-1438.
Sokal R.R., Rohlf F.J. (1962): The Comparison of Dendrograms by Objective Methods. Taxon, 11/2, s. 33-40.
Sokal R.R., Sneath P.H.A. (1963): Principles of Numerical Taxonomy. W.H. Freeman & Company, San Francisco-London.
Sokołowski A. (1976): Metoda porównywania wyników podziału zbioru skończonego. XII Konferencja Naukowa Ekonome-
tryków, Statystyków i Matematyków Akademii Ekonomicznych Polski Południowej, Karpacz.
Sokołowski A. (1982): O zagadnieniach taksonomicznych. Zeszyty Naukowe Akademii Ekonomicznej w Krakowie, 165, Kra-
ków, s. 65-72.
Sokołowski A. (1992): Empiryczne testy istotności w taksonomii. Zeszyty Naukowe Akademii Ekonomicznej w Krakowie,
Seria specjalna: Monografie, 108, Kraków.
290 Bibliografia

Sokołowski A. (1998): Porównanie zmian w przestrzennym zróżnicowaniu warunków życia w Polsce, Czechach, Słowacji
i na Węgrzech w latach 1990-1996. XXXIV Konferencja Statystyków, Ekonometryków i Matematyków Akademii Eko-
nomicznych Polski Południowej. XVI Seminarium Naukowe im. Profesora Zbigniewa Pawłowskiego, Ustroń 12-15 maja
1998.
Sokołowski A., Zając K. (1987): Rozwój demograficzny a rozwój gospodarczy. Państwowe Wydawnictwo Ekonomiczne, War-
szawa.
Spearman C. (1904): The Proof and Measurement of Association between Two Things. American Journal of Psychology, 15/1,
s. 72–101.
Spier L. (1917): An Outline for a Chronology of Zuni Ruins. Anthropological Papers of the American Museum of Natural His-
tory, 18/3, s. 207-331.
Stanisz A. (2007): Przystępny kurs statystyki: z zastosowaniem STATISTICA PL na przykładach z medycyny. Tom 3: Analizy
wielowymiarowe. StatSoft, Kraków.
Statystyczny drogowskaz 1. Praktyczne wprowadzenie do wnioskowania statystycznego (2013): S. Bedyńska, M. Cypryańska
(red.). Wydawnictwo Akademickie SEDNO, Warszawa.
Steczkowski J. (1970): Statystyczna procedura określana struktury zbiorowości. Zeszyty Naukowe Wyższej Szkoły Ekono-
micznej w Krakowie, Seria specjalna: Rozprawy habilitacyjne, 21, Kraków.
Steczkowski J., Zeliaś A. (1981): Statystyczne metody analizy cech jakościowych. Państwowe Wydawnictwo Ekonomiczne,
Warszawa.
Steczkowski J., Zeliaś A. (1997): Metody statystyczne w badaniu zjawisk jakościowych. Akademia Ekonomiczna w Krakowie,
Kraków.
Steinhausen D., Langer K. (1977): Clusteranalyse. Einführung in Methoden und Verfahren der automatischen Klassifikation.
Mit zahlreichen Algorithmen, FORTRAN-Programmen, Anwendungsbeispielen und einer Kurzdarstellung der multivari-
aten statistischen Verfahren. Walter de Gruyter, Berlin-New York.
Stevens S.S. (1951): Mathematics, Measurement, and Psychophysics [w:] S.S. Stevens (red.): Handbook of Experimental Psy-
chology. John Willey & Hall, New York, s. 1-45.
Stevens S.S. (1959): Measurement, Psychophysics and Utility [w:] C.W. Churchman i P. Ratoosh (red.): Measurement: Defini-
tion and Theories. John Wiley & Sons, New York, s. 18-64.
Stokowski F. (1971): Metody taksonometryczne w analizie przestrzennego zróżnicowania procesów demograficznych (na
przykładzie ruchu naturalnego w województwie warszawskim). Studia Demograficzne, 25, s, 75-107.
Stone R. (1960): A Comparison of the Economic Structure of Regions Based on the Concept Distance. Journal of Regional
Science, 2/2, s. 2-20.
Stone R. (1970): Matematyka w naukach społecznych. Państwowe Wydawnictwo Ekonomiczne, Warszawa.
Strahl D. (1978): Propozycja konstrukcji miary syntetycznej. Przegląd Statystyczny, 25/2, s. 205-215.
Strahl D. (1990): Metody programowania rozwoju społeczno-gospodarczego. Państwowe Wydawnictwo Ekonomiczne, War-
szawa.
Strahl D. (1997): Metody statystycznej analizy wielowymiarowej w identyfikacji transformacji strukturalnej. Prace Naukowe
nr 743 Akademii Ekonomicznej we Wrocławiu. Informatyka i Ekonometria 2: Zastosowania metod ilościowych, Wrocław,
s. 123-131.
Strahl D. (2008): Klasyfikacja pozycyjna w analizach dynamicznych. Prace Naukowe nr 27 Uniwersytetu Ekonomicznego we
Wrocławiu, Ekonometria 22: Zastosowania metod ilościowych, Wrocław, s. 9-18.
Strahl D., Walesiak M (1997): Normalizacja zmiennych w skali przedziałowej i ilorazowej w referencyjnym systemie granicz-
nym. Przegląd Statystyczny, 44/1, s. 69-77.
Strong W.D. (1925): Uhle Pottery Collections form Ancon. Publications in American Archaeology and Ethnology, 21, s. 135-
-190.
Sutton M.Q., Reinhard K.J. (1995): Cluster Analysis of the Coprolites from Antelope House: Implications for Anasazi Diet and
Cuisine. Journal of Archaeological Science, 22, s. 741-750.
Szczepaniak A. (1990): Próba oceny przestrzennego zróżnicowania uprzemysłowienia kraju metodą taksonomii wrocławskiej.
Przegląd Statystyczny, 35/7, s.16-20.
Szczotka F.A. (1972): On a method of ordering and clustering of objects. Zastosowania Matematyki, 13, s. 23-33.
Szczotka F.A. (1976): Podstawy taksonomii numerycznej. Biuletyn Informacyjny nr 17. Polska Akademia Nauk. Instytut Geo-
grafii i Przestrzennego Zagospodarowania, Warszawa.
Szpaderski A. (1960): Zastosowanie metod podobieństwa do rejonizacji ekonomiczno-rolniczej. Ruch Prawniczy, Ekonomicz-
ny i Socjologiczny, 2, s. 153-178.
Szrejbrowski K. (1969): Działalność organizacyjna izby rzemieślniczej w Poznaniu [w:] Z. Barański, H. Hybiak, W. Iwaszkie-
wicz, A. Nowicki, K. Szrejbrowski (red.): Rzemiosło wielkopolskie 1919-1968. Opracowanie materiałowe działalności
organizacyjnej i zawodowej. Wydawnictwo Poznańskie, Poznań, s. 17-57.
Sztemberg-Lewandowska M. (2008): Analiza czynnikowa w badaniach marketingowych, Uniwersytet Ekonomiczny we Wro-
cławiu, Wrocław.
T
Taksonomia struktur w badaniach regionalnych (1998): D. Strahl (red.). Wydawnictwo Akademii Ekonomicznej im. Oskara
Langego we Wrocławiu, Wrocław.
Bibliografia 291

Taylor E. (1962): Teoria a historia gospodarstwa społecznego. Ruch Prawniczy, Ekonomiczny i Socjologiczny, 24/2, s. 121-
-130.
Thorndike R.L. (1953): Who Belongs in a Family? Psychometrika, 18, s. 267-276.
Timm N.H. (2002): Applied Multivariate Analysis. Springer-Verlag, New York.
Topolski J. (1965): O zagadnieniu syntezy w historii gospodarczej. Roczniki Dziejów Społecznych i Gospodarczych, 26/1964,
s. 260-265.
Topolski J. (1984): Metodologia historii. Państwowe Wydawnictwo Naukowe, Warszawa.
Topolski J. (1986): O nowy model historii. Jan Rutkowski (1886-1949). Państwowe Wydawnictwo Naukowe, Warszawa.
Trosset M. (2005): Visualizing correlation. Journal of Computational and Graphical Statistics, 14/1, s. 1-19.
U
Uczczenie pamięci śp. Prof. Jana Rutkowskiego (1950). Poznańskie Towarzystwo Przyjaciół Nauk, Poznań.
W
Walesiak M. (1983): Propozycja rodziny miar odległości struktur udziałowych. Wiadomości Statystyczne, 10, s. 23-24.
Walesiak M. (1990): Syntetyczne badania porównawcze w świetle teorii pomiaru. Przegląd Statystyczny, 37/1-2, s. 37-46.
Walesiak M. (1991a): O stosowaniu miar korelacji w analizie wyników pomiaru porządkowego. Prace Naukowe nr 600 Akade-
mii Ekonomicznej im. Oskara Langego we Wrocławiu: Metody statystycznej analizy wielowymiarowej i ich zastosowania
w badaniach ekonomicznych, Wrocław, s. 13-20.
Walesiak M. (1991b): Strategie postępowania w badaniach statystycznych w przypadku zmiennych mierzonych na skalach
różnego typu. Badania Operacyjne i Decyzje, 1, s. 71-77.
Walesiak M. (1993a): Przegląd zastosowań metod klasyfikacji i porządkowania liniowego w rozwiązywaniu problemów mar-
ketingowych. Wiadomości Statystyczne, 2, s. 8-12.
Walesiak M. (1993b): Statystyczna analiza wielowymiarowa w badaniach marketingowych. Prace Naukowe nr 654 Akademii
Ekonomicznej im. Oskara Langego we Wrocławiu. Monografie i opracowania nr 101. Wydawnictwo Akademii Ekono-
micznej we Wrocławiu, Wrocław.
Walesiak M. (1996a): Dopuszczalne działania na liczbach w badaniach marketingowych z punktu widzenia skal pomiarowych.
Prace Naukowe nr 718 Akademii Ekonomicznej im. Oskara Langego we Wrocławiu: Informatyka i Ekonometria 1: Zasto-
sowania metod ilościowych, Wrocław, s. 133-144.
Walesiak M. (1996b): Metody analizy danych marketingowych, Państwowe Wydawnictwo Naukowe, Warszawa.
Walesiak M. (2002a): Propozycja uogólnionej miary odległości w statystycznej analizie wielowymiarowej [w:] J. Paradysz
(red.): Statystyka regionalna w służbie samorządu lokalnego i biznesu. Internetowa Oficyna Wydawnicza, Centrum Staty-
styki Regionalnej, Akademia Ekonomiczna w Poznaniu, Poznań, s. 115-121.
Walesiak M. (2002b): Uogólniona miara odległości w statystycznej analizie wielowymiarowej. Wydawnictwo Akademii Eko-
nomicznej we Wrocławiu, Wrocław.
Walesiak M. (2003): Miara odległości obiektów opisanych zmiennymi mierzonymi na różnych skalach pomiaru. Prace Nauko-
we nr 1006 Akademii Ekonomicznej im. Oskara Langego we Wrocławiu: Zastosowania statystyki i matematyki w ekono-
mii, Wrocław, s. 261-267.
Walesiak M. (2004): Problemy decyzyjne w procesie klasyfikacji zbioru obiektów. Prace Naukowe nr 1010 Akademii Ekono-
micznej im. Oskara Langego we Wrocławiu: Ekonometria 13, Wrocław, s. 52-71.
Walesiak M. (2005): Rekomendacje w zakresie strategii postępowania w procesie klasyfikacji zbioru obiektów [w:] A. Zeliaś
(red.): Przestrzenno-czasowe modelowanie i prognozowanie zjawisk gospodarczych. Wydawnictwo Akademii Ekono-
micznej w Krakowie, Kraków, s. 185-203.
Walesiak M. (2009): Analiza skupień [w:] M. Walesiak, E. Gatnar (red.): Statystyczna analiza danych z wykorzystaniem pro-
gramu R. Wydawnictwo Naukowe PWN, Warszawa, s. 407-433.
Walesiak M. (2011): Uogólniona miara odległości GDM w statystycznej analizie wielowymiarowej z wykorzystaniem progra-
mu R. Wydawnictwo Uniwersytetu Ekonomicznego, Wrocław.
Walesiak M. (2012): Pomiar odległości obiektów opisanych zmiennymi mierzonymi na skali porządkowej. Prace Naukowe
nr 242 Uniwersytetu Ekonomicznego we Wrocławiu: Taksonomia 19. Klasyfikacja i analiza danych – teoria i zastosowa-
nia, Wrocław, s. 39-46.
Walesiak M., Bąk A. (2000): Conjoint analysis w badaniach marketingowych. Wydawnictwo Akademii Ekonomicznej we
Wrocławiu, Wrocław.
Walesiak M., Dudek A. (2009): Ocena wybranych procedur analizy skupień dla danych porządkowych. Prace Naukowe nr 47
Uniwersytetu Ekonomicznego we Wrocławiu: Taksonomia 16: Klasyfikacja i analiza danych – teoria i zastosowania,
Wrocław, s. 41-49.
Ward J.H. (1963): Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association,
58/301, s. 236-244.
Wasilewska E. (2008): Statystyka opisowa nie tylko dla socjologów. Teoria, przykłady, zadania. Wydawnictwo Szkoły Głównej
Gospodarstwa Wiejskiego, Warszawa.
Waściszewski L. (1930): Statystyka. Teoria metody statystycznej. Lublin, s. 10-33. Przedruk [w:] Rozwój polskiej myśli staty-
stycznej. Wybór pism statystyków polskich (1968). Państwowe Wydawnictwo Ekonomiczne, Warszawa, s. 352-366.
Wąsowicz H. (1986): Łaciński kalendarz symboliczny (cisiojanus) do połowy XVI wieku. Redakcja Wydawnictw Katolickie-
go Uniwersytetu Lubelskiego, Lublin, s. 82-83.
292 Bibliografia

Wąsowicz H. (1995): Kalendarz ksiąg liturgicznych Krakowa do połowy 16. wieku : studium chronologiczno-typologiczne.
Redakcja Wydawnictw Katolickiego Uniwersytetu Lubelskiego, Lublin, s. 182-183.
Wąsowicz H. (2007): Metody trójwymiarowej projekcji w chronologii [w:] T.T. Prinke (red.): Megabajty dziejów. Informaty-
ka w badaniach, popularyzacji i dydaktyce historii. Instytut Historii Uniwersytetu im. Adama Mickiewicza w Poznaniu,
Poznań, s. 63-78.
Wąsowicz H. (2016): Cyzjojany łacińskie : studium typologiczne. Wydawnictwo Katolickiego Uniwersytetu Lubelskiego Jana
Pawła II, Lublin.
Wieczorkowski G., Wierzbiński J (2007): Statystyka. Analiza badań społecznych. Wydawnictwo Naukowe Scholar, Warsza-
wa.
Wierzchoń S., Kłopotek M. (2015): Algorytmy analizy skupień. Wydawnictwo WNT, Warszawa.
Winkler R., Kruse R., Klawonn F. (2012): A New Distance Function for Fuzzy c-Means Clustering in High-Dimensional
Spaces with Applications in S.O.D.A. [w:] J. Pociecha i R. Decker (red.): Data Analysis Methods and its Applica-
tions. Wydawnictwo C.H. Beck, Warszawa, s. 91-108.
Wishart D. (1969): An Algorithm for Hierarchical Classifications. Biometrics, 25/1, s. 165-170.
Wiśniewski F. (1964): Rzemiosło indywidualne w dwudziestoleciu Polski Ludowej. Studium ekonomiczne. Polskie Towa-
rzystwo Ekonomiczne, Oddział w Poznaniu, Rozprawy i monografie Nr 9, Państwowe Wydawnictwo Naukowe, Oddział
w Poznaniu, Poznań.
Wiśniewski J. (1986): Korelacja i regresja w badaniach zjawisk jakościowych na tle teorii pomiaru. Przegląd Statystyczny,
23/3, s. 238-248.
Wiśniewski J. (1987): Teoria pomiaru a teoria błędów w badaniach statystycznych. Wiadomości Statystyczne, 11, s. 18-20.
Wiśniewski J. (2014): Dylematy stosowania współczynnika korelacji Spearmana. Studia Ekonomiczne nr 181 Uniwersytetu
Ekonomicznego w Katowicach: Zarządzanie ryzykiem kapitałowym i ubezpieczeniowym oraz społecznymi uwarunko-
waniami ryzyka rynku pracy, s. 174-184.
Wydymus S. (1988): Analiza porównawcza struktur gospodarczych [w:] A. Zeliaś (red.): Metody statystyki międzynarodowej.
Państwowe Wydawnictwo Ekonomiczne, Warszawa, s. 162-199.
Wydymus S. (1989): Taksonometryczne modele syntetyczne w analizie zjawisk społeczno-ekonomicznych [w:] A. Grabiński,
S. Wydymus, A. Zeliaś: Metody taksonomii numerycznej w modelowaniu zjawisk społeczno-gospodarczych. Państwowe
Wydawnictwo Naukowe, Warszawa, s. 186-200.
Wysocki F. (2010): Metody taksonomiczne w rozpoznawaniu typów ekonomicznych rolnictwa i obszarów wiejskich. Wydaw-
nictwo Uniwersytetu Przyrodniczego w Poznaniu. Poznań.
Wysocki Z. (1965): Zagadnienie taksonomii geograficznej. Przegląd Geograficzny, 37/2, s. 313-339.
Wywiał J. (1994): O metodzie Warda grupowania zbiorów. Prace Naukowe nr 667 Akademii Ekonomicznej im. Oskara Langego
we Wrocławiu: Ekonomia matematyczna, Wrocław, s. 119-122.
XYZ
Xu L. (1997): Bayesian Ying–Yang machine, clustering and number of clusters. Pattern Recognition Letters, 18, s. 1167-
-1178.
Yule G.U., Kendall M.G. (1966): Wstęp do teorii statystyki. Państwowe Wydawnictwo Naukowe, Warszawa.
Zaborski A. (1998): Metody wyznaczania macierzy podobieństwa między obiektami w skalowaniu wielowymiarowym [w:]
K. Jajuga, M. Walesiak (red.): Klasyfikacja i analiza danych. Teoria i zastosowania. Taksonomia 5. Wydawnictwo Akade-
mii Ekonomicznej we Wrocławiu, Wrocław, s. 55-63.
Zaborski A. (2001): Skalowanie wielowymiarowe w badaniach marketingowych. Wydawnictwo Akademii Ekonomicznej we
Wrocławiu, Wrocław.
Zając K. (1967): Podstawy statystyki. Skrypt uczelniany. Wyższa Szkoła Ekonomiczna w Krakowie, Kraków.
Zajda J. (1960): Produkcja czysta jako kategoria ekonomiczna systemu finansowego. Ruch Prawniczy, Ekonomiczny i Socjo-
logiczny, 22/4, s. 109-125.
Zakrzewska M. (1987): O miarach podobieństwa obiektów i cech przydatnych w psychologicznych zastosowaniach analizy
skupień [w:] J. Brzeziński (red.): Wielozmienne modele statystyczne w badaniach psychologicznych. Państwowe Wydaw-
nictwo Naukowe, Poznań, s. 205-259.
Zambrzycka-Kunachowicz A. (1974a): Próba zastosowania jednej z metod taksonomicznych w typologii zjawisk etnograficz-
nych. Zeszyty Naukowe nr 375 Uniwersytetu Jagiellońskiego: Prace Etnograficzne, 7, Kraków, s. 36-60.
Zambrzycka-Kunachowicz A. (1974b): Rzemieślnik w społeczności rolników. Polska Akademia Nauk, Instytut Filozofii i So-
cjologii – Prace Etnograficzne, Ossolineum, Warszawa.
Zeliaś A. (1968): Analiza czynnikowa nad rejonizacją produkcji rolniczej. Zagadnienia Ekonomiki Rolnej, 5/89, s. 83-97.
Zeliaś A. (1982): Kilka uwag o kryteriach doboru zmiennych w modelach ekonometrycznych. Folia Oeconomica Cracoviensia,
24, s. 21-36.
Zeliaś A. (1984): Teoria prognozy. Polskie Wydawnictwo Ekonomiczne, Warszawa.
Zeliaś A. (1989): Dobór zmiennych diagnostycznych do modeli taksonometrycznych [w:] T. Grabiński, S. Wydymus, A. Ze-
liaś: Metody taksonomii numerycznej w modelowaniu zjawisk społeczno-gospodarczych. Państwowe Wydawnictwo Na-
ukowe, Warszawa, s. 36-48.
Zeliaś A. (1997): Teoria prognozy. Polskie Wydawnictwo Ekonomiczne, Warszawa.
Bibliografia 293

Zeliaś A. (2000a): Dobór zmiennych diagnostycznych [w:] A. Zeliaś (red.): Taksonomiczna analiza przestrzennego zróżnico-
wania poziomu życia w Polsce w ujęciu dynamicznym. Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków,
s. 35-55.
Zeliaś A. (2000b): Określanie podobieństwa dynamicznych obiektów ujmowanych w wielowymiarowej przestrzeni zmiennych
diagnostycznych [w:] A. Zeliaś (red.): Taksonomiczna analiza przestrzennego zróżnicowania poziomu życia w Polsce
w ujęciu dynamicznym. Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków, s. 98-101.
Zeliaś A., Pawełek B., Wanat S. (2002): Metody statystyczne. Zadania i sprawdziany. Polskie Wydawnictwo Ekonomiczne,
Warszawa.
Zimniewicz K. (1970): Rola gospodarcza i przeobrażenia organizacyjne przemysłu drobnego w Wielkopolsce w dwudzie-
stoleciu Polski Ludowej (1945-1965). Poznańskie Towarzystwo Przyjaciół Nauk. Państwowe Wydawnictwo Naukowe,
Oddział w Poznaniu, Poznań.

Akty prawne

Dekret z dnia 21 kwietnia 1948 r. o zmianie ustawy z dnia 19 lipca 1939 r. o izbach rzemieślniczych i ich związku (Dz.U. 1948
nr 23, poz. 155).
Dekret z dnia 3 kwietnia 1948 r. o częściowej zmianie prawa przemysłowego (Dz.U. 1948 nr 18, poz. 130).
Rozporządzenie Ministra Finansów z dnia 7 grudnia 1956 r. w sprawie zwolnienia od podatków nowozakładanych drobnych
zakładów rzemieślniczych i chałupniczych oraz przemysłu ludowego i domowego (Dz.U. 1956 nr 60, poz. 289).
Rozporządzenie Ministra Finansów z dnia 8 grudnia 1956 r. w sprawie poboru w formie ryczałtu podatków obrotowego i do-
chodowego od osób prowadzących zakłady rzemieślnicze (Dz.U. 1956 nr 60, poz. 290).
Rozporządzenie Ministra Finansów z dnia 8 grudnia 1956 r. w sprawie kart podatkowych dla drobnych rzemieślników (Dz.U.
1956 nr 60, poz. 291).
Ustawa z dnia 1 lipca 1958 r. o zezwoleniach na wykonywanie przemysłu, rzemiosła, handlu i niektórych usług przez jednostki
gospodarki nie uspołecznionej (Dz.U. 1958 nr 45, poz. 224).
Ustawa z dnia 11 września 1956 r. o izbach rzemieślniczych i Związku Izb Rzemieślniczych (Dz.U. 1956 nr 41, poz. 190).
Ustawa z dnia 29 marca 1965 r. o ubezpieczeniu społecznym rzemieślników (Dz.U. 1965 nr 13, poz. 90).

Źródła archiwalne i statystyczne

AGAD, Archiwum Zamoyskich, sygn. 1/358/0/0/96, p. 344-421: Statystyka Księstwa Warszawskiego i Królestwa Kongreso-
wego z lat 1806-1812, 1817-1824, 1852 i wywozu gdańskiego 1691-1817, Tabela ludności powiatów: Poznański.
AGAD, Archiwum Zamoyskich, sygn. 1/358/0/0/96, p. 344-421: Statystyka Księstwa Warszawskiego i Królestwa Kongre-
sowego z lat 1806-1812, 1817-1824, 1852 i wywozu gdańskiego 1691-1817, Tabela ludności ogółem Departamentu Po-
znańskiego,
AGAD, Archiwum Zamoyskich, sygn. 1/358/0/0/96, p. 800-819: Statystyka Księstwa Warszawskiego i Królestwa Kongreso-
wego z lat 1806-1812, 1817-1824, 1852 i wywozu gdańskiego 1691-1817, Tabela roczna zaślubionych, nowonarodzonych
i zmarłych.
AGAD, Archiwum Zamoyskich, sygn. 1/358/0/0/96, p. 820-841: Statystyka Księstwa Warszawskiego i Królestwa Kongreso-
wego z lat 1806-1812, 1817-1824, 1852 i wywozu gdańskiego 1691-1817, Tabela Miast w Dziewięciu Departamentach
Księstwa Warszawskiego z wyrażeniem ich liczby Domów i Ludności.
AGAD, Rada Ministrów Księstwa Warszawskiego, sygn. 1/176/2/093, p. 1-6: Księgi Kancelaryjne, Akta spraw, Tabele staty-
styczne.
APP, Prezydium WRN w Poznaniu, sygn. 7083/X/40, p. 1-135: Wydział Finansowy, Charakterystyka powiatów wojew. po-
znańskiego 1961-1962, 1963-1964.
APP, Prezydium WRN w Poznaniu, sygn. 7084/X/41, p. 3-60: Wydział Finansowy, Krótka charakterystyka powiatów wojew.
poznańskiego.
APP, Prezydium WRN w Poznaniu, sygn. 7092/X/49, p. 137: Wydział Finansowy, Charakterystyka powiatów województwa
poznańskiego.
APP, Prezydium WRN w Poznaniu, sygn. 7105/X/62, p. 12-20: Wydział Finansowy, Charakterystyka powiat. wojew. poznań-
skiego 1961-1965.
APP, Prezydium WRN w Poznaniu, sygn. 7075/X/32, p. 77-83, 156-163: Wydział Finansowy, Sprawozdanie o dokonanych
przypisach, odpisach i uiszczeniach 12P za 1958 r.,
APP, Prezydium WRN w Poznaniu, sygn. 7098/X/55, p. 108: Wydział Finansowy, Sprawozdanie o dokonanych przypisach,
odpisach i uiszczeniach 12P za 1964 r.
APP, Prezydium WRN w Poznaniu, sygn. 7123/X/80, p. 7: Wydział Finansowy, Sprawozdanie o dokonanych przypisach,
odpisach i uiszczeniach 12P za 1967 r.
APP, Prezydium WRN w Poznaniu, sygn. 7176/X/133, p. 14: Wydział Finansowy, Sprawozdanie 10P o dokonanych przypi-
sach, odpisach i wpłatach za 1970 r.
294 Bibliografia

APP, Prezydium WRN w Poznaniu, sygn. 7179/X/136, p. 101: Wydział Finansowy, Sprawozdanie 10P o dokonanych przypi-
sach, odpisach i wpłatach za 1973 r.
Rocznik Statystyczny 1960 (XX), Główny Urząd Statystyczny, Warszawa 1961.
Rocznik Statystyczny 1961 (XXI), Główny Urząd Statystyczny, Warszawa 1962.
Rocznik Statystyczny 1962 (XXII), Główny Urząd Statystyczny, Warszawa 1963.
Rocznik Statystyczny 1963 (XXIII), Główny Urząd Statystyczny, Warszawa 1964.
Rocznik Statystyczny 1964 (XXIV), Główny Urząd Statystyczny, Warszawa 1965.
Rocznik Statystyczny 1965 (XXV), Główny Urząd Statystyczny, Warszawa 1966.
Rocznik Statystyczny 1966 (XXVI), Główny Urząd Statystyczny, Warszawa 1966.
Rocznik Statystyczny 1967 (XXVII), Główny Urząd Statystyczny, Warszawa 1967.
Rocznik Statystyczny 1968 (XXVIII), Główny Urząd Statystyczny, Warszawa 1968.
Rocznik Statystyczny 1969 (XXIX), Główny Urząd Statystyczny, Warszawa 1969.
Rocznik Statystyczny 1970 (XXX), Główny Urząd Statystyczny, Warszawa 1970.
Rocznik Statystyczny 1971 (XXXI), Główny Urząd Statystyczny, Warszawa 1972.
Rocznik Statystyczny 1972 (XXXII), Główny Urząd Statystyczny, Warszawa 1973.
Rocznik Statystyczny 1973 (XXXIII), Główny Urząd Statystyczny, Warszawa 1974.
Rocznik Statystyczny 1974 (XXXIV), Główny Urząd Statystyczny, Warszawa 1975.
Rocznik Statystyczny 1975 (XXXV), Główny Urząd Statystyczny, Warszawa 1976.
Rocznik Statystyczny 1976 (XXXVI), Główny Urząd Statystyczny, Warszawa 1977.
Rocznik Statystyczny 1977 (XXXVII), Główny Urząd Statystyczny, Warszawa 1978.
Rocznik Statystyczny 1978 (XXXVIII), Główny Urząd Statystyczny, Warszawa 1979.
Rocznik Statystyczny 1979 (XXXVIX), Główny Urząd Statystyczny, Warszawa 1980.
Rocznik Statystyczny 1980 (XL), Główny Urząd Statystyczny, Warszawa 1981.
Rocznik Statystyczny 1981 (XLI), Główny Urząd Statystyczny, Warszawa 1982.
Rocznik Statystyczny 1982 (XLII), Główny Urząd Statystyczny, Warszawa 1983.
Rocznik Statystyczny 1983 (XLIII), Główny Urząd Statystyczny, Warszawa 1984.
Rocznik Statystyczny 1984 (XLIV), Główny Urząd Statystyczny, Warszawa 1985.
Rocznik Statystyczny 1985 (XLV), Główny Urząd Statystyczny, Warszawa 1986.
Rocznik Statystyczny 1986 (XLVI), Główny Urząd Statystyczny, Warszawa 1987.
Rocznik Statystyczny 1987 (XLVII), Główny Urząd Statystyczny, Warszawa 1988.
Rocznik Statystyczny 1988 (XLVIII), Główny Urząd Statystyczny, Warszawa 1989.
Rocznik Statystyczny 1989 (XLIX), Główny Urząd Statystyczny, Warszawa 1990.
Rocznik Statystyczny 1990 (L), Główny Urząd Statystyczny, Warszawa 1991.
Aneks A
Dane ilościowe
Tabela 1. Zmienne dotyczące sytuacji demograficznej w departamencie poznańskim w 1810 r.

Gęstość Odsetek ludności Odsetek


Relacja M/K Zgony Struktura wyznaniowa
zaludnienia miejskiej wdowców
Zmienne [liczba mężczyzn/ [osoby/ 1000 mieszkańców] [%ludności ogółem]
[tys. osób/ [% ludności [% ludności ogółem]
Powiaty 1 kobietę]
1 milę2] ogółem] M K Ogółem M K katolicy ewangelicy żydzi
𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6 𝑋7 𝑋8 𝑋9 𝑋10 𝑋11

Wschowa 𝑝1 2,24 33,5 0,94 2,2 8,4 23,1 23,5 22,7 57,1 35,3 7,6
Krobia 𝑝2 2,78 33,3 0,96 2,2 8,0 30,6 33,1 28,2 63,5 33,2 3,3
Międzyrzecz 𝑝3 1,13 30,4 0,98 2,4 8,7 35,2 37,6 32,8 46,5 46,0 7,5
Krotoszyn 𝑝4 2,25 28,1 1,00 2,6 7,7 34,9 35,2 34,6 76,7 18,4 4,9
Babimost 𝑝5 1,58 28,0 0,99 2,0 6,2 31,1 33,0 29,2 42,4 52,5 5,1
Oborniki 𝑝6 1,40 23,7 1,00 1,8 8,2 32,4 33,7 31,2 62,0 30,4 7,6
Kościan 𝑝7 1,75 20,6 0,97 4,9 4,6 27,2 29,2 25,3 78,8 17,2 4,0
Śrem 𝑝8 1,99 20,3 0,99 1,8 7,2 34,7 36,7 32,7 81,7 14,3 4,0
Gniezno 𝑝9 1,46 18,9 1,05 2,0 7,2 28,5 28,8 28,1 79,7 17,0 3,3
Pyzdry 𝑝10 1,86 17,7 1,04 1,6 5,9 37,1 38,4 35,8 84,4 9,0 6,6
Powidz 𝑝11 1,51 17,1 1,05 1,3 5,3 44,8 45,2 44,5 80,9 14,8 4,3
Środa 𝑝12 1,86 12,8 1,00 2,1 6,9 33,3 36,0 30,6 88,6 8,5 2,9
Poznań 𝑝13 1,50 10,2 1,01 1,8 7,3 35,5 38,0 32,6 87,5 9,4 3,1
Wągrowiec 𝑝14 1,19 9,7 1,03 2,1 8,1 32,2 33,2 31,3 79,6 17,7 2,7

ogółem 1,69 25,2 0,99 2,3 7,3 32,9 34,6 31,2 70,4 24,2 5,4

M – mężczyźni, K – kobiety.
Źródło: M. KĘDELSKI (1996, s. 25) [za:] AGAD, Archiwum Zamoyskich, sygn. 1/358/0/0/96.
Aneks A. Dane ilościowe 297

Tabela 2. Powierzchnia upraw podstawowych gatunków roślin na ziemiach polskich tworzących Kraj Warty,
średnia z lat 1933-1937 [% UR]

Powierzchnia uprawy [% UR]


Zmienne
żyto pszenica jęczmień owies ziemniaki buraki cukrowe
Powiaty
𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6

Czarnków 𝑝1 >40 2–3 4–7 6–8 >16 <1


Międzychód 𝑝2 35–40 2–3 <4 6–8 14–16 <1
Nowy Tomyśl 𝑝3 25–35 5–7 4–7 5–6 >16 2–3
Wolsztyn 𝑝4 35–40 2–3 <4 6–8 14–16 <1
Szamotuły 𝑝5 25–35 7–10 4–7 5–6 14–16 3–5
Kościan 𝑝6 15–25 5–7 4–7 5–6 12–14 2–3
Leszno 𝑝7 15–25 5–7 4–7 8–10 14–16 2–3
Chodzież 𝑝8 25–35 <2 4–7 6–8 12–14 <1
Oborniki 𝑝9 25–35 3–5 4–7 5–6 12–14 1–2
Poznań 𝑝10 25–35 3–5 4–7 5–6 >16 1–2
Śrem 𝑝11 25–35 5–7 4–7 6–8 14–16 3–5
Gostyń 𝑝12 15–25 >10 7–10 8–10 14–16 3–5
Rawicz 𝑝13 15–25 <2 4–7 8–10 12–14 3–5
Wągrowiec 𝑝14 25–35 3–5 7–10 6–8 14–16 <1
Gniezno 𝑝15 35–40 5–7 4–7 6–8 14–16 1–2
Środa 𝑝16 25–35 7–10 7–10 6–8 14–16 3–5
Września 𝑝17 25–35 7–10 7–10 6–8 14–16 3–5
Jarocin 𝑝18 25–35 7–10 4–7 8–10 12–14 2–3
Krotoszyn 𝑝19 15–25 >10 4–7 >10 12–14 2–3
Żnin 𝑝20 25–35 7–10 7–10 5–6 12–14 2–3
Mogilno 𝑝21 25–35 7–10 >10 <5 9–12 3–5
Konin 𝑝22 35–40 3–5 <4 5–6 14–16 <1
Koło 𝑝23 35–40 5–7 <4 <5 14–16 <1
Kalisz 𝑝24 25–35 7–10 <4 8–10 14–16 1–2
Turek 𝑝25 35–40 5–7 <4 6–8 12–14 <1
Ostrów 𝑝26 25–35 5–7 <4 8–10 >16 <1
Kępno 𝑝27 35–40 2–3 <4 >10 >16 <1
Szubin 𝑝28 25–35 3–5 4–7 <5 12–14 <1
Inowrocław 𝑝29 15–25 >10 >10 <5 9–12 5–8
Nieszawa 𝑝30 25–35 >10 7–10 <5 9–12 2–3
Włocławek 𝑝31 25–35 7–10 7–10 <5 9–12 2–3
Kutno 𝑝32 25–35 >10 4–7 8–10 9–12 3–5
Gostynin 𝑝33 35–40 5–7 <4 6–8 14–16 <1
Łęczyca 𝑝34 25–35 7–10 <4 6–8 12–14 1–2
Sieradz 𝑝35 >40 3–5 <4 8–10 14–16 2–3
Wieluń 𝑝36 >40 <2 <4 6–8 >16 <1
Brzeziny 𝑝37 >40 3–5 <4 >10 >16 <1
Łódź 𝑝38 >40 <2 <4 8–10 >16 <1
Łask 𝑝39 >40 3–5 <4 6–8 14–16 <1
Piotrków 𝑝40 35–40 2–3 <4 8–10 14–16 <1
Radomsko 𝑝41 35–40 2–3 <4 6–8 >16 <1

Źródło: dane zestawiono na podstawie map przedstawionych przez GUENTHER-SWARTA (1941, s. 24-54) oraz JANICKIEGO
(1996, s. 119-141).
298 Aneks A. Dane ilościowe

Tabela 3. Wielkość hodowli zwierząt na ziemiach polskich tworzących Kraj Warty w 1937 r. [szt./100 ha UR]

Pogłowie zwierząt [szt./100 ha UR]


Zmienne Jakość gleb
konie bydło trzoda chlewna owce
Powiaty
𝑋7 𝑋8 𝑋9 𝑋10 𝑋11

Czarnków 𝑝1 15–18 45–50 >70 5–8 słabe


Międzychód 𝑝2 9–12 25–35 40–50 5–8 słabe
Nowy Tomyśl 𝑝3 12–15 35–40 50–60 5–8 średnie
Wolsztyn 𝑝4 12–15 40–45 50–60 <5 słabe
Szamotuły 𝑝5 12–15 35–40 40–50 8–10 dobre
Kościan 𝑝6 12–15 35–40 30–40 5–8 dobre
Leszno 𝑝7 15–18 50–60 50–60 5–8 średnie
Chodzież 𝑝8 12–15 35–40 50–60 5–8 słabe
Oborniki 𝑝9 12–15 25–35 50–60 10–15 słabe
Poznań 𝑝10 12–15 25–35 30–40 <5 średnie
Śrem 𝑝11 12–15 35–40 30–40 5–8 słabe
Gostyń 𝑝12 18–20 50–60 60–70 15–20 dobre
Rawicz 𝑝13 12–15 50–60 60–70 <5 dobre
Wągrowiec 𝑝14 12–15 35–40 50–60 5–8 średnie
Gniezno 𝑝15 12–15 40–45 50–60 8–10 średnie
Środa 𝑝16 12–15 35–40 40–50 5–8 dobre
Września 𝑝17 12–15 40–45 40–50 5–8 dobre
Jarocin 𝑝18 12–15 35–40 40–50 8–10 średnie
Krotoszyn 𝑝19 15–18 45–50 40–50 5–8 średnie
Żnin 𝑝20 12–15 35–40 50–60 8–10 średnie
Mogilno 𝑝21 12–15 35–40 40–50 10–15 średnie
Konin 𝑝22 15–18 40–45 40–50 <5 słabe
Koło 𝑝23 15–18 40–45 40–50 <5 średnie
Kalisz 𝑝24 15–18 45–50 30–40 <5 średnie
Turek 𝑝25 15–18 40–45 30–40 <5 słabe
Ostrów 𝑝26 15–18 50–60 50–60 <5 słabe
Kępno 𝑝27 12–15 35–40 40–50 <5 słabe
Szubin 𝑝28 12–15 25–35 40–50 10–15 słabe
Inowrocław 𝑝29 12–15 35–40 40–50 10–15 dobre
Nieszawa 𝑝30 15–18 35–40 40–50 5–8 dobre
Włocławek 𝑝31 15–18 35–40 30–40 10–15 dobre
Kutno 𝑝32 15–18 40–45 30–40 <5 dobre
Gostynin 𝑝33 12–15 40–45 30–40 <5 słabe
Łęczyca 𝑝34 15–18 40–45 30–40 <5 dobre
Sieradz 𝑝35 15–18 45–50 30–40 <5 słabe
Wieluń 𝑝36 15–18 50–60 30–40 5–8 słabe
Brzeziny 𝑝37 12–15 40–45 30–40 <5 słabe
Łódź 𝑝38 15–18 40–45 <20 <5 słabe
Łask 𝑝39 15–18 45–50 20–30 5–8 słabe
Piotrków 𝑝40 15–18 40–45 30–40 8–10 słabe
Radomsko 𝑝41 15–18 40–45 20–30 5–8 słabe

Źródło: dane zestawiono na podstawie map przedstawionych przez GUENTHER-SWARTA (1941, s. 24-54) oraz JANICKIEGO
(1996, s. 119-141).
Tabela 4. Wartość produkcji czystej w polskim przemyśle uspołecznionym w latach 1958-1972 w cenach bieżących [mld zł]

Rok
1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973
Gałęzie przemysłu

energetyczny 𝑋1 1,9 3,4 3,6 3,1 3,9 5,2 7,2 8,0 9,0 9,5 10,6 11,4 11,8 12,0 13,1 15,0
paliw i węglowy 𝑋2 6,0 13,4 18,9 20,8 20,9 22,1 24,7 27,0 28,5 29,1 32,6 34,4 44,5 51,5 53,8 57,2
hutnictwo żelaza 𝑋3 5,5 4,8 7,2 9,9 9,5 9,7 11,0 12,3 12,7 13,1 14,2 15,9 17,5 22,2 25,0 27,7
metali nieżelaznych 𝑋4 1,3 1,0 2,0 2,9 3,0 3,0 3,2 3,5 3,7 4,3 4,7 5,3 6,3 9,5 10,8 13,1
metalowy 𝑋5 6,6 7,6 8,6 9,7 11,2 12,5 13,9 15,4 16,0 15,7 17,1 18,9 19,1 20,0 22,3 25,7
elektrotechniczny 𝑋6 4,5 5,4 6,5 7,9 9,7 10,3 11,5 13,1 14,4 13,3 15,3 17,0 20,2 20,0 22,8 26,5
środków transportu 𝑋7 8,8 9,9 11,5 12,8 15,0 15,2 16,9 19,6 20,3 20,6 22,5 26,0 33,9 35,5 39,9 46,9
maszynowy 𝑋8 8,3 9,3 10,4 11,9 13,0 13,8 15,9 17,0 18,3 19,5 21,9 23,5 29,7 35,8 40,5 48,0
chemiczny 𝑋9 7,3 6,9 8,4 11,0 13,8 14,7 17,0 18,2 20,5 23,2 27,0 30,1 43,0 35,8 43,5 53,1
materiałów budowlanych 𝑋10 5,7 5,6 6,2 6,7 6,7 6,7 7,5 7,7 8,3 8,8 9,4 9,6 10,0 13,0 14,3 15,4
szklarski 𝑋11 1,3 1,8 1,9 1,9 2,1 2,2 2,5 2,7 2,9 2,7 2,9 3,1 3,2 3,2 3,6 4,5
ceramiki szlachetnej 𝑋12 0,4 0,6 0,6 0,7 0,7 0,7 0,7 0,7 0,8 0,8 0,9 0,9 0,9 1,0 1,2 1,5
drzewny 𝑋13 5,3 5,4 5,6 6,4 7,0 7,6 8,2 8,9 9,5 10,1 10,6 11,6 12,0 13,1 14,1 17,0
papierniczy 𝑋14 2,5 2,4 2,5 2,8 2,9 3,3 3,5 3,7 3,9 4,2 4,3 4,5 4,6 5,2 5,7 6,1
poligraficzny 𝑋15 1,1 1,1 1,3 1,3 1,4 1,5 1,6 1,8 1,9 2,0 2,1 2,3 2,4 2,8 2,9 3,1
włókienniczy 𝑋16 23,5 23,8 22,0 22,5 23,8 23,8 26,2 30,0 32,5 34,2 39,1 42,5 44,8 46,4 53,3 62,4
odzieżowy 𝑋17 3,5 3,1 3,1 3,5 4,4 5,0 5,4 6,1 6,6 7,0 7,9 8,7 9,6 10,1 11,7 13,4
skórzany 𝑋18 6,8 6,8 6,1 5,8 6,3 6,4 7,2 7,8 8,0 8,6 9,1 9,8 10,0 9,1 10,5 11,9
spożywczy 𝑋19 41,5 43,1 40,4 42,8 44,3 47,4 50,7 54,8 56,6 55,8 58,0 63,0 72,8 72,1 66,8 77,3
pozostałe gałęzie przemysłu 𝑋20 2,9 3,3 3,9 4,4 5,0 5,1 5,0 5,0 5,1 3,3 3,5 3,8 –1,6 1,0 0,0 –0,2

razem 144,7 158,7 170,6 188,8 204,7 216,1 239,9 263,3 279,4 285,9 313,8 342,2 394,6 419,5 455,9 525,6

Źródło: ROCZNIKI STATYSTYCZNE: 1960 (s. 98), 1961 (s. 92), 1963 (s. 112), 1964 (s. 114), 1965 (s. 122), 1966 (s. 128), 1967 (s. 129), 1968 (s. 115), 1969 (s. 125), 1970 (s. 125), 1971 (s. 126),
1972 (s. 167), 1974 (s. 216).
Tabela 5. Wartość produkcji czystej w polskim przemyśle uspołecznionym w latach 1973-1989 w cenach bieżących [mld zł]

Rok
1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989
Gałęzie przemysłu

energetyczny 𝑋1 15,5 15,4 19,0 20,3 21,1 18,0 18,7 14,0 72,2 64,6 86,9 93,6 106,3 156,0 229,3 1088,6
paliw i węglowy 𝑋2 103,0 137,6 100,9 110,7 113,2 116,0 109,9 78,2 271,6 404,1 439,1 473,6 582,2 802,6 1559,0 3727,6
hutnictwo żelaza 𝑋3 34,3 32,9 30,0 35,6 38,3 27,8 27,9 18,3 71,7 93,8 123,8 148,8 184,7 250,1 461,6 2964,7
metali nieżelaznych 𝑋4 15,1 17,2 14,5 17,1 14,7 24,4 35,1 26,0 40,8 55,0 74,3 82,3 109,1 184,7 437,6 1785,4
metalowy 𝑋5 30,5 35,4 39,3 48,3 54,3 59,5 58,3 56,4 114,2 134,9 170,9 204,1 250,8 321,3 543,4 2494,6
elektrotechniczny 𝑋6 31,2 36,4 37,1 49,5 56,8 58,3 60,0 59,9 129,0 153,9 193,2 237,5 288,7 386,6 737,2 3160,5
środków transportu 𝑋7 58,1 73,6 56,3 78,8 98,6 101,6 104,4 98,0 213,2 245,2 291,6 345,8 397,1 520,9 974,6 4043,4
maszynowy 𝑋8 58,7 71,9 86,9 113,6 124,1 134,3 136,6 147,2 268,1 308,6 377,8 475,1 601,2 809,3 1456,3 5337,6
chemiczny 𝑋9 65,4 75,4 79,5 84,7 97,7 98,6 100,0 103,3 182,4 204,7 243,3 293,8 355,1 501,4 949,3 4093,5
materiałów budowlanych 𝑋10 15,3 14,9 15,6 20,4 19,5 15,9 13,7 10,1 77,8 86,6 100,8 108,3 136,7 174,0 290,2 1118,8
szklarski 𝑋11 5,1 5,4 7,2 7,8 10,0 10,8 11,1 11,5 24,7 30,9 37,4 39,9 45,1 61,3 111,5 483,3
ceramiki szlachetnej 𝑋12 1,7 2,1 2,4 2,7 3,5 3,8 3,8 4,1 9,6 13,0 17,1 20,3 23,5 28,3 53,3 251,8
drzewny 𝑋13 22,0 25,5 27,8 32,3 33,5 32,6 37,6 39,2 75,7 86,3 109,6 131,4 157,0 209,6 351,6 1800,9
papierniczy 𝑋14 6,2 6,3 9,5 9,8 9,5 8,4 8,3 8,1 24,1 22,1 25,2 35,5 48,7 74,2 131,8 637,8
poligraficzny 𝑋15 3,7 4,0 4,6 5,7 6,2 6,3 6,2 6,0 12,4 16,6 23,1 29,1 38,6 53,9 87,7 305,1
włókienniczy 𝑋16 74,9 90,0 102,6 103,0 108,2 107,6 116,7 113,3 168,2 208,4 275,9 345,8 428,6 543,6 933,7 4278,4
odzieżowy 𝑋17 15,6 18,6 20,7 18,4 20,1 20,2 21,9 27,5 53,2 74,4 90,4 105,3 129,7 172,9 318,8 1350,9
skórzany 𝑋18 12,8 14,9 16,8 18,7 20,0 20,8 25,0 26,7 51,1 71,8 84,1 104,9 126,0 165,9 317,7 1467,5
spożywczy 𝑋19 100,7 110,2 126,3 96,9 106,2 113,1 122,1 –1,8 394,8 501,8 558,7 606,4 641,9 791,4 894,5 7136,1
pozostałe gałęzie przemysłu 𝑋20 –4,7 –4,0 2,7 2,4 3,5 5,0 2,3 19,6 40,5 49,5 52,0 56,2 77,6 99,0 163,4 780,2

razem 665 783 800 877 959 983 1020 866 2295 2826 3375 3938 4729 6307 11003 48307

Źródło: ROCZNIKI STATYSTYCZNE: 1974 (s. 216), 1975 (s. 161), 1976 (s. 152), 1977 (s. 124), 1978 (s. 117), 1979 (s. 136), 1980 (s. 141), 1981 (s. 233), 1982 (s. 175), 1983 (s. 191), 1984
(s. 211), 1985 (s. 215), 1986 (s. 216), 1987 (s. 221), 1988 (s. 2016-207), 1989 (s. 226), 1990 (s. 264-265).
Tabela 6. Warsztaty rzemieślnicze we wsi Odrowąż i Waksmund i ich charakterystyki*

Narzędzia Narzędzia Praca Mały krąg Duży krąg Anonimowy


Zmienne Praca stała Wieś
ręczne mechaniczne sezonowa odbiorców odbiorców odbiorca
Warsztaty
𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6 𝑋7 𝑋8

kołodziejstwo, kowalstwo 𝑤1 1 0 1 0 1 0 0 1
stolarstwo meblowe 𝑤2 0 1 1 0 0 1 0 1
kołodziejstwo 𝑤3 0 1 1 0 1 0 0 1
stolarstwo, bednarstwo, kołodziejstwo, ciesielstwo 𝑤4 1 0 1 0 1 0 0 1
stolarstwo, bednarstwo 𝑤5 1 0 1 0 1 0 0 1
bednarstwo 𝑤6 1 0 1 0 0 1 0 1
kołodziejstwo, stolarstwo meblowe i budowlane 𝑤7 1 0 1 0 0 1 0 1
stolarstwo budowlane i meblowe 𝑤8 1 0 1 0 0 1 0 1
stolarstwo budowlane i meblowe 𝑤9 1 0 1 0 0 1 0 1
stolarstwo meblowe, pamiątkarstwo 𝑤10 0 1 0 1 0 1 1 1
wyrób gnatek, części do wozu 𝑤11 0 1 1 0 1 0 1 0
wyrób gnatek, części do wozu 𝑤12 0 1 0 1 1 0 1 0
stolarstwo budowlane 𝑤13 0 1 0 1 0 1 0 0
stolarstwo budowlane 𝑤14 0 1 0 1 0 1 0 0
bednarstwo 𝑤15 0 1 1 0 1 0 0 0
bednarstwo 𝑤16 0 1 1 0 0 1 0 0
kołodziejstwo, kowalstwo 𝑤17 0 1 1 0 0 1 0 0
kołodziejstwo 𝑤18 1 0 1 0 1 0 0 0
stolarstwo meblowe 𝑤19 0 1 1 0 0 1 0 0

* wartości „1” oznaczają pozytywną odpowiedź, „0” odnosi się do odpowiedzi negatywnych; w przypadku zmiennej „wieś”: „1” oznacza wieś Odrowąż, natomiast „0” wieś Waksmund
Źródło: ZAMBRZYCKA-KUNACHOWICZ (1974a).
Tabela 7. Występowanie wyrażeń w dziesięciu dokumentach

Liczba występowania charakterystycznych wyrażeń w dokumentach


Zmienne
„baza danych” „regresja” „SQL” „wiarygodność” „indeks” „liniowa”
Dokumenty
𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6
Dokument nr 1 𝑂1 24 0 21 0 9 3
Dokument nr 2 𝑂2 32 0 10 3 5 0
Dokument nr 3 𝑂3 12 0 16 0 5 0
Dokument nr 4 𝑂4 6 0 7 0 2 0
Dokument nr 5 𝑂5 43 0 31 3 20 0
Dokument nr 6 𝑂6 2 18 0 7 0 16
Dokument nr 7 𝑂7 0 32 0 12 1 0
Dokument nr 8 𝑂8 3 22 0 4 0 2
Dokument nr 9 𝑂9 1 34 0 27 0 25
Dokument nr 10 𝑂10 6 17 0 4 0 23

Źródło: HAND i in. (2005, s. 517).


Aneks A. Dane ilościowe 303

Tabela 8. Wpływy z podatku obrotowego i dochodowego w województwie poznańskim w 1958 r. w tys. zł

Zajęcia zawo-
Zmienne Przemysł Rzemiosło Handel Usługi Pozostali
dowe
Powiaty
𝑋𝑃 𝑋𝑅𝑍 𝑋𝐻 𝑋𝑈 𝑋𝑍𝑍 𝑋𝐼

Chodzież 𝑝1 179 492 162 115 71 97


Czarnków 𝑝2 264 284 95 28 67 27
Gniezno 𝑝3 201 370 43 140 58 108
Gostyń 𝑝4 426 1283 432 294 102 39
Jarocin 𝑝5 139 942 170 146 191 89
Kalisz 𝑝6 731 1044 314 348 41 199
Kępno 𝑝7 312 1033 142 113 84 46
Koło 𝑝8 372 1229 528 354 104 157
Konin 𝑝9 427 1128 240 278 166 170
Kościan 𝑝10 202 1839 182 153 60 52
Krotoszyn 𝑝11 8 1492 539 835 146 56
Leszno 𝑝12 102 265 70 119 10 34
Międzychód 𝑝13 69 284 100 86 56 75
Nowy Tomyśl 𝑝14 104 985 513 390 150 97
Oborniki 𝑝15 141 778 231 162 49 41
Ostrów 𝑝16 117 761 23 48 18 51
Ostrzeszów 𝑝17 264 1578 116 93 24 44
Piła 𝑝18 112 124 135 140 59 13
Pleszew 𝑝19 116 1121 177 131 70 126
Poznań 𝑝20 751 5762 207 176 76 159
Rawicz 𝑝21 68 909 195 290 181 85
Słupca 𝑝22 214 282 190 93 45 69
Śrem 𝑝23 251 1466 151 184 48 44
Środa 𝑝24 153 1052 193 192 42 20
Szamotuły 𝑝25 379 2238 344 300 59 191
Turek 𝑝26 216 498 231 114 117 123
Wągrowiec 𝑝27 131 864 334 87 112 89
Wolsztyn 𝑝28 516 1128 184 60 118 77
Września 𝑝29 176 1000 273 313 56 64
Gniezno m. 𝑝30 101 3523 326 341 142 27
Kalisz m. 𝑝31 233 6822 1094 1109 236 13
Leszno m. 𝑝32 235 2113 341 151 140 42
Ostrów m. 𝑝33 99 4184 792 499 216 50
Piła m. 𝑝34 103 1061 254 114 43 17

Razem 7906 49932 9321 7992 3155 2589

Źródło: APP, Prezydium WRN w Poznaniu, sygn. 7075/X/32; APP, Prezydium WRN w Poznaniu, sygn. 7084/X/41;
APP, Prezydium WRN w Poznaniu, sygn. 7092/X/49.
304 Aneks A. Dane ilościowe

Tabela 9. Wpływy z podatku obrotowego i dochodowego w województwie poznańskim w 1961 r. w tys. zł

Zajęcia
Zmienne Przemysł Rzemiosło Handel Usługi Pozostali
zawodowe
Powiaty 𝑋𝑃 𝑋𝑅𝑍 𝑋𝐻 𝑋𝑈 𝑋𝑍𝑍 𝑋𝐼
256 1282 74 180 136 120
Chodzież 𝑝1
Czarnków 𝑝2 97 1048 6 24 100 50
Gniezno 𝑝3 168 465 46 174 110 87
Gostyń 𝑝4 687 2039 232 155 214 127
Jarocin 𝑝5 143 1087 105 83 215 159
Kalisz 𝑝6 1135 1351 187 282 153 148
Kępno 𝑝7 452 1773 131 123 163 80
Koło 𝑝8 452 1882 244 321 281 223
Konin 𝑝9 491 1427 121 207 318 145
Kościan 𝑝10 362 2633 124 182 320 146
Krotoszyn 𝑝11 149 2265 386 603 218 132
Leszno 𝑝12 160 829 35 58 30 84
Międzychód 𝑝13 24 369 60 53 74 75
Nowy Tomyśl 𝑝14 74 1633 257 663 234 18
Oborniki 𝑝15 580 943 100 270 147 96
Ostrów 𝑝16 100 1151 32 72 77 264
Ostrzeszów 𝑝17 547 1725 106 171 72 94
Trzcianka 𝑝18 215 1473 152 141 179 72
Pleszew 𝑝19 2275 9575 223 363 378 134
Poznań 𝑝20 57 1529 114 238 231 169
Rawicz 𝑝21 207 672 176 232 75 89
Słupca 𝑝22 238 1225 184 208 176 133
Śrem 𝑝23 598 1735 117 241 94 107
Środa 𝑝24 450 2288 221 424 132 152
Szamotuły 𝑝25 131 474 51 130 89 66
Turek 𝑝26 321 652 96 188 263 249
Wągrowiec 𝑝27 291 1351 221 209 133 144
Wolsztyn 𝑝28 434 779 149 155 194 100
Września 𝑝29 316 1799 222 382 210 25
Gniezno m. 𝑝30 136 3774 295 314 297 222
Kalisz m. 𝑝31 253 6288 1531 1246 600 333
Leszno m. 𝑝32 343 3041 291 266 289 306
Ostrów m. 𝑝33 80 4211 339 523 295 204
Piła m. 𝑝34 87 1134 111 174 67 117

Razem 12309 65900 6737 9055 6562 4672

Źródło: APP, Prezydium WRN w Poznaniu, sygn. 7105/X/62; APP, Prezydium WRN w Poznaniu, sygn. 7083/X/40;
APP, Prezydium WRN w Poznaniu, sygn. 7084/X/41; APP, Prezydium WRN w Poznaniu, sygn. 7092/X/49.
Aneks A. Dane ilościowe 305

Tabela 10. Wpływy z podatku obrotowego i dochodowego w województwie poznańskim w 1964 r. w tys. zł

Zajęcia
Zmienne Przemysł Rzemiosło Handel Usługi Pozostali
zawodowe
Powiaty
𝑋𝑃 𝑋𝑅𝑍 𝑋𝐻 𝑋𝑈 𝑋𝑍𝑍 𝑋𝐼

Chodzież 𝑝1 117 1108 181 183 93 47


Czarnków 𝑝2 133 1029 221 96 92 102
Gniezno 𝑝3 143 673 66 192 53 113
Gostyń 𝑝4 767 2584 401 309 219 148
Jarocin 𝑝5 80 2029 260 294 236 178
Kalisz 𝑝6 660 1231 252 232 149 227
Kępno 𝑝7 328 2393 188 122 153 92
Koło 𝑝8 413 1995 541 297 308 203
Konin 𝑝9 447 1940 366 324 309 274
Kościan 𝑝10 275 2824 262 380 412 193
Krotoszyn 𝑝11 374 2736 467 648 227 159
Leszno 𝑝12 99 1076 60 100 14 87
Międzychód 𝑝13 11 458 136 78 56 63
Nowy Tomyśl 𝑝14 58 2137 601 542 245 311
Oborniki 𝑝15 181 1147 162 173 160 135
Ostrów 𝑝16 324 1161 52 133 82 164
Ostrzeszów 𝑝17 267 2081 192 165 130 136
Trzcianka 𝑝18 134 789 38 110 105 69
Pleszew 𝑝19 189 1510 303 301 210 121
Poznań 𝑝20 2865 15100 162 1464 294 349
Rawicz 𝑝21 5 1590 258 290 315 134
Słupca 𝑝22 146 957 147 174 65 153
Śrem 𝑝23 61 1480 244 185 142 141
Środa 𝑝24 232 2132 162 391 132 129
Szamotuły 𝑝25 337 2688 370 511 142 168
Turek 𝑝26 215 887 239 237 351 249
Wągrowiec 𝑝27 457 1268 170 326 129 285
Wolsztyn 𝑝28 189 1060 133 180 186 107
Września 𝑝29 299 2016 373 532 227 136
Gniezno m. 𝑝30 116 4177 392 730 231 253
Kalisz m. 𝑝31 383 6437 1552 1295 586 543
Leszno m. 𝑝32 297 3585 405 184 275 186
Ostrów m. 𝑝33 282 5081 569 781 432 454
Piła m. 𝑝34 18 1131 242 125 78 48

Razem 10902 80490 10167 12084 6838 6157

Źródło: APP, Prezydium WRN w Poznaniu, sygn. 7098/X/55; APP, Prezydium WRN w Poznaniu, sygn. 7083/X/40;
APP, Prezydium WRN w Poznaniu, sygn. 7084/X/41; APP, Prezydium WRN w Poznaniu, sygn. 7092/X/49.
306 Aneks A. Dane ilościowe

Tabela 11. Wpływy z podatku obrotowego i dochodowego w województwie poznańskim w 1967 r. w tys. zł.

Zajęcia zawo-
Zmienne Przemysł Rzemiosło Handel Usługi Pozostali
dowe
Powiaty
𝑋𝑃 𝑋𝑅𝑍 𝑋𝐻 𝑋𝑈 𝑋𝑍𝑍 𝑋𝐼

Chodzież 𝑝1 89 919 204 152 81 303


Czarnków 𝑝2 31 744 139 133 65 225
Gniezno 𝑝3 101 1197 74 147 35 253
Gostyń 𝑝4 571 2886 483 349 167 433
Jarocin 𝑝5 2 3238 322 296 182 542
Kalisz 𝑝6 478 1682 200 218 142 496
Kępno 𝑝7 127 3762 287 120 123 299
Koło 𝑝8 433 2267 416 333 224 768
Konin 𝑝9 688 2526 193 436 265 647
Kościan 𝑝10 185 3309 277 474 303 621
Krotoszyn 𝑝11 440 2935 501 748 156 508
Leszno 𝑝12 152 1259 58 81 16 246
Międzychód 𝑝13 233 474 143 141 43 203
Nowy Tomyśl 𝑝14 88 1960 566 683 162 590
Oborniki 𝑝15 288 1366 118 184 104 276
Ostrów 𝑝16 455 1880 49 113 60 366
Ostrzeszów 𝑝17 295 3031 220 166 65 275
Trzcianka 𝑝18 211 1062 36 112 69 175
Pleszew 𝑝19 119 1541 272 284 167 397
Poznań 𝑝20 2109 28253 88 2088 203 909
Rawicz 𝑝21 3 1560 236 302 218 408
Słupca 𝑝22 58 931 121 173 65 233
Śrem 𝑝23 143 3919 320 227 92 350
Środa 𝑝24 433 2905 146 452 67 291
Szamotuły 𝑝25 347 2722 466 541 93 393
Turek 𝑝26 192 791 296 266 258 550
Wągrowiec 𝑝27 281 1462 251 309 102 426
Wolsztyn 𝑝28 497 1266 145 178 136 360
Września 𝑝29 415 3099 390 711 163 395
Gniezno m. 𝑝30 174 5102 402 742 199 483
Kalisz m. 𝑝31 299 7036 1620 1666 515 807
Leszno m. 𝑝32 820 4962 618 328 255 473
Ostrów m. 𝑝33 377 6674 672 1044 318 1144
Piła m. 𝑝34 14 1267 260 260 117 319

Razem 11148 109987 10589 14457 5230 15164

Źródło: APP, Prezydium WRN w Poznaniu, sygn. 7123/X/80; APP, Prezydium WRN w Poznaniu, sygn. 7084/X/41;
APP, Prezydium WRN w Poznaniu, sygn. 7092/X/49.
Aneks A. Dane ilościowe 307

Tabela 12. Wpływy z podatku obrotowego i dochodowego w województwie poznańskim w 1970 r. w tys. zł.

Zajęcia zawo-
Zmienne Przemysł Rzemiosło Handel Usługi Pozostali
dowe
Powiat
𝑋𝑃 𝑋𝑅𝑍 𝑋𝐻 𝑋𝑈 𝑋𝑍𝑍 𝑋𝐼

Chodzież 𝑝1 139 1562 266 180 55 133


Czarnków 𝑝2 18 1090 187 274 80 90
Gniezno 𝑝3 66 1720 80 147 68 157
Gostyń 𝑝4 513 5739 559 570 186 530
Jarocin 𝑝5 8 3464 552 518 177 157
Kalisz 𝑝6 954 3084 201 248 135 274
Kępno 𝑝7 154 3527 319 215 106 90
Koło 𝑝8 292 2911 487 394 211 303
Konin 𝑝9 855 3266 436 694 324 229
Kościan 𝑝10 196 4709 439 552 197 228
Krotoszyn 𝑝11 397 4691 786 1009 210 171
Leszno 𝑝12 117 2006 46 85 9 108
Międzychód 𝑝13 115 1114 174 582 37 79
Nowy Tomyśl 𝑝14 89 4020 688 918 158 209
Oborniki 𝑝15 442 2810 150 326 86 111
Ostrów 𝑝16 542 2103 42 132 73 161
Ostrzeszów 𝑝17 223 2827 259 331 31 151
Trzcianka 𝑝18 206 2472 47 145 68 68
Pleszew 𝑝19 129 2210 376 406 190 144
Poznań 𝑝20 3632 35223 264 3229 165 464
Rawicz 𝑝21 2 2917 358 408 228 131
Słupca 𝑝22 130 1304 141 237 85 116
Śrem 𝑝23 178 3902 344 446 125 156
Środa 𝑝24 1257 4603 216 581 67 120
Szamotuły 𝑝25 216 5334 453 676 135 154
Turek 𝑝26 195 1255 351 260 188 189
Wągrowiec 𝑝27 167 2706 197 390 186 214
Wolsztyn 𝑝28 431 2088 190 344 116 107
Września 𝑝29 223 4720 430 774 135 131
Gniezno m. 𝑝30 429 5479 593 1364 212 160
Kalisz m. 𝑝31 669 7411 1604 2206 697 258
Leszno m. 𝑝32 693 5372 701 461 208 170
Ostrów m. 𝑝33 1093 8626 1035 1523 354 392
Piła m. 𝑝34 0 1888 391 312 129 212

Razem 14770 148153 13362 20937 5431 6367

Źródło: APP, Prezydium WRN w Poznaniu, sygn. 7176/X/133; APP, Prezydium WRN w Poznaniu, sygn. 7179/X/136; APP,
Prezydium WRN w Poznaniu, sygn. 7084/X/41; APP, Prezydium WRN w Poznaniu, sygn. 7092/X/49.
Aneks B
Analiza skupień w programie Statistica

Liczba książek dostępnych na rynku wydawniczym dotyczących zastosowania pakietu Statistica


w badaniach naukowych jest pokaźna. Można tu wymienić publikacje: Przystępny kurs statystyki
z zastosowaniem STATISTICA PL na przykładach z medycyny, t. 3: Analizy wielowymiarowe (STANISZ
2007) czy Statystyka z pakietem komputerowym STATISTICA PL. Teoria i zastosowania (LUSZNIE-
WICZ, SŁABY 2008). O kierunkowym wykorzystaniu tego programu statystycznego traktują natomiast
m.in.: Statystyczna analiza danych w badaniach pedagogicznych z wykorzystaniem programu Statisti-
ca (AUGUSTYŃSKA 2003) czy Zastosowanie pakietu Statistica w analizie wyników badań społecznych
(ORŁOWSKI 2001). Wszystkie wymienione publikacje zostały opatrzone szczegółowym opisem pakie-
tu i dostępnych w jego ramach możliwości. Z tego powodu poniżej przedstawione informacje zostaną
ograniczone tylko do tych opcji programu Statistica, które dotyczą grupowania wielowymiarowego,
a w szczególności metod hierarchicznych i kombinatorycznych. Co więcej, zaprezentowane zagadnie-
nie odniesiono do przykładów opisanych w części praktycznej, w których program ten został wyko-
rzystany.

Aneks B.1. Import macierzy obserwacji do programu Statistica

Punktem wyjścia przeprowadzenia grupowania obiektów jest odpowiednie uporządkowanie danych


ilościowych, zwykle w postaci macierzy obserwacji (por. macierz 𝑿 [3.3]. W rozdziale trzecim opisa-
no sposób przygotowania takiej macierzy. Można oczywiście wszystkie działania przygotowawcze
przeprowadzić w programie Statistica. Zwykle jednak, ze względów praktycznych, wykorzystywany
jest w tym celu arkusz kalkulacyjny. Aby przeprowadzić grupowanie za pomocą wbudowanych algo-
rytmów taksonomicznych programu Statistica, niezbędny jest zatem import macierzy do programu
statystycznego.
Import macierzy obserwacji do programu Statistica przebiega w kilku etapach. Po pierwsze ko-
nieczne jest, aby macierz obserwacji została zapisana w osobnym arkuszu programu Excel. Przykład
przygotowanych w ten sposób danych przedstawiono na rysunku B.1.
Po otwarciu programu Statistica należy wśród opcji dedykowanych wskazać potrzebę otwarcia
konkretnego arkusza z programu Excel (por. rysunek B.2). Można także zrealizować następującą
ścieżkę postępowania: Plik/Otwórz/Import wybranego arkusza. Dodatkowo, aby zachować czytelność
macierzy obserwacji, należy – po wskazaniu miejsca zapisu pliku z danymi – zapisać nazwy zmien-
nych i przypadków odpowiednio w pierwszym wierszu i pierwszej kolumnie. Efekty kolejnych eta-
pów tego działania przedstawiono na rysunkach B.3-B.5.
310 Aneks B. Analiza skupień a programie Statistica

Rysunek B1. Macierz obserwacji przygotowana w programie Excel

Źródło: opracowanie własne na podstawie danych przedstawionych w tabeli 7 Aneksu A.

Rysunek B2. Okno startowe w programie Statistica

Źródło: opracowanie własne.


Aneks B. Analiza skupień a programie Statistica 311

Rysunek B3. Fragment okna programu Statistica dotyczący liczby importowanych


arkuszy kalkulacyjnych z programu Excel

Źródło: opracowanie własne.

Rysunek B4. Okno programu Statistica dotyczące zakresu importowany danych


z arkusza programu Excel

Źródło: opracowanie własne.

Rysunek B5. Efekt końcowy importowania macierzy obserwacji do programu Statistica

Źródło: opracowanie własne na podstawie danych przedstawionych w tabeli 7 Aneksu A.


312 Aneks B. Analiza skupień a programie Statistica

Aneks B.2. Import macierzy odległości do programu Statistica

Podstawą grupowania wielowymiarowego jest zwykle macierz odległości. Kilka wymienionych


w części teoretycznej metryk jest dostępnych w ramach programu Statistica. Jeżeli jednak badacza
interesuje zastosowanie innej metryki, nieuwzględnionej w pakiecie, to zwykle konieczne jest samo-
dzielne przygotowanie konkretnej macierzy odległości w arkuszu kalkulacyjnym. Takie rozwiązanie
przyjęto w przypadku badań struktury przemysłu uspołecznionego w latach 1958-1989, których prze-
bieg i wyniki zaprezentowano w rozdziale dziewiątym. Do wyznaczenia odległości między poszcze-
gólnymi obiektami wykorzystano w tym przykładzie współczynnik „Canberra” (wzór [4.14]). Utwo-
rzoną na jego podstawie macierz odległości 𝑫𝑰 [9.4] zapisano w osobnym arkuszu Excel (por. rysunek
B.6)

Rysunek B6. Przykład macierzy odległości w arkuszu Excel przygotowanej do importu do programu Statistica

*Dla uproszczenia obrazu wiersze 6-29 zostały ukryte.


Źródło: obliczenia własne na podstawie danych zawartych w tabelach 4 oraz 5 w Aneksie A.

Aby przygotowaną w arkuszu kalkulacyjnym macierz odległości można było importować do pro-
gramu Statistica, konieczne jest umieszczenie pod macierzą kilku informacji, niezbędnych
w macierzowym zapisie pliku przyjętym w programie Statistica. Format zapisu oraz wartości przyjęte
w prezentowanym przykładzie zostały przedstawione w dolnej części rysunku B.6. O ile w przypadku
analizy skupień nie jest konieczne wpisywanie informacji dotyczących średnich (Means) i odchyleń
standardowych (Std. Dev.), o tyle program wymaga podania liczby obiektów (No. Cases), dla których
została przygotowania macierz odległości. W przykładzie dotyczącym struktury produkcji czystej
w polskim przemyśle uspołecznionym wynosiła ona 32 i stanowiły ją kolejne lata pomiędzy rokiem
1958 oraz 1989. Wartość tę wpisano w komórce B36 (por. rysunek B.6). W ostatnim wierszu zapisano
informacje dotyczące typu prezentowanej macierzy. I tak umieszczenie w komórce B37 wartości „1”
Aneks B. Analiza skupień a programie Statistica 313

oznaczałoby, że powyżej znajduje się macierz korelacji. Wartość „2” wskazywałoby na macierz podo-
bieństwa, „3” dotyczy macierzy niepodobieństwa, a „4” macierzy kowariancji. Aby macierz 𝑫𝑰 [9.4],
zapisana w arkuszu kalkulacyjnym (rysunek B.6) po imporcie jej do programu Statistica była trakto-
wana jako macierz odległości, należy wybrać spośród powyższych opcji cyfrę „3”. Co więcej, nieza-
leżnie od tego, czy w wierszach pojawią się wartości, ich nazwy powinno się umieścić w arkuszu.
Dzięki temu tablica importowana do programu Statistica, zostanie odczytana jako macierz.

Rysunek B7. Opcje programu Statistica dostępne w ramach prawego przycisku myszy

Źródło: opracowanie własne na podstawie danych zawartych w tabelach 4 oraz 5 w Aneksie A.

Tak przygotowana macierz może być już importowana do programy Statistica. W tym celu należy
po otwarciu programu statystycznego powtórzyć taką samą sekwencję czynności, jaką opisano
w przypadku importowania macierzy obserwacji (por. rysunki 6.2-6.5). Ważną czynnością przed przy-
stąpieniem do zastosowania analizy skupień jest eliminacja w importowanym arkuszu pustych wier-
szy. W tym celu zaznacza się zbędne wiersze i spośród opcji prawego przycisku myszki wybiera się
opcję Usuń przypadki (por. rysunek B.7). W ten sposób macierz odległości zostanie poprawnie odczy-
tana przez program Statistica.
314 Aneks B. Analiza skupień a programie Statistica

Aneks B.3. Import macierzy odległości z programu Statistica

Obok zadań związanych z grupowaniem, moduł Analiza skupień może służyć także jako kalkulator
podobieństwa lub odległości. Oczywiście można wykorzystać w tym celu jedynie wbudowane funk-
cje. Zagadnienie to jest szczególnie ważne w przypadku stosowania metody grupowania wielowymia-
rowego, która nie została uwzględniona w programie Statistica.
Punktem wyjścia do tego typu działania jest wpisanie lub importowanie macierzy obserwacji (por.
rysunki B.1-B.5). W następnym kroku należy przeprowadzić grupowanie dowolną hierarchiczną me-
todą taksonomiczną. Polega to na wskazaniu odpowiedniej analizy spośród dostępnych opcji
w zakładce Statystyka: Statystyka/Wielowymiarowe techniki eksploracyjne/Analiza skupień/Aglo-
meracja (por. rysunki B.8 oraz B.9).

Rysunek B8. Wybór metody taksonomicznej w programie Statistica

Źródło: opracowanie własne na podstawie danych przedstawionych w tabeli 7 Aneksu A.

Następnie w zakładce Więcej należy wskazać tę miarę odległości, dla której ma być wyznaczona
interesująca badacza macierz (rysunek B.10). Wszystkie spośród metryk wbudowanych w pakiecie
Statistica zostały opisane już w rozdziale czwartym. Do grupy tej należą: odległość euklidesową (wzór
[4.7]), kwadrat odległości euklidesowej (wzór [4.8]), odległość miejska (Manhattan, wzór [4.9]), odle-
głość Czybyszewa (wzór [4.10]), odległość potęgowa (wzór [4.6]), niezgodność procentowa (prze-
kształcony wzór [4.26]) oraz odległość 1-r Pearsona (przekształcony wzór [4.40]).
Aneks B. Analiza skupień a programie Statistica 315

Rysunek B9. Wybór metody hierarchicznej w programie Statistica

Źródło: opracowanie własne na podstawie danych przedstawionych w tabeli 7 Aneksu A.

Rysunek B10. Wybór miary odległości w programie Statistica

Źródło: opracowanie własne na podstawie danych przedstawionych w tabeli 7 Aneksu A.

Zaakceptowanie przyjętych założeń przyciskiem OK wywołuje okno wyników aglomeracji.


Wśród wielu opcji, szczegółowo omówionych w następnych podrozdziałach Aneksu B, jedna dotyczy
macierzy odległości (rysunek B.11). Po wywołaniu wspomnianego okna, aby skopiować uzyskaną
macierz odległości w całości, należy ją zaznaczyć oraz wybrać z górnego menu opcję Edycja/Kopiuj
z nagłówkami (rysunek B.12). To ostatnie działanie można zakończyć poprzez wklejenie skopiowa-
nych wartości do programu, w którym będą one przez badacza opracowywane.
316 Aneks B. Analiza skupień a programie Statistica

Rysunek B11. Uzyskanie pełnej postaci macierzy odległości w programie Statistica

Źródło: opracowanie własne na podstawie danych przedstawionych w tabeli 7 Aneksu A.

Rysunek B12. Kopiowanie danych oraz ich nagłówków w programie Statistica

Źródło: opracowanie własne na podstawie danych przedstawionych w tabeli 7 Aneksu A.


Aneks B. Analiza skupień a programie Statistica 317

Aneks B.4. Zastosowanie metod hierarchicznych w oparciu


o macierz obserwacji

Wśród wielu metod oferowanych w ramach programu Statistica można wymienić algorytmy grupo-
wania hierarchicznego. Podstawą grupowania może być macierz obserwacji lub macierz odległości.
W prezentacji pierwszego ze wspomnianych zagadnień posłużono się przykładem przedstawionym
w rozdziale siódmym.
Punktem wyjścia do przeprowadzenia grupowania wielowymiarowego była zmodyfikowana ma-
cierz obserwacji 𝑿′′ [7.3]. Warto w tym miejscu przypomnieć, że na jej ostateczną postać miała
wpływ przeprowadzona wcześniej normalizacja zmiennych. Macierz ta została importowana do pro-
gramu Statistica, której efekt końcowy przedstawia rysunek B.13.

Rysunek B13. Macierz zmiennych unormowanych 𝑿′′ [7.3] po imporcie do programu Statistica

Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale siódmym.

Warto w tym miejscu przypomnieć, że w wyniku procesu doboru zmiennych diagnostycznych


grupowanie powiatów departamentu poznańskiego ze względu na sytuację demograficzną w 1810 r.
oparto o następujące zmienne: gęstość zaludnienia (𝑋1 ), udział w liczbie ludności ogółem ludności
miejskiej (𝑋2 ), odsetek wdów (𝑋4 ) i wdowców (𝑋5 ), liczbę zgonów ogółem (𝑋6 ) i udział w ludności
zamieszkującej dany powiat ludności wyznania mojżeszowego (𝑋11 ). Co więcej, grupowanie w drugim
wariancie przykładu zaprezentowanego w rozdziale siódmym przeprowadzono w oparciu o kwadrat
odległości euklidesowych. Spośród wielu dostępnych metod grupowania wybrana została natomiast
metoda Warda.
318 Aneks B. Analiza skupień a programie Statistica

Rysunek B14. Dobór zmiennych w programie Statistica

Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale siódmym.

Aby wprowadzić te założenia do programu Statistica, należy po imporcie macierzy obserwacji


uruchomić okno analizy skupień. Moduł ten znajduje się w zakładce Statystyka: Statysty-
ka/Wielowymiarowe techniki eksploracyjne/Analiza skupień/Aglomeracja (por. rysunki B.8-B.9). War-
to od razu przejść do okna Więcej. Pierwszą czynnością jest wskazanie zmiennych, które są podstawą
grupowania. W myśl wcześniejszych ustaleń były to zmienne: 𝑋1 , 𝑋2 , 𝑋4 , 𝑋5 , 𝑋6 oraz 𝑋11 . Listę
zmiennych można ograniczyć w ramach okna Zmienne (por. rysunek B.14). Wybranie kilku zmien-
nych z listy jest możliwe przez wskazywanie ich kolejno myszą, przy jednoczesnym wciśnięciu przy-
cisku Ctrl na klawiaturze.

Rysunek B15. Definiowanie założeń grupowania w programie Statistica

Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale siódmym.


Aneks B. Analiza skupień a programie Statistica 319

Rysunek B16. Okno wyników aglomeracji w programie Statistica

Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale siódmym.

Po zatwierdzeniu listy zmiennych konieczne jest wprowadzenie kolejnych ustaleń dotyczących


grupowanych obiektów, zastosowanej metody i miary odległości, która była podstawą przebiegu całe-
go procesu. Wybrane z kolejnych rozwijanych list założenia, dla prezentowanego w rozdziale siód-
mym wariantu grupowania, przedstawiono na rysunku B.15. Zatwierdzenie wszystkich ustaleń przyci-
skiem OK prowadzi do okna Wyniki aglomeracji (rysunek B.16). Poszczególne opcje dostępne na tym
poziomie zostały szczegółowo scharakteryzowane poniżej.

Aneks B.5. Zastosowanie metod hierarchicznych w oparciu macierz


odległości

W programie Statistica metody hierarchiczne grupowania można zastosować nie tylko w oparciu
o macierz obserwacji, ale również bazując na macierzy odległości. Takie rozwiązanie zastosowano
w przykładzie dotyczącym periodyzacji okresu 1958-1969 na podstawie produkcji czystej wytwarza-
nej w przemyśle uspołecznionym, który został przedstawiony w rozdziale dziewiątym.
W przykładzie tym macierz odległości 𝑫𝑰 [9.4] przygotowano w oparciu o współczynnik „Canber-
ra” (por. wzór [4.14]). Macierz tę przygotowano w programie Excel. Została ona wyznaczona
w oparciu o pięć zmiennych diagnostycznych 𝑋1 , 𝑋2 , 𝑋6 , 𝑋16 , 𝑋20 , a następnie zaimportowana do
programu Statistica. Proces ten został opisany w rozdziale Aneks B.2. Końcowy efekt tego działania
przedstawiono na rysunku B.17.
320 Aneks B. Analiza skupień a programie Statistica

Rysunek B17. Importowana do programu Statistica macierz odległości jako podstawa grupowania

Źródło: opracowanie własne na podstawie wyznaczonej w rozdziale dziewiątym macierzy 𝑫𝑰 [9.4].

Spośród wielu metod aglomeracyjnych w badaniach, w których grupowanymi obiektami są jed-


nostki czasu, rekomendowana jest metoda pojedynczego wiązania. Zatem po imporcie macierzy odle-
głości należy wskazać właśnie tę metodą spośród dostępnych opcji w zakładce Statystyka. W tym celu
wystarczy zrealizować ścieżkę: Statystyka/Wielowymiarowe techniki eksploracyjne/Analiza sku-
pień/Aglomeracja. W ostatnim oknie, przedstawionym na rysunku B.18, w zakładce Więcej powinny
zostać wskazane do analizy wszystkie zmienne. Co najważniejsze w tym przypadku, jako plik wej-
ściowy należy wybrać opcję macierz odległości, a spośród metod aglomeracji: pojedyncze wiązanie.

Rysunek B18. Okno programu Statistica: definiowanie założeń grupowania

Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale dziewiątym.


Aneks B. Analiza skupień a programie Statistica 321

Przyciśnięcie klawisza OK wywołuje okno wynikowe analizy skupień. Jego wygląd, dostępny
w zakładce Podstawowe, przedstawiono jako rysunek B.19.

Rysunek B19. Okno programu Statistica: wyniki metody pojedynczego wiązania

Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale dziewiątym.


322 Aneks B. Analiza skupień a programie Statistica

Aneks B.6. Wyniki grupowania aglomeracyjnego

Okno Wyniki aglomeracji, niezależnie od przyjętych założeń, których przykłady przedstawiono


w dwóch powyższych rozdziałach (por. rysunek B.16 oraz B.19), składa się z dwóch części. U góry
zwykle zawarte są założenia, które przyjęto w grupowaniu, natomiast dolną część tego okna stanowią
opcje prezentacji jego wyników. Ich pełny zestaw, dostępny w ramach zakładki Więcej karty Wyniki
aglomeracji, zaprezentowano na rysunku B.20.

Rysunek B20. Opcje dostępne w ramach zakładki Więcej na karcie Wyniki aglomeracji
w programie Statistica

Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale siódmym.

Spośród wielu możliwości najczęściej w publikacjach naukowych jako wynik grupowanie meto-
dami hierarchicznymi prezentowany jest dendrogram. W programie Statistica można wygenerować
jego poziomą (przycisk Poziomy, hierarchiczny wykres drzewa) oraz pionową wersję (przycisk Pio-
nowy wykres sopelkowy). Jak wspomniano już w rozdziale Aneks B.3, możliwe jest również z tego
poziomu uzyskanie macierzy odległości (przycisk Macierz odległości) oraz jej zapisu w formacie ma-
cierzowym (przycisk Macierz). Z kolei przycisk Wykres przebiegu aglomeracji wywołuje wykres,
prezentowany kilkakrotnie w części praktycznej, przedstawiający etapy wiązania i odległości, na któ-
rych łączone są kolejne skupienia. W przypadku większych zbiorów grupowanych obiektów ułatwie-
niem w odczycie dendrogramu jest numeryczny zapis jego budowy, wywoływany po wskazaniu przy-
cisku Przebieg aglomeracji. Szczegółową prezentację wymienionych opcji oparto na przykładzie do-
tyczącym sytuacji demograficznej w departamencie poznańskim w 1810 r., opisanym w rozdziale
ósmym.
Aneks B. Analiza skupień a programie Statistica 323

Aneks B.6.1. Dendrogram

Korzystając z odpowiednich opcji dostępnych w ramach zakładki Więcej na karcie Wyniki aglomeracji
w programie Statistica, można uzyskać przede wszystkim dendrogram (por. rysunek B.20). Jego for-
mę, prezentowaną w części praktycznej tej monografii, można otrzymać po zaznaczeniu opcji Prosto-
kątne gałęzie oraz wyborze przycisku Pionowy wykres sopelkowy. Ostateczny wynik tego działania
przedstawiono na rysunku B.21.

Rysunek B21. Przykład dendrogramu uzyskanego w programie Statistica

Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale siódmym, por. rysunek 7.5.
324 Aneks B. Analiza skupień a programie Statistica

Rysunek B22. Opcje dostępne w ramach lewego przycisku myszy w ramach edycji dendrogramu
w programie Statistica

Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale siódmym, por. rysunek 7.5.

Z kolei dodatkowy wybór opcji Skaluj: 100 * odl. wiązania / odl. maksym spowodowałaby, że za-
miast wartości odległości na jednej z osi rzędnych dendrogramu prezentowany byłby procent odległo-
ści maksymalnej, na poziomie której wszystkie badane obiekty zostały połączone w jedno skupienie.
Uzyskany w wyniku grupowania dendrogram (por. rysunek B.21) można oczywiście edytować
zgodnie ze swoimi potrzebami. Dostępne opcje w tym zakresie można wywołać, klikając na dendro-
gramie lewym przyciskiem myszy. Wybierając odpowiednie funkcje, można uzyskany wykres sforma-
tować (na rysunku B.22 opcja Opcje wykresu) czy zapisać (opcja Zapisz wykres). Możliwe jest także
jego kopiowanie, np. do edytora tekstu (opcja Kopiuj wykres).
Warto w tym miejscu wskazać, w jaki sposób na wygenerowanym w programie Statistica dendro-
gramie, przedstawionym na rysunku B.21, zaznaczyć linię odniesienia, która przecina dendrogram
w optymalnym punkcie. W tym celu należy spośród możliwości uzyskanych po naciśnięciu lewego
przycisku myszy na dendrogramie przedstawionym na rysunku B.22, wybrać Opcje wykresu. Okno
wynikowe zaprezentowano na kolejnym rysunku. Pierwszym krokiem (oznaczonym na rysunku B.23
jako [1]) jest wybór spośród dostępnych po lewej stronie ekranu opcji: Oś/Linie odniesienia.
W kolejnych krokach należy wskazać przycisk Dodaj nową ([2]), co pozwoli na ustalenie miejsca,
w którym linia odniesienia przecinająca dendrogram powinna się znaleźć. W tym celu w okienko [4]
należy wpisać wartość wyznaczoną intuicyjnie lub uzyskaną w trakcie odpowiednich obliczeń. Można
także w ramach tej karty dostosować do swoich potrzeb grubość linii, jej wzór oraz kolor ([5]).
Aneks B. Analiza skupień a programie Statistica 325

Rysunek B23. Okno Opcje wykresu dostępne w ramach programu Statistica

[2]

[3]
[5]

[4]
[1]

Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale siódmym.

Jeżeli istnieje konieczność przesunięcia położenia linii odniesienia, wystarczy na wykresie kliknąć
na nią dwa razy lub ponownie prawym przyciskiem myszy wybrać Opcje wykresu. W konsekwencji
obu działań pojawia się ponownie okno przedstawione na rysunku B.23, na którym można dokonać
koniecznych zmian.
Analiza opcji dostępnych po lewej stronie okna Opcje wykresu (por. rysunek B.23) pozwala dosto-
sować postać wygenerowanego dendrogramu do potrzeb użytkownika. I tak zmiana tła wykresu jest
możliwa w ramach opcji Wykres/Okno. Zmiana koloru i grubości linii wykresu właściwego jest udo-
stępniona po wskazaniu okna Wykres właściwy/Ogólne. Z kolei opcja Oś/Wartości skali umożliwia
zmianę układu zapisu wartości skali. Formatowanie wykresów w programie Statistica jest na tyle intu-
icyjne, że nie wymaga szczegółowego opisu działań.
326 Aneks B. Analiza skupień a programie Statistica

Aneks B.6.2. Wykres przebiegu aglomeracji

Wykres przebiegu aglomeracji stanowi podstawę jednej z reguł wyznaczania optymalnego punktu
podziału dendrogramu, opisaną w rozdziale szóstym (por. rysunek 6.3). Aby go uzyskać, należy
z okna wyników aglomeracji (por. rysunek B.20) wybrać opcję Wykres przebiegu aglomeracji. Wynik
tego działania w przypadku gdy analizowane były dane dotyczące demografii poszczególnych powia-
tach departamenty poznańskiego w 1810 r., przedstawiono na rysunku B.24. Powtórzenie czynności
zaprezentowanych na rysunku B.23 pozwala natomiast na umieszczenie na tego typu wykresie linii
odniesienia, obrazującej punkt przecięcia dendrogramu. Należy jednak w tym celu wybrać w górnym
okienku karty przedstawionej na rysunku B.23 oś Y.

Rysunek B24. Przykładowy wykres przebiegu aglomeracji wygenerowany


w ramach programu Statistica

Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale siódmym,


dla dendrogramu przedstawionego jako rysunek B.21.

Na podstawie szczegółowej analizy dendrogramu (por. rysunek B.21) oraz wykresu przebiegu
aglomeracji (por. rysunek B.24) możliwe jest odczytanie wartości odległości, na której łączone były
obiekty na poszczególnych etapach wiązania. Działanie to jest szczególnie istotne, jeżeli badacz wy-
biera optymalny punkt przecięcia dendrogramu w oparciu o regułę ilorazu odległości aglomeracyjnej
lub górnego obszaru odrzucenia, które zostały opisane w rozdziale 6.1.2.
W ramach programu Statistica możliwe jest wygenerowanie tych wartości za pomocą przycisku
Przebieg aglomeracji, dostępnego w zakładce Więcej na karcie Wyniki aglomeracji w programie Stati-
stica (por. rysunek B.20). Fragment tablicy uzyskanej w ten sposób zaprezentowano na rysunku B.25.
Wyniki te dotyczą dendrogramu przedstawionego na rysunku B.21.
Aneks B. Analiza skupień a programie Statistica 327

Rysunek B25. Okno Przebieg aglomeracji wygenerowane w ramach programu Statistica

Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale siódmym, dla dendrogramu
przedstawionego jako rysunek B.21.

Skopiowanie danych do arkusza kalkulacyjnego pozwala na ich dalsze przetwarzanie. W tym celu
należy zaznaczyć cały arkusz i spośród wielu możliwości kopiowania, dostępnych w zakładce Edycja,
należy wybrać opcję Kopiuj z nagłówkami. Dane uzyskane w ten sposób należy wkleić do arkusza
kalkulacyjnego (por. rysunek B.26). Pierwsza kolumna skopiowanej tablicy stanowi punkt wyjścia do
zastosowania reguły ilorazu odległości aglomeracyjnej lub górnego obszaru odrzucenia.

Rysunek B26. Skopiowane z programu Statistica dane dotyczące przebiegu aglomeracji

Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale siódmym. Pierwsza kolumna, po
przesortowaniu w porządku malejącym stanowi część tabeli 7.6.

Aneks B.6.3. Przynależność grupowanych obiektów do skupień

Zwykle ostatni etap grupowania to charakterystyka wyodrębnionych skupień i ocena uzyskanych wy-
ników. Nieodzownym narzędziem w tym obszarze, szczególnie przy znaczącej liczbie grupowanych
obiektów, jest przypisanie grupowanych obiektów do wyznaczonych skupień. Tego typu zestawienie
jest dostępne w ramach zestawień wynikowych analizy skupień dostępnych w programie Statistica.
Tym razem konieczne jest wykorzystanie opcji dostępnych w ramach przycisku: Zapisz klasyfikację
(por. okno programu przedstawione na rysunku B.20). Działanie to spowoduje, że pojawi się okno
z dendrogramem, na którym należy zaznaczyć położenie linii podziału. Kliknięcie na nią myszką po-
328 Aneks B. Analiza skupień a programie Statistica

zwoli po raz kolejny wywołać okno formatowania linii odniesienia (por. rysunek B.23). Wpisanie
odpowiedniej wartości w okienku ,wskazanym na rysunku B.23 strzałką [4], prowadzi do podziału
dendrogramu na poziomie, który wyznaczony został za pomocą jednej z reguł opisanych w rozdziale
6.1.2. W efekcie tego działania wywołane zostaje zestawienie zawierające dwie kolumny, w których
zawarto nazwy obiektów grupowanych oraz numer skupienia, do którego zostały przypisane. Przykład
takiego zestawienia przedstawiono na rysunku B.27.

Rysunek B27. Okno Przynależność do skupień wygenerowane w ramach programu Statistica

Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale siód-


mym, por. tabelę 7.7 oraz rysunek 7.6.

Tego typu zestawienie, skopiowane do arkusza kalkulacyjnego, pozwala na szybkie uporządkowa-


nie danych ilościowych ze względu na uzyskane wyniki grupowania. Działanie to jest niezbędne
w przypadku prezentacji wyników oraz ich oceny.

Aneks B.7. Zastosowanie metody k-średnich w oparciu o macierz


obserwacji

Obok metod hierarchicznych drugą najczęściej stosowaną grupą metod są metody kombinatoryczne.
Program Statistica w oferuje w pakiecie Analiza skupień metodę 𝑘-średnich. Została ona szczegółowo
opisana w części teoretycznej, w rozdziale 6.2. Warto jednak w tym miejscu przypomnieć, że metoda
𝑘-średnich jest szczególne polecana w przypadkach, gdy badacz ma za zadanie sklasyfikować dużą
liczę obiektów. W odróżnieniu od metod hierarchicznych dane wejściowe w tej metodzie mogą być
przedstawione jedynie w formie macierzy obserwacji. Do prezentacji zastosowania metody k-średnich
w badaniach historycznych przy wykorzystaniu programu Statistica posłużono się przykładem przed-
stawionym w rozdziale dwunastym, dotyczącym działalności indywidualnych w 1958-1970, przy
Aneks B. Analiza skupień a programie Statistica 329

czym ze względu na powtarzalność procedur w kolejnych badanych latach ograniczono się jedynie do
danych dotyczących roku 1958.

Rysunek B28. Przykładowa macierz obserwacji po imporcie do programu Statistica

Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale dwunastym,


por. macierz 𝑿’ [12.1], która została zmodyfikowana na podstawie wyników doboru zmien-
nych diagnostycznych.

Punktem wyjścia do przeprowadzenia grupowania wielowymiarowego była macierz obserwacji 𝑿′


[12.1]. Podstawą grupowania były zmienne wyodrębnione w procesie doboru zmiennych diagnostycz-
nych, który szczegółowo opisano w rozdziale 12.4. Zatem ostatecznie w prezentowanym przykładzie
do grupy zmiennych diagnostycznych zaliczono wpływy podatkowe z przemysłu (𝑋𝑃 ) oraz rzemiosła
(𝑋𝑅𝑍 ) i dwie zmienne syntetyczne dotyczące wpływów podatkowych z handlu i usług (𝑋𝐻+𝑈 ) oraz
wpływów podatkowych z zajęć zawodowych oraz pozostałych działalności (𝑋𝑍𝑍+𝐼 ). Macierz obser-
wacji po tej modyfikacji importowano do programu Statistica. Efekt końcowy tych działań przedsta-
wia rysunek B.28.
Aby przeprowadzić grupowanie powiatów w prezentowanym przykładzie, należy pierwszym rzę-
dzie wybrać w programie Statistica spośród wielu dostępnych opcji metodę 𝑘-średnich. W tym celu
330 Aneks B. Analiza skupień a programie Statistica

konieczna jest realizacja następującej ścieżki postępowania: Statystyka/Wielowymiarowe techniki eks-


ploracyjne/Analiza skupień/Grupowanie metodą k-średnich (por. rysunki B.8 oraz B.29).

Rysunek B29. Wybór metody 𝒌-średnich w programie Statistica

Źródło: opracowanie własne.

Rysunek B30. Ustalanie założeń metody 𝒌-średnich w programie Statistica

Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale dwunastym.

Jak już szczegółowo opisano w rozdziale 6.2, metoda k-średnich wymaga przyjęcia przez badacza
kilku założeń. Dwa z nich, dotyczące liczby skupień i pierwszych punktów centralnych, mają charak-
ter kluczowy dla osiąganych wyników grupowania. W prezentowanym przykładzie ostatecznie ustalo-
no, że powiaty powinny być podzielone na pięć skupień (por. rozdział 12.5). Założono także, że
pierwsze centra powinny być wyznaczone w taki sposób, aby zmaksymalizować odległości pomiędzy
skupieniami (por. rozdział 12.6). Należy także wskazać zmienne, które będą podstawą grupowania.
Nie bez znaczenia jest także to, że analizie podlegać będą wiersze, a nie kolumny macierzy obserwa-
cji. W programie Statistica wszystkie te ustalenia są dostępne na karcie Więcej, dostępnej w ramach
modułu Grupowanie metodą 𝑘-średnich. Jej wygląd w odniesieniu do prezentowanego przykładu
przedstawiono na rysunku B.30.
Aneks B. Analiza skupień a programie Statistica 331

Rysunek B31. Okno wyników grupowania metodą 𝒌-średnich w programie Statistica

Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale


dwunastym.

Zatwierdzenie przyjętych założeń dla metody 𝑘-średnich przyciskiem OK (por. rysunek B.30),
prowadzi do okna prezentującego wyniki grupowania (por. rysunek B.31). Podobnie jak w przypadku
wyników aglomeracji przedstawionych na rysunkach B.16 oraz B.19, górną część karty Podstawowe
stanowi lista przyjętych wcześniej założeń. W dolnej części znajdują się natomiast przyciski prowa-
dzące do różnych form prezentacji osiągniętych wyników grupowania. Poszczególne opcje dostępne
w programie Statistica zostały scharakteryzowane w kolejnym podrozdziale.
332 Aneks B. Analiza skupień a programie Statistica

Aneks B.8. Wyniki grupowania metodą k-średnich

Aby uzyskać dostęp do wszystkich opracowanych w ramach programu Statistica form prezentacji
wyników grupowania metodą 𝑘-średnich, należy w zaprezentowanej na rysunku B.31 karcie wybrać
zakładkę Więcej (por. rysunek B.32).

Rysunek B32. Opcje dostępne w ramach zakładki Więcej na karcie Wyniki


grupowania metodą k-średnich w programie Statistica

Źródło: opracowanie własne na podstawie przykładu opisanego w rozdziale


dwunastym, dane dla 1958 r.

Już na podstawie porównania rysunków B.20 oraz B.32 można zauważyć, że wyniki uzyskane me-
todami kombinatorycznymi różnią się nieco pod względem formy od powstałych po grupowaniu hie-
rarchicznym. Niemniej jednak wśród podstawowych wyników można wymienić średnie wartości
zmiennych oraz odległości między centrami wyodrębnionych skupień (przycisk Podsum.: Średnie
skupień i odległ. euklid.). Nieco szerszy zestaw statystyk opisowych dla każdego skupienia można
znaleźć pod przyciskiem Statystyki opisowe każdego skupienia oraz Wykres średnich. Istnieje także
możliwość przeprowadzenia analizy wariancji dla uzyskanych wyników grupowania (zob. przycisk
Analiza wariancji). Oczywiście wydaje się, że najważniejsze w przypadku grupowania jest przedsta-
wienie składu wyodrębnionych skupień. Informacje takie można uzyskać w ramach opcji Elementy
każdego skupienia i odległości oraz Zapisz klasyfikacje i odległości.
Szczegółową prezentację wymienionych opcji oparto na przykładzie dotyczącym wpływów podat-
kowych na poziomie powiatów, generowanych przez grupy podatników prowadzących działalności
indywidualne w województwie poznańskim w 1958 r. Warto w tym miejscu po raz kolejny podkreślić,
Aneks B. Analiza skupień a programie Statistica 333

że dane uzyskane w ramach programu Statistica można kopiować do programu Excel i tam kontynuo-
wać dalsze obliczenia. Warto wtedy skorzystać z opcji kopiowania z nagłówkami: Edycja/Kopiuj
z nagłówkami. W ramach tego programu istnieje także możliwość zapisania raportu z badań
w formacie pliku tekstowego.

Aneks B.8.1. Przynależność grupowanych obiektów do skupień

Punktem wyjścia do interpretacji wyników grupowania metodą 𝑘-średnich jest ustalenie składów po-
szczególnych skupień. Aby je uzyskać, należy w ramach zakładki Więcej na karcie Wyniki grupowa-
nia metodą 𝑘-średnich wybrać opcję Elementy każdego skupienia i odległości (por. rysunek B.32).
Ostateczny wynik tego działania dla przykładu dotyczącego wpływów podatkowych z rzemiosła in-
dywidualnego w poszczególnych powiatach województwa poznańskiego w 1958 r. przedstawiono na
rysunku B.33. Ze względu na fakt, że założono, iż docelowo w tym przykładzie powstanie pięć sku-
pień powiatów (por. rysunek B.30), w oknie nawigacji, znajdującym się po lewej stronie ekranu, po-
jawiło się pięć adekwatnych zestawień. Każde z nich dotyczyło jednego z wyodrębnionych skupień
powiatów. Lewą stronę okna Elementy każdego skupienia i odległości stanowi natomiast wykaz obiek-
tów tworzących dane skupienie wraz z ich odległościami do środka ciężkości tego skupienia. Procedu-
ra wyznaczania tych odległości została szczegółowo przedstawiona w części teoretycznej na rysunku
6.15.

Rysunek B33. Okno Elementy każdego skupienia i odległości wygenerowane w ramach programu Statistica

Źródło: opracowanie własne na podstawie przykładu opisanego w rozdziale dwunastym, dane dla 1958 r., por. rysunek 12.4.

Z kolei aby uzyskać skład poszczególnych skupień zestawionych w jedną tabelę, warto skorzystać
z opcji Zapisz klasyfikacje i odległości. Jest ona również dostępna w ramach zakładki Więcej na karcie
Wyniki grupowania metodą 𝑘-średnich (por. rysunek B.32). Obok informacji zawartych na rysunku
B.33 można tam także dodatkowo umieścić zmienne biorące udział w grupowaniu. Przykład takiego
zestawienia zaprezentowano na rysunku B.34. Ich przekopiowanie do arkusza kalkulacyjnego (por.
rysunki B.12, B.25 oraz B.26) umożliwia opracowanie danych do formy oczekiwanej przez badacza.
334 Aneks B. Analiza skupień a programie Statistica

Rysunek B34. Okno Zapisz klasyfikacje i odległości wygenerowane w ramach programu


Statistica

Źródło: opracowanie własne na podstawie przykładu opisanego w rozdziale dwunastym, dane


dla 1958 r.; por. rysunek 12.4.

Aneks B.8.2. Wartości zmiennych w poszczególnych skupieniach

Spośród wielu opcji dostępnych w ramach prezentacji uzyskanych wyników grupowania metodą 𝑘-
średnich program Statistica umożliwia wygenerowanie średnich wartości zmiennych
w wyodrębnionych skupieniach. Aby sporządzić takie zestawienie, należy w ramach zakładki Podsta-
wowe lub Więcej na karcie Wyniki grupowania metodą 𝑘-średnich wybrać opcję Podsum.: Średnie
skupień i odległ. euklid. (por. rysunki B.31 oraz B.32). W efekcie generowana jest tabela, którą, dla
prezentowanego przykładu dotyczącego wpływów podatkowych z działalności indywidualnych
w 1958 r. w poszczególnych powiatach województwa poznańskiego, przedstawiono na rysunku B.35.
Aneks B. Analiza skupień a programie Statistica 335

Rysunek B35. Przykładowe zestawienie średnich wartości zmiennych w poszczególnych skupieniach, wygenerowane
w ramach programu Statistica

Źródło: opracowanie własne na podstawie przykładu opisanego w rozdziale dwunastym, dane dla 1958 r., por. tabelę 12.3.

Program Statistica umożliwia również prezentację informacji dotyczących średnich grupowych


w postaci wykresu (por. rysunek B.36). Aby go uzyskać wystarczy na karcie Wyniki grupowania me-
todą 𝑘-średnich w ramach zakładki Podstawowe lub Więcej (por. rysunki B.31 oraz B.32) wybrać
opcję Wykres średnich.

Rysunek B36. Przykładowy wykres średni wygenerowany w ramach programu Statistica

Źródło: opracowanie własne na podstawie przykładu opisanego w rozdziale dwunastym, dane


dla 1958 r., por. tabelę 12.3.

Jeżeli badacza interesują bardziej szczegółowe statystyki opisowe zmiennych w poszczególnych


skupieniach, w ramach karty Wyniki grupowania metodą 𝑘-średnich w zakładce Więcej (por. rysunek
B.32) należy wskazać przycisk Statystyki opisowe każdego skupienia. Podobnie jak w przypadku
przynależności grupowanych obiektów do skupień (por. rysunek B.33), w ramach tej opcji generowa-
nych jest tyle tabel, ile skupień zostało utworzonych w ramach przeprowadzonego grupowania. Przy-
kłady tego typu zestawień przedstawiono na rysunku B.37.
336 Aneks B. Analiza skupień a programie Statistica

Rysunek B37. Okno Statystyki opisowe każdego skupienia wygenerowane w ramach programu Statistica

Źródło: opracowanie własne na podstawie przykładu opisanego w rozdziale dwunastym, dane dla 1958 r.;
por. tabelę 12.3.

W przypadku grupowania metodą 𝑘-średnich program Statistica udostępnia także wyniki analizy
wariancji dla zmiennych, które były podstawą przeprowadzonego podziału obiektów na skupienia.
Opcja ta jest dostępna na karcie Wyniki grupowania metodą 𝑘-średnich zarówno w ramach zakładki
Podstawowe, jak i Więcej (por. rysunki B.31 oraz B.32). Mimo że zagadnienie to nie było przedsta-
wione w części teoretycznej, warto na nie zwrócić uwagę. Jak już wspomniano wielokrotnie, celem
metody 𝑘-średnich jest takie pogrupowanie obiektów, aby zminimalizować wariancję wewnątrzgru-
pową, a zmaksymalizować wariancję międzygrupową (por. rozdział 6.2.1). Porównanie zatem wyni-
ków analizy wariancji, uzyskane dla ostatecznego podziału obiektów, powala stwierdzić, które ze
zmiennych będących podstawą grupowania w sposób istotny (zwykle 𝑝 < 0,05) przyczyniły się [do]
otrzymanego podziału. Jeżeli któraś ze zmiennych nie spełnia tego warunku, to jej usunięcie zwykle
nie zmienia znacząco wyników grupowania. Więcej wiadomości na temat analizy wariancji można
przeczytać w publikacjach KALA (2003, s. 79-82) czy STANISZ (2007, s. 152-154).
Przykładową analizę wariancji, przeprowadzoną dla wyników podziału powiatów województwa
poznańskiego ze względu na strukturę wpływów podatkowych z działalności indywidualnych w 1958
r., przedstawiono na rysunku B.38. Wszystkie wartości prawdopodobieństwa (ostatnia kolumna) oka-
zały się niższe od poziomu krytycznego. Można zatem uznać, że każda z nich w sposób istotny wpły-
wała na wyniki grupowania.

Rysunek B38. Okno Analiza wariancji wygenerowane w ramach programu Statistica

Źródło: opracowanie własne na podstawie przykładu opisanego w rozdziale dwuna-


stym, dane dla 1958 r.
Aneks C
Oznaczenia i symbole
Subskrypty:
𝑖 = 1, 2, … , 𝑛 – numeruje obiekty,

𝑖 = 1, 2, … , 𝑚 – numeruje zmienne,

𝑡 = 1, 2, … , 𝑇 – numeruje okresy,

𝑘 = 1, 2, … , 𝑔 – numeruje skupienia,

Skalary:
𝜔𝑖 ; – i-ty obiekt, jednostka w populacji 𝛺

𝑥𝑖𝑗 ; – wartość 𝑗-tej zmiennej w 𝑖-tym obiekcie wielowymiarowym ωi

𝑡
𝑥𝑖𝑗 ; – wartość 𝑗-tej zmiennej w 𝑖-tym obiekcie wielowymiarowym ωi , mierzonej
w 𝑡-tym okresie

𝑥𝑖𝑗 (𝑧𝑖𝑗 ); – wartość znormalizowana 𝑗-tej zmiennej w 𝑖-tym obiekcie wielowymiarowym


ωi

𝐶𝑖 ; – 𝑖-te skupienie

Macierze:

𝑿 – (𝑛 × 𝑚)-wymiarowa macierz danych

𝑿𝒛 – (𝑛 × 𝑚)-wymiarowa macierz danych znormalizowanych

𝑽 – (𝑔 × 𝑚)-wymiarowa macierz środków ciężkości klas

𝑫 – (𝑛 × 𝑛)-wymiarowa macierz odległości w 𝑚-wymiarowej przestrzeni zmien-


nych

𝑺 – (𝑛 × 𝑛)-wymiarowa macierz podobieństwa w 𝑚-wymiarowej przestrzeni


zmiennych

𝑹 – (𝑚 × 𝑚)-wymiarowa macierz korelacji w𝑛-wymiarowej przestrzeni obiektów

𝑽𝒕 – (𝑚 × 𝑘)-wymiarowa macierz współczynników zmienności,


338 Aneks B. Analiza skupień a programie Statistica

̅𝒕
𝑹 – (𝑚 × 𝑚)-wymiarowa macierz średnich współczynników zmienności wyznaczonych
dla zmiennych w badanym okresie,

𝑾 – (𝑚 × 𝑚)-wymiarowa macierz wariancji wewnątrzgrupowej,

𝑩 – (𝑚 × 𝑚)-wymiarowa macierz wariancji międzygrupowej,

𝒁 – (𝑔 × 𝑛) macierz przynależności obiektów do skupień

You might also like