Professional Documents
Culture Documents
Zastosowanie Wybranych Metod Taksonomicznych W Badaniach Historycznych
Zastosowanie Wybranych Metod Taksonomicznych W Badaniach Historycznych
w badaniach historycznych
Lucyna Błażejczyk-Majka
Poznań 2018
© Copyright by Uniwersytet im. Adama Mickiewicza w Poznaniu,
Instytut Historii UAM, Poznań 2018
Copyright © Lucyna Błażejczyk-Majka, 2018
Recenzent
dr hab. Tadeusz Janicki, prof. UAM
Projekt okładki
Piotr Namiota
Redakcja i DTP
Małgorzata Nowacka
ISBN 978-83-65663-47-4
Druk
Zakład Graficzny UAM
ul. Wieniawskiego 1
61-712 Poznań
Spis treści
1. Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2. Metody taksonomiczne jako narzędzie syntezy w badaniach historycznych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1. Istota metod taksonomicznych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2. Podział metod taksonomicznych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3. Zagadnienia historyczne wspomagane metodami taksonomicznymi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4. Grupowanie jako proces badawczy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Zagadnienia teoretyczne
10. Grupowanie obiektów historycznych na przykładzie rzemiosła wiejskiego we wsi Odrowąż i Waksmund w 1970 r. 221
10.1. Opis wcześniejszych badań. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
10.2. Dane ilościowe w skali nominalnej w badaniach historycznych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
10.3. Metoda eliminacji wektorów w sytuacji doboru zmiennych diagnostycznych . . . . . . . . . . . . . . . . . . . . . . . 223
10.4. Wyznaczenie macierzy odległości dla zmiennych wyrażonych w skali nominalnej . . . . . . . . . . . . . . . . . . . 226
10.5. Grupowanie warsztatów i wybór ostatecznego wyniku w oparciu o wskaźnik GSI . . . . . . . . . . . . . . . . . . . 227
10.6. Charakterystyka uzyskanych wyników. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
11. Zagadnienie identyfikacji na przykładzie grupowania dokumentów lub tekstów historycznych . . . . . . . . . . . . . . . 233
11.1. Dane ilościowe w procesie grupowania dokumentów lub tekstów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
11.2. Dobór zmiennych diagnostycznych metodą Czekanowskiego. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
11.3. Grupowanie dokumentów lub tekstów w oparciu o różne miary odległości . . . . . . . . . . . . . . . . . . . . . . . . . 238
11.4. Ocena uzyskanych wyników na podstawie wartości wskaźnika C-Calińskiego-Harabasza . . . . . . . . . . . . . 241
Wśród wielu kategorii źródeł historycznych istotne miejsce zajmują informacje ilościowe. Historycy
bazujący na takim materiale, niezależnie od podejmowanej tematyki, w swej pracy muszą zmierzyć
się z problemem usystematyzowania danych ilościowych, uogólnienia wyników i odniesienia ich do
opisywanych w szerokim kontekście historycznym zjawisk politycznych czy społeczno-
gospodarczych (TOPOLSKI 1965; HUDSON 2000; CAMERON, RICHARDSON 2005, s. 72-106;
NAROJCZYK 2005). To właśnie połączenie różnych rodzajów źródeł, ujmowanych w wielu aspektach,
i ich synteza prowadzą do uzyskania pełnego obrazu analizowanego zjawiska (STONE 1970, s. 11-12).
Potrzeba zbierania i zapisywania informacji towarzyszyła człowiekowi od zarania dziejów. Doty-
czyła ona przede wszystkim dobytku (BORYS 1982). Przykłady tego typu działań miały miejsce już
w starożytności. Podania dotyczące spisów ludności sięgają już 2000 lat p.n.e. O pierwszych takich
przedsięwzięciach mówi się w kontekście Chin w czasach dynastii Sia (RAO 1994, s. 52). Z kolei na
ziemiach polskich pierwszy spis powszechny został przeprowadzony w 1789 r. w czasie Sejmu Wiel-
kiego. O jego realizacji zadecydowała konieczność uzyskania środków materialnych na cele armii
stałej (KONFEROWICZ 1968). Zofia DASZYŃSKA-GOLIŃSKA (1892) zwróciła uwagę, że zainteresowa-
nie zjawiskami masowymi opisanymi danymi statystycznymi wynikało z faktu, iż „masa owa, t.zw.
lud, odegra pewną rolę, gdy od wielkości jej zależeć będzie powodzenie tej lub owej partyi. Rola poli-
tyczna masy zaczyna się dopiero w okresie rewolucji”. Wraz z szybkim uprzemysłowieniem
w Europie w pierwszej połowie XIX w. zaczęto interesować się także warunkami życia ludności
i przyczynowością zjawisk społeczno-ekonomicznych (WAŚCISZEWSKI 1930), co przyczyniło się do
wzrostu liczby danych demograficznych. Innego rodzaju informacji ilościowych dostarczają różnego
rodzaju spisy poborowe i cechowe, księgi stanu cywilnego i kościelne, inwentarze majątkowe, donie-
sienia prasowe, zabytki kultury materialnej czy wykopaliska archeologiczne. Te ostatnie wymieniane
są jako przyczynek do rozwoju metod taksonomicznych.
Od początku XIX w. podejmowano liczne działania zmierzające do ujednolicenia w skali między-
narodowej metod zbierania i opracowywania danych statystycznych (RAO 1994, s. 56), dzięki czemu
możliwe staje się ich porównywanie. Duże znaczenie w tego typu działaniach odgrywały i odgrywają
badania historyków z zakresu metrologii (por. KULA 1963, s. 583-628). Na ścisły związek badań hi-
storycznych ze statystyką wskazywał już Felicjan Antonii KOZŁOWSKI (1838, s. 95): „Z historią
w takim zostaje stosunku statystyka, że zasięga od niej doświadczenia, jak zapatrywać się na data sta-
tystyczne pod względem ich wagi i wpływu na stan państwa; to jest z przeszłości poznaje się, co może
być ważnym w podaniu obrazu teraźniejszości. Zresztą statystyka jest niejako stałą, do czasu obecne-
go przywiązaną historią, a historia ciągłą statystyką (…). W historii dadzą się oznaczyć pewne stałe
fakta i zebrać potrzebne do tego materiały, o ile ich po dokładnym osądzeniu krytyki źródła dostarczą,
a statystyce z powodu ciągłej zmiany i nadzwyczajnej rozległości można tylko podać obraz zbliżony
do prawdy”. Zdzisław KORZYBSKI (1870) zwrócił zaś uwagę na współpracę pomiędzy historykami
i statystykami w zakresie opisu stanu państwa i społeczeństwa, którego nie można wiarygodnie prze-
8 1. Wstęp
prowadzić bez znajomości przyczyn, które na wytworzenie danego stanu wpłynęły. Podobne wnioski
odnośnie do ścisłej zależności obu grup badaczy wysunął Mieczysław MARASSÉ (1866). Podsumowa-
nie osiągnięć w zakresie statystyki historycznej przedstawiła z kolei DASZYŃSKA-GOLIŃSKA (1892,
s. 319), która podkreśliła jednak wyższość statystyki historycznej nad działaniami związanymi
z prowadzeniem statystyk państwowych: „arytmetykom politycznym chodziło głównie o ruch ludno-
ści, statystyka historyczna zajmuje się nim zaś więcej, jako symptomatem rozwoju ludnościowego,
badając w pierwszym rzędzie stan ludności i uważając zaludnienie za składnik integralny życia eko-
nomicznego kraju”.
Zastosowanie metod ilościowych i statystyki w naukach humanistycznych, w tym historycznych,
było rozważane już w pierwszej połowie XX w. Początkowo możliwość ta nie spotkała się
z życzliwym przyjęciem (PAMIĘTNIK IV POWSZECHNEGO ZJAZDU… 1927; PAWŁOWSKI 1969, s. 122-
-127). Wynikało to głównie z faktu, że nauki historyczne wytworzyły własny zespół sprawdzonych
metod badawczych. Prace historyczne cechuje z reguły staranna dokumentacja, skrupulatność
i weryfikacja materiału źródłowego oraz odpowiedzialność i ostrożność w formułowaniu wniosków
syntetycznych (RUSIŃSKI 1968). Jednak w miarę doskonalenia metod zbierania, gromadzenia, prze-
chowywania i udostępniania informacji ilościowych podejście to stopniowo ulegało zmianie. Szcze-
gólnie rozwój technik komputerowych sprawił, że ilościowy opis oparty na pojedynczych zmiennych
okazał się już niewystarczający. Konieczne stało się zastosowanie metod wielowymiarowych. Zdzi-
sław HELLWIG (1981, s. 46) akcentował, iż zastosowanie metod ilościowych w niektórych dziedzinach
daje możliwość „wysłowienia w języku liczb jakościowych odrębności badanych zjawisk”.
Wśród gałęzi wiedzy historycznej, co podkreślał Kazimierz Tymieniecki, zastosowanie metod sta-
tystycznych najsilniej od innych wyodrębnia historię gospodarczą (UCZCZENIE PAMIĘCI…1950, s. 16).
Tezę tę potwierdzał Jerzy TOPOLSKI (1984, s. 402): „Wprowadzenie metod ilościowych do historii
związane jest przede wszystkim z rozwojem historii gospodarczej (wraz z demografią), która nie
chcąc być zbiorem ciekawostek i anegdot, musiała (sięgając do niewykorzystanych źródeł) badać fak-
ty masowe – te zaś wymagały metod ilościowych”. Podkreślał on jednak, że „wyniki badań ilościo-
wych w obraz integralnego procesu historycznego włączyć może jedynie analiza jakościowa, bazująca
na uzasadnionej i mającej duże pole widzenia teorii rozwoju społecznego” (TOPOLSKI 1984, s. 405).
W myśl tej opinii metody ilościowe, a w szczególności wielowymiarowe, należy traktować jako ko-
lejne użyteczne narzędzie wzbogacające warsztat historyka. Analiza statystyczna informacji ilościo-
wych jest bowiem tylko jednym z końcowych etapów badań historycznych. Poprzedza go etap projek-
towania badania i zbierania danych, w których niezastąpiony jest tradycyjny warsztat historyka. Stani-
sław OSTASIEWICZ (2003, s. 11) zwraca uwagę, że „badanie statystyczne to jeden ze sposobów po-
znawania świata, (…) jednym z języków w jakim można przeprowadzone obserwacje wyrazić”.
Pionierem stosowania metod statystycznych w odniesieniu do materiału historycznego był Jan
Rutkowski (1886-1949), założyciel Katedry Historii Gospodarczej na Uniwersytecie Poznańskim,
który już w 1925 r. wystąpił z koncepcją syntezy w historii gospodarczej (TOPOLSKI 1965; 1986,
s. 193). Głównym narzędziem w tym podejściu miało być stosowanie matematyki do badań nad społe-
czeństwem (RUTKOWSKI 1937, s. 56). W jego opinii zadaniem historii gospodarczej jest wyjaśnianie,
wolne od jednostronnej faktograficzności, i równocześnie docierające do rzeczywistych stosunków na
podstawie adekwatnych źródeł pozwalających na takie dotarcie (TOPOLSKI 1986, s. 206-208). Według
RUTKOWSKIEGO (1937), gdy chodzi o zjawiska masowe, tylko odwołanie się do metody statystycznej
pozwala przyczynić się do nadania treści ogólnikowym określeniom quasi-ilościowym, takim jak „du-
żo”, „mało”, „znacznie”. Mimo wszystko Rutkowski podkreślał istnienie granic stosowalności mate-
1. Wstęp 9
w rozdziale drugim. Pozostały materiał został podzielony na dwie części. Pierwszą z nich tworzą czte-
ry rozdziały, w których zawarto zagadnienia teoretyczne, natomiast w drugiej części zaprezentowano
praktyczne ich wykorzystanie w badaniach historycznych. Dodatkowo pracę opatrzono bibliografią
oraz aneksami. W tych ostatnich zawarto wykaz danych ilościowych wykorzystanych
w prezentowanych przykładach, podstawowe oznaczenia i symbole oraz opis wybranych procedur
wykorzystanych w przedłożonej monografii, dostępnych w ramach programu Statistica.
Jedną z charakterystycznych cech historycznych danych ilościowych jest ich zróżnicowany cha-
rakter. Z tego powodu w części teoretycznej niniejszej pracy obok podstawowych zagadnień analizy
wielowymiarowej szczególny nacisk położono na zaprezentowanie szerokiego wykazu miar podo-
bieństwa i niepodobieństwa pomiędzy grupowanymi jednostkami, w zależności od skali, w której
wyrażone zostały zmienne opisujące te jednostki. Kolejny rozdział stanowi przegląd metod taksono-
micznych użytecznych w zagadnieniach doboru zmiennych do badania. Natomiast w rozdziale doty-
czącym najczęściej współcześnie stosowanych metod hierarchicznych i kombinatorycznych obok ich
charakterystyki poruszono także problem oceny statystycznej wyników grupowania. Ze względu na
szeroki i różnorodny zakres podejmowanych zagadnień w każdym z rozdziałów zamieszczonych
w części teoretycznej zawarto przegląd literatury danego tematu, obejmujący nie tylko odniesienia do
teoretycznego ich opisu, ale i obszary ich zastosowań.
Druga część pracy to przykłady implementacji przedstawionych w części teoretycznej procedur
w badaniach historycznych. W przygotowaniu tych zagadnień posłużono się materiałem ilościowym
udostępnianym w formie archiwaliów. Tego typu źródła wykorzystano w przykładzie dotyczącym
sytuacji demograficznej w departamencie poznańskim w 1810 r. oraz wpływów podatkowych
z rzemiosła i innych działalności indywidualnych w poszczególnych powiatach województwa poznań-
skiego w latach 1958-1970. Natomiast dane ilościowe mające służyć jako podstawa przykładu zasto-
sowania metod taksonomicznych w procesach periodyzacji zaczerpnięto z publikacji Głównego Urzę-
du Statystycznego. Dotyczą one struktury przemysłu w latach 1956-1989. Innym rodzajem źródeł
danych ilościowych, wykorzystanym w części praktycznej niniejszej monografii, są wyniki badań
innych autorów. W jednym z prezentowanych przykładów posłużono się charakterystykami zakładów
rzemieślniczych prowadzących działalność w latach 70. XX w. w dwóch wioskach powiatu nowotar-
skiego. Dane te przygotowała i opublikowała Anna ZAMBRZYCKA-KUNACHOWICZ (1974). Jednym
z najtrudniejszych typów informacji ilościowych z punktu widzenia opracowania statystycznego są
dane pozyskiwane ze źródeł kartograficznych wyrażone w skali porządkowej. Sposoby podejścia do
tego typu informacji zaprezentowano w przykładzie dotyczącym rolnictwa części ziem polskich
w okresie międzywojennym. W pracach historycznych nad źródłami dokumentalnymi problemem
niewątpliwie związanym z zagadnieniem grupowania jest identyfikacja. Tym razem posłużono się
przykładem liczbowym, dla którego dane zaczerpnięto z publikacji HANDA i in. (2005, s. 514-528).
Należy podkreślić, że źródła danych ilościowych, z których skorzystano w części praktycznej, by-
ły omawiane lub wykorzystywane we wcześniejszych publikacjach innych autorów. Pozwoliło to na
odniesienie uzyskanych wyników do dotychczasowych badań w opracowywanym temacie. Przedsta-
wione przykłady interpretacji historycznej uzyskanych wyników grupowania ilościowego z pewnością
jednak nie wyczerpują poruszanych zagadnień. Należy je traktować raczej jako prezentację wspomi-
nanej wcześniej idei, że metody ilościowe odgrywają rolę użytecznego narzędzia w warsztacie histo-
ryka, które może wspomóc proces opracowania historycznego, w żaden sposób go nie zastępując.
W zamierzeniu działanie to miało także uwypuklić szersze możliwości interpretacyjne, jakie daje za-
stosowanie metod taksonomicznych w badaniach historycznych.
1. Wstęp 13
Poniższe studium przeznaczone jest przede wszystkim dla historyków, którzy w swych badaniach
pracują na co dzień ze źródłami ilościowymi, których uporządkowanie, przy pomocy prezentowanych
w niniejszej pracy metod, pozwoli na pełniejszą analizę merytoryczną. Przy pisaniu tej książki przyję-
to założenie, że czytelnicy znają podstawy statystyki opisowej oraz potrafią posługiwać się podsta-
wowymi funkcjami arkusza kalkulacyjnego. W niektórych fragmentach zostały jednak przedstawione
opcjonalnie bardziej wymagające procedury, oparte na rachunku macierzowym, z nadzieją, iż część
ambitnych czytelników po zapoznaniu się z opisem tych metod i korzyściami wynikających z ich sto-
sowania podejmie trud uzupełnienia tego zakresu wiedzy i umiejętności.
Wydaje się, że we współczesnym świecie nie ma ludzi, którzy zawdzięczają wszystko sobie.
W mojej pracy uzyskałam pomoc i wsparcie od wielu osób. W szczególności chciałabym podzięko-
wać prof. Tadeuszowi Janickiemu, prof. Radosławowi Kali, prof. Tadeuszowi Calińskiemu,
prof. Krzysztofowi A. Makowskiemu, dr. Marcinowi Grabanowi, dr Joannie Jaroszyk-Pawlukiewicz
i dr. Janowi Miłoszowi za wnikliwe zapoznanie się z całym materiałem lub jego częścią i uwagi, które
wzbogaciły tę pracę merytorycznie. Inspirujące były dla mnie także rozmowy z prof. Marią Solarską,
prof. Romanem Macyrą oraz prof. Józefem Doboszem. Kolegom z Zakładu Historii Gospodarczej
dziękuję również za liczne słowa otuchy, które niewątpliwe pomogły mi ostatecznie sfinalizować re-
dakcję tej pracy. Z pewnością nigdy nie udałoby mi się podjąć tego zadania bez oparcia, które znala-
złam w najbliższej rodzinie.
2
Metody taksonomiczne
jako narzędzie syntezy w badaniach historycznych
Jan Rutkowski traktował syntezę w naukach historycznych nie tylko jako przeciwieństwo analizy, ale
także jako wszelką konstrukcję historyczną, obejmującą wykład w ten lub inny sposób usystematyzo-
wanych faktów historycznych, wydobytych ze źródeł drogą analizy historycznej. Syntezy historyczne
powinny zmierzać do przedstawienia zasadniczych zjawisk historycznych i poszukiwania prawidłowo-
ści w ich występowaniu i przebiegu (RUTKOWSKI 1925, s. 456). Badacz w dalszej części wywodu pod-
kreślał jednak, że „konstrukcja syntetyczna nie ogranicza się do prostego usystematyzowania faktów,
lecz przedstawia je w ich wewnętrznym związku, jako pewną organiczną całość. (…) Jedynie dzięki
badaniom syntetycznym możliwe jest pełne zrozumienia znaczenia dziejowego zarówno poszczegól-
nych faktów, jak i całych działów przeszłości. Przy szerzeniu kultury historycznej, ujęcia syntetyczne,
pozostawiające głębsze wrażenie, posiadają niewątpliwą przewagę nad ujęciami analitycznymi, rozpra-
szającymi się w luźnych szczegółach trudnych do opanowania pamięciowego”. Idea syntezy historycz-
nej przewija się w dyskusjach merytorycznych również współcześnie. Przykładem tego typu rozważań
może być pokonferencyjna monografia O nowy model historycznych badań regionalnych przygotowana
pod redakcją Krzysztofa A. Makowskiego (O NOWY MODEL… 2007), a w szczególności zawarta w niej
wypowiedź Witolda Molika na temat współcześnie publikowanych syntez dziejów (MOLIK 2007).
Synteza historyczna w opinii Jana Rutkowskiego to zatem proces wyodrębnienia takich grup histo-
rycznych faktów (obiektów, regionów, osób, okresów itp.), które będą odznaczały się wewnętrzną spój-
nością. Istnieją różne metody tego organicznego łączenia wyników badań analitycznych Jeżeli grupo-
wane obiekty podzielone są według kryterium formalnego, to mówi się o klasyfikacji. Z kolei jeśli takie
kryterium nie zostało zdefiniowane i wyodrębnione zbiory są kompozycjami naturalnymi, utworzonymi
ze składowych o bytach samoistnych, wzajemnie niezależnych, to mówi się o taksonomii (HELLWIG
1997, s. 193). Wydaje się zatem, że spośród dostępnych metod statystycznych to właśnie metody tak-
sonomiczne mogą od strony ilościowej badanych zjawisk społeczno-gospodarczych wspierać proces
tworzenia syntez historycznych.
Taksonomia to połączenie dwóch greckich słów: taxis – oznaczającego układ, porządek oraz no-
mos – oznaczającego prawo, zasadę. Jej numeryczny charakter często podkreśla się poprzez odpowiedni
przymiotnik: taksonomia numeryczna (numerical taxonomy). Jest to odrębna dziedzina naukowa zaj-
mująca się teoretycznymi zasadami, procedurami i regułami klasyfikowania obiektów wielozmiennych
w ujęciu numerycznym (SIMPSON 1961, s 11; SOKAL, SNEATH 1963, s. 3; CHOJNICKI, CZYŻ 1973, s. 7;
NOWAK 1990; MARKOWSKA 2012, s. 134). Wraz z klasyczną nazwą w literaturze funkcjonują także
inne terminy: grupowanie, deliminacja, identyfikacja, analiza skupień (cluster analysis). Coraz częściej
to ostatnie określenie wypiera pojęcie taksonomii (WALESIAK 1993b s. 48).
Jak wspomniano we wstępie, potrzeba grupowania towarzyszy człowiekowi od zarania dziejów.
Z tego powodu trudno jednoznacznie określić autorów czy prekursorów tego podejścia w ujęciu ilościo-
16 2. Metody taksonomiczne jako narzędzie syntezy
wym. John A. HARTIGAN (1982) o początkach klasyfikacji mówi w odniesieniu do starożytności. Hin-
dusi dzielili ludzi ze względu na płeć, warunki fizyczne i psychiczne. Natomiast EVERITT (1980, s. 3-5)
wskazuje na typologię Galena (a.d. 129-199), który wyodrębnił dziewięć typów temperamentów, róż-
niących się między sobą podatnością na zachorowania i zachowaniem. Warto wspomnieć także klasy-
fikacje Arystotelesa w logice, etyce i polityce oraz świecie zwierząt. Z bardziej współczesnych przykła-
dów zastosowania taksonomii wielowymiarowej wymieniana jest osiemnastowieczna klasyfikacja ro-
ślin i zwierząt Linneusza oraz stworzona w XIX w. tablica pierwiastków chemicznych (por. MEZZICH,
SOLOMON 1980, s. 4).
Natomiast wśród protoplastów taksonomii numerycznej wymieniani są Michel Adamson (1727-
-1806), który wprowadził wielowymiarowy system typologiczny do nauk biologicznych, oraz antropo-
log Peter Camper (1722-1789), który przedstawił typologię twarzy ludzkich przygotowaną w oparciu
o różne ich wymiary (CAMPER 1791). Z kolei Francis Galton (1822-1911) pogrupował odciski palców
w oparciu dwanaście ich cech (por. EVERITT 1980, s. 2-5; MAREK 1989, s. 31-31). O wyraźnym rozwoju
metod taksonomicznych można mówić jednak dopiero od początku XX w. Przykładem badań z tego
okresu jest praca Alfreda L. Kroebera i Rolanda B. Dixona, którzy pogrupowali języki kalifornijskie
w oparciu o wzory gramatyczne (KROEBER, DIXON 1903). Nie można także pominąć wielokrotnie cy-
towanego w tej publikacji polskiego antropologa Jana Czekanowskiego (1882-1965), profesora uniwer-
sytetów we Lwowie i w Poznaniu, który po raz pierwszy zastosował pełną metodę taksonomiczną
w oparciu o skonstruowany przez siebie współczynnik odległości (STOKOWSKI 1971). Duży wkład
w rozwój analiz taksonomicznych mieli także archeolodzy. MEZZICH i SOLOMON (1980, s. 6) tym ob-
szarze wymieniają badania KIDDERA (1915), KROEBERA (1916), SPIERA (1917) i STRONGA (1925).
Z kolei wrocławscy uczeni pod przewodnictwem Hugo Steinhausa (1887-1972) opracowali metodę na-
zywaną taksonomią wrocławską, tożsamą z jedną z pierwszych metod analizy skupień (FLOREK i in.
1951). Warto podkreślić, że w swoich pracach bazowali m.in. na danych stanowiących wyniki odkryć
archeologicznych na Ostrowie Lednickim. Intensywny wzrost zainteresowania analizą skupień miał
miejsce w latach 60. i 70. XX w., co związane było z rozwojem technik komputerowych. Główne do-
konania tego okresu szczegółowo zaprezentowane zostały w kolejnych podrozdziałach.
Metody taksonomiczne to zbiór technik znajdujący zastosowanie w badaniu danych o obiektach wie-
lowymiarowych (jednostek lub zmiennych) w celu podzielenia zbioru tych obiektów na grupy (skupie-
nia), które w świetle danych wykazują odrębność (IZENMAN 2008, s. 407; BALICKI 2009, s. 208). Dzięki
zastosowaniu metod taksonomicznych możliwe jest zatem łączenie wielowymiarowych obiektów w ta-
kie grupy (skupienia), że obiekty należące do jednej grupy są do siebie bardziej podobne niż do obiektów
należących do innych grup. Metody taksonomiczne znajdują zwykle zastosowanie w grupowaniu jed-
nostek opisanych wieloma zmiennymi. Można je również wykorzystywać do grupowania zmiennych
w wielowymiarowej przestrzeni jednostek, mogą również służyć ocenie wymiarowości badanego zja-
wiska i ustaleniu cech diagnostycznych (BALICKI 2009, s. 209). Ogólnie rzecz ujmując, metody takso-
nomiczne są sztuką znajdowania grup w danych ilościowych (KAUFMAN, ROUSSEEUW 2005, s. 1).
Efektem zastosowania metod taksonomicznych jest uzyskanie podziału badanych obiektów na sku-
pienia jednorodne wewnętrznie – homogeniczne. W literaturze funkcjonują one także pod nazwą grupa,
typ, klasa, takson (por. DĄBKOWSKI, LAUS-MĄCZYŃSKA 1978; EVERITT 1980; WALESIAK 1993b, s. 49;
KENDALL, BUCKLAND 1986, s. 279; FALNIOWSKI 2003, s. 94-100). Skupienie jest jednorodne, jeżeli
2.1. Istota metod taksonomicznych 17
jednostki wchodzące w jego skład nie należą do żadnego innego skupienia i różnią się znacząco od jed-
nostek nieprzynależących do tego skupienia (MARDIA i in. 1979, s. 360). Skupienia zatem tworzą
obiekty jak najbardziej podobne, natomiast w różnych skupieniach znajdują się obiekty jak najmniej
podobne.
Grupowanie, w wyniku którego powstają skupienia, definiuje się jako niepustą rodzinę 𝑅 podzbio-
rów 𝑠1, 𝑠2, …, 𝑠𝑔 jakiegoś zbioru obiektów 𝜴 (𝜔𝑖 ⊂ 𝜴, dla 𝑖 = 1, 2, … , 𝑛), spełniającą kilka warun-
ków (por. CHOJNICKI, CZYŻ 1973, s. 7; WALESIAK 1993b, s. 49; WIERZCHOŃ, KŁOPOTEK 2015, s. 21).
Po pierwsze każde skupienie wyodrębnione w procesie grupowania powinno zawierać przynajmniej je-
den obiekt. Warunek ten znany jest jako warunek niepustości i można go zapisać następująco:
𝑠𝑖 ≠ ∅; 𝑖 = 1, 2, … , 𝑘. [2.1]
Po drugie każdy obiekt musi należeć dokładnie do jednego skupienia, to znaczy, że poszczególne
podzbiory nie mogą mieć elementów wspólnych. Warunek ten – warunek rozłączności – można zapi-
sać w formie równania:
𝑠𝑖 ∩ 𝑠𝑗 = 0; 𝑖 𝑗. [2.2]
Z kolei warunek zupełności oznacza, że jeżeli każdy obiekt musi należeć do pewnego skupienia,
to suma podzbiorów jest identyczna ze zbiorem klasyfikowanym:
𝑠1 ∪ 𝑠2 ∪ … ∪ 𝑠𝑔 = 𝜴. [2.3]
Zatem jeśli 𝑛 = 𝑔, to oznacza to, że każde skupienie zawiera dokładnie jeden z badanych obiektów
należących do zbioru 𝛀. Oczywiście celem metod taksonomicznych jest uzyskanie mniejszej liczby
skupień niż badanych obiektów (𝑛 > 𝑔).
Metody taksonomiczne można uznać za użytecznie narzędzie w warsztacie historyka do tworzenia
syntez historycznych. Jak już jednak wielokrotnie podkreślano, narzędzie to może jedynie wspomagać
ten proces, a nie go zastępować. TOPOLSKI (1986, s. 216), charakteryzując zagadnienie syntezy histo-
rycznej proponowane przez swojego poprzednika, stwierdził: „Preferowaną przez Rutkowskiego syn-
tezę historyczną można by nazwać organiczno-humanistyczną. Jej realizacja nie wiąże się z odrzuca-
niem związków przyczynowych, lecz uzależniona jest od równoczesnego uwidaczniania związków
funkcjonalnych (współzależności synchronicznych), czyli odtwarzania zarówno ciągów przyczyno-
wych jaki i związków strukturalnych, a poza tym, co metodologicznie i teoretycznie nader ważne, roz-
patrywanie tych relacji w perspektywie działań ludzkich”. O ile metody taksonomiczne pozwalają na
uwidocznienie współzależności synchronicznych w ujęciu dynamicznym i strukturalnym badanego zja-
wiska społeczno-gospodarczego, to jednak proces ten jest uzależniony od doboru zmiennych (wskaźni-
ków ilościowych) wybranych do prezentacji danego zagadnienia przez badacza. Co więcej, rozpatry-
wanie osiągniętych wniosków liczbowych w perspektywie działań ludzkich nie jest możliwe bez szero-
kiej wiedzy historycznej badacza.
18 2. Metody taksonomiczne jako narzędzie syntezy
Z kolei MEZZICH i SOLOMON (1980, s. 20-32) dzielą ilościowe metody taksonomiczne ze względu
na cel grupowania. Pierwsza grupa łączy metody taksonomiczne, które prowadzą do skończonej kon-
figuracji skupień w tym sensie, że ich wynikiem jest grupa skupień z jasno zdefiniowanymi obiektami
do nich należącymi. W ramach tej grupy wyodrębniane są wspominane już wyżej metody hierarchiczne
i niehierarchiczne. Metody należące do drugiej grupy dotyczą reprezentacji jednostek wielowymia-
rowych. Są to metody użyteczne w pracach taksonomicznych, ale ich efektem końcowym nie są skoń-
czone konfiguracje skupień. Tak więc dodatkowa praca badacza jest związana z ostatecznym wskaza-
niem skupień grupowanych obiektów. Większość tych metod nie została stworzona dla celów taksono-
micznych, ale raczej do wskazania zmiennych-reprezentantek w wielkowymiarowej przestrzeni. Szer-
szy ich opis można znaleźć w monografii SNEATHA i SOKALA (1973, s. 245-253).
Zaproponowane przez MEZZICHA i SOLOMONA (1980, s. 20-32) podejście do podziału metod tak-
sonomicznych może być użyteczne w przypadku badań historycznych. Historyk ma często do dyspozy-
cji zbyt obszerną skorelowaną grupę zmiennych, z których musi wyodrębnić zmienne diagnostyczne
ostatecznie uwzględnione w badaniu. Dopiero w drugim etapie procesu naukowego stosuje wybrane
metody taksonomiczne celem wyodrębnienia rozłącznych grup obiektów, scharakteryzowanych za po-
mocą wcześniej starannie dobranych zmiennych diagnostycznych.
Celem statystyki historycznej jest przede wszystkim ustalanie faktów masowych poprzez zastosowanie
metod szacunkowych, badanie zależności przyczynowych pomiędzy nimi oraz wreszcie ułatwianie
opisu zagadnień historycznych. Realizację tej ostatniej grupy celów ułatwia grupowanie. TOPOLSKI
(1984, s. 409-411), opisując znaczenie grupowania w badaniach historycznych, stwierdził, że grupowa-
nie statystyczne, czyli: „budowanie zbiorów, podzbiorów oraz ich porządkowanie, należy do najtrud-
niejszych, a zarazem najbardziej odpowiedzialnych etapów stosowania metody statystycznej”. Co wię-
cej, podkreślał on, że sukcesy w ustalaniu zbiorów statystycznych zależą głównie od wiedzy po-
zaźródłowej historyka, a szczególnie od jego wiedzy teoretycznej. Jak wspomniano wielokrotnie, cho-
dzi przede wszystkim, aby uzyskane w wyniku grupowania skupienia obiekty były względnie jedno-
rodne, a ponadto, by ich wydzielenie pomogło w możliwie maksymalnym stopniu odtworzyć rzeczywi-
stość historyczną (TOPOLSKI 1984, s. 411).
Analiza wielowymiarowa stanowi rozwiązanie problemów wielu dziedzin: biometrycznych, eduka-
cyjnych, rolniczych, socjologicznych, medycznych, fizycznych, antropologicznych, ekonomicznych,
eksperymentalnych i przemysłowych (KENDALL 1957, s. 7-9). Jednak metody grupowania – metody
taksonomiczne – są szczególnie użyteczne w tych obszarach, w których badacz nie ma możliwości eks-
perymentowania: przede wszystkim w naukach społecznych i historycznych (YULE, KENDALL 1966,
s. 17). SOKOŁOWSKI (1982) podzielił zagadnienia taksonomiczne na zagadnienia proste oraz złożone.
Do prostych zaliczył grupowanie obiektów, periodyzację oraz wybór cech diagnostycznych. Natomiast
grupę zagadnień złożonych tworzą: klasyfikacja w przestrzeni zmiennych, klasyfikacja w przestrzeni
obiektów, klasyfikacja w przestrzeni czasu. Pogląd ten jest zgodny z TOPOLSKIM (1984, s. 487) który
akcentuje, że w grupowaniu historycznym decydującą rolę ogrywają trzy następujące kryteria: chrono-
logiczne, terytorialne i rzeczowe.
20 2. Metody taksonomiczne jako narzędzie syntezy
2.3.1. Regionalizacja
Źródła informacji masowej bardzo często opisują ilościowo badane zjawisko w odniesieniu do admini-
stracyjnie wyznaczonych już obszarów. Opisy coraz to nowych wskaźników skutkują nadmiarem liczb,
co powoduje, że porównania regionalne stają się coraz trudniejsze i złożone (WYSOCKI 1965). W bada-
niach tego typu szczególne znaczenie odgrywa klasyfikacja przestrzenna (PARYSEK, WOJTASIEWICZ
1979, s. 73; BUNGE 1962, s. 14-23; GRIGG 1965; CHOJNICKI 1970; CZYŻ 1971). Klasyfikacją prze-
strzenną jest każdy podział powierzchni ziemi na części – klasy przestrzenne, realizowany przy
uwzględnieniu określonego kryterium podziału. Szczególnym przypadkiem klasyfikacji przestrzennej,
w którym kryterium podziału stanowią wielowymiarowe własności klasyfikowanych elementów two-
rzących przestrzenie spójną całość, jest regionalizacja (PARYSEK 1982, s. 141). W regionalizacji ana-
lizowany jest zatem zbiór obiektów – jednostek terytorialnych – przy jednoczesnym uwzględnieniu ich
wzajemnej lokalizacji. Jednostki podobne ze względu na wiele zmiennych grupuje się w układy prze-
strzenne o maksymalnej jednolitości, czyli w obszary jednolite (CZYŻ 1967).
Podstawy wydzielania regionów w przypadku regionalizacji mogą być różne, zależnie od potrzeb
badania (TOPOLSKI 1984, s. 495-496). Zwykle podstawową jednostką terytorialną jest państwo lub na-
ród w jego zasięgu terytorialnym. Gdy bada się tylko część bądź to jakiegoś większego terytorium, bądź
państwa, mamy do czynienia z historią regionalną. W szczególności głównymi dziedzinami zastoso-
wań regionalizacji są porównania rozwoju społeczno-gospodarczego w perspektywie międzynarodowej
lub krajowej czy warunków życia ludności zamieszkującej określony obszar. Jeśli dodatkowo w tego
typu porównaniach uwzględnia się czynnik czasu, to badania takie nazywane są geografią historyczną
(BUNGE 1966, s. 237). Z kolei RUTKOWSKI (1946, s. 11) wśród metod stosowanych w badaniach z za-
kresu historii społeczno-gospodarczej wyróżnił metodę geograficzną.
NOWAK (1990, s. 17-22) zauważył, że metody taksonomiczne znalazły powszechne zastosowanie
w przestrzennych badaniach społeczno-gospodarczych. Należy przy tego typu badaniach szczególną
uwagę zwrócić na porównywalność zmiennych. Aspekty teoretyczne tego zagadnienia opisano w roz-
dziale trzecim. W przypadku regionalizacji zagadnienie grupowania ma na celu przeprowadzenie okre-
ślonego podziału przestrzennego (CHOJNICKI, CZYŻ 1973, s. 45). W konsekwencji dużą wagę w bada-
niach regionalnych nadaje się kwestiom sąsiedztwa terytorialnego. Zasada sąsiedztwa, zwykle poru-
szana na ostatnim etapie badania, tutaj jest analizowana i uwzględniona od początku do końca procedury
badawczej. Problem ten opisano w rozdziale czwartym.
W prezentowanej monografii zagadnieniu regionalizacji poświęcone zostały dwa przykłady histo-
ryczne, opisane szczegółowo w drugiej części pracy. Pierwszy z nich dotyczy sytuacji demograficznej
w departamencie poznańskim Księstwa Warszawskiego. Przeprowadzone grupowanie oparto o wyniki
spisu powszechnego z 1810 r. Wśród danych demograficznych, które stanowiły podstawę grupowania
powiatów, wyróżniono takie cechy, jak: zaludnienie, śmiertelność, wdowieństwo i wyznanie. Drugi
przykład dotyczy rolnictwa tzw. Kraju Warty, który w planach niemieckich poprzedzających II wojnę
światową miał być obszarem niemieckiej kolonizacji na Wschodzie (JANICKI 1996, s. 97-101). Naziści
jeszcze przed wybuchem wojny, w oparciu o przygotowane wcześniej opracowania statystyczne, do-
strzegali zasadnicze różnice pomiędzy wschodnią i zachodnią częścią tego obszaru. W ich opinii dys-
proporcje w kulturze rolnej oraz wydajności produkcji rolnej były następstwem odmiennej sytuacji
w poszczególnych zaborach. Podstawą weryfikacji tego założenia były dane, tym razem zaczerpnięte
ze źródeł kartograficznych, opublikowanych przez GUENTHER-SWART (1941, s. 22-115). Dotyczyły
one prowadzonej przed wojną na części ziem polskich gospodarki rolnej w zakresie struktury zasiewów,
obsady zwierząt i jakości gleb.
2.3. Zagadnienia historyczne wspomagane metodami taksonomicznymi 21
2.3.2. Periodyzacja
niu na jednym wykresie szeregów czasowych, opisujących kształtowanie się uwzględnionych w bada-
niu zmiennych. W przypadku zmiennych różnoimiennych można je ujednolicić, obliczając odpowiednie
indeksy dynamiki (zob. np.: SOBCZYK 1997, s. 273-276) lub zastosować wykresy z różnymi skalami na
jednej z osi współrzędnych. Przebiegi uwzględnionych w badaniu zmiennych potencjalnie są podstawą
do wyciągnięcia wniosków dotyczących punktów zwrotnych czy jednolitych podokresów. Jednak me-
toda ta jest możliwa do zastosowania tylko w przypadku niewielu zmiennych, chociaż nawet i wtedy
nie zawsze można uzyskać jednoznaczne wyniki z uwagi na fakt, że fazy każdego szeregu czasowego
z osobna na ogół nie nakładają się na siebie w czasie (GRABIŃSKI 1975b). W tej sytuacji nieodzowne
wydaje się zastosowanie metod taksonomicznych.
Analizy wielowymiarowe, a w szczególności wielowymiarowe metody grupowania, pozwalają na
analizowanie określonego zjawiska społeczno-gospodarczego w określonym okresie przy jednocze-
snym uwzględnieniu wielu zmiennych opisujących to zjawisko. Ważnym aspektem w analizach dyna-
micznych jest zapewnienie porównywalności zmiennych w czasie, która wiąże się z uwzględnieniem
inflacji czy wyrażeniem badanych cech w jednostkach niemianowanych. Zwykle przed przystąpieniem
do periodyzacji konieczna jest zatem standaryzacja zmiennych. Co więcej, jeżeli zmienne odznaczają
się wysokim poziomem korelacji, to należy proces periodyzacji poprzedzić grupowaniem zmiennych.
Wspomniane zagadnienia zostały opisane w rozdziale trzecim i piątym. Często w zagadnieniach perio-
dyzacji uwzględniane są zmienne typu strukturalnego, tzn. że każdy okres jest scharakteryzowany za
pomocą struktury dotyczącej badanego zagadnienia. Może to być np. struktura zatrudnienia, struktura
narodowa, struktura wiekowa. Tego typu zmienne wymagają specyficznych miar niepodobieństwa,
dzięki którym można zbudować macierz odległości. Opisano je w rozdziale czwartym. Jak wspomniano
wcześniej, periodyzacja w badaniach historycznych polega na wyodrębnieniu w danym okresie jedno-
litych podokresów. Ważne jest zatem zagadnienie ciągłości czasowej tych podokresów. Z tego powodu
w badaniach dotyczących periodyzacji, spośród wielu algorytmów grupowania, polecana jest metoda
pojedynczego wiązania, której cechą charakterystyczną jest występowanie przy jej stosowaniu efektu
łańcuszkowego.
Zagadnienia periodyzacji zostały uwzględnione w części praktycznej przedkładanej monografii dwa
razy. Pierwszy przykład dotyczy struktury gałęziowej przemysłu uspołecznionego w Polsce w latach
1958-1989. Uwzględniono w nim jeden ze sposobów ominięcia kwestii inflacyjnych w przypadku pro-
dukcji czystej. W grupowaniu zastosowano dwa warianty, a uzyskane wyniki oceniono pod względem
ich zgodności. Drugi przykład jest bardziej złożony. Dotyczy bowiem gospodarczego znaczenia rze-
miosła w poszczególnych powiatach województwa poznańskiego w latach 1958-1970. Trudność w pre-
zentowanym przypadku wynika z faktu, że w periodyzacji podlegały nie pojedyncze zjawiska, ale ich
złożone struktury.
w grupowaniu. Jako przykłady tego typu badań wymienić można – wspomniane już we Wstępie – ba-
dania antropologiczne czy archeologiczne, oraz typologię średniowiecznych cyzjojanów łacińskich
w oparciu o metody taksonomiczne, którą przestawił Henryk WĄSOWICZ (1986, 1995, 2007, 2016).
Punktem wyjścia w jego grupowaniu były zmienne dotyczące poszczególnych składników budowy ka-
lendarzy ksiąg liturgicznych, takie jak nazwy miesięcy, wyrazy wiążące czy abrewiacje. W obszarze
badań społeczno-gospodarczych podejście to zastosowali GAZIŃSKA i GAZIŃSKI (2010) w pracy doty-
czącej rzemiosła w miastach Pomorza Pruskiego w roku 1779 oraz 1982. W swoim badaniu uwzględnili
oni 84 profesje rzemieślnicze występujące łącznie w 55 miastach Pomorza. W oparciu o ten materiał,
stosując metody taksonomiczne, wyznaczona została – w kroku pierwszym – struktura rzemiosła na
badanym obszarze, następnie – w kroku drugim – przeprowadzono grupowanie miast ze względu na
rzemiosła w nich występujące.
Wśród problemów grupowania w oparciu o metody taksonomiczne w naukach humanistycznych
coraz częściej poruszany jest temat nie tyle grupowania obiektów, co ich identyfikacji (SNEATH, SOKAL
1973, s. 449). Identyfikacja polega na ulokowaniu bądź przydzieleniu niezidentyfikowanego obiektu do
odpowiedniej klasy, kiedy klasyfikacja została już wcześniej zdefiniowana (SNEATH, SOKAL 1973, s. 3).
Definicja ta zatem ściśle odpowiada sytuacji, w jakiej często znajduje się historyk. Posiadając wiedzę
o poznanych już obiektach historycznych (artefaktach), którymi się zajmuje, w momencie odkrycia ko-
lejnego obiektu lub jego fragmentu przypisuje go do odpowiedniej grupy. Zwykle proces ten nie budzi
wątpliwości. Zdarza się jednak, że informacji o nowym obiekcie jest zbyt mało lub są niejednoznaczne.
Wtedy warto się posłużyć metodami taksonomicznymi pozwalającymi na wskazanie, do którego zna-
nego już obiektu lub grupy obiektów nowemu odkryciu „jest najbliżej”. Przykładem tego typu badań
jest monografia Jadwigi Sambor, w której przedstawia ona przykłady związane z identyfikacją tekstów,
dotyczące autorstwa poszczególnych ksiąg Nowego Testamentu, dramatów Szekspira, tekstów Rim-
bauda czy przemówień wielkich polityków XX w. Szczególnie interesujące są także przytoczone przy-
kłady nawiązujące do klasyfikacji języków słowiańskich (SAMBOR 1972, s. 80-186).
Zagadnienia związane z identyfikacją dobrze jednak obrazują miejsce metod ilościowych w warsz-
tacie historyka. Przeprowadzenie grupowania wymaga w ich przypadku czasochłonnego przygotowania
bazy danych, będącej punktem wyjścia do identyfikacji historycznej. Dla przykładu w badaniach doty-
czących identyfikacji tekstów zmiennymi mogą być wskaźniki syntaktyczne bądź leksykalne, długość
tekstu, liczba haseł, liczba urwanych lub pełnych wersów, liczba rodzajników, spójników, partykuł czy
zaimków osobowych, liczba rzeczowników albo określonych sformułowań itp. (zob. np.: SAMBOR
1972, s. 80-186). Przygotowanie tego typu zestawienia jest nie tylko pracochłonne, ale wymaga także
olbrzymiej skrupulatności przy dokonywaniu pomiarów, a co najważniejsze – wiedzy merytorycznej
w zakresie doboru odpowiednich wskaźników w odniesieniu do konkretnego zagadnienia.
Przykład grupowania obiektów historycznych przedstawiony w części praktycznej dotyczy warsz-
tatów rzemieślniczych, które prowadziły działalność wytwórczą w latach 70. XX w. Zostały one scha-
rakteryzowane w takich obszarach, jak: rodzaj używanych narzędzi, czas pracy, krąg i rodzaj odbiorców
oraz wieś, w której warsztat prowadził swoją wytwórczość. Sposób przeprowadzonych pomiarów zde-
terminował skalę, w której zmienne zostały wyrażone. Dzięki zastosowaniu metod taksonomicznych
badane warsztaty zostały odpowiednio pogrupowane. Działanie to pozwoliło na ogólniejszą charakte-
rystykę stanu rzemiosła wiejskiego i wskazanie kierunku jego przemian organizacyjnych. Trudniejszym
problemem do zobrazowania była identyfikacja historyczna. Jak wspomniano wcześniej, wymaga ona
posiadania szczegółowej, obszernej wiedzy z badanego obszaru. W związku z powyższym do prezen-
tacji tego zagadnienia wykorzystano jedynie przykład liczbowy zaproponowany przez HANDA i in.
24 2. Metody taksonomiczne jako narzędzie syntezy
(2005, s. 514-528). Dotyczył on dziesięciu dokumentów, a podstawą ich grupowania było sześć zmien-
nych opisujących częstotliwość występowania w nich charakterystycznych wyrażeń. Mimo swoich nie-
wielkich wymiarów przykład ten pozwolił zaprezentować ideę zastosowania metod taksonomicznych
w zagadnieniach dotyczących identyfikacji historycznej.
Pewien obszar zainteresowań historyków społecznych i gospodarczych zajmują badania struktur spo-
łeczno-ekonomicznych, w tym struktur demograficznych. Z punktu widzenia danych ilościowych
można je rozpatrywać w trzech perspektywach: przestrzennej, rodzajowej i czasowej. Elementami wy-
różnionych typów struktur są zatem odpowiednio obiekty, zmienne i okresy (GRABIŃSKI, ZAJĄC 1975).
W grupowaniu jednowymiarowym rozpatruje się dany problem z uwzględnieniem jednej perspektywy.
2.3. Zagadnienia historyczne wspomagane metodami taksonomicznymi 25
Grupowanie wielowymiarowe zwykle uwzględnia dwie z nich. I tak w przypadku regionalizacji grupo-
wane są obiekty opisane wieloma zmiennymi w danym momencie czasu. Z kolei periodyzacja to gru-
powanie okresów uwzględniające wiele zmiennych opisujących jeden obiekt. Podobnie można zdefi-
niować problemy badawcze w przypadku identyfikacji obiektów i doboru zmiennych do badania.
Bardziej złożona sytuacja występuje wtedy, gdy historyk ma za zadanie uwzględnienie jednocześnie
trzech perspektyw analizowanego zagadnienia. Jednak uzupełnienie dla przykładu przestrzennej analizy
strukturalnej o jeszcze jeden wymiar, a mianowicie o wymiar czasu, prowadzi do rozszerzenia pola
wnioskowania. Pozwala to na dostrzeżenie w rozważanym zjawisku w danym okresie również pewnych
tendencji zmian zachodzących w określonym układzie terytorialnym. Fakt ten stanowi zatem istotę
przestrzenno-czasowych analiz strukturalnych (KUKUŁA 1996, s. 117).
Analizę prawidłowości strukturalnych prowadzić można za pomocą różnych metod, jednakże szcze-
gólnie przydatna w tym zakresie wydaje się analiza taksonomiczna. Elżbieta Sobczak podkreśla, że „pod-
stawowym problemem wielowymiarowej analizy strukturalnej jest określenie wzajemnych podobieństw
między strukturami badanych obiektów. Wyodrębnienie podobnych struktur ekonomicznych i łączenie
ich w homogeniczne grupy umożliwia uporządkowanie otaczającej człowieka rzeczywistości i poznanie
istoty badanych zjawisk gospodarczych” (SOBCZAK 1994, s. 133). Dla przykładu uwzględnienie dodat-
kowo czynnika czasu w regionalnych badaniach strukturalnych, czyli de facto przeprowadzenie periody-
zacji wyników tego typu badań, może polegać na wyodrębnieniu okresów, w których regiony były po-
dobne w sensie badanych struktur lub też na wyodrębnieniu faz rozwojowych, w których w regionach za-
chodziły względnie trwałe, ukierunkowane przeobrażenia (MARKOWSKA 2012. s. 146-147).
Wielowymiarowa analiza statystyczna, a w szczególności taksonomia, zawiera zdecydowanie wię-
cej propozycji dla badań opartych wyłącznie na danych przekrojowych lub czasowych, a znacznie mniej
dedykowanych dla badań opartych na danych przestrzenno-czasowych. W literaturze polskiej funkcjo-
nuje kilka propozycji podejść do tego problemu (GRABIŃSKI, ZAJĄC 1975; MALINA, WANAT 2000;
MŁODAK 2006; STRAHL 2008; MARKOWSKA 2012). Jedną z proponowanych metod jest uśrednienie
poszczególnych zmiennych w badanym okresie i przeprowadzenie grupowania w oparciu o dwuwymia-
rową macierz wartości przeciętnych (GRABIŃSKI, ZAJĄC 1975). Postępowanie takie jest uzasadnione
jednak tylko wtedy, gdy można przyjąć, że w rozważanym okresie nie zaszły istotne zmiany w relacjach
strukturalnych. W większości przypadków założenie takie jest zatem niesłuszne – zwłaszcza dla okre-
sów dłuższych. Słabą stroną tego podejścia jest również fakt, że uśrednianie zmiennych wyjściowych
skutkuje zmniejszeniem poziomu ich zmienności, przez co tracą swoje właściwości diagnostyczne –
w mniejszym stopniu różnicują badane obiekty – co skutkuje trudnościami w procesie grupowania.
W tej sytuacji bardziej odpowiednim sposobem analizy przestrzenno-czasowej będzie dokonywanie
grupowania osobno dla każdego okresu. Uzyskany ciąg informacji z tego rodzaju klasyfikacji daje do-
kładny obraz kształtowania się badanych struktur na przestrzeni całego rozpatrywanego okresu. Tadeusz
Grabiński i Kazimierz Zając podkreślają jednak, że w praktyce takie podejście jest dość kłopotliwe,
zwłaszcza wówczas, jeżeli z okresu na okres zachodzą dość znaczne zmiany w wynikach grupowania
badanych obiektów. Sytuacja ta skutkuje tym, że widoczne są nawet niewielkie zmiany strukturalne,
które mogą wynikać z własności zastosowanej metody taksonomicznej. W takim przypadku polecają
oni przeprowadzenie badań w kilku wybranych momentach czasu, co pozwoli uchwycić zmiany rozpa-
trywanych struktur w perspektywie dynamicznej (GRABIŃSKI, ZAJĄC 1975). Poprawność takiego po-
dejścia zależy od właściwego ustalenia zarówno punków czasowych, w których prowadzi się analizę,
jak i odległości pomiędzy kolejnymi punkami czasowymi. Co więcej, wówczas przyjmuje się założenie
o stabilności struktur określonym czasie. Tym razem jednak założenie to nie dotyczy całego badanego
okresu, ale tylko krótkich jego podokresów.
26 2. Metody taksonomiczne jako narzędzie syntezy
Jak wspomniano wcześniej, liczba algorytmów zaliczanych do metod taksonomicznych jest ogromna.
Dobór metody do rozwiązania konkretnego problemu badawczego zwykle nie jest jednak jednoznaczny.
Co więcej, wśród rozmaitych metod taksonomicznych nie ma konkretnej, której przewaga nad innymi
byłaby w literaturze akceptowana (SOKOŁOWSKI 1992, s. 23-24; HAIR i in. 1995, s. 441-442). EVERITT
(1980, s. 9) podkreśla, że grupowanie powinno zostać poprzedzone przemyślanym wyborem zmiennych
oraz ich odpowiednim przygotowaniem. Ważna jest także, szczególnie w obszarze badań historycznych,
decyzja dotycząca sposobu określenia podobieństwa bądź odległości pomiędzy grupowanymi obiek-
tami. Wybierając konkretną metodę, należy więc brać pod uwagę jej istotę, a także cel badania i dostęp-
ność oprogramowania. Ponadto należy też odwołać się do oczekiwanej interpretacji wyników klasyfi-
kacji (WYSOCKI 2010, s. 87-90).
W literaturze zazwyczaj wyróżnia się kilka etapów analizy skupień (por. GORDON 1999, s. 8;
WALESIAK 2004 i 2005; MUCHA 2012; DUDEK 2013, s. 66). Ilościową procedurę grupowania rozpo-
czyna (1) wybór obiektów i zmiennych, które obiekty te charakteryzują. Oczywiście decyzje te na-
leży podjąć, definiując wcześniej problem merytoryczny dotyczący konkretnej sytuacji, np. społeczno-
gospodarczej czy demograficznej. Na etapie przygotowawczym ważna jest także skrupulatna weryfika-
cja źródeł ilościowych. Andrzej DUDEK (2013, s. 18 za: SAMUELSON 1952) zwraca uwagę, że naprawdę
duże błędy powstają zazwyczaj na etapie formułowania założeń. Logika nie stanowi ochrony przed fał-
szywymi hipotezami lub niewłaściwą interpretacją rzeczywistości czy też sformułowaniem nieadekwat-
nych założeń. Zgodnie z poglądami tego uczonego, stosowanie języka matematyki powoduje jednak, że
badacz jest zmuszony do „wyłożenia kart na stół” tak, aby wszyscy mogli widzieć założenia, które
przyjął. W badaniach historycznych, szczególnie tych dotyczących XIX i XX w., historyk dysponuje
zwykle szerokim wachlarzem zmiennych obrazujących różnorodność grupowanych obiektów w obsza-
rze podjętego zagadnienia. Z tej przyczyny w ramach tego etapu ze wstępnej listy zmiennych należy
wybrać grupę zmiennych diagnostycznych. W tym celu zwykle stosowane są także metody taksono-
miczne.
2.4. Grupowanie jako proces badawczy 27
Zagadnienia związane z doborem obiektów i zmiennych są problemem złożonym. Opis procesu ich
przygotowania do analiz wielowymiarowych stanowi główną część rozdziału trzeciego. Co więcej, zwy-
kle bogactwo źródeł ilościowych w obszarze badań społeczno-gospodarczych sprawia, że wstępna lista
zmiennych będących podstawą grupowania obiektów wymaga – zarówno ze względów merytorycz-
nych, jak i statystycznych – ograniczenia. W rozdziale piątym opisano zatem procedury taksonomiczne,
które pomagają w procesie tworzenia listy zmiennych diagnostycznych, ostatecznie uwzględnionych
w badaniu.
Zmienne opisujące obiekty, które zostaną w wyniku zastosowania odpowiedniej procedury pogru-
powane, wyrażone są zazwyczaj w różnych jednostkach. Aby wpływ poszczególnych zmiennych na
proces grupowania był zbliżony, często – choć nie zawsze – konieczne jest doprowadzenie zmiennych
do porównywalności. Z tego powodu następny etap procesu grupowania to (2) wybór formuły norma-
lizacji wartości zmiennych. Wykaz formuł normalizacyjnych, możliwych do zastosowania w zależno-
ści od skali, w której zostały wyrażone poszczególne zmienne, zawarto w ostatniej części rozdziału trze-
ciego. Szczególne miejsce znajduje tam zagadnienie normalizacji zmiennych wyrażonych w skali po-
rządkowej, rzadko opisywane w tego typu publikacjach.
Punktem wyjścia w wielu analizach wielowymiarowych jest wyznaczenie odległości taksonomicz-
nej uwzględniającej wszystkie zmienne diagnostyczne opisujące porównywane obiekty. Jest to jeden
z najważniejszych etapów procesu badawczego. (3) Wybór odpowiedniej miary odległości zależy od
wielu czynników. Do najważniejszych należą: skala pomiarowa, w której zostały wyrażone zmienne,
oraz cel grupowania. Problem ten dotyczy szczególnie badań historycznych. Historycy bowiem, częściej
niż inne grupy badaczy, korzystają z różnych źródeł informacji ilościowych, konfrontując je ze sobą
i równocześnie weryfikując ich autentyczność. W konsekwencji w badaniach historycznych powstają
bazy danych, w których zmienne opisujące grupowane obiekty wyrażone są w różnych skalach. Prze-
kłada się to na wybór odpowiedniej miary odległości. Wyznaczenie odległości wielowymiarowych po-
między każdą parą obiektów uwzględnionych w badaniu skutkuje ostatecznie powstaniem macierzy od-
ległości. W zależności od podjętej w tym obszarze decyzji badacza macierz odległości można przygo-
tować samodzielnie w arkuszu kalkulacyjnym lub korzystając z dostępnych procedur w ramach opro-
gramowania statystycznego. Ze względu na powyższe argumenty zagadnienie wyboru odpowiedniej
miary odległości w badaniach historycznych wymaga szczególnej skrupulatności. Szczegółowy wykaz
miar odległości i podobieństwa, zawierający charakterystyki poszczególnych wskaźników oraz sposoby
ich wyznaczania, zawarto w rozdziale czwartym. Jego zakończenie stanowi opis postępowania w sytu-
acjach nietypowych, na które w swoich badaniach może natknąć się historyk.
Mając zdefiniowaną macierz odległości pomiędzy poszczególnymi obiektami, można przystąpić do
ich grupowania. Jak wspomniano wcześniej, wachlarz metod taksonomicznych jest szeroki. Spośród
dostępnych procedur należy w następnym etapie dokonać (4) wyboru metody taksonomicznej. Tym
razem wybór ten jest determinowany przyjętym wcześniej sposobem normalizacji zmiennych i miarą
wyznaczania odległości między obiektami. Głównym celem grupowania jest zwykle uzyskanie rozłącz-
nych skupień obiektów – możliwie najbardziej homogenicznych w ramach skupień i możliwie najbar-
dziej heterogenicznych pomiędzy skupieniami. Jak wspomniano wcześniej, to właśnie rozwój technik
komputerowych przyczynił się do szerszego stosowania metod taksonomicznych. Współcześnie najczę-
ściej stosowane są metody hierarchiczne i metody optymalizacyjne. Ze względu na złożone procedury
zwykle ułatwieniem jest korzystanie na tym etapie z procedur grupowania, dostępnych w ramach opro-
gramowania statystycznego. W przedkładanym opracowaniu wykaz najczęściej używanych metod tak-
28 2. Metody taksonomiczne jako narzędzie syntezy
sonomicznych został zawarty w rozdziale szóstym. Uwzględniono w nim dwie grupy metod: hierar-
chiczne oraz optymalizacyjne. Opis wybranych procedur wzbogacono przykładami ich użycia w bada-
niach społeczno-gospodarczych, stanowiącymi poszczególne rozdziały części praktycznej monografii.
Jeżeli w etapie czwartym została wybrana jedna z metod hierarchicznych, to w następnym etapie
zwykle następuje procedura (5) wyboru ostatecznej liczby skupień. W przypadku, gdy jako metodę
grupowania przyjęto metodę optymalizacyjną, etap wyboru ostatecznej liczby skupień poprzedza proces
grupowania. Generalnie skupienia, które mają powstać w wyniku zastosowania metod taksonomicz-
nych, powinny być możliwie najbardziej jednorodne wewnętrznie – homogeniczne. Zagadnienie to,
w zależności od przyjętej metody grupowania, opisano jako osobne podrozdziały rozdziału szóstego:
w przypadku metod hierarchicznych jest to rozdział 6.1.2, a dla metod kombinatorycznych – rozdział
6.2.2.
Jednym z końcowych etapów całego procesu badawczego, w którym grupowane są obiekty o ce-
chach wyrażonych w sposób ilościowy jest 6) ocena wyników grupowania. Jeśli zatem grupowanie
przeprowadzono kilka razy, to na tym etapie należy wskazać ostateczne wyniki. Decyzję tę badacz może
podjąć intuicyjnie, bazując na swojej wiedzy merytorycznej dotyczącej podjętego zagadnienia – badacz
uznaje ten rezultat grupowania jako lepszy, który w jego opinii lepiej obrazuje problem, którego grupo-
wanie dotyczyło. Inne podejście opiera się na ilościowych wskaźnikach oceny przeprowadzonego pro-
cesu (por. GORDON 1999, s. 96-100; KORZENIEWSKI 2012, s. 14-15). Mogą one opierać się na macierzy
odległości, stanowiącej podstawę grupowania. W przypadku, gdy grupowane obiekty zostały opisane
zmiennymi wyrażonymi w silnych skalach, wykorzystywane mogą być założenia analizy wariancji.
W niniejszej pracy trzy wspomniane podejścia zostały opisane w końcowej części rozdziału szóstego.
W efekcie podjęcia decyzji wyboru ostatecznych wyników grupowania możliwe jest przeprowadze-
nie (7) opisu wyników grupowania. Jak już wspominano wielokrotnie, etap ten powinien opierać się
nie tylko na części ilościowej, ale także na szerszych historycznych odniesieniach w kontekście podej-
mowanego problemu. Trudno zatem o opis teoretyczny tego etapu grupowania. Niemniej jednak w pre-
zentowanych w drugiej części monografii przykładach, w zależności od podejmowanej tematyki, na
etap opisu wyników grupowania położono szczególny nacisk. Zawarto w nim proponowane zestawienia
wyników ilościowych i przykłady ich interpretacji merytorycznej prowadzących w miejscach, gdzie to
było możliwe, do syntez historycznych.
Zagadnienia teoretyczne
3
Podstawowe zagadnienia
wielowymiarowej analizy statystycznej
Cóż zatem można powiedzieć o badanej populacji? Po pierwsze jest ona zbiorem skończonym,
kompletnym. HELLWIG (1997, s. 187) podkreślał, że populacja „jest nie tylko zbiorem elementów,
lecz odrębną niezależną całością, czyli samodzielnie istniejącą rzeczą, różną od innych rzeczy”. Zatem
definiując populację, należy zamieścić szerszy jej opis, świadczący o jej odrębności. Po drugie dwa
32 3. Podstawowe zagadnienia wielowymiarowej analizy statystycznej
różne zbiory obiektów, czyli dwie różne populacje, rozróżniane są poprzez ich nazwę. I tak mówić
można np. o populacji mieszczan, zbiorze powiatów czy zbiorze państw Europy. Zwykle dla wygody
stosowane są krótsze nazwy: mieszczanie, powiaty, państwa europejskie.
Z kolei obiekty tworzące daną populację odróżniane są od siebie poprzez nazwę zbiorowości
i nazwę obiektu. W przypadku populacji mieszańców miasta poszczególne jednostki można oznaczyć
np.: Jan Kowalski, Marek Nowak, Franciszek Gola. Mówiąc o populacji powiatów, można mówić
o takich jednostkach, jak przykładowo: powiat krotoszyński, powiat gnieźnieński, powiat powidzki,
a w przypadku badań dotyczących państw europejskich: Polska, Niemcy. W zbiorowościach o dużej
liczbie obiektów często stosowanym podejściem jest numerowanie obiektów i/lub stosowanie skró-
tów. W przytoczonych przykładach mogą to być odpowiednio 𝐽𝐾 , 𝑀𝑁, 𝐹𝐺 lub 𝑀1 , 𝑀2 , … , 𝑀𝑛 –
w przypadku populacji mieszczan; Krotoszyn, Gniezno, Powidz lub 𝑃1 , 𝑃2 , … , 𝑃𝑛 – w badaniach doty-
czących powiatów oraz PL, GE – w przykładzie opisującym państwa europejskie.
jest zbiorem kompletnym lub częściowo kompletnym, to w przypadku zmiennych takiego efektu ni-
gdy nie da się uzyskać. Jednak dzięki odpowiednio dobranym własnościom można badane obiekty
rozróżnić między sobą. Z zagadnieniem tym mamy do czynienia szczególnie wtedy, gdy badana cecha
odnosi się nie tyle do atrybutu obiektu, np. liczby mieszkańców, ale do zjawiska np. poziomu rozwoju
gospodarczego czy warunków życia ludności (ZELIAŚ 2000a, s. 35). Dla przykładu zamożność miesz-
kańców miast można wyrazić za pomocą takich zmiennych, jak: przeciętny dochód [zł/osobę], wiel-
kość powierzchni mieszkaniowej [m2/osobę] czy chociażby udział wydatków na żywność
w wydatkach ogółem [%] itd. Co więcej, szczególnie w kontekście badań historycznych może wystą-
pić taka niedogodność, że określonej cechy obiektów nie da się po prostu zmierzyć, a co za tym idzie,
nie da się jej uwzględnić w badaniu. Oznacza to, że „sprawa wyboru cech jest zawsze problemem
otwartym, a więc wymaga korzystania nie tylko z argumentów merytorycznych, lecz także formal-
nych” (HELLWIG 1997, s. 187).
Zeliaś (1982 oraz 2000a, s. 37-38) podkreśla, że dobór zmiennych pod względem merytoryczno-
-formalnym powinien uwzględniać takie kwestie, jak uniwersalność oraz mierzalność zmiennych.
Należy zatem brać pod uwagę takie zmienne, które odznaczają się wysoką wartością merytoryczną
o uznanym powszechnie znaczeniu i mające jednoznaczną interpretację. W badaniach historycznych
niewątpliwie ważna jest także jakość danych z punktu widzenia ich dokładności i obciążenia błędami
przypadkowymi. Konieczne jest zatem zwrócenie uwagi na źródła danych, będących punktem wyjścia
do grupowania. Kluczowa jest także kwestia dostępności danych liczbowych, opisujących cechy
obiektów grupowanych. W badaniach taksonomicznych należy pamiętać, że zestaw danych powinien
był kompletny. W przypadku braku informacji można posłużyć się metodami szacowania brakujących
danych (zob. np.: GRABIŃSKI i in. 1979; GAŁUSZKA 1992a, 1992b, 1994).
W badaniach demograficznych i badaniach dotyczących gospodarki rzadko udaje się w pełni scha-
rakteryzować analizowane zjawisko, wykorzystując jedynie jedną cechę wyrażoną jedną zmienną.
Zwykle mamy sytuację, w której każdej z jednostek zbiorowości przypisane jest wiele zmiennych.
Stąd konieczność przeprowadzania analiz wielowymiarowych. W podejściu opisowym obserwacje
wielowymiarowe można zapisać w dobrze znanej formie tabelarycznej (por. BALICKI 2009, s. 24-
-25). Przykładem takiej prezentacji jest tabela 3.1. W tak zdefiniowanym zestawieniu każdy wiersz
odpowiada jednej z uwzględnionych w badaniu jednostek, natomiast każda kolejna kolumna dotyczy
kolejnej zmiennej opisującej badane jednostki. Zatem wartości 𝑥𝑖𝑗 dotyczą obserwacji 𝑗-tej zmiennej
na 𝑖-tej jednostce.
Tabela 3.1. Przykład opisowej prezentacji danych ilościowych w formie macierzy obserwacji
Zmienne
Obiekty
𝑿𝟏 𝑿𝟏 … 𝑿𝒎
𝝎𝟏 𝑥1;1 𝑥1;2 … 𝑥1𝑚
𝝎𝟐 𝑥2;1 𝑥2;2 … 𝑥2𝑚
… … … … …
𝝎𝒏 𝑥𝑛1 𝑥𝑛2 … 𝑥𝑛𝑚
Znajomość zbioru jednostek i zmiennych ich opisujących pozwala na zapisanie ich w formie ma-
cierzy obserwacji, nazywanej także macierzą danych (zob. np.: WYSOCKI 2010). Macierz ta
uwzględnia obserwacje wszystkich zmiennych na wszystkich badanych jednostkach. Jeżeli przyjmie-
my, że w badaniu bierze udział 𝑛-jednostek, a każda z nich jest opisana przez 𝑚-zmiennych, to
wspomnianą macierz obserwacji można przedstawić następująco:
𝑥1;1 𝑥1;2 … 𝑥1𝑚
𝑥 𝑥2;2 … 𝑥2𝑚
𝑿 = [ …2;1 … … … ], [3.3]
𝑥𝑛1 𝑥𝑛2 … 𝑥𝑛𝑚
gdzie:
𝑿 – macierz obserwacji o wymiarach 𝑛 × 𝑚,
𝑥1;2 – obserwacja drugiej zmiennej uwzględnionej w badaniu na pierwszej z analizowanych jedno-
stek badanej zbiorowości.
Jak widać, zarówno tabela danych (tabela 3.1), jak i macierz obserwacji 𝑿 [3.3], prezentują ten
sam zbiór informacji. Oczywiście macierz obserwacji ma znaczenie techniczne w wielowymiarowych
analizach statystycznych. Zatem w sytuacjach, w których występuje konieczność prezentacji danych
ilościowych, bardziej przejrzystą formą jest wykorzystanie w tym celu tabeli. Z kolei jeżeli dane ilo-
ściowe mają służyć jako punkt wyjścia do dalszych obliczeń, niezbędnych w grupowaniu wielowy-
miarowym, dogodniejsza jest forma macierzowa.
Nieco inaczej wygląda sytuacja, kiedy badaniu podlega zjawisko, które poza uwzględnieniem
obiektów i ich cech analizowane jest dodatkowo w perspektywie czasowej (ZELIAŚ 2000a, s. 52).
Wtedy oprócz danych przekrojowych należy uwzględnić także czynnik czasu. W takim przypadku
można mówić o danych przekrojowo-czasowych. Dynamiczna analiza pozwala na kompleksowe
badanie zmian strukturalnych w poszczególnych jednostkach, a w konsekwencji ustalenie zależności
przyczynowo-skutkowych pomiędzy różnymi elementami struktur w całym rozpatrywanym okresie
(WYDYMUS 1988, s. 180). W ten sposób dla każdego okresu powinna być wyznaczona odrębna ma-
cierz obserwacji. Analiza dwóch okresów (𝑇 = 2) powoduje konieczność zbudowania dwóch takich
tablic. W takiej sytuacji zapiszemy 𝑡 = 1, 2. Oczywiście możliwe jest zastosowanie bardziej czytelne-
go zapisu, np.: 𝑡 = 1950, 1951 lub – w przypadku gdy analizowane są okresy miesięczne – np.:
𝑡 = 𝑉, 𝑉𝐼. Ogólnie macierz obserwacji dla 𝑡-tego okresu można zapisać następująco:
𝑡 𝑡 𝑡
𝑥1;1 𝑥1;2 … 𝑥1𝑚
𝑡 𝑡 𝑡
𝑿𝒕 = 𝑥2;1 𝑥2;2 … 𝑥2𝑚 , [3.4]
… … … …
𝑡
[ 𝑥𝑛1 𝑡
𝑥𝑛2 𝑡
… 𝑥𝑛𝑚 ]
gdzie:
𝑿𝒕 – macierz obserwacji wyznaczona dla 𝑡-okresu, przy czym 𝑡 = 1, 2, … , T,
𝑡
𝑥𝑖𝑘 – obserwacja 𝑘-tej zmiennej w 𝑖-tej jednostce w okresie 𝑡-tym.
3.2. Cechy zbiorowości, pomiar i zmienne 35
W literaturze tak zdefiniowany zbiór nazywany jest kostką danych (zob. np.: GRABIŃSKI i in.
1990, s. 78-83; TAKSONOMIA STRUKTUR… 1998, s. 45; ZELIAŚ 2000a, s. 99). Tego typu zapis ma
szczególne znaczenie w porównaniach w czasie złożonych procesów. Został on np. zaproponowany
przez Danutę Strahl do oceny procesów transformacji strukturalnej w krajach przechodzących
z gospodarki centralnie planowanej do rynkowej (STRAHL 1997) lub w pracy SOKOŁOWSKIEGO
i ZAJĄCA (1987) do opisu rozwoju demograficznego i gospodarczego w Polsce i w świecie w latach
1975-1981. Zestawienie materiału liczbowego w postaci kostki danych pozwala zatem na klasyfikację
w przestrzeni obiektów, na klasyfikację w przestrzeni zmiennych oraz na klasyfikację w przestrzeni
czasu. Przedmiotem klasyfikacji może być zatem grupowanie obiektów w ujęciu jednowymiarowym,
wielowymiarowym i dynamicznym. Co więcej, metody taksonomiczne pozwalają na dobór zmiennych
diagnostycznych, szczególnie istotny przy wcześniej zasygnalizowanych zagadnieniach (POCIECHA
i in. 1988, s. 23-32; GRABIŃSKI 1992, s. 19-22). W prezentowanym opracowaniu przykładowa analiza
tego typu dotyczy struktury wpływów podatkowych z działalności indywidualnej w powiatach woje-
wództwa poznańskiego w latach 1958-1970. Został on zaprezentowany w rozdziale dwunastym.
Jak wspomniano wcześniej, wartości cech – zmienne – zostają uzyskane w wyniku przeprowadzonego
pomiaru, wyrażonego w stosownej skali pomiarowej. Pomiar zmiennych dokonany na pojedynczej
jednostce to obserwacja. Pomiar zatem ma na celu liczbowe wyrażenie cechy lub zbioru cech. Pro-
blem polega na tym, iż zbiór liczb rzeczywistych posiada szereg własności, które wynikają z faktu, że
między liczbami zachodzą rozmaite relacje, jak np.: równość, większość, a na liczbach mogą być wy-
konywane różnego rodzaju operacje, jak np. dodawanie, mnożenie, dzielenie. PAWŁOWSKI (1969,
s. 126-127) podkreśla, że liczba tych własności może być – zależnie od rodzaju mierzonej cechy –
różna. Różna jest także wartość informacyjna liczb będących wynikiem pomiaru (WIŚNIEWSKI 1986).
Stąd jedną z kluczowych kwestii w analizie statystycznej jest określenie typu skali pomiarowej,
w których zostały zmierzone badane cechy, a w konsekwencji wyrażone – uzyskane w wyniku pomia-
ru – zmienne.
Określenie skali pomiarowej, w której wyrażone zostały zmienne opisujące badane obiekty, jest
ważne przede wszystkim ze względu na fakt, że metody statystycznej analizy wielowymiarowej wy-
magają przyjęcia założenia o jednorodności skal pomiaru badanych zmiennych (zob. np.
WALESIAK 1993b, s. 34; 1996b, s. 22). Od typu skali zależy, jakie operacje na liczbach przyporząd-
kowanych cechom w wyniku pomiaru dają sensowne wyniki ze względu na cel badania
(CHOYNOWSKI 1971, s. 23). W konsekwencji typ skali pomiarowej decyduje o dopuszczalności kon-
kretnych metod wielowymiarowej analizy porównawczej (WALESIAK 1996b, s. 23-24;
EKONOMETRIA… 1991, s. 28-30; PANEK 2009, s. 15-16).
W literaturze najczęściej stosowany jest podział zaproponowany przez Stanleya S. STEVENSA
(1951, 1959) na skalę nominalną, porządkową, przedziałową oraz ilorazową. Skale nominalną
i porządkową nazywa się niemetrycznymi lub typu jakościowego. Natomiast dwie pozostałe skale –
interwałowa i ilorazowa – nazywane są w literaturze skalami metrycznymi lub typu ilościowego (zob.
np.: BABIŃSKI 1980, s. 56-58; STECZKOWKI, ZELIAŚ 1981, s. 18; POCIECHA 1986, s. 35; WALESIAK,
BĄK 2000, s. 16; KACZMARCZYK 2002). AFIFI i CLARK (1998, s. 16) mówią z kolei o podziale na
36 3. Podstawowe zagadnienia wielowymiarowej analizy statystycznej
Najsłabszą z wymienionych przez Stevensa (1951, 1959) jest skala nominalna. Liczby tej skali pełnią
rolę symboli, zastępujących zazwyczaj nazwę (CHOYNOWSKI 1971, s. 24; WIŚNIEWSKI 1987). Zatem
obiekty na tej skali mogą być przyporządkowane do kilku grup. Przykładem cech wyrażonych w tej
skali jest płeć. Kategorie zmiennej zmierzonej w ten sposób – stany – będą tylko dwie: kobieta, męż-
czyzna. Cecha ta jest szczególnym przypadkiem skali nominalnej, nazywanej także skalą dychoto-
miczną. Stosuje się ją, gdy zmienne są dwuwartościowe lub zmiennymi są pytania, na które można
odpowiedzieć tylko tak lub nie (np.: Czy w danym regionie występował przemysł ciężki?).
Skala nominalna może być również wielostanowa. Z takim przypadkiem mamy do czynienia, gdy
analizowany jest wykonywany zawód (argumenty to np.: kowal, szewc, krawiec…) czy pochodzenie
społeczne (inteligenckie, chłopskie, robotnicze). Przykładami cech mierzonych w skali nominalnej
wielostanowej są także rasa, gatunek, religia. W badaniach historycznych można się spotkać z takimi
cechami nominalnymi wielostanowymi, jak: przynależność powiatu do zaboru (zabór pruski, zabór
austriacki, zabór rosyjski) czy województwo (poznańskie, mazowieckie, pomorskie...).
Dwa obiekty opisane cechami mierzonymi w skali nominalnej mogą występować względem siebie
tylko w dwóch relacjach: relacji równości – tzn. że oba obiekty odznaczają się takim samy poziomem
badanej cechy, lub relacji różności – obiekty różnią się poziomem badanej cechy. Zatem na podstawie
wartości badanej cechy wyrażonej w tej skali można stwierdzić, że dwa obiekty są sobie równe lub
różne. Jeżeli cechy badanych obiektów są mierzone w skalach nominalnych, to w takim przypadku nie
można wykonać żadnych operacji arytmetycznych z wyjątkiem zliczania tych samych przypadków
w każdej kategorii i porównywania ich liczebności. Spośród miar położenia można zastosować jedy-
nie wartość modalną, a więc wyznaczyć ten wariant mierzonej cechy, który występuje najczęściej.
Jeżeli możliwe jest uporządkowanie kategorii analizowanej cechy, to mówimy że cecha jest mierzona
w skali porządkowej. Przykładem takiego pomiaru może być cecha poziom wykształcenia (z katego-
riami podstawowe, średnie, wyższe), stopień wojskowy (z kategoriami kapral, pułkownik, generał…)
lub cecha wielkość miejscowości (miasto stołeczne, wojewódzkie, powiatowe, siedziba gminy). Inne
przykłady to status społeczno-ekonomiczny czy ranking win. Kategorie cechy wyrażonej w skali po-
rządkowej to rangi, które można uporządkować rosnąco lub malejąco, czyli porangować.
Skala porządkowa jest silniejsza niż skala nominalna. W tym przypadku możliwe jest zatem zli-
czanie obserwacji w poszczególnych kategoriach oraz porządkowanie obiektów ze względu na poziom
badanej cechy. Obiekty, których cechy wyrażone są w skali porządkowej, mogą występować w relacji
równości, różności oraz relacji większości i mniejszości. W ramach tego typu cech można wyznaczyć
medianę oraz odchylenie ćwiartkowe (por. WALESIAK 1993b, s. 41-47; CHOYNOWSKI 1971, s. 26-27;
CHOJNICKI, Czyż 1973, s. 18-19).
Wiele operacji matematycznych jest jednak w ramach skali porządkowej niedozwolonych. Trudno
uzasadnić logicznie operację dodawania w tej skali, choć jest to możliwe matematycznie. Dla przykła-
3.3. Typy skal pomiarowych 37
du trudno byłoby zgodzić się ze stwierdzeniem, że kompetencje dwóch osób w stopniu pułkownika
i kaprala są tożsame z kompetencjami jednego generała (WIŚNIEWSKI 2014). W ten sposób nie jest
dozwolone również odejmowanie rang lub ich mnożenie czy dzielenie.
Jeszcze więcej możliwości arytmetycznych daje zmierzenie cechy w skali przedziałowej, inaczej
nazywanej też skalą interwałową. BŁACZKOWSKA i STANIMIR (2006, s. 17-26) podkreślają, że skala
przedziałowa jest skalą porządkową wzbogaconą o relację równości różnic i przedziałów. Pomiar jest
dokonywany na tej skali wtedy, kiedy zbiór wartości mierzonej cechy należy do liczb rzeczywistych
i można te wartości uporządkować na osi liczbowej. Skala ta nie ma naturalnego początku w zerze.
Zero jest przyjmowane arbitralnie lub na podstawie konwencji (WALESIAK 1996b, s. 22). Nie jest
więc dozwolone ani mnożenie, ani dzielenie liczb na tym poziomie pomiaru, gdyż operacje te wynika-
ją z założenia istnienia rzeczywistego punktu zerowego (WIŚNIEWSKI 1987). Przykładem zmiennych
wyrażonych w tej skali jest temperatura wyrażona w stopniach Celsjusza, wynik finansowy, wysokość
względna.
Dzięki wprowadzeniu jednostki miary można analizować relacje obiektów, których cechy zostały
wyrażone w tej skali, stosując relację równości, nierówności, większości i mniejszości, równości róż-
nic i przedziałów. Możliwe jest także wykonywanie operacji arytmetycznych, takich jak dodawanie,
odejmowanie (WALESIAK 1996b, s. 21). Spośród miar położenia (zob. tabela 3.3) dla zmiennych wy-
rażonych w skali interwałowej można wyznaczać średnią arytmetyczną. Z kolei dozwolone miary
rozproszenia to wariancja, odchylenie standardowe, odchylenie przeciętne oraz rozstęp. Marek
WALESIAK (1990) podkreśla jednak, że dla zmiennych wyrażonych w tej skali nie należy stosować
spośród miar położenia średniej geometrycznej i harmonicznej, a spośród miar rozproszenia współ-
czynnika zmienności, ponieważ miary te nie gwarantują wyników niezmiennych względem dopusz-
czalnych przekształceń na tej skali. Z kolei Mieczysław CHOYNOWSKI (1971, s. 27-29) zauważa, że
w niektórych przypadkach skale porządkowe można traktować jak skale przedziałowe, jednak tylko
przy trudnym do zweryfikowania założeniu, iż mierzona zmienna jest w populacji rozłożona normal-
nie oraz że kategorie cechy porządkowej są sobie równoważne.
Najsilniejszą skalą jest skala ilorazowa, nazywana także skalą stosunkową (CHOYNOWSKI 1971,
s. 29-30). Oprócz możliwości, jakie dawało wyrażenie zmiennej w skali interwałowej, występuje tu
równość stosunków między poszczególnymi wartościami skali. Zbiór możliwych wartości zmiennej
(cechy) należy do zbioru R+. Istnieje w tej skali naturalny punkt zerowy, który oznacza zupełny brak
mierzonej zmiennej (WALESIAK 1990 za: ACKOFF 1969 s. 240). Przykłady pomiarów cech w tej skali
to temperatura wyrażona w stopnia Kelwina, wiek, ciężar, dochody ludności, zyski czy cena, liczba
mieszkańców, wielkość armii. Specyficzną grupę zmiennych wyrażonych w tej skali stanowią typowe
dla badań demograficznych wskaźniki struktury (KURKIEWICZ 1992, s. 38-39; MŁODAK 2006,
s. 52). Taka sytuacja ma miejsce, jeżeli cały zakres charakterystyk liczbowych dotyczy jednego kon-
kretnego zjawiska społeczno-gospodarczego, np. struktury wiekowej ludności lub struktury produkcji.
Przedmiotem badania jest wtedy zróżnicowanie danej zbiorowości pod względem kształtowania się
38 3. Podstawowe zagadnienia wielowymiarowej analizy statystycznej
owego zjawiska. Wskaźniki struktury pozwalają na porównania zarówno jednostek czasu, jak
i jednostek przestrzennych.
Wprowadzenie absolutnego punktu zerowego pozwala na poszerzenie możliwości, jakie daje skala
interwałowa oraz równości stosunków pomiędzy poszczególnymi wartościami skali. W przypadku
zmiennych wyrażonych w tej skali można dokonywać operacji mnożenia i dzielenia. Spośród metod
statystyki opisowej wymienia się tutaj metody charakterystyczne dla skali przedziałowej oraz średnią
geometryczną i harmoniczną, średnią arytmetyczną kwadratową, współczynnik zmienności. Przykłady
zastosowań tych miar w badaniach historycznych przedstawił np. TOPOLSKI (1984, s. 423-430).
Świadomość skali, w której jest wyrażona dana cecha jest istotna ze względu na fakt, że na obserwa-
cjach wyrażonych w określonych skalach możliwe jest wykonanie ograniczonej liczby działań mate-
matycznych i statystycznych. Dużo więcej możliwości daje wyrażenie cech w skalach silnych. Zatem
im wyższa skala, tym więcej operacji matematycznych można przeprowadzać na obserwacjach w tych
skalach wyrażonych. Odpowiednie zestawienia przedstawiono w tabelach 3.2 oraz 3.3.
Artur LIPIETA (2000, s. 27, za: BABIŃSKI 1980, s. 47) podkreśla jednak, że podział cech ze wzglę-
du na skale pomiarowe nie zawsze jest jednoznaczny. Przykładem mogą być dochody osobiste: ich
wartość nabywcza nie zawsze jest równa wartości liczbowej. Podobne dylematy dotyczą zmiennej
wiek. Czy różnica pomiędzy 15 a 25 rokiem życia z punku widzenia doświadczenia zawodowego mo-
że być traktowana równoznacznie z dziesięcioleciem pomiędzy 35 a 45 rokiem życia? Z drugiej strony
zmienną zawód można w pewnych zakresach uznać za porządkową, a w pewnych przypadkach jako
nominalną, w zależności od przyjętej klasyfikacji. I tak podział na pracowników fizycznych
i umysłowych można uznać za zmienne wyrażone w skali porządkowej. Z kolei zmienna zawód,
w której kategoriami będą krawcy, stolarze, ślusarze, kolejarze…., uznać można za zmienną wyrażoną
w skali nominalnej.
Jak wspomniano wcześniej, stosowanie metod taksonomicznych, które należą do grupy metod
wielowymiarowych, jest uwarunkowane jednorodnością skal pomiaru zmiennych. Jednak zdarza się,
że zmienne uwzględnione w grupowaniu, wyrażone są w różnych skalach. Konieczne jest zatem ich
ujednolicenie. Z teoretycznego punktu widzenia dozwolone jest jedynie przekształcenie skal mocniej-
szych w słabsze (zob. np.: STECZKOWSKI, ZELIAŚ 1981, s. 17; POCIECHA 1986, s. 38-48). W takiej
sytuacji następuje jednak dobrowolna utrata części informacji. POCIECHA i in. (1988, s. 34) wskazują,
że postulat ten sprowadza się zwykle do transformacji cech badanych w skalę najsłabiej mierzalną. Jak
łatwo się domyślić, transformacja odwrotna jest niemożliwa. Barbara PAWEŁEK (2008, s. 52) wymie-
nia również inne rozwiązania: przeprowadzenie obliczeń osobno dla każdej grupy zmiennych wyod-
rębnionej ze względu na ich skalę pomiarową lub zignorowanie zmiennych, które występują w skali
innej od tej, w której wyrażona jest większość zmiennych. W wyjątkowych sytuacjach zmienne wyra-
żone w słabszych skalach bywają potraktowane jak zmienne wyrażone w skali ilorazowej – zostają
sztucznie wzmocnione. Takie podejście wymaga jednak uwzględnienia dodatkowych informacji
(POCIECHA 1986, s. 48-55).
3.3. Typy skal pomiarowych 39
Tabela 3.2. Podział skal pomiarowych ze względu na dopuszczalne relacje i operacje arytmetyczne
Źródło: CHOJNICKI, CZYŻ 1973, s. 20 za: STEVENS 1959; CHOYNOWSKI 1971, s. 31-32; WALESIAK, BĄK 2000, s. 17,
RÓSZKIEWICZ 2002, s. 134.
Tabela 3.3. Podział wybranych miar opisowych ze względu na zakres zastosowań związany ze skalami pomiaru
Miara Skala
opisowa nominalna porządkowa przedziałowa ilorazowa
położenia modalna mediana średnia arytmetyczna średnia geometryczna,
średnia harmoniczna
zmienności tablice liczebności percentyle rozstęp, współczynnik zmienności
odchylenie standardowe,
odchylenie średnie,
odchylenie ćwiartkowe
asymetrii – percentyle miary asymetrii współczynniki asymetrii
Postulaty
Nazwa formuły Formuła
(1) (2) (3) (4)
′ 𝑥𝑖𝑘 − 𝑥̅𝑘 + + – –
Standaryzacja klasyczna 𝑥𝑖𝑘 =
𝑠𝑘
𝑥𝑖𝑘 − med𝑘 + + – –
′
Standaryzacja pozycyjna 𝑥𝑖𝑘 =
1,4826 mad𝑘
′ 𝑥𝑖𝑘 − 𝑥̅𝑘 + + – –
Unitaryzacja 𝑥𝑖𝑘 =
max 𝑖𝑘 } − min{𝑥𝑖𝑘 }
{𝑥
𝑖 𝑖
𝑥𝑖𝑘 − min{𝑥𝑖𝑘 } + + + +
′ 𝑖
Unitaryzacja zerowana 𝑥𝑖𝑘 =
max{𝑥𝑖𝑘 } − min{𝑥𝑖𝑘 }
𝑖 𝑖
′
𝑥𝑖𝑘 + + – +
Przekształcenia ilorazowe 𝑥𝑖𝑘 =
𝑥̅𝑘
′ 𝑥𝑖𝑘 + + – +
𝑥𝑖𝑘 =
𝑠𝑘
′ 𝑥𝑖𝑘 + + – +
𝑥𝑖𝑘 =
min{𝑥𝑖𝑘 }
𝑖
′
𝑥𝑖𝑘 + + – +
𝑥𝑖𝑘 =
max{𝑥𝑖𝑘 }
𝑖
′
𝑥𝑖𝑘 + + – +
𝑥𝑖𝑘 =
max{𝑥𝑖𝑘 } − min{𝑥𝑖𝑘 }
𝑖 𝑖
′ 𝑥𝑖𝑘 + + – +
𝑥𝑖𝑘 = 𝑛
∑𝑖=1 𝑥𝑖𝑘
′
𝑥𝑖𝑘 + + – +
𝑥𝑖𝑘 =
∑𝑛𝑖=1 𝑥𝑖𝑘
2
(1) wartości niemianowane, (2) ujednolicony rząd wielkości, (3) unormowany zakres zmienności, (4) wartości nieujemne.
Przekształcenia ilorazowe można stosować tylko dla zmiennych wyrażonych w skali ilorazowej.
Źródło: obliczenia własne na podstawie: JAROCKA 2015 za WALESIAK 2011, s. 19; KUKUŁA 2000, s. 79-81.
42 3. Podstawowe zagadnienia wielowymiarowej analizy statystycznej
3.4.1. Standaryzacja
Standaryzacja zmiennych, nazywana również standaryzacją klasyczną, jest jedną z najczęściej sto-
sowanych metod normalizacji (TAKSONOMIA STRUKTUR… 1998, s. 63). Stosowali ją w badaniach
PERKAL (1953a, 1953b), HELLWIG (1968), BERRY (1961), CZYŻ (1971, s. 19). Szczegółową charakte-
rystykę tego podejścia można znaleźć w pracy Juliana PERKALA (1953a, 1953b). CHOJNICKI i CZYŻ
(1973, s. 22) zauważają, że opracowanie danych polega na przyporządkowaniu zmiennym pierwotnym
zmiennych standaryzowanych. Taka transformacja polega na wyrażeniu wartości danej zmiennej
w liczbie odchyleń standardowych dzielących je od średniej arytmetycznej. Zależność tę można
przedstawić za pomocą wzoru:
′ 𝑥𝑖𝑘 − 𝑥̅𝑘
𝑥𝑖𝑘 = , 𝑠𝑘 ≠ 0, [3.6]
𝑠𝑘
gdzie:
′
𝑥𝑖𝑘 – znormalizowana wartość 𝑘-tej zmiennej 𝑖-tej jednostki,
𝑥𝑖𝑘 – początkowa wartość 𝑘-tej zmiennej 𝑖-tej jednostki, przy czym 𝑖 = 1, 2, … , 𝑛,
𝑥̅𝑘 – średnia wartość 𝑘-tej zmiennej po wszystkich jednostkach,
𝑠𝑘 – odchylenie standardowe 𝑘-tej zmiennej po wszystkich jednostkach.
′ 𝑥𝑖𝑘 − med𝑘
𝑥𝑖𝑘 = , mad𝑘 ≠ 0, [3.7]
1,4826 mad𝑘
gdzie:
′
𝑥𝑖𝑘 – znormalizowana wartość 𝑘-tej zmiennej 𝑖-tej jednostki,
𝑥𝑖𝑘 – początkowa wartość 𝑘-tej zmiennej 𝑖-tej jednostki, przy czym 𝑖 = 1, 2, … , 𝑛,
med𝑘 – mediana 𝑘-tej zmiennej po wszystkich jednostkach,
mad𝑘 – medianowe odchylenie bezwzględne 𝑘-tej zmiennej: mad𝑘 = med(|𝑥𝑖𝑘 − med𝑘 |).
Należy podkreślić, że standaryzacja klasyczna i pozycyjna daje porównywalne wartości, jeśli roz-
kład zmiennej jest symetryczny. W przypadku wystąpienia asymetrii standaryzacja pozycyjna jest
bardziej wiarygodna.
Metody unitaryzacyjne charakteryzują się przyjęciem stałego punku odniesienia, który stanowi rozstęp
zmiennej normowanej (KUKUŁA 2000, s. 86). Najbardziej znane podejście w grupie metod funkcjonu-
jących pod tą nazwą prezentuje wzór:
′ 𝑥𝑖𝑘 − 𝑥̅𝑘
𝑥𝑖𝑘 = , max{𝑥𝑖𝑘 } ≠ min{𝑥𝑖𝑘 } [3.8]
max{𝑥𝑖𝑘 } − min{𝑥𝑖𝑘 } 𝑖 𝑖
𝑖 𝑖
gdzie:
′
𝑥𝑖𝑘 – znormalizowana wartość 𝑘-tej zmiennej 𝑖-tej jednostki,
𝑥𝑖𝑘 – początkowa wartość 𝑘-tej zmiennej 𝑖-tej jednostki, przy czym 𝑖 = 1, 2, … , 𝑛,
𝑥̅𝑘 – średnia wartość 𝑘-tej zmiennej po wszystkich jednostkach,
max{𝑥𝑖𝑘 } – maksymalna wartość 𝑘-tej zmiennej po wszystkich jednostkach,
𝑖
min{𝑥𝑖𝑘 } – minimalna wartość 𝑘-tej zmiennej po wszystkich jednostkach.
𝑖
𝑥𝑖𝑘 − min{𝑥𝑖𝑘 }
′ 𝑖
𝑥𝑖𝑘 = , max{𝑥𝑖𝑘 } ≠ min{𝑥𝑖𝑘 } [3.9]
max{𝑥𝑖𝑘 } − min{𝑥𝑖𝑘 } 𝑖 𝑖
𝑖 𝑖
W formule tej wartość zerowa jest określona na poziomie wartości minimalnej, a zmienne unor-
mowane przyjmują wartości z przedziału [0; 1]. Andrzej SOKOŁOWSKI (1998) proponuje, aby zamiast
wartości maksymalnych i minimalnych w unitaryzacji zastosować naturalne punkty referencyjne. Przy
44 3. Podstawowe zagadnienia wielowymiarowej analizy statystycznej
zmiennych wyrażanych w procentach mogłyby to być wartości 0 oraz 100 (por. TAKSONOMIA…
1998, s. 64).
Unitaryzacja zerowana została zastosowana w pracy CHOJNICKIEGO i CZYŻ (1973, s. 43)
w badaniach regionalnych dotyczących 328 powiatów. Podejście to znaleźć można również w pracy
SIEDLECKIEJ (1990), dotyczącej wyposażenia gospodarstw domowych w dobra trwałe oraz NIEMCZYK
(2001) badającej poziom rozwoju społecznego w nowych województwach Polski w 1999 r. Unitary-
zację zerowaną zastosowała także NOWAK (2004, s. 65) w badaniach potencjału przestrzennego.
(2,24 − 1,749)2 |2,24 − 1,662| 2,24 − 1,749 2,24 − 1,662 2,24 − 1,749 2,24 − 1,134
Wschowa 2,240 = 1,121 = 0,253 = 0,298 = 0,672
= 0,241 = 0,579 0,438 1,4826 ∗ 1,542 2,78 − 1,134 2,78 − 1,134
24,487 2,690
min{𝑥𝑖1 } = 1,134; med1 = 1,662; max{𝑥𝑖1 } = 2,780; 𝑥̅1 = = 1,749, 𝑠1 = √ = 0,438, mad1 = 1,542
1 1 14 14
* Chcąc obliczyć wartość bezwzględną z różnicy, można wykorzystać dostępną w programie EXCEL funkcję MODUŁ.LICZBY().
Źródło: obliczenia własne na podstawie macierzy danych zawartych danych zawartych w tabeli 1 aneksu A.
46 3. Podstawowe zagadnienia wielowymiarowej analizy statystycznej
Kolejna grupa metod normalizacyjnych to przekształcenia ilorazowe. Mogą one być stosowane tylko
dla zmiennych wyrażonych w skali ilorazowej (WALESIAK 1990, 1996a). Tego typu przekształcenie
zostało przeprowadzone w badaniach STONE (1960, 1970, s. 179-194) oraz w pracach
LICZKOWSKIEGO (1961), BARTOSIEWICZ (1976), PODOLEC i ZAJĄCA (1978), STRAHLA (1978)
i NOWAKA (1979), Własności przekształceń ilorazowych zostały kompleksowo opisane w pracy
KUKUŁY (2000, s. 92-104).
W przypadku przekształcenia ilorazowego, w zależności od przyjętych założeń, wartość zmiennej
dzielona jest przez wartość maksymalną, minimalną, średnią lub inną. Jeżeli punkt odniesienia przyj-
muje wartość zero, to zastosowanie przekształcenia ilorazowego do normalizacji zmiennych jest nie-
możliwe (TAKSONOMIA STRUKTUR… 1998, s. 63):
′ 𝑥𝑖𝑘
𝑥𝑖𝑘 = , 𝑥0𝑘 ≠ 0
𝑥0𝑘
𝑥0𝑘 = 𝑥̅𝑘 lub 𝑥0𝑘 = 𝑠𝑘 , lub 𝑥0𝑘 = min{𝑥𝑖𝑘 } , lub 𝑥0𝑘 = max{𝑥𝑖𝑘 },
𝑖 𝑖 [3.11]
𝑛 𝑛
2
lub 𝑥0𝑘 = max{𝑥𝑖𝑘 } − min{𝑥𝑖𝑘 }, lub 𝑥0𝑘 = ∑ 𝑥𝑖𝑘 , lub 𝑥0𝑘 = ∑ 𝑥𝑖𝑘
𝑖 𝑖
𝑖=1 𝑖=1
gdzie:
′
𝑥𝑖𝑘 – znormalizowana wartość 𝑘-tej zmiennej 𝑖-tej jednostki,
𝑥𝑖𝑘 – początkowa wartość 𝑘-tej zmiennej 𝑖-tej jednostki, przy czym 𝑖 = 1, 2, … , 𝑛,
𝑥̅𝑘 – średnia wartość 𝑘-tej zmiennej po wszystkich jednostkach,
𝑠𝑘 – odchylenie standardowe 𝑘-tej zmiennej po wszystkich jednostkach,
max{𝑥𝑖𝑘 } – maksymalna wartość 𝑘-tej zmiennej po wszystkich jednostkach,
𝑖
min{𝑥𝑖𝑘 } – minimalna wartość 𝑘-tej zmiennej po wszystkich jednostkach.
𝑖
∑𝑛𝑖=1 𝑥𝑖𝑘 – suma wartości 𝑘-tej zmiennej po wszystkich jednostkach.
∑𝑛𝑖=1 𝑥𝑖𝑘
2
– suma kwadratów wartości 𝑘-tej zmiennej po wszystkich jednostkach.
Taka transformacja zmiennych prowadzi do nowej zmiennej, która jest niemianowana o wariancji
równej jeden. Przekształcenia tego typu prowadzą zatem do ujednolicenia wariancji, lecz nie wyrów-
nują położenia rozkładu zmiennej (BALICKI 2009, s. 256-257). Co więcej, należy podkreślić, że prze-
kształcenie ilorazowe wymaga dodatkowej interwencji, gdy punkt odniesienia przyjmuje wartość
ujemną. Wtedy znormalizowanym wartościom zmiennych należy zmienić znak dla zachowania ich
dotychczasowego charakteru (TAKSONOMIA STRUKTUR… 1998, s. 63). Niezależnie jednak od przyję-
tej podstawy dane uzyskane w wyniku przekształceń ilorazowych przyjmują charakter strukturalny.
Dzięki temu możliwe staje się przeprowadzenie porównań podobieństwa lub niepodobieństwa
struktur.
WALESIAK (2004) zwraca uwagę, że przekształcenie ilorazowe z podstawą równą rozstępowi1 za-
pewnia znormalizowanym wartościom cech zróżnicowaną zmienność (mierzoną odchyleniem stan-
dardowym) i jednocześnie stały rozstęp dla wszystkich zmiennych. Z kolei efektem przekształcenia
1 Takimi samymi własnościami charakteryzuje się również opisana wyżej unitaryzacja oraz unitaryzacja zerowana.
3.4. Normalizacja zmiennych 47
ilorazowego2 z podstawą równą odchyleniu standardowemu jest ujednolicenie zmienności cech. Ozna-
cza to wyeliminowanie zmienności jako podstawy różnicowania obiektów. Natomiast przekształcenia
ilorazowe z podstawą normalizacji równą maksimum oraz równą pierwiastkowi z sumy kwadratów
zapewniają znormalizowanym wartościom cech zróżnicowaną zmienność, średnią arytmetyczną oraz
rozstęp (WALESIAK 2004). Przekształcenia ilorazowe, z podstawą normalizacji równą sumie i średniej
arytmetycznej zmiennych, zapewniają znormalizowanym wartościom cech zróżnicowaną zmienność
oraz rozstęp, a także stałą średnią arytmetyczną dla wszystkich zmiennych.
W analizach szeregów czasowych lub przekrojowo czasowych, w których wykorzystywane są
zmienne wyrażone wartościowo, powstaje konieczność doprowadzenia ich do porównywalności po-
przez uwzględnienie np. kursów walut czy poziomu inflacji (PAWEŁEK 2008, s. 60-64). Głównym
celem takich działań jest urealnienie poziomów dochodów i wydatków, które w konsekwencji pozwo-
liłoby na porównywalność danych zebranych w różnych okresach. W tym celu możliwe jest zastoso-
wanie wskaźników dynamiki (zob. np.: SOBCZYK 1997, s. 269-321; ZELIAŚ i in. 2002, s. 174-245) lub
wartości zmiennych skorygowanych o wskaźnik inflacji czy wartość kursu walutowego. Należy zau-
ważyć, że nawet jeśli badacz dysponuje wiarygodnymi wskaźnikami inflacji, to są one uogólnione do
danego roku i danego państwa. Wiadomo jednak, że wzrost cen w różnych gałęziach gospodarki prze-
biega na różnym poziomie. Podobnie ma się sytuacja w przypadku korekty opartej o kursy walutowe.
Przy takich ograniczeniach użyteczne są własności przekształceń ilorazowych. W badaniach histo-
rycznych szczególnie znaczenie odgrywa metoda polegająca na urealnianiu wartości nominalnych,
będących składnikami pewnego agregatu, przez obliczenie ich udziałów w badanej strukturze
(PAWEŁEK 2004). Wyznaczenie udziałów w pewnym agregacie (np. udział kobiet w ludności ogółem,
udział chrześcijan w ludności ogółem…) jest tożsame z ilorazowym przekształceniem normalizacyj-
nym z podstawą równą sumie zmiennych dla wszystkich jednostek biorących udział w badaniu
(PAWEŁEK 2008, s. 61). W efekcie takiego działania otrzymuje się wartości niemianowane
o ujednoliconym zakresie zmienności. Wartości znormalizowane zawierają się w przedziale od [0, 1].
W takiej sytuacji można przeprowadzać porównania przestrzenne, w sposób bezpośredni interpretując
wielkość udziału poszczególnych składników struktury. Wybór przekształcenia ilorazowego jako spo-
sobu normalizacji pozwala także na porównania w czasie. W takim wypadku porównania dotyczą
zmian udziałów w różnej wielkości agregatach. Grupowanie tak zdefiniowanych jednostek pozwala
zatem na opis struktury gospodarczej lub opis struktury społecznej (por. STRAHL 1990, s. 74-75).
W rocznikach statystycznych dane zestawione są często w formie wskaźników udziału w danej
zbiorowości: cały zakres charakterystyk liczbowych dotyczy jednego zjawiska społeczno-
gospodarczego, np. liczba ludności wg wieku. Dzięki temu wszystkie zmienne stanowią część struktu-
ry badanych obiektów lub bezpośrednio prowadzą do ich wyznaczenia. W efekcie przyjmują one war-
tości z przedziału [0; 1] i sumują się do jedności. Tego typu zmienne są zatem z definicji unormowa-
ne – standaryzacja ilorazowa została przeprowadzona wcześniej. Zazwyczaj oprócz tej specyficznej
budowy macierzy obserwacji zmienne strukturalne podlegają takim samy procedurom (zob. np.
MŁODAK 2006, s. 53-57, TAKSONOMIA… 1998, s. 45-56).
W przypadku zmiennych wyrażonych w skali porządkowej nie jest możliwe przeprowadzanie opisanej
wyżej standaryzacji czy unitaryzacji zmiennych. Jednak porównanie wielowymiarowe obiektów opi-
sanych za pomocą tego typu zmiennych przysparza trudności wynikających z różnej liczby i typu rang
przypisanych do różnych zmiennych. Ze względów obliczeniowych należy wybrać także taki sposób
zapisu, aby możliwe było przeprowadzenie dozwolonych operacji matematycznych (por. tabelę 3.2).
Zatem w przypadku zmiennych wyrażonych w skali porządkowej konieczne jest przeprowadzenie
kodowania oraz w niektórych przypadkach normalizacji.
Istnieje kilka podejść do tego problemu. W literaturze zdarza się, że badacze sprowadzają zmienne
wyrażone w skali porządkowej do skali dychotomicznej, dla której dostępnych jest więcej opracowań
i rozwiązań metodycznych, a operacje matematyczne na nich przeprowadzane są prostsze. Wiąże się
to jednak z utratą części informacji oraz subiektywną decyzją badacza, które kategorie uogólnić do
wartości zero, a które do wartości jeden. Inne podejście polega na zastąpieniu zapisu „200-400” war-
tościami stanowiącymi środek danego przedziału (SOBCZYK 1997, s. 32). Dużym plusem tego rozwią-
zania jest zachowanie odległości pomiędzy środkami przedziałów. Niemniej jednak zwykle przyspa-
rza trudności wyznaczenie środka przedziału w przypadku przedziałów brzegowych, gdy nie ma jasno
określonego początku lub końca przedziału, np.: „>40” lub „<5”.
Wydaje się, że najprostszym rozwiązaniem wspomnianego problemu jest przypisanie wartościom
porządkowym kolejnych liczb naturalnych. To podejście skłania do przeprowadzania na tak zakodo-
wanych zmiennych niedozwolonych dla tej skali operacji matematycznych. Mimo to należy pamiętać,
aby przez takie działania nie wzmocnić skali pomiarowej, co – jak wspomniano wcześniej – jest za-
biegiem niedopuszczalnym. W przypadku zmiennych (nawet zakodowanych liczbowo) wyrażonych
w skali porządkowej dozwolone jest jedynie zliczanie zdarzeń i relacji (por. tabelę 3.2). Wspomniane
kodowanie jest dość często stosowane w przypadku badań regionalnych (por. PLIT 1979).
Co więcej, część autorów dąży do tego, aby zmienne niezależnie od liczby kategorii zostały unor-
mowane. W tym przypadku możliwa jest implementacja rozwiązania, które zaproponowała
ZAKRZEWSKA (1987), powołując się na STEINHAUSENA i LANGERA (1977):
′ 𝑟𝑖𝑘
𝑥𝑖𝑘 = , [3.12]
𝑟𝑘
gdzie:
′
𝑥𝑖𝑘 – znormalizowana wartość 𝑘-tej zmiennej 𝑖-tej jednostki,
𝑟𝑖𝑘 – ranga 𝑘-tej zmiennej 𝑖 -tej jednostki,
𝑟𝑘 – ilość rang wyodrębnionych w ramach 𝑘-tej zmiennej.
Z tych względów w rozdziale tym osobno zostały scharakteryzowane miary niepodobieństwa sto-
sowane w przypadku, gdy obiekty zostały opisane zmiennymi wyrażonymi w różnych skalach, oraz
rozwiązania stosowane w badaniach przestrzennych i dynamicznych. Należy podkreślić, że przedsta-
wione miary w żadnym obszarze nie wyczerpują szerokiego wachlarza miar znanych w literaturze. Nie-
mniej jednak wydaje się, że ze względu różnorodny charakter analizowanych zagadnień historycznych
jest on wystarczający, a zainteresowanym szerzej tematem pomoże przytaczana w poszczególnych pod-
rozdziałach literatura.
Zasadniczą grupę miar niepodobieństwa stanowią współczynniki odległości. Jeżeli odległość między
obiektami jest bliska zeru, to obiekty są do siebie podobne. Wraz ze wzrostem mierzonej odległości
wzrasta „niepodobieństwo” obiektów (LIPIETA 2000, s. 29-30). Pojęcie odległości pomiędzy punktami
wielowymiarowymi – opisanymi wieloma zmiennymi – z rachunkowego punktu widzenia oparto na
założeniach geometrii analitycznej. W tym znaczeniu rozważa się odległości między punktami
w 𝑚-wymiarowej przestrzeni euklidesowej. Wymiar tej przestrzeni jest zatem równy liczbie zmiennych
opisujących porównywane obiekty (CHOJNICKI, CZYŻ 1973, s. 37; GUZIK 1989; BALICKI 2009, s. 214).
Ponadto przestrzeń cech jest przestrzenią metryczną. Oznacza to, że dowolnej parze punktów (𝑥𝑖 ; 𝑥𝑗 )
można przypisać nieujemną liczbę 𝑑𝑖𝑗 , zwaną odległością między tymi punktami. Im mniejsza wartość
odległości tym większe podobieństwo jednostek.
Odległość metryczna pomiędzy punktami (nazywana również metryką), spełnia kilka warunków
(WYDYMUS 1988; BALICKI 2009, s. 214). Odległość miedzy dwiema jednostkami nie może być ujemna.
Warunek ten znany jest jako warunek nieujemności i można go zapisać następująco:
𝑑𝑖𝑗 ≥ 0 ⇔ 𝑥𝑖 ≠ 𝑥𝑗 . [4.1]
Odległość między jednostkami jest równa zeru wtedy i tylko wtedy, gdy jednostki te są identyczne.
Z pomocą odległości metrycznej nie można zatem rozróżnić jednostek identycznych, natomiast jed-
nostki nieidentyczne są przez metrykę rozróżniane. Warunek ten – warunek identyczności – można
zapisać w formie równania:
𝑑𝑖𝑗 = 0 ⇔ 𝑥𝑖 = 𝑥𝑗 . [4.2]
Z kolei warunek symetrii głosi, że odległość między 𝑖-tą jednostką a jednostką 𝑗-tą, jest taka sama jak
odległość pomiędzy jednostką 𝑗-tą a jednostką 𝑖-tą, a więc liczona w przeciwnym kierunku:
𝑑𝑖𝑗 = 𝑑𝑗𝑖 . [4.3]
Natomiast warunek trójkąta – oznacza, że suma odległości pomiędzy 𝑖-tą jednostką a jednostką 𝑗-tą
(𝑑𝑖𝑗 ) oraz odległości pomiędzy jednostką 𝑗-tą a jednostką 𝑙-tą (𝑑𝑗𝑙 ) nie jest mniejsza od odległości po-
między jednostką 𝑖-tą oraz jednostką 𝑙-tą (𝑑𝑖𝑙 ):
𝑑𝑖𝑙 ≤ 𝑑𝑖𝑗 + 𝑑𝑗𝑙 . [4.4]
Zatem dla każdej pary jednostek wielowymiarowych możliwe jest wyznaczenie odległości między
nimi. Ich zestawienie tworzy macierz odległości 𝑫 o wymiarze (𝑛 × 𝑛). Wymiar tej macierzy jest zatem
zgodny z liczbą jednostek. Macierz odległości zawiera uporządkowane odległości pomiędzy każdą jed-
nostką a pozostałymi jednostkami w przestrzeni zmiennych.
4.1. Miary odległości 51
0 𝑑1;2 ⋯ 𝑑1𝑛
𝑑 0 ⋯ 𝑑1𝑛
𝑫 = [ 2;1 ], [4.5]
⋮ ⋮ ⋱ ⋮
𝑑𝑛1 𝑑𝑛2 ⋯ 0
gdzie 𝑑1;2 – to wartość odległości pomiędzy pierwszą a drugą jednostką.
Macierz odległości jest macierzą kwadratową, ponieważ posiada tyle samo wierszy i tyle samo ko-
lumn, ile w badaniu jest porównywanych jednostek. Na przekątnej tej macierzy znajdują się zera. Są
one wynikiem spełnienia warunku identyczności (wzór [4.2]). Z warunku symetrii (wzór [4.3]) wynika
natomiast, że jest to także macierz trójkątna: odpowiednie wartości nad i pod przekątną są sobie równe.
Z kolei warunek nieujemności (wzór [4.1]) determinuje, że jest to macierz dodatnio określona. W sumie
macierz ta zawiera zatem 𝑛(𝑛 − 1)/2 odległości taksonomicznych.
Istnieje wiele sposobów definiowania odległości. Wybór metody zależy przede wszystkim od skali,
w której zostały wyrażone zmienne będące podstawą grupowania (PAWEŁEK 2006). Zatem oddzielną
grupę będą stanowiły odległości zbudowane dla cech nominalnych i porządkowych. Inne miary stosowane
są natomiast w przypadku wyznaczania odległości pomiędzy obiektami, które zostały scharakteryzowane
za pomocą cech wyrażonych w skalach ilościowych. PODOLEC i SZYMANOWICZ (1984) zwracają także
uwagę na takie czynniki ważne przy doborze miary odległości, jak konieczność (lub niekonieczność) nor-
malizacji, rodzaj grupowanych obiektów, możliwość zastosowania wag czy wzorca. Nie bez znaczenia
jest również dostępność oprogramowania i sposób wizualizacji efektów grupowania (MUCHA 2012).
Badania w obszarze miar podobieństwa i niepodobieństwa są bardzo bogate. Ich przegląd zawierają
między innymi publikacje CORMACKA (1971), GOWERA (1971), SEATHA i SOKALA (1973, s. 121-146),
RUTKOWSKIEGO (1981), KAUFMANA i ROUSSEEUWA (2005, s. 3-37) czy MUCHY (2012). Najwięcej
opracowań dotyczy miar odległości dla obiektów opisanych za pomocą zmiennych wyrażonych w moc-
nych skalach, a zatem w skali interwałowej lub ilorazowej. W większości przypadków miary te speł-
niają własności metryki odległości (ZABORSKI 2001, s. 44). Jeżeli porównuje się struktury obiektów
wielocechowych, należy zastosować odpowiednie miary niepodobieństwa tych obiektów. Przegląd ta-
kich odległości można znaleźć między innymi w pracach: GRABIŃSKIEGO (1992, s. 28-34), WYDYMUSA
(1988, s. 170) czy w TAKSONOMII STRUKTUR… (1998, s. 56-57).
Pierwszą grupę stanowią metryki związane z odległością Minkowskiego. Miary te stosuje się zwykle,
gdy analizowane jest podobieństwo obiektów ze względu na poziom wartości zmiennych (GRABIŃSKI
1992, s. 31). Przyjmują one postać ogólną:
1
𝑚 𝜔
𝜔 [4.6]
𝑑𝑖𝑗 = [∑|𝑥𝑖𝑘 − 𝑥𝑗𝑘 | ] ,
𝑘=1
gdzie:
𝑑𝑖𝑗 – wartość odległości pomiędzy 𝑖-tą a j-tą jednostką,
𝑥𝑗𝑘 – obserwacja 𝑘-tej zmiennej na 𝑖-tej jednostce, przy czym 𝑘 = 1, 2, … , 𝑚,
𝑘 – numer analizowanej zmiennej opisującej i-tą oraz 𝑗-tą jednostkę,
𝜔 – stała.
52 4. Miary podobieństwa i niepodobieństwa
Analizując wzór [4.6], można zauważyć, że wyznaczenie odległości Minkowskiego polega na po-
równaniu poszczególnych zmiennych w badanej parze jednostek (w jednostce 𝑖-tej oraz 𝑗-tej). Jeżeli
obliczamy odległość pomiędzy dwoma jednostkami, to konieczne jest obliczenie różnicy pomiędzy war-
tością każdej zmiennej w obu jednostkach. Zakładając, że obiekty opisane zostały za pomocą 𝑚 zmien-
nych, to takich różnic należy wyznaczyć właśnie 𝑚. W kolejnym kroku wartości bezwzględne tych
różnic podnoszone zostają do potęgi 𝜔. Następnie oblicza się sumę takich wyrażeń. Ostatecznie, otrzy-
mana suma zostaje spierwiastkowana, przy czym pierwiastek jest stopnia 𝜔.
Pozostaje zatem do zdefiniowania stała 𝜔. Jeżeli w wzorze [4.6] przyjęte zostanie założenie, że
𝜔 = 2, to mamy do czynienia z najbardziej powszechną odmianą odległości Minkowskiego, nazywaną
odległością euklidesową lub odległością Euklidesa:
1
𝑚 2
2 [4.7]
𝑑𝑖𝑗 = [∑(𝑥𝑖𝑘 − 𝑥𝑗𝑘 ) ] ,
𝑘=1
gdzie oznaczenia są analogiczne jak we wzorze (4.6).
Odległość Euklidesa odzwierciedla najkrótszą drogę między dwoma obiektami – odległość w linii
prostej. Nie oznacza to jednak, że jest ona zawsze polecana w badaniach wielowymiarowych. Wyko-
rzystanie odległości euklidesowej do wyznaczenia podobieństwa obiektów wiąże się ze zwiększeniem
(spotęgowaniem) roli tych elementów, między którymi różnice są największe (RUTKOWSKI 1981). Od-
ległość tę NOWAK (1990, s. 104-105) rekomendował jako jedną z możliwości porównywania obiektów
ze względu na ich strukturę.
Jeżeli w badaniu ważne jest uwypuklenie różnic pomiędzy obiektami, które są bardziej oddalone, to
można posługiwać się także kwadratową odległością euklidesową czyli kwadratem odległości eukli-
desowej. Przykładem jej zastosowania jest m.in. publikacja poznańskich matematyków Michała Karoń-
skiego i Tadeusza Calińskiego (zob. KAROŃSKI, CELIŃSKI 1973b). Formuła kwadratowej odległości
euklidesowej przyjmuje postać:
𝑚
2
𝑑𝑖𝑗 = ∑(𝑥𝑖𝑘 − 𝑥𝑗𝑘 ) , [4.8]
𝑘=1
gdzie oznaczenia są analogiczne jak we wzorze [4.6].
Stosowanie tej metryki jest polecane w przypadku, gdy w kolejnym etapie analizy skupień wybrana
zostanie metoda centroidalna, Warda, średniego zróżnicowania czy sumy kwadratów1. Metryka ta jest
wyborem bezpiecznym (BALICKI 2009, s. 216) z wyjątkiem sytuacji, w których występuje silne skore-
lowanie zmiennych.
Kolejną odmianą odległości Minkowskiego, w przypadku gdy stała 𝜔 = 1, jest odległość miejska.
W literaturze funkcjonuje ona także pod nazwą odległość Manhattan lub odległość taxi. Należy w tym
miejscu podkreślić, że przeciętna odległość miejska, nazywana metryką Czekanowskiego, stosowana
była już 1913 r. przez polskiego antropologa Jana CZEKANOWSKIEGO (1913, s. 167-173)2. Obok odle-
głości euklidesowej to właśnie odległość miejska należy do najczęściej stosowanych miar niepodobień-
stwa (zob. np.: SZCZOTKA 1972; CZYŻ 1971, s. 82). Jej postać analityczna wygląda następująco:
zmienne nie są prostopadłe, nie można operować twierdzeniem Pitagorasa. Silne skorelowanie cech
zatem wyklucza stosowanie odległości Minkowskiego.
Tabela 4.1. Przykłady obliczeń dotyczących odległości wielowymiarowych Minkowskiego między wybranymi powiatami
departamentu poznańskiego w 1810 r.
Z powyższego przykładu wynika, że obliczenia nie są złożone. Niemniej jednak należy ich wykonać
bardzo dużo. W prezentowanym przykładzie dla czternastu obiektów (𝑛 = 14), aby stworzyć macierz
4.1. Miary odległości 55
odległości w oparciu o jedną wybraną metrykę, należy wykonać 𝑛(𝑛 − 1)/2 = 91 obliczeń. W związku
z tym, lepiej skorzystać z wbudowanych algorytmów dostępnych w ramach oprogramowania staty-
stycznego. Dla przykładu w programie Statistica takie obliczenia można przeprowadzić wykorzystując
moduł Statystyka/Wielowymiarowe techniki eksploracyjne/Analiza skupień. Można również skorzystać
z jednego z kalkulatorów3 dostępnych w Internecie. Należy jednak pamiętać, aby jako macierz obser-
wacji uwzględnić taką, która wcześniej poddana została normalizacji.
Jak wspomniano wcześniej, odległości Minkowskiego nie powinny być stosowane w przypadku sil-
nej korelacji zmiennych. Procedury doboru zmiennych do analizy skupień zostaną zaprezentowane
w kolejnym rozdziale. Niemniej w celach prezentacji poruszanego zagadnienia zdecydowano się zapre-
zentować pierwotną wersję macierzy odległości. Należy jednak pamiętać, że przedstawiona poniżej po-
stać macierzy odległości nie jest ostateczna.
Spośród prezentowanych możliwości wybrano kwadratową odległość euklidesową, którą zaprezen-
towano w formie tabeli 4.2 oraz macierzy 𝑫 [4.11]. Macierz odległości wyznaczono dzięki możliwo-
ściom, jakie daje program Statistica. W tym celu wybrano moduł Statystyka/Wielowymiarowe techniki
eksploracyjne/Analiza skupień/Aglomeracja/Więcej.
Tabela 4.2. Macierz kwadratowych odległości euklidesowych dla powiatów departamentu poznańskiego w 1810 r.
zapisana w formie tabelarycznej
Międzyrzecz
Wągrowiec
Krotoszyn
Wschowa
Babimost
Oborniki
Gniezno
Kościan
Powidz
Poznań
Pyzdry
Krobia
Obiekty
Środa
Śrem
0,00 𝟏, 𝟑𝟐 1,67 1,91 1,64 1,32 2,93 2,55 3,06 3,72 6,24 ⋯
𝟏, 𝟑𝟐 0,00 2,17 0,74 1,39 1,81 2,28 1,12 2,03 2,79 3,88 ⋯
1,67 2,17 0,00 1,68 0,85 0,47 3,63 2,23 2,81 2,73 3,64 ⋯
1,91 0,74 1,68 0,00 1,59 0,88 1,67 0,27 1,00 0,88 1,75 ⋯
1,64 1,39 0,85 1,59 0,00 1,00 2,35 1,84 2,00 2,57 3,26 ⋯
1,32 1,81 0,47 0,88 1,00 0,00 2,58 1,11 1,42 1,24 2,53 ⋯
2,93 2,28 3,63 1,67 2,35 2,58 0,00 1,56 1,66 2,32 3,59 ⋯
𝑫= [4.11]
2,55 1,12 2,23 0,27 1,84 1,11 1,56 0,00 0,70 0,67 1,30 ⋯
3,06 2,03 2,81 1,00 2,00 1,42 1,66 0,70 0,00 1,16 2,01 ⋯
3,72 2,79 2,73 0,88 2,57 1,24 2,32 0,67 1,16 0,00 0,71 ⋯
6,24 3,88 2,64 1,75 3,26 2,53 3,59 1,30 2,01 0,71 0,00 ⋯
3,68 1,92 3,43 0,85 2,71 1,91 1,48 0,23 0,59 0,93 1,48 ⋯
4,24 2,50 3,28 1,10 2,86 2,82 2,04 0,37 0,65 0,88 1,17 ⋯
[ 4,01 2,61 2,94 1,37 2,52 1,67 2,19 0,75 0,37 1,43 1,80 ⋯]
Jak wspomniano wcześniej, macierz odległości 𝑫 [4.11] jest macierzą kwadratową (por. wzór [4.5]),
której wymiar jest równy liczbie grupowanych obiektów. W prezentowanym przykładzie wymiar ma-
cierzy odległości wynosi (14 × 14). Na przekątnej tej macierzy znajdują się zera. Opisywana macierz
jest także macierzą trójkątną, ponieważ wartości w wierszach są dokładnie równe wartościom znajdu-
jącym się w odpowiadających im kolumnach. Wszystkie wartości macierzy odległości są większe lub
równe zeru, co świadczy o tym, że jest dodatnio określona.
Jak wynika z zestawienia obliczeń zawartych w tabeli 4.2, odległość pomiędzy powiatem wschow-
skim a krobskim wynosi 1,32, co jest potwierdzeniem obliczeń, które zaprezentowano w tabeli 4.1. Po-
wiat wschowski jest także bliski pod względem demograficznym powiatowi obornickiemu
(𝑑1;6 = 1,32), a najdalszy od powiatu powidzkiego (𝑑1;11 = 6,24). Z kolei analizując wszystkie po-
wiaty departamentu poznańskiego w 1810 r., można stwierdzić, że najbliższymi sobie powiatami oka-
zały się powiat średzki i śremski (𝑑8;12 = 0,23).
Miarą niepodobieństwa obiektów wielowymiarowych jest także odległość Mahalanobisa, która przyj-
muje postać (MAHALANOBIS 1936):
1
𝑚 𝑚 2
𝑑𝑖𝑗 = [∑ ∑(𝑥𝑖𝑘 − 𝑥𝑗𝑘 ) 𝑠𝑘𝑙 (𝑥𝑖𝑙 − 𝑥𝑗𝑙 )] , [4.12]
𝑘=1 𝑙=1
gdzie:
𝑑𝑖𝑗 – wartość odległości pomiędzy 𝑖-tą a j-tą jednostką,
𝑥𝑖𝑘 ; 𝑥𝑖𝑙 – obserwacja 𝑘-tej lub 𝑙-tej zmiennej na 𝑖-tej jednostce,
𝑥𝑗𝑘 ; 𝑥𝑗𝑙 – obserwacja 𝑘-tej lub 𝑙-tej zmiennej na 𝑗-tej jednostce,
𝑘, 𝑙 – 𝑘-ta lub 𝑙-ta zmienna spośród 𝑚 analizowanych zmiennych, zatem 𝑘, 𝑙 = 1, 2, … , 𝑚,
𝑠𝑘𝑙 – 𝑘𝑙-ty element macierzy odwrotnej do macierzy kowariancji zmiennych opisujących obiekty.
Odległość Mahalanobisa uwzględnia zależności liniowe pomiędzy zmiennymi. Można ją zatem, w odróżnie-
niu od odległości opartych na metryce Minkowskiego, stosować w przypadku skorelowania badanych zmien-
4.1. Miary odległości 57
nych. Co więcej, GRABIŃSKI (1992, s. 324) wskazuje, że stosowanie odległości Mahalanobisa nie musi być po-
przedzone wcześniejszym doprowadzeniem zmiennych różnoimiennych do porównywalności. Wynika to
z uwzględnienia w formule odległości macierzy kowariancji. Dlatego w przypadku wyboru odległości Mahala-
nobisa do oceny niepodobieństwa obiektów nie zachodzi potrzeba normalizacji zmiennych. WIERZCHOŃ i KŁO-
POTEK (2015, s. 28) zauważają, że odległość Mahalanobisa jest użyteczna w identyfikacji obiektów odstających,
a ZAKRZEWSKA (1987, s 226-227) rekomenduje jej zastosowanie szczególnie w sytuacji, w której występują po-
wtórzenia pomiaru zmiennych badanych obiektów w różnych momentach czasowych. Dla przykładu miara ta
została zastosowana w pracy KAROŃSKIEGO i CALIŃSKIEGO (1973c), w celu grupowania rodów słonecznika na
podstawie ich cech specyficznych, w książce SOKOŁOWSKIEGO i ZAJĄCA (1987), dotyczącej zróżnicowania de-
mograficznego i rozwoju gospodarczego w Polsce w drugiej połowie lat 70. XX wieku, oraz w publikacji PARY-
SKA (1979) w dynamicznym badaniu strukturalnym. Z kolei MORAJDA i GRABOWSKI (2001) wykorzystali odle-
głość Mahalanobisa przy porównaniu wyników zastosowania wybranych metod analizy skupień.
Obiekty
A B C D
Zmienne
𝑋1 0 1 3 2
𝑋2 2 5 4 3
Źródło: opracowanie własne.
2
Po spierwiastkowaniu otrzymanej wartości 𝑑𝐴𝐵 = 7,24 odległość Mahalanobisa pomiędzy obiek-
tem A oraz B wynosi 𝑑𝐴𝐵 = 𝟐, 𝟔𝟗.
W analogiczny sposób obliczono odległości pomiędzy kolejnymi parami obiektów:
𝑑𝐴𝐶 = 2,79, 𝑑𝐴𝐷 = 1,80, 𝑑𝐵𝐶 = 2,51, 𝑑𝐵𝐷 = 2,51, 𝑑𝐶𝐷 = 1,07. Należy zaznaczyć, że niezależnie od
kombinacji obiektów, dla których wyznaczana była odległość, w obliczeniach zawsze uwzględniane
były odpowiednie wartości tej samej odwróconej macierzy kowariancji (𝑽−𝟏 ). Wartości pomiędzy ko-
lejnymi parami obiektów zestawiono w macierz odległości Mahalanobisa 𝑫 (por. wzór [4.5]):
0 𝟐, 𝟔𝟗 2,79 1,80
𝟐, 𝟔𝟗 0 2,51 2,51
𝑫=[ ].
2,79 2,51 0 1,07
1,80 2,51 1,07 0
Aby go wyznaczyć można zastosować funkcje tablicowe dostępne w programie Excel, takie jak wy-
znaczanie macierzy odwrotnej: MACIERZ.ODW(), transponowanie macierzy: TRANSPONUJ() czy
obliczenie iloczynu macierzy: MACIERZ.ILOCZYN().
Do wyznaczania odległości między obiektami, których cechy stanowią wskaźniki struktury (np.
udziały), można wykorzystać opisane wcześniej metryki Minkowskiego oraz Mahalanobisa (TAKSONO-
MIA STRUKTUR… 1998, s. 46-55). Niemniej jednak w badaniach dotyczących podobieństwa bądź nie-
podobieństwa struktur warto użyć miary dedykowane takim badaniom, w których porównywane są
obiekty opisane za pomocą zmiennych wyrażonych w skali ilorazowej, przyjmujących wartości nieu-
jemne (GRABIŃSKI 1984, s. 40; PODOLEC, SZYMANOWICZ 1984; WALESIAK 1990; MŁODAK 2006,
s. 54-57). Wśród nich można wymienić współczynnik dywergencji Clarka, współczynnik „Canberra”,
współczynnik Renkonena oraz odległość Walesiaka. Należy podkreślić, że miary te można stosować
także w przypadku innego niż strukturalne typu danych ilościowych. Jednak ich wykorzystanie musi
być poprzedzone taką normalizacją, w efekcie której zmienne znormalizowane przyjmą wartości z prze-
działu [0;1] (por. tabelę 3.4).
4 Więcej na temat możliwości rachunku macierzowego można znaleźć np. w publikacji BRANT (1974, s. 215-227).
4.1. Miary odległości 59
Jak wspomniano wcześniej, współczynnik ten jest unormowany: przyjmuje wartości z przedziału
[0; 1], przy czym zero oznacza, że porównywane obiekty są identyczne. PODOLEC i SZYMANOWICZ
(1984) podkreślają także, że współczynnik ten nie wymaga wcześniejszej normalizacji, ale może być
stosowany do zmiennych znormalizowanych (PAWEŁEK 2007). Należy jednak pominąć w badaniu te
obiekty, dla których wszystkie zmienne przyjmują wartość zero. Co więcej, ZAKRZEWSKA (1987,
s. 229-230) zastrzega, że miara ta jest nieodpowiednia w przypadku skorelowania zmiennych badanych
obiektów.
Przykładem metryki bazującej na odległości miejskiej (por. wzór 4.9), która jest zalecana w przy-
padku badań strukturalnych, jest względna odległość „Canberra” (BRAY, CURTIS 1957; LANCE, WIL-
LIAMS 1966b i 1967b). W literaturze przedmiotu funkcjonuje ona również pod nazwą współczynnika
Braya i Curtisa, współczynnika Lance’a i Wiliamsa lub współczynnika Czekanowskiego (TIMM 2002,
s. 518; BALICKI 2009, s. 220). Odległość ta wyraża się wzorem:
𝑚
1 |𝑥𝑖𝑘 − 𝑥𝑗𝑘 |
𝑑𝑖𝑗 = ∑ , [4.14]
𝑚 𝑥𝑖𝑘 + 𝑥𝑗𝑘
𝑘=1
gdzie oznaczenia są analogiczne jak we wzorze [4.6].
Metryka „Canberra” jest unormowana i przyjmuje wartości z przedziału [0; 1]. Miara ta może być
stosowana dla zmiennych wyrażonych w skali ilorazowej, a zatem dla zmiennych przyjmujących war-
tości nieujemne. Cechuje się ona dużą wrażliwością na małe zmiany w wartościach 𝑥𝑖𝑘 + 𝑥𝑗𝑘 . TIMM
(2002, s. 518) poleca odległość „Canberra” w przypadku występowania wśród zmiennych takich, które
odznaczają się skośnością rozkładu i występowaniem wartości skrajnych. BALICKI z kolei (2009, s. 220-
-221) zwraca uwagę, że metryka „Canberra” może być stosowana również dla zmiennych zero-jedyn-
kowych. Jeżeli stosowane są zmienne binarne, to odległość ta jest jednoznaczna z odległością miejską
i współczynnik ten spełnia wszystkie warunki odległości metrycznej (TIMM 2002, s. 519). Z kolei ZA-
KRZEWSKA (1987, s. 242-243) rekomenduje ją także w sytuacjach, gdy obiekty są opisane za pomocą
zmiennych wyrażonych w skali porządkowej. Co więcej, miara ta może być stosowana zarówno dla
danych pierwotnych, jak i znormalizowanych.
Odległość „Canberra” ma szczególne zastosowanie w badaniach, w których cechami są zliczane
osoby (w badaniach społeczno-gospodarczych) czy gatunki (w badaniach ekologicznych), spełniające
określone kryterium, oraz gdy możliwa jest sytuacja, w której obiekt spełniający określone kryterium
60 4. Miary podobieństwa i niepodobieństwa
w badanej jednostce terytorialnej nie wystąpił. PAWEŁEK (2007) podkreśla natomiast, że w przypadku
tej miary dla obiektu przyjmującego wartość zero dla wszystkich zmiennych go opisujących, składniki
sumy we wzorze [4.14] odpowiadające tym zmiennym przyjmują wartość jeden bez względu na wartość
przypisaną drugiemu obiektowi. Obiekty takie muszą być zatem wyłączone z analizy. Przykłady wyko-
rzystania tej metryki w badaniach wielowymiarowych można znaleźć w publikacjach WYDMUSA (1988,
s. 172), BAZARNIKA i in. (1992), FORYSIA i BATÓGA (2016) oraz MIŚKIEWICZA (2016). W badaniach
społeczno-gospodarczych miarę tę zastosowali SOBCZAK (1994), MALINA (2008) oraz MARKOWSKA
(2008, 2015).
Kolejną miarą rekomendowaną do wyznaczania niepodobieństwa struktur jest odległość Walesiaka
(WALESIAK 1983):
1
𝑚 2
1
𝑑𝑖𝑗 = [ ∑|𝑥𝑖𝑘 2 − 𝑥𝑗𝑘 2 |] , [4.15]
2
𝑘=1
gdzie oznaczenia są analogiczne jak we wzorze [4.6].
Jest to miara unormowana, przyjmująca wartości z przedziału [0; 1]. W przypadku, gdy wartości
statystyki 𝑑𝑖𝑗 dążą do zera, oznacza to coraz mniejsze zróżnicowanie badanych struktur. Wzrost warto-
ści tej odległości do jedności wskazuje na coraz bardziej istotne różnice pomiędzy strukturami. Miara
Walesiaka powinna być stosowana wtedy, gdy badane struktury są bardzo podobne, a zachodzi koniecz-
ność relatywnego zwiększania różnic, celem wykrycia prawidłowości występujących w badanym ma-
teriale empirycznym (WALESIAK 1983).
energetyczny 𝑋1 0,013 0,022 0,013 − 0,022 0,013 + 0,022 (−0,008/0,035)2 |−0,008|/0,035 |0,0132 − 0,0222 |
= −0,008 = 0,035 = 0,057 = 0,239 = 0,0003
paliw i węglowy 𝑋2 0,041 0,085 –0,043 0,126 0,118 0,344 0,0055
hutnictwo żelaza 𝑋3 0,038 0,030 0,008 0,068 0,015 0,121 0,0006
metali nieżelaznych 𝑋4 0,009 0,006 0,003 0,015 0,037 0,193 0,0000
metalowy 𝑋5 0,046 0,048 –0,002 0,093 0,001 0,024 0,0002
elektrotechniczny 𝑋6 0,031 0,034 –0,003 0,065 0,002 0,046 0,0002
środków transportu 𝑋7 0,061 0,062 –0,001 0,123 0,000 0,011 0,0002
maszynowy 𝑋8 0,057 0,059 –0,002 0,116 0,000 0,013 0,0002
chemiczny 𝑋9 0,051 0,044 0,007 0,094 0,006 0,075 0,0007
materiałów budowlanych 𝑋10 0,039 0,035 0,004 0,074 0,003 0,053 0,0003
szklarski 𝑋11 0,009 0,012 –0,002 0,021 0,013 0,113 0,0000
ceramiki szlachetnej 𝑋12 0,003 0,004 –0,001 0,006 0,016 0,125 0,0000
drzewny 𝑋13 0,037 0,034 0,003 0,071 0,001 0,036 0,0002
papierniczy 𝑋14 0,017 0,015 0,002 0,032 0,005 0,072 0,0001
poligraficzny 𝑋15 0,007 0,007 0,000 0,014 0,001 0,029 0,0000
włókienniczy 𝑋16 0,162 0,150 0,012 0,312 0,001 0,038 0,0037
odzieżowy 𝑋17 0,025 0,020 0,005 0,044 0,012 0,110 0,0002
skórzany-obuwniczy 𝑋18 0,047 0,043 0,004 0,090 0,002 0,045 0,0004
spożywczy 𝑋19 0,287 0,271 0,015 0,558 0,001 0,028 0,0086
inne gałęzie przemysłu 𝑋20 0,020 0,021 -0,001 0,041 0,000 0,017 0,0000
suma 1,000 1,000 0,291 1,731 0,021
𝑑1;2 0,121 0,087 0,103
Źródło: obliczenia własne na podstawie danych znormalizowanych zawartych Aneksie A w tabelach 4 oraz 5; por. macierz 𝑿′ [9.2].
62 4. Miary podobieństwa i niepodobieństwa
∑𝑚
𝑘=1|𝑥𝑖𝑘 − 𝑥𝑗𝑘 |
𝑑𝑖𝑗 = , [4.17]
∑𝑚
𝑘=1 𝑚𝑎𝑥 (𝑥𝑖𝑘 ; 𝑥𝑗𝑘 )
Miara zdefiniowana we wzorze [4.17] jest odległością metryczną. Pozwala ona na zestawienie
udziałów cech wspólnych w badanych jednostkach na tle wszystkich cech występujących w którymś
z porównywanych obiektów (por. CZERWIŃSKA, GEMBARZEWSKI 1975). Należy zwrócić uwagę, że od-
ległość Marczewskiego-Steinhausa, w odróżnieniu od wcześniej wymienionych metryk polecanych
w badaniach strukturalnych, jest bezpieczna w przypadkach, gdy w macierzy danych pojawiają się zera.
W przypadku badań historycznych odległość Marczewskiego-Steinhausa, została zastosowana do typo-
logii cyzjojanów (por. WĄSOWICZ 1995, s. 182-312).
Tabela 4.5. Obliczenia pomocnicze dotyczące wyznaczenia odległości Marczewskiego-Steinhausa między wybranymi
dokumentami ze względu na występowanie w nich określonych wyrażeń
„regresja” 𝑋2 0 0 0 0
„SQL” 𝑋3 21 10 11 21
„wiarygodność” 𝑋4 0 3 3 3
„indeks” 𝑋5 9 5 4 9
„liniowa” 𝑋6 3 0 3 3
suma 29 68
𝑑1;2 0,426
0,000 𝟎, 𝟒𝟐𝟔 0,421 0,737 0,460 0,947 0,990 0,940 0,971 0,908
𝟎, 𝟒𝟐𝟔 0,000 0,518 0,700 0,485 0,943 0,956 0,920 0,970 0,901
0,421 0,518 0,000 0,545 0,660 0,973 0,987 0,951 0,992 0,922
0,737 0,700 0,545 0,000 0,845 0,964 0,983 0,930 0,990 0,898
0,460 0,485 0,660 0,845 0,000 0,963 0,971 0,951 0,978 0,935
𝑫= [4.18]
0,947 0,943 0,973 0,964 0,963 0,000 0,603 0,458 0,523 0,278
0,990 0,956 0,987 0,983 0,971 0,603 0,000 0,480 0,500 0,716
0,940 0,920 0,951 0,930 0,951 0,458 0,480 0,000 0,674 0,742
0,971 0,970 0,992 0,990 0,978 0,523 0,500 0,674 0,000 0,511
[ 0,908 0,901 0,922 0,989 0,935 0,278 0,716 0,742 0,511 0,000]
Najmniejszą odległość charakteryzuje dokument szósty oraz dokument dziesiąty (𝑑6;10 = 0,278).
Oznacza to, że wspomniane dokumenty okazały się najbardziej podobne pod względem występowania
wyznaczonych w badaniu wyrażeń. Z kolei największą odległość odnotowano pomiędzy dokumentem
trzecim a dokumentem dziewiątym (𝑑3;9 = 0,992). Są one zatem najmniej podobne.
Miary podobieństwa mają odmienną interpretację niż miary odległości. Przyjmują one zwykle wartości
z przedziału [0; 1]. Im wyższa wartość oszacowanych współczynników, tym wyższe podobieństwo
obiektów. MARDIA i in. (1979, s. 381-383) wskazują, że podobnie jak miary odległości, miary podo-
bieństwa powinny spełniać warunek nieujemności (wzór [4.1]) oraz warunek symetryczności (wzór
[4.3]). Natomiast warunek identyczności przyjmuje postać:
𝑠𝑖𝑗 = 1 ⇔ 𝑥𝑖 = 𝑥𝑗 . [4.19]
Jeżeli dodatkowo spełniony jest warunek:
|𝑠𝑖𝑗 + 𝑠𝑗𝑘 |𝑠𝑖𝑘 ≤ 𝑠𝑖𝑗 𝑠𝑖𝑘 , [4.20]
64 4. Miary podobieństwa i niepodobieństwa
to przestrzeń, w której dokonuje się określenia podobieństwa posiada cechy przestrzeni metrycznej (PA-
RYSEK 1982, s. 53, za: STEINHAUSEN, LANGER 1977).
Zatem dla każdej pary jednostek wielowymiarowych możliwe jest wyznaczenie podobieństwa mię-
dzy nimi. Ich zestawienie tworzy macierz podobieństwa 𝑺 o wymiarze (𝑛 × 𝑛), gdzie 𝑛 to liczba gru-
powanych obiektów. Macierz podobieństwa zawiera uporządkowane podobieństwa pomiędzy każdą
jednostką a pozostałymi jednostkami w przestrzeni zmiennych.
1 𝑠1;2 ⋯ 𝑠1𝑛
𝑠2;1 1 ⋯ 𝑠1𝑛
𝑺=[ ], [4.21]
⋮ ⋮ ⋱ ⋮
𝑠𝑛1 𝑠𝑛2 ⋯ 1
gdzie 𝑠1;2– wartość podobieństwa pomiędzy pierwszą a drugą jednostką.
Macierz podobieństwa 𝑺 [4.21], podobnie jak macierz odległości, jest macierzą dodatnio określoną,
kwadratową, na przekątnej której znajdują się jednak jedynki. W sumie macierz ta zawiera 𝑛(𝑛 − 1)/2
współczynników podobieństwa.
Istnieje wiele sposobów definiowania podobieństwa. PODOLEC i SZYMANOWICZ (1984) oraz WI-
ŚNIEWSKI (1986) zauważają, że w literaturze naukowej poświęconej temu zagadnieniu przeważającą
większość stanowią prace dotyczące cech ilościowych, wyrażonych w silnych skalach. W ostatnich la-
tach daje się jednak zauważyć pewien wzrost zainteresowania problematyką klasyfikacji zbiorów, które
zostały opisane za pomocą cech jakościowych. Wykorzystanie w analizie zmiennych jakościowych wy-
maga zastosowania bowiem miar podobieństwa, odpowiednich dla skali nominalnej czy porządkowej.
Wśród współczynników podobieństwa wyróżnia się zatem trzy kategorie wskaźników. Pierwszą stano-
wią współczynniki asocjacji, które są charakterystyczne dla skali nominalnej. Druga kategoria wskaź-
ników opiera się na statystyce 𝝌𝟐 , a ostatnią grupę stanowią miary podobieństwa obiektów, których
cechy zostały wyrażone jako zmienne ilościowe.
Jak wspomniano wcześniej, istnieje ścisły związek pomiędzy wartościami oszacowanej odległości
pomiędzy jednostkami a ich podobieństwem. MARDIA i in. (1979, s. 382) czy EVERITT (1980, s. 15)
sugerują jednak, aby miary podobieństwa przekształcać w miary odległości. Istnieje wiele sposobów
tego przekształcenia. Najprostsze można zapisać następująco (ZAKRZEWSKA 1987):
𝑑𝑖𝑗 = 1 − 𝑠𝑖𝑗 , [4.22]
gdzie 𝑑𝑖𝑗 oraz 𝑠𝑖𝑗 to odpowiednio wartość odległości lub podobieństwa pomiędzy 𝑖-tą oraz 𝑗-tą jed-
nostką.
CHOJNICKI i CZYŻ (1973, s. 42), powołując się na publikację ROGERSA i TANIMOTO (1960), prze-
kształcają współczynniki asocjacji w miarę odległości za pomocą równania:
𝑑𝑖𝑗 = −log 2 𝑠𝑖𝑗 , [4.23]
Odległości uzyskane z miar podobieństwa mogą przybierać wartości od zera (gdy 𝑠𝑖𝑗 = 1) do nie-
skończoności (gdy 𝑠𝑖𝑗 = 0). Tak zdefiniowana odległość taksonomiczna określa przestrzeń semime-
tryczną, która nie spełnia postulatu nierówności trójkąta. Co więcej, ze względu na własności funkcji
logarytmicznej nie daje ona wyników w przypadku, gdy porównywane obiekty są identyczne ze
względu na wartości opisujących ich zmiennych.
4.2. Miary podobieństwa 65
Dla obiektów opisanych zmiennymi w skali nominalnej mierzony jest poziom skojarzenia (asocjacji)
cech. W tym celu wyznaczane są współczynniki ogólnie nazywanymi współczynnikami asocjacji
(CHOJNICKI, CZYŻ 1973, s. 40; WIŚNIEWSKI 1986). Należą one historycznie do jednych z najstarszych
wskaźników podobieństwa, które cechuje duża prostota. Liczba wskaźników asocjacji proponowanych
w literaturze jest ogromna. Dla przykładu przegląd szesnastu współczynników asocjacji zawiera publi-
kacja SNEATHA i SOKALA (1973, s. 129-136). Pewien zestaw współczynników podobieństwa dla zmien-
nych binarnych zawarty został w pracy EVERITTA (1980, s. 13) oraz DILLONA i GOLDSTEINA (1984,
s. 164). Szeroki zakres miar podobieństwa dla zmiennych wyrażonych w skalach nominalnej i porząd-
kowej przedstawili m.in.: CORMACK (1971), ZAKRZEWSKA (1987), BALICKI (2009, s. 227-240) oraz
HÄRDLE i SIMAR (2003, s. 304). Współczynniki asocjacji jako miara podobieństwa w analizie skupień
została zastosowana np. przez SNEATHA (1957) oraz w pracy SOKALA i SNEATHA (1963, s. 125-141).
Punktem wyjścia do wyznaczenia współczynników asocjacji jest tablica zagregowanych liczebności
obserwacji nazywana tablicą liczebności (WASILEWSKA 2008, s. 250). W literaturze funkcjonuje ona
także pod nazwami tablica kontyngencji lub tablica asocjacji (DILLON, GOLDSTEIN 1984, s. 164). Dla
jednostek 𝑖-tej oraz 𝑗-tej, których zmienne mają charakter dychotomiczny (zero-jedynkowy), przyjmuje
ona postać zaprezentowaną w tabeli 4.6. W tak skonstruowanej tablicy liczebności wartość 𝑚1;1 ozna-
cza liczbę zmiennych, dla których jednostki 𝑖-ta oraz 𝑗-ta mają zgodne wartości postaci zmiennych:
(1; 1). Taką samą interpretację, ale odniesioną do wariantu wartości zmiennych (0, 0) ma także liczeb-
ność 𝑚0;0. Z kolei liczebności 𝑚0;1 oraz 𝑚1;0 dotyczą liczby zmiennych, dla których jednostki 𝑖-ta oraz
𝑗-ta mają niezgodne wartości zmiennych: (1, 0) lub (0, 1). Liczebności cząstkowe pozwalają na wyzna-
czenie liczebności brzegowych 𝑚𝑖∙ oraz 𝑚∙𝑗 , które mówią, ile zmiennych spośród tych opisujących jed-
nostkę i-tą i/lub j-tą należą do odpowiedniej kategorii.
Jest to wskaźnik, który przyjmuje wartości z przedziału [0; 1], przy czym wartość jeden oznacza, że została
osiągnięta pełna zgodność. Z kolei jeżeli wskaźnik Jaccarda przyjmuje wartość równą zeru, to nie wykazano
zgodnego współwystępowania zmiennych w porównywanych jednostkach. Ze względu na swoją strukturę
wskaźnik Jaccarda, jest polecany w badaniach, w którym ważniejszy jest aspekt występowania badanej ce-
chy w jednostce niż jej niewystępowania, gdyż liczebność 𝑚0;0 została we wzorze [4.25] pominięta.
Dla zmiennych wyrażonych w skali nominalnej, dychotomicznej stosuje się także współczynnik
Sokala-Michenera (SOKAL, MICHENER 1958; WALESIAK 1993b, s. 43 za: KAUFMAN, ROUSSEEUW
1990, s. 24; EVERITT i in. 2011, s. 47). W literaturze funkcjonuje on również pod nazwą prosty współ-
czynnik dopasowania (por. CORMACK 1971; SOKAL, SNEATH 1963, s. 133), współczynnik podobieństwa
lub współczynnik koincydencji (zob. np.: KENDAL, BUCKLAND 1975). Opiera się on na wartościach ze-
stawione w tablicy liczebności (por. tabelę 4.6), jednak w odróżnieniu od współczynnika Jaccarda na-
daje on jednakowe wagi poszczególnym typom liczebności (PANEK 2009, s. 46):
𝑚1;1 + 𝑚0;0
𝑠𝑖𝑗 = , [4.26]
𝑚
gdzie:
𝑠𝑖𝑗 – wartość podobieństwa pomiędzy 𝑖-tą a 𝑗-tą jednostką,
𝑚1;1, 𝑚0;0 – odpowiednie liczebności przedstawione w tabeli 4.6,
𝑚 – liczba wszystkich zmiennych biorących udział w badaniu, gdzie 𝑚 = 𝑚1;1 + 𝑚1;0 + 𝑚0;1 + 𝑚0;0 .
Wartości współczynnika Sokala-Michenera zawierają się w przedziale [0; 1]. Przy czym jeden oznacza
doskonałą zgodność występowania zmiennych w obu obiektach. Zatem wartość współczynnika Sokala-
Michnera wskazuje, jaki procent w ogólnej liczbie zmiennych stanowią zgodne wartości zmiennych
dwóch porównywanych obiektów. HÄRDLE i SIMAR (2003, s. 304) oraz BALICKI (2009, s. 231) podkre-
ślają, że może być on wykorzystany jako miara odległości, jeżeli zastosowane zostanie przekształcenie
zgodne ze wzorem [4.22]. Tak wyrażona odległość nazywana jest niezgodnością procentową.
Zmienne
Narzędzia Narzędzia Praca se- Praca Mały krąg Duży krąg Anonimowy
Wieś
ręczne mechaniczne zonowa stała odbiorców odbiorców odbiorca
Obiekty
𝑤1 1 0 1 0 1 0 0 1
𝑤2 0 1 1 0 0 1 0 1
Na podstawie danych zaprezentowanych w tabeli 4.7 wyznaczono tablicę liczebności, którą z kolei
prezentuje tabela 4.8. Wyznaczenie tej tablicy przy większej liczbie danych można ułatwić, wykorzy-
stując w programie Excel możliwości, jakie daje tablica przestawna (Wstawianie/Tabela przestawna),
natomiast w programie Statistica, opcję tę uzyskuje się realizując ścieżkę: Statystyka/Statystyki podsta-
wowe i tabele/Tabele wielodzielcze.
Na podstawie wartości przedstawionych w tablicy liczebności (zob. tabela 4.8) można powiedzieć,
że porównanie obu jednostek wykazało, iż w przypadku dwóch zmiennych w obu warsztatach wystąpiły
wartości równe jedności: oba warsztaty wykonują pracę sezonowo i prowadzą warsztaty we wsi Odro-
wąż. W przypadku dwóch cech w obu jednostkach odnotowano wartość zero: co oznacza, że właściciele
tych warsztatów nie traktują swojej pracy jako stałe zajęcie i nie sprzedają swoich produktów anonimo-
wym odbiorcom. Jednostki przyjęły różne wartości dla czterech cech: warsztaty różnią się rodzajem
narzędzi, które rzemieślnicy stosowali w swojej pracy oraz kręgiem odbiorców swoich produktów.
Tablica liczebności (zob. tabela 4.8) stanowiła podstawę do wyznaczenie miar podobieństwa:
wskaźnika Jaccarda (por. wzór [4.25]) oraz współczynnika Sokala-Michenera (por. wzór [4.26]):
Wskaźnik Jaccarda:
𝑚1;1 2
𝑠1;2 = = = 0,333
𝑚1;1 + 𝑚1;0 + 𝑚0;1 2 + 2 + 2
Współczynnik Sokala-Michnera:
𝑚1;1 + 𝑚0;0 2 + 2
𝑠1;2 = = = 0,500
𝑚 8
Niejednakowe wyniki obliczeń oczywiście nie wskazują na większe lub mniejsze podobieństwo po-
między porównywanymi warsztatami. Wskazania tego typu można dokonywać dopiero w oparciu
o wszystkie wartości macierzy podobieństwa 𝑺 (por.wzór [4.21]).
68 4. Miary podobieństwa i niepodobieństwa
Zmienne
Okleina Powierzchnia Wykończenie
Obiekty: zestawy meblowe
Miron 𝑜1 dąb rustykalna mat
Akwilon 𝑜2 orzech rustykalna mat
Polo Var II 𝑜3 sosna gładka mat
Nida 𝑜4 mahoń gładka połysk
Słowiniec 𝑜5 orzech gładka połysk
Kwartet 𝑜6 dąb inkrustowana mat
Kartusz 𝑜7 mahoń gładka mat
Tabela 4.11. Tablica zgodności dla zestawów mebli segmentowych Miron oraz Akwilon
nominalnej wielostanowej wykorzystywane są wskaźniki, które w swojej budowie opierają się na sta-
tystyce 𝜒 2 . Zostały one opisane poniżej. Więcej informacji na temat analizy zależności pomiędzy
zmiennymi można znaleźć w publikacji MYNARSKIEGO (2006, s. 98-153).
Punktem wyjścia w porównaniach dwóch zmiennych wielostanowych jest budowa odpowiedniej tablicy
liczebności. Jej uogólnioną postać zaprezentowano w formie tablicowej (tabela 4.12). Należy zwrócić
uwagę, że postać tablicowa, zaprezentowana poniżej, jest typowym rozwiązaniem stosowanym w pre-
zentacji wyników spisów powszechnych i często konstruowane są w ten sposób tabele statystyczne.
gdzie:
𝜒 2 – statystyka testowa (chi kwadrat), wielodzielność kwadratowa,
𝑟 – liczba kolumn w tablicy liczebności (por. tablicę przedstawioną jako tabela 4.12),
𝑠 – liczba wierszy w tablicy liczebności,
𝑛 – liczba porównywanych jednostek wielowymiarowych,
𝑛𝑖𝑗 – liczebność w polu 𝑖𝑗-tym w tablicy liczebności,
𝑡 𝑡 𝑛𝑖∙ 𝑛∙𝑗
𝑛𝑖𝑗 – liczebność teoretyczna w polu 𝑖𝑗-tym w tablicy liczebności, przy czym 𝑛𝑖𝑗 = 𝑛
.
𝑡
Liczebności teoretyczne 𝑛𝑖𝑗 to takie liczebności, które powinny wystąpić w poszczególnych polach ta-
blicy liczebności, gdyby zależność pomiędzy badanymi obiektami lub cechami nie istniała (WASILEW-
SKA 2008, s. 250-262). Powstają one poprzez wyznaczenie udziału iloczynu odpowiednich liczebności
brzegowych w ogólnej liczbie obiektów stanowiących podstawę porównania.
Miary podobieństwa zbudowane w oparciu o statystykę 𝜒 2 nie informują o kierunku związku – ko-
relacji między badanymi zmiennymi, ale o jego sile. Niestety nie wszystkie miary należące do tej grupy
przyjmują wartości z przedziału [0; 1]. Niemniej jednak, jeżeli współczynnik taki przyjmuje wartość
4.2. Miary podobieństwa 71
równą zeru, to świadczy o braku korelacji pomiędzy zmiennymi. Wzrost wartości współczynnika zbu-
dowanego w oparciu o statystykę 𝜒 2 oznacza zwiększenie korelacji pomiędzy badanymi zmiennymi.
Jako przykład zastosowania tych miar może być badanie strefy granicznej między województwem po-
znańskim a zielonogórskim pod względem spożycia naturalnego ludności rolniczej na przełomie lat 60.
XX wieku, prowadzone przez DOMAŃSKIEGO (1964).
Wśród wielu miar podobieństwa, zbudowanych w oparciu o statystykę 𝜒 2 , można wymienić współ-
czynnik 𝑻-Czuprowa (zob. np. YULE, KENDALL 1966, s. 78; POCIECHA i in. 1988, s. 47-48). Przyjmuje
on następującą postać:
1
𝜒2 2
𝑇=[ ] , [4.30]
𝑛√(𝑟 − 1)(𝑠 − 1)
gdzie oznaczenia są analogiczne jak we wzorze [4.29].
Współczynnik kontyngencji 𝐶-Pearsona przyjmuje wartość zero, gdy zmienne są niezależne. Jego
wartość maksymalna zależy jednak od liczby stanów zmiennych jakościowych biorących udział w ba-
daniu (liczby wierszy i kolumn w tabeli liczebności – por. wartości w tabeli 4.12). Dla tabeli o wymia-
rach (2 × 2) maksymalna wartość współczynnika wynosi 0,707. Dla uproszczenia interpretacji przy po-
równywaniu wartości współczynników uzyskanych w oparciu o formułę [4.32] warto przeprowadzić
ich normalizację, dzieląc otrzymane wartości przez wartość maksymalną (WIECZORKOWSKA, WIERZ-
BIŃSKI 2007, s. 307), czyli stosując odpowiednie przekształcenie ilorazowe (por. wzór [3.11]).
Tabela 4.13. Tablica liczebności dla zmiennych wielostanowych: rodzaj budownictwa i charakter okręgu w którym dany
budynek się mieści [tys. obiektów]
Aby określić siłę związku pomiędzy badanymi zmiennymi – stanem budownictwa a miejskim cha-
rakterem okręgu – należy zbudować tablicę liczebności teoretycznych. Została ona zaprezentowania
jako tabela 4.14. Warto przypomnieć, że w każdej komórce tej tabeli zastosowano wyrażenie
𝑡 𝑛𝑖∙ 𝑛∙𝑗
𝑛𝑖𝑗 = 𝑛
. Następnie wyznaczono odchylenia wartości empirycznych od teoretycznych, które są z ko-
lei niezbędne do wyznaczenia wartości statystyki 𝜒 2 (por. wzór [4.29]). Wyniki tych obliczeń zesta-
wiono w tabeli 4.15. Na ich podstawie można stwierdzić, że statystyka 𝜒 2 osiągnęła w tym zadaniu
wartość 2,307.
Tabela 4.14. Tablica liczebności teoretycznych dla zmiennych wielostanowych: rodzaj budownictwa i charakter okręgu
w którym dany budynek się mieści [tys. obiektów].
Tabela 4.15. Tablica unormowanych odchyleń kwadratowych wartości empirycznych od wartości teoretycznych
w przypadku zmiennych wielostanowych
Jak wspomniano wcześniej, statystyka 𝜒 2 jest podstawą do wyznaczenia różnych miar podobień-
stwa. Wśród nich można wymienić współczynniki 𝑇-Czuprowa, 𝑉-Cramera oraz 𝐶-Pearsona (por.
wzory [4.30]-[4.32]). Odpowiednie obliczenia zawarto poniżej:
współczynnik 𝑇-Czuprowa:
1 1
𝜒2 2 2,307 2
𝑇=[ ] =[ ] = 0,013,
𝑛√(𝑟 − 1)(𝑠 − 1) 6771√2 ∗ 2
współczynnik 𝑉-Cramera:
1 1
𝜒2 2 2,307 2
𝑉=[ ] =[ ] = 0,013,
𝑛 × min(𝑟 − 1; 𝑠 − 1) 6771 ∗ 2
.
współczynnik 𝐶-Pearsona:
1 1
𝜒2 2 2,307 2
𝐶=[ 2 ] =[ ] = 0,018.
𝜒 +𝑛 2,307 + 6771
Obliczone współczynniki podobieństwa wskazują na słaby związek obu badanych zmiennych. Stan
budownictwa okazał się zatem niemal niezależny od charakteru okręgu, w którym budynki zostały zbu-
dowane.
Przedmiotem badań historycznych może być określenie podobieństwa struktur. Przykładem tego typu
rozważań są wspomniane wcześniej porównania podobieństwa między dokumentami. Wspomnieć
można także o strukturach demograficznych czy ekonomicznych. (WIERZCHOŃ, KŁOPOTEK 2015,
s. 28). W tego typu zagadnieniach dobrą rekomendacją jest implementacja miar podobieństwa stosowa-
nych w przypadku badań biologicznych czy rolniczych, w których porównywane są siedliska na pod-
stawie występujących w nich gatunków roślin czy zwierząt. Do tej grupy należą współczynnik Renko-
nena oraz kosinus kąta między wektorami.
Rekomendowaną miarą podobieństwa obiektów opisanych za pomocą wskaźników struktury jest
współczynnik Renkonena, opisany szczegółowo przez między innymi CZERWIŃSKĄ i GEMBARZEW-
SKIEGO (1975):
𝑚
Współczynnik Renkonena może przyjmować wartości z przedziału [0, 1]. Jest on miarą podobieństwa
struktur dwu zbiorów, które traktowane są jako odrębne całości. Jeżeli struktury obiektu 𝑖-tego oraz
74 4. Miary podobieństwa i niepodobieństwa
obiektu 𝑗-tego są identyczne, to wówczas współczynnik Renkonena przyjmuje wartość równą jeden.
W przypadku całkowitego niepodobieństwa porównywanych obiektów współczynnik ten przyjmuje
wartość równą zeru.
Współczynnik Renkonena może stanowić podstawę wyznaczenia odległości po zastosowaniu prze-
kształcenia [4.22]. CZERWIŃSKA i GEMBARZEWSKI (1975) dowiedli, że odległość uzyskana na podsta-
wie współczynnika Renkonena zgodnie z tą formułą, spełnia warunki metryki. CHOMĄTOWSKI i SOKO-
ŁOWSKI (1976) rekomendują tę miarę w przypadku badań zmiany w czasie struktury obiektów gospo-
darczych. Ważnym problemem jest wówczas podział badanego okresu na fazy wyróżniające się podo-
bieństwem struktury badanych obiektów. Miarę tę można stosować również do podziału zbioru obiek-
tów na podgrupy o podobnych strukturach biologicznych (CZERWIŃSKA, GEMBARZEWSKI 1975) czy
rolniczych (GRZYB 1964).
Kolejna metryka nazywana jest kosinusem kąta między wektorami, ponieważ wyraża ją kosinus
kąta między wektorami odpowiadającymi wartościom zmiennych porównywanych obiektów, które
mają swój początek w początku przestrzeni wielowymiarowej. Miara ta jest szczególnie polecana
w przypadku, gdy zmienne opisujące badane obiekty są ze sobą skorelowane. Przyjmuje ona postać:
∑𝑚
𝑘=1 𝑥𝑖𝑘 𝑥𝑗𝑘
𝑠𝑖𝑗 = 1 , [4.34]
(∑𝑚 2
𝑘=1 𝑥𝑖𝑘 ∑𝑚 2 2
𝑘=1 𝑥𝑗𝑘 )
Kosinus kąta między wektorami jest miarą unormowaną: przyjmuje ona wartość równą jedności dla
obiektów identycznych, a dąży do zera, gdy obiekty całkowicie różnią się od siebie (RUTKOWSKI 1981;
POCIECHA i in. 1988, s. 46-47). Po przekształceniu tego współczynnika w odległość na podstawie for-
muły [4.22] funkcjonuje ona w literaturze także jako odległość kosinusowa (ZAKRZEWSKA 1987,
s. 219-221). Jest ona wykorzystywana, gdy analizowane jest podobieństwo struktur zmiennych opisu-
jących obiekty, wykazujących skorelowanie. Historycznie stwierdzono, że odległość ta jest dość efek-
tywna w praktycznych eksperymentach wyszukiwania informacji (HAND i in. 2005, s. 516-517). Co
więcej, własności odległości Renkonena doskonale także pasują do przykładu dotyczącego struktury
produkcji czystej przemysłu uspołecznionego w okresie PRL. Natomiast odległość kosinusowa, zgodnie
z rekomendacją HANDA i in. (2005, s. 515-517), można zastosować w przykładzie dotyczącym podo-
bieństwa między dokumentami.
Tabela 4.16. Wyniki obliczeń dotyczących odległości wielowymiarowych między wybranymi powiatami województwa
poznańskiego w 1958 r.
Obiekty Chodzież Czarnków Obliczenia pomocnicze
Grupy
2 2
podatników 𝑝1 𝑝2 𝑥𝑖𝑘 ∗ 𝑥𝑗𝑘 𝑥𝑖𝑘 𝑥𝑗𝑘 min(𝑥𝑖𝑘 , 𝑥𝑗𝑘 )
przemysł 𝑋1 𝑥1;1 𝑥2;1 0,16 ∗ 0,35 0,132 0,352 min(0,16; 0,35)
= 0,16 = 0,35 = 0,055 = 0,03 = 0,12 = 0,16
rzemiosło 𝑋2 0,44 0,37 0,16 0,19 0,14 0,37
handel 𝑋3 0,15 0,12 0,02 0,02 0,02 0,12
usługi 𝑋4 0,10 0,04 0,00 0,01 0,00 0,04
zajęcia zawodowe 𝑋5 0,06 0,09 0,01 0,00 0,01 0,06
pozostali 𝑋6 0,09 0,03 0,00 0,01 0,00 0,03
suma 1,00 1,00 0,25 0,26 0,28 0,79
Macierz korelacji jest 𝑹 [4.36] macierzą symetryczną, tzn. 𝑟𝑗𝑘 = 𝑟𝑘𝑗 , kwadratową. W odróżnieniu
od macierzy odległości na przekątnej macierzy korelacyjnej znajdują się jedynki (𝑟𝑗𝑗 = 1), które ozna-
czają pełną korelację pomiędzy takimi samymi obiektami czy zmiennymi. W sumie macierz ta zawiera
𝑛(𝑛 − 1)/2 współczynników. W literaturze znany jest szeroki wachlarz wskaźników oraz metod testo-
wania istotności wartości korelacji pomiędzy badanymi obiektami czy zmiennymi. Niektóre z nich
można znaleźć np. w publikacji KĘDELSKIEGO i ROESKE-SŁOMKI (1995, s. 159-200) lub KOWAL (1998,
s. 99-113).
Jak wspomniano wcześniej, współczynniki korelacji mogą być potraktowane jako wskaźniki podo-
bieństwa. Zastosowanie tej miary w metodach taksonomicznych opisali między innymi ANDERBERG
(1973, s. 113-114) czy KAROŃSKI i CALIŃSKI (1973a). Niemniej jednak zastosowanie współczynników
korelacji jest rekomendowane przede wszystkim w sytuacjach, w których przedmiotem klasyfikacji są
zmienne opisujące badane jednostki, a nie same jednostki. Współczynniki korelacji używane są zatem
często w procedurach doboru zmiennych biorących udział w analizie skupień (PARYSEK 1982, s. 80;
ZAKRZEWSKA 1987, s. 214). POCIECHA i in. (1988, s. 51) postulują, aby nie stosować tych samych miar
odległości do obiektów i zmiennych. W tej sytuacji lepiej jest opierać taksonomię zmiennych na trady-
cyjnych miarach związku między zmiennymi, czyli na korelacjach, a taksonomię jednostek na metry-
kach odległości.
Niemniej jednak, jeśli współczynniki korelacji mają stanowić podstawę grupowania w metodach
taksonomicznych, to wymagane jest ich przekształcenie w miary odległości. POCIECHA (1988, s. 51)
wskazuje, że przekształcenia takie w większości przypadków nie spełniają postulatu nierówności trój-
kąta, przez co trudno je traktować jako metryki. CRONBACH i GLESER (1953), łącząc standaryzację
z kwadratem odległości euklidesowej, zaproponowali następujące podejście, które zostało szczegółowo
przez opisane przez ANDERBERGA (1973, s. 113) oraz w publikacji STEINHAUSENA i LANGERA (1977):
1
𝑑𝑗𝑘 = [2(1 − 𝑟𝑗𝑘 )]2 , [4.37]
gdzie:
𝑑𝑗𝑘 – miara odległości pomiędzy 𝑗-tą oraz 𝑘-tą zmienną,
𝑟𝑗𝑘 – wartość współczynnika korelacji pomiędzy 𝑗-tą oraz 𝑘-tą zmienną.
Rozwiązanie to jest rekomendowane także przez PARYSKA (1982, s. 54), ZAKRZEWSKĄ (1987, s. 212)
oraz TROSSETA (2005). W przypadku tego przekształcenia [4.37], uzyskiwane są wartości odległości
4.3. Współczynniki korelacji 77
z przedziału [0, 2]. POCIECHA i in. (1988, s. 50) zwracają jednak uwagę, że dla doskonałej ujemnej
korelacji 𝑟𝑖𝑗 = −1 odległość wyrażona wzorem [4.37] przyjmuje wartość równą dwa, co mylnie świad-
czy o doskonałym niepodobieństwie cech. O semimetryce o podobnej strukturze wspominją także
SNEATH i SOKAL (1973, s. 140).
Rozwiązaniem eliminującym opisywane ograniczenie jest zastosowanie we wzorze [4.37] wartości
bezwzględnej współczynnika korelacji. Taką formę przekształcenia zaproponowali HELLWIG (1981)
oraz NOWAK (1990, s. 27). W podejściu tym zmienne nieskorelowane ze sobą są od siebie najbardziej
oddalone (𝑟𝑖𝑗 = 0 ⇒ 𝑑𝑖𝑗 = 1,41). Z kolei najbliższe sobie są zmienne doskonale skorelowane dodatnio
lub ujemnie (𝑟𝑖𝑗 = 1 ⇒ 𝑑𝑖𝑗 = 0 oraz 𝑟𝑖𝑗 = −1 ⇒ 𝑑𝑖𝑗 = 0). Ostatecznie wspomniana zależność przyj-
muje postać:
1
𝑑𝑗𝑘 = [2(1 − |𝑟𝑗𝑘 |)]2 , [4.38]
Podobne idee przyświecały także KUKULE (1975), który zamiast wartości bezwzględnej współczyn-
nika korelacji zastosował jego kwadrat. Natomiast nieco inną postać przekształcenia współczynników
korelacji w odległości zaproponował WALESIAK (2011, S. 38). Formułę zapisaną we wzorze [4.39] re-
komendował w przypadku wykorzystania opisanego niżej współczynnika korelacji 𝜏 Kendalla:
1 𝐾
𝑑𝑗𝑘 = 2 (1 − 𝑟𝑗𝑘 ), [4.39]
Najczęściej stosowaną miarą korelacji pomiędzy zmiennymi jest współczynnik korelacji Pearsona.
Należy jednak podkreślić, że współczynnik ten może być użyty jedynie w przypadku zmiennych wyra-
żonych co najmniej w skali przedziałowej (CHOJNICKI, Czyż 1973, s. 42; ZELIAŚ i in. 2002, s. 103). Do
obliczenia korelacji Pearsona między zmiennymi można zastosować zależność w postaci [4.40]:
𝑃
∑𝑛𝑖=1(𝑥𝑖𝑗 − 𝑥̅𝑗 )(𝑥𝑖𝑘 − 𝑥̅𝑘 )
𝑟𝑗𝑘 = 1,
2
[4.40]
[∑𝑛𝑖=1(𝑥𝑖𝑗 − 𝑥̅𝑗 ) ∑𝑛𝑖=1(𝑥𝑖𝑘 − 𝑥̅𝑘 )2 ]2
gdzie:
𝑃
𝑟𝑗𝑘 – wartość współczynnika korelacji Pearsona pomiędzy 𝑗-tą a k-tą zmienną,
𝑥𝑖𝑗 – wartość 𝑗-tej zmiennej w 𝑖-tej jednostce,
𝑥𝑖𝑘 – wartość 𝑘-tej zmiennej w 𝑖-tej jednostce,
𝑛 – liczba jednostek opisanych za pomocą j-tej oraz 𝑘-tej zmiennej,
𝑥̅𝑗 – średnia wartość 𝑗-tej zmiennej po wszystkich jednostkach.
Wartości współczynnika korelacji Pearsona mieszczą się w przedziale [−1; 1], przy czym zero
oznacza brak zależności korelacyjnej pomiędzy badanymi obiektami. Korelacja dodatnia, a więc miesz-
cząca się w przedziale (0; 1] występuje wtedy, gdy wzrostowi wartości jednej zmiennej towarzyszy
wzrost wartości drugiej zmiennej. Jeżeli wartość współczynnika korelacji mieści się w przedziale
78 4. Miary podobieństwa i niepodobieństwa
[−1; 0), to występuje wówczas korelacja ujemna. Znak współczynnika korelacji informuje zatem o kie-
runku korelacji, a jego wartość o sile związku.
Współczynniki korelacji Pearsona jako miary podobieństwa znajdują zastosowanie przede wszyst-
kim w zagadnieniach dotyczących grupowania zmiennych (zob. np.: KAROŃSKI, CALIŃSKI 1973a czy
SOKAL, MICHENER 1958). Wykorzystanie współczynnika korelacji jako punktu wyjścia do wyznacze-
nia odległości między obiektami zostało zaproponowane przez DAGNELIE (1975). Wykorzystała je
w swoich badaniach regionalnych także CZYŻ (1967). Niemniej jednak, jak wspomniano wcześniej,
zastosowanie współczynnika korelacji Pearsona do grupowania obiektów nie jest oceniane jednoznacz-
nie. Dla przykładu PANEK (2009, s. 222-223) podkreśla, że współczynnik korelacji Pearsona wskazuje
raczej na podobieństwo profili niż bezwzględnych wymiarów obiektów, tzn. nawet przy różnych war-
tościach zmiennych podobieństwo obiektów może być równe jedności.
𝑃
∑𝑛𝑖=1(𝑥𝑖1 − 𝑥̅1 )(𝑥𝑖2 − 𝑥̅2 ) 1294,5 1294,5
𝑟1;3 = 1 = 1 = = 𝟎, 𝟖𝟖.
1478,23
[∑𝑛𝑖=1(𝑥𝑖1 − 𝑥̅1 )2 ∑𝑛𝑖=1(𝑥𝑖2 − 𝑥̅2 )2 ]2 [2014,9 ∗ 1084,5]2
Powtórzenie tej procedury dla wszystkich kombinacji par zmiennych umożliwia wyznaczenie ma-
cierzy korelacji Pearsona. W przypadku badań dotyczących klasyfikacji dokumentów i tekstów
uwzględniono sześć zmiennych (𝑚 = 6). Z tego powodu macierz korelacji Pearsona miała wymiar
(6 × 6). Zaprezentowano ją jako macierz 𝑹𝑷 [4.41]. Kolejne wiersze i kolumny odnoszą się do poszcze-
gólnych zmiennych, których nazwy zostały wymienione w tabeli danych zamieszczonych w Aneksie A.
1,00 −0,72 𝟎, 𝟖𝟖 −0,43 0,90 −0,45
−0,72 1,00 −0,76 0,81 −0,61 0,56
𝟎, 𝟖𝟖 −0,76 1,00 −0,48 0,95 −0,52
𝑹𝑷 = [4.41]
−0,43 0,81 −0,48 1,00 −0,35 0,62
0,90 −0,61 0,95 −0,35 1,00 −0,45
[−0,45 0,56 −0,52 0,62 −0,45 1,00 ]
𝑃
Wyznaczony powyżej współczynnik korelacji Pearsona 𝑟1;3 = 0,88, znajduje się na trzecim miejscu
w pierwszej kolumnie i w pierwszym wierszu macierzy 𝑹𝑷 [4.41].
4.3. Współczynniki korelacji 79
Tabela 4.17. Obliczenia pomocnicze do wyznaczenia współczynnika korelacji Pearsona między wybranymi zmiennymi
opisującymi dokumenty
danych”
Zmienne
„SQL”
„baza
Obliczenia pomocnicze
dla współczynnika korelacji Pearsona
(𝑥𝑖1 − 𝑥̅1 ) ∗ 2
Obiekty 𝑋1 𝑋3 (𝑥𝑖1 − 𝑥̅1 ) (𝑥𝑖3 − 𝑥̅3 ) (𝑥𝑖;1 − 𝑥̅1 ) (𝑥𝑖3 − 𝑥̅3 )2
(𝑥𝑖3 − 𝑥̅ 3 )
Dokument nr 1 𝑂1 24 21 24 − 12,9 21 − 8,5 11,1 ∗ 12,5 11,12 12,52
= 11,1 = 12,5 = 138,75 = 123,21 = 156,25
Dokument nr 2 𝑂2 32 10 19,1 1,5 28,65 364,81 2,25
Dokument nr 3 𝑂3 12 16 –0,9 7,5 –6,75 0,81 56,25
Dokument nr 4 𝑂4 6 7 –6,9 –1,5 10,35 47,61 2,25
Dokument nr 5 𝑂5 43 31 30,1 22,5 677,25 906,01 506,25
Dokument nr 6 𝑂6 2 0 –10,9 –8,5 92,65 118,81 72,25
Dokument nr 7 𝑂7 0 0 –12,9 –8,5 109,65 166,41 72,25
Dokument nr 8 𝑂8 3 0 –9,9 –8,5 84,15 98,01 72,25
Dokument nr 9 𝑂9 1 0 –11,9 –8,5 101,15 141,61 72,25
Dokument nr 10 𝑂10 6 0 –6,9 –8,5 58,65 47,61 72,25
średnia 12,9 8,5
suma 1294,50 2014,90 1084,50
Źródło: opracowanie własne na podstawie tabeli 7 w Aneksie A.
Macierz korelacji rang Spearmana ma takie same własności jak macierz korelacji Pearsona. W obu
przypadkach rozpiętość wartości współczynników korelacji zawarta jest w granicach [−1; 1]. Współ-
czynnik korelacji Spearmana został zastosowany jako miara podobieństwa dla przykładu w publikacji
ALEKSANDROWICZA (1979), dotyczącej badań geologicznych.
80 4. Miary podobieństwa i niepodobieństwa
Tabela 4.18. Obliczenia pomocnicze do wyznaczenia współczynnika korelacji Spearmana między wybranymi zmiennymi
opisującymi powiaty departamentu poznańskiego w 1810 r.
Gęstość
Zmienne Odsetek ludności Obliczenia pomocnicze
zaludnienia
miejskiej [%] dla współczynnika korelacji Spearmana
[tys. osób/1 milę2]
Obiekty 2
𝑋1 𝑋2 𝑒𝑖1 𝑒𝑖2 (𝑒𝑖𝑗 − 𝑒𝑖𝑘 ) )
Wschowa 𝑝1 2,24 33,5 12 14 (12 − 14)2 = 4
Krobia 𝑝2 2,78 33,3 14 13 1
Międzyrzecz 𝑝3 1,13 30,4 1 12 121
Krotoszyn 𝑝4 2,25 28,1 13 11 4
Babimost 𝑝5 1,58 28,0 7 10 9
Oborniki 𝑝6 1,40 23,7 3 9 36
Kościan 𝑝7 1,75 20,6 8 8 0
Śrem 𝑝8 1,99 20,3 11 7 16
Gniezno 𝑝9 1,46 18,9 4 6 4
Pyzdry 𝑝10 1,86 17,7 9 5 16
Powidz 𝑝11 1,51 17,1 6 4 4
Środa 𝑝12 1,86 12,8 10 3 49
Poznań 𝑝13 1,50 10,2 5 2 9
Wągrowiec 𝑝14 1,19 9,7 2 1 1
suma 274
𝑆
6 ∑𝑛𝑖=1(𝑒𝑖1 − 𝑒𝑖2 )2 6 ∗ 274
𝑟1;2 =1− 2
=1− = 𝟎, 𝟒𝟎.
𝑛(𝑛 − 1) 14(142 − 1)
4.3. Współczynniki korelacji 81
Postępując w ten sam sposób dla pozostałych par zmiennych, wyznaczono macierz korelacji Spearmana
𝑹𝑺 [4.43]:
1,00 𝟎, 𝟒𝟎 −0,43 0,23 −0,18 −0,19 −0,16 −0,16 0,09 −0,08 ⋯
𝟎, 𝟒𝟎 1,00 −0,76 0,53 0,43 −0,42 −0,45 −0,33 −0,80 0,77 ⋯
−0,43 −0,76 1,00 −0,65 −0,35 0,53 0,46 0,52 0,58 −0,58 ⋯
0,23 0,53 −0,65 1,00 0,32 −0,54 −0,55 −0,46 −0,47 0,48 ⋯
−0,18 0,43 −0,35 0,32 1,00 −0,17 −0,19 −0,11 −0,48 0,54 ⋯
𝑹𝑺 = −0,19 −0,42 0,53 −0,54 −0,17 1,00 0,98 0,95 0,45 −0,45 ⋯ [4.43]
−0,16 −0,45 0,46 −0,55 −0,19 0,98 1,00 0,91 0,52 −0,52 ⋯
−0,16 −0,33 0,52 −0,46 −0,11 0,95 0,91 1,00 0,33 −0,33 ⋯
0,09 −0,80 0,58 −0,47 −0,48 0,45 0,52 0,33 1,00 −0,99 ⋯
−0,08 0,77 −0,58 0,48 0,54 −0,45 −0,52 −0,33 −0,99 1,00 ⋯
[ 0,01 0,66 −0,31 −0,02 0,25 0,04 −0,02 0,10 −0,61 0,52 ⋯]
Każda kolumna i każdy wiersz macierzy korelacji 𝑹𝑺 [4.43] odpowiada kolejnej zmiennej, która
brała udział w charakterystyce powiatów departamentu poznańskiego w 1810 r. Obliczona w przykła-
𝑆
dzie korelacja pomiędzy pierwszymi dwoma zmiennymi (𝑟1;2 = 0,40) znajduje się na drugim miejscu
w pierwszej kolumnie oraz na drugim miejscu w pierwszym wierszu.
W przypadku analiz, w których podstawą są zmienne wyrażone w skali porządkowej, często rekomen-
dowany jest opisany wcześniej współczynnik korelacji Spearmana (por. wzór [4.41]). Nie wszystkie
zmienne rangowane są tożsame ze skalą porządkową. WIŚNIEWSKI (1986) oraz WALESIAK (1991a) pod-
kreślają, że współczynnik ten nie jest typową miarą korelacji rang. Stosując go, zakłada się bowiem, że
odległości między dowolnymi dwiema rangami są sobie równe, a na skali porządkowej odległości mię-
dzy dowolnymi dwiema rangami zwykle nie są znane. STECZKOWSKI i ZELIAŚ (1997, s. 208) stwier-
dzają natomiast, że kluczowym zagadnieniem w praktycznych zastosowaniach korelacji rang jest kon-
strukcja właściwej – do konkretnego problemu – skali porządkowej, to znaczy takiej, dla której zakłada
się równość odstępów między rangami.
W przypadkach, gdy spełnienie warunku równości odstępów między rangami jest niemożliwe, na-
leży zastosować współczynnik korelacji rang 𝝉 Kendalla (KENDALL 1938, 1955, s. 19-21), którego
struktura przewiduje realizację tylko tych operacji matematycznych, które są dozwolone dla skali po-
rządkowej (por. tabelę 3.2). Jego postać matematyczna została przedstawiona jako wzór [4.44]:
𝐾
2 ∑𝑛ℎ=𝑖+1 ∑𝑛−1
𝑖=1 𝑎𝑖ℎ𝑗 𝑏𝑖ℎ𝑘
𝑟𝑗𝑘 = , [4.44]
𝑛(𝑛 − 1)
gdzie:
𝐾
𝑟𝑗𝑘 – wartość współczynnika korelacji rang 𝜏 Kendalla pomiędzy 𝑗-tą a 𝑘-tą zmienną,
𝑛 – liczba analizowanych jednostek, opisanych za pomocą j-tej oraz 𝑘-tej zmiennej,
𝑖, ℎ – numery analizowanych jednostek: 𝑖 = 1, 2, … , 𝑛 − 1; ℎ = 2, 3, … , 𝑛,
𝑗, 𝑘 – numery analizowanych zmiennych,
𝑎𝑖ℎ𝑗 – wartość funkcji relacji dla 𝑗-tej zmiennej pomiędzy 𝑖-tą oraz ℎ-tą jednostką,
𝑏𝑖ℎ𝑘 – wartość funkcji relacji dla 𝑘-tej zmiennej pomiędzy 𝑖-tą oraz ℎ-tą jednostką:
1 jeżeli 𝑥𝑖𝑗 > 𝑥ℎ𝑗 (𝑥𝑖𝑘 > 𝑥ℎ𝑘 )
𝑎𝑖ℎ𝑗 (𝑏𝑖ℎ𝑘 ) = { 0 jeżeli 𝑥𝑖𝑗 = 𝑥ℎ𝑗 (𝑥𝑖𝑘 = 𝑥ℎ𝑘 ).
−1 jeżeli 𝑥𝑖𝑗 < 𝑥ℎ𝑗 (𝑥𝑖𝑘 < 𝑥ℎ𝑘 )
Współczynnik korelacji rang 𝜏 Kendalla, podobnie jak dwa wspomniane wcześniej współczynniki
korelacji, jest miarą siły i kierunku skorelowania dwóch zmiennych lub jednostek, dla których obserwacje
zostały zmierzone na skali porządkowej i może przyjmować wartości z przedziału [−1; 1]. Jeżeli upo-
𝐾
rządkowanie zmiennych jest zupełnie przeciwne, wówczas 𝑟𝑗𝑘 = −1, natomiast gdy występuje pełna
𝐾
zgodność uporządkowań, 𝑟𝑗𝑘 = 1. Z kolei zerowa wartość tego współczynnika świadczy o braku związku
korelacyjnego pomiędzy analizowanymi obiektami lub zmiennymi (por. MYNARSKI 1990, s. 58-59).
Postać matematyczna zależności [4.44] powoduje, że obliczenia wartości współczynnika korelacji
Kendalla są bardziej złożone w porównaniu z wcześniej prezentowanymi współczynnikami korelacji.
Wynika to z faktu, że w przypadku tego współczynnika porównywane są zgodności relacji pomiędzy
wartościami porównywanych zmiennych dla badanych obiektów, a nie same wartości różnic zmiennych
pomiędzy obiektami. W przypadku wyznaczania tego współczynnika pomiędzy dwoma zmiennymi (po-
między zmienną 𝑗-tą oraz zmienną 𝑘-tą) dla czterech obiektów (𝑛 = 4; zatem 𝑖 = 1, 2, 3; ℎ = 2, 3, 4),
możliwe jest ustalenie następujących wartości funkcji relacji dla j-tej zmiennej: 𝑎1;2𝑗 , 𝑎1;3𝑗 , 𝑎1;4𝑗 , 𝑎2;3𝑗 ,
𝑎2;4𝑗 , 𝑎3;4𝑗 . W ten sam sposób definiowane są wartości funkcji relacji dla 𝑘-tej zmiennej (𝑏𝑖ℎ𝑘 ). Zatem
w liczniku wzoru [4.44]) znajdzie się suma sześciu iloczynów. W przypadku, gdy w badaniu uwzględ-
niona jest większa liczba zmiennych, liczba składowych sumy w liczniku wzoru [4.44] odpowiednio
rośnie. Należy jednak podkreślić, że miara ta jest wysoko oceniana. STECZKOWSKI i ZELIAŚ (1997,
s. 200) podkreślają, że współczynnik korelacji 𝜏 Kendalla zezwala na bardziej wnikliwą analizę, ponie-
waż jest szybciej zbieżny do rozkładu normalnego, co ma istotne znaczenie w postępowaniu testującym
(por. DOMAŃSKI 1990, s. 170).
Na podstawie informacji zawartych w tabeli 4.19 wyznaczono wartości funkcji relacji 𝑎𝑖ℎ𝑗 oraz
𝑏𝑖ℎ𝑘 , a także ich iloczyny. Te ostatnie zestawiono w tabeli 4.20.
Tabela 4.19. Dane dotyczące czasu pracy i wydajności pracowników- zmienne wyrażone w skali porządkowej
Zmienne Czas pracy Wydajność pracy
Obiekty 𝑋𝑗 𝑋𝑘
𝑝1 10 8
𝑝2 1 0
𝑝3 2 1
𝑝4 5 2
𝑝5 20 10
𝑝6 11 7
Tabela 4.20. Wartości funkcji relacji 𝑎𝑖ℎ𝑗 oraz 𝑏𝑖ℎ𝑘 oraz ich iloczyny wyznaczone dla danych dotyczących czasu pracy
i wydajności pracowników
𝑎𝑖ℎ𝑗
𝑖=1 𝑖=2 𝑖=3 𝑖=4 𝑖=5
ℎ=2 10 > 1 ⇒ 1
ℎ=3 10 > 2 ⇒ 1 1 < 2 ⇒ −1
ℎ=4 10 > 5 ⇒ 1 1 < 5 ⇒ −1 2 < 5 ⇒ −1
ℎ=5 10 < 20 ⇒ −1 1 < 20 ⇒ −1 2 < 20 ⇒ −1 –1
ℎ=6 10 < 11 ⇒ −1 1 < 11 ⇒ −1 2 < 11 ⇒ −1 –1 1
𝑏𝑖ℎ𝑘
𝑖=1 𝑖=2 𝑖=3 𝑖=4 𝑖=5
ℎ=2 8>0 ⇒1
ℎ=3 8>1 ⇒1 0 < 1 ⇒ −1
ℎ=4 8>2 ⇒1 0 < 2 ⇒ −1 –1
ℎ=5 8 < 10 ⇒ −1 0 < 10 ⇒ −1 –1 –1
ℎ=6 8>7 ⇒1 0 < 7 ⇒ −1 –1 –1 1
𝑎𝑖ℎ𝑗 𝑏𝑖ℎ𝑘
𝑖=1 𝑖=2 𝑖=3 𝑖=4 𝑖=5
ℎ=2 1∗1 =1
ℎ=3 1∗1 =1 −1 ∗ −1 = 1
ℎ=4 1 ∗1=1 −1 ∗ −1 = 1 1
ℎ=5 −1 ∗ −1 = 1 −1 ∗ −1 = 1 1 1
ℎ=6 −1 ∗ 1 = −1 −1 ∗ −1 = 1 1 1 1
suma 3 4 3 2 1
Źródło: obliczenia własne w oparciu o: DOMAŃSKI (1990, s. 171).
84 4. Miary podobieństwa i niepodobieństwa
Wyznaczenie wartości współczynnika korelacji rang 𝜏 Kendalla sprowadza się do podstawienia wy-
ników obliczeń pomocniczych, przedstawionych w tabeli 4.20 do wzoru (4.44):
𝐾
2 ∑𝑛𝑖+1 ∑𝑛−1
𝑖=1 𝑎𝑖ℎ𝑗 𝑏𝑖ℎ𝑘
𝑟𝑗𝑘 = =
𝑛(𝑛 − 1)
2 ∗ [(1 + 1 + 1 + 1 − 1) + (1 + 1 + 1 + 1) + (1 + 1 + 1) + (1 + 1) + (1)]
= =
6 ∗ (6 − 1)
2 ∗ (3 + 4 + 3 + 2 + 1)
= = 𝟎, 𝟖𝟕.
6∗5
Wysoka wartość współczynnika korelacji rang 𝜏 Kendalla wskazuje na silny związek czasu poświęca-
nego na pracę przez pracownika z osiąganą przez niego wydajnością. To z kolei prowadzi do wniosku,
że wzrost produkcji osiągany był raczej przez wydłużenie czasu pracy, a nie przez wpływ innych czyn-
ników, np.: przez wzrost produktywności pracowników.
Ze względu na złożoność i obszerność obliczeń przy wyznaczaniu korelacji rang 𝜏 Kendalla warto
posłużyć się oprogramowaniem statystycznym. W programie Statistica macierz korelacji rang 𝜏 Ken-
dalla znajduje się w zakładce Statystyka/Statystyki nieparametryczne/Korelacje (Spearmana, Tau-Ken-
dalla, gamma)/Tau-Kendalla.
Współczynnik korelacji rang 𝜏 Kendalla jest rekomendowany do wyznaczania siły i kierunku
związku między zmiennymi. Niemniej jednak w oparciu o ten wskaźnik WALESIAK (2002b, s. 170)
zbudował uogólnioną miarę odległości dla zmiennych wyrażonych w różnych skalach. Zatem miara ta,
po odpowiednim przekształceniu (por. wzór [4.39]) może być zastosowana do wyznaczenia odległości
pomiędzy obiektami. Więcej szczegółów na temat pomiaru odległości obiektów opisanych zmiennymi
mierzonymi na skali porządkowej można znaleźć w publikacji ZABORSKIEGO (1998, s. 62) czy WALE-
SIAKA (2012).
gdzie:
𝑁
𝑟𝑗𝑘 – wartość współczynnika korelacji czteropunktowej pomiędzy 𝑗-tą a k-tą zmienną,
𝑛1;1 – liczba jednostek, dla których obserwacje obu zmiennych przyjmują wartość 1 (por. tabelę
liczebności 4.6).
4.3. Współczynniki korelacji 85
Obiekty
Zmienne
𝑤1 𝑤2 𝑤3 𝑤4 𝑤5 𝑤6 𝑤7 𝑤8 𝑤9 𝑤10 𝑤11 𝑤12 𝑤13 𝑤14 𝑤15 𝑤16 𝑤17 𝑤18 𝑤19
𝑋1 1 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 0
𝑋2 0 1 1 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 1
𝑛𝑖∙ 11 8 19
Wielkości zawarte w tabeli 4.22 stanowiły podstawę do wyznaczenia współczynnika korelacji czte-
ropunktowej (por. wzór [4.46]):
86 4. Miary podobieństwa i niepodobieństwa
0 ∗ 0 − 8 ∗ 11 −88 −88
= = = = −𝟏.
√(0 + 11)(8 + 0)(1 + 8)(11 + 0) √11 ∗ 8 ∗ 9 ∗ 11 √7744
Punktem wyjścia do zastosowania metod taksonomicznych jest wyznaczenie macierzy odległości. Spo-
soby rozwiązania do tego zagadnienia zostały przedstawione powyżej. Niemniej jednak, mimo bogatego
zestawu narzędzi dostępnych w ramach wielowymiarowych metod statystycznych, problematyka histo-
ryczna często powoduje konieczność zmierzenia się z kolejnymi trudnościami.
Pierwszym poruszonym tu problemem jest sytuacja, w której w zbiorze zmiennych grupowanych
lub opisujących jednostki grupowane znajdują się zmienne wyrażone w różnych skalach (WALESIAK
1993b, s. 46-47). W badaniach historycznych często można natrafić na informacje wyrażone zarówno
w skalach mocnych, jak i takie, które dotyczą jakościowych aspektów podejmowanej problematyki.
Zwykle jeżeli proces badawczy jest wspierany analizą statystyczną, to zmienne jakościowe są w niej
pomijane kosztem utraty często istotnych informacji. W literaturze znanych jest wiele podejść do tego
problemu (zob. np.: GORDON 1981, s. 21, KAUFMAN, ROUSSEEUW 1990, s. 32-37 czy JANOWITZ 2002,
s. 13). Jednym z prostych rozwiązań takiej sytuacji jest zastosowanie uogólnionych miar podobieństwa
lub niepodobieństwa.
Innym problemem, który dotyczy z kolei badań regionalnych, jest spójność terytorialna grupowa-
nych jednostek terytorialnych. Jeżeli przedmiotem badania są obiekty przestrzenne, to jednym z naj-
częściej rozpatrywanych przypadków w ekonomicznych badaniach jednostek przestrzennych jest za-
gadnienie regionalizacji, czyli wyodrębnienie spośród badanego zbioru obiektów przestrzennych takich
grup, które oprócz warunku podobieństwa będą spełniały warunek ciągłości przestrzennej (JAJUGA
1991). Spośród wielu rozwiązań (zob. np.: DOMAŃSKI 1964; CHOJNICKI, Czyż 1973; PARYSEK 1982,
s. 141; TOPOLSKI 1984, s. 495-496), jedno oparte jest na odpowiedniej korekcie macierzy odległości
w oparciu o wartości macierzy sąsiedztwa terytorialnego.
W sytuacji, gdy badacz dysponuje tzw. kostką danych, czyli określone zjawisko społeczno-ekono-
miczne miał sposobność przeanalizować nie tylko w ujęciu stacjonarnym, ale i dynamicznym, powstaje
pytanie o konwergencję, tj.: czy w badanym okresie porównywane obiekty stawały się coraz bardziej
podobne, czy dystans między nimi się zwiększał. Próby statystycznej oceny tego typu sytuacji zostały
zaprezentowane w ostatnim podrozdziale.
Trzy wspomniane zagadnienia z pewnością nie wyczerpują wachlarza kolejnych trudności i dyle-
matów związanych z pomiarem podobieństwa czy niepodobieństwa między badanymi jednostkami. Ich
wybór był jednak ściśle związany z problematyką omawianych badań historycznych, a w szczególności
ich przykładów, prezentowanych w drugiej części tej monografii.
4.4. Pomiar podobieństwa i niepodobieństwa w sytuacjach specyficznych 87
W pracy historyka często zdarza się, że posiada on informacje o badanych obiektach czy zdarzeniach,
które można wyrazić liczbowo za pomocą zmiennych wyrażonych w różnych skalach. W takiej sytuacji
pojawia się problem wyznaczenia podobieństwa między obiektami opisanymi w ten sposób. W litera-
turze proponowanych jest kilka rozwiązań tego problemu (por. POCIECHA i in. 1988, s. 45-46). Pierw-
szym z nich jest (1) wykorzystanie w analizie zmiennych tylko jednego, dominującego typu. Niestety
rodzi to niebezpieczeństwo utraty części istotnych informacji i przez to może dojść do zniekształcenia
wyników. Można także (2) zignorować fakt, że niektóre zmienne są wyrażone w słabszych skalach i za-
stosować dla nich metody, które są przypisane skalom silnym. Podejście takie jest jednak nie do przy-
jęcia z metodologicznego punktu widzenia: następuje wtedy sztuczne wzmocnienie skal słabszych.
Trzecia droga polega na (3) dokonaniu transformacji zmiennych w taki sposób, aby ujednolicić je pod
względem skali, w której zostały wyrażone. Z punktu widzenia teorii pomiaru skalę można tylko osła-
bić, a przez to traci się część zawartej w zmiennych informacji. Można także (4) przeprowadzić osobne
klasyfikacje dla każdego zbioru zmiennych. Ryzyko w tym przypadku polega na tym, że w zależności
od grupy cech uzyska się różne efekty grupowania. Ostatnim rozwiązaniem jest (5) zastosowanie takiej
miary odległości, która pozwalałaby na obliczenie odległości pomiędzy obiektami opisanymi zmien-
nymi w różnych skalach.
Spośród pięciu zaprezentowanych rozwiązań wyznaczenia odległości pomiędzy jednostkami opisa-
nymi za pomocą zmiennych wyrażonych w różnych skalach dwa ostatnie sposoby są ze sobą ściśle
związane. Idea uogólnionego współczynnika podobieństwa polega właśnie na wyznaczeniu podobień-
stwa pomiędzy jednostkami w zależności od skali zmiennych, które je opisują, i agregacji uzyskanych
w ten sposób wyników. Próby zdefiniowania uogólnionego współczynnika podobieństwa podjęli mię-
dzy innymi GOWER (1971), NOWAK (1990, s. 46-49) oraz WALESIAK (1993b). Pierwsze, najstarsze
podejście zaprezentowano poniżej.
Uogólniony współczynnik podobieństwa został zaproponowany przez GOWERA (1971) i wielo-
krotnie opisany w literaturze (zob. np.: EVERITT 1980, s. 16; NOWAK 1990, s. 45; KORONACKI, ĆWIK
2008, s. 273-274; BALICKI 2009, s. 240-243). Jest on ważoną sumą cząstkowych współczynników po-
dobieństwa badanych jednostek wyznaczonych dla każdej grupy zmiennych w zależności od skali po-
miarowej, w której zostały wyrażone. Miara ta przyjmuje postać:
(.)
∑𝑚
𝑘=1 𝑠𝑖𝑗𝑘
𝑠𝑖𝑗 = (.)
, [4.47]
∑𝑚
𝑘=1 𝑤𝑖𝑗𝑘
gdzie:
𝑠𝑖𝑗 – uogólniony współczynnik podobieństwa 𝑖-tej oraz j-tej jednostki,
(. ) – skala, w której została wyrażona 𝑘-ta zmienna: (𝑛) oznacza skalę nominalną, (𝑝) skalę porząd-
kową, (𝑖) skalę interwałową lub ilorazową,
(.)
𝑠𝑖𝑗𝑘 – cząstkowy współczynnik podobieństwa 𝑖-tej oraz j-tej jednostki ze względu na k-tą zmienną,
wyrażoną w określonej skali,
(.)
𝑤𝑖𝑗𝑘 – waga cząstkowego współczynnika podobieństwa, zwykle zależna od liczby zmiennych występu-
jących w określonej skali.
równa liczbie zmiennych. Jeżeli każda z cech traktowana jest równorzędnie, to wszystkie wagi są równe
(.)
jedności (𝑤𝑖𝑗𝑘 = 1). Wyjątek stanowią tu zmienne dychotomiczne, które przyjmują wartość zero, gdy
zmienna jest nieznana dla jednej lub obu jednostek (EVERITT 1980, s. 16).
Cząstkowym współczynnikom podobieństwa wyznaczonym dla jednostek, które zostały opisane za
(𝑛)
pomocą zmiennych wyrażonych w skali nominalnej (𝑠𝑖𝑗𝑘 ), zarówno dychotomicznej, jak i wielostano-
(𝑝)
wej oraz w skali porządkowej (𝑠𝑖𝑗𝑘 ), przypisywana jest wartość jeden, jeżeli obie jednostki przyjmują
takie same stany 𝑘-tej zmiennej. W pozostałych przypadkach przypisywana jest im wartość równa zeru.
Wartości wag i współczynników podobieństwa wyznaczonych dla jednostek 𝑖-tej oraz j-tej, które zo-
stały opisane za pomocą zmiennej dychotomicznej, przedstawia tabela 4.23. Przy takich założeniach,
jeżeli wszystkie cechy porównywanych jednostek są wyrażone w skali dychotomicznej, to ogólny
współczynnik Gowera jest równy wartości wskaźnika Jaccarda (por. wzór [4.25]).
Tabela 4.23. Wartości współczynników podobieństwa i wag między obiektami opisanymi za pomocą zmiennych
dychotomicznych
Jeżeli natomiast zmienne opisujące porównywane obiekty zostały wyrażone w skali przedziałowej
(𝑖)
lub ilorazowej, to wartość współczynnika 𝑠𝑖𝑗 wyznaczana jest ze wzoru:
Dokładniejsza analiza idei uogólnionego współczynnika Gowera dla mieszanych zmiennych po-
zwala zauważyć, że jest to ważona miara podobieństwa, w której wagami są liczby cech występujących
w danej skali. Współczynnik Gowera jest podstawą do wyznaczenia odległości pomiędzy obiektami
opisanymi za pomocą zmiennych wyrażonych w różnych skalach. Stosowane jest w tym przypadku naj-
prostsze przekształcenie 𝑑𝑖𝑗 = 1 − 𝑠𝑖𝑗 (por. wzór [4.22]).
Wyznaczenie uogólnionego wskaźnika podobieństwa można także przeprowadzić poprzez zastoso-
wanie dla każdej grupy zmiennych odpowiedniego wskaźnika podobieństwa, który został opisany w po-
przednich podrozdziałach. Ważne jest jednak, aby dokonać takiego wyboru cząstkowych wskaźników
podobieństwa, których wartości mieszczą się w przedziale [0; 1]. W tym podejściu wagami będą liczby
zmiennych w poszczególnych grupach (NOWAK 1990, s. 46).
4.4. Pomiar podobieństwa i niepodobieństwa w sytuacjach specyficznych 89
W przypadku badań dotyczących danych regionalnych niezbędne jest uwzględnienie warunku spójności
terytorialnej grupowanych obiektów (DOMINIK i in. 1990, s. 108-125). CHOJNICKI i CZYŻ (1973, s. 69)
warunek ten nazywają przymusem spójności. Punktem wyjścia do tego działania jest stworzenie macie-
rzy sąsiedztwa terytorialnego 𝑪, nazywanej również macierzą wag przestrzennych (por. BUNGE 1962,
s. 53; KING 1969; PARYSEK 1982, s 172-173; JAJUGA 1991; GATNAR, WYWIAŁ 1998). Najczęściej
stosowaną macierzą sąsiedztwa terytorialnego jest macierz pierwszego stopnia – macierz zero-jedyn-
kowa, w której jedynki oznaczają, że dany region sąsiaduje z innym, czyli oba regiony posiadają
wspólną granicę. W przeciwnym wypadku w odpowiednim miejscu w macierzy sąsiedztwa pojawia się
zero (por. macierz [4.50]). Oczywiście możliwe jest zastosowanie macierzy sąsiedztwa drugiego i ko-
lejnego stopnia. Wtedy poziom sąsiedztwa jest oznaczony kolejnymi liczbami naturalnymi, przy czym
najbliższemu sąsiedztwu przypisana jest zawsze największa wartość. Zatem macierz sąsiedztwa teryto-
rialnego mierzy przestrzenne powiązania grupowanych jednostek. Macierze tego typu zostały wykorzy-
stane np. w badaniach KOPCZEWSKIEJ (2007, s. 55-68).
0 𝑐1;2 … 𝑐1𝑛
𝑐2;1 0 … 𝑐2𝑛
𝑪=[ ], [4.50]
⋮ ⋮ … ⋮
𝑐𝑛1 𝑐𝑛2 … 0
Macierz sąsiedztwa terytorialnego 𝑪 jest definiowana jako macierz kwadratowa, a jej niezerowe
elementy odpowiadają obszarom sąsiadującym według przyjętego kryterium. Podobnie jak w przy-
padku macierzy odległości, na przekątnej macierzy 𝑪 znajdują się zera.
Aby wymusić spełnienie warunku przestrzennej przyległości grupowanych obiektów w oparciu
o macierz sąsiedztwa terytorialnego 𝑪 [4.50] korygowana jest macierz odległości 𝑫 [4.5]. Przekształce-
nie to odbywa się dwuetapowo. W pierwszym kroku macierz sąsiedztwa terytorialnego 𝑪 modyfikuje
się w taki sposób, aby odzwierciedlała niepodobieństwo obiektów. W tym celu stosuje się przekształce-
′
nie 𝑐𝑖𝑗 = 1 − 𝑐𝑖𝑗 . W rezultacie otrzymuje się macierz 𝑪’, która zawiera zera i jedynki, przy czym zera
tym razem oznaczają sąsiadów. Następnie stosowany jest iloczyn Hadamarda (por. GATNAR, WYWIAŁ
1998) do przemnożenia macierzy odległości 𝑫 i macierzy 𝑪’:
𝑫′ = 𝑫 × 𝑪′, [4.51]
′
gdzie 𝑑𝑖𝑗 = 𝑑𝑖𝑗 ∙ 𝑐′𝑖𝑗 .
4.4. Pomiar podobieństwa i niepodobieństwa w sytuacjach specyficznych 91
Tak uzyskana skorygowana macierz odległości 𝑫′ jest podstawą grupowania. WYWIAŁ (1994), przy
uwzględnieniu warunku spójności terytorialnej, rekomenduje spośród wielu dostępnych w ramach me-
tod taksonomicznych algorytmów zastosowanie metody Warda6.
Przykład obliczeniowy:
korekta macierzy odległości o wartości macierzy sąsiedztwa terytorialnego
Macierz sąsiedztwa terytorialnego 𝑪 [4.50] wyznaczono na podstawie mapy departamentu poznań-
skiego z okresu Księstwa Warszawskiego, uwzględniającego podział na powiaty (rys. 4.1).
Podobnie jak w macierzy odległości pierwszy wiersz i pierwsza kolumna macierzy sąsiedztwa 𝑪
[4.52] odnosiła się do powiatu wschowskiego (𝑝1 ) (por. tabelę 1 w aneksie A). Powiat ten graniczy
z trzema powiatami: Krobia (𝑝2 ), Kościan (𝑝7 ) i Babimost (𝑝5 ). W związku z tym w pierwszej kolumnie
i w pierwszym wierszu elementy 𝑐1;2, 𝑐1;7 i 𝑐1;5 przyjęły wartości równe jedności, a pozostałe są równe
zeru. W ten sam sposób przeanalizowano sąsiedztwo w kolejnych powiatach.
0 1 0 0 1 0 1 0 0 0 0 0 0 0
1 0 0 1 0 0 1 1 0 0 0 0 0 0
0 0 0 0 1 1 0 0 0 0 0 0 1 0
0 1 0 0 0 0 0 1 0 1 0 1 0 0
1 0 1 0 0 0 1 0 0 0 0 0 1 0
0 0 1 0 0 0 0 0 1 0 0 0 1 1
1 1 0 0 1 0 0 1 0 0 0 0 1 0
𝑪= , [4.52]
0 1 0 1 0 0 1 0 1 0 0 1 1 0
0 0 0 0 0 1 0 1 0 1 1 1 1 1
0 0 0 1 0 0 0 0 1 0 1 1 0 0
0 0 0 0 0 0 0 0 1 1 0 0 0 0
0 0 0 1 0 0 0 1 1 1 0 0 0 0
0 0 1 0 1 1 1 1 1 0 0 0 0 1
[0 0 0 0 0 1 0 0 1 0 0 0 1 0]
0,00 0,00 1,67 1,91 0,00 1,32 0,00 2,55 3,06 3,72 6,24 ⋯
0,00 0,00 2,17 0,00 1,39 1,81 0,00 0,00 2,03 2,79 3,88 ⋯
1,67 2,17 0,00 1,68 0,00 0,00 3,63 2,23 2,81 2,73 3,64 ⋯
1,91 0,00 1,68 0,00 1,59 0,88 1,67 0,00 1,00 0,00 1,75 ⋯
0,00 1,39 0,00 1,59 0,00 1,00 0,00 1,84 2,00 2,57 3,26 ⋯
1,32 1,81 0,00 0,88 1,00 0,00 2,58 1,11 0,00 1,24 2,53 ⋯
0,00 0,00 3,63 1,67 0,00 2,58 0,00 0,00 1,66 2,32 3,59 ⋯
𝑫′ = [4.53]
2,55 0,00 2,23 0,00 1,84 1,11 0,00 0,00 0,00 0,67 1,30 ⋯
3,06 2,03 2,81 1,00 2,00 0,00 1,66 0,00 0,00 0,00 0,00 ⋯
3,72 2,79 2,73 0,00 2,57 1,24 2,32 0,67 0,00 0,00 0,00 ⋯
6,24 3,88 2,64 1,75 3,26 2,53 3,59 1,30 0,00 0,00 0,00 ⋯
3,68 1,92 3,43 0,00 2,71 1,91 1,48 0,00 0,00 0,00 1,48 ⋯
4,24 2,50 0,00 1,10 0,00 0,00 0,00 0,00 0,00 0,88 1,17 ⋯
[4,01 2,61 2,94 1,37 2,52 0,00 2,19 0,75 0,00 1,43 1,80 ⋯]
Jeżeli zjawisko społeczno-ekonomiczne jest analizowane nie tylko stacjonarnie, ale i w ujęciu dyna-
micznym, to uzyskiwana jest macierz odległości dla każdego z badanych okresów:
𝑡 𝑡
0 𝑑1;2 … 𝑑1𝑛
𝑡 𝑡
𝑫𝒕 = 𝑑2;1 0 … 𝑑2𝑛 , [4.54]
⋮ ⋮ ⋱ ⋮
𝑡 𝑡
[ 𝑑𝑛1 𝑑𝑛2 … 0 ]
𝑡
gdzie 𝑑𝑖𝑗 – wartość odległości pomiędzy 𝑖-tą oraz 𝑗-tą jednostką w okresie 𝑡, przy czym 𝑡 = 1,2, … , 𝑇.
4.4. Pomiar podobieństwa i niepodobieństwa w sytuacjach specyficznych 93
WYDYMUS (1988, s. 183) wskazuje, że znajomość ciągu macierzy odległości umożliwia śledzenie
procesu upodabniania się (lub oddalania) poszczególnych par jednostek pod względem badanych cech.
W takim przypadku można zapisać zmiany odległości pomiędzy dwoma jednostkami w badanym okre-
sie w postaci wektora [4.55]:
1 2 𝑇
[𝑑𝑖𝑗 , 𝑑𝑖𝑗 , … , 𝑑𝑖𝑗 ], [4.55]
gdzie:
𝑇 – liczba analizowanych okresów,
𝑡
𝑑𝑖𝑗 – wartość odległości pomiędzy jednostkami 𝑖-tą oraz 𝑗-tą w okresie 𝑡, przy czym 𝑡 = 1, 2, … , 𝑇.
ZELIAŚ (2000b, s. 100 za: NOWAK 1990, s. 154) proponuje do oceny zmian w poziomie odległości
między dwoma obiektami w badanym okresie zastosować indywidualny wskaźnik natężenia zmian
odległości:
𝑇
(𝑖) 1 𝑡 𝑡−1
𝑤𝑖𝑗 = ∑|𝑑𝑖𝑗 − 𝑑𝑖𝑗 |, [4.56]
𝑇−1
𝑡=2
gdzie:
(𝑖)
𝑤𝑖𝑗 – indywidualny wskaźnik natężenia zmian odległości pomiędzy jednostkami 𝑖-tą oraz 𝑗-tą,
𝑇 – liczba analizowanych okresów, przy czym 𝑡 = 1, 2, … , 𝑇,
𝑡
𝑑𝑖𝑗 – wartość odległości pomiędzy jednostkami 𝑖-tą oraz 𝑗-tą w okresie 𝑡,
𝑡−1
𝑑𝑖𝑗 – wartość odległości pomiędzy jednostkami 𝑖-tą oraz 𝑗-tą w okresie poprzedzającym okres 𝑡.
Zaproponowany przez NOWAKA (1990, s. 154) wskaźnik funkcjonuje także w wersji względnej jako
względny wskaźnik natężenia zmian odległości:
𝑡 𝑇 𝑡−1
(𝑤) 1 |𝑑𝑖𝑗 − 𝑑𝑖𝑗 |
𝑤𝑖𝑗 = ∑ 𝑡−1 , [4.57]
𝑇−1 𝑑𝑖𝑗
𝑡=2
gdzie oznaczenia są analogiczne jak we wzorze [4.56].
Pierwszy z wymienionych wskaźników (wzór [4.56]) mierzy średnią zmianę odległości pomiędzy parą
obiektów, wyrażoną w wartościach bezwzględnych w badanym okresie. Natomiast drugi wskaźnik
(wzór [4.57]) można interpretować jako średnią procentową zmianę odległości wielowymiarowej po-
między parą jednostek. Niska wartość obu wskaźników świadczy o niewielkich przeciętnych wahaniach
w poziomie odległości pomiędzy jednostkami 𝑖-tą oraz 𝑗-tą w badanym okresie (ZELIAŚ 2000b, s. 101).
Oba przedstawione wyżej wskaźniki, wyznaczone dla każdej pary obiektów, można zapisać w for-
mie macierzy, której wiersze i kolumny będą odpowiadały poszczególnym jednostkom. Jej przykład
w odniesieniu do względnych wskaźników natężenia zmian odległości przestawiono jako macierz
𝑫𝒘 [4.58].
(𝑤) (𝑤)
0 𝑤1;2 … 𝑤1𝑛
(𝑤) (𝑤)
𝑫𝒘 = 𝑤2;1 0 … 𝑤2𝑛 . [4.58]
⋮ ⋮ ⋱ ⋮
(𝑤) (𝑤)
𝑤
[ 𝑛1 𝑤𝑛2 … 0 ]
94 4. Miary podobieństwa i niepodobieństwa
Macierz 𝑫𝒘 [4.58], ze względu na interpretację jej składowych, może stanowić podstawę do oceny
konwergencji w badanym okresie pomiędzy analizowanymi jednostkami. Natomiast ze względu na kon-
strukcję matematyczną stanowi ona pewną formę macierzy odległości. Interpretacja wyników grupo-
wania obiektów w oparciu o taką macierz będzie jednak nieco inna. Obiekty należące do wyodrębnio-
nego w grupowaniu przykładowego skupienia w analizowanym okresie bardziej upodobniły się pod
względem badanych cech do siebie niż do obiektów nienależących do tego skupienia. Przy dużej liczbie
jednostek terytorialnych, analizowanych w czasie, umożliwia to wskazanie obszarów konwergencji
strukturalnej.
Podobne podejście do oceny zmian w przypadku analiz przestrzenno-czasowych zaproponował KU-
KUŁA (1975). Natomiast bardziej złożone propozycje miar podobieństwa macierzy odległości w ujęciu
dynamicznym, zbudowane w oparciu o rachunek macierzowy zaproponowane zostały w publikacji
TAKSONOMIA STRUKTUR… (1998, s. 49-55).
Aby przez ogrom obliczeń nie zatracić idei wspominanych wskaźników, w tabeli 4.26 przedsta-
wiono obliczenia niezbędne do wyznaczenia względnych wskaźników odległości (por. wzór [4.57]) dla
odległości pomiędzy powiatem chodzieskim (𝑝1 ), a powiatami: czarnkowskim (𝑝2 ), gnieźnieńskim
(𝑝3 ), gostyńskim (𝑝4 ) oraz jarocińskim (𝑝5 ). Pierwsze kolumny tabeli 4.26 zawierają fragmenty macie-
rzy odległości Renkonena dotyczące wymienionych par powiatów, wyznaczone dla danych z pięciu ba-
danych lat. Stanowią one zatem składowe wektora [4.55]. Kolejne kolumny tabeli 4.26 odnoszą się już
do poszczególnych elementów względnego wskaźnika natężenia zmian odległości [4.57]:
4.4. Pomiar podobieństwa i niepodobieństwa w sytuacjach specyficznych 95
W badaniach historycznych często występuje konieczność analizy badanego zjawiska za pomocą dużej
liczby zmiennych. Uwzględnienie wszystkich dostępnych zmiennych w opisie jest czasochłonne, a po-
nadto może prowadzić do zwiększenia objętości opracowania, nie wnosząc dodatkowych treści do
pracy. Ustalenie zestawu zmiennych, które ostatecznie powinny wziąć udział w badaniu, jest jednym
z najważniejszych, a jednocześnie najtrudniejszych zagadnień w wielowymiarowej analizie statystycz-
nej (NOWAK 1981a; WALESIAK 1996b, s. 25-26). To właśnie odpowiednio przeprowadzony dobór
zmiennych decyduje o trafności i wiarygodności końcowego wnioskowania.
Wybór zmiennych, ostatecznie uwzględnionych w badaniu, poprzedza skonstruowanie na podsta-
wie wiedzy merytorycznej wstępnej listy zmiennych, które objaśniają przedmiot badania. NOWAK
(1981a) podkreśla, że mniejszym błędem jest wprowadzenie w początkowej fazie zmiennych nieistot-
nych niż ich pominięcie. W drugim etapie tego procesu badacz podejmuje działania zmierzające do
selekcji wstępnej listy zmiennych. Polegają one na eliminacji zmiennych powielających informacje do-
starczane przez inne zmienne oraz usunięcie zmiennych będących nośnikami informacji przypadko-
wych. Ograniczenie liczby zmiennych jest konieczne również z tego powodu, że zbyt liczny zbiór
zmiennych diagnostycznych biorących udział w badaniu często utrudnia, a niekiedy nawet uniemożli-
wia klasyfikację obiektów wielocechowych (ZELIAŚ 1989, s. 36-43; 2000a, s. 37). Punktem wyjścia
tego działania są kryteria związane z własnościami zmiennych oraz ich wartością informacyjną. Pierw-
sze z nich zostały opisane w rozdziale trzecim. Natomiast ocena wartości informacyjnej zmiennych wy-
maga nie tylko wiedzy merytorycznej o badanym zjawisku (HAIR i in. 1995, s. 428; RUNGE 2006, s. 81),
ale także zastosowania adekwatnych metod statystycznych (GRABIŃSKI i in. 1982). W efekcie tego dzia-
łania powstaje lista zmiennych diagnostycznych.
Należy zauważyć, że proces doboru zmiennych diagnostycznych jest szczególnie istotny w grupo-
waniu. Wśród nielicznych słabych stron analizy skupień wymienia się właśnie małą jej odporność na
skorelowanie zmiennych (ROGERS, TANIMOTO 1960). Zastosowanie jako podstawy grupowania zmien-
nych skorelowanych powoduje, że wpływ tych zmiennych na wynik grupowania jest większy (por. HAIR
i in. 1995, s. 436). Co więcej, EVERITT (1980, s. 9-10) podkreśla, że na podobieństwo czy różnice po-
między obiektami wpływa nie tylko wartość zmiennych porównywanych obiektów, ale także ich liczba.
Z kolei MAREK (1989, s. 110-111) warunkuje uzyskanie rzetelnego opisu struktury badanej rzeczywi-
stości koniecznością uwzględnienia w analizie wyłącznie zmiennych esencjalnych, opisujących grupo-
wane obiekty. Wprowadzenie zmiennych nieesencjalnych jest jeszcze jednym (dodatkowym) źródłem
zniekształceń przestrzeni oraz zaburzeń struktury i zawartości skupień.
STECZKOWSKI i ZELIAŚ (1997, s. 32) za FIERICHEM (1957) sformułowali ogólne postulaty, które
powinny spełniać zmienne diagnostyczne. Najważniejszy z nich (1) głosi, że wybrane zmienne po-
winny w najlepszy możliwy sposób ujmować istotne właściwości badanej zbiorowości. Drugi postulat
(2) to dążenie do przyjmowania cech prostych i logicznie powiązanych z przedmiotem badania. Ważne
jest także, (3) aby zmienne diagnostyczne były jednoznacznie określone co do ich jednostki i interpre-
98 5. Dobór zmiennych do badania
tacji. Kolejny postulat (4) głosi, że zmienne powinny dobrze i ostro rozgraniczać typy, przy czym bar-
dziej diagnostyczne są zawsze te zmienne, które charakteryzują się większą zmiennością. Postulat (5)
równego wpływu na przeprowadzaną typologię związany jest z wcześniej omówioną koniecznością nor-
malizacji zmiennych. Ostatnia sugestia (6) dotyczy korelacji zmiennych. Zmienne uznane za diagno-
styczne nie powinny być ze sobą zbyt ściśle skorelowane.
Znanych jest wiele metod selekcji zmiennych uwzględniających wyżej wymienione wymagania
(zob. np.: HELLWIG 1969; CHOJNICKI, CZYŻ 1973, s. 23-37; KOLUPA, NAPIÓRKOWSKI 1979; ZELIAŚ
1982; GRABIŃSKI i in. 1982; NOWAK 1984, s. 110-116; SOBCZAK, MALINA 1985; PLUTA 1986; ZELIAŚ
2000a). Znamienne jest jednak, że źródłem ich powstania była często konieczność opracowania boga-
tego materiału uzyskanego w wyniku dociekań historycznych. Przykładem tego typu motywacji jest
najstarsza metoda Czekanowskiego oraz taksonomia wrocławska. Można zatem powiedzieć, że właśnie
rezultaty badań historycznych, a w szczególności archeologicznych, stały się motywatorem do rozwoju
metod taksonomicznych.
Procedury postępowania przy doborze zmiennych można podzielić zasadniczo na dwie grupy.
Pierwszą z nich tworzą metody pozwalające na bezpośredni wybór zmiennych diagnostycznych ze
wstępnej listy zmiennych bez jej wcześniejszego podziału na grupy (ZELIAŚ 2000a, s. 40, GRABIŃSKI
1992, s. 43-47). Drugie podejście tworzą tzw. dualne procedury taksonomiczne, które polegają na
podziale wstępnej listy zmiennych na grupy silnie ze sobą powiązane, a następnie na wyborze reprezen-
tantek poszczególnych grup, które tworzą listę zmiennych diagnostycznych. Na podstawie wyodrębnio-
nych grup, zamiast wyboru reprezentantek, można stworzyć zmienną syntetyczną (zob. np.: NOWAK
1984, s. 108-138; GRABIŃSKI i in. 1990, 37-39). Podejście takie wymaga dodatkowego rozróżnienia
zmiennych na stymulanty i destymulanty. Działanie takie jest jednak związane z utratą bezpośrednich
możliwości interpretacyjnych. MŁODAK (2006, s. 32) proponuje stworzenie „sztucznej” zmiennej po-
przez dodanie odpowiednich wartości silnie ze sobą skorelowanych cech. Postępowanie to warunko-
wane jest wyrażeniem zmiennych w tej samej skali pomiarowej i ich spójnością logiczną.
Tematyka doboru zmiennych jest szeroka i bogata w literaturę i opracowania. Prezentację selekcji
zmiennych można znaleźć niemal w każdej publikacji dotyczącej zastosowania analizy skupień (zob.
np.: DILLON, GOLDSTEIN 1984, s. 20-21). Spektakularnym przykładem procedury selekcji zmiennych
jest praca SOKOŁOWSKIEGO i ZAJĄCA (1987, s.144-171), którzy zredukowali bazę czterdziestu dwu
zmiennych do trzech zmiennych diagnostycznych, które następnie uwzględnili w końcowej analizie.
Tego typu badania przeprowadziła także SŁODOWA-HEŁPA (1988, s. 228-229) w odniesieniu do prze-
strzennego zróżnicowania struktury społeczno-ekonomicznej wsi wielkopolskiej w latach 1960-1970.
Z kolei BERRY (1961), EVERITT i DUNN (1991, s. 45-66) oraz GRABIŃSKI (1992, s. 42-61) w ramach
procedur selekcji zmiennych rekomendują zastosowanie jednej z metod wielowymiarowych – analizę
czynnikową, w tym metodę składowych głównych lub analizę korespondencji. Natomiast propozycję
zastosowania metod modelowych i heurystycznych selekcji zmiennych w analizie skupień można zna-
leźć w publikacji KORZENIEWSKIEGO (2012). Część badaczy skłania się także do podejścia, w którym
różnym zmiennym nadaje się różne wagi. GRABIŃSKI (1985) dowiódł jednak, że najbardziej wskazane
jest używanie systemu wag stałych, tzn. że wszystkie zmienne powinny być traktowane w sposób rów-
noważny. Podejście to poleca także SOKOŁOWSKI (1992, s. 12).
W pracy przyjęto podział metod doboru zmiennych na dualne procedury taksonomiczne, metody
bezpośredniego wyboru zmiennych oraz metody stosowane w przypadku badań przekrojowo-czaso-
wych. Dodatkowo ich charakterystykę poprzedzono podrozdziałem, w którym uwzględniono sposoby
na wstępną selekcję zmiennych. Należy podkreślić, że liczba zaprezentowanych metod ograniczona zo-
stała ze względu na objętość pracy i podjętą tematykę. Kolejnym kryterium doboru przedstawionych
5.1. Wstępna statystyczna selekcja zmiennych 99
NOWAK (1990, s. 26) wskazuje, że wstępnym warunkiem uznania różnych wielkości za zmienne dia-
gnostyczne jest ich zdolność do dyskryminacji badanych obiektów. W tym celu bada się, czy potencjalne
zmienne odznaczają się dostatecznie dużą zmiennością. Do zbioru zmiennych nie powinny zostać za-
kwalifikowane te zmienne, które nie wykazują zmienności w obszarze badanych obiektów. Traktować
je należy jako stałe lub quasi-stałe. Zagadnienie to zajmuje także swoje miejsce wśród postulatów, jakie
powinny spełniać zmienne diagnostyczne, sformułowanych przez STECZKOWSKIEGO i ZELIASIA (1997,
s. 32; zob. także ZELIAŚ 1982, 2000a, s. 43).
Punktem wyjścia do eliminacji zmiennych stałych lub quasi-stałych wyrażonych w skali ilorazowej
może być wartość współczynnika zmienności, czyli iloraz odchylenia standardowego i średniej arytme-
tycznej:
𝑠𝑗
𝑣𝑗 = , [5.1]
|𝑥̅𝑗 |
gdzie:
𝑣𝑗 – współczynnik zmienności 𝑗-tej zmiennej, przy czym 𝑗 = 1, 2, … , 𝑚,
𝑠𝑗 – odchylenie standardowe 𝑗-tej zmiennej po wszystkich jednostkach,
𝑥̅𝑗 – średnia arytmetyczna 𝑗-tej zmiennej po wszystkich jednostkach.
Ponadto należy usunąć ze zbioru zmiennych potencjalnych te, dla których spełniona jest nierówność
[5.2]. Zwykle przyjmuje się, że progowa wartość współczynnika zmienności wynosi 𝜀 = 0,1 (por. MA-
LINA, ZELIAŚ 1997). Zmienne, które przekroczyły ten poziom, odznaczają się dostateczną zmiennością:
𝑣𝑗 ≤ 𝜀, [5.2]
gdzie 𝜀 jest arbitralnie zadaną małą liczbą dodatnią.
niu nie powinny być wzajemnymi kombinacjami liniowymi. Nie mogą być zatem ze sobą silnie sko-
relowane. Zuważa on jednak, że sytuacja całkowitej eliminacji skorelowania zmiennych jest prak-
tycznie niemożliwa. Konieczne jest zatem wyznaczenie ich grup i dla każdej z nich wyznaczenie re-
prezentantów. Można oczywiście zastosować tu różne metody wielowymiarowe (zob. np.: ZELIAŚ
1968; 2000, s. 40).
Jedną z najczęściej stosowanych metod doboru zmiennych diagnostycznych polega na zastoso-
waniu dualnej procedury taksonometrycznej (GRABIŃSKI 1992, s. 44-47). Przebiega ona zwykle
w dwóch etapach. Pierwszy etap polega na grupowaniu zmiennych w przestrzeni obiektów lub okre-
sów przy pomocy jednej z procedur taksonometrycznych. Można tu zastosować metody diagramowe,
grafowe czy hierarchiczne. Przykłady tych metod zostaną opisane w kolejnych podrozdziałach.
W drugim etapie przeprowadza się wybór reprezentantek wyodrębnionych grup zmiennych, które
z kolei stworzą zbiór zmiennych diagnostycznych. Działanie to, niezależnie od przyjętej metody
w pierwszym etapie procedury dualnej, przebiega tak samo. Z tego powodu etap ten został opisany
w pierwszym podrozdziale.
Dualna procedura taksonomiczna była dotychczas wielokrotnie opisywana i stosowana w badaniach
społeczno-gospodarczych. Dla przykładu podejście takie zastosowali PODOLEC i ZAJĄC (1978, s. 59-
-66) w przypadku doboru zmiennych diagnostycznych oceniających rejony konsumpcji w Polsce. Na-
tomiast POCIECHA i in. (1988, s. 108-110) w opisywany sposób ograniczyli liczbę zmiennych w bada-
niach ekonomiczno-rolniczych, a FRANKOWSKI (1991, s. 24-26) w badaniach przedsiębiorstw przemy-
słowych.
Końcowym etapem dualnej procedury taksonomicznej jest wybór spośród pogrupowanych zmiennych
tej, która będzie reprezentować całą grupę. Wyboru takiego można dokonać subiektywnie, na podstawie
wiedzy merytorycznej. W bardziej złożonych sytuacjach można posiłkować się metodami statystycz-
nymi. PODOLEC i ZAJĄC (1978, s. 64-65) zwracają dodatkowo uwagę, że przy wyborze zmiennych-
-reprezentantek należy zrezygnować z takich, które odznaczają się niskim poziomem zmienności, oraz
ze zmiennych skorelowanych z tymi, które z przyczyn merytorycznych (a nie statystycznych) nie po-
winny być pominięte.
Zmienna-reprezentanka powinna oczywiście wchodzić w skład tej grupy, którą reprezentuje, oraz
jeżeli nie jest to grupa dwuelementowa, powinna być najbardziej podobna do pozostałych cech z tej
grupy (GRABIŃSKI 1992, s. 46). Jednocześnie stawiany jest wymóg słabego skorelowania z pozostałymi
zmiennymi diagnostycznymi oraz wspomnianej wyżej zdolności dyskryminacji badanych jednostek
(PLUTA 1977, s. 45). ZELIAŚ (2000a, s. 42) postuluje, aby wyselekcjonowane zmienne odznaczały się
niskim stopniem podobieństwa w sensie przynoszonych informacji o badanym zjawisku.
Założenia takie realizuje metoda środka ciężkości (PLUTA 1977, s. 41-42; POCIECHA i in. 1988,
s. 105-106). W tym celu w wieloelementowych grupach zmiennych oblicza się odległość każdej zmien-
nej od pozostałych według wzoru [5.3], a następnie wybiera się taką, dla której suma wyznaczonych
w ten sposób odległości jest najmniejsza.
𝑛𝑙
gdzie:
𝐷𝑖𝑤 – suma odległości 𝑖-tej zmiennej od pozostałych zmiennych w 𝑙-tej grupie,
𝑛𝑙 – liczba zmiennych w 𝑙-tej grupie,
𝑑𝑖𝑗 – wartość odległości 𝑖-tej zmiennej od 𝑗-tej zmiennej, przy czym 𝑖 ≠ 𝑗 oraz 𝑗 = 1, 2, … , 𝑛𝑙 .
Jeżeli grupa zmiennych jest dwuelementowa, to wybiera się tę zmienną, która jest najbardziej od-
dalona od wcześniej ustalonych reprezentantek. Taki warunek spełnia ta zmienna, dla której suma od-
ległości między nią a wcześniej wybranymi zmiennymi, przedstawiona jako wzór [5.4], jest większa.
𝑔−𝑘
gdzie:
𝐷𝑖𝑧 – suma odległości 𝑖-tej zmiennej od pozostałych zmiennych-reprezentantek,
𝑔 – liczba wyodrębnionych grup zmiennych, przy czym 𝑙 = 1, 2, … , 𝑔,
𝑘 – liczba grup dwuelementowych,
𝑑𝑖𝑗 – wartość odległości 𝑖-tej zmiennej od 𝑗-tej zmiennej-reprezentantki jednej z pozostałych grup, przy
czym 𝑖 ≠ 𝑗 oraz 𝑗 = 1, 2, … , 𝑔 − 𝑘.
Uzyskany w ten sposób zbiór zmiennych diagnostycznych spełnia postulat, że reprezentantki po-
winny w jak największym stopniu reprezentować cechy swojej grupy i jednocześnie być możliwie różne
od zmiennych reprezentujących inne grupy.
W pewnych sytuacjach można zamiast wybierać reprezentantki grup zmiennych, wyrazić grupę
zmiennych za pomocą jednej zmiennej syntetycznej (PLUTA 1977, s. 77-88). W tym celu rekomendo-
wane są np. metody porządkowania liniowego czy metody analizy czynnikowej. Nie będą one jednak
rozważane w tym rozdziale.
Za najstarszą procedurę taksonomiczną jest uznawana metoda Czekanowskiego (NOWAK 1990, s. 64).
Jak wspomniano wcześniej, została ona opracowana przez polskiego uczonego Jana Czekanowskiego
na początku XX w. (CZEKANOWSKI 1913). W literaturze funkcjonuje ona pod nazwą metody różnic,
metody różnic przeciętnych, metody podobieństwa, diagraficznej metody Czekanowskiego (por.: HEN-
ZEL 1953; SZPADERSKI 1960; GŁUGIEWICZ 1960; LICZKOWSKI 1961; FAJFEREK 1965; PODOLEC, ZA-
JĄC 1978, s. 38). Zalicza się ona do metod bezwzorcowych, iteracyjnych.
Metodę tę można stosować do grupowania różnego typu jednostek taksonomicznych: obiektów,
zmiennych czy okresów (GRABIŃSKI 1992, s. 77). STECZKOWSKI i ZELIAŚ (1981, s. 24) za GŁUGIEWI-
CZEM (1960) podkreślają, że wśród jej zalet należy wymienić fakt, że oprócz wskazania związków naj-
bliższych nie gubi i nie zaciera związków dalszych. Dotychczas znalazła ona zastosowanie w różnych
typach badań, również przy grupowaniu obiektów i rejonizacji (GŁUGIEWICZ 1960; SZPADERSKI 1960;
FAJFEREK 1965; WYSOCKI 1965; ZAMBRZYCKA-KUNACHOWICZ 1974a; PLIT 1979; STECZKOWSKI, ZE-
LIAŚ 1981; KOLENDA 2006; RUNGE 2006, s. 206-212). STECZKOWSKI i ZELIAŚ (1997, s. 36-43) zasto-
102 5. Dobór zmiennych do badania
Tabela 5.1. Zalecana liczba klas odległości w zależności od liczby grupowanych jednostek
Można także ograniczyć pracochłonność porządkowania diagramu Czekanowskiego (etap 4). Sto-
sowne rozwiązanie zaproponował GRABIŃSKI (1989a), łącząc ten etap z oceną poprawności uporząd-
kowania macierzy odległości. Kryterium poprawności uporządkowania macierzy odległości – funkcję
𝐹 – zapisano jako wzór [5.5]. Diagram Czekanowskiego należy porządkować do momentu, gdy funkcja
𝐹 osiągnie maksimum. Przy takim uporządkowaniu wierszy i kolumn macierzy odległości należy po-
zostać. Należy je uznać za optymalne i na jegp podstawie dokonać podziału zmiennych na grupy.
𝑚 𝑚
gdzie:
𝐹 – kryterium określające poprawność uporządkowania diagramu Czekanowskiego,
𝑚 – liczba grupowanych zmiennych, przy czym 𝑖 = 1,2, … , 𝑚,
𝑑𝑖𝑗 – wartość odległości 𝑖-tej zmiennej od 𝑗-tej zmiennej,
𝑢𝑖𝑗 – wagi elementów macierzy odległości 𝑫, przy czym 𝑢𝑖𝑗 = |𝑖 − 𝑗|/(𝑚 − 1).
Metoda taksonomia wrocławska, przyjęła swoją nazwę, ze względu na fakt, że została opracowana na
początku lat 50. XX wieku przez naukowców tworzących Grupę Zastosowań Państwowego Instytutu
Matematycznego we Wrocławiu, na której czele stał Hugo Steinhaus (1887-1972). W literaturze funk-
cjonuje ona także pod nazwą metoda dendrytowa.
Taksonomia wrocławska należy do grupy hierarchicznych procedur taksonomicznych (FLOREK i in.
1951). Na etapie budowy grafów można ją zaliczyć do metod stosujących procedury aglomeracyjne,
a przy analizie powstałych dendrytów konieczne jest zastosowanie procedur podziału. W metodzie tej
do prezentacji wyników stosuje się graf – dendryt. Jest on definiowany przez autorów jako linia łamana
„…która może się rozgałęziać, lecz nie może zawierać łamanych zamkniętych i taka, że każde dwa
punkty zbioru 𝑍 są przez nią połączone”. Dendryt uzyskany w wyniku zastosowania tej metody jest
dendrytem o najmniejszych odległościach pomiędzy poszczególnymi elementami (PLUTA 1977, s. 29;
GRABIŃSKI 1992, s. 89-91).
Przykłady zastosowań taksonomii wrocławskiej można znaleźć w pracach HELLWIGA (1968),
SZCZOTKI (1972), FRĄCKIEWICZ i ZADĘCKIEGO (1973), NOWAKA (1990, s. 72-80). Taksonomia wro-
cławska jest stosowana również współcześnie (zob. np.: KOWALEWSKI 2006). Do doboru zmiennych
proponuje ją także ZELIAŚ (1982). W badaniach demograficznych korzystał z niej STOKOWSKI (1971),
a w badaniach dążących do wyodrębnienia regionów jednolitych PLIT (1979) czy SZCZEPANIAK (1990).
Współczesnym przykładem wykorzystania tej metody w badaniach historycznych jest analiza proble-
mów demograficznych i zdrowotność głównych ośrodków miejskich na Pomorzu Zachodnim
w XIX w., zawarta w monografii Dariusza K. CHOJECKIEGO (2014, s. 47-50).
Metodzie tej przypisuje się wiele zalet, takich jak duża czytelność i poprawność formalna procedury.
Nie daje ona jednak pełnego obrazu przestrzeni, w której znajdują się badane obiekty, jak ma to miejsce
w przypadku metody Czekanowskiego (PODOLEC, ZAJĄC 1978, s. 39). Co więcej, SIEDLECKA (1976)
wskazuje na to, że w taksonomii wrocławskiej zakładana jest przechodniość relacji podobieństwa mię-
dzy elementami zbiorów. Niemniej jednak opisywana metoda znajduje zastosowanie w grupowaniu za-
równo obiektów, jak i zmiennych.
Zastosowanie taksonomii wrocławskiej w przypadku grupowania zmiennych przebiega w kilku eta-
pach (por. PLUTA 1977, s. 28-32; GRABIŃSKI 1992, s. 90-91; SIEDLECKA 1999). Podobnie jak w meto-
dzie Czekanowskiego pierwszy etap (1) polega na konfiguracji macierzy odległości pomiędzy zmien-
nymi. Etap drugi (2) to stworzenie dla każdej zmiennej i zmiennej jej najbliższej grafu niezorientowa-
nego. W kolejnym kroku (3) wszystkie grafy niezorientowane łączy się w jeden graf spójny. Nazywany
106 5. Dobór zmiennych do badania
jest on także dendrytem wrocławskim. Aby uzyskać podział na grupy zmienne, graf ten należy ostat-
nim kroku (4) odpowiednio podzielić.
Tworzenie macierzy odległości (etap 1) dla zmiennych, w zależności od skali w której zostały wy-
rażone, zostało opisane w rozdziale poprzednim. Aby stworzyć w etapie 2 grafy niezorientowane, na-
leży w każdym wierszu (lub kolumnie) macierzy odległości wskazać parę obiektów najbardziej podob-
nych, czyli najbliższych sobie. W przykładzie zaprezentowanym na rysunku 5.2 zapisano je w postaci
wektora 𝑑𝑚𝑖𝑛 . Otrzymane wartości przedstawia się w postaci grafów, w których długości krawędzi od-
powiadają odległościom pomiędzy zmiennymi.
W następnym etapie (etap 3) łączy się grafy niezorientowane. Jeżeli wszystkie obiekty tworzą jedną
całość, to graf można uznać za spójny. Jeśli tak nie jest, to jego poszczególne składowe łączy się ze sobą
w miejscu wyznaczonym przez minimalną odległość między zmiennymi – wierzchołkami – należącymi
do łączonych składowych. W przedstawionym na rysunku 5.2 przykładzie zmienne 𝑋1 , 𝑋3 oraz 𝑋5 stwo-
rzyły jeden graf. Analizując odległości zmiennej 𝑋2 do wymienionych zmiennych, mamy:
𝑑2;1 = 4,21, 𝑑2;3 = 6,2, 𝑑2;5 = 4,8. Z kolei odległości wyznaczone dla zmiennej 𝑋4 , wynoszą odpo-
wiednio: 𝑑4;1 = 4,18, 𝑑4;3 = 8,1, 𝑑4;5 = 4,4. Zatem najmniejsza z wymienionych odległości to 𝑑4;1 =
4,18. W konsekwencji połączenie grafów nastąpi między wierzchołkiem 𝑋4 oraz 𝑋1 . W ten sposób
połączono wszystkie zmienne w jednym grafie.
W celu uzyskania podziału zbioru zmiennych na dowolną liczę grup (etap 4), należy w odpowied-
nich miejscach poprzecinać uzyskany dendryt. Liczba skupień zmiennych 𝑙 może być ustalana arbitral-
nie przez badacza. Natomiast aby wskazać miejsca przecięcia dendrytu, należy uporządkować wszystkie
wyznaczone w grafie krawędzie malejąco oraz usunąć odpowiednią liczbę najdłuższych połączeń. Jeżeli
ostatecznie ma być 𝑙 grup zmiennych, to należy odrzucić 𝑙 − 1 najdłuższych krawędzi. Takie uporząd-
kowanie przyjmie postać zapisaną jako wzór [5.7]:
Aby uzyskać dwie grupy zmiennych (𝑔 = 2) należy usunąć połączenie 𝑑1 . Jeżeli odrzucone zostałyby
dwie najdłuższe krawędzie w dendrycie wrocławskim (𝑑1 oraz 𝑑2 ), to zmienne zostałyby podzielone
na trzy grupy (𝑔 = 3).
Bardziej sformalizowaną procedurę przecięcia dendrogramu wrocławskiego – regułę stopu – przed-
stawił HELLWIG (1968). Podejście to można uznać za tożsame z zaproponowanym przez MOJENĘ
(1977). Zgodnie z nim w dendrycie wrocławskim należy odrzucić wszystkie krawędzie dłuższe od war-
tości krytycznej 𝑑∗ , którą zdefiniowano jako (por. GRABIŃSKI 1989a):
𝑑∗ = 𝑑̅ + 𝑘𝑠𝑑 , [5.8]
gdzie:
𝑑∗ – krytyczna wartość długości krawędzi w dendrycie wrocławskim,
𝑑̅ – średnia najbliższych połączeń w dendrycie wrocławskim,
𝑠𝑑 – odchylenie standardowe najbliższych połączeń w dendrycie wrocławskim,
𝑘 – stała, zwykle 𝑘 = 1 lub 𝑘 = 2.
5.2 Dualne procedury taksonometryczne 107
4,16 2,15
𝑋1 𝑋5 𝑋3
4,18
2,58
𝑋4 𝑋2
Kolejna metoda doboru zmiennych, którą można zastosować w badaniach historycznych to metoda eli-
minacji wektorów. Została ona zaproponowana przez Stanisława CHOMĄTOWSKIEGO i Andrzeja SO-
KOŁOWSKIEGO (1978). Ze względu na swoje pierwotne przeznaczenie funkcjonuje ona w literaturze pod
nazwą taksonomii struktur. Jest ona jednak również rekomendowana do klasyfikacji obiektów opisywa-
nych przez cechy innego rodzaju (NOWAK 1990, s. 108). Jej opis wraz z przykładami można znaleźć
w licznych publikacjach (zob. np.: PODOLEC, ZAJĄC 1978, s. 50-51; POCIECHA i in. 1988, s. 87-
-88; NOWAK 1990, s. 108-114).
CHOMĄTOWSKI i SOKOŁOWSKI (1978) zaproponowali, aby za kryterium podziału jednostek,
w przypadku zmiennych, przyjąć zasadę, że w jednej podgrupie mogą się znaleźć tylko obiekty o struk-
turach parami podobnych (na poziomie 𝑑∗ ). Podział taki można uzyskać, eliminując kolejno zmienne
najbardziej niepodobne do pozostałych. Procedura eliminacji wektorów przebiega zatem w kilku pę-
tlach. Ich ilość jest zdeterminowana liczbą wyodrębnionych grup. Każda z pętli dzieli się na kilka eta-
pów. Podobnie jak we wcześniej prezentowanych metodach punktem wyjścia (1) jest wyznaczenie ma-
cierzy odległości 𝑫 pomiędzy zmiennymi. W następnym kroku (2) należy ustalić krytyczny poziom
niepodobieństwa 𝑑∗ . Na jego podstawie (3) przekształcana jest macierz odległości w macierz zeroje-
dynkową. To z kolei pozwala na (4) wyznaczenie wektora 𝑑0 , którego składowe stanowią sumę wartości
występujących w wierszach skorygowanej macierzy odległości. Etap (5) polega na eliminacji kolejnych
wierszy i kolumn macierzy odległości na podstawie wartości niezerowych wektora 𝑑0 . Zmienne, które
odpowiadają pozostałym wartościom zerowym w wektorze 𝑑0 , tworzą pierwszą wyodrębnioną grupę.
Pętlę kończy (6) usunięcie wyodrębnionych zmiennych z macierzy odległości. Proces należy powtarzać,
aż do wyodrębnienia wszystkich grup zmiennych. Analogicznie do poprzednich przykładów wybrane
etapy metody eliminacji wektorów przedstawiono na rysunku 5.3.
1
Metoda ta została opisana w rozdziale 5.3.1.
5.2 Dualne procedury taksonometryczne 109
PĘTLA PIERWSZA
0 1 0 1 ∑2 = 𝟐
0 1 0 ∑3 = 1
1 0 1 0 ′ ∑ =2 0 0 ′′′ ∑ =0
′
𝑫𝟏 = [ ]𝑑 = 3 𝑫′′
𝟏 = [1 0 1] 𝑑0′′ = [∑4 = 𝟐] 𝑫′′′
𝟏 =[ ]𝑑 =[ 3 ]
0 1 0 1 0 ∑4 = 2 0 0 0 ∑5 = 0
0 1 0 ∑5 = 1
1 0 1 0 [∑5 = 2]
PĘTLA DRUGA
Szerszego omówienia w tej metodzie wymaga etap 2, który polega na wyznaczeniu krytycznego
poziomu niepodobieństwa 𝑑∗ . Można go podać odgórnie (zob. np.: POCIECHA i in. 1988, s. 87). W przy-
padku badań strukturalnych przyjmuje się, że 𝑑∗ = 0,05 lub mniej. Można także skorzystać z reguły
stopu, przedstawionej dla taksonomii wrocławskiej (por. wzór [5.8]). Prostym rozwiązaniem jest reguła
stopu zaproponowana przez GOWERA i ROSSA (1969, por. Grabiński i in. 1982, s. 141):
𝑑max − 𝑑min
𝑑∗ = , [5.9]
𝑐
gdzie:
𝑑∗ – krytyczny poziom niepodobieństwa,
𝑑max – maksymalna wartość w macierzy odległości,
𝑑min – minimalna wartość w macierzy odległości (poza elementami na przekątnej),
𝑐 – wartość stała ustalana a priori.
Drugą grupę procedur doboru zmiennych diagnostycznych stanowią metody pozwalające na jednoeta-
powy ich wybór z wstępnej listy zmiennych (ZELIAŚ 2000a, s. 40, GRABIŃSKI 1992, s. 43-47). W od-
różnieniu od procedur dualnych w wyniku zastosowania tego podejścia uzyskiwany jest jednocześnie
podział zmiennych na grupy i wyodrębnienie zmiennych – reprezentujących te grupy. Do rezultatów
tego typu prowadzą m.in. metody obszarowe.
5.3. Bezpośredni wybór zmiennych diagnostycznych 111
Inne podejście do problemu doboru zmiennych do badania polega na modyfikacji listy zmiennych
w oparciu o określone kryterium. W ten sposób jednoetapowo zostaje ona ograniczona do listy zmien-
nych diagnostycznych. Takie założenia spełnia metoda odwrotnej macierzy korelacji. Należy jednak
pamiętać, że stosując to podejście, badacz rezygnuje z informacji o powiązaniu zmiennych diagnostycz-
nych ze zmiennymi odrzuconymi w tym podejściu.
Metoda hiperkul została opracowana w środowisku wrocławskim pod kierunkiem Zdzisława Hellwiga
(1925-2013). Po raz pierwszy została zaprezentowana w 1969 r. (BUKIETYŃSKI i in. 1969). Metoda ta
jest szczegółowo opisana w wielu publikacjach (zob. np.: PLUTA 1977, s. 35-37; HELLWIG 1981; PO-
CIECHA i in. 1988, s. 85-87; NOWAK 1990, s. 28-28; ZELIAŚ 2000a, s. 41-45). W literaturze metoda
hiperkul funkcjonuje również pod nazwami: metoda wrocławska, metoda Hellwiga czy metoda kul.
Metoda ta należy do grupy metod obszarowych, w których przestrzeń dzieli się, zgodnie z odpo-
wiednio ustalonymi zasadami, na rozłączne podobszary, natomiast obiekty znajdujące się w tych obsza-
rach traktuje się jako odrębne grupy. Podobszary stanowią hiperkule o arbitralnie wyznaczonym pro-
mieniu. ZELIAŚ (2000a, s. 42) natomiast podkreśla, że zaletą tej metody jest jej prostota rachunkowa.
Dodatkowo cenną jej własnością jest to, że dla różnych wartości progowych d* otrzymuje się różne
podziały zbioru zmiennych na skupienia. Im d* bliższe jedności, tym uzyskuje się mniej skupień zmien-
nych o większej liczebności. Im d* bliższe zeru, tym powstaje więcej skupień o mniejszej liczebności.
GRABIŃSKI (1989b) wskazuje, że w wyniku stosowania metody hiperkul powstaje duża liczba grup
zmiennych zawierających małą liczbę obiektów. MŁODAK (2006, s. 31) zauważa także, że metoda ta
skupia się jedynie na powiązaniach bezpośrednich zmiennych, a nie uwzględnia powiązań pośrednich.
Podobnie jak metodzie eliminacji wektorów zastosowanie metody hiperkul wymaga sekwencji dzia-
łań wykonanych w kilku pętlach, których ilość jest zdeterminowana liczbą wyodrębnionych ostatecznie
grup obiektów. Schemat obrazujący ten proces został zaprezentowany na rysunku 5.4. Punktem wyjścia
w opisywanej metodzie jest (1) wyznaczenie macierzy odległości. Następnie (2) wyznaczany jest pro-
mień hiperkul, który traktowany jest jako progowa wartość niepodobieństwa 𝑑∗ . W następnym etapie
(3) każda ze zmiennych uznawana jest za zmienną centralną, wokół której zatacza się kulę o promieniu
𝑑∗ . Dzięki temu (4) obiekty należące do najliczniejszej hiperkuli traktuje się jako odrębną grupę zmien-
nych. Pętlę kończy (5) korekta macierzy odległości. Procedurę tę powtarza się aż do wyczerpania
wszystkich grupowanych zmiennych. Zatem pętli jest tyle, ile wyodrębnionych grup.
Zadaniem etapu 1 jest wyznaczenie macierzy odległości na podstawie macierzy korelacji. Zostało
ono opisane w rozdziale czwartym. Jak wielokrotnie wspominano wcześniej, należy pamiętać, że wybór
miary korelacji jest ściśle zależny od skali pomiarowej, w której zostały wyrażone zmienne.
Aby wyznaczyć w etapie 2 promień hiperkul, autorzy metody zaproponowali następujące podejście:
PĘTLA PIERWSZA
Etap 1. Macierz odległości i wektor najkrótszych połączeń
0,00 4,21 6,13 4,18 4,16 𝑑1;2 = 4,16
4,21 0,00 6,20 2,58 4,80 𝑑2;4 = 2,58
𝑫 = 6,13 6,20 0,00 8,10 2,15 𝑑𝑚𝑖𝑛 = 𝑑3;5 = 2,15
4,18 2,58 8,10 0,00 4,40 𝑑4;2 = 2,58
[4,16 4,80 2,15 4,40 0,00] [𝑑5;3 = 2,15]
PĘTLA DRUGA
Etap 1. Macierz odległości i wektor najkrótszych połączeń
0,00 2,58 𝑑2;4 = 2,58
𝑫′ = [ ] 𝑑𝑚𝑖𝑛 = [ ]
2,58 0,00 𝑑4;2 = 2,58
2 W przypadku większej liczby zmiennych do zliczania zmiennych satelitarnych w programie Excel można wykorzystać
funkcję LICZ.JEŻELI().
3 Zakładając, że znajduje się bliżej początku układu współrzędnych.
5.3. Bezpośredni wybór zmiennych diagnostycznych 113
W myśl wzoru [5.10] należy wyznaczyć dla każdego wiersza macierzy odległości jej wartość mini-
malną, najczęściej zapisaną w postaci wektora 𝑑min . Najwyższa wartość w wektorze 𝑑min stanowi pro-
mień hiperkul. Na jego podstawie możliwe jest w etapie 3 wykreślenie hiperkul dla każdej zmiennej
biorącej udział w badaniu oraz wskazanie zmiennych, które będą się znajdowały w obrębie tak wyzna-
czonego obszaru hiperkuli. Praktycznie działanie to polega na wskazaniu i zliczeniu w każdej kolumnie
macierzy 𝑫 odległości mniejszych lub równych wartości promienia wyznaczonego na etapie 2.
W kolejnym kroku (etap 4), zmienne należące do najliczniejszej hiperkuli traktuje cię jako odrębną
grupę. Zmienna, której odpowiada wyznaczona w ten sposób kolumna macierzy odległości nazywana
jest pierwszą zmienną centralną. Natomiast zmienne, które znalazły się w obrębie tak wyznaczonego
obszaru hiperkuli, nazwane są zmiennymi satelitarnymi zmiennej centralnej. Jeżeli uzyskuje się kilka
hiperkul równolicznych, to jako pierwszą grupę powinno się wybrać tę, której środek znajduje się naj-
bliżej początku układu współrzędnych (por. GRABIŃSKI i in. 1982, s. 149).
Na etapie 5 pierwszej pętli następuje wykreślenie z macierzy odległości 𝑫 wierszy i kolumn odpo-
wiadających zmiennej centralnej i jej zmiennych satelitarnych wyodrębnionych w etapie 4. W wyniku
tego otrzymuje się zredukowaną macierz odległości 𝑫′ , która z kolei jest punktem wyjścia do sekwencji
działań w pętli drugiej. Procedurę tę powtarza się aż do momentu wyczerpania możliwości wykreślenia
wierszy i kolumn z analizowanej macierzy odległości.
Metoda hiperkul okazała się użyteczna w grupowaniu zmiennych w przykładzie dotyczącym struk-
tury przemysłu uspołecznionego w latach 1958-1989. Szczegółowy przebieg wyodrębniania grup po-
szczególnych przemysłu opisano w rozdziale dziewiątym tego opracowania.
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Wartości liczbowe na przekątnej macierzy odwrotnej są uzależnione nie tylko od stopnia skorelo-
wania określonej zmiennej z pozostałymi zmiennymi, ale także od liczby zmiennych biorących udział
w badaniu. Dlatego próg eliminacji zmiennych należy dostosować do liczby analizowanych zmiennych.
Dobrym rozwiązaniem może być uwzględnienie poziomu pierwszej istotnej różnicy odległości. Jed-
nakże, jak wspomniano na początku rozdziału, przy usuwaniu zmiennych można kierować się nie tylko
względami statystycznymi, ale także merytorycznymi.
Zastosowanie metody odwrotnej macierzy korelacji w badaniach historycznych można prześledzić
w przykładzie dotyczącym sytuacji demograficznej departamentu poznańskiego w 1810 r. Został on
szczegółowo opisany w rozdziale siódmym. Dzięki zastosowaniu metody odwrotnej macierzy korelacji
ograniczono w grupowaniu liczbę zmiennych do sześciu, usuwając tylko te, które były najsilniej skore-
lowane z pozostałymi. Nie wnosiły zatem do badaniach nowych informacji różnicujących grupowane
powiaty.
Jeżeli badaniu podlega zjawisko zmieniające się w czasie, to klasyczne metody doboru zmiennych dia-
gnostycznych mogą być niewystarczające. Spełnienie warunku porównywalności wymaga, aby wnioski
wyciągane dla każdego okresu były oparte o ten sam zestaw zmiennych diagnostycznych. Jednak zestaw
zmiennych diagnostycznych przyjęty dla jednego roku, nie zawsze jest poprawny pod względem mery-
torycznym i statystycznym w innym roku badanego okresu. Może zmieniać się nie tylko natężenie
zmiennych, ale i ich znaczenie, a także charakter powiązań między nimi. Co więcej, nieuwzględnienie
w analizie dynamicznych powiązań między dostępnymi zmiennymi powoduje, że formułowane sądy
mogą mieć mniejszą wartość poznawczą (ZELIAŚ 2000a, s. 51).
5.4. Dobór zmiennych w przypadku badań przekrojowo-czasowych 115
W ten sposób każdy wiersz macierzy 𝑽𝒕 [5.11] stanowi kolejne współczynniki zmienności, wyznaczone
dla poszczególnych okresów. Dla każdego wiersza tej macierzy możliwe jest wyznaczenie średniej war-
tości współczynników zmienności w badanym okresie:
𝑇
1
𝑣̅𝑖 = ∑ 𝑣𝑖𝑡 , [5.12]
𝑇
𝑡=1
gdzie:
𝑣̅𝑖 – średnia współczynników zmienności 𝑖-tej zmiennej po okresach 𝑡 (𝑡 = 1, 2, … , 𝑇),
𝑣𝑖𝑡 – współczynnik zmienności 𝑖-tej zmiennej (𝑖 = 1, 2, … , 𝑚) wyznaczony dla okresu 𝑡.
Warto w tym miejscu przypomnieć, że jeżeli wartość współczynnika zmienności 𝑣𝑖𝑡 , wyznaczonego
dla okresu t, jest bliska zeru, to oznacza, że poszczególne wartości zmiennych w okresie t oscylowały
wokół ich średniej. Zatem jeżeli średnia współczynników zmienności danej zmiennej 𝑣̅𝑖 , wyznaczona
po wszystkich uwzględnionych w badaniu okresach 𝑡 = 1, 2, … , 𝑇 jest bliska zeru, to oznacza, że
zmienna ta odznaczała się dużą stabilnością w całym badanym okresie. Zmienne, których właśnie taka
sytuacja dotyczy, powinny zostać usunięte, bo nie różnicują w wystarczającym stopniu porównywanych
obiektów. Natomiast w wypadku, gdy zmienność zmienia się w sposób systematyczny, to oznacza, że
można wyznaczyć dla nich określoną tendencję (ZELIAŚ 2000a). Ten aspekt jest szczególnie istotny
w przypadku prognozowania na podstawie danych historycznych. W przypadku badań przekrojowo-
czasowych wystarczy, że na podstawie analizy wartości współczynników zmienności w czasie zostaną
usunięte te zmienne, które nie osiągnęły zadanego przeciętnego progu zmienności 𝜀 𝑡 . ZELIAŚ (1989,
s. 45) proponuje, aby próg taki, w przypadku analiz przekrojowo-czasowych, wynosił 𝜀 𝑡 = 0,35.
W miarę upływu czasu może zmieniać się nie tylko zróżnicowanie wartości zmiennych, ale i siła
powiązań między nimi. Z tego powodu w drugim etapie doboru zmiennych diagnostycznych w przy-
padku badań w ujęciu dynamicznym konieczna jest także analiza współczynników korelacji w każdym
z badanych okresów. W rezultacie uzyskuje się obraz dynamicznych zmian zachodzących w sile powią-
zań między rozpatrywanymi zmiennymi. Interesujące jest zwłaszcza, czy wartości współczynników ko-
relacji zmieniają się w czasie, czy też mają charakter stacjonarny (ZELIAŚ 1989). Szczegółowa analiza
116 5. Dobór zmiennych do badania
ciągów tego typu wskaźników pozwala również na znalezienie momentów gwałtownych zmian struk-
tury, a tym samym może przyczynić się do poznania pewnych przełomowych okresów, które mają
istotne znaczenie w badaniach zjawisk historycznych (KUKUŁA 1975).
Na podstawie ciągów współczynników korelacji, wyznaczonych dla poszczególnych okresów, ana-
logicznie jak w przypadku współczynników zmienności, można zbudować macierz średnich współ-
czynników korelacji:
1 𝑟̅1;2 ⋯ 𝑟̅1𝑚
𝑟̅
̅ 𝑡 = [ 2;1 1 ⋯ 𝑟̅1𝑚
𝑹 ], [5.13]
⋮ ⋮ ⋱ ⋮
𝑟̅𝑚1 𝑟̅𝑚2 ⋯ 1
gdzie:
𝑟̅𝑖𝑗 – średnia współczynników korelacji pomiędzy 𝑖-tą oraz 𝑗-tą zmienną (𝑖, 𝑗 = 1, 2, … , 𝑚)
po t-okresach (t =1, 2, …, T).
W oparciu o macierz średnich współczynników korelacji 𝑹 ̅ 𝑡 [5.13] w drugim etapie doboru zmien-
nych do badania w przypadku danych przekrojowo-czasowych można zastosować jedną w metod dual-
nych lub bezpośredniego doboru zmiennych, opisaną w poprzednich podrozdziałach. Ze względu na
fakt, że dobór zmiennych będzie opierał się na wartościach uśrednionych współczynników korelacji,
decyzje co do ostatecznej listy zmiennych diagnostycznych lepiej opierać na mniej restrykcyjnych kry-
teriach.
Zastosowanie wyżej opisanej procedury doboru zmiennych w przypadku historycznych badań prze-
krojowo-czasowych można prześledzić w ostatnim rozdziale tej monografii. Został w nim zaprezento-
wany przykład dotyczący wpływów podatkowych z poszczególnych rodzajów działalności indywidual-
nej w latach 1958-1970 r. Dostępne dane dotyczyły poszczególnych powiatów województwa poznań-
skiego i sześciu grup podatników. Co więcej, źródła archiwalne pozwoliły na porównanie tych informa-
cji w pięciu latach badanego okresu: 1958, 1961. 1964. 1967, 1970. W oparciu o wyznaczone wartości
macierzy średnich współczynników korelacji 𝑹 ̅ 𝑡 [5.13] i taksonomię wrocławską pogrupowano
zmienne dotyczące poszczególnych rodzajów działalności, co ułatwiło dalszy proces taksonomiczny.
6
Wybrane metody hierarchiczne i kombinatoryczne
Jak wspomniano wcześniej, liczba podejść i algorytmów zaliczanych do metod taksonomicznych jest
ogromna. W rozdziale tym dokonany został subiektywny ich wybór, którego kluczem była dostępność
oprogramowania statystycznego ułatwiającego ich stosowanie i jednoznaczność uzyskanych wyni-
ków grupowania. Warunki te spełniają metody hierarchiczne i kombinatoryczne. Procedury te są udo-
stępniane m.in. w ramach programu SAS, SPSS, R czy Statistica (zob. np.: WALESIAK 1996b, 2009;
AFIFI, CLARK 1998, s. 404-406). Znane są także programy pisane celowo dla tych metod (por. KA-
ROŃSKI, CALIŃSKI 1973; KAUFMAN, ROUSSEEUW 2005). W niniejszym opracowaniu skorzystano
z możliwości, jakie daje zastosowanie tych grup metod w ramach programu Statistica (STANISZ 2007,
str. 113-164; MIGUT 2009). Wspomniane algorytmy tworzą w nim w moduł wielowymiarowe techniki
eksploracyjne/analiza skupień.
Warto w tym miejscu raz jeszcze wrócić do podstawowej terminologii. W wyniku zastosowania
metod taksonomicznych grupowane są obiekty wielowymiarowe. Grupowane obiekty wielowymia-
rowe tworzą możliwie jednorodne wewnętrznie skupienia. Obiektami grupowania mogą być zarówno
jednostki, jak i zmienne je charakteryzujące. Z tego względu mówi się o grupowaniu odpowiednio
jednostek w przestrzeni zmiennych lub grupowaniu zmiennych w przestrzeni jednostek. W przypadku
zastosowania metod taksonomicznych w grupowaniu jednostek wszystkie kryteria grupowania (ce-
chy tych jednostek) są uwzględnione jednocześnie i traktowane równorzędnie. Co więcej, gdy obiek-
tem grupowania są jednostki terytorialne, mówi się o regionalizacji. Z kolei periodyzacją nazywany
jest proces grupowania, w którym obiektami są jednostki czasu.
Przyjęło się także, że ze względu na ograniczenia związane z odczytaniem dendrogramu – rezul-
tatu zastosowania metod hierarchicznych – metody te stosowane są raczej do grupowania mniejszej
liczby obiektów. Natomiast metody kombinatoryczne dobrze sprawdzają się przy porównywaniu
większej liczby obiektów. Metody taksonomiczne polecane w grupowaniu zmiennych zostały zapre-
zentowane w rozdziale piątym. Nie oznacza to, że metody hierarchiczne i metody kombinatoryczne
nie mogą być stosowane w taksonomii zmiennych. Jednak dla porządku w rozdziale Wybrane metody
hierarchiczne i kombinatoryczne większy nacisk został położony na grupowaniu wielowymiarowych
jednostek.
Ostatecznie w prezentowanym rozdziale zostało przedstawionych siedem metod hierarchicznych
i jedna metoda kombinatoryczna. Mimo to, ograniczając się jedynie do tych wybranych metod takso-
nomicznych, trudno wskazać taką, której przewaga nad innymi byłaby powszechnie akceptowana. Co
więcej, jak już wielokrotnie podkreślano, dobór metod taksonomicznych zależy od wcześniejszych
decyzji badacza o sposobie normalizacji zmiennych oraz doborze miary podobieństwa bądź odległo-
ści pomiędzy grupowanymi obiektami. Wybierając konkretną metodę taksonomiczną, należy brać
także pod uwagę dostępność oprogramowania i istotę metody, a także cel badania i możliwości inter-
pretacji oczekiwanych wyników klasyfikacji. Te ostatnie, niezależnie od wspomnianych procedur po-
przedzających proces grupowania, zależą jednak przede wszystkim od dokonanego przez badacza
118 6. Wybrane metody hierarchiczne i kombinatoryczne
doboru zmiennych w odniesieniu do badanego zjawiska (EVERITT 1980, s. 9; WYSOCKI 2010, s. 87-
-90; SOKOŁOWSKI 1992, s. 23-24; HAIR i in. 1995, s. 441-442). Ze względu na tę liczbę uwarunkowań
dobór metody grupowania i ocena uzyskanych wyników grupowania jest zagadnieniem dość złożo-
nym, a równocześnie bardzo istotnym. W literaturze przedmiotu funkcjonuje kilka podejść to tego
problemu (por. POCIECHA 1982; KORZENIEWSKI 2005, 2012, s. 15-16; 2014). Wśród nich o praktycz-
nym zastosowaniu można mówić w przypadku tzw. strategii grupowania. Podejście to zostało zapro-
ponowane przez GORDONA (1999, s. 96-100) i polega na zastosowaniu wielu metod grupowania, a na-
stępnie na porównaniu ich wyników oraz ocenie uzyskanych rezultatów. Zagadnieniu oceny grupo-
wania poświęcono uwagę na końcu rozdziału.
W wyniku zastosowania metod hierarchicznych analizy skupień uzyskiwany jest układ skupień two-
rzących swoistą hierarchię. Są one najczęściej stosowane i stosunkowo najlepiej opracowane pod
względem metodologicznym. W literaturze przedmiotu metody hierarchiczne analizy skupień funk-
cjonują także pod nazwą metod SAHN (sekwencyjne, aglomeracyjne, hierarchiczne i rozłączne – por.
SNEATH, SOKAL 1973, s. 214; MAREK 1989). WALESIAK (1993b, s. 50) podkreśla, że metody nale-
żące do tej grupy odznaczają się następującymi zaletami: działają według jednej procedury, wyniki
klasyfikacji są przedstawione w postaci ciągu klasyfikacji, możliwa jest zatem szczegółowa analiza
całego procesu. Trzecia zaleta dotyczy efektów klasyfikacji – dendrogramu, który w klarowny sposób
przedstawia przebieg analizy. TIMM (2002, s. 523) wskazuje także, że wybrane metody należące do
tej grupy można stosować nie tylko do grupowania jednostek, ale i zmiennych.
Podstawą grupowania obiektów, zapisanych w postaci wektorów, są miary odległości lub podo-
bieństwa. Są one wielkościami skalarnymi, dzięki czemu możliwe jest wyznaczenie odległości po-
między każdą z par badanych obiektów. Im mniejsza jest jej wartość, tym bardziej obiekty, pomiędzy
którymi została wyznaczona odległość, uznaje się za podobne. Gdy grupowanie przebiega stopniowo,
od znalezienia obiektów najbardziej podobnych do połączenia wszystkich obiektów w jedną grupę,
mówi się o hierarchicznych metodach aglomeracyjnych. Są one szczególnie polecane w sytua-
cjach, w których brak jest wiedzy teoretycznej o strukturze zbiorowości (CHOJNICKI, CZYŻ 1973,
s. 8). Drugi sposób uzyskania hierarchii grupowanych obiektów prezentują hierarchiczne metody
podziału. Tym razem proces przebiega „od góry”. Najpierw grupowane obiekty dzielone są na dwa
skupienia, a te z kolei w kolejnych krokach dzielone są na mniejsze skupienia (BALICKI 2009, s. 291;
MUCHA 2012). W przeważającej liczbie przypadków wykorzystywane są jednak metody aglomera-
cyjne (MARDIA i in. 1979, s. 376-381; HÄRDLE, SIMAR 2012, s. 335-337). Wynika to głównie z faktu,
że są one prostsze do programowania. Przykłady charakterystyki algorytmów hierarchicznych metod
podziału można zaleźć w opracowaniu SNEATHA I SOKALA (1973, s. 203-205) czy PANKA (2009,
s. 123-128).
Efektem zastosowania zarówno metod aglomeracyjnych, jak i podziału jest hierarchiczny układ
skupień, w którym jedne skupienia są zawarte w drugich. Zwykle prezentowany jest on w formie den-
drogramu. Na wykresie tym układ skupień wskazuje na kolejność ich tworzenia. Dzięki tej hierarchii
można wskazać położenie określonego skupienia, a także określić, jakie mniejsze skupienia wchodzą
w skład skupienia większego, nadrzędnego. Jeżeli jednostki zostały opisane w dwuwymiarowej prze-
6.1. Hierarchiczne metody analizy skupień 119
strzeni zmiennych, to grupowanie można przedstawić za pomocą diagramu Venna (por. PĘCZKOW-
SKI 2009, s. 121). Przykłady obu diagramów zostaną zaprezentowane w dalszej części pracy. Bardziej
złożony wykres, na którym można przedstawić efekty grupowania, to biplot (GORDON 1999, s. 172-
-182). Jego zastosowanie jest jednak ściślej związane ze skalowaniem wielowymiarowym, nie będzie
zatem szerzej omawiane w tym rozdziale. Inne możliwości prezentacji efektów grupowania zostały
zaprezentowane w pracy SNEATHA i SOKALA (1973, s. 259).
W metodach hierarchicznych analizy skupień zakłada się, że liczba uzyskanych w wyniku zastoso-
wania tej metody skupień 𝑔 nie jest z góry znana, ale jest mniejsza niż liczba grupowanych jednostek,
tzn. 𝑔 < 𝑛. Co więcej, otrzymane w wyniku grupowania skupienia spełniają warunek wewnętrznej
jednorodności i zewnętrznej niejednorodności. Jak wspomniano wcześniej, metody te, w zależności
od przyjętej procedury, dzieli się na metody aglomeracyjne i podziału. W każdej z wymienionych
procedur można zbudować dendrogram prezentujący hierarchiczną strukturę, uzyskanego w wyniku
zastosowania jednej z metod, układu skupień.
Algorytm metod hierarchicznych przebiega w kilku etapach. Punktem wyjścia jest dowolnie
zdefiniowana, symetryczna macierz odległości pomiędzy obiektami. Pierwszy krok różni się w za-
leżności od tego, czy stosowana jest hierarchiczna metoda aglomeracyjna czy podziału. W przypadku
hierarchicznych metod aglomeracyjnych pierwszy krok polega na stopniowym łączeniu wszystkich
jednostek w jedno skupienie przy równoległej korekcie macierzy odległości. W przypadku hierar-
chicznych metod podziału przeprowadzany jest proces odwrotny: początkowo wszystkie jednostki
tworzą jedno skupienie, które w kolejnych etapach tego kroku zostaje dzielone aż do momentu, gdy
wszystkie skupienia staną się jednoelementowe.
Rezultaty procesu budowy hierarchicznego układu skupień, przeprowadzonego w pierwszym
kroku, można w drugim kroku przedstawić na dendrogramie, który następnie w ramach kroku trze-
ciego zostaje „przecięty”. W efekcie tego działania można wyznaczyć kilka odrębnych skupień jed-
nostek. Przykładowy przebieg budowy aglomeracji oraz tworzenia dendrogramu przedstawiono na
rysunku 6.1.
Rysunek 6.1. Wybrane etapy algorytmu hierarchicznych metod aglomeracyjnych
Pierwszy etap wiązania Drugi etap wiązania Trzeci etap wiązania Czwarty etap wiązania
𝑑min = 𝑑𝐷;𝐸 = 0,50 𝑑min = 𝑑𝐵;𝐶 = 0,71 𝑑min = 𝑑𝐴;𝐵𝐶 = 1,12 𝑑𝑚𝑖𝑛 = 𝑑𝐴𝐵𝐶;𝐷𝐸 = 4,03
Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷, 𝐸} Skupienia: {𝐴}, {𝐵, 𝐶}, {𝐷, 𝐸} Skupienia: {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸} Skupienia: {𝐴, 𝐵, 𝐶, 𝐷, 𝐸}
3 3 3 3
2 2 2 2
1 1 1 1
0 0 0 0
A B C D E A B C D E A B C D E A B C D E
Spośród wielu dostępnych algorytmów wybrano metodę pełnego wiązania (porównaj rozdział 6.1.3), skorygowaną macierz odległości zapisano jako punkt wyjścia następnego etapu
wiązania. Źródło: opracowanie własne.
6.1. Hierarchiczne metody analizy skupień 121
Bez względu na przyjętą metodę punktem wyjścia grupowania hierarchicznego jest macierz odle-
głości. Tworzenie takiej macierzy zostało opisane w rozdziale czwartym. W hierarchicznych metodach
aglomeracyjnych na początku zakłada się, że każdy obiekt tworzy osobne skupienie 𝑠1 , 𝑠2 , … , 𝑠𝑛 , czyli
liczba obiektów równa jest liczbie skupień 𝑔 = 𝑛 . Następnie, w ramach pierwszego etapu wiązania,
na podstawie wartości zawartych w (𝑛 × 𝑛) wymiarowej macierzy odległości 𝑫 wybierana jest wartość
najmniejsza i łączone są ze sobą dwa najbliższe sobie obiekty: obiekt 𝑖-ty oraz obiekt 𝑗-ty. Oba obiekty
zostają połączone w jedno skupienie 𝑠𝑛 i w ten sposób liczba skupień zostaje zredukowana o jeden
(𝑔 = 𝑛 − 1). Ta decyzja powoduje, że przed kolejnym połączeniem skupień należy odpowiednio sko-
rygować macierz odległości. W tym celu konieczne jest wyznaczenie nowych odległości pomiędzy
nowo powstałym skupieniem 𝑠𝑛 , łączącym dwa mniejsze skupienia 𝑠𝑖 oraz 𝑠𝑗 , oraz pozostałymi skupie-
niami 𝑠𝑘 , niewchodzącymi w skład nowopowstałego skupienia 𝑠𝑛 . W literaturze tematu dostępnych jest
wiele procedur rozwiązania tego zagadnienia (zob. np. CORMACK 1971; MAREK 1989, s. 75-79; TIMM
2002, s. 515–541]. To właśnie przyjęty algorytm modyfikacji macierzy odległości różnicuje poszcze-
gólne metody hierarchiczne. Zostaną one szczegółowo opisane w podrozdziale 6.1.3. Korzystając z wy-
branego algorytmu, po połączeniu w ramach pierwszego etapu wiązania dwóch najbliższych sobie
obiektów i zmniejszeniu ogólnej liczby skupień o jeden, wymiar macierzy odległości również ulegnie
zmniejszeniu ((𝑛 − 1) × (𝑛 − 1)). Zamiast wartości w wierszach i kolumnach dotyczących 𝑖-tego oraz
𝑗-tego obiektu, pojawia się nowy wiersz i nowa kolumna odpowiadające wartościom odległości wyzna-
czonych dla skupienia 𝑠𝑛 oraz pozostałych skupień 𝑠𝑘 .
Po odpowiedniej korekcie macierzy odległości powstaje macierz 𝑫′. Spośród poszczególnych jej
wartości, w ramach drugiego etapu wiązania, znowu wybierana jest z niej wartość najmniejszej odle-
głości, na podstawie której tworzy się nowe skupienie lub dołączany jest nowy obiekt do powstałego
wcześniej skupienia. Po tej operacji, tak jak po pierwszym etapie wiązania, należy zredukować macierz
odległości. Procedurę kontynuuje się do momentu włączenia wszystkich obiektów w jedno skupienie,
tj. gdy 𝑔 = 1.
Jak wspomniano wcześniej, algorytm hierarchicznych metod podziału jest przeciwieństwem al-
gorytmu metod aglomeracyjnych i w praktyce stosuje się go dużo rzadziej niż metody aglomeracyjne.
Przykładem takiej metody jest algorytm EWARDSA i CAVALLI-SFORZA (1965). Niemniej jednak punk-
tem wyjścia metod podziałowych jest przyjęcie założenia, że wszystkie obiekty tworzą jedno skupienie.
W kolejnych krokach skupienie to jest dzielone na coraz mniejsze skupienia. W tym celu z macierzy
odległości wybierana jest para najdalszych sobie obiektów. Pozostałe obiekty zostają przypisane do
grupy tego z wybranych obiektów, do którego jest im bliżej. W kolejnym kroku w każdej grupie zostają
ponownie znalezione najdalsze sobie obiekty. Procedura powtarzana jest do momentu, aż każdy z obiek-
tów stworzy osobne skupienie. Więcej informacji na temat metod podziału można znaleźć w publikacji
PARYSEK (1982, s. 100-102).
W kroku drugim algorytmu hierarchicznych metod analizy skupień, zarówno aglomeracyjnych jak
i podziału, powstaje dendrogram, inaczej nazywany drzewem połączeń (zob. np.: BERRY 1961). Jest
to dwuwymiarowy diagram ilustrujący połączenia lub podziały, które zostały dokonane na poszczegól-
nych etapach grupowania. Końcówki dendrogramu przedstawiają badane obiekty, natomiast rozgałę-
zienia tego drzewka dotyczą poszczególnych etapów wiązania. Zatem oś odciętych w układzie współ-
rzędnych nie ma szczególnego znaczenia, z wyjątkiem umieszczenia na niej grupowanych obiektów.
Z kolei oś rzędnych przestawia wartości współczynników odległości. Najmniejsza wartość na tej osi
oznacza maksymalne podobieństwo lub zerową odległość pomiędzy obiektami. Natomiast największa
wartość na osi OY wyraża poziom podobieństwa lub odległości, który był niezbędny do połączenia
wszystkich obiektów w jedno skupienie. Pierwsze rozgałęzienie, na najniższym poziomie, wskazuje
122 6. Wybrane metody hierarchiczne i kombinatoryczne
pierwsze połączenie pomiędzy najbliższymi sobie obiektami. Stanowi to pierwszy etap wiązania. Dru-
gie połączenie to drugi etap wiązania itd. Etapy budowy dendrogramu na poszczególnych etapach wią-
zania stanowią element rysunku 6.1.
Dendrogram po odpowiednim przecięciu (krok trzeci) wskazuje skład powstałych skupień oraz
pokazuje moment włączenia każdego obiektu do określonego skupienia, jak również moment łączenia
się skupień. Szerzej etap ten zostanie opisany w kolejnym podrozdziale.
Jeżeli obiekty zostały opisane przez dwie zmienne, przebieg budowy aglomeracji można przedsta-
wić za pomocą diagramu Venna. Przykład takiego schematu, obrazujący przebieg budowy aglomeracji
przedstawiony na rysunku 6.1, prezentuje kolejny rysunek (6.2).
Rysunek 6.1. Diagram Venna obrazujący przykładowy przebieg budowy aglomeracji w hierarchicznych
W nazwie skupienia si zawarto numer etapu wiązania, w którym dane skupienie powstało.
Źródło: opracowanie własne dla przykładu przedstawionego na rysunku 6.1.
Jak wspomniano wcześniej, zarówno metody aglomeracyjne, jak i podziału prowadzą do hierarchicz-
nego układu skupień, który można przedstawić w postaci dendrogramu. Powstaje zatem pytanie, w któ-
rym momencie przerwać proces grupowania, aby otrzymany podział skupień można było uznać za op-
tymalny. W literaturze istnieje wiele propozycji wyboru klasyfikacji optymalnej. Można przerwać pro-
ces grupowania, gdy efektem jest taka liczba skupień jaką planowaliśmy osiągnąć. Takie podejście
przedstawili FRIEDMAN i RUBIN (1967), SZCZOTKA (1972) oraz JAJUGA (1984), a także GRABIŃSKI
(1989a) i MILLIGAN (1981). Niestety zwykle informacji takiej badacz nie posiada i sam musi zadecy-
dować, kiedy klasyfikację można uznać za optymalną.
SOKAL i ROHLF (1962) podkreślają z kolei, że dobór liczby skupień powinien zależeć od liczby
grupowanych obiektów. W przypadku, gdy grupowanych jest mniej niż dziesięć obiektów, w wyniku
grupowania nie powinno powstać więcej niż trzy skupienia; z kolei przy stu jednostkach takich skupień
powinno być co najmniej dziesięć. Co więcej, ze statystycznego punktu widzenia zbyt duża liczba klas
nigdy nie przynosi szkody.
6.1. Hierarchiczne metody analizy skupień 123
W literaturze funkcjonuje także opinia, że badacz znający problem którym się zajmuje, intuicyjnie
potrafi odróżnić dobre grupowanie od złego (zob. np.: JOHNSON, WICHERN 1998, s. 574). MIGDAŁ-
NAJMAN i NAJMAN (2005) podkreślają, że zwykle decyzję o miejscu przecięcia dendrogramu można
podjąć, kierując się zdrowym rozsądkiem i znajomością badanego zagadnienia. Badacz próbuje zatem
podzielić dendrogram tak, aby obiekty należące do danego skupienia miały jak najwięcej wspólnych
cech, a jednocześnie jak najmniej wspólnych cech z obiektami spoza tego skupienia. Jednak w przy-
padku badań empirycznych, w których uwzględniono znaczną liczbę zmiennych opisujących ogromną
liczbę obiektów, podziały na grupy obiektów wewnętrznie jednorodne są trudne i intuicyjnie nieobser-
wowalne. Należy w takim przypadku odwołać się do metod ilościowych.
Pewne rozwiązania zostały zaproponowane przez CONSTANZĘ i AFIFI (1979) czy MILLIGANA i CO-
OPERA (1985). Ich zestawienie zostało przedstawione także w monografii EVERITTA i DUNNA (1991,
s. 107-111), SOKOŁOWSKIEGO (1992, s. 25-29) czy WALESIAKA (1993a, 60-67) oraz w książce TAKSO-
NOMIA STRUKTUR… (1998, s. 79-80). Bardziej złożone podejścia do optymalnego podziału dendro-
gramu zawierają publikacje: STANISZA (2007, s. 142), KORZENIEWSKIEGO (2005; 2012, s. 17-18; 2014)
czy MIGDAŁ-NAJMAN i NAJMANA (2005, 2006). Można tu wyróżnić metody opierające się na maksy-
malnej różnicy kolejnych odległości aglomeracyjnych, podejście opierające się na jakości podziału, po-
równaniu macierzy kofenetycznej z macierzą odległości, na weryfikacji hipotezy dotyczącej aktualnie
łączonych podgrup, weryfikacji hipotezy dotyczącej całej klasyfikacji (zob. np.: SNEATH, SOKAL 1973,
s. 277-290).
Zaprezentowane w literaturze metody charakteryzują się różnym poziomem złożoności. Poniżej zo-
staną przedstawione wybrane podejścia. KORZENIEWSKI (2012, s. 18) podkreśla, że stosowanie różnych
podejść do zagadnienia przecięcia dendrogramu może prowadzić do różnych wyników. Co więcej, „nie-
które z indeksów mogą okazać się nieefektywne, w przypadku niektórych zbiorów danych. Dlatego też,
nie należy wyników badań traktować z całkowitą pewnością”.
Na podstawie tak uporządkowanych odległości tworzy się odpowiednie ilorazy długości odcinków
sąsiednich:
𝑑𝑖−1
𝑤𝑖 = [6.2]
𝑑𝑖
Następnie należy sprawdzić relacje pomiędzy kolejnymi wartościami 𝑤𝑖 . Dendrogram rozpada się
w sposób naturalny na 𝑔 części, jeśli 𝑤𝑔 < 𝑤𝑔+1. Jeśli takich relacji jest więcej, to należy wybrać mi-
nimalny iloraz odległości aglomeracyjnych spełniających ten warunek. Jeśli taka relacja nie istnieje, co
może mieć miejsce szczególnie w badaniach uwzględniających niewielką liczbę obiektów, można wy-
brać największą wartość ilorazu odległości aglomeracyjnych 𝑤𝑖 . Takie rozwiązanie jest tożsame z po-
działem dendrogramu na poziomie największego skoku odległości aglomeracyjnej.
podział obiektów następuje na 𝑒-tym etapie wiązania, dla którego odległość aglomeracyjna pierwszego
następnego etapu spełnia nierówność:
W tabeli 6.2 przedstawiono wyniki podziału dendrogramu w zależności od przyjętej wartości 𝑘 (por.
wzór [6.3]). Uwzględniono w nim przedziały wartości 𝑘, zaproponowane przez WALESIAKA (1993a,
s. 61), MILLIGANA i COOPERA (1985) oraz autora tego podejścia MOJENĘ (1977). Ostatecznie wartości
𝑘 w przedziale [0; 3,5] prowadzą do podziału grupowanych obiektów na skupienia: {𝐴, 𝐵, 𝐶}, {𝐷, 𝐸}.
6.1. Hierarchiczne metody analizy skupień 127
Metody hierarchiczne należą do grupy najczęściej używanych metod taksonomicznych. Stanowią one
także stosunkowo najlepiej opisaną w literaturze grupę metod (zob. np. CORMACK 1971; MARDIA i in.
1979; MAREK 1989, s. 75-79 lub TIMM 2002, s. 515–541).
Poszczególne metody hierarchiczne różnią się między sobą algorytmem przekształcenia macierzy
odległości. Efektem każdego etapu wiązania, opisanego szczegółowo w rozdziale 6.1.1, jest połączenie
dwóch skupień 𝑠𝑖 oraz 𝑠𝑗 w jedno większe 𝑠𝑛 . Korekta macierzy odległości 𝑫 przed kolejnym etapem
polega de facto na wyznaczeniu nowych odległości pomiędzy nowo powstałym skupieniem 𝑠𝑛 oraz
pozostałymi skupieniami 𝑠𝑘 , niewchodzącymi w skład nowo powstałego skupienia. LANCE i WILLIAMS
(1967a, 1968) stworzyli ogólny algorytm korekty macierzy odległości, który można zapisać jako
wzór [6.4]:
128 6. Wybrane metody hierarchiczne i kombinatoryczne
𝑑𝑠𝑛 ;𝑠𝑘 = 𝛼𝑖 𝑑𝑠𝑖;𝑠𝑘 + 𝛼𝑗 𝑑𝑠𝑗;𝑠𝑘 + 𝛽𝑑𝑠𝑖 ;𝑠𝑗 + 𝛾 |𝑑𝑠𝑖;𝑠𝑘 − 𝑑𝑠𝑗 ;𝑠𝑘 |, [6.4]
gdzie:
𝑑𝑠𝑛 ;𝑠𝑘 – odległość nowo powstałego skupienia 𝑠𝑛 oraz skupienia 𝑠𝑘 ,
𝑠𝑛 – nowe skupienie łączące dwa mniejsze skupienia 𝑠𝑖 oraz 𝑠𝑗 ,
𝑠𝑘 – dowolne skupienie, które nie wchodzi w skład nowo powstałego skupienia 𝑠𝑛 ,
𝛼𝑖 , 𝛼𝑗 , 𝛽, 𝛾 – parametry charakterystyczne dla poszczególnych hierarchicznych metod aglomeracyj-
nych.
Parametry algorytmu
Nazwa metody Algorytmy modyfikacji macierzy odległości
𝑖 𝑗
𝑛𝑛
Średnich połączeń ważonych 1 𝑐𝑖 1 1
1 1 𝑑𝑠𝑛 ;𝑠𝑘 = ∑ ( ) 𝑑𝑖;𝑠𝑘 lub 𝑑𝑠𝑛 ;𝑠𝑘 = 𝑑𝑠𝑖 ;𝑠𝑘 + 𝑑𝑠𝑗 ;𝑠𝑘
Weighted Pair Group Method 0 0 2 2 2
2 2 𝑖=1
with Averaging 𝑖∈𝑠𝑛
Środków ciężkości 𝑛𝑖 𝑛𝑗 𝑛𝑖 𝑛𝑗 𝑛𝑖 𝑛𝑗
−𝛼𝛼′ 𝑑𝑠𝑛 ;𝑠𝑘 = 𝑑 + 𝑑 − 𝑑
Unweighted Pair Group Method 𝑛𝑖 + 𝑛𝑗 𝑛𝑖 + 𝑛𝑗
0 𝑛𝑖 + 𝑛𝑗 𝑠𝑖 ;𝑠𝑘 𝑛𝑖 + 𝑛𝑗 𝑠𝑗 ;𝑠𝑘 (𝑛 + 𝑛 )2 𝑠𝑗 ;𝑠𝑘
𝑖 𝑗
with Centroid
w jego skład. W metodzie pojedynczego wiązania porównuje się w tym celu odległości każdej ze skła-
dowych skupienia 𝑠𝑛 z obiektami należącymi do skupień zewnętrznych, czyli porównywana jest warto-
ści odległości 𝑑𝑠𝑖;𝑠𝑘 oraz 𝑑𝑠𝑗;𝑠𝑘 i wybierana spośród nich do nowego skupienia ta odległość, która oka-
zała się mniejsza – wybierany jest „najbliższy sąsiad”.
Prostszą formę algorytmu metody pojedynczego wiązania można zatem zapisać w formie równania
przedstawionego jako wzór [6.5]. Oczywiście odległość tę można również wyznaczyć, stosując ogólny
wzór LANCE’A i WILLIAMSA (1967a, 1968), który zapisano w odpowiednim wierszu tabeli 6.3.
Sposób wyznaczania odległości dla nowo powstałego skupienia 𝑠𝑛 , w przypadku gdy obiekty są
scharakteryzowane tylko dwoma zmiennymi, można zobrazować za pomocą diagramu Venna, przed-
stawionego na rysunku 6.4. Odpowiada on sytuacji, jaka ma miejsce na trzecim etapie wiązania w przy-
kładzie przedstawionym na rysunku 6.1. Z kolei przykładowy przebieg korekty macierzy odległości
w metodzie pojedynczego wiązania zaprezentowano na rysunku 6.5. W wyniku stosowania tej metody
otrzymuje się najkrótszą sieć połączeń między grupowanymi obiektami (WALESIAK 1993a, s. 56; BA-
LICKI 2009, s. 267). Potwierdzeniem tego jest porównanie odległości maksymalnych, na poziomie któ-
rych w poszczególnych algorytmach (z wyjątkiem metody Warda) łączone zostały wszystkie obiekty
w jedno skupienie. W metodzie najbliższego sąsiedztwa wartość ta jest najmniejsza.
Rysunek 6.4. Diagram Venna obrazujący sposób wyznaczania odległości pomiędzy skupieniami
w metodzie pojedynczego wiązania
Specyficzną własnością metody pojedynczego wiązania jest możliwość powstania efektu łańcusz-
kowego (ANDERBERG 1973, s.137-138). Polega on na tym, że kolejne obiekty są częściej kolejno łań-
cuchowo przyporządkowywane do istniejących już grup niż dzielone na mniejsze skupienia. Skutkiem
tego efektu może być sytuacja, w której ostatni przyłączony obiekt jest bardziej oddalony od pierwszego
obiektu należącego do grupy niż do obiektu spoza tej grupy (por. HAIR i in. 1995, s. 438;
6.1. Hierarchiczne metody analizy skupień 131
3,0
2,5
Krok drugi: dendrogram 2,0
1,5
1,0
0,5
0,0
E D C B A
Źródło: opracowanie własne w oparciu o przykład przedstawiony na rysunku 6.1. Dendrogram został wygenerowany w pro-
gramie Statistica.
132 6. Wybrane metody hierarchiczne i kombinatoryczne
TAKSONOMIA STRUKTUR… 1998, s. 78). W niektórych sytuacjach efekt łańcuszkowy może mieć jednak
znaczenie korzystne. Wskazują na to np. SOKOŁOWSKI (1992, s. 19) oraz POCIECHA i in. (1988, s. 163),
przywołując choćby zagadnienia periodyzacji, w których grupowanymi obiektami są jednostki czasu.
Badacz jest wówczas zainteresowany otrzymaniem takich podgrup, które tworzą jednoczęściowe fazy
rozwojowe. W takiej sytuacji właśnie efekt łańcuszkowy jest w stanie uchwycić pewną naturalną cią-
głość badanego procesu.
Korektę macierzy odległości w oparciu algorytm pełnego wiązania można przeanalizować na pod-
stawie rysunku 6.7, natomiast algorytm tej metody, przedstawiony jako wzór [6.6], zobrazowano za
pomocą diagramu Venna na rysunku 6.6.
Rysunek 6.6. Diagram Venna obrazujący sposób wyznaczania odległości pomiędzy skupieniami w metodzie pełnego wiązania
3,0
2,5
Krok drugi: dendrogram 2,0
1,5
1,0
0,5
0,0
E D C B A
Źródło: opracowanie własne w oparciu o przykład przedstawiony na rysunku 6.1. Dendrogram został wygenerowany w pro-
gramie Statistica.
134 6. Wybrane metody hierarchiczne i kombinatoryczne
SNEATH i SOKAL (1973, s. 229) podkreślają, że ważenie w metodzie średnich połączeń jest zwią-
zane z obiektami tworzącymi skupienie, a nie z odległościami w formule Lance’a i Williamsa (por.
wzór [6.4]), w której równe wagi mają zastosowanie w grupowaniu ważonym, a zróżnicowane wagi są
użyte w grupowaniu nieważonym. Korektę macierzy odległości w oparciu algorytm średnich połączeń
przedstawiono na rysunku 6.8, natomiast algorytm tej metody (por. wzór [6.7]), zobrazowano za po-
mocą diagramu Venna na rysunku 6.9.
6.1. Hierarchiczne metody analizy skupień 135
Macierz odległości 𝑫: A B C D E
Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷}, {𝐸} A 0,00 1,12 1,12 4,00 4,03
3,0
2,5
Krok drugi: dendrogram 2,0
1,5
1,0
0,5
0,0
E D C B A
Źródło: opracowanie własne w oparciu o przykład przedstawiony na rysunku 6.1. Dendrogram został wygenerowany w pro-
gramie Statistica.
136 6. Wybrane metody hierarchiczne i kombinatoryczne
Rysunek 6.9. Diagram Venna obrazujący sposób wyznaczania odległości pomiędzy skupieniami
w metodzie średnich połączeń
Źródło: obliczenia własne na podstawie danych przedstawionych na rysunku 6.1; por. KAUFMAN, ROUSSEEUW 1990, s. 47.
Wyniki metody średnich połączeń można uznać za pośrednie rozwiązanie pomiędzy metodą poje-
dynczego i pełnego wiązania. Wartość odległości maksymalnej łączącej wszystkie obiekty w jedno sku-
pienie jest większa od wartości wyznaczonej w metodzie pojedynczego wiązania, a mniejsza od wyzna-
czonej w metodzie pełnego wiązania. Co więcej, metoda średnich połączeń uznawana jest w literaturze
za stosunkowo stabilną ze względu na fakt, że ma tendencję do łączenia skupień z małą wariancją (zob.
np. EVERITT i in. 2011, s. 79). Jest ona rekomendowana przez WALESIAKA i DUDKA (2009) do grupo-
wania obiektów opisanych zmiennymi wyrażonymi w skali porządkowej.
Zastosowanie średniej ważonej do wyznaczania odległości pomiędzy nowo powstałym skupieniem 𝑠𝑛
a pozostałymi skupieniami 𝑠𝑘 pozwala zmniejszyć wpływ efektu przyciągania na osiągnięte wyniki gru-
powania Zatem metoda ta powinna być stosowana wtedy, gdy liczności skupień są wyraźnie nierówne.
Metoda średnich połączeń ważonych różni się od metody średnich połączeń tym, że wagi obiektów
dołączanych do skupienia w ostatnim etapie są mniejsze od wag przypisanych obiektom, które wcze-
śniej tworzyły to skupienie. Warto przeanalizować spojrzenie SNEATHA i SOKALA (1973, s. 229) na ten
sposób ważenia na podstawie przebiegu korekty macierzy odległości na każdym etapie wiązania przed-
stawionego na rysunku 6.10.
6.1. Hierarchiczne metody analizy skupień 137
Macierz odległości D: A B C D E
Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷}, {𝐸} A 0,00 1,12 1,12 4,00 4,03
3,0
2,5
2,0
Krok drugi: dendrogram 1,5
1,0
0,5
0,0
E D C B A
Źródło: opracowanie własne w oparciu o przykład przedstawiony na rysunku 6.1. Dendrogram został wygenerowany w pro-
gramie Statistica.
138 6. Wybrane metody hierarchiczne i kombinatoryczne
Jak wspomniano wyżej, odległość między dwoma skupieniami jest równa średniej odległości mię-
dzy wszystkimi parami obiektów należących do porównywanych skupień (por. WIERZCHOŃ, KŁOPO-
TEK 2015, s. 35). Niestety, jeżeli do bardzo licznego skupienia dołączany jest jeden obiekt lub inne
skupienie o małej liczbie obiektów, to środek ciężkości nowego skupienia nie będzie się różnił znacząco
od najliczniejszego podkupienia wchodzącego w jego skład. Działa tzw. efekt przyciągania. HAIR i in.
(1995 s. 440) oraz BALICKI (2009, s. 270) zwracają uwagę, że obie metody średniej grupowej wykazują
tendencję do tworzenia skupień o małych, w miarę równych wariancjach, i wyniki uzyskane przy ich
zastosowaniu nie są zależne od wartości odstających.
Metodę środków ciężkości można stosować w oparciu o różnego typu macierze odległości i podo-
bieństwa. Stosowanie metody środków ciężkości nie jest jednak zalecane w przypadku wykorzystania
macierzy współczynników korelacji (BALICKI 2009, s. 274-275 za: EVERITT 1993). WALESIAK (1993b,
s. 56) oraz EVERITT i in. (2011, s. 79) podkreślają jednak, że jeżeli metoda ta zastosowana jest dla od-
ległości euklidesowych, to w takiej sytuacji ma ona geometryczną interpretację (por. rysunek 6.12). Je-
żeli jako odległości byłby zastosowany kwadrat odległości euklidesowej, to można mówić, że metoda
ta pozwala na wskazanie takiego podziału, który daje minimalną sumę kwadratów odległości pomiędzy
centroidami łączonych skupień (MAREK 1989, s. 107).
6.1. Hierarchiczne metody analizy skupień 139
Macierz odległości 𝑫: A B C D E
Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷}, {𝐸} A 0,00 1,12 1,12 4,00 4,03
Skupienie: {𝐴, 𝐵, 𝐶, 𝐷, 𝐸}
4
nie-monotoniczne)
0
E D C B A
Źródło: opracowanie własne w oparciu o przykład przedstawiony na rysunku 6.1. Dendrogram został wygenerowany w pro-
gramie Statistica.
140 6. Wybrane metody hierarchiczne i kombinatoryczne
Rysunek 6.12. Diagram Venna obrazujący sposób wyznaczania odległości pomiędzy skupieniami
w metodzie środków ciężkości
Źródło: obliczenia własne na podstawie danych przedstawionych na rysunku 6.1; por. KAUFMAN, ROUSSEEUW 1990, s. 47.
Podobnie jak w metodzie średnich połączeń ważonych może w przypadku metody ważonych środ-
ków ciężkości występować efekt przyciągania. Jeżeli scalane są dwa skupienia, to dominuje to, które
jest bardziej liczne i środek ciężkości nowo powstałego skupienia będzie pozostawał w obrębie liczniej-
szego podskupienia (zob. BALICKI 2009, s. 272-273, za: EVERITT 1980, s. 28-30). Warto wtedy sięgnąć
do opisanej wyżej metody środków ciężkości.
ANDENBERG (1973, s. 141- 142), GORDON (1981) oraz WALESIAK (1993b, s. 56) podkreślają, że
charakterystyczną cechą metody środków ciężkości i ważonych środków ciężkości (centroidalnej i me-
diany) jest to, że wartości poziomu połączenia klas, mogą podnosić się i spadać w momencie przecho-
dzenia z jednego etapu wiązania w następny. Metody te nie posiadają zatem własności poprawnej struk-
tury, jaką można zobrazować za pomocą drzewa połączeń (por. JOHNSON, WICHERN 1998, s. 754).
Z tego powodu na dendrogramach oś OY nie odnosi się do wartości odległości, na której następowało
określone łączenie skupień, ale do kolejnych etapów budowy aglomeracji (por. dendrogramy na rysunku
6.11 oraz 6.13). Fakt ten należy uwzględnić m.in. przy doborze metody podziału dendrogramu oraz
ocenie jakości grupowania.
6.1. Hierarchiczne metody analizy skupień 141
Macierz odległości 𝑫: A B C D E
Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷}, {𝐸} A 0,00 1,12 1,12 4,00 4,03
Skupienie: {𝐴, 𝐵, 𝐶, 𝐷, 𝐸}
4
nie-monotoniczne)
2
Krok drugi: dendrogram
0
E D C B A
Źródło: opracowanie własne w oparciu o przykład przedstawiony na rysunku 6.1. Dendrogram został wygenerowany w pro-
gramie Statistica.
142 6. Wybrane metody hierarchiczne i kombinatoryczne
Metoda Warda
Najważniejszym postulatem analizy skupień jest stworzenie skupień obiektów możliwie najbardziej
jednorodnych wewnętrznie i możliwie najbardziej odmiennych od pozostałych skupień. Właśnie analiza
zmienności wewnątrzgrupowej na poszczególnych etapach wiązania jest punktem wyjścia w metodzie
Warda (WARD 1963, WISHART 1969). Jest ona nazywana także powiększoną sumą kwadratów odle-
głości lub metodą minimalnej wariancji Warda (incremental sum of squers, Ward’s method).
Celem metody Warda jest łączenie skupień obiektów 𝑠𝑖 oraz 𝑠𝑗 w jedno skupienie 𝑠𝑛 w taki sposób,
aby zmienność w obszarze nowo powstałego skupienia 𝑠𝑛 zbyt nie wzrosła (TAKSONOMIA STRUKTUR…
1998, s. 79; HÄRDLE, SIMAR 2003, s. 312-313). Z tego powodu w metodzie tej macierz odległości mo-
dyfikuje się poprzez wyznaczenie różnicy pomiędzy sumami kwadratów odchyleń odległości poszcze-
gólnych obiektów od środka ciężkości skupień, do których te jednostki należą (GRABIŃSKI 2003, s. 110-
-111). W rezultacie skupienia są tak wewnętrznie jednorodne, jak to tylko możliwe. Ogólny algorytm
modyfikacji macierzy odległości na każdym etapie wiązania można zapisać następująco:
𝑛𝑘 + 𝑛𝑖 𝑛𝑘 + 𝑛𝑗 𝑛𝑘
𝑑𝑠𝑛 ;𝑠𝑘 = 𝑑𝑠𝑖 ;𝑠𝑘 + 𝑑𝑠𝑗 ;𝑠𝑘 − 𝑑 , [6.11]
𝑛𝑘 + 𝑛𝑖 + 𝑛𝑗 𝑛𝑘 + 𝑛𝑖 + 𝑛𝑗 𝑛𝑘 + 𝑛𝑖 + 𝑛𝑗 𝑠𝑖;𝑠𝑗
W przypadku metody Warda, podobnie jak w metodzie środków ciężkości, powinno się stosować
odległość euklidesową lub kwadratową odległość euklidesową (MAREK 1989, s. 107; SAGAN, ŁAP-
CZYŃSKI 2009). Tylko w takim przypadku otrzymane skupienia mogą być uznawane za zbiory obiektów
o minimalnej wariancji. Metoda Warda prowadzi do w miarę równolicznych podziałów, gdzie nie po-
jawia się tzw. efekt łańcuchowania, polegający na dołączaniu do wyjściowej grupy pojedynczych jed-
nostek. Co więcej, w rezultacie stosowania metody Warda rzadko występują pojedyncze obiekty izolo-
wane. Jest ona polecana w przypadku badań regionalnych, w których na tworzone grupy nałożony został
warunek wewnętrznej spójności. SOKOŁOWSKI (1976), SMOLUK (1976) i BLASHFIELD (1976) w swoich
badaniach nad efektywnością poszczególnych metod wskazali metodę Warda jako jedną z najlepszych,
szczególnie ze względu na kryterium efektywności odtwarzania rzeczywistej struktury danych (por. SO-
KOŁOWSKI 1992).
Metoda Warda cieszy się szerokim zainteresowaniem w badaniach społeczno-gospodarczych. Zo-
stała ona zastosowana w celu wyodrębniania jednorodnych demograficznie regionów Europy (GRABIŃ-
SKI 2003, s. 110-119). BŁACZKOWSKA i in. (2008) wykorzystali metodę Warda do analizy porównaw-
czej struktury wieku w państwach Unii Europejskiej, a ANDERSON i in. (1987) dzięki tej metodzie zde-
finiowali segmenty rynku pracy w USA. W tym samym celu zastosował ją również MIGUT (2009). MA-
LINA (1992) przy zastosowaniu metody Warda porównała polskie województwa w 1986 r. w pod
względem rozwoju społecznego, przemysłowego i rolniczego. Przykładem badań historycznych w tym
obszarze jest opracowanie GAZIŃSKIEJ i GAZIŃSKIEGO (2010) dotyczące struktury rzemiosła w osiem-
nastowiecznych miastach Pomorza Pruskiego.
6.1. Hierarchiczne metody analizy skupień 143
Macierz odległości 𝑫: A B C D E
Skupienia: {𝐴}, {𝐵}, {𝐶}, {𝐷}, {𝐸} A 0,00 1,12 1,12 4,00 4,03
B 1,12 0,00 0,71 3,04 3,00
C 1,12 0,71 0,00 3,64 3,54
D 4,00 3,04 3,64 0,00 0,50
E 4,03 3,00 3,54 0,50 0,00
Źródło: opracowanie własne w oparciu o przykład przedstawiony na rysunku 6.1. Dendrogram został wygenerowany w pro-
gramie Statistica.
144 6. Wybrane metody hierarchiczne i kombinatoryczne
Jak wspomniano wcześniej, obiekty można podzielić na rozłączne skupienia za pomocą hierarchicznych
metod aglomeracyjnych. Metody te nie dają jednak ostatecznej odpowiedzi, który układ skupień jest
optymalny. Badacz musi zatem podejmować decyzje nie tylko o doborze metody grupowania, ale także
o wyborze optymalnego podziału dendrytu. W tym celu stosowane są dodatkowe reguły optymalnego
podziału dendrogramu, które nierzadko prowadzą do różnych wyników. Co więcej, MIGUT (2009) oraz
WYSOCKI (2010, s. 109) zwracają uwagę, że metody aglomeracyjne są użyteczne dla małych zbiorów
danych. W przypadku gdy grupowanych jest więcej niż sto obiektów, ich użyteczność spada ze względu
na konieczność wyznaczenia macierzy odległości oraz czytelność dendrogramu. Wśród słabych stron
metod hierarchicznych wymieniany jest także brak możliwości przemieszczenia obiektu raz zakwalifi-
kowanego pomiędzy skupieniami, wpływ na wyniki grupowania jednostek odstających oraz wydłużony
czas obliczeń dla bardziej licznego zbioru obiektów (por. HAIR i in. 1995, s. 441-442).
Rozwiązaniem niedostatków metod hierarchicznych może być zastosowanie jednej z metod kombi-
natorycznych analizy skupień. W przeciwieństwie do metod hierarchicznych nie prowadzą one do hie-
rarchicznego łączenia skupień, aby stworzyć ich aglomerację. Nie jest zatem konieczna konstrukcja
dendrogramu. Ideą przewodnią metod kombinatorycznych jest przyporządkowywanie poszczególnych
obiektów do z góry ustalonej liczby skupień. Decyzja o tym, do którego skupienia dany obiekt należy
przypisać, zależy od stopnia zgodności jego charakterystyk (wartości zmiennych) z charakterystykami
środków ciężkości skupień (punkty średnie skupień). Charakterystyki te są zmieniane po każdym prze-
mieszczeniu obiektów między skupieniami. Co więcej, ze względu na stopień zgodności z charaktery-
stykami nowych prototypów na każdym etapie obiekt może zmienić swoje położenie. Proces iteracyjny
jest kontynuowany, dopóki klasyfikacja nie osiągnie pewnego założonego stopnia stabilności (WY-
SOCKI 2010, s. 109-110). Główną korzyścią stosowania metod kombinatorycznych analizy skupień jest
stosunkowo krótki czas obliczeń, nawet przy przetwarzaniu dużych zbiorów danych. Zwraca się rów-
nież uwagę, że wyniki klasyfikacji w oparciu o te metody są mniej wrażliwe na występowanie obser-
wacji odstających, wybór miary odległości czy udział w badaniu zmiennych mało istotnych (HAIR i in.
1995, s 442; WYSOCKI 2010, s. 110).
Metody kombinatoryczne grupowania nie są jednak wolne od ograniczeń. Wyniki klasyfikacji tymi
metodami zależą od zadanej początkowej klasyfikacji obiektów lub środków ciężkości skupień i w re-
zultacie ich algorytmy pozwalają na osiągnięcie minimum lokalnego funkcji kryterium. Co więcej, sto-
sując metody kombinatoryczne należy określić z góry liczbę skupień, co w wielu przypadkach nie jest
dla badacza oczywiste. Z kolei JOHNSON i WICHERN (1998, s. 754) wskazują, że metod kombinatorycz-
nych należy używać raczej do grupowania obiektów, a nie zmiennych. W wyniku ich stosowania uzy-
skiwany jest podział obiektów na skupienia, badacz nie ma jednak żadnej informacji na temat struktury
obiektów w ramach utworzonych skupień.
Spośród wielu kombinatorycznych algorytmów grupowania do najbardziej znanych należy metoda
𝒌-średnich (WYSOCKI 2010, s. 109-110). W literaturze zaproponowano także podejścia łączące za-
równo kryteria grupowania, jak i metody ich optymalizacji. Wykaz takich metod można znaleźć w wielu
publikacjach (zob. np.: EVERITT 1980, s. 40-46; SOBCZAK, MALINA 1985, s. 147-153; KOWALEWSKI
2006; WIERZCHOŃ, KŁOPOTEK 2015, s. 38-53). GRABIŃSKI (1992, s. 124-135) szczegółowo opisał i za-
prezentował metodę 𝑘-średnich, metodę 𝑘-centroidów, metodę Forgy-Jancey’a, metodę Wisharta oraz
metodę Thotndike’a. Znana jest również tzw. metoda genetyczna (MORAJDA, GRABOWSKI 2001).
6.2. Metody kombinatoryczne analizy skupień 145
Metoda 𝑘-średnich należy do metod optymalizacyjno-iteracyjnych. Jej podstawowa idea została opra-
cowana przez DALENIUSA (1950). Wśród twórców algorytmu tej metody wymienia się także COXA
(1957), SEBESTYENA (1962) oraz MCQUEENA (1967). GRABIŃSKI (1989b, s. 78; 1992, s. 125; 2003,
s. 110-111) wskazuje, że algorytm metody 𝑘-średnich stosuje się do otrzymania takiego podziału jed-
nostek, aby uzyskać jak najbardziej istotne wyniki analizy wariacji. Głównym założeniem tej metody
jest zatem minimalizacja wariancji wewnątrzgrupowej i maksymalizacja wariancji pomiędzy skupie-
niami. Aby uzyskać największy poziom istotności analizy wariancji, w kolejnych iteracjach przeno-
szone są obiekty między grupami i sprawdzane efekty tych zmian. Innymi słowy, dzięki tej metodzie
zostaje utworzona z góry określona liczba skupień (k-skupień), które w możliwie największym stopniu
będą różniły się od siebie.
W taksonomicznych metodach kombinatorycznych zakłada się, że liczba uzyskanych w wyniku
zastosowania tej metody skupień 𝑔 jest z góry znana i jest mniejsza niż liczba grupowanych obiektów:
tzn. 𝑔 < 𝑛 (TAKSONOMIA STRUKTUR… 1998, s. 80-81). Jeżeli metoda k-średnich jest stosowana w re-
gionalizacji, to jednostka centralna wyodrębnionych skupień może być traktowana jako ośrodek cen-
tralny regionu wyodrębnionego w grupowaniu jednostek terytorialnych (BUNGE 1966, s. 238-248).
Algorytm metod kombinatorycznych przebiega w kilku etapach (por. HARTIGAN 1979; GRABIŃ-
SKI 1989b, s. 78-82; POCIECHA i in. 1988, s 95-96; JOHNSON, WICHERN 1998, s. 555-557; GRABIŃSKI
2003, s. 110-111; PĘCZKOWSKI 2009, s. 127-131). Jego schemat został zaprezentowany na rysunku
6.15. Punktem wyjścia (etap pierwszy) jest zdefiniowanie ostatecznej liczby skupień oraz pierwszych
146 6. Wybrane metody hierarchiczne i kombinatoryczne
średnia 0,95
Nazwa
𝑋1 𝑋2
obiektu
B 2,0 1,5
C 1,5 2,0 𝑐1 = 𝐴 (1,0; 1,0)
𝑐2 = 𝐶2 (3,38; 1,5)
D 5,0 1,0
E 5,0 1,5
średnia 3,38 1,5
średnia 0,79
6.2. Metody kombinatoryczne analizy skupień 147
Krok 2. Przydzielenie obiektów do skupień Krok 3.: Wyznaczenie nowych środków ciężkości
Nazwa Nazwa
X1 X2 X1 X2
obiektu obiektu
A 1,0 1,0 D 5,0 1,0
B 2,0 1,5 E 5,0 1,5
C 1,5 2,0 średnia 5,0 1,25
średnia 1,5 1,5
𝑐1 = 𝐶1 (1,5; 1,5) 𝑐2 = 𝐶2 (5,0; 1,25)
średnia 0,31
Nazwa Nazwa
𝑋1 𝑋2 𝑋1 𝑋2
obiektu obiektu
A 1,0 1,0 D 5,0 1,0
B 2,0 1,5 E 5,0 1,5
C 1,5 2,0 średnia 5,0 1,25
średnia 1,5 1,5
𝑐1 = 𝐶1 (1,5; 1,5) 𝑐2 = 𝐶2 (5,0; 1,25)
Źródło.: obliczenia władne na podstawie danych z przykładu zaprezentowanego na rysunku 6.1; jako miarę odległości w me-
1 2
todzie 𝑘-średnich przyjmuje się 𝑑𝑖𝑗 = √ ∑𝑚
𝑘=1(𝑥𝑖𝑘 − 𝑥𝑗𝑘 ) .
𝑚
148 6. Wybrane metody hierarchiczne i kombinatoryczne
centrów tych skupień i liczby iteracji potrzebnych do uzyskania podziału optymalnego. W etapie dru-
gim następuje przydzielenie wszystkich obiektów do tych skupień, których środki okazały się im naj-
bliższe. W tym celu wyznacza się odległości pierwszej nieprzydzielonej jednostki do środków ciężkości
poszczególnych grup (krok 1) i kwalifikuje się ją do grupy najbliżej położonej (krok 2). Zwykle do
oznaczenia tych odległości stosowana jest metryka euklidesowa (por. wzór [4.7]) lub wariancje (por.
rys. 6.15). Pierwszą iterację kończy decyzja o ostatnim, nieprzyporządkowanym obiekcie. Dla każdego
tak utworzonego skupienia wyznaczony jest nowy środek ciężkości (krok 3). Jest on punktem wyjścia
do kolejnego etapu badań, w którym sprawdza się, czy każdy obiekt jest bliżej środka własnego sku-
pienia, czy też innego. W tym ostatnim przypadku obiekt jest przesuwany do tego skupienia, do którego
środka ma najbliżej (krok 1 i 2). Kolejne kroki procedury przeprowadza się dotąd, aż w danej iteracji
nie obserwuje się żadnych przesunięć obiektów z jednego skupienia do drugiego albo do wyczerpania
założonej liczby iteracji. Zwykle liczba niezbędnych iteracji jest mniejsza od 15. Po przesunięciu obiek-
tów wyznaczane są znowu nowe środki skupień (krok 3). Cała procedura powtarzana jest aż do mo-
mentu, gdy już żadnego obiektu nie da się przesunąć do innego skupienia, ponieważ dla wszystkich
obiektów najbliższy jest ich środek skupienia, a nie inny. Ostatni etap grupowania polega na ocenie
uzystkanych wyników. Zostanie on szerzej omówiony w rozdziale 6.3.
Zazwyczaj w rezultacie grupowania metodą 𝑘-średnich, aby oszacować, na ile uzyskane skupienia
są od siebie różne, obliczane są średnie dla każdego z nich w każdym wymiarze (dla każdej zmiennej).
W sytuacji idealnej otrzymane średnie dla większości uwzględnionych w badaniu wymiarów (jeśli nie
dla wszystkich) w skupieniach są bardzo różne. Oczywiście istnieją procedury testowania statystycznej
istotności różnic tych średnich. Opisał je m.in. STANISZ (2007, s. 152-154).
Mimo wielu niewątpliwych zalet metod kombinatorycznych badacz przed ich zastosowaniem musi za-
decydować o szeregu założeń. Pierwszym z nich jest ustalenie żądanej liczby skupień 𝒈, które mają
powstać w wyniku podziału grupowanych 𝑛 obiektów. Istnieje wiele sposobów wyznaczania optymal-
nej liczby skupień. Wykaz tych metod został przedstawiony na przykład w publikacji EVERITTA i in.
(2011, s.126-130).
Liczbę skupień można wskazać także na podstawie wyników uprzednio zastosowanych metod aglo-
meracyjnych i ustalenia dla nich optymalnej liczby skupień. Podejście to pozwala wykorzystać zarówno
atuty metod hierarchicznych i niehierarchicznych. Jest ono często polecane w literaturze (zob. np.: MIL-
LIGAN 1980; HAIR i in. 1995, s. 442; PĘCZKOWSKI 2009, s. 146-147). Jego zaletą jest prostota podejścia.
Dla tego samego zestawu danych wykonywane jest najpierw grupowanie hierarchiczne. Na podstawie
wyników tego grupowania wyznacza się liczbę skupień. Nie ma jednak konieczności szczegółowego
określenia, do których skupień poszczególne obiekty przynależą, co mogłoby przysparzać trudności
w przypadkach grupowania dużej ilości obiektów. Wyznaczona w ten sposób liczba skupień jest punk-
tem wyjścia do analizy 𝑘-średnich. Wadą tego podejścia jest jednak to, że istnieje wiele metod hierar-
chicznych i wiele metod przecięcia dendrogramu, spośród których należy wybrać rozwiązanie opty-
malne. Wybrane procedury, które mogą być zastosowane w tym ujęciu zostały opisane w rozdziale 6.1.2
oraz 6.1.3.
6.2. Metody kombinatoryczne analizy skupień 149
Drugą decyzją inicjującą zastosowanie metody k-średnich jest wskazanie początkowego podziału obiek-
tów. Wybór ten wpływa na wyniki grupowania, dlatego badacz musi go podjąć rozważnie (HAIR i in.
1995, s. 441). EVERIT (1980, s. 41) podkreśla, że procedurę wstępnego podziału obiektów na skupienia
rozpoczyna znalezienie 𝑔 obiektów 𝑚-wymiarowych, które będą pierwszymi centrami skupień. Ist-
nieje wiele metod wyboru tych punktów. Pierwsza z nich została zaproponowana przez MCQUEENA
(1967), który sugeruje, aby takimi centrami były pierwsze 𝑔-obiekty. Z kolei THORNDIKE (1953) pro-
ponuje wybór takich 𝑔 punktów, które okazały się najbardziej od siebie oddalone. Zwykle odległości te
są mierzone metryką euklidesową (por. wzór [4.7]). Szereg metod w tym obszarze proponuje także
GRABIŃSKI (1989b, s. 77-78; 1992, s. 124). Wyboru takiego można dokonać w sposób losowy, w opar-
ciu o opinie ekspertów lub znajomość przedmiotu badań. Można także uporządkować wszystkie obiekty
według ich odległości od środka ciężkości całego zbioru oraz ustalić wyjściowe środki ciężkości po-
szczególnych grup na poziome współrzędnych obiektów o numerach:
𝑛
𝑏𝑙 = 1 + (𝑙 − 1),
𝑔
gdzie:
𝑏𝑙 – numer obiektu w uporządkowanym ciągu według ich odległości od środka ciężkości całego zbioru,
𝑙 – numer grupy, przy czym 𝑙 = 1, 2, … , 𝑔,
𝑛 – liczba grupowanych obiektów.
Możliwa jest także ewentualna identyfikacja obiektów odstających i na jej podstawie wyznaczenie
pierwszych punktów centralnych. W programie Statistica dostępne są trzy opcje w tym zakresie:
(1) maksymalizacja odległości skupień, a więc propozycja THORNDIKE (1953). Drugi sposób (2) – sor-
towanie odległości i wybór obserwacji przy stałym interwale – jest zbieżny z procedurą przedstawioną
powyżej. Natomiast zastosowanie dowolnej innej procedury mieści się w opcji (3), która polega na wy-
borze pierwszych 𝑔 obiektów. Badacz, mając możliwość skonfigurowania macierzy danych, może
wpłynąć bezpośrednio na to, które obiekty będą potraktowane jako pierwsze centra skupień.
Pozostałe decyzje inicjujące to wskazanie maksymalnej liczby interacji. Nie ma ona już tak
istotnego wpływu na wyniki grupowania metodą 𝑘-średnich (PĘCZKOWSKI 2009, s. 128-130).
W praktyce proces grupowania metodami kombinatorycznymi jest zbieżny w kilku lub kilkunastu
iteracjach.
BALICKI (2009, s. 206) zwrócił uwagę, że „każda klasyfikacja polegająca na podziale obiektów na grupy
w oparciu o zbiór pewnych reguł nie jest ani prawdziwa, ani fałszywa (w przeciwieństwie do teorii)
i powinna być oceniania z punktu widzenia użyteczności wyników”. Co więcej, zauważa, że każda kla-
syfikacja powinna być oceniana przede wszystkim z punktu widzenia realizacji sprecyzowanego przez
badacza celu, z którego wynika właściwy wybór zmiennych, za pomocą których obiekty będą opisy-
wane. Opinię tę potwierdza GORDON (1999, s. 183), który przyznaje, że głównymi kryteriami oceny
uzyskanego podziału jest jego użyteczność i możliwość interpretacji uzyskanych wyników.
150 6. Wybrane metody hierarchiczne i kombinatoryczne
Z kolei SOKOŁOWSKI (1992, s. 23) uważa, że efektywność metod taksonomicznych jest najczęściej
rozumiana jako zdolność prawidłowego rozpoznawania rzeczywistej struktury obiektów w wielowy-
miarowej przestrzeni klasyfikacji. Zatem zanim przejdzie się do etapu badań związanego z opisem wy-
ników grupowania i ich interpretacji społeczno-ekonomicznej, należy przeprowadzić weryfikację po-
prawności wyodrębnienia skupień obiektów społeczno-gospodarczych, rejonów jednostek terytorial-
nych lub – w przypadku periodyzacji – podokresów.
KAUFMAN i ROUSSEEUW (2005, s. 37) wskazują, że wybór algorytmu grupowania zależy zarówno
od typu dostępnych danych, jak też partykularnych celów stawianych grupowaniu. Zdarza się, że kilka
algorytmów jest akceptowalnych. W takich sytuacjach poleca się przeprowadzić więcej niż jedną ana-
lizę i porównać rezultaty klasyfikacji (NOWAK 1990, s. 189). Rozwiązanie to jest użyteczne, ze
względu na fakt, że nie zawsze kryterium jakości podziału jest formułowane w sposób jawny i formalny.
Bardzo często tkwi ono w samej procedurze podziału. Dlatego też na ogół porównywanie wyników,
jakie dają różne procedury podziału, jest już w istocie porównywaniem różnych kryteriów podziału na
podstawie wyników uzyskanych przy ich stosowaniu. Interpretacja rezultatów takiego działania musi
bazować na dogłębnym zrozumieniu oryginalnych danych połączonym z pewnym doświadczeniem
użycia algorytmów grupowania (KAUFMAN, ROUSSEEUW (2005, s. 37).
KOLENDA (2006, s. 110) podkreśla, że metody grupowania oparte na odmiennych algorytmach
mogą dawać różne wyniki podziału obiektów na skupienia. W takich przypadkach użyteczne jest drugie
podejście, które polega na zastosowaniu jednego ze wskaźników oceny jakości grupowania (KORZE-
NIEWSKI 2012, s. 19). Najczęściej oceny wyniku grupowania dokonuje się za pomocą replikacji klasy-
fikacji i wyznaczenia dla każdego rozwiązania wartości odpowiednio dobranych miar jakości klasyfi-
kacji. Przyjęta miara jakości grupowania powinna równocześnie służyć jako kryterium rozstrzygające,
który z podziałów tego samego zbioru obiektów jest lepszy (SZCZOTKA 1976, s. 13-15).
W dalszej części rozdziału przedstawiony zostanie przegląd literatury dotyczący metod oceny gru-
powania. Wśród nich w sposób najpełniejszy weryfikują spełnienie założeń metod taksonomicznych te
metody, które opierają na ocenie zmienności wewnątrzgrupowej i zmienności międzygrupowej, co bę-
dzie stanowiło treść kolejnego poruszanego w tym rozdziale zagadnienia. Następnie spośród wielu
wskaźników bazujących na tym założeniu zaprezentowano wskaźnik C-Calińskiego-Harabasza oraz
całkowity indeks sylwetkowy 𝐺𝑆𝐼.
MEZZICH i SOLOMON (1980, s. 10-13) wymieniają kilka wskaźników jakości grupowania. Rozpoczy-
nają od tych najprostszych, związanych z przeciętną odległością wewnątrzgrupową i przeciętnym od-
chyleniem od centrum skupienia. Zwracają jednak uwagę, że najważniejsze kryterium jakościowe
opiera się na porównaniu zmienności wewnątrzgrupowej do zmienności międzygrupowej. Wynika to
z założeń metod taksonomicznych: poprawny podział to taki, który odznacza się słabym
zróżnicowaniem jednostek znajdujących się wewnątrz skupień oraz silnym zróżnicowaniem jednostek
wchodzących w skład różnych skupień.
MILLIGAN i COOPER (1985) przeanalizowali trzydzieści procedur oceny poprawności grupowania
w odniesieniu do czterech metod hierarchicznych. W wyniku tych badań najwyższą ocenę przyznano
wskaźnikowi 𝐶 Calińskiego-Harabasza (CALIŃSKI, HARABASZ 1974). Wskaźnik ten należy do miar
oceny grupowania opartych na porównaniu zmienności wewnątrzgrupowych i międzygrupowych.
6.3. Ocena grupowania 151
W podejściu tym wykorzystuje się analizę wariancji, zatem może być ono wykorzystywane w przypad-
kach, w których zmienne opisujące grupowane jednostki zostały wyrażone w silnych skalach.
GRABIŃSKI i in. (1989a) przeanalizowali 62 mierniki poprawności grupowania. Swój ostateczny
wybór najlepszych miar oparli na analizie korelacji miedzy danym miernikiem poprawności a wszyst-
kimi pozostałymi miernikami, liczbą skorelowań danego miernika z pozostałymi oraz współczynnikiem
zmienności danego miernika poprawności. Na tej podstawie do oceny poprawności grupowania reko-
mendowali oni mierniki bazujące na pomiarze stosunku odległości obiektów od środków ciężkości sku-
pień i odległości pomiędzy skupieniami. W tych obliczeniach miary zmienności wewnątrz- i między-
grupowej nie były zgodne z wynikami pozostałych mierników. Natomiast badania DIMITRIADOU i in.
(2002), przeprowadzone w odniesieniu do grupowania metodą 𝑘-średnich, doprowadziły do rankingu
15 wskaźników oceny grupowania. Pierwsze miejsce pod względem możliwości rekomendowania od-
powiedniej liczby skupień zajął ponownie wskaźnik Calińskiego-Harabasza. Wysokie miejsca odnoto-
wano także dla wskaźnika Xu (XU 1997) oraz wskaźnika Ratkowskiego-Lance (RATKOWSKY-LANCE
1978). Osobną grupę metod stanowią te dotyczące podobieństwa wyników grupowania. Na temat tej
ostatniej grupy można przeczytać w publikacji EVERITTA i in. (2011, s. 264-267).
Część metod opiera się na kryterium jakościowym. NOWAK (1990, s 190-196) podkreśla, że synte-
tyczne mierniki jakości klasyfikacji pozwalają nie tylko na ocenę jakości przeprowadzonego grupowa-
nia, ale także na porównanie wyników kilku metod taksonomicznych i wybór tej, której wyniki są naj-
lepsze. Można tu wymienić indeks Szczotki (SZCZOTKA 1972) czy indeks DAVIESA-BOULDINA opisany
m.in. w artykule MIGDAŁ-NAJMAN i NAJMANA (2005). Większość tych wskaźników jest wyznaczanych
w oparciu o macierz odległości, która była podstawą grupowania (EVERITT i in. 2011, s. 112). Punktem
wyjścia do ich wyznaczenia jest założenie, że optymalnym podziałem obiektów na grupy jest taki, który
minimalizuje zróżnicowanie obiektów w skupieniach i jednocześnie maksymalizuje odległości między
centrami klas. Jeżeli odległości między centrami skupień są duże w stosunku do zmienności obiektów
w skupieniach, wtedy takie grupowanie jest uznawane za dobre. Miary te są także podstawowymi kry-
teriami stosowanymi w metodach kombinatorycznych (WIERZCHOŃ, KŁOPOTEK 2015, s. 39). Zostały
one opisane także przez SZCZOTKĘ (1976, s. 38-39);,NOWAKA (1990, s. 192) oraz WIERZCHONIA i KŁO-
POTKA (2015, s. 40). Do grupy tej należy również opisany w tej pracy całkowity indeks sylwetkowy
oceniający strukturę grupowania (KORZENIEWSKI 2012, s. 20-21 za: KAUFMAN, ROUSSEEUW 1990).
Przegląd innych miar jakości grupowania można znaleźć w polskich publikacjach: GRABIŃSKI i in.
(1989) oraz GRABIŃSKI (1992, s. 156-163), KOLENDA (2006, s. 110-125).
Podstawowym celem analizy skupień jest wyodrębnienie takich grup obiektów, że obiekty, które tworzą
określone skupienie, są do siebie bardziej podobnie niż do obiektów nienależących do ich skupienia.
Zatem, jak już podkreślano, podział obiektów na skupienia powinien charakteryzować się równocześnie
wewnętrzną jednorodnością skupień (niewielką zmiennością wewnątrzgrupową) i zewnętrzną ich nie-
jednorodnością (dużą zmiennością międzygrupową). Jeśli zmienne są wyrażone w skali ilorazowej, to
można do pomiaru tych dwóch warunków wykorzystać własności wariancji całkowitej (KORZENIEWSKI
2012, s. 21-22).
152 6. Wybrane metody hierarchiczne i kombinatoryczne
𝑻 = 𝑾 + 𝑩, [6.12]
gdzie:
𝑻 – macierz wariancji ogólnej,
𝑾 – macierz wariancji wewnątrzgrupowej,
𝑩 – macierz wariancji międzygrupowej.
Macierz wariancji wewnątrzgrupowej 𝑾 jest macierzą, którą tworzą następujące elementy (SO-
KOŁOWSKI 1992, s. 25; GRABIŃSKI i in. 1989, s 155-157; KORZENIEWSKI 2012, s. 21-22):
𝑔 𝑛𝑙
𝑙
𝑤𝑗𝑘 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅𝑗𝑙 ) (𝑥𝑖𝑘
𝑙
− 𝑥̅𝑘𝑙 ), [6.13]
𝑙=1 𝑖=1
gdzie:
𝑤𝑗𝑘 – wariancja wewnątrzgrupowa pomiędzy 𝑗-tą oraz 𝑘-tą zmienną,
𝑙 – numer skupienia, przy czym 𝑙 = 1, 2, … , 𝑔,
𝑛𝑙 – liczba obiektów należących do skupienia 𝑙,
𝑙
𝑥𝑖𝑗 – wartość 𝑗-tej zmiennej w 𝑖-tym obiekcie należącym do 𝑙-tego skupienia,
𝑥̅𝑗𝑙 – średnia wartość 𝑗-tej zmiennej po obiektach należącym do 𝑙-tego skupienia.
Stosując rachunek macierzowy, poszczególne elementy macierzy 𝑾 można wyznaczyć poprzez za-
stosowanie odpowiedniego iloczynu macierzy. Został on zaprezentowany jako wzór [6.14]. Należy jed-
nak pamiętać, że rozwiązanie to można wykorzystać jedynie w przypadku, gdy grupowanie zostało po-
przedzone normalizacją zmiennych w taki sposób, aby średnia każdej z nich wynosiła zero (FRIEDMAN,
RUBIN 1967). Takie warunki spełnia dla przykładu standaryzacja (por. wzór [3.6]). Warto w tym celu
wyręczyć się arkuszem kalkulacyjnym Excel i funkcjami tablicowymi, jakie on oferuje: wyznaczanie
macierzy odwrotnej: MACIERZ.ODW(), transponowanie macierzy: TRANSPONUJ() czy obliczenie
iloczynu macierzy: MACIERZ.ILOCZYN().
−1
𝑾 = 𝑿𝑻 𝑿 − 𝑿𝑻 𝒁(𝒁𝑻 𝒁) 𝒁𝑻 𝑿, [6.14]
gdzie:
𝑾 – macierz wariancji wewnątrzgrupowej,
𝑿 – macierz obserwacji znormalizowanych, w której wiersze odnoszą się do obiektów n grupowanych
obiektów (𝝎𝒊 ), a kolumny do m opisujących te obiekty zmiennych,
𝑻
𝑿 – transponowana macierz obserwacji znormalizowanych,
𝒁 – macierz przynależności obiektów do skupień, w której wiersze odnoszą się do obiektów n grupo-
wanych obiektów (𝝎𝒊 ), a kolumny do g skupień utworzonych w wyniku grupowania,
gdzie:
𝑏𝑗𝑘 –zmienność międzygrupowa pomiędzy 𝑗-tą oraz 𝑘-tą zmienną,
𝑙 – numer skupienia, przy czym 𝑙 = 1, 2, … , 𝑔,
𝑛𝑙 – liczba obiektów należących do skupienia 𝑙,
𝑥̅𝑗𝑙 – średnia wartość 𝑗-tej zmiennej po obiektach należących do 𝑙-tego skupienia,
𝑥̅𝑗 – średnia wartość 𝑗-tej zmiennej po wszystkich obiektach.
Podobnie jak w przypadku macierzy zmienności wewnątrzgrupowej, jeżeli grupowanie zostało po-
przedzone standaryzacją zmiennych, elementy macierzy 𝑩 można wyznaczyć, stosując rachunek ma-
cierzowy:
−1
𝑩 = 𝑿𝑻 𝒁(𝒁𝑻 𝒁) 𝒁𝑻 𝑿, [6.17]
gdzie oznaczenia są analogiczne jak we wzorze [6.14].
W oparciu o zależność przedstawioną jako wzór [6.12] zbudowano wiele wskaźników, służących
zarówno do wyznaczania optymalnego punktu przecięcia dendrogramu, jak i do oceny jakości grupo-
wania. Można wśród nich wymienić wskaźniki Friedmana i Rubina (FRIEDMAN, RUBIN 1967),
Edwardsa i Cavalli-Sforzy (EDWARDS, CAVALLI-SFORZA 1965) czy Scotta i Symonsa (SCOTT, SY-
MONS 1971). Jednak od lat największym uznaniem, wynikającym z wielokrotnie potwierdzanej empi-
rycznie wysokiej efektywności i stabilności (por. CORMACK 1971; MILLIGAN, COOPER 1985; WALE-
SIAK 2009; WALESIAK, DUDEK 2009; KORZENIEWSKI 2014), cieszy się wskaźnik 𝑪 Calińskiego i Ha-
rabasza (CALIŃSKI, HARABASZ 1974). Na uwagę zasługuje fakt, że stworzony on został przez poznań-
skie środowisko naukowe.
CALIŃSKI i HARABASZ (1974), bazując na zależnościach, jakie występują pomiędzy zmiennością
wewnątrzgrupową a zmiennością międzygrupową, stworzyli wskaźnik 𝐶 w postaci:
𝑡𝑟(𝑩) 𝑡𝑟(𝑾)
𝐶= ⁄ , [6.18]
𝑔−1 𝑛−𝑔
154 6. Wybrane metody hierarchiczne i kombinatoryczne
gdzie:
𝑡𝑟(𝑩) – ślad macierzy zmienności międzygrupowej,
𝑡𝑟(𝑾) – ślad macierzy zmienności wewnątrzgrupowej,
𝑛 – liczba grupowanych obiektów,
𝑔 – liczba skupień uzyskanych na 𝑒-tym etapie wiązania.
Wskaźnik ten pierwotnie służył do wyboru optymalnego punktu przecięcia dendrogramu. Jeżeli
wartość 𝐶 rośnie wraz ze wzrostem liczby grup 𝑔, to oznacza, że badany zbiór nie ma struktury skupień.
Zatem jeżeli wartość 𝐶 maleje wraz ze wzrostem 𝑔, to oznacza, że badany zbiór obiektów ma strukturę
hierarchiczną. Z kolei wartość maksymalna wskaźnika 𝐶 Calińskiego-Harabasza, osiągnięta dla okre-
ślonej liczby skupień 𝑔, wyznacza podział optymalny. GORDON (1999, s. 60-65) wskazuje jednak, że
metoda wyznaczenia optymalnej liczby skupień oparta o wskaźnik 𝐶 Calińskiego-Harabaszasza prowa-
dzi zwykle do większej liczby skupień niż inne metody.
Wskaźnik 𝐶 stosowany jest również do porównań wyników dwóch grupowań przeprowadzonych
dla tej samej grupy obiektów, ale w oparciu o różne metody. W takich przypadkach wyższa wartość
wskaźnika 𝐶 Calińskiego-Harabasza przesądza o wyborze najlepszego podejścia.
Jeżeli grupowanie zostało przeprowadzone w oparciu o macierz odległości euklidesowych, CALIŃ-
SKI i HARABASZ (1974) zaproponowali uproszczony sposób wyznaczania śladu macierzy zmienności
wewnątrzgrupowej, który stanowi jeden z podstawowych składowych ich wskaźnika. W przypadkach,
gdy grupowanie zostało przeprowadzone w oparciu o inną miarę odległości, zastosowanie tego rozwią-
zania wymaga dodatkowej operacji wyznaczenia macierzy odległości euklidesowych:
1 ̅̅̅2 + (𝑛 − 1)𝑑
̅̅̅2 + ⋯ + (𝑛 − 1)𝑑
̅̅̅2 ],
𝑡𝑟(𝑾) = [(𝑛1 − 1)𝑑 1 2 2 𝑔 𝑔 [6.19]
2
gdzie:
𝑡𝑟(𝑾) – ślad macierz wariancji wewnątrzgrupowej,
𝑛 – liczba grupowanych obiektów, przy czym 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑔 = 𝑛,
𝑔 – liczba skupień uzyskanych na 𝑒-tym etapie wiązania,
̅̅̅2
𝑑 – średnia po tych, podniesionych do kwadratu elementów macierzy odległości euklidesowych,
𝑙
które oznaczają odległości pomiędzy obiektami należącymi do 𝑙-tego skupienia, uprzednio,
przy czym 𝑙 = 1, 2, … , 𝑔.
Z kolei bazując na relacji zapisanej jako wzór [6.12], ślad macierzy wariancji międzygrupowej
𝑡𝑟(𝑩) można zapisać jako:
1 ̅̅̅2 − 𝑡𝑟(𝑾),
𝑡𝑟(𝑩) = (𝑛 − 1)𝑑 [6.20]
2
gdzie:
𝑡𝑟(𝑩) – ślad macierz wariancji międzygrupowej,
𝑡𝑟(𝑾) – ślad macierz wariancji wewnątrzgrupowej,
𝑛 – liczba grupowanych obiektów, przy czym 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑔 = 𝑛,
̅̅̅2
𝑑 – średnia po wszystkich elementach, znajdujących się nad przekątną macierzy odległości eukli-
desowych, które oznaczają odległości pomiędzy grupowanymi obiektami, podniesionymi
wcześniej do kwadratu.
6.3. Ocena grupowania 155
Poszczególne wartości macierzy 𝑫 [6.21] podniesiono do potęgi, uzyskując w ten sposób macierz
𝟐
𝑫 . Ze względu na fakt, że obliczenia śladu macierzy wewnątrzgrupowej oraz międzygrupowej (por.
wzór [6.19] oraz [6.20]) opierają się jedynie na 𝑛(𝑛 − 1)/2 odległościach, prezentację macierzy 𝑫𝟐
ograniczono jedynie do tych wartości, które znajdują się ponad jej przekątną. Aby ułatwić dalsze obli-
czenia zapisano ją w formie tabelarycznej:
𝐴 𝐵 𝐶 𝐷 𝐸
𝐴 1,25 1,25 16,00 16,24
𝐵 0,50 9,24 9,00
𝑫𝟐 =
𝐶 13,25 12,53
𝐷 0,25
𝐸
Podejście pierwsze
W podejściu pierwszym rozważany jest podział na dwa skupienia 𝑠1 = {𝐴, 𝐵, 𝐶}, 𝑠2 = {𝐷, 𝐸}. Zatem
liczebności poszczególnych skupień wynoszą odpowiednio: 𝑛1 = 3, 𝑛2 = 2, a liczba obiektów grupo-
wanych 𝑛 = 5, natomiast liczba skupień uzyskanych w wyniku grupowania 𝑔 = 2. Na podstawie ma-
cierzy odległości euklidesowych, podniesionych do kwadratu, można już wyznaczyć średnią odległość
̅̅̅2 ) oraz średnie odległości pomiędzy obiek-
podniesioną do kwadratu pomiędzy wszystkimi obiektami (𝑑
̅̅̅2 ):
tami w skupieniach (𝑑 𝑙
156 6. Wybrane metody hierarchiczne i kombinatoryczne
̅̅̅2 = (𝑑𝐴;𝐵
𝑑 2 2
+ 𝑑𝐴;𝐶 2
+ 𝑑𝐴;𝐷 2
+ ⋯ + 𝑑𝐷;𝐸 )/10 = (1,25 + 1,25 + 16 + ⋯ + 0,25)/10 = 7,95;
̅̅̅
𝑑 2 = (𝑑 2 + 𝑑 2 + 𝑑 2 )/3 = (1,25 + 1,25 + 0,50)/3 = 1,00;
1 𝐴;𝐵 𝐴;𝐶 𝐵;𝐶
̅̅̅
𝑑22 = (𝑑𝐷;𝐸
2
)/1 = (0,25)/1 = 0,25.
Wskaźnik 𝐶 Calińskiego-Harabasza (por. wzór [6.18]) dla grupowania pięciu obiektów metodą peł-
nego wiązania w oparciu o odległość euklidesową na dwa skupienia wynosi zatem:
𝑡𝑟(𝑩) 𝑡𝑟(𝑾) 14,78 1,13
𝐶= ⁄ = ⁄ = 39,40.
𝑔−1 𝑛−𝑔 2−1 5−2
Podejście drugie
W podejściu drugim rozważany jest podział na trzy skupienia 𝑠1 = {𝐴, 𝐷}, 𝑠2 = {𝐶}, 𝑠3 = {𝐵, 𝐸}. Za-
tem liczebności poszczególnych skupień wynoszą odpowiednio: 𝑛1 = 2, 𝑛2 = 1 oraz 𝑛3 = 2. Podobnie
jak w podejściu pierwszym, liczba obiektów grupowanych 𝑛 = 5, natomiast liczba skupień uzyskanych
w wyniku grupowania 𝑔 = 3. Wartość średniej odległości podniesiona do kwadratu pomiędzy wszyst-
̅̅̅2 ) była oczywiście taka sama jak w podejściu pierwszym. Natomiast średnie odległo-
kimi obiektami (𝑑
̅̅̅2 ) wyniosły w tym przypadku odpowiednio:
ści pomiędzy obiektami w skupieniach (𝑑 𝑙
̅̅̅2 = (𝑑 2 )/1 = (16,00)/1 = 16,00;
𝑑 1 𝐴;𝐷
̅̅̅
2
𝑑 = 0,00;
2
̅̅̅2 = (𝑑 2 )/1 = (9,00)/1 = 9,00.
𝑑 3 𝐵;𝐸
Wskaźnik 𝐶 Calińskiego-Harabasza (por. wzór [6.18]) dla grupowania na trzy skupienia wynosi zatem:
𝑡𝑟(𝑩) 𝑡𝑟(𝑾) 3,41 12,50
𝐶= ⁄ = ⁄ = 0,27.
𝑔−1 𝑛−𝑔 3−1 5−3
Grupowanie, dla którego wartość wskaźnika 𝐶 Calińskiego-Harabasza jest wyższa, należy uznać za
lepsze. W prezentowanym przykładzie dokonano oceny grupowania przeprowadzonego w oparciu
o metodę pełnego wiązania oraz losowego podziału grupowanych obiektów. Oszacowane dla obu po-
dejść wartości wskaźnika 𝐶 Calińskiego-Harabasza potwierdziły, że podział pięciu obiektów w oparciu
o metodę hierarchiczną daje bardziej spójne wewnętrznie skupienia niż zaproponowany podział losowy
tych samych obiektów.
6.3. Ocena grupowania 157
W przypadku gdy zmienne wyrażone zostały w słabszych skalach, nie można oceniać jakości grupowa-
nia, bazując na analizie wariancji. W tej sytuacji w literaturze funkcjonują wskaźniki oparte na macierzy
odległości, wyznaczonej adekwatnie do skali, w której wyrażone zostały zmienne będące podstawą gru-
powania. Jednym z takich wskaźników jest całkowity indeks sylwetkowy GSI. Został one szczegółowo
opisany w publikacjach KAUFMANA i ROUSSEEUWA (1990; 2005, s. 84-88) oraz KORZENIEWSKIEGO
(2012, s. 18-21). Należy on do grupy wskaźników oceniających strukturę grupowania.
Wyznacza się go na podstawie wzoru:
𝑔
1
𝐺𝑆𝐼 = ∑ 𝑆(𝑠𝑙 ), [6.22]
𝑔
𝑙=1
gdzie:
𝐺𝑆𝐼 – całkowity indeks sylwetkowy,
𝑔 – liczba wyodrębnionych w wyniku grupowania skupień,
𝑠𝑙 – skupienie 𝑙-te, przy czym 𝑙 = 1, 2, … , 𝑔,
𝑆(𝑠𝑙 ) – cząstkowy indeks sylwetkowy wyznaczony dla skupienia 𝑠𝑙 .
Nieco szerszego omówienia wymaga sposób wyznaczenia cząstkowego indeksu sylwetowego, wy-
znaczanego osobno dla każdego skupienia:
𝑛𝑙 𝑛𝑙
1 1 𝑏𝑖 − 𝑎𝑖
𝑆(𝑠𝑙 ) = ∑ 𝑆(𝑖) = ∑ ,
𝑛𝑙 𝑛𝑙 max{𝑎𝑖 ; 𝑏𝑖 } [6.23]
𝑖=1; 𝑖=1; 𝑖
𝑖∈𝑠𝑙 𝑖∈𝑠𝑙
gdzie:
𝑆(𝑠𝑙 ) – cząstkowy indeks sylwetkowy, wyznaczony dla skupienia 𝑠𝑙 ,
𝑆(𝑖) – cząstkowy indeks sylwetkowy, wyznaczony dla 𝑖-tego obiektu, przy czym 𝑖 = 1, 2, … , 𝑛𝑙 ,
𝑛𝑙 – liczba obiektów należących do l-tego skupienia,
𝑠𝑙 – 𝑙-te skupienie, przy czym 𝑙 = 1, 2, … , 𝑔.
Natomiast:
𝑛𝑟
1
𝑏𝑖 = 𝑠min 𝑑 ,
≠𝑠 𝑖;𝑠𝑟
przy czym 𝑑𝑖;𝑠𝑟 = ∑ 𝑑𝑖𝑞 , [6.25]
𝑟 𝑙 𝑛𝑟
𝑖∈𝑠𝑙 𝑞=1;
𝑞∈𝑠𝑟
gdzie:
𝑏𝑖 – minimalna odległość obiektu 𝑖-tego, należącego do skupienia 𝑠𝑙 , do pozostałych skupień,
𝑛𝑙 – liczba obiektów należących do l-tego skupienia,
𝑑𝑖;𝑠𝑟 – odległość pomiędzy obiektem 𝑖-tym oraz skupieniem 𝑠𝑟 , przy czym 𝑟 = 1, 2, 𝑔 − 1,
𝑑𝑖𝑞 – odległość pomiędzy obiektem i-tym oraz q-tym, przy czym 𝑖 ∈ 𝑠𝑘 oraz 𝑞 ∈ 𝑠𝑟 .
Podstawiając kolejno oszacowaną wartość średniej wewnątrzgrupowej 𝑎𝑖 [6.24] oraz miarę odle-
głości międzygrupowej 𝑏𝑖 [6.25], otrzymuje się dla każdego obiektu wartość cząstkowego indeksu syl-
wetowego 𝑆(𝑖). Uśrednienie cząstkowych indeksów sylwetkowych po obiektach należących do danego
skupienia pozwala na wyznaczenie cząstkowego indeksu sylwetkowego 𝑆(𝑠𝑙 ) [6.23] . Z kolei uśrednie-
nie cząstkowych indeksów sylwetkowych dla wyodrębnionych w grupowaniu skupień prowadzi do wy-
znaczenia całkowitego indeksu sylwetkowego 𝐺𝑆𝐼 [6.22], oceniającego przeprowadzoną klasyfikację.
Całkowity indeks sylwetkowy (GSI) może przyjmować wartości z przedziału [-1, 1], dzięki czemu
można go wykorzystać nie tylko przy porównywaniu różnych podejść w grupowaniu, ale także do oceny
pojedynczego przypadku grupowania. I tak KAUFMAN i ROUSSEEUW (2005, s. 88) proponują następu-
jącą interpretację dla określonych przedziałów wartości GSI:
𝐺𝑆𝐼 > 0,70 silna struktura uzyskanych grup,
0,71 ≥ 𝐺𝑆𝐼 > 0,50 poprawna struktura grupowania,
0,50 ≥ 𝐺𝑆𝐼 > 0,25 słaba struktura grupowania,
0,25 ≥ 𝐺𝑆𝐼 brak skupień w danym zbiorze.
W przypadku słabej struktury grupowania KAUFMAN i ROUSSEEUW (2005, s. 88) sugerują koniecz-
ność zastosowania innej metody grupowania.
Punktem wyjścia do wyznaczenia całkowitego indeksu sylwetkowego jest oszacowanie dla każdego
z grupowanych obiektów cząstkowych indeksów sylwetkowych. Stosowne obliczenia przedstawiono
w formie tabeli 6.4.
Tabela 6.4. Cząstkowe indeksy sylwetowe 𝑆(𝑖) wyznaczone dla każdego obiektu w przykładzie zaprezentowanym na rysunku
6.1 z podziałem na skupienia 𝑠1 = {𝐴, 𝐵, 𝐶}, 𝑠2 = {𝐷, 𝐸}
Skupienia
Obiekty
𝑎𝑖 𝑏𝑖 𝑺(𝒊)
𝑑𝑖;𝑠1 𝑑𝑖;𝑠2
[6.24] [6.25] [6.23]
Opierając się na cząstkowych indeksach sylwetowych wyznaczonych dla każdego obiektu na pod-
stawie obliczeń zaprezentowanych w tabeli 6.4, można już przy zastosowaniu wzoru [6.23] wyznaczyć
cząstkowe indeksy sylwetkowe dla każdego skupienia 𝑆(𝑠𝑙 ):
𝑛11 1
𝑆(𝑠1 ) = 𝑛 ∑ 𝑖=1; 𝑆(𝑖) = 3 (0,72 + 0,70 + 0,75) = 0,72,
1
𝑖∈𝑠1
1 𝑛2 1
𝑆(𝑠2 ) = ∑ 𝑆(𝑖) = (0,86 + 0,86) = 0,86.
𝑛2 𝑖=1; 2
𝑖∈𝑠2
Podstawienie z kolei powyższych obliczeń do wzoru [6.22] prowadzi do oszacowania całkowitego in-
deksu sylwetkowego 𝐺𝑆𝐼:
𝑔
1 1
𝐺𝑆𝐼 = ∑ 𝑆(𝑠𝑙 ) = (0,72 + 0,86) = 0,79.
𝑔 2
𝑙=1
Na podstawie tak wyznaczonej wartości całkowitego indeksu sylwetkowego 𝐺𝑆𝐼 dla wyników grupo-
wania pięciu obiektów metodą pełnego wiązania, można uzyskany podział na dwa skupienia uznać za
odznaczający się silną strukturą.
Przykłady zastosowania
metod taksonomicznych
7
Regionalizacja na przykładzie grupowania powiatów ze względu na
sytuację demograficzną w departamencie poznańskim w 1810 r.
Punktem wyjścia do prezentacji zagadnień związanych z regionalizacją były wyniki spisu ludności
z 1810 r. dla Księstwa Warszawskiego. Informacje dotyczące tego spisu są udostępniane przez Archi-
wum Główne Akt Dawnych w ramach zespołu „Archiwum Zamoyskich”, pod nazwą „Statystyka Księ-
stwa Warszawskiego i Królestwa Kongresowego z lat 1806-1812, 1817-1824, 1852 i wywozu gdań-
skiego 1691-1817”. Inspirację do przeanalizowania sytuacji demograficznej w departamencie poznań-
skim w 1810 r. stanowiło opracowanie Mieczysława Kędelskiego pt. Umieralność i trwanie życia lud-
ności Wielkopolski w XIX w. (KĘDELSKI 1996). W prezentowanym przykładzie celem badania było wy-
odrębnienie grup powiatów departamentu poznańskiego możliwie najbardziej jednolitych w 1810 r. ze
względu na sytuację demograficzną w pierwszym dziesięcioleciu XIX w.
Prezentowany przykład jest pierwszym spośród zagadnień historycznych przedstawionych w tej
części pracy. Z tego powodu, szczególnie skrupulatnie został w nim opisany proces konstruowania ma-
cierzy obserwacji, będącej podstawą wielowymiarowych analiz statystycznych (por. rozdział 3.2).
W grupowaniu regionalnym obiektami są najczęściej jednostki terytorialne, które zostały scharaktery-
zowane z pomocą wielu zmiennych, odzwierciedlających poruszane zagadnienie. Zmienne te, szczegól-
nie w badaniach historycznych, są często wyrażone w różnych jednostkach, a co więcej, odznaczają się
różnym rzędem wielkości. Ma to istotny wpływ na grupowanie, ponieważ zmienne przyjmujące wyższe
wartości wpływają w większym stopniu na wartość wielowymiarowych wskaźników podobieństwa lub
niepodobieństwa pomiędzy grupowanymi obiektami, a w konsekwencji na rezultat grupowania. Z tego
powodu bardzo ważnym etapem w badaniach dotyczących regionalizacji jest starannie przeprowadzona
normalizacja zmiennych. Podstawy teoretyczne tego zagadnienia zostały opisane w rozdziale 3.4. Nie
bez znaczenia na wyniki grupowania ma także proces doboru zmiennych diagnostycznych. W prezen-
towym przykładzie zastosowano metodę macierzy odwrotnej (por. rozdział 5.3.2).
Drugim istotnym problemem w zagadnieniach regionalizacji jest wymóg ciągłości terytorialnej. Ba-
dacz może założyć, choć nie musi, że otrzymane skupienia będą tworzyły spójne regiony. Z technicz-
nego punktu widzenia działanie to polega na odpowiedniej modyfikacji macierzy odległości (por. roz-
dział 4.4.2). Należy jednak pamiętać, że wprowadzenie tego warunku może wiązać się z pogorszeniem
jakości wyników grupowania. Co więcej, nie we wszystkich badaniach jest on konieczny. W prezento-
wanym przykładzie wyniki procedury, w której taki warunek został przyjęty, skonfrontowano z rezul-
tatami uzyskanymi bez tego obciążenia.
W przypadku regionalizacji szczególnie polecane są metody hierarchiczne. Pozwalają one bowiem
na wskazanie regionów na kilku poziomach, co koresponduje z powszechnie przyjętymi podziałami ad-
ministracyjnymi kraju, np.: gmina, powiat, województwo, region itp. Spośród wielu możliwości, w pre-
zentowanym przykładzie grupowanie przeprowadzono w oparciu o metodę Warda, opisaną w rozdziale
6.1.3. Aby uwypuklić różnice pomiędzy uzyskanymi skupieniami, jako miarę odległości pomiędzy nimi
wybrano kwadrat odległości euklidesowych (por. wzór [4.8]).
164 7. Regionalizacja na przykładzie grupowania powiatów
W ciągu kilku lat pewnej niezależności Księstwa Warszawskiego rząd przeprowadził trzy spisy ludno-
ści – w latach: 1808, 1810, 1812 (BOROWSKI 1962). Zadania spisowe były realizowane zwykle pod
koniec roku przez duchownych katolickich i protestanckich. Taką samą ewidencję dla pozostałych wy-
znań prowadziły sądy. Sprawozdania przekazywane były władzom powiatowym. Stąd opracowania tra-
fiały do prefektów w departamentach, a ci z kolei wysyłali zbiorcze dane do Komisji Rządzącej, a póź-
niej do Biura Statystycznego przy Ministerstwie Spraw Wewnętrznych w Warszawie (BOROWSKI 1967;
KĘDELSKI 1985). Najbardziej szczegółowe badanie przeprowadzone zostało w 1810 r. Na wiarygod-
ność statystyk wielkopolskich tego okresu wskazywali w swoich pracach m.in. BOROWSKI (1970) czy
GIEYSZTOROWA (1976, s. 80-109; 1980). Na temat spisów ludności w 1808 oraz 1810 r. wypowiadał
się także GROSSMAN (1925, s. 45), który stwierdził, że spis ludności z roku 1810 „zdołał lepiej ująć
masę ludności, niż to uczynił spis 1808 r. Nie znaczy to, by wyniki jego były ścisłe. Potem przekonamy
się, na zasadzie danych o ruchu naturalnym ludności, że i on nie ujął całkowitej masy ludności, atoli
stopień pominięć jest znacznie mniejszy, niż w r. 1808 i wynosi jakieś 8,4% ludności”.
Dobór zmiennych w badaniach dotyczących demografii może być szeroki. Należy podkreślić, że
dane ilościowe wynikające ze spisu powszechnego z 1810 r. dają wiele możliwości podejścia do tego
problemu. Przedstawiony przykład ma służyć prezentacji wykorzystania metod taksonomicznych w za-
gadnieniach regionalizacji. Z tego powodu, aby nie zatracić głównego celu tego przesłania, w prezento-
wanym materiale posłużono się zestawem zmiennych, które w swoich badaniach wykorzystał KĘDEL-
SKI (1996, s. 25).
Przedmiotem badania w prezentowanym przykładzie będzie zbiorowość statystyczna, na którą skła-
dają się poszczególne powiaty departamentu poznańskiego uwzględnione w spisie z 1810 r. Warto
w tym miejscu podkreślić, że stolica departamentu – Poznań – nie została uwzględniona we wspomnia-
nych statystykach. Ostatecznie jednostki w tak zdefiniowanej zbiorowości statystycznej można zapisać
następująco:
𝑊𝑠𝑐ℎ𝑜𝑤𝑎 𝑝1
𝐾𝑟𝑜𝑏𝑖𝑎 𝑝2
𝜴 = 𝑀𝑖ę𝑑𝑧𝑦𝑟𝑧𝑒𝑐𝑧 = 𝑝3 .
… …
[ 𝑊ą𝑔𝑟𝑜𝑤𝑖𝑒𝑐 ] [ 14 ] 𝑝
(𝑋9 ) liczba katolików [% ludności ogółem], (𝑋10 ) liczba protestantów [% ludności ogółem] oraz (𝑋11 )
liczba żydów [% ludności ogółem].
Podsumowując, w badaniu dotyczącym sytuacji demograficznej w departamencie poznańskim
uwzględniono 𝑛 = 14 powiatów stanowiących obiekty tego badania oraz 𝑚 = 11 zmiennych, repre-
zentujących sześć cech badanych obiektów. Dane liczbowe dotyczące tego zagadnienia można zapisać
w formie tabelarycznej (tabela 7.1).
W takim zestawieniu wektor zmiennych dla powiatu krotoszyńskiego przyjmie wartości (por. wek-
tor [3.2]):
𝒑𝟒 = [59,1 28,1 1,00 2,6 7,7 34,9 35,2 34,6 76,7 18,4 4,9].
Zestawienie w ten sam sposób skonfigurowanych wektorów wartości zmiennych dla każdego
obiektu tworzy macierz obserwacji (por. macierz [3.3]) o wymiarach 14 × 11 (14 wierszy i 11 ko-
lumn). W macierzy takiej każdy wiersz dotyczy odrębnego powiatu, natomiast każda kolumna jednej
zmiennej. W macierzy obserwacji nie uwzględnia się wartości ogółem, dotyczących całego departa-
mentu.
52,5 33,5 0,94 2,2 8,4 23,1 23,5 22,7 57,1 35,3 7,6
50,4 33,3 0,96 2,2 8,0 30,6 33,1 28,2 63,5 33,2 3,3
40,0 30,4 0,98 2,4 8,7 35,2 37,6 32,8 46,5 46,0 7,5
59,1 28,1 1,00 2,6 7,7 34,9 35,2 34,6 76,7 18,4 4,9
44,7 28,0 0,99 2,0 6,2 31,1 33,0 29,2 42,4 52,5 5,1
46,8 23,7 1,00 1,8 8,2 32,4 33,7 31,2 62,0 30,4 7,6
39,7 20,6 0,97 4,9 4,6 27,2 29,2 25,3 78,8 17,2 4,0
𝑿= . [7.1]
34,5 20,3 0,99 1,8 7,2 34,7 36,7 32,7 81,7 14,3 4,0
32,5 18,9 1,05 2,0 7,2 28,5 28,8 28,1 79,7 17,0 3,3
39,6 17,7 1,04 1,6 5,9 37,1 38,4 35,8 84,4 9,0 6,6
24,5 17,1 1,05 1,3 5,3 44,8 45,2 44,5 80,9 14,8 4,3
26,7 12,8 1,00 2,1 6,9 33,3 36,0 30,6 88,6 8,5 2,9
43,9 10,2 1,01 1,8 7,3 35,3 38,0 32,6 87,5 9,4 3,1
[30,1 9,7 1,03 2,1 8,1 32,2 33,2 31,3 79,6 17,7 2,7]
Tabela 7.2. Zmienne i ich podstawowe statystyki opisujące sytuację demograficzną w powiatach departamentu poznańskiego
w 1810 r.
Rozwiązaniem jest zatem odniesienie wartości zmiennej (𝑋1 ) do powierzchni poszczególnych powia-
tów. Szczegółowo o pomiarze gruntów w Wielkopolsce w tym okresie traktuje m.in. publikacja GÓR-
SKIEJ (1956). Ostatecznie informację o wielkości powiatów zaczerpnięto z danych zawartych w zespole
„Rada Ministrów Księstwa Warszawskiego, Księgi Kancelaryjne”, mieszczącym się w Archiwum
Głównym Akt Dawnych. Według danych zaczerpniętych z tego źródła1 Księstwo Warszawskie zajmo-
wało powierzchnię 7790 mil2, a departament poznański 338,562 mil2.
Po wprowadzeniu przedstawionej wyżej zmiany, skorygowana macierz danych dla tego przykładu
przyjęła postać2 𝑿′ [7.2]. W porównaniu z macierzą obserwacji 𝑿 [7.1], zmieniono w niej jedynie war-
tości w kolumnie pierwszej. Tym razem zmienną 𝑋1 : ludność, wyrażono w jednostkach względnych:
[tys. osób/1 milę2].
2,24 33,5 0,94 2,2 8,4 23,1 23,5 22,7 57,1 35,3 7,6
2,78 33,3 0,96 2,2 8,0 30,6 33,1 28,2 63,5 33,2 3,3
1,13 30,4 0,98 2,4 8,7 35,2 37,6 32,8 46,5 46,0 7,5
2,25 28,1 1,00 2,6 7,7 34,9 35,2 34,6 76,7 18,4 4,9
1,58 28,0 0,99 2,0 6,2 31,1 33,0 29,2 42,4 52,5 5,1
1,40 23,7 1,00 1,8 8,2 32,4 33,7 31,2 62,0 30,4 7,6
1,75 20,6 0,97 4,9 4,6 27,2 29,2 25,3 78,8 17,2 4,0
𝑿′ = [7.2]
1,99 20,3 0,99 1,8 7,2 34,7 36,7 32,7 81,7 14,3 4,0
1,46 18,9 1,05 2,0 7,2 28,5 28,8 28,1 79,7 17,0 3,3
1,86 17,7 1,04 1,6 5,9 37,1 38,4 35,8 84,4 9,0 6,6
1,51 17,1 1,05 1,3 5,3 44,8 45,2 44,5 80,9 14,8 4,3
1,86 12,8 1,00 2,1 6,9 33,3 36,0 30,6 88,6 8,5 2,9
1,50 10,2 1,01 1,8 7,3 35,3 38,0 32,6 87,5 9,4 3,1
[1,19 9,7 1,03 2,1 8,1 32,2 33,2 31,3 79,6 17,7 2,7]
1
Z kolei KLENIEWICZ (1947, s. 4) podaje, że Księstwo Warszawskie zajmowało obszar 155,8 tys. km 2.
2
BUZEK (1915, s. 5) podaje, że w Poznańskiem w 1816 r. na kilometrze kwadratowym mieszkało 28 osób.
7.1. Przygotowanie danych demograficznych do badań wielowymiarowych 169
0,67 1,00 0,00 0,25 0,93 0,00 0,00 0,00 0,32 0,61 1,00
1,00 0,99 0,18 0,25 0,83 0,35 0,44 0,25 0,46 0,56 0,12
0,00 0,87 0,36 0,31 1,00 0,56 0,65 0,46 0,09 0,85 0,98
0,68 0,77 0,55 0,36 0,76 0,54 0,54 0,55 0,74 0,23 0,45
0,27 0,77 0,45 0,19 0,39 0,37 0,44 0,30 0,00 1,00 0,49
0,16 0,59 0,55 0,14 0,88 0,43 0,47 0,39 0,42 0,50 1,00
0,37 0,46 0,27 1,00 0,00 0,19 0,26 0,12 0,79 0,20 0,27
𝑿′′ = [7.3]
0,52 0,45 0,45 0,14 0,63 0,53 0,61 0,46 0,85 0,13 0,27
0,20 0,39 1,00 0,19 0,63 0,25 0,24 0,25 0,81 0,19 0,12
0,44 0,34 0,91 0,08 0,32 0,65 0,69 0,60 0,91 0,01 0,80
0,23 0,31 1,00 0,00 0,17 1,00 1,00 1,00 0,83 0,14 0,33
0,44 0,13 0,55 0,22 0,56 0,47 0,58 0,36 1,00 0,00 0,04
0,22 0,02 0,64 0,14 0,66 0,56 0,67 0,45 0,98 0,02 0,08
[0,03 0,00 0,82 0,22 0,85 0,42 0,45 0,39 0,81 0,21 0,00]
W opisywanym przykładzie jako wstępną listę zmiennych można potraktować dane przedstawione w ta-
beli 7.1. Lista ta zawiera jedenaście zmiennych. Warto przypomnieć, że zmienna: ludność (𝑋1 ) została,
zastąpiona zmienną gęstość zaludnienia.
Dobór zmiennych diagnostycznych warto rozpocząć od wstępnej statystycznej selekcji zmien-
nych, której podstawy teoretyczne opisano w rozdziale 5.1. Wartości współczynników zmienności (por.
wzór [5.1]), wyznaczonych dla każdej zmiennej uwzględnionej w badaniu, zawiera tabela 7.3.
Tabela 7.3. Współczynniki zmienności wyznaczone dla zmiennych uwzględnionych w przykładzie dotyczącym sytuacji
demograficznej departamentu poznańskiego w 1810 r.
Z tabeli wynika, że największą zmiennością odznaczają się zmienne opisujące udział ludności pro-
testanckiej (𝑋10 ) i żydowskiej (𝑋11 ) oraz udział ludności miejskiej (𝑋2 ) w ludności ogółem poszczegól-
nych powiatów. Te właśnie zmienne różnicują najsilniej badane powiaty pod względem demograficz-
nym. Natomiast najmniejszą zmienność, co wydaje się naturalne, odnotowano w obszarze relacji liczby
170 7. Regionalizacja na przykładzie grupowania powiatów
mężczyzn do liczby kobiet (𝑋3 ) oraz zmiennych dotyczących liczby zgonów (𝑋6 , 𝑋7 , 𝑋8 ). Zakładając, że
progowa wartość współczynnika zmienności wynosi 𝜀 = 0,1, można stwierdzić, że zmienność w ob-
szarze zmiennej 𝑋3 nie przekroczyła tego poziomu (𝑣𝑋3 = 0,041). Nie różni się ona zatem na tyle po-
między grupowanymi obiektami, aby uwzględnić ją w badaniu.
W celu dokonania doboru zmiennych diagnostycznych spośród kilku możliwości zaprezentowanych
w rozdziale piątym wybrano metodę odwrotnej macierzy korelacji. Jak już wskazuje sama nazwa,
punktem wyjścia do zastosowania tego podejścia jest macierz korelacji. W przykładzie dotyczącym sy-
tuacji demograficznej departamentu poznańskiego, ze względu na wspomniany wyżej brak normalności
rozkładów części zmiennych, jako miarę związku między zmiennymi wybrano współczynnik korelacji
Spearmana (por. wzór [4.42]). Za jego pomocą zmierzono siłę związku pomiędzy każdą parą zmiennych
uwzględnionych w powyższym przykładzie, z wyjątkiem zmiennej (𝑋3 ), która została usunięta na etapie
wstępnej statystycznej selekcji zmiennych. Poniżej przedstawiono macierz korelacji Spearmana 𝑹𝑺 ,
którą zapisano jako macierz 𝑹𝑺 [7.4].
1,00 0,40 0,23 −0,18 −0,19 −0,16 −0,16 0,09 −0,08 0,01
0,40 1,00 0,53 0,43 −0,42 −0,45 −0,33 −0,80 0,77 0,66
0,23 0,53 1,00 0,32 −0,54 −0,55 −0,46 −0,47 0,48 −0,02
−0,18 0,43 0,32 1,00 −0,17 −0,19 −0,11 −0,48 0,54 0,25
−0,19 −0,42 −0,54 −0,17 1,00 0,98 0,95 0,45 −0,45 0,04
𝑹𝑺 = [7.4]
−0,16 −0,45 −0,55 −0,19 0,98 1,00 0,91 0,52 −0,52 −0,02
−0,16 −0,33 −0,46 −0,11 0,95 0,91 1,00 0,33 −0,33 0,10
0,09 −0,80 −0,47 −0,48 0,45 0,52 0,33 1,00 −0,99 −0,61
−0,08 0,77 0,48 0,54 −0,45 −0,52 −0,33 −0,99 1,00 0,51
[ 0,01 0,66 −0,02 0,25 0,04 −0,02 0,10 −0,61 0,51 0,00 ]
Tabela 7.4. Macierz odwrotna do macierzy korelacji Spearmana pomiędzy zmiennymi opisującymi sytuację demograficzną
w departamencie poznańskim w 1810 r.
𝑋1 𝑋2 𝑋4 𝑋5 𝑋6 𝑋7 𝑋8 𝑋9 𝑋10 𝑋11
Przyjęto, że wartość krytyczna, przy prezentowanej liczbie zmiennych, będzie wynosiła 𝑟𝑖𝑖−1 ≥ 20.
Analiza elementów diagonalnych macierzy odwrotnej do macierzy korelacji 𝑹−𝟏
𝑺 wskazuje, że najsilniej
−1
ze wszystkimi zmiennymi okazała się być skorelowana zmienna liczba katolików (𝑟9;9 = 443,4) oraz
−1
liczba protestantów (𝑟10;10 = 331,4). Należy przypomnieć, że zmienne te okazały się silnie skorelo-
wane nie tylko ze sobą, ale także z udziałem mieszczan w ludności ogółem (por. macierz 𝑹𝑺 [7.4]).
−1
W następnej kolejności uplasowały się zmienne związane ze śmiertelnością: zgony ogółem (𝑟6;6 =
−1 −1
72,0), zgodny mężczyzn (𝑟7;7 = 32,8) oraz zgony kobiet (𝑟8;8 = 18,5). Przeprowadzona wcześniej ana-
liza macierzy korelacji wykazała, że te trzy wymienione zmienne są ściśle ze sobą skorelowane.
Względy merytoryczne przemawiają jednak za tym, żeby raczej spośród nich do dalszej analizy pozo-
stawić zmienną zgodny ogółem.
Ostatecznie do zbioru zmiennych diagnostycznych zakwalifikowano zmienne: 𝑋1 , 𝑋2 , 𝑋4 , 𝑋5 , 𝑋6
oraz 𝑋11 . Zatem grupowanie powiatów departamentu poznańskiego ze względu na sytuację demogra-
ficzną w 1810 r. zostało przeprowadzone w oparciu o dane dotyczące: gęstości zaludnienia (𝑋1 ), udziału
w liczbie ludności ogółem ludności miejskiej (𝑋2 ), odsetka wdów (𝑋4 ) i wdowców (𝑋5 ), liczby zgonów
ogółem (𝑋6 ) i udziału w ludności zamieszkującej dany powiat ludności wyznania mojżeszowego (𝑋11 ).
Należy podkreślić, że po takiej korekcie listy zmiennych najwyższy współczynnik korelacji pomiędzy
𝑆
zmiennymi wyniósł 𝑟2;11 = 0,66 (por. macierz 𝑹𝑺 [7.4]).
4.1.1, zaprezentowano proces jej wyznaczania dla każdej pary obiektów i budowy adekwatnej macierzy
odległości.
Należy przypomnieć, że ostatecznie macierz kwadratów odległości euklidesowych, prezentowana
w tym przykładzie, została wyznaczona w oparciu o wartości zmiennych wskazane na etapie doboru
zmiennych diagnostycznych: 𝑋1 , 𝑋2 , 𝑋4 , 𝑋5 , 𝑋6 oraz 𝑋11 . Zatem z macierzy zmiennych unormowanych
𝑿′′ , przedstawionej jako macierz [7.3], usunięto kolumny odpowiadające zmiennym: 𝑋3 , 𝑋7 , 𝑋8 , 𝑋9 ,
𝑋10 . Tak zmodyfikowana macierz zmiennych unormowanych 𝑿′′ , stała się podstawą do wyznaczenia
macierzy kwadratów odległości euklidesowych 𝑫 [7.5]:
0,00 1,01 0,79 0,69 0,90 0,63 2,38 1,25 1,52 1,35 2,76 2,09 2,40 ⋯
1,01 0,00 1,83 0,32 0,91 1,66 1,98 0,63 1,06 1,58 2,03 1,15 1,64 ⋯
0,79 1,83 0,00 0,81 0,74 0,17 2,44 1,13 1,25 1,04 1,77 1,83 1,72 ⋯
0,69 0,32 0,81 0,00 0,36 0,68 1,33 0,23 0,62 0,65 1,11 0,70 0,97 ⋯
0,90 0,91 0,74 0,36 0,00 0,55 0,99 0,31 0,36 0,40 0,72 0,68 0,84 ⋯
0,63 1,66 0,17 0,68 0,55 0,00 2,17 0,76 0,91 0,55 1,38 1,32 1,23 ⋯
2,38 1,98 2,44 1,33 0,99 2,17 0,00 1,29 1,11 1,45 1,73 1,16 1,56 ⋯
𝑫= . [7.5]
1,25 0,63 1,13 0,23 0,31 0,76 1,29 0,00 0,21 0,42 0,56 0,17 0,30 ⋯
1,52 1,06 1,25 0,62 0,36 0,91 1,11 0,21 0,00 0,79 0,87 0,19 0,24 ⋯
1,35 1,58 1,04 0,65 0,40 0,55 1,45 0,42 0,79 0,00 0,42 0,72 0,78 ⋯
2,76 2,03 1,77 1,11 0,72 1,38 1,73 0,56 0,87 0,42 0,00 0,64 0,59 ⋯
2,09 1,15 1,83 0,70 0,68 1,32 1,16 0,17 0,19 0,72 0,64 0,00 0,09 ⋯
2,40 1,64 1,72 0,97 0,84 1,23 1,56 0,30 0,24 0,78 0,59 0,09 0,00 ⋯
[2,59 1,94 1,76 1,26 1,11 1,37 1,78 0,58 0,27 1,27 1,09 0,27 0,11 ⋯]
Dla przypomnienia, każda kolumna i każdy wiersz macierzy odległości 𝑫 [7.5] odpowiadają kolej-
nym powiatom uwzględnionym w badaniu. Pierwsza kolumna i pierwszy wiersz dotyczy zatem powiatu
wschowskiego, druga kolumna i drugi wiersz powiatowi krobskiemu itd. Porównując oznaczenia za-
warte w tabeli 7.1, można zatem powiedzieć, że powiat wschowski okazał się być najbliższy pod wzglę-
dem demograficznym w 1810 r. powiatowi obornickiemu (𝑑1;6 = 0,63), a najdalszy powiatowi powidz-
kiemu (𝑑1;11 = 2,76). Z kolei analizując wszystkie powiaty departamentu poznańskiego w 1810 r.,
można stwierdzić, że najbliższymi sobie powiatami okazały się powiat średzki i śremski (𝑑8;12 = 0,17).
Należy podkreślić, że stwierdzenia te są zbieżne z wnioskami, jakie można było wyciągnąć na podsta-
wie macierzy odległości zbudowanej w oparciu o jedenaście zmiennych.
Rysunek 7.1. Mapa departamentu poznańskiego Księstwa Warszawskiego z 1810 r. z uwzględnieniem podziału na powiaty
Podobnie jak w macierzy odległości, pierwszy wiersz i pierwsza kolumna macierzy sąsiedztwa 𝑪
[7.6] odnosiły się do powiatu wschowskiego (𝑝1 ) (por. tabelę 7.1). Powiat ten graniczył z trzema po-
wiatami: Krobia (𝑝2 ), Kościan (𝑝7 ) i Babimost (𝑝5 ). W związku z tym, w pierwszej kolumnie i w pierw-
szym wierszu elementy 𝑐1;2, 𝑐1;7 i 𝑐1;5 przyjęły wartości równe jedności, a pozostałe były równe zeru.
W ten sam sposób przeanalizowano sąsiedztwo w kolejnych powiatach.
0 1 0 0 1 0 1 0 0 0 0 0 0 0
1 0 0 1 0 0 1 1 0 0 0 0 0 0
0 0 0 0 1 1 0 0 0 0 0 0 1 0
0 1 0 0 0 0 0 1 0 1 0 1 0 0
1 0 1 0 0 0 1 0 0 0 0 0 1 0
0 0 1 0 0 0 0 0 1 0 0 0 1 1
1 1 0 0 1 0 0 1 0 0 0 0 1 0
𝑪= , [7.6]
0 1 0 1 0 0 1 0 1 0 0 1 1 0
0 0 0 0 0 1 0 1 0 1 1 1 1 1
0 0 0 1 0 0 0 0 1 0 1 1 0 0
0 0 0 0 0 0 0 0 1 1 0 0 0 0
0 0 0 1 0 0 0 1 1 1 0 0 0 0
0 0 1 0 1 1 1 1 1 0 0 0 0 1
[0 0 0 0 0 1 0 0 1 0 0 0 1 0]
′
Macierz sąsiedztwa terytorialnego 𝑪 [7.6] została przekształcona zgodnie ze wzorem 𝑐𝑖𝑗 = 1 − 𝑐𝑖𝑗 .
Następnie przemnożono poszczególne jej elementy z odpowiadającymi im elementami macierzy odle-
głości 𝑑𝑖𝑗 , przedstawionej jako 𝑫 [7.5]. Uzyskano w ten sposób skorygowaną o aspekt sąsiedztwa ma-
cierz odległości 𝑫’ [7.7]. Jej porównanie z macierzą odległości 𝑫 [7.5] prowadzi do wniosku, że wszyst-
kie odległości pomiędzy powiatami sąsiadującymi bezpośrednio ze sobą zostały zastąpione zerami –
czyli założono dla nich maksymalne podobieństwo.
174 7. Regionalizacja na przykładzie grupowania powiatów
0,00 0,00 0,79 0,69 0,00 0,63 0,00 1,25 1,52 1,35 2,76 2,09 2,40 ⋯
0,00 0,00 1,83 0,00 0,91 1,66 0,00 0,00 1,06 1,58 2,03 1,15 1,64 ⋯
0,79 1,83 0,00 0,81 0,00 0,00 2,44 1,13 1,25 1,04 1,77 1,83 0,00 ⋯
0,69 0,00 0,81 0,00 0,36 0,68 1,33 0,00 0,62 0,00 1,11 0,00 0,97 ⋯
0,00 0,91 0,00 0,36 0,00 0,55 0,00 0,31 0,36 0,40 0,72 0,68 0,00 ⋯
0,63 1,66 0,00 0,68 0,55 0,00 2,17 0,76 0,00 0,55 1,38 1,32 0,00 ⋯
0,00 0,00 2,44 1,33 0,00 2,17 0,00 0,00 1,11 1,45 1,73 1,16 0,00 ⋯
𝑫′ = [7.7]
1,25 0,00 1,13 0,00 0,31 0,76 0,00 0,00 0,00 0,42 0,56 0,00 0,00 ⋯
1,52 1,06 1,25 0,62 0,36 0,00 1,11 0,00 0,00 0,00 0,00 0,00 0,00 ⋯
1,35 1,58 1,04 0,00 0,40 0,55 1,45 0,42 0,00 0,00 0,00 0,00 0,78 ⋯
2,76 2,03 1,77 1,11 0,72 1,38 1,73 0,56 0,00 0,00 0,00 0,64 0,59 ⋯
2,09 1,15 1,83 0,00 0,68 1,32 1,16 0,00 0,00 0,00 0,64 0,00 0,09 ⋯
2,40 1,64 0,00 0,97 0,00 0,00 0,00 0,00 0,00 0,78 0,59 0,09 0,00 ⋯
[2,59 1,94 1,76 1,26 1,11 0,00 1,78 0,58 0,00 1,27 1,09 0,27 0,00 ⋯]
Analizując mapę przedstawioną na rysunku 7.1 oraz macierz odległości 𝑫’ [7.7], można zauważyć,
że uwzględnienie sąsiedztwa spowodowało jeszcze przed grupowaniem wyodrębnienie następujących
skupień powiatów:
{Pyzdry (𝑝10 ), Powidz (𝑝11 )},
{Krotoszyn (𝑝4 ), Śrem (𝑝8 ), Środa (𝑝12 )},
{Oborniki (𝑝6 ), Gniezno (𝑝9 ), Wągrowiec (𝑝14 )},
{Międzyrzecz (𝑝3 ), Babimost (𝑝5 ), Poznań (𝑝13 )}
{Wschowa (𝑝1 ), Krobia (𝑝2 ), Kościan (𝑝7 )}.
Należy zwrócić uwagę, że nałożenie warunku ciągłości terytorialnej spowodowało, że odległości mię-
dzy powiatami w ramach wskazanych skupień są równe zeru; co więcej, skupienia te powstały nieza-
leżnie od sytuacji demograficznej w badanych powiatach w 1810 r. Badacz staje zatem przed dylema-
tem, czy zrezygnować z części informacji na rzecz uzyskania spójnych terytorialnie skupień, czy też
zgodzić się na sytuację, że powiaty tworzące poszczególne skupienia nie zawsze będą ze sobą sąsiado-
wały. Warto zatem, w oparciu o ten problem, przeprowadzić grupowanie w dwóch wariantach.
Wariant pierwszy
W wariancie pierwszym podstawą regionalizacji przeprowadzonej metodą Warda była macierz odległo-
ści 𝑫’ [7.7]. Jej rezultaty przedstawiono w formie dendrogramu na rysunku 7.2. Dodatkowo na rysunku
7.3 przestawiono wykres przebiegu aglomeracji.
7.5. Grupowanie powiatów metodą Warda 175
Rysunek 7.2. Dendrogram grupowania metodą Warda (kwadratowa odległość euklidesowa) czternastu powiatów departa-
mentu poznańskiego w 1810 r. ze względu na sytuację demograficzną (z uwzględnieniem warunku spójności
terytorialnej)
5
Odległość wiązania
Oborniki
Krotoszyn
Krobia
Gniezno
Pyzdry
Kościan
Wągrowiec
Powidz
Śrem
Środa
Babimost
Poznań
Międzyrzecz
Wschowa
S1 S2 S3
Rysunek 7.3. Wykres przebiegu aglomeracji (na podstawie dendrogramu przedstawionego na rysunku 7.2).
4
Odległość wiązania
-1
0 2 4 6 8 10 12 14
Krok
Tabela 7.5. Obliczenia pomocnicze do wyznaczenia optymalnego punktu podziału dendrogramu w oparciu o regułę ilorazu
odległości (warunek spójności terytorialnej)
Uporządkowane malejąco
Ilorazy odległości aglomeracyjnych
odległości aglomeracyjne
𝑑1 5,0198 𝑤2 = 𝑑1 /𝑑2 2,0037
𝒅𝟐 2,5053 𝒘𝟑 = 𝒅𝟐 /𝒅𝟑 1,4948 𝒘𝟑 < 𝒘𝟒
𝑑3 1,6761 𝑤4 = 𝑑3 /𝑑4 1,5340
𝑑4 1,0926 𝑤5
𝑑5 0,0000 𝑤6
Źródło: obliczenia własne na podstawie wyników grupowania metodą Warda (kwadrat odległości euklidesowej), przedstawio-
nego na rys. 7.2.
Aby wskazać optymalną liczbę skupień, wykorzystano regułę ilorazu odległości aglomeracyjnych
(FLOREK i in. 1951), opisaną w rozdziale 6.1.2. Obliczenia pomocnicze zawarto w tabeli 7.5. Wynika
z nich, że dendrogram przedstawiony na rysunku 7.2 naturalnie rozpada się na trzy skupienia. Należy
go zatem przeciąć na wysokości 𝑑2 = 2,5053, co zaznaczono przerywaną prostą. Można zatem na tej
podstawie rozstrzygnąć, że w wyniku grupowania powiatów departamentu poznańskiego w 1810 r. uzy-
skano następujące grupy powiatów: 𝑠1 ={Pyzdry, Powidz, Środa, Śrem, Krotoszyn}, 𝑠2 ={Wągrowiec,
Gniezno, Oborniki, Poznań, Babimost, Międzyrzecz}, 𝑠3 ={Kościan, Krobia, Wschowa}. Uzyskane
w wariancie pierwszym wyniki grupowania przedstawiono także w formie mapy na rysunku 7.4.
Rysunek 7.4. Powiaty departamentu poznańskiego pogrupowane ze względu na sytuację demograficzną w 1810 r. przy
zachowaniu warunku spójności terytorialnej
Źródło: opracowanie własne w oparciu o wyniki grupowania metodą Wardą (kwadrat odległości euklidesowej).
7.5. Grupowanie powiatów metodą Warda 177
Wariant drugi
W drugim wariancie grupowania zastosowano metodę Warda, bez uwzględnienia warunku spójności
terytorialnej. Tym razem punktem wyjścia do jej przeprowadzenia była macierz odległości 𝑫 [7.5].
Przebieg procedury był podobny jak w wariancie pierwszym. Wyniki tego grupowania w przedsta-
wiono w postaci dendrogramu na rysunku 7.5. Do wyznaczenia optymalnego punkt przecięcia dendro-
gramu zastosowano tę samą regułę, jak w podejściu pierwszym. Adekwatne obliczenia pomocnicze
przedstawiono w tabeli 7.6.
Rysunek 7.5. Dendrogram grupowania metodą Warda (kwadratowa odległość euklidesowa) czternastu powiatów departa-
mentu poznańskiego w 1810 r. ze względu na sytuacje demograficzną (bez wymogu spójności terytorialnej)
4
Odległość wiązania
0
Oborniki
Krotoszyn
Krobia
Gniezno
Pyzdry
Kościan
Wągrowiec
Powidz
Śrem
Środa
Babimost
Poznań
Międzyrzecz
Wschowa
S3 S1 S2
Źródło: opracowanie własne z wykorzystaniem programu Statistica.
Tabela 7.6. Obliczenia pomocnicze do wyznaczenia optymalnego punktu podziału dendrogramu w oparciu o regułę ilorazu
odległości (bez warunku spójności terytorialnej)
Uporządkowane malejąco
Ilorazy odległości aglomeracyjnych
odległości aglomeracyjne
𝑑1 4,4833 𝑤2 = 𝑑1 /𝑑2 2,1785
𝒅𝟐 2,0580 𝒘𝟑 = 𝒅𝟐 /𝒅𝟑 1,0066 𝒘𝟑 < 𝒘𝟒
𝑑3 2,0444 𝑤4 = 𝑑3 /𝑑4 1,4378
𝑑4 1,4219 𝑤5 1,4114
𝑑5 1,0075 𝑤6 1,1334 𝑤6 < 𝑤7
𝑑6 0,8889 𝑤7 2,1127
Źródło: obliczenia własne na podstawie wyników grupowania Warda (kwadrat odległości euklidesowej) przeprowadzonego
dla przykładu 1.
178 7. Regionalizacja na przykładzie grupowania powiatów
Rysunek 7.5. Powiaty departamentu poznańskiego pogrupowane ze względu na sytuację demograficzną w 1810 r.
bez uwzględnienia warunku spójności terytorialnej
Źródło: opracowanie własne w oparciu o wyniki grupowania metodą Wardą (kwadrat odległości euklidesowej).
I tym razem dendrogram, przedstawiony na rysunku 7.5, rozpadł się w sposób naturalny na trzy
skupienia. Ich skład jest jednak inny: 𝑠1 ={Krobia, Krotoszyn}, 𝑠2 ={Oborniki, Międzyrzecz,
Wschowa}, 𝑠3 ={Wągrowiec, Poznań, Środa, Gniezno, Śrem, Babimost, Pyzdry, Powidz, Kościan}.
Wyniki grupowania przedstawione zostały również w formie mapy (rysunek 7.6). Analizując rezultaty
grupowania uzyskane w drugim podejściu, można zauważyć, że mimo braku włączenia do procedury
warunku spójności terytorialnej uzyskanych skupień, o takiej spójności można jednak mówić. Wyjątek
stanowi tu jedynie powiat ze stolicą w Wschowie.
Wyniki uzyskane w obu grupowaniach wykazały pewne zróżnicowanie. Doświadczony historyk – spe-
cjalizujący się w historii Polski tego okresu – potrafi, kierując się posiadaną wiedzą i doświadczeniem,
wskazać to podejście, które przyniosło bardziej adekwatne do ówczesnej sytuacji społecznej wyniki.
Innym rozwiązaniem jest wsparcie tej decyzji metodami ilościowym. Przegląd metod służących ocenie
wyników grupowania zaprezentowano w rozdziale 6.3.1. Jednym z wysoko ocenianych podejść w tym
obszarze jest wskaźnik C Calińskiego-Harabasza (por. wzór [6.18]). Szczegółowo przebieg obliczeń
służących jego wyznaczeniu można prześledzić w rozdziale 6.3.2 oraz w rozdziale 11.4.
W prezentowanym przykładzie wartość wskaźnika C Calińskiego-Harabasza wyznaczona dla
układu skupień na podstawie macierzy kwadratów odległości euklidesowych 𝑫, przedstawionych jako
macierz [7.5], wyniosła dla pierwszego wariantu 𝐶𝐼 = 2.014. Natomiast ten sam wskaźnik wyznaczony
7.6. Ocena grupowania i opis uzyskanych wyników 179
dla wyników grupowania uzyskanych w drugim podejściu wynosił 𝐶𝐼𝐼 = 5.020. W tej sytuacji opis wy-
ników grupowania został przeprowadzony w oparciu o wariant drugi, którego układ skupień charakte-
ryzował się większa jednorodnością wewnętrzną i niejednorodnością zewnętrzną.
Dla wyodrębnionych w wyniku zastosowania metody Warda, grup powiatów wyznaczono wartości
średnie i odchylenia standardowe sześciu zmiennych, które stanowiły podstawę grupowania. Zesta-
wiono je w postaci tabeli 7.7. Biorąc pod uwagę układ skupień uzyskany dzięki zastosowaniu metody
Warda, można zauważyć, że najbardziej wyraźne różnice pomiędzy skupieniami odnotowano w zakre-
sie gęstości zaludnienia i odsetka ludności miejskiej, liczby wdów oraz udziału ludności wyznania moj-
żeszowego. Znacznie mniejsze zróżnicowanie pomiędzy skupieniami wykazano w obszarze zmiennych
związanych z liczbą wdowców oraz liczbą zgonów ogółem.
Szczególnie interesująca jest obserwacja dotycząca gęstości zaludnienia. BOROWSKI (1964) wska-
zuje, że po 1807 r., odnotowano napływ siły roboczej do Wielkopolski, który był wynikiem ruchów
migracyjnych ludności bezrolnej z ziem sąsiadujących od zachodu i wschodu. Okres ten uznawany jest
za bezpośrednio poprzedzający rewolucję demograficzną (BOROWSKI 1970). W prezentowanym przy-
kładzie najwyższą gęstość zaludnienia odnotowano w powiatach południowych (skupienie 𝑠1), najniż-
szą w powiatach północnych (skupienie 𝑠2). Potwierdza to wnioski BOROWSKIEGO (1970), który stwier-
dził, że w okresie przed rewolucją demograficzną gęstość zaludnienia zmieniała się od południa ku pół-
nocy i wynosiła w 1816 r. na Śląsku 48 osób/km2, w Wielkopolsce – 29 a na Pomorzu – 22.
Na uwagę zasługuje również fakt, że odsetek wdowców w każdym skupieniu okazał się kilkakrotnie
niższy niż odsetek wdów. Sytuacja ta jest interpretowana w literaturze jako rezultat udziału w kampa-
niach wojennych czy przesłanek kulturowych (por. BUZEK 1915, s. 3-4; GIEYSZTOROWA 1976, s. 89;
KĘDELSKI 1996, s. 23-24). Najbardziej wiarygodna wydaje się jednak hipoteza BOROWSKIEGO (1970),
który argumentuje , że w latach 1806-1807 na terenie Wielkopolski występowała klęska głodowa połą-
czona z działaniami wojennymi, czego konsekwencją była nadwyżka zgonów nad urodzeniami (por.
wykres 1 w BOROWSKI 1967).
Tabela 7.7. Średnie wartości zmiennych wraz z odchyleniami standardowymi w wyodrębnionych grupach powiatów ze
względu na sytuację demograficzną w 1810 r. (bez wymogu spójności terytorialnej)
Wągrowiec, Poznań,
Skupienia powiatów Oborniki, Środa, Gniezno,
Krobia,
Międzyrzecz, Śrem, Babimost,
Krotoszyn
Wschowa Pyzdry, Powidz,
Zmienne Kościan
uwzględnione w badaniu
𝑠1 𝑠2 𝑠3
gęstość zaludnienia
𝑋1 2,514 [0,266] 1,592 [0,471] 1,631 [0,238]
[tys. osób/1milę2]
odsetek ludności miejskiej
𝑋2 30,700 [2,600] 29,200 [4,090] 17,256 [5,432]
[% ludności ogółem]
odsetek wdowców
𝑋4 2,400 [0,200] 2,133 [0,249] 2,178 [0,993]
[% ludności ogółem]
odsetek wdów
𝑋5 7,850 [0,150] 8,433 [0,205] 6,522 [1,045]
[% ludności ogółem]
zgony ogółem
𝑋6 32,750 [2,150] 30,233 [5,172] 33,800 [4,907]
[zgony/1000 mieszkańców]
liczba Żydów
𝑋11 4,100 [0,800] 7,567 [0,047] 4,000 [1,167]
[% ludności ogółem]
W nawiasach wstawiono wartości odchyleń standardowych.
Źródło: zestawienie własne na podstawie wyników grupowania metodą Warda (kwadrat odległości euklidesowej).
180 7. Regionalizacja na przykładzie grupowania powiatów
W przedwojennych planach niemieckich Kraj Warty miał być obszarem niemieckiej kolonizacji na
wschodzie (CYPRIAN, SAWICKI 1946, s. 48; MARCZEWSKI 1979, s. 83-84). Ze względu na potrzeby
gospodarki wojennej Niemcy planowali szybką integrację tych ziem pod względem ekonomicznym
z Rzeszą. Rolnictwo tego terenu było w zamierzeniach dostawcą żywności, zarówno w okresie wojen-
nym, jak i po planowanym zwycięstwie. Kraj Warty miał być „spichlerzem Rzeszy” (ŁUCZAK 1977,
1996, s. 101).
Naziści już przed wybuchem II wojny światowej dysponowali dość dokładnymi informacjami do-
tyczącymi rolnictwa na tym terenie. Przykładem może być „S-Planung Gebiet II. Die bäuerlieche Be-
siedlung Pommerellen und Posen”, opracowany pod auspicjami Richarda W. Darrégo (ministra wyży-
wienia i rolnictwa Trzeciej Rzeszy oraz przywódcy chłopów Rzeszy), który zawierał szczegółowy plan
skolonizowania Pomorza i Poznańskiego (por. MADAJCZYK 1961). Szczególna troska o rolnictwo wy-
nikała z niekorzystnej sytuacji aprowizacyjnej Rzeszy w ostatnich latach przed agresją na Polskę (ŁU-
CZAK 1982, s. 142). Niemcy dostrzegali jednak zasadnicze różnice pomiędzy wschodnią i zachodnią
częścią tego obszaru, czego główną przyczyną była m.in. odmienna kultura rolna oraz wydajność pro-
dukcji roślinnej i zwierzęcej, i tłumaczyli taki stan okresem zaborów (JANICKI 1996, s. 98-100).
Oczywiście dostępna jest bardziej szczegółowa statystyka gospodarcza byłej dzielnicy pruskiej
w omawianym okresie. Takie opracowanie w odniesieniu do rolnictwa można znaleźć w publikacji GU-
ENTHER-SWART (1941, s. 22-115). Część z danych ilościowych tam zawartych została przedstawiona
w postaci map. Do tego typu zmiennych odwołał się m.in. w swoich badaniach JANICKI (1966, s. 97-101)
i to podejście do prezentacji danych ilościowych zostanie wykorzystane w niniejszym opracowaniu.
JANICKI (1996) za punkt wyjścia do charakterystyki rolnictwa Kraju Warty w okresie II wojny świa-
towej przyjął liczne mapy poglądowe wyników produkcyjnych rolnictwa na poziomie powiatów przed
wybuchem II wojny światowe. W swoich badaniach uwzględnił łącznie dziesięć zmiennych, opisują-
cych cechy związane z osiąganą przeciętną wydajnością produkcji roślinnej i zwierzęcej oraz jakością
gleb. W pierwszym przypadku zostały one wyrażone jako średnie z okresu 1933-1937, natomiast obsada
zwierząt i jakość gleb dotyczyła sytuacji w roku 1937 r. Dodatkowo zaprezentowane przez niego mapy
przedstawiały podział administracyjny Polski w okresie międzywojennym, z uwzględnieniem woje-
wództw i powiatów. Szczegółowy wykaz wartości wspomnianych zmiennych zawierają tabele 2 oraz 3,
zawarte w aneksie A.
W opracowaniu JANICKIEGO (1996) każda ze wspomnianych zmiennych została przedstawiona jako
osobny problem na osobnej mapie. Powstaje zatem pytanie, czy analiza wszystkich zmiennych jedno-
cześnie prowadziłaby do takiego podziału, o którym wspominano w planach niemieckich jeszcze przed
przystąpieniem do wojny. Ciekawe jest także, czy ewentualny podział powiatów ze względu na ich
potencjał rolniczy byłby zbieżny z granicami zaborowymi. Odpowiedź na to ostatnie pytanie można
traktować jako jeden ze sposobów weryfikacji hipotezy stawianej przez Niemców o wpływie zaborów
na gospodarkę rolną Wielkopolski w okresie międzywojennym.
Konsekwencją pozyskania danych ze źródeł kartograficznych jest to, że zwykle zmienne wyrażone są
w skali porządkowej. Tak też było w przypadku danych dotyczących rolnictwa na ziemiach polskich
tworzących w czasie II wojny światowej Kraj Warty. Wybrane przedwojenne statystyki opisowe cha-
rakterystyczne dla tej skali pomiarowej w odniesieniu do rozważanego zagadnienia zawarto w ta-
8.2. Dane ilościowe wyrażone w skali porządkowej 185
beli 8.1. Dane te pozyskane zostały z niemieckojęzycznej publikacji GUENTHER-SWART (1941, s. 24-
-54); wykorzystał je także w swej publikacji JANICKI (1996, s. 119-141).
Biorąc pod uwagę strukturę upraw, największy udział na badanym obszarze miało żyto. Powierzch-
nia jego zasiewów w każdym powiecie stanowiła od jednej czwartej od jednej drugiej ogólnej po-
wierzchni uprawowej (mediana powierzchni uprawy żyta wyniosła: 25-35%). Na drugim miejscu pod
względem udziału w powierzchni upraw znalazły się ziemniaki (mediana powierzchni uprawy ziemnia-
ków – 14-16%), a na kolejnym owies (mediana powierzchni uprawy owsa: 6-8%). Z kolei wyniki ana-
lizy statystycznej dla chowu zwierząt wskazują, że przeciętnie na 100 ha użytków rolniczych na bada-
nym obszarze przed II wojną światową przypadało 40-50 świń, 40-45 sztuk bydła oraz 15-18 koni.
Wartość modalnej wskazuje natomiast, że w blisko połowie badanych powiatów produkcję rolniczą
prowadzono głównie na glebach słabych.
Tabela 8.1. Podstawowe statystyki opisowe dla zmiennych uwzględnionych w przykładzie dotyczącym produkcji rolniczej
na części ziem polskich w okresie międzywojennym
Liczność Kwartyl Kwartyl Maksi-
Zmienna Modalna Minimum Mediana
modalnej pierwszy trzeci mum
powierzchnia uprawy 𝑋1 25-35 20 15-25 25-35 25-35 35-40 >40
żyta [% UR]
powierzchnia uprawy 𝑋2 5-7 9 <2 3-5 5-7 7-10 >10
pszenicy [% UR]
powierzchnia uprawy 𝑋3 <4 17 <4 <4 4-7 4-7 >10
jęczmienia [% UR]
powierzchnia uprawy 𝑋4 6-8 15 <5 5-6 6-8 8-10 >10
owsa [% UR]
powierzchnia uprawy 𝑋5 14-16 17 9-12 12-14 14-16 14-16 >16
ziemniaka [% UR]
powierzchnia uprawy 𝑋6 <1 19 <1 <1 1-2 2-3 5-8
buraka cukrowego
[% UR]
obsada koni 𝑋7 15-18 26 9-12 12-15 15-18 15-18 18-20
[szt./100 ha UR]
obsada bydła 𝑋8 35-40 14 25-35 35-40 40-45 40-45 50-60
[szt./100 ha UR]
obsada trzody chlew- 𝑋9 40-50 14 <20 30-40 40-50 50-60 >70
nej [szt./100 ha UR]
obsada owiec 𝑋10 <5 oraz 15 <5 <5 5-8 8-10 15-20
[szt./100 ha UR] 5-8
jakość gleb 𝑋11 słabe 20 słabe słabe średnie dobre dobre
UR – użytki rolnicze.
Źródło: obliczenia własne na podstawie danych z tabeli 2 i 3, zawartych w aneksie A.
Na uwagę zasługuje fakt, że wartość modalnej nie zawsze pokrywała się z wartością mediany. Taka
sytuacja wystąpiła w przypadku zmiennych dotyczących jakości gleb (𝑋11 ), powierzchni uprawy jęcz-
mienia (𝑋3 ), powierzchni uprawy buraka cukrowego (𝑋6 ) i obsady bydła (𝑋8 ). Zatem już na podstawie
statystyk opisowych można domyślać się, że badany obszar nie był rolniczo jednolity.
186 8. Weryfikacja hipotez historycznych na przykładzie regionalizacji produkcji rolniczej
Tabela 8.2. Kodowanie rang zmiennych dotyczących produkcji rolniczej na części ziem polskich w okresie międzywojennym
Przypisane kody
Zmienne 1 2 3 4 5 6 7
oryginalne
żyto 𝑋1 15–25 25–35 35–40 >40
𝑋2
Powierzchnia uprawy
Na podstawie tabeli 8.2 łatwo zauważyć, że zmienne odznaczają się różną liczbą kategorii. Z tego
względu poddano je normalizacji zgodnie ze wzorem [3.12]. Znormalizowane wartości kategorii zmien-
nych uwzględnionych w badaniu przedstawiono w tabeli 8.3, natomiast fragment macierzy danych
znormalizowanych przedstawiono jako macierz 𝑿′ [8.1].
We fragmencie macierzy obserwacji znormalizowanych zawarto informacje dotyczące pierwszych
dziesięciu powiatów (𝑝1 − 𝑝10 ), które stanowią wiersze tej macierzy. Kolumny dotyczą pierwszych
ośmiu zmiennych (𝑋1 − 𝑋8 )1. I tak, powiat czarnkowski (𝑝1 ) wyróżnia się najwyższym udziałem zasie-
wów żyta (𝑧1;1 = 1,00) oraz ziemniaków (𝑧1;5 = 1,00) w uprawach polowych. Stosunkowo niewielki
procent powierzchni zasiewów stanowią natomiast buraki cukrowe (𝑧1;6 = 0,20) i pszenica
1
Nazwy powiatów i zmiennych łatwo odczytać z tabel 2 i 3 zawartej w aneksie A.
8.3. Normalizacja zmiennych wyrażonych w skali porządkowej 187
(𝑧1;2 = 0,33). W uprawie tej ostatniej dominującą pozycję, spośród powiatów uwzględnionych we frag-
mencie macierzy danych znormalizowanych, zajmował powiat szamotulski (𝑧5;2 = 0,83). W ten sam
sposób można scharakteryzować osobno każdy z czterdziestu jeden powiatów uwzględnionych w bada-
niu lub jedenaście zmiennych, te powiaty opisujące.
Tabela 8.3. Normalizacja zmiennych dotyczących produkcji rolniczej na części ziem polskich w okresie międzywojennym
Przypisane kody
Zmienne 1 2 3 4 5 6 7
unormowane
żyto 𝑋1 0,25 0,50 0,75 1,00
𝑋2
Powierzchnia uprawy
tak przygotowanych zmiennych wyznaczono, przy wykorzystaniu możliwości programu Statistica, ma-
cierz korelacji rang 𝜏 Kendalla 𝑹𝑲 [8.2]. Charakterystykę tej miary współzależności zmiennych można
znaleźć w rozdziale 4.3.2.
1,00 −0,50 −0,58 0,12 0,46 −0,61 0,14 0,19 −0,33 −0,31 ⋯
−0,50 1,00 0,46 −0,16 −0,45 0,60 0,11 −0,06 0,03 0,24 ⋯
−0,58 0,46 1,00 −0,35 −0,45 0,65 −0,26 −0,31 0,37 0,58 ⋯
0,12 −0,16 −0,35 1,00 0,30 −0,11 0,21 0,49 −0,04 −0,35 ⋯
0,46 −0,45 −0,45 0,30 1,00 −0,41 0,06 0,24 −0,06 −0,33 ⋯
𝑹𝑲 = −0,61 0,60 0,65 −0,11 −0,41 1,00 −0,13 −0,08 0,14 0,31 ⋯ [8.2]
0,14 0,11 −0,26 0,21 0,06 −0,13 1,00 0,62 −0,24 −0,17 ⋯
0,19 −0,06 −0,31 0,49 0,24 −0,08 0,62 1,00 −0,03 −0,31 ⋯
−0,33 0,03 0,37 −0,04 −0,06 0,14 −0,24 −0,03 1,00 0,24 ⋯
−0,31 0,24 0,58 −0,35 −0,33 0,31 −0,17 −0,31 0,24 1,00 ⋯
[−0,61 0,63 0,60 −0,18 −0,43 0,70 −0,04 −0,07 0,16 0,20 ⋯]
0,00 0,75 0,79 0,44 0,27 0,80 0,43 0,40 0,67 0,65 0,81
0,75 0,00 0,27 0,58 0,72 0,20 0,44 0,53 0,48 0,38 0,18
0,79 0,27 0,00 0,67 0,72 0,18 0,63 0,65 0,32 0,21 0,20
0,44 0,58 0,67 0,00 0,35 0,55 0,39 0,26 0,52 0,68 0,59
0,27 0,72 0,72 0,35 0,00 0,70 0,47 0,38 0,53 0,66 0,72
𝑫𝑿 = 0,80 0,20 0,18 0,55 0,70 0,00 0,56 0,54 0,43 0,34 0,15 , [8.3]
0,43 0,44 0,63 0,39 0,47 0,56 0,00 0,19 0,62 0,58 0,52
0,40 0,53 0,65 0,26 0,38 0,54 0,19 0,00 0,51 0,66 0,54
0,67 0,48 0,32 0,52 0,53 0,43 0,62 0,51 0,00 0,38 0,42
0,65 0,38 0,21 0,68 0,66 0,34 0,58 0,66 0,38 0,00 0,40
[0,80 0,18 0,20 0,59 0,72 0,15 0,52 0,54 0,42 0,40 0,00]
Wartości macierzy odległości 𝑫𝑿 [8.3] pozwoliły na wskazanie dla każdej zmiennej zmienną jej
najbliższą. Wyniki zapisano w formie wektora 𝒅𝐦𝐢𝐧, na podstawie którego możliwe było z kolei wy-
znaczenie grafów niezorientowanych (por. rysunek 8.1). Grafy te połączono, w wyniku czego powstały
trzy oddzielne grupy zmiennych: {𝑋1 , 𝑋5 }, {𝑋4 , 𝑋7 , 𝑋8 }, {𝑋2 , 𝑋3 , 𝑋6 , 𝑋9 , 𝑋10 , 𝑋11 }. Aby stworzyły
one jeden graf spójny, konieczne jest ponowne przeanalizowanie poszczególnych wartości macierzy
odległości 𝑫𝑿 [8.3]. I tak, wybierając połączenia dla zmiennych {𝑋1 , 𝑋5 }, wyszukano najmniejsze od-
ległości od zmiennych, które nie należały do tej grupy. Wynosiły one odpowiednio: 𝑑1;8 = 0,40; 𝑑5;4 =
0,35. Na tej podstawie przyłączono zmienną 𝑋5 ze zmienną 𝑋4 krawędzią długości 0,35. W ten sposób
dwie mniejsze grupy zmiennych połączone zostały w jedną: {𝑋1 , 𝑋5 , 𝑋4 , 𝑋7 , 𝑋8 }. Takie samo postępo-
wanie powtórzono dla nowo powstałej grupy zmiennych. W wyniku tego działania powstał graf spójny,
przedstawiony na rysunku 8.2.
8.4. Dobór zmiennych diagnostycznych z wykorzystaniem taksonomii wrocławskiej 189
Rysunek 8.1. Grafy niezorientowane zbudowane dla zmiennych opisujących produkcję rolniczą na części ziem polskich
w okresie międzywojennym
𝑋9
𝑋10
0,27 0,32
𝑋1 𝑋5 0,21
𝑋3
0,18
𝑋6
𝑋4 0,26 𝑋8 𝑋2
0,19 0,15
0,18
𝑋7
𝑋11
Pozostaje zatem do ustalenia, w których miejscach graf przedstawiony na rysunku 8.2 przeciąć, aby
otrzymać w jednorodne grupy zmiennych, i ile takich grup powinno być utworzonych. Spośród wielu
możliwości odpowiedzi na to pytanie w prezentowanym przykładzie zastosowano regułę stopu zapro-
ponowaną przez Hellwiga (por. wzór [5.8]). W pierwszym rzędzie uporządkowano malejąco wszystkie
wyznaczone w grafie długości krawędzi:
𝑑2;7 > 𝑑4;5 > 𝑑3;9 > 𝑑1;5 > 𝑑4;8 > 𝑑3;10 > 𝑑7;8 > 𝑑3;6 > 𝑑2;11 > 𝑑6;11
0,44 > 0,35 > 0,32 > 0,27 > 0,26 > 0,21 > 0,19 > 0,18 ≥ 0,18 > 0,15.
Następnie na ich podstawie obliczona została średnia arytmetyczna oraz odchylenie standardowe.
W tym celu wykorzystano wartości wektora 𝑑min , przedstawionego na rysunku 8.1. Dzięki temu, przy
założeniu 𝑘 = 1, wyznaczono wartość krytyczną 𝑑∗ :
Należy zatem usunąć wszystkie te krawędzie grafu, wyznaczonego w tym przykładzie, które okazały
się dłuższe od wartości krytycznej. Warunek ten spełniają krawędzie: 𝑑2;7 ; 𝑑4;5 ; 𝑑3;9 ; 𝑑1;5 . Działanie to
190 8. Weryfikacja hipotez historycznych na przykładzie regionalizacji produkcji rolniczej
zostało zaznaczone na dendrycie, zaprezentowanym na rysunku 8.2, za pomocą symbolu „\\”. Dopro-
wadziło to do ostatecznego podziału zmiennych na następujące grupy {𝑋1 }, {𝑋5 }, {𝑋4 , 𝑋7 , 𝑋8 }, {𝑋2 ,
𝑋3 , 𝑋6 , 𝑋10 , 𝑋11 } oraz {𝑋9 }.
Rysunek 8.2. Graf spójny dla zmiennych opisujących produkcję rolniczą na części ziem polskich w okresie międzywojennym
𝑋9
𝑋1
0,32
0,27
𝑋5 𝑋10 𝑋3
0,21
0,18
0,35
𝑋6
𝑋4
0,15
0,26
𝑋8
𝑋11
0,19 𝑋2 0,18
𝑋7 0,44
Drugi etap dualnej procedury taksonomicznej, do których zaliczana jest taksonomia wrocławska,
zakłada wybór zmiennych, które będą reprezentowały wyodrębnione wcześniej grupy. W tym celu
wykorzystano metodę środka ciężkości zaprezentowaną w rozdziale 5.2.1. Grupy jednoelementowe nie
wymagają dodatkowych działań. Dla grup {𝑋4 , 𝑋7 , 𝑋8 }, {𝑋2 , 𝑋3 , 𝑋6 , 𝑋10 , 𝑋11 } zastosowano wzór [5.3].
Podstawiając odpowiednie odległości z macierzy odległości 𝑫𝑿 [8.3], dla grupy {𝑋4 , 𝑋7 , 𝑋8 }, otrzy-
mano:
𝐷4 = 𝑑4;7 + 𝑑4;8 = 0,39 + 0,26 = 0,65,
𝐷7 = 𝑑7;4 + 𝑑7;8 = 0,39 + 0,19 = 0,58,
𝐷8 = 𝑑8;4 + 𝑑8;7 = 0,26 + 0,19 = 0,45 ⇒ min.
Zatem przedstawicielką grupy {𝑋4 , 𝑋7 , 𝑋8 } została zmienna 𝑋8 , natomiast grupę {𝑋2 , 𝑋3 , 𝑋6 , 𝑋9 , 𝑋10 ,
𝑋11 } reprezentuje zmienna 𝑋3 .
Podsumowując, w wyniku zastosowania taksonomii wrocławskiej w grupowaniu zmiennych opisu-
jących produkcję rolniczą na ziemiach polskich przed wybuchem II wojny światowej, tworzących
8.4. Dobór zmiennych diagnostycznych z wykorzystaniem taksonomii wrocławskiej 191
w czasie jej trwania Kraj Warty, został wyznaczony zbiór zmiennych diagnostycznych: {𝑋1 }, {𝑋3 },
{𝑋5 }, {𝑋8 } oraz {𝑋9 }. W dalszych badaniach potencjał rolnictwa tego obszaru, będzie charakteryzo-
wany przez powierzchnię uprawy odpowiednio: żyta, jęczmienia i ziemniaków oraz obsadę bydła
i trzody chlewnej. Należy pamiętać, że zmienna powierzchnia uprawy jęczmienia (𝑋3 ) reprezentuje
grupę zmiennych, którą oprócz niej tworzyły takie zmienne jak: powierzchnia uprawy pszenicy (𝑋2 ),
powierzchnia uprawy buraków cukrowych (𝑋6 ), jakość gleb (𝑋11 ) i pogłowie owiec (𝑋10 ). Natomiast
zmienna obsada bydła (𝑋8 ) została wyłoniona jako przedstawicielka grupy, w skład której wchodziły
również zmienne obsada koni (𝑋7 ) i powierzchnia uprawy owsa (𝑋4 ).
0,00 0,19 0,25 0,06 0,25 0,63 0,56 0,29 0,29 0,37 ⋯
0,19 0,00 0,17 0,11 0,17 0,50 0,66 0,31 0,31 0,17 ⋯
0,25 0,17 0,00 0,28 0,00 0,28 0,45 0,19 0,19 0,22 ⋯
0,06 0,11 0,28 0,00 0,28 0,61 0,55 0,44 0,44 0,28 ⋯
0,25 0,17 0,00 0,28 0,00 0,28 0,45 0,19 0,19 0,22 ⋯
𝑫 = 0,63 0,50 0,28 0,61 0,28 0,00 0,45 0,44 0,44 0,28 ⋯ [8.4]
0,56 0,66 0,45 0,55 0,45 0,45 0,00 0,68 0,68 0,66 ⋯
0,29 0,31 0,19 0,44 0,19 0,44 0,68 0,00 0,00 0,44 ⋯
0,29 0,31 0,19 0,44 0,19 0,44 0,68 0,00 0,00 0,44 ⋯
0,37 0,17 0,22 0,28 0,22 0,28 0,66 0,44 0,44 0,00 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]
Macierz odległości 𝑫 [8.4] stała się podstawą do grupowania badanego obszaru. Grupowanie prze-
prowadzono w dwóch wariantach. Zastosowano w nich, zgodnie z zaleceniami WALESIAKA i DUDKA
(2009) dotyczącymi skali porządkowej, odpowiednio metodę średnich połączeń (wariant pierwszy) oraz
średnich połączeń ważonych (wariant drugi).
Wariant pierwszy
Wyniki grupowania, uzyskane jako rezultat zastosowania metody średnich połączeń, przedstawiono
na rysunku 8.3. Wykres przebiegu aglomeracji przedstawiony na kolejnym rysunku (8.4) stał się pod-
stawą wyznaczenia optymalnego punktu przecięcia. Zastosowano zatem w tym zakresie, opisaną w roz-
dziale 6.1.2, regułę pierwszego znaczącego skoku odległości aglomeracyjnej.
Zgodnie z tym podejściem, w oparciu o wykres przebiegu aglomeracji (rysunek 8.4) przecięto den-
drogram (rysunek 8.3) na poziomie 0,3 odległości aglomeracyjnej, uzyskując w ten sposób podział
czterdziestu jeden grupowanych powiatów na sześć rozdzielnych skupień.
192 8. Weryfikacja hipotez historycznych na przykładzie regionalizacji produkcji rolniczej
Rysunek 8.3. Dendrogram grupowania metodą średnich połączeń (odległość na podstawie współczynnika korelacji
rang 𝜏 Kendalla) powiatów części ziem polskich w okresie międzywojennym
0,6
0,5
Odległość wiązania
0,4
0,3
0,2
0,1
0,0
Oborniki
Nowy Tomyśl
Krotoszyn
Kępno
Gniezno
Poznań
Koło
Szubin
Międzychód
Wolsztyn
Mogilno
Leszno
Łask
Włocławek
Szamotuły
Kutno
Gostyń
Brzeziny
Gostynin
Konin
Kościan
Jarocin
Żnin
Turek
Wieluń
Radomsko
Inowrocław
Czarnków
Piotrków
Ostrów
Śrem
Środa
Chodzież
Sieradz
Rawicz
Nieszawa
Wągrowiec
Łęczyca
Września
Łódź
Kalisz
S3 S4 S5 S2 S6 S1
Rysunek 8.4. Wykres przebiegu aglomeracji w grupowaniu metodą średnich połączeń (odległość na podstawie współczyn-
nika korelacji rang 𝜏 Kendalla) powiatów części ziem polskich w okresie międzywojennym
0,6
0,5
Odległość wiązania
0,4
0,3
0,2
0,1
0,0
0 4 8 12 16 20 24 28 32 36 40
Etapy wiązania
Wariant drugi
W drugim wariancie wykorzystano w grupowaniu powiatów tworzących w czasie II wojny światowej
Kraj Warty metodę średnich połączeń ważonych. Podobnie jak powyżej, do podziału dendrogramu
8.5. Wyznaczenie macierzy odległości i grupowanie powiatów 193
wykorzystano regułę pierwszego znaczącego skoku odległości aglomeracyjnej (por. rysunek 8.6). Zgod-
nie z tym podejściem tym razem dendrogram, przestawiony na rysunku 8.5, podzielono na poziomie
0,35 odległości aglomeracyjnej. W wyniku tego działania uzyskano także sześć rozdzielnych skupień.
Rysunek 8.5. Dendrogram grupowania metodą średnich połączeń ważonych (odległość na podstawie współczynnika korela-
cji rang 𝜏 Kendalla) powiatów części ziem polskich w okresie międzywojennym
0,7
0,6
0,5
Odległość wiązania
0,4
0,3
0,2
0,1
0,0
Oborniki
Nowy Tomyśl
Krotoszyn
Kępno
Gniezno
Koło
Szubin
Poznań
Międzychód
Wolsztyn
Łask
Leszno
Mogilno
Kutno
Brzeziny
Gostynin
Konin
Gostyń
Włocławek
Szamotuły
Turek
Kościan
Wieluń
Radomsko
Jarocin
Żnin
Inowrocław
Czarnków
Piotrków
Ostrów
Śrem
Środa
Chodzież
Sieradz
Rawicz
Nieszawa
Łęczyca
Wągrowiec
Łódź
Września
Kalisz
Rysunek 8.6. Wykres przebiegu aglomeracji w grupowaniu metodą średnich połączeń ważonych (odległość na podstawie
współczynnika korelacji rang 𝜏 Kendalla) powiatów części ziem polskich w okresie międzywojennym
0,7
0,6
0,5
Odległość wiązania
0,4
0,3
0,2
0,1
0,0
0 4 8 12 16 20 24 28 32 36 40
Etap wiązania
Analiza obu podejść, przedstawionych jako wariant pierwszy oraz wariant drugi, doprowadziła do zbli-
żonych, ale jednak nieco odmiennych wyników. O wyborze ostatecznego rozwiązania zadecydowano
na podstawie wartości całkowitego indeksu sylwetkowego, opisanego szczegółowo w rozdziale 6.3.3.
Jego wartość w przypadku podziału na sześć skupień uzyskanych metodą średnich połączeń wyniosła
𝐺𝑆𝐼𝐼 = 0,67, natomiast drugi podział, uzyskany metodą średnich połączeń ważonych, ocieniono na po-
ziomie 𝐺𝑆𝐼𝐼𝐼 = 0,55. Zatem, zgodnie z interpretacją zaproponowaną przez KAUFMANA i ROUSSEEUWA
(2005, s. 88), oba podziały można uznać za poprawne. Niemniej jednak bliższy ocenie wskazującej na
silną strukturę uzyskanych grup okazał się podział przedstawiony jako wariant drugi. Być może wyni-
kało to z faktu, że grupowanie przyniosło różnoliczne skupienia, a w podejściu opartym o metodę śred-
nich połączeń korekta macierzy odległości na poszczególnych etapach wiązania uwzględniała liczebno-
ści łączonych skupień (por. wzór [6.7]).
Rysunek 8.7. Powiaty części ziem polskich w okresie międzywojennym (od 1939 do 1945 r. tworzących tzw. Kraj Warty)
Źródło: opracowanie własne w oparciu o wyniki grupowania metodą średnich połączeń (odległość na podstawie współczyn-
nika korelacji rang 𝜏 Kendalla).
Uzyskane ostatecznie wyniki grupowania metodą średnich połączeń przedstawiono na mapie (rysu-
nek 8.7). Uwagę zwraca przede wszystkim większość powiatów południowo-wschodnich tworzących
jedno skupienie. Co więcej, porównując wyniki grupowania przedstawione w postaci dendrogramu (ry-
sunek 8.3) oraz mapy (rysunek 8.7), można zauważyć na kolejnym etapie wiązania nastąpiłoby łączenie
8.6. Ocena grupowania i opis uzyskanych wyników 195
tych skupień, w skład których wchodziły powiaty zlokalizowane na zachodzie i północy badanego ob-
szaru. Na tej podstawie można powiedzieć, że powiaty tworzące w okresie II wojny światowej tzw. Kraj
Warty, leżące na zachodnich jego krańcach, okazały się być bardziej zróżnicowane pod względem po-
tencjału rolniczego od powiatów, które mieściły się w południowo-wschodniej części badanego ob-
szaru.
Tabela 8.4. Mediany zmiennych oraz ich przedziały zmienności w wyodrębnionych grupach powiatów części ziem polskich
w okresie międzywojennym (od 1939 do 1945 r. tworzących tzw. Kraj Warty)
odbywało się w tych powiatach kosztem powierzchni uprawy ziemniaków. W powiatach tych odnoto-
wano także najmniejszą obsadę bydła.
Z kolei skupienie łączące powiat poznański i przyległe do niego powiaty: kościański, śremski,
średzki oraz o powiaty wrzesiński i wągrowiecki (𝑠4 ), odznaczały się stosunkowo niewielką obsadą
zwierząt i największym udziałem w strukturze uprawowej ziemniaków, co można wiązać z produkcją
ukierunkowaną na zaspokojenie potrzeb żywieniowych stolicy regionu. Co więcej, w Luboniu od po-
czątku XX w. funkcjonowały Zakłady Przemysłu Ziemniaczanego, skupujące surowiec z okolicznych
powiatów (DZIEJE ZAKŁADU… 1986, s. 19-20).
O przeciętnej strukturze upraw można za to mówić w przypadku powiatów chodzieskiego, szamo-
tulskiego, obornickiego, nowotomyskiego i szubińskiego, tworzących skupienie (𝑠5). W przypadku pro-
dukcji zwierzęcej odznaczały się one bardzo niskim pogłowiem bydła. Za to pogłowie trzody chlewnej
można uznać w powiatach tworzących to skupienie za ponadprzeciętne. Ostatnie skupienie (𝑠6), w skład
którego wchodził powiat leszczyński, gostyński, rawicki i krotoszyński, przodowało w produkcji zwie-
rzęcej. W stosunku do innych skupień odnotowano tu najniższy udział żyta w strukturze zasiewów.
Rozwój produkcji zwierzęcej na tym terenie był niewątpliwie związany występowaniem licznych mle-
czarni. Z kolei intensywna produkcja zwierzęca ze względu na produkcję nawozów naturalnych wpły-
nęła niewątpliwie na odmienną strukturę produkcji roślinnej tego podregionu.
Wyniki grupowania w obszarze pogłowia zwierząt można traktować jako częściowo zbieżne
z wnioskami prezentowanymi przez JANICKIEGO (1996, s. 99-100). Dysponując dużo szerszym wachla-
rzem informacji ilościowych, dotyczących struktury gospodarstw, kultury rolnej czy wydajności pro-
dukcji roślinnej i zwierzęcej, stwierdził on, że w produkcji roślinnej zdecydowanie wyższe wyniki uzy-
skiwano w zachodniej części obszaru tworzącego w czasie wojny Kraj Warty. Niemcy tłumaczyli taki
stan rzeczy okresem zaborów, w czasie którego niemiecki sposób gospodarowania zakorzenił się na tym
terenie. Podkreślone zostało również, że obsada zwierząt, z wyjątkiem świń, była wyższa w części
wschodniej, w związku z tym można mówić o znacznym zróżnicowaniu poziomu i rodzaju hodowli
w skali całego Kraju Warty. Bazując zatem jedynie na przedwojennych sprawozdaniach niemieckich,
dotyczących struktury upraw oraz pogłowia zwierząt, można nie tylko wiązać uzyskane wyniki z po-
działem tego obszaru zgodnie z granicami Rzeszy do 1919 r. Przeprowadzone badania potwierdziły
bowiem odrębność i jednolitość powiatów południowo-wschodnich w badanym obszarze. Zastosowa-
nie metod taksonomicznych pozwala jednak na dalsze wnioski. Różnorodność potencjału rolniczego
mniejszych skupień w części zachodniej późniejszego Kraju Warty można wiązać ze specjalizacją rol-
niczą każdego z nich. Skupienie łączące powiaty sąsiadujące z Poznaniem odznaczało się relatywnie
wysokim udziałem ziemniaków w strukturze zasiewów, czyli produkcją nakierowaną na cele konsump-
cyjne. Natomiast powiaty tworzące skupienia leżące w większej odległości stolicy regionu specjalizo-
wały się w produkcji zwierzęcej: w zależności od ich położenia przeważała w nich produkcja trzody
chlewnej lub bydła. Natomiast o odrębności trzech powiatów: wolsztyńskiego, międzyrzeckiego
i czarnkowskiego, przesądził zapewne relatywnie wysoki stopień zalesienia na tych terenach.
Jedną z decyzji, jaką podejmuje badacz, jest dobór metody taksonomicznej. W powyższym roz-
dziale grupowanie badanych powiatów przeprowadzono w oparciu o dwie metody. Każde z zaprezen-
towanych podejść doprowadziło do nieco odmiennych rezultatów. Opierając się na ocenie jakościowej
uzyskanych wyników, wykazano, że w przypadku powiatów części ziem polskich w okresie między-
wojennym lepiej stosować metodę średnich połączeń, uwzględniającą na etapie korekty macierzy odle-
głości liczebności łączonych skupień. Zaprezentowane podejście doboru metody grupowania można
oczywiście rozszerzyć i przeprowadzić w oparciu o większą liczbę algorytmów.
9
Periodyzacja w badaniach historycznych na przykładzie
struktury gałęziowej produkcji czystej
w przemyśle uspołecznionym w latach 1958-1989
Rozwój gospodarki polskiej w okresie powojennym do 1989 r. podlegał wielu różnym cezurom po-
działu, tworzonym zarówno w trakcie tego okresu, jak i po jego zakończeniu. Pierwsze lata zgodnie
wiązano z procesem odbudowy. RUSIŃSKI (1982, s. 336) wskazuje, że za formalne ramy wzrostu go-
spodarczego we wspomnianym okresie można uznać kolejne plany wieloletnie: plan sześcioletni
1950-1955 oraz następujące po nim cztery plany pięcioletnie, zamykające okres do 1975 r. Śledzenie
wielkości zaplanowanych oraz sposobu i stopnia ich realizacji może być punktem wyjścia syntetycz-
nej oceny postępów gospodarczych w tamtym okresie.
200 9. Periodyzacja w badaniach historycznych na przykładzie struktury gałęziowej produkcji czystej
Podejście zaproponowane przez Rusińskiego nie jest to jednak jedynym sposobem na periodyzację
gospodarki polskiej okresu powojennego. W literaturze tematu brane są pod uwagę inne kryteria po-
działu, takie jak wzrost i struktura dochodu narodowego, wielkość i struktura inwestycji, wielkość
i struktura produkcji, wielkość i struktura zatrudnienia, kształtowanie się dochodów ludności, zmiany
w układzie własnościowym (sektorowym) gospodarki i w trybie zarządzania. Uwzględnia się także
kryteria społeczno-polityczne, tj. ogólniejsze zmiany w strategii rozwoju wynikające z potrzeb krajo-
wych i zarazem uwzględniające sytuację Polski w świecie oraz jej ścisłe więzi z innymi krajami socja-
listycznymi (zob. np.: LANDAU 1994, s. 18-26).
Z kolei KARPIŃSKI (1965; 1980, s. 84-104) proponuje następujący podział okresu powojennego
w obszarze rozwoju gospodarczego. Lata 1945-1948 to według niego faza odbudowy powojennej.
Następny okres, pomiędzy 1950 a 1970 r., nazywa pierwszą fazą industrializacji. Wyróżnia w niej
dwa cykle – 1950-1958 oraz 1959-1970 – w których powtarzał się ten sam schemat: najpierw nastę-
powało przyspieszenie gospodarcze, a później wyrównywanie frontu. W czasie pierwszej fazy indu-
strializacji następowało tworzenie rozwiniętej struktury gospodarczej. Po 1971 r. według Karpińskie-
go nastąpiła druga faza uprzemysłowienia. Znowu w jej ramach uwzględniono etap rozwoju 1970-
-1976, nazywany przyspieszeniem lat siedemdziesiątych, oraz lata 1977-1985, związane z manewrem
gospodarczym.
Trudności w ustaleniu wspólnej cezury dla periodyzacji gospodarki polskiej okresu powojennego
wynikają z całą pewnością z faktu, że niemożliwe jest oddzielenie zagadnień gospodarczych od za-
gadnień społecznych czy politycznych. Co więcej, ograniczenie zmian gospodarczych jedynie do
zmian w strukturze przemysłu byłoby także nieprawidłowe. Trudno jednoznacznie ocenić, na ile sytu-
acja gospodarcza wywoływała zmiany społeczne i przewroty polityczne w tym okresie i czy zmienia-
jące się społeczeństwo wymuszało realne zmiany w prowadzonej polityce gospodarczej,
a w szczególności zmiany w strukturze przemysłu. Niemniej jednak w okresie powojennym pierw-
szym efektem wprowadzanych zmian w polityce gospodarczej były właśnie zmiany struktury przemy-
słu. Z tego powodu wydaje się, że periodyzacja okresu 1956-1989 w gospodarce polskiej, przeprowa-
dzona w oparciu o zmiany strukturalne przemysłu, a w szczególności w obszarze wartości produkcji
czystej tego sektora, może być dobrą osią do szerszych rozważań na temat gospodarki PRL. Podejście
to uzasadniają dwie kwestie. Pierwsza to znaczenie przemysłu w gospodarce socjalistycznej, druga to
realność zmian strukturalnych, jakie zachodziły w tym okresie w przemyśle, i ich bezpośredni, wydaje
się że bezsprzeczny, wpływ na zmiany społeczno-polityczne tego okresu.
miczny występuje tylko na szczeblu gospodarki narodowej. Dlatego od połowy lat 50. XX w. na
szczeblu centralnym dla danej gałęzi lub grupy przedsiębiorstw przemysłowych stosuje się dwa
wskaźniki: wartość produkcji towarowej i wartość produkcji czystej. Produkcja czysta to produkcja
globalna pomniejszona o koszty materiałowe. Na produkcję czystą składają się koszty niematerialne,
w tym wynagrodzenia, oraz akumulacja. Akumulacja obejmuje wartość nakładów inwestycyjnych na
środki trwałe oraz wartość przyrostu materialnych środków obrotowych. Co więcej, powojenne rocz-
niki statystyczne zawierały dane w tym zakresie dotyczące przemysłu uspołecznionego w skład które-
go zaliczano państwowe, spółdzielcze i należące do organizacji społecznych przedsiębiorstwa prze-
mysłowe, gospodarstwa pomocnicze jednostek budżetowych oraz do 1985 r. zakłady przemysłowe
spółdzielczych przedsiębiorstw handlowych (ROCZNIK STATYSTYCZNY 1989…, s. 221-222).
W przykładzie dotyczącym periodyzacji struktury produkcji przemysłowej jako miarę zmian
w strukturze przemysłu wybrano zatem wartość produkcji czystej. Zestawienie danych statystycznych
dla poszczególnych lat zawierają tabele 4 i 5, zamieszczone w Aneksie A. Podobny zestaw danych
został uwzględniony w pracy CHOMĄTOWSKIEGO i SOKOŁOWSKIEGO (1978). W prezentowanym
przykładzie zbiorowość tworzą specyficzne obiekty, jakimi są jednostki czasu. Analizie poddano
okres 1958-1989, czyli 32 kolejne lata, więc zdefiniowana zbiorowość liczyła 𝑛 = 32 jednostek ba-
dawczych. Cechą badaną była struktura przemysłu uspołecznionego. Oczywiście nie sposób sformu-
łowanej w ten sposób cechy wyrazić za pomocą jednej zmiennej. W badaniu uwzględniono ostatecz-
nie 𝑚 = 20 zmiennych, przy czym każda z nich stanowiła wartość produkcji czystej wytworzonej
przez poszczególne gałęzie przemysłu w gospodarce uspołecznionej w badanym okresie. I tak: (𝑋1 )
dotyczyła przemysłu energetycznego, (𝑋2 ) przemysłu paliwowego i węglowego, (𝑋3 ) hutnictwa żelaza,
(𝑋4 ) przemysłu metali nieżelaznych, (𝑋5 ) przemysłu metalowego, (𝑋6 ) przemysłu elektrotechnicznego,
(𝑋7 ) przemysłu wytwarzającego środki transportu, (𝑋8 ) przemysłu maszynowego, (𝑋9 ) przemysłu che-
micznego, (𝑋10 ) przemysłu materiałów budowlanych, (𝑋11 ) przemysłu szklarskiego, (𝑋12 ) przemysłu
ceramiki szlachetnej, (𝑋13 ) przemysłu drzewnego, (𝑋14 ) przemysłu papierniczego, (𝑋15 ) przemysłu
poligraficznego, (𝑋16 ) przemysłu włókienniczego, (𝑋17 ) przemysłu odzieżowego, (𝑋18 ) przemysłu skó-
rzanego, (𝑋19 ) przemysłu spożywczego, (𝑋20 ) innych gałęzi przemysłu.
Przy takich założeniach wiersze w macierzy obserwacji dla tego przykładu dotyczyły poszczegól-
nych lat objętych badaniem, natomiast kolumny prezentowały wartości produkcji czystej wyrażonej
w milionach złotych. Macierz obserwacji osiągnęła zatem wymiar 32 × 20. Jej fragment przestawiono
poniżej.
1,93 5,98 5,54 1,31 6,59 4,47 8,82 8,30 7,32 ⋯
3,44 13,43 4,77 0,97 7,59 5,38 9,89 9,34 6,90 ⋯
3,64 18,86 7,22 1,96 8,59 6,52 11,49 10,42 8,37 ⋯
3,93 20,82 9,91 2,86 9,71 7,85 12,81 11,92 11,02 ⋯
5,23 20,93 9,52 3,05 11,22 9,72 15,00 12,98 13,76 ⋯
𝑿 = 7,21 22,06 9,68 2,98 12,50 10,30 15,20 13,83 14,71 ⋯ [9.1]
7,95 24,73 11,02 3,22 13,95 11,52 16,89 15,87 17,02 ⋯
9,00 27,02 12,25 3,54 15,41 13,12 19,63 17,02 18,15 ⋯
9,48 28,47 12,70 3,68 16,03 14,37 20,31 18,28 20,53 ⋯
10,58 29,15 13,10 4,32 15,75 13,34 20,59 19,49 23,19 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]
mysł energetyczny wytworzył produkcję czystą o wartości 1,93 mln zł. Z kolei wartość 𝑥1961;2 =
20,82 dotyczy wartości produkcji czystej wytworzonej w ramach działalności przemysłu paliwowego
i węglowego w 1961 r.
Jak wspomniano w rozdziale 3.3.5, zdefiniowanie skali, w której zostały wyrażone zmienne, nie
zawsze jest jednoznaczne. W proponowanym przykładzie dane dotyczące produkcji czystej mają być
podstawą do porównań dynamicznych struktury przemysłu. Gdyby wielkość produkcji była wyrażona
w jednostkach fizycznych, sytuacja byłaby oczywista – zmienną jednoznacznie można byłoby przypi-
sać do skali ilorazowej.
O ile jednak w jednostkach fizycznych niemożliwe jest wyprodukowanie ujemnej ilości towarów
(ujemne wartości są nieuzasadnione w skali ilorazowej), to w kategoriach ekonomicznych jest to moż-
liwe, choć na poziomie gospodarki narodowej nieuzasadnione. W prezentowanym przykładzie pro-
dukcja czysta w pięciu przypadkach przyjmowała wartości ujemne. Przypomnijmy, że produkcja czy-
sta to produkcja globalna pomniejszona o koszty materiałowe. Jeżeli zatem koszty w danej branży
okazały się zbyt wysokie, to branża odnotowywała stratę, a produkcja czysta przyjmowała wartości
ujemne. Według źródeł GUS (ROCZNIK STATYSTYCZNY 1989, s. 221-222) straty pojawiły się ze
względu na stosowany w tamtym okresie system cen i dotacji w zakresie pasz treściwych. Z tego po-
wodu, w niektórych latach produkcja czysta przemysłu paszowego i utylizacyjnego, wliczonego do
kategorii pozostałe gałęzie przemysłu, przyjmowała wartości ujemne, tzn. że koszty przekraczały war-
tość produkcji sprzedanej. Ta sama sytuacja dotyczyła także przemysłu spożywczego w 1981 r. Ogól-
nie tego typu przypadki stanowiły niecały 1% wszystkich obserwacji zarówno pod względem ilościo-
wym, jak i wartościowym.
W tej sytuacji badacz może pominąć zmienne, w których wystąpiły przypadki ujemnych wartości,
a pozostałe zmienne potraktować jako wyrażone w skali ilorazowej. Innym rozwiązaniem jest skumu-
lowanie kilku kategorii przemysłu i w ten sposób „ukrycie” niewygodnych rekordów. Można także
przyjąć, że jeżeli produkcja czysta danej branży przyjmowała w określonym roku wartości ujemne, to
udział takiej branży w krajowej produkcji przemysłowej jest równy zero. W dalszych rozważaniach,
ze względu na fakt, że celem badań jest porównywanie struktury produkcji, a nie jej wielkości, zosta-
ło zastosowane właśnie to ostatnie podejście.
Już pobieżna analiza tabel 4 i 5 zestawionych w Aneksie A wskazuje, że wartości produkcji osiągnięte
w poszczególnych branżach rosły nie tylko ze względu na wzrost skali produkcji, ale i ze względu na
inflację. Z tego powodu przed przystąpieniem do periodyzacji badanego okresu konieczne jest prze-
prowadzenie normalizacji zmiennych.
Wybór odpowiedniej procedury normalizacyjnej podyktowany jest w tym przykładzie przede
wszystkim celem podjętego badania. Głównym zamierzeniem jest porównanie poszczególnych okre-
sów ze względu na zmiany w strukturze udziałowej poszczególnych branż przemysłowych w krajowej
produkcji czystej. Wydaje się, że w tym przypadku najodpowiedniejszą jej formą będą przekształcenia
ilorazowe (por. wzór [3.11]), których podstawą była suma wartości produkcji czystej wytworzonej
w całym kraju (𝑥0𝑘 = ∑𝑚 𝑖=1 𝑥𝑖𝑘 ) w danym roku. Zatem wartość produkcji każdej z uwzględnionej
w badaniu branży produkcji przemysłowej podzielono przez wartość produkcji ogółem wytworzonej
w danym roku. Dzięki temu podejściu zmienne po przekształceniu będą miały swoją interpretację,
9.3. Normalizacja zmiennych w zagadnieniach dynamicznych 203
a mianowicie każda obserwacja będzie stanowiła procentowy udział danej branży w produkcji krajo-
wej (por. NOWAK 1981b). Takie samo założenie przyjęli GAZIŃSKA i GAZIŃSKI (2010) w swoich ba-
daniach dotyczących struktury rzemiosła w XVIII-wiecznych miastach Pomorza Pruskiego. Fragment
znormalizowanej w ten sposób macierzy danych przestawiony został poniżej:
0,013 0,041 0,038 0,009 0,046 0,031 ⋯
0,022 0,085 0,030 0,006 0,048 0,034 ⋯
0,021 0,111 0,042 0,012 0,050 0,038 ⋯
0,016 0,110 0,052 0,015 0,051 0,042 ⋯
0,019 0,102 0,046 0,015 0,055 0,047 ⋯
𝑿′ = 0,024 0,102 0,045 0,014 0,058 0,048 ⋯. [9.2]
0,030 0,103 0,046 0,013 0,058 0,048 ⋯
0,030 0,103 0,047 0,013 0,059 0,050 ⋯
0,032 0,102 0,045 0,013 0,057 0,051 ⋯
0,033 0,102 0,046 0,015 0,055 0,047 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]
1,00 0,07 0,37 0,04 −0,01 −0,20 −0,33 0,10 0,24 0,27 ⋯
0,07 1,00 −0,01 −0,29 0,28 0,40 0,32 0,36 −0,32 −0,38 ⋯
0,37 −0,01 1,00 −0,30 −0,22 −0,38 −0,52 −0,08 0,37 −0,62 ⋯
0,04 −0,29 −0,30 1,00 0,42 0,27 0,26 0,22 −0,41 0,58 ⋯
−0,01 0,28 −0,22 0,42 1,00 0,76 0,85 0,58 −0,62 0,27 ⋯
𝑹𝑷 = −0,20 0,40 −0,38 0,27 0,76 1,00 0,84 0,77 −0,77 0,11 ⋯ [9.3]
−0,33 0,32 −0,52 0,26 0,85 0,84 1,00 0,60 −0,72 0,28 ⋯
0,10 0,36 −0,08 0,22 0,58 0,77 0,60 1,00 −0,81 −0,26 ⋯
0,24 −0,32 0,37 −0,41 −0,62 −0,77 −0,72 −0,81 1,00 −0,07 ⋯
−0,27 −0,38 −0,62 0,58 0,27 0,11 0,28 −0,26 −0,07 1,00 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]
Tabela 9.2. Macierz odległości dla zmiennych opisujących strukturę produkcji czystej w gospodarce uspołecznionej w PRL w latach 1958-1989 oraz obliczenia pomocnicze
niezbędne w metodzie hiperkul (pętla pierwsza)
𝑋1 𝑋2 𝑋3 𝑋4 𝑋6 𝑋7 𝑋8 𝑋9 𝑋10 𝑋11 𝑋12 𝑋14 𝑋15 𝑋16 𝑋17 𝑋18 𝑋19 𝑋20
𝑋1 0,00 1,36 1,12 1,38 1,42 1,55 1,63 1,34 1,23 1,59 1,65 1,30 1,50 1,55 1,34 1,58 1,30 1,54
𝑋2 1,36 0,00 1,42 1,60 1,20 1,09 1,16 1,13 1,62 1,66 1,38 1,83 1,59 1,75 1,38 1,88 1,68 1,71
𝑋3 1,12 1,42 0,00 1,61 1,56 1,66 1,74 1,47 1,13 1,80 1,66 1,07 1,46 1,42 1,45 1,47 1,19 1,52
𝑋4 1,38 1,60 1,61 0,00 1,08 1,21 1,22 1,25 1,68 0,92 1,31 1,41 1,27 1,38 1,41 1,41 1,64 1,20
𝑋6 1,42 1,20 1,56 1,08 0,00 0,70 0,55 0,92 1,80 1,21 0,86 1,80 1,29 1,83 0,91 1,72 1,93 1,49
𝑋7 1,55 1,09 1,66 1,21 0,70 0,00 0,56 0,68 1,88 1,34 1,17 1,91 1,58 1,67 1,17 1,81 1,94 1,71
Macierz odległości 𝑫
𝑋8 1,63 1,16 1,74 1,22 0,55 0,56 0,00 0,89 1,85 1,20 0,88 1,87 1,37 1,71 1,02 1,71 1,95 1,58
𝑋9 1,34 1,13 1,47 1,25 0,92 0,68 0,89 0,00 1,90 1,59 1,50 1,78 1,67 1,50 1,10 1,85 1,90 1,85
𝑋10 1,23 1,62 1,13 1,68 1,80 1,88 1,85 1,90 0,00 1,46 1,51 0,83 1,20 1,35 1,59 0,95 0,63 1,01
𝑋11 1,59 1,66 1,80 0,92 1,21 1,34 1,20 1,59 1,46 0,00 0,88 1,42 1,18 1,46 1,41 1,08 1,48 0,80
𝑋12 1,65 1,38 1,66 1,31 0,86 1,17 0,88 1,50 1,51 0,88 0,00 1,66 1,07 1,79 1,09 1,36 1,66 1,06
𝑋14 1,30 1,83 1,07 1,41 1,80 1,91 1,87 1,78 0,83 1,42 1,66 0,00 1,17 0,95 1,61 0,76 0,78 1,03
𝑋15 1,50 1,59 1,46 1,27 1,29 1,58 1,37 1,67 1,20 1,18 1,07 1,17 0,00 1,45 1,25 1,03 1,41 1,00
𝑋16 1,55 1,75 1,42 1,38 1,83 1,67 1,71 1,50 1,35 1,46 1,79 0,95 1,45 0,00 1,65 0,99 1,12 1,43
𝑋17 1,34 1,38 1,45 1,41 0,91 1,17 1,02 1,10 1,59 1,41 1,09 1,61 1,25 1,65 0,00 1,49 1,76 1,43
𝑋18 1,58 1,88 1,47 1,41 1,72 1,81 1,71 1,85 0,95 1,08 1,36 0,76 1,03 0,99 1,49 0,00 0,90 0,77
𝑋19 1,30 1,68 1,19 1,64 1,93 1,94 1,95 1,90 0,63 1,48 1,66 0,78 1,41 1,12 1,76 0,90 0,00 1,11
𝑋20 1,54 1,71 1,52 1,20 1,49 1,71 1,58 1,85 1,01 0,80 1,06 1,03 1,00 1,43 1,43 0,77 1,11 0,00
𝑑min 1,12 1,09 1,07 0,92 0,55 0,56 0,55 0,68 0,63 0,80 0,86 0,76 1,00 0,95 0,91 0,76 0,63 0,77
Środek kul 𝑋1 𝑋2 𝑋3 𝑋4 𝑋6 𝑋7 𝑋8 𝑋9 𝑋10 𝑋11 𝑋12 𝑋14 𝑋15 𝑋16 𝑋17 𝑋18 𝑋19 𝑋20
Liczba
zmiennych 1 1 2 2 6 4 5 4 4 4 6 6 3 3 4 7 5 7
satelitarnych
Źródło: obliczenia własne.
206 9. Periodyzacja w badaniach historycznych na przykładzie struktury gałęziowej produkcji czystej
W następnym etapie dla każdej zmiennej wykreślono hiperkulę o promieniu równym 𝑑∗ = 1,12.
Liczbę zmiennych satelitarnych, które zmieściły się w obrębie każdej z hiperkuli, zapisano w ostatnim
wierszu tabeli 9.2. Okazało się, że najwięcej takich zmiennych posiadały hiperkule o środku 𝑋18 oraz
𝑋20 . Ich skład zapisano poniżej, przy czym zmienną centralną zapisano na pierwszym miejscu:
{𝑿𝟏𝟖 , 𝑋10 , 𝑋11 , 𝑋14 , 𝑋15 , 𝑋16 , 𝑋19 , 𝑋20 },
{𝑿𝟐𝟎 , 𝑋10 , 𝑋11 , 𝑋12 , 𝑋14 , 𝑋15 , 𝑋18 , 𝑋19}.
Aby wybrać pierwszą grupę zmiennych, należy wskazać, która ze zmiennych stanowiących środek
hiperkuli znajduje się bliżej początku układu współrzędnych. Jednym ze sposobów odpowiedzi na to
pytanie jest wyznaczenie średniej wartości danej zmiennej. W prezentowanym przykładzie podstawą
obliczeń będą dane, na podstawie których wyznaczono macierz korelacji, przedstawione jako macierz
zmiennych znormalizowanych 𝑿′ [9.2]. Należy przypomnieć, ze stosowne obliczenia, przeprowadzo-
ne dla tego przykładu zawarte są także w tabeli 9.1.
Z porównania wartości średnich arytmetycznych:
𝑋̅18 = 0,027
𝑋̅20 = 0,012
wynika, że jako pierwszą grupę zmiennych należy wyodrębnić hiperkulę, której środek stanowi
zmienna centralna 𝑋20 .
W wyniku tej decyzji zmienna pozostałe gałęzie przemysłu (𝑋20 ) będzie reprezentowała
w dalszych obliczeniach grupę zmiennych dotyczących udziału w produkcji czystej przemysłu uspo-
łecznionego, przemysłu materiałów budowlanych (𝑋10 ), szklarskiego (𝑋11 ), ceramiki szlachetnej
(𝑋12 ), papierniczego (𝑋14 ) i poligraficznego (𝑋15 ) oraz skórzanego (𝑋18 ) i spożywczego (𝑋19 ). Wydaje
się, że grupę tę można wiązać z kategorią gałęzi przemysłowych skierowanych na wytwarzanie
przedmiotów spożycia (por. KALIŃSKI 2012, s. 51). Pętlę pierwszą kończy modyfikacja macierzy
odległości. Zostały z niej usunięte wiersze i kolumny odpowiadające zmiennym:
𝑋10 , 𝑋11 , 𝑋12 , 𝑋14 , 𝑋15 , 𝑋18 , 𝑋19 , 𝑋20 .
Zmodyfikowaną macierz odległości 𝑫′𝑿 wraz z obliczeniami pomocniczymi dla drugiej pętli zawarto
w tabeli 9.3. Najwięcej zmiennych satelitarnych znalazło się tym razem w hiperkuli o środku 𝑋6 :
{𝑿𝟔 , 𝑋4 , 𝑋7 , 𝑋8 , 𝑋9 , 𝑋17 }.
Zatem zmienna oznaczająca udział przemysłu elektrotechnicznego (𝑋6 ) w produkcji czystej prze-
mysłu uspołecznionego, jako druga zmienna centralna, będzie w dalszych obliczeniach reprezentować
grupę zmiennych, którą oprócz niej tworzyły zmienne przemysł metali nieżelaznych (𝑋4 ), przemył
środków transportu (𝑋7 ), przemysł maszynowy (𝑋8 ) oraz przemysł chemiczny (𝑋9 ) i przemysł odzieżo-
9.4. Wstępna statystyczna selekcja zmiennych i dobór zmiennych diagnostycznych 207
Tabela 9.3. Fragment macierzy odległości dla zmiennych opisujących strukturę produkcji czystej w gospodarce uspołecz-
nionej w PRL w latach 1958-1989 oraz obliczenia pomocnicze niezbędne w metodzie hiperkul (pętla druga)
0,00 1,36 1,12 1,38 1,42 1,55 1,63 1,34 1,55 1,34
1,36 0,00 1,42 1,60 1,20 1,09 1,16 1,13 1,75 1,38
1,12 1,42 0,00 1,61 1,56 1,66 1,74 1,47 1,42 1,45
Macierz odległości
1,38 1,60 1,61 0,00 1,08 1,21 1,22 1,25 1,38 1,41
1,42 1,20 1,56 1,08 0,00 0,70 0,55 0,92 1,83 0,91
1,55 1,09 1,66 1,21 0,70 0,00 0,56 0,68 1,67 1,17
1,63 1,16 1,74 1,22 0,55 0,56 0,00 0,89 1,71 1,02
1,34 1,13 1,47 1,25 0,92 0,68 0,89 0,00 1,50 1,10
1,55 1,75 1,42 1,38 1,83 1,67 1,71 1,50 0,00 1,65
1,34 1,38 1,45 1,41 0,91 1,17 1,02 1,10 1,65 0,00
Środek kul
Liczba zmiennych
1 1 1 1 5 4 4 4 0 3
satelitarnych
Źródło: obliczenia własne.
Tabela 9.4. Fragment macierzy odległości dla zmiennych opisujących strukturę produkcji czystej w gospodarce
uspołecznionej w latach 1958-1989 oraz obliczenia pomocnicze niezbędne w metodzie hiperkul (pętla trzecia)
W ramach trzeciej pętli, dla której podstawowe obliczenia zestawiono w tabeli 9.4, należało pod-
jąć decyzję co do wyboru spośród następujących hiperkul:
{𝑿𝟏 , 𝑋3 }, 𝑋̅1 = 0,024,
{𝑿𝟑 , 𝑋1 }, 𝑋̅3 = 0,042.
Ostatecznie wybrano jako trzecią zmienną centralną 𝑋1 , reprezentującą udział przemysłu energe-
tycznego w łącznej produkcji czystej przemysłu uspołecznionego. Zmienna ta stworzyła jedną grupę
z hutnictwem żelaza (𝑋3 ).
Tabela 9.5. Fragment macierzy odległości dla zmiennych opisujących strukturę produkcji czystej w gospodarce
uspołecznionej w latach 1958-1989 oraz obliczenia pomocnicze niezbędne w metodzie hiperkul (pętla czwarta)
𝑋2 𝑋16
Macierz odległości 𝑫′′′
𝑿 𝑋2 0,00 1,75
𝑋16 1,75 0,00
Środek kul 𝑋2 𝑋16
Liczba zmiennych satelitarnych 0 0
Natomiast w obszarze hiperkul o środkach w 𝑋2 oraz 𝑋16 w promieniu 𝑑∗ = 1,12 nie znalazły się
żadne inne zmienne (por. wartości w tabeli 9.5). Z tego powodu stworzyły one grupy jednoelemento-
we. Zatem zmienne dotyczące udziału przemysłu paliwowego i węglowego (X 2 ) oraz przemysłu włó-
kienniczego (X16 ) w produkcji czystej przemysłu uspołecznionego, potraktowano jako kolejne zmien-
ne diagnostyczne.
Na podstawie przeprowadzonej procedury doboru zmiennych diagnostycznych stwierdzono, że
w dalszych obliczeniach wezmą udział następujące zmienne centralne: 𝑋20 , 𝑋6 , 𝑋1 , 𝑋2 , 𝑋16 , które
reprezentują odpowiednio gałęzie przemysłu wytwarzające przedmioty spożycia, gałęzie przemysłu
produkujące środki wytwarzania i dobra konsumpcyjne trwałego użytku, przemysł energetyczny
i hutniczy, przemysł paliwowy i węglowy oraz przemysł włókienniczy. Alternatywą do wykorzystania
zmiennych centralnych, byłoby stworzenie zmiennych agregatowych. W przypadku danych struktu-
ralnych można zastosować sumę wartości zmiennych tworzących wyodrębnione hiperkule. Takie
rozwiązanie zastosowali między innymi MALINA i ZELIAŚ (1997). W prezentowanym przykładzie
byłyby to trzy zmienne agregatowe: zmienna 𝑋𝐴1 = 𝑋1 + 𝑋3 , zmienna 𝑋𝐴2 = 𝑋4 + 𝑋6 + 𝑋7 + 𝑋8 +
𝑋9 + 𝑋17 oraz zmienna 𝑋𝐴3 = 𝑋10 + 𝑋11 + 𝑋12 + 𝑋14 + 𝑋15 + 𝑋19 + 𝑋20 .
Podstawą procesu grupowania w prezentowanym przykładzie były zmienne strukturalne. Wykaz miar
podobieństwa i niepodobieństwa dedykowanych dla tego typu danych opisano w rozdziałach 4.1.3
oraz 4.2.3. Ostatecznie, ze względu na własności opisywanych wskaźników oraz ograniczenia objęto-
ściowe pracy, przyjęto, że podstawą periodyzacji okresu 1958-1989 będzie macierz odległości „Can-
berra”. Z uwagi na cel badania wykorzystano metodę pojedynczego wiązania, opisaną z kolei
w rozdziale 6.1.3.
9.5. Periodyzacja z wykorzystaniem metod hierarchicznych 209
Wariant pierwszy
W podejściu pierwszym grupowanie metodą pojedynczego wiązania przeprowadzono w oparciu
o wyodrębnione w metodzie hiperkul zmienne centralne. Macierz odległości „Canberra”, wyznaczono
w oparciu o wzór [4.14], uwzględniając jedynie pięć wspomnianych wyżej zmiennych , , ,
, .
[9.4]
Rysunek 9.1. Dendrogram grupowania metodą pojedynczego wiązania (odległość „Canberra”) struktur produkcji czystej
przemysłu uspołecznionego w latach 1956-1989 w oparciu o wyselekcjonowane zmienne
0,03
Odległość wiązania
0,02
0,01
0,00
1989
1981
1983
1988
1987
1986
1985
1984
1982
1975
1974
1976
1980
1979
1978
1977
1971
1973
1972
1970
1969
1968
1967
1966
1965
1964
1963
1962
1961
1960
1959
1958
Źródło: opracowanie własne z wykorzystaniem programu Statistica.
metod zaprezentowanych w rozdziale 6.1.2, wykorzystano regułę opartą o ilorazy odległości aglo-
meracyjnych (por. FLOREK i in. 1951). Procedurę tę rozpoczyna uporządkowanie malejąco wszyst-
kich odległości występujących w dendrycie (por. wzór [6.1]). Następne na ich podstawie wyznaczono
ilorazy odcinków sąsiednich (por. wzór [6.2]). Wyniki tych obliczeń zaprezentowane zostały
w postaci tabeli 9.6. Wydaje się, że podział okresu trzydziestodwuletniego w prezentowanym przykła-
dzie na więcej niż dwanaście podokresów jest nieracjonalny. Z tego powodu procedurę wyznaczenia
optymalnego punktu podziału dendrytu ograniczono do tego założenia.
Tabela 9.6. Obliczenia pomocnicze do wyznaczenia optymalnego punktu podziału dendrogramu w oparciu o regułę ilorazu
odległości (zmienne wyselekcjonowane)
Uporządkowane malejąco
Ilorazy odległości aglomeracyjnych
odległości aglomeracyjne
𝑑1 0,0336 𝑤2 = 𝑑1 /𝑑2 1,8622
𝑑2 0,0181 𝑤3 = 𝑑2 /𝑑3 1,4375
𝑑3 0,0126 𝑤4 = 𝑑3 /𝑑4 1,0280 𝑤4 < 𝑤5
𝑑4 0,0122 𝑤5 1,4152
𝑑5 0,0086 𝑤6 1,2389 𝑤6 < 𝑤7
𝑑6 0,0070 𝑤7 1,8534
𝑑7 0,0038 𝑤8 1,0786 𝑤8 < 𝑤9
𝑑8 0,0035 𝑤9 1,8451
𝑑9 0,0019 𝑤10 1,0863
𝒅𝟏𝟎 0,0017 𝒘𝟏𝟏 1,0133 𝒘𝟏𝟏 < 𝒘𝟏𝟐
𝑑11 0,0017 𝑤12 1,8622
𝑑12 0,0016
Źródło: obliczenia własne na podstawie wyników periodyzacji okresu 1958-1989 metodą pojedynczego wiązania (odległość
„Canberra”) w oparciu o strukturę gałęziową produkcji czystej przemysłu uspołecznionego w PRL.
9.5. Periodyzacja z wykorzystaniem metod hierarchicznych 211
Rysunek 9.2. Przecięcie dendrogramu grupowania metodą pojedynczego wiązania (odległość „Canberra”) struktur
produkcji czystej przemysłu uspołecznionego w latach 1956-1989 w oparciu o wyselekcjonowane zmienne
0,005
0,004
Odległość wiązania
0,003
0,002
0,001
0,000
1989
1981
1983
1988
1987
1986
1985
1984
1982
1975
1974
1976
1980
1979
1978
1977
1971
1973
1972
1970
1969
1968
1967
1966
1965
1964
1963
1962
1961
1960
1959
1958
S11 S7 S9 S10 S8 S6 S5 S4 S3 S2 S1
Na podstawie obliczeń zawartych w tabeli 9.6 można powiedzieć, że dendrogram rozpada się
w sposób naturalny na cztery, sześć, osiem i jedenaście skupień. Spośród tych czterech możliwości
najmniejszy iloraz odległości aglomeracyjnych wykazano w przypadku podziału na jedenaście sku-
pień. Dendrogram, przedstawiony na rysunku 9.1, przecięto zatem na poziomie odległości 𝑑10 =
0,0017. Działanie to, przedstawione na rysunku 9.2, doprowadziło do wyodrębnienia następujących
skupień: {1958}, {1959}, {1960, 1961, 1962, 1963, 1964, 1965, 1966, 1967, 1968, 1969}, {1970,
1971, 1972, 1973, 1976, 1977, 1978, 1979, 1980}, {1974}, {1975}, {1981}, {1982}, {1983}, {1984,
1985, 1986, 1987, 1988}, {1989}. Na podstawie przedstawionego wykazu można zauważyć, że dwa
największe skupienia łączą ze sobą kolejne lata 60. oraz niemal całe lata 70. Co więcej, aż w ośmiu
przypadkach struktura przemysłu uspołecznionego była na tyle odmienna, że nie stworzyła wspólnego
skupienia choćby ze strukturą roku sąsiadującego. Można mówić zatem o latach, w których nastąpiły
zmiany gospodarcze prowadzące do przekształcenia struktury przemysłu: 1958, 1959, 1974, 1975,
1981, 1982, 1983, 1989.
Wariant drugi
Część badaczy (zob. np.: GORDON 1999, s. 96-100) sugeruje ponowne przeprowadzenie grupowania
w oparciu o inną odległość czy metodę analizy skupień. Dopiero na podstawie porównania osiągnię-
tych w różnych podejściach podziałów można wyciągnąć ostateczne wnioski dotyczące periodyzacji.
Zatem w podejściu drugim procedurę grupowania powtórzono tą samą metodą, ale w oparciu
o zmienne syntetyczne odnoszące się do każdej z wyodrębnionych grup. Wykorzystano zmienne 𝑋𝐴1 ,
𝑋2 , 𝑋𝐴2 , 𝑋16 , 𝑋𝐴3 , przy czym zmienna 𝑋𝐴1 = 𝑋1 + 𝑋3 , zmienna 𝑋𝐴2 = 𝑋4 + 𝑋6 + 𝑋7 + 𝑋8 + 𝑋9 +
𝑋17 , natomiast zmienna 𝑋𝐴3 = 𝑋10 + 𝑋11 + 𝑋12 + 𝑋14 + 𝑋15 + 𝑋19 + 𝑋20 . Zastosowanie zmiennych
syntetycznych było możliwe ze względu na strukturalny charakter badań.
Dla tak zdefiniowanych zmiennych ponownie wyznaczono macierz odległości „Canberra” 𝑫𝑰𝑰 ,
której fragment zapisano jako macierz [9.5]:
212 9. Periodyzacja w badaniach historycznych na przykładzie struktury gałęziowej produkcji czystej
Tabela 9.7. Obliczenia pomocnicze do wyznaczenia optymalnego punktu podziału dendrogramu w oparciu o regułę ilorazu
odległości (zmienne syntetyczne)
Uporządkowane malejąco
Ilorazy odległości aglomeracyjnych
odległości aglomeracyjne
𝑑1 0,1086 𝑤2 = 𝑑1 /𝑑2 1,5177
𝑑2 0,0716 𝑤3 = 𝑑2 /𝑑3 1,0571
𝑑3 0,0677 𝑤4 = 𝑑3 /𝑑4 1,0085 𝑤4 < 𝑤5
𝑑4 0,0671 𝑤5 1,6537
𝑑5 0,0406 𝑤6 1,0168
𝒅𝟔 0,0399 𝒘𝟕 1,0003 𝒘𝟕 < 𝒘𝟖
𝑑7 0,0399 𝑤8 1,0417
𝑑8 0,0383 𝑤9 1,0192 𝑤9 < 𝑤10
𝑑9 0,0376 𝑤10 1,0279
𝑑10 0,0366 𝑤11 1,0041 𝑤11 < 𝑤12
𝑑11 0,0364 𝑤12 1,1912
𝑑12 0,0306
Źródło: obliczenia własne na podstawie wyników periodyzacji okresu 1958-1989 metodą pojedynczego wiązania (odległość
„Canberra”) w oparciu o strukturę gałęziową produkcji czystej przemysłu uspołecznionego w PRL.
Rysunek 9.3. Dendrogram grupowania metodą pojedynczego wiązania (odległość „Canberra”) struktur produkcji czystej
przemysłu uspołecznionego w latach 1956-1989 w oparciu o zmienne pogrupowane
0,10
0,08
Odległość wiązania
0,06
0,04
0,02
0,00
1981
1989
1988
1983
1987
1986
1985
1984
1982
1980
1979
1978
1977
1976
1975
1974
1973
1972
1971
1970
1969
1968
1967
1966
1965
1964
1963
1962
1961
1960
1959
1958
S6 S8 S7 S5 S4 S3 S2 S1
Przykład periodyzacji analizowany w tym rozdziale dotyczył struktury produkcji przemysłowej sekto-
ra uspołecznionego w latach 1958-1960. Spośród wielu możliwości wybrano, polecaną w tego typu
zagadnieniach, metodę pojedynczego wiązania. Metodą tą przeprowadzono grupowania w dwóch
wariantach: (I) w oparciu o zmienne reprezentujące wyodrębnione w procesie doboru zmiennych gru-
py oraz (II) w oparciu o zmienne syntetyczne zbudowane jako suma wartości zmiennych tworzących
wyodrębnione grupy. W obu przypadkach zastosowano odległość „Canberra”. Natomiast wyznaczenie
optymalnego punktu podziału dendrogramu oparto o regułę ilorazów odległości aglomeracyjnych,
zaproponowaną przez FLORKA i in. (1951). Ostatecznie przeprowadzenie obu grupowań pozwoliło na
podział okresu 1958-1989 na odpowiednio jedenaście i osiem podokresów. Wyniki obu procesów
periodyzacji zestawiono w tabeli 9.8.
Zestawienie przedstawione w tabeli 9.8 daje pewne podstawy na podział badanego okresu. Na
podstawie już tych dwóch grupowań można wyróżnić podokresy: 1958, 1959, 1960-1973, 1974-1975,
1976-1980, 1981, 1982-1988, 1989. Widać także, że wyniki uzyskane w podejściu pierwszym stano-
wią pewne uszczegółowienie rezultatów uzyskanych w grupowaniu drugim. Mimo to, aby przeprowa-
dzić ostateczny opis wyników periodyzacji, należy wskazać, które z grupowań okazało się lepsze, tzn.
spełnia w większym stopniu warunek maksymalizacji zmienności międzygrupowej i minimalizacji
zmienności wewnątrzgrupowej (por. rozdział 6.3).
214 9. Periodyzacja w badaniach historycznych na przykładzie struktury gałęziowej produkcji czystej
Tabela 9.8. Podział okresu 1958-1989 ze względu na strukturę produkcji czystej przemysłu uspołecznionego uzyskany
metodą pojedynczego wiązania (odległość „Canberra”)
podejście
1958
1959
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
I 𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠4 𝑠7 𝑠8 𝑠9 𝑠10 𝑠11
II 𝑠1 𝑠2 𝑠3 𝑠4 𝑠5 𝑠6 𝑠7 𝑠8
Podejście I opiera się na zmiennych reprezentujących wyodrębnione grupy zmiennych, podejście II opiera się na zmiennych
syntetycznych stanowiących sumę zmiennych tworzących wyodrębnione grupy zmiennych.
Źródło: zestawienie własne na podstawie wyników grupowania przedstawionych na rysunkach 9.2 oraz 9.3.
W tym celu dla obu wariantów oszacowano wskaźnik Calińskiego-Harabasza (por. wzór [6.18]).
Szczegółowo procedurę wyznaczenia tego wskaźnika opisano w rozdziale 6.3.2 oraz w przykładzie
zaprezentowanym w rozdziale jedenastym.
W pierwszym wariancie obliczeń, opartym o wybór zmiennych centralnych, wyniósł on 𝐶𝐼 =
1,891. Natomiast wartość współczynnika Calińskiego-Harabasza wyznaczonego dla wyników grupo-
wania w drugim podejściu, bazującym na zmiennych syntetycznych, wyniosła 𝐶𝐼𝐼 = 2,148. Zatem do
szczegółowego opisu rezultatów grupowania zastosowano wyniki wariantu drugiego.
Tabela 9.9. Średnie wartości zmiennych syntetycznych dla wyodrębnionych w wyniku podziału okresu 1958-1989 pod-
okresów ze względu na strukturę produkcji czystej przemysłu uspołecznionego w PRL
𝑋2 dotyczyło przemysłu paliwowego i węglowego; 𝑋16 dotyczyło przemysłu włókienniczego, 𝑋𝐴1 – zmienna syntetyczna
odnosząca się do przemysłu energetycznego i hutniczego, 𝑋𝐴2 – zmienna syntetyczna dotycząca gałęzi przemysłu, które
wytwarzały dobra konsumpcyjne trwałego użytku, 𝑋𝐴3 – zmienna syntetyczna dotycząca gałęzi przemysłu zajmującego się
przedmiotami spożycia.
Źródło: zestawienie własne na podstawie wyników periodyzacji metodą pojedynczego wiązania (odległość „Canberra”).
Puntem wyjścia do opisu wyników periodyzacji było zestawienie przedstawione w tabeli 9.9. Po-
szczególne kolumny dotyczą zmiennych lub zmiennych syntetycznych uwzględnionych w analizie.
I tak 𝑋𝐴1 to zmienna syntetyczna odnosząca się do przemysłu energetycznego i hutniczego. Z kolei 𝑋2
dotyczy przemysłu paliwowego i węglowego. Kolejna kolumna tabeli 9.9 ma związek ze zmienną
syntetyczną 𝑋𝐴2 , łączącą udział tych gałęzi przemysłu, które produkowały środki wytwarzania lub
środki konsumpcji trwałego użytku, co opisano wyżej. Na łączną wartość zmiennej 𝑋𝐴2 składają się
zatem udziały przemysłu elektrotechnicznego, środków transportu, metali nieżelaznych, maszynowe-
9.6. Ocena grupowania i synteza historyczna uzyskanych wyników 215
go, chemicznego i odzieżowego. Oddzielnie była potraktowana zmienna 𝑋16 , dotycząca przemysłu
włókienniczego. Ostatnia zmienna 𝑋𝐴3 odnosiła się natomiast do udziału gałęzi przemysłu zajmujące-
go się wytwarzaniem dobra konsumpcyjne trwałego i bieżącego użytku: materiałów budowlanych,
przemysłu szklarskiego, ceramiki szlachetnej, papierniczego, poligraficznego, skórzanego, spożyw-
czego oraz innych gałęzi przemysłu. Wszystkie zmienne zostały wyrażone jako udział danej gałęzi
przemysłu lub grup gałęzi w produkcji czystej ogółem w przemyśle sektora uspołecznionego. Warto
przypomnieć, że przedstawione w tabeli 6.9 udziały w poszczególnych wierszach nie sumują się do
100%, ponieważ w analizie pominięto produkcję przemysłu drzewnego oraz metalowego, których
wartość była na tyle stała w badanym okresie, że nie mogła wpłynąć na wyniki periodyzacji.
Jak już wspomniano wcześniej, istnieje wiele sposobów podziału badanego okresu na podokresy
KALIŃSKI (1995) w książce o przemianach strukturalnych w latach 1944-1995 wyróżnił następujące
fazy rozwoju gospodarczego w Polsce powojennej: faza odbudowy (do 1949), forsowne przemiany
(1950-1955), ograniczone reformy strukturalne (1959-1965), nieudany zwrot w polityce strukturalnej
(1966-1970), gierkowskie przyspieszenie (1971-1975), rozwiane nadzieje (1976-1980), dramatyczny
zastój (1981-1989). Podobne podokresy, choć może pod nieco innymi nazwami, przyjęte zostały
w monografii KALIŃSKIEGO i LANDAU (1998, s. 252-359). Podziału okresu polityki gospodarczej
w Polsce Ludowej w oparciu o kryterium planów gospodarczych przyjął także RUSIŃSKI (1986,
s. 378-385). Z kolei JEZIERSKI i LESZCZYŃSKA (2001, s. 497-506) wyróżnili bardziej ogólnie trzy
główne okresy w polityce przemysłowej Polski Ludowej: reformy zarządzania przemysłem na prze-
łomie lat 60. i 70. (1958-1973), „cud gospodarczy” Edwarda Gierka (1974-1981) oraz polityka prze-
mysłowa w latach 80. (1982-88). Z tego punktu widzenia wydaje się, że przeprowadzona metodą po-
jedynczego wiązania periodyzacja przyniosła zadawalające wyniki, wpisujące się w retorykę tematu.
Charakteryzując jedynie szczątkowo wyróżnione podokresy, można powiedzieć, że o odmienności
struktury przemysłu uspołecznionego w 1958 r. świadczy przede wszystkim wysoki udział w krajowej
produkcji czystej gałęzi przemysłu, nastawionych na produkcję dóbr konsumpcyjnych bieżącego
użytku oraz najniższy w całym badanym okresie udział przemysłu paliwowego i węglowego. Relacja
ta koresponduje z opisem dotyczącym sytuacji gospodarczej tego okresu przedstawionym przez KA-
LIŃSKIEGO (1995, s. 91): w latach 1956-1958 odnotowano spadek dynamiki wytwórczości przemy-
słowej, „a przede wszystkim odmienne niż w okresie poprzednim kształtowanie się proporcji wzrostu.
Wyższe wzrosty cechowała wytwórczość przedmiotów spożycia (+33,4%) niż środków wytwórczych
(+30%). W ogólnej strukturze produkcji zmalał m.in. udział paliw i surowców hutniczych, a także
przemysłu spożywczego i włókienniczego na korzyść chemicznego i maszynowego”. RUSIŃSKI (1986,
s. 378-379) zwraca uwagę, że począwszy od 1958 r., zgodnie z wytycznymi planu pięcioletniego, na-
stąpiło ponowne rozszerzenie zadań inwestycyjnych przede wszystkim w przemył ciężki. Wzrost go-
spodarczy miał jednak charakter ekstensywny; opierał się nie tyle na podniesieniu wydajności pracy,
ile na wzroście zatrudnienia. Stworzenie nowych miejsc pracy pozwalało wykorzystać istniejące re-
zerwy siły roboczej, a zarazem zatrudniać wschodzące stopniowo w wiek produkcyjny roczniki powo-
jennego wyżu demograficznego. Z kolei KALIŃSKI (1995, s. 80) podkreśla, że postulat poprawy wa-
runków bytowych społeczeństwa został wysunięty dopiero po wydarzeniach poznańskich w czerwcu
1956 r.
Kolejny rok 1959 przyniósł w łącznej produkcji przemysłowej sektora uspołecznionego wzrost
udziału przemysłu paliwowego i węglowego. KALIŃSKI (1995, s. 81) akcentuje, że rok ten rozpoczyna
etap intensywnej industrializacji kraju: „Z całym przekonaniem stwierdzić można, że do 1958 r. prze-
ważały poglądy o niezbędności zlikwidowania dysproporcji i podniesienia stopy życiowej ludności.
Po tym roku znalazły się one w mniejszości, ustępując polityce uprzemysłowienia wzmacniającej
216 9. Periodyzacja w badaniach historycznych na przykładzie struktury gałęziowej produkcji czystej
ogólny potencjał gospodarczy i militarny kraju”. RUSIŃSKI (1986, s. 379) wspomina, że podjęte decy-
zje strukturalne, związane m.in. ze zwiększeniem globalnego funduszu płac, wywołały braki rynkowe
i tendencje inflacyjne. Ich powstrzymaniu miało służyć ograniczenie wzrostu zatrudnienia i zabiegi
w dziedzinie cen. W końcu 1959 r. podniesiono ceny na mięso. Z końcem lat 50. podjęto działania
mające na celu zmiany w obszarze wsi i rolnictwa. Rozwój przemysłu obsługującego potrzeby pro-
dukcyjne wsi został podporządkowany nowej polityce rolnej. Maszyny, urządzenia i narzędzia kiero-
wano jednak w pierwszej kolejności do spółdzielni produkcyjnych, gospodarstw państwowych i kółek
rolniczych (KALIŃSKI 1995, s. 88).
Z kolei lata 1960-1973 wyróżniają się wzrostem znaczenia przemysłu energetycznego i hutniczego
oraz paliwowego i węglowego, który wynikał z oddanych do użytku w tym okresie licznych inwesty-
cji: kopali węgla, miedzi, siarki, elektrowni i hut (por. KALIŃSKI 2012, s. 53). Skutkiem tego w tym
okresie znacząco wzrósł udział tych gałęzi przemysłu, które specjalizowały się w wytwarzaniu dóbr
inwestycyjnych. Jednak za szybkim wzrostem udziału gałęzi przemysłu ciężkiego, chemicznego
i elektromaszynowego nie nadążała produkcja przemysłu lekkiego i spożywczego. Utrzymanie wyso-
kiego tempa inwestycji przy zachowaniu priorytetu produkcji środków wytwarzania w stosunku do
produkcji środków spożycia spowodowało deficyt niektórych artykułów zarówno spożywczych (np.
mięsa), jak i przemysłowych (RUSIŃSKI 1986, s. 380). Potwierdzeniem tego był spadek udziału tych
gałęzi przemysłu, które specjalizowały się w wytwarzaniu dóbr konsumpcyjnych bieżącego użytku
oraz przemysłu włókienniczego o odpowiednio 10% i 4% w stosunku do roku 1959 (por. tab. 99).
Zapoczątkowany planem pięcioletnim (1960-1965) kierunek zmian strukturalnych w przemyśle
kontynuowano w kolejnych latach (KALIŃSKI 1995, s. 123). Pogłębiające się dysproporcje skłoniły
jednak kierownictwo PZPR do skonkretyzowania nowych elementów polityki gospodarczej. Podjęto
zasadę, aby wspierać te gałęzie przemysłu, w których stosunkowo szybko można osiągnąć pozytywne
efekty (JEZIERSKI, LESZCZYŃSKA 2001, s. 502-503). Kierunki selektywnego wzrostu ujęto w uchwale
rządu z kwietnia 1969 r. (KALIŃSKI 1995, s. 135). W grudniu 1970 r., po kolejnej podwyżce cen, do-
szło do tragicznych wydarzeń na Wybrzeżu, które były przesłanką zmian personalnych
w komunistycznym kierownictwie kraju. Pierwsze posunięcia nowej ekipy rządzącej w sferze gospo-
darczej dotyczyły odwołania koncepcji „selektywnego wzrostu” na rzecz koncepcji „harmonijnego
rozwoju”. W efekcie odwołano podwyżki cen żywności i zamrożono ceny detaliczne podstawowych
artykułów żywnościowych w latach 1971-1972, podniesiono najniższe płace, dodatki rodzinne, renty
i emerytury oraz ceny skupu żywca. Tym razem źródła finansowe niezbędne do przeprowadzenia re-
form pozyskiwano z kredytów zagranicznych (KALIŃSKI 1995, s. 149-150). Pierwsze lata reformy
były bardzo obiecujące. Jednak relatywnie wyższe przyrosty wystąpiły w przypadku maszyn, urzą-
dzeń technicznych i środków transportu niż budynków i budowli (KALIŃSKI 1995, s. 154-159).
W rozważanym okresie 1960-1973 najszybciej rozwijały się przemysły elektromaszynowy
i chemiczny, które były głównymi adresatami kredytów zagranicznych i licencji, co ma potwierdzenie
w wartościach przedstawionych w tabeli 9.9. RUSIŃSKI (1986, s. 382) zwraca uwagę, że wzrost go-
spodarczy realizowany przez ekipę W. Gomułki osiągnięto głównie kosztem zwiększonych inwestycji
i wzrostu zatrudnienia. Nie wzrastała jednak w stopniu zadawalającym wydajność pracy. Mimo to
w pierwszych latach tej dekady nastąpił największy w ciągu całego okresu Polski Ludowej wzrost płac
realnych.
Najwyższy udział przemysłu paliwowego i węglowego w krajowej przemysłowej produkcji czy-
stej miał miejsce w podokresie 1974-1975 i osiągnął poziom ponad 16% (por. tab. 9.9). Co więcej,
w tym okresie po raz kolejny wzrosło znaczenie tych gałęzi przemysłu, które wytwarzały dobra inwe-
stycyjne. Obu tym sytuacjom towarzyszył silny spadek udziału produkcji przemysłowej wytwarzającej
9.6. Ocena grupowania i synteza historyczna uzyskanych wyników 217
dobra konsumpcyjne. KALIŃSKI (2012, s. 54) zauważa, że podjęty po 1970 r., oparty na kredytach
zachodnich, szeroki front inwestycji spowodował, że w 1975 r., wartość inwestycji nieprzekazanych
w terminie sięgnęła 63%. Jednak narastające od 1974 r. trudności w realizacji programu dynamiczne-
go rozwoju społeczno-gospodarczego kraju nie skłoniły władz do zmiany polityki gospodarczej. Na
strukturę przemysłu sektora uspołecznionego w tym okresie miały bez wątpienia wpływ zmiany
w systemie kierowania gospodarką, które sprowadzały się do tworzenia wielkich organizacji gospo-
darczych, koncentrujących dotychczas samodzielne przedsiębiorstwa i zakłady. Najwięcej ich powsta-
ło właśnie w latach 1974-1975 (por. JEZIERSKI, LESZCZYŃSKA 2001, s. 504; KALIŃSKI, LANDAU
1998, s. 300-301). W 1975 r. funkcjonowało w Polsce 110 wielkich organizacji gospodarczych, które
wytwarzały 67% produkcji przemysłowej, wykorzystując swoją monopolistyczną pozycję do wzrostu
płac i cen. Co więcej, powstanie wielkich organizacji gospodarczych wiązało się z likwidacją znacznej
części państwowego przemysłu terenowego, mającego poważny udział w zaopatrzeniu rynku
w artykuły konsumpcyjne (KALIŃSKI 1995, s, 162). W efekcie pod koniec 1975 r. uciążliwości co-
dziennego bytowania, wynikłe głównie wskutek niedoborów rynkowych, stawały się coraz bardziej
dokuczliwe, a oficjalna propaganda sukcesu rozmijała się coraz bardziej z powszechnym odczuciem
społecznym (RUSIŃSKI 1986, s. 384).
Następny wyodrębniony w wyniku periodyzacji podokres obejmuje lata 1976-1980. Jego początek
można wiązać z sytuacją kolejnego masowego protestu społecznego (Radom, Ursus, Płock).
W czerwcu 1976 r. władze skorygowały założenia polityki ekonomicznej kraju poprzez wprowadzenie
koncepcji „manewru gospodarczego” . Realizacja tej koncepcji miała doprowadzić do stopniowego
zmniejszania udziału akumulacji w dochodzie narodowym, uzyskania dodatniego bilansu handlowego,
zwiększenia produkcji artykułów kierowanych na rynek i rozmiarów budownictwa mieszkaniowego
Spadek aktywności gospodarczej najwcześniej ujawnił się w sferze inwestowania. Załamanie inwesty-
cyjne, początkowo obserwowane w komunikacji i handlu, od 1978 r. objęło całą sferę produkcyjną,
poprzedzając kryzys i długotrwałą recesję gospodarczą (KALIŃSKI 1995, s. 178-180). W efekcie tych
działań ograniczony został udział przemysłu energetycznego i hutniczego oraz paliwowego
i węglowego na rzecz tych gałęzi przemysłu, które wywarzały produkty inwestycyjne. Niestety udział
gałęzi przemysłowych nastawionych na produkcję dóbr konsumpcyjnych ponownie uległ znaczącemu
ograniczeniu (por. tabela 9.9). Charakterystyczną cechą tego okresu jest niekomplementarność rozwo-
ju polskiego przemysłu: niedostatek energii elektrycznej powodował ograniczenia w dostawach, co
skutkowało spadkiem produkcji, obniżeniem jakości i wywoływało zakłócenia w kooperacji (KALIŃ-
SKI 1995, s. 183). Ogromne znaczenie w efektywności polskiej gospodarki tego okresu miała również
„zima stulecia” 1978/1979 oraz następująca po niej powódź. „Zbieg tak wielu niekorzystnych czynni-
ków spowodował, że systematycznie spadała dynamika produkcji przemysłowej, osiągając w 1980 r.
po raz pierwszy w dziejach gospodarczych Polski powojennej, wartość ujemną” (KALIŃSKI 1995,
s. 183). W połowie 1980 r. robotnicy dużych zakładów przemysłowych odpowiedzieli na urzędową
podwyżkę cen mięsa. Strajki zakończyły się podpisaniem tzw. porozumień sierpniowych.
Już w listopadzie 1980 r. rząd podjął decyzję o wstrzymaniu realizacji wielu inwestycji gospodar-
czych. Od początku roku 1981 (kolejny wyodrębniony podokres) ograniczono cele gospodarcze kraju
do spraw decydujących o bycie narodu: wyżywienie, ochrona zdrowia, wytworzenie dla ludności
i gospodarki odpowiedniej ilości energii elektrycznej, utrzymanie produkcji eksportowej (KALIŃSKI
1995, s. 203). Skutkowało to tym, że w przemyśle odnotowano najniższy w całym badanym okresie
udział tych gałęzi przemysłu, które produkowały dobra konsumpcyjne bieżącego użytku: nie przekro-
czył on 10% (por. tabela 9.9). Spadki odnotowano także w branży paliwowej, węglowej, przemyśle
hutniczym oraz mimo składanych deklaracji w przemyśle energetycznym. Z kolei ponad połowa całej
218 9. Periodyzacja w badaniach historycznych na przykładzie struktury gałęziowej produkcji czystej
produkcji przemysłowej wytwarzana była w tych gałęziach przemysłu, które wytwarzały dobra inwe-
stycyjne. Wyjątkowo wysoki udział, ponad 13%, odnotowano także w produkcji czystej przemysłu
włókienniczego. Rok zakończył się wprowadzeniem stanu wojennego.
Kolejny wyodrębniony w wyniku zastosowania analizy skupień okres obejmował lata 1982-1988.
W pierwszym roku stanu wojennego powołano Konsultacyjną Radę Gospodarczą. Wobec braku planu
gospodarczego podstawą kwartalnych planów produkcyjnych przedsiębiorstw były tzw. zamówienia
rządowe (JEZIERSKI, LESZCZYŃSKA 2001, s. 505). Próbę przełamania kryzysu gospodarczego podjęto
w kolejnych latach. W planie gospodarczym na lata 1983-1985, którego priorytetem było powstrzy-
manie spadku dochodu narodowego, zakładano, że przedsiębiorstwa państwowe będą samodzielne,
samorządne i samofinansujące się (KALIŃSKI, LANDAU 1998, s. 332-334; JEZIERSKI, LESZCZYŃSKA
2001, s. 505). Uzyskano w ten sposób tylko krótką poprawę koniunktury. Jednocześnie wprowadzano
idee swobody przy zakładaniu nowych przedsiębiorstw dla działalności sektora prywatnego, w tym
kapitału zagranicznego, i zreformowano system bankowy. W planie gospodarczym 1986-1990 całko-
wicie pominięto zmiany strukturalne w przemyśle. Drastyczna podwyżka cen po raz kolejny wywołała
strajki. W okresie 1982-1988 silnie wzrósł udział gałęzi przemysłu nastawionych na produkcję dóbr
konsumpcyjnych bieżącego użytku. Wzmocnił się także udział przemysłu paliwowego i węglowego
oraz przemysłu energetycznego i węglowego (por. wartości w tabeli 9.9). Należy podkreślić, że ostat-
nie z wymienionych preferowano w trosce o zniwelowanie deficytów energetycznych (KALIŃSKI
1995, s. 209-212). Wzrosty względne możliwe były dzięki ograniczeniu produkcji gałęzi przemysłu
wytwarzających dobra inwestycyjne i konsumpcyjne trwałego użytku. W wartościach bezwzględnych
w 1986 r. przemysł nie odzyskał jednak poziomu produkcji sprzed kryzysu (JEZIERSKI, LESZCZYŃSKA
2001, s. 505). Następny rok przyniósł kolejne załamanie gospodarki.
Ostatni rok badanego okresu – 1989 – związany ze wspomnianym już wyżej kryzysem gospodar-
czym, odznaczał się najwyższym udziałem w produkcji czystej sektora uspołecznionego przemysłu
energetycznego i hutniczego oraz gałęzi przemysłu nastawionych na produkcję dóbr inwestycyjnych
i konsumpcyjnych trwałego użytku. Spadło jednak drastycznie znaczenie przemysłu paliwowego
i węglowego (por. wartości w tabeli 9.9). Jest to kolejny rok istotnych zmian politycznych. Od począt-
ku nowego roku podczas obrad okrągłego stołu nastąpiło pokojowe objęcie władzy w kraju przez for-
mację wywodzącą się z „Solidarności” i przeprowadzenia radykalnych zmian systemowych
w gospodarce (KALIŃSKI 1995, s. 210).
za słabość tej metody efekt łańcuszkowy w procesie periodyzacji jest zjawiskiem pożądanym. W toku
badań dowiedziono, że zastosowanie metod hierarchicznych w procesie periodyzacji pozwala na wy-
różnienie odrębnych okresów i podokresów w analizowanym zjawisku, jednak stopień szczegółowości
przeprowadzonych syntez zależy ostatecznie od badacza, który dokonuje, arbitralnie lub w oparciu
o wskaźniki statystyczne, wyboru miejsca przerwania procesu aglomeracji.
10
Grupowanie obiektów historycznych
na przykładzie rzemiosła wiejskiego we wsi Odrowąż i Waksmund
w 1970 r.
ZAMBURZYCKA-KUNACHOWICZ (1974a, s. 37) jako cel swoich badań podała ustalenie struktury rze-
miosła w określonych społecznościach wiejskich. Jako rzemiosło definiuje ona: „wytwarzanie wyro-
bów na zbyt, przy osobistym zaangażowaniu wytwórcy w produkcję prowadzoną na własny rachunek
i za pomocą własnych urządzeń”.
Strukturę rzemiosła, właściwą dla każdej badanej wsi, autorka badań określiła głównie na podsta-
wie przebadanych warsztatów rzemieślniczych, które prowadziły swoją działalność w roku 1970
w dwóch wsiach powiatu nowotarskiego. ZAMBURZYCKA-KUNACHOWICZ (1974a) dzięki zastosowa-
niu metody Czekanowskiego wyodrębniła jednolite typy warsztatów. W efekcie swoich badań ustaliła
sposoby funkcjonowania rzemiosła o znanej strukturze, będącego integralną częścią układu gospodar-
czo-społecznego oraz kulturowego, jakim jest wieś. Ustalone typy badaczka powiązała z „warunkami,
jakie pozwalają na istnienie określonej struktury rzemiosła, na którą składają się warsztaty (traktowa-
ne jako elementy) o cechach regresywnych, adekwatnych lub progresywnych w stosunku do istnieją-
cego układu” ZAMBURZYCKA-KUNACHOWICZ (1974a, s. 38). Przyjmowano, iż występowanie warsz-
222 10. Grupowanie obiektów historycznych na przykładzie rzemiosła wiejskiego
tatów o określonych cechach strukturalnych może stać się wskaźnikiem dla oceny stopnia zaawanso-
wania przemian społecznych, gospodarczych i kulturowych badanych zbiorowości.
ZAMBURZYCKA-KUCHNATOWICZ (1974a) przeprowadziła swoje badania osobno dla wsi Waks-
mund oraz Odrowąż. Głównymi motywami nawiązania do badań ZAMBURZYCKIEJ-KUCHNATOWICZ
(1974a) było pytanie, czy wspólna analiza dotycząca obu wsi przebadanych etnograficznie doprowa-
dzi do zbieżnych wyników oraz w jaki sposób zastosowanie jednej z metod hierarchicznych wpłynie
na podział typologiczny rzemiosła w latach 70. ubiegłego wieku, zaproponowany przez autorkę badań.
Przykład ten jest także interesujący z punktu widzenia rachunkowego. Przedstawia bowiem dane wy-
rażone w słabych skalach, z którymi historyk niejednokrotnie musi się zmierzyć.
Zestawienie statystyk opisowych, zawarte w tabeli 10.1, pozwoliło na wyciągnięcie wniosków do-
tyczących wszystkich zakładów rzemieślniczych w obu wsiach. W 1970 r. były to najczęściej zakłady
rzemieślnicze wykorzystujące narzędzia mechaniczne; w przeważającej części rzemieślnicy pracowali
w nich sezonowo dla dużego kręgu znanych sobie odbiorców.
10.3. Metoda eliminacji wektorów w sytuacji doboru zmiennych diagnostycznych 223
Jak wspomniano w rozdziale piątym, dobór zmiennych powinien opierać się na analizie ich współza-
leżności. W przypadku zmiennych wyrażonych w skali nominalnej miarą statystyczną używaną do
pomiaru współzależności może być wartość współczynnika korelacji czteropunktowej (por. wzór
[4.46]). Szczegółowo proces wyznaczania tego współczynnika przedstawiono w rozdziale 4.3.3.
Wartości współczynnika korelacji czteropunktowej wyznaczono dla każdej pary zmiennych, opi-
sujących warsztaty rzemieślnicze we wsi Odrowąż oraz Waksmund. Ich zestawienie prezentuje ma-
𝑁
cierz 𝑹𝑵 [10.1]. I tak współczynnik korelacji czteropunktowej 𝑟1;2 = −1 oznacza, że zmienna pierw-
sza i druga są ze sobą doskonale ujemnie skorelowane: w każdym warsztacie preferowano zatem tylko
jeden rodzaj narzędzi.
Już wstępna analiza wartości macierzy korelacji 𝑹𝑵 [10.1] i macierzy odległości 𝑫𝑿 [10.2] wska-
zuje na połączenie zmiennych parami. Niemniej jednak w ich doborze zaprezentowano kolejną
z metod stosowaną w tego typu zagadnieniach: metodę eliminacji wektorów. Jak wspomniano wcze-
224 10. Grupowanie obiektów historycznych na przykładzie rzemiosła wiejskiego we wsi Odrowąż
śniej w rozdziale 5.2.4, punktem wyjścia w tej procedurze taksonomicznej jest wyznaczenie krytycz-
nego poziomu niepodobieństwa. Można w tym celu zastosować jedną z reguł stopu. W prezentowa-
nym przykładzie wybrano tę, która została zaprezentowana jako wzór [5.9]:
𝑑max −𝑑min 1,38−0
𝑑 ∗ (𝑐 = 1,0): 𝑑∗ = 𝑐
= = 1,38;
1
0 0 1 1 1 1 1 0 ∑1 = 5
0 0 1 1 1 1 1 0 ∑2 = 5
1 1 0 0 1 1 1 1 ∑3 = 6
1 1 0 0 1 1 1 1 ∑4 = 6
𝑫𝟏 = 𝑑0 = .
1 1 1 1 0 0 1 1 ∑5 = 6
1 1 1 1 0 0 1 1 ∑6 = 6
1 1 1 1 1 1 0 1 ∑7 = 𝟕 ⟸ 𝑚𝑎𝑥
[0 0 1 1 1 1 1 0] [ ∑8 = 5 ]
0 0 1 1 1 1 0 ∑1 = 4
0 0 1 1 1 0 ∑1 = 3
0 0 1 1 1 1 0 ∑2 = 4
0 0 1 1 1 0 ∑2 = 3
1 1 0 0 1 1 1 ∑3 = 𝟓
1 1 0 1 1 1 ∑ 4 =𝟓
𝑫′𝟏 = 1 1 0 0 1 1 1 𝒅′𝟎 = ∑4 = 5 , ′′
𝑫𝟏 = 𝒅′′
𝟎 = ∑ ,
1 1 1 0 0 1 5= 4
1 1 1 1 0 0 1 ∑5 = 5
1 1 1 0 0 1 ∑6 = 4
1 1 1 1 0 0 1 ∑6 = 5 [0
[0 0 1 1 1 0] [ ∑8 = 3 ]
0 1 1 1 1 0] [ ∑8 = 4 ]
0 0 1 1 0 ∑1 = 2
0 0 1 0 ∑1 = 1
0 0 1 1 0 ∑2 = 2
0 0 1 0 ∑2 = 1
𝑫′′′
𝟏 = 1 1 0 0 1 𝒅′′′
𝟎 = ∑5 = 𝟑 , 𝑫′′′′
𝟏 =[ ] 𝒅′′′′
𝟎 = ,
1 1 0 1 ∑6 = 𝟑
1 1 0 0 1 ∑6 = 3
[0 0 0 1 0 [ ∑8 = 1 ]
0 1 1 0] [ ∑8 = 2 ]
0 0 0 ∑1 = 0
𝑫′′′′′
𝟏 = [0 0 0] 𝒅′′′′′
𝟎 = [ ∑ 2 = 0].
0 0 0 ∑8 = 0
10.3. Metoda eliminacji wektorów w sytuacji doboru zmiennych diagnostycznych 225
W wyniku tego działania pierwsza podgrupę stworzyły zmienne {𝑋1 , 𝑋2 , 𝑋8 }. Zatem zmienne do-
tyczące rodzaju narządzi używanych w badanych warsztatach (zmienne 𝑋1 oraz 𝑋2 ) stworzyły jedną
grupę ze zmienną wskazującą na wieś, w której dany warsztat był zlokalizowany (zmienna 𝑋8 ).
W ostatnim kroku pętli pierwszej usunięte zostały z macierzy 𝑫𝟏 wiersze i kolumny, które odpowia-
dały zmiennym tworzącym pierwszą wyodrębnioną grupę zmiennych. W ten sposób powstała
macierz 𝑫𝟐 .
Z kolei na podstawie macierzy 𝑫𝟐 przeprowadzono drugą pętlę, w wyniku której wyodrębniono
drugą grupę zmiennych: {𝑋3 , 𝑋4 }:
0 0 1 1 1 ∑3 = 3
0 0 1 1 ∑3 = 3
0 0 1 1 1 ∑4 = 3
0 0 1 1 ∑ =3
𝑫𝟐 = 1 1 0 0 1 𝑑0 = ∑5 = 3 , 𝑫′𝟐 = [ ] 𝑑0′ = 4 ,
1 1 0 0 ∑5 = 𝟑
1 1 0 0 1 ∑6 = 3
[1 1 1 0 0 [ ∑6 = 3 ]
1 1 1 0] [∑7 = 𝟒]
0 0 1 ∑3 = 1
0 0 ∑ =0
𝑫′′
𝟐 = [0 0 1] 𝑑0′′ = [∑4 = 1], 𝑫′′′
𝟐 = [ ] 𝑑0′′′ = [ 3 ].
0 0 ∑4 = 0
1 1 0 ∑6 = 𝟐
Pętlę trzecią rozpoczęto od wyznaczenia macierzy 𝑫𝟑 . W jej efekcie powstała grupa zmiennych:
{𝑋5 , 𝑋6 }:
0 0 1 ∑5 = 1
0 0 ∑5 = 0
𝑫𝟑 = [0 0 1] 𝑑0 = [∑6 = 1], 𝑫′𝟑 = [ ] 𝑑0′ = [ ].
0 0 ∑6 = 0
1 1 0 ∑7 = 𝟐
nywana sezonowo, a jedynki odpowiadają sytuacji, gdy praca wykonywana w warsztacie była trakto-
wana przez właściciela jako zajęcie stałe. Natomiast w zmiennej krąg odbiorców (𝑋5+6 ) wartości ze-
rowe oznaczają, że usługi w warsztacie były skierowane do wąskiego kręgu klientów, natomiast je-
dynki przypisano wtedy, gdy krąg ten był uznany za szeroki. W rezultacie do dalszych badań został
wybrany następujący zestaw zmiennych diagnostycznych: 𝑋1+2, 𝑋3+4, 𝑋5+6 oraz 𝑋7 .
1,00 0,50 0,75 1,00 1,00 0,75 0,75 0,75 0,75 0,13 ⋯
0,50 1,00 0,75 0,50 0,50 075 0,75 0,75 0,75 0,50 ⋯
0,75 0,75 1,00 0,75 0,75 0,50 0,50 0,50 0,50 0,25 ⋯
1,00 0,50 0,75 1,00 1,00 0,75 0,75 0,75 0,75 0,00 ⋯
1,00 0,50 0,75 1,00 1,00 0,75 0,75 0,75 0,75 0,00 ⋯
𝑺 = 0,75 0,75 0,50 0,75 0,75 1,00 1,00 1,00 1,00 0,25 ⋯ , [10.3]
0,75 0,75 0,50 0,75 0,75 1,00 1,00 1,00 1,00 0,25 ⋯
0,75 0,75 0,50 0,75 0,75 1,00 1,00 1,00 1,00 0,25 ⋯
0,75 0,75 0,50 0,75 0,75 1,00 1,00 1,00 1,00 0,25 ⋯
0,00 0,50 0,25 0,00 0,00 0,25 0,25 0,25 0,25 1,00 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]
Rysunek 10.1. Dendrogram grupowania metodą Warda (odległość: niezgodność procentowa) warsztatów rzemieślniczych
we wsi Odrowąż oraz Waksmund w 1970 r.
2,5
2,0
Odległość wiązania
1,5
1,0
0,5
0,0
w14 w12 w9 w7 w19 w16 w11 w3 w5 w1
w13 w10 w8 w6 w17 w2 w15 w18 w4
W przykładzie tym oprócz zagadnień historycznych został przeanalizowany problem wpływu wy-
boru metody optymalnego podziału dendrogramu na wyniki grupowania. Jak wspomniano w rozdziale
6.1.2, metody podziału dendrogramu nie muszą prowadzić do identycznych wyników
i w ostateczności to badacz podejmuje decyzję, który wariant rozwiązania przyjmuje. Aby zaprezen-
tować tę sytuację, przeanalizowane zostaną trzy warianty rozwiązań. Wariant pierwszy stanowi pre-
zentację reguły pierwszego znaczącego skoku odległości aglomeracyjnej. W wariancie drugim opty-
228 10. Grupowanie obiektów historycznych na przykładzie rzemiosła wiejskiego we wsi Odrowąż
malny punkt przecięcia dendrogramu wyznaczony został w oparciu o iloraz odległości aglomeracyj-
nych. Natomiast w ostatnim podejściu (wariant trzeci) zaprezentowano możliwości, jakie daje reguła
górnego obszaru odrzucenia.
Wariant pierwszy
Punktem wyjścia do wyznaczenia optymalnego punktu przecięcia dendrogramu w oparciu o zastoso-
wanie reguły pierwszego znaczącego skoku odległości aglomeracyjnej jest wykres przebiegu aglo-
meracji przedstawiony na rysunku 10.2.
Rysunek 10.2. Wykres przebiegu aglomeracji w grupowaniu metodą Warda (odległość: niezgodność procentowa)
warsztatów rzemieślniczych we wsi Odrowąż oraz Waksmund w 1970 r.
3,0
2,5
2,0
Odległość wiązania
1,5
1,0
0,5
0,0
-0,5
0 2 4 6 8 10 12 14 16 18
Et ap wiązania
Trudno w oparciu o jego analizę wskazać jednoznacznie pierwszy „znaczący” skok odległości
aglomeracyjnej, który wskazywałby jednoznacznie punkt przecięcia dendrogramu przedstawionego na
rysunku 10.1. Jest zatem oceną subiektywną badacza, którą zmianę odległości aglomeracyjnej uzna za
„znaczącą”. W tej sytuacji wskazano trzy takie odległości: 𝑑1 = 0,15, 𝑑2 = 0,50 oraz 𝑑3 = 1,50. Na
podstawie dendrogramu przedstawionego na rysunku 10.1. można stwierdzić, że w pierwszym przy-
padku, oznaczonym dalej jako wariant Ia, w wyniku podziału powstaje osiem skupień, które łączą
identyczne pod względem analizowanych cech warsztaty. W drugim przypadku (wariant Ib)
w wyniku podziału powstaje sześć skupień, a w trzecim jedynie trzy (wariant Ic).
Wariant drugi
W wariancie drugim optymalny punkt przecięcia dendrogramu wyznaczony został zgodnie z regułą
ilorazu odległości aglomeracyjnych. Obliczenia konieczne do zastosowania tego wariantu przedsta-
wiono w tabeli 10.2. Tym razem dendrogram przedstawiony na rysunku 10.1. w naturalny sposób
rozpadł się na cztery skupienia.
10.5. Grupowanie warsztatów i wybór ostatecznego wyniku 229
Tabela 10.2. Wyznaczenie optymalnego punktu przecięcia w oparciu iloraz odległości aglomeracyjnych
Uporządkowane malejąco
Ilorazy odległości aglomeracyjnych
odległości aglomeracyjne
𝑑1 2,40 𝑤2 = 𝑑1 /𝑑2 1,25 𝑤2 < 𝑤3
𝑑2 1,91 𝑤3 = 𝑑2 /𝑑3 1,91
𝒅𝟑 1,00 𝒘𝟒 = 𝒅𝟑 /𝒅𝟒 1,05 𝒘𝟒 < 𝒘𝟓
𝑑4 0,95 𝑤5 = 𝑑4 /𝑑5 1,52 𝑤5 < 𝑤6
𝑑5 0,63 𝑤6 = 𝑑5 /𝑑6 1,88
𝑑6 0,33 𝑤7 = 𝑑6 /𝑑7 1,33
𝑑7 0,25 𝑤8 = 𝑑7 /𝑑8 1,25 𝑤8 < 𝑤9
𝑑8 0,00 𝑤9 = 𝑑8 /𝑑9 1,91
... … …
𝑑18 0,00
Wariant trzeci
Ostatnie podejście wynikało z zastosowania reguły górnego obszaru odrzucenia. Zastosowanie wzo-
ru [6.3] wymaga wyznaczenia średniej ze wszystkich odległości aglomeracyjnych oraz ich odchylenia
standardowego. Wartości te wynosiły odpowiednio 𝑑̅ = 0,42 oraz 𝑠𝑑 = 0,72. W tej sytuacji, przyjmu-
jąc że 𝑘 = 1, dendrogram należy przeciąć na poziomie 𝑑5 = 1,14, a za optymalny przyjąć podział
czternastu warsztatów na trzy skupienia.
Podsumowując ten etap badań, warto zauważyć, że jedno z rozwiązań wariantu pierwszego oraz
wynik uzyskany w wariancie trzecim doprowadziły zgodnie do trzech skupień. Ich skład oraz ocena
jakościowa uzyskanych podziałów znajduje się w kolejnych kolumnach tabeli 10.3. Ostatnią jej ko-
lumnę stanowi całkowity indeks sylwetkowy 𝐺𝑆𝐼. O jego doborze przesądziła skala, w której wyrażo-
ne zostały zmienne opisujące grupowane warsztaty. Należy podkreślić, że zgodnie z interpretacją tej
miary, przedstawioną w rozdziale 6.3.3, można powiedzieć, że każde z uzyskanych grupowań można
uznać za poprawne: przeciętna odległość pomiędzy obiektami należącymi do poszczególnych skupień
okazała się być przeciętnie mniejsza niż przeciętna odległość pomiędzy obiektami tworzącymi różne
skupienia.
Tabela 10.3. Skład skupień po przecięciu dendrogramu i ich ocena: indeks 𝐺𝑆𝐼
Oczywiście podział na osiem skupień uzyskał najwyższą ocenę, ze względu na fakt, że w tym wa-
riancie (Ia) połączone w poszczególne skupienia zostały tylko jednostki identyczne. Szczegółową
charakterystykę tych wyników zamieściła w swoich pracach autorka badania (por. ZAMBURZYCKA-
-KUCHNATOWICZ 1974a oraz 1974b). Należy jednak podkreślić, że do uzyskania takiego wyniku nie
potrzebne było stosowanie złożonych metod taksonomicznych. Wystarczyło, po wyodrębnieniu
zmiennych diagnostycznych, uporządkować odpowiednio badane warsztaty w taki sposób, aby wyod-
rębnione skupienia łączyły tylko jednostki jednakowe.
Dużo ciekawszy wydaje się wskazany w dwóch wariantach (Ic i III) podział badanych warsztatów
na trzy skupienia. Właśnie ten wariant, ze względu na porównywalność w dwóch podejściach, można
uznać za ostateczny. Wyniki uzyskane przy takim podziale warsztatów scharakteryzowane zostały
w następnym rozdziale.
Charakterystykę wyodrębnionych przy pomocy metody Warda skupień zawarto w tabeli 10.4. Ze
względu na skalę, w której zostały wyrażone zmienne, w tabeli 10.4 cechy charakterystyczne wyod-
rębnionych skupień wyrażone zostały jako udział warsztatów należących do danego skupienia, które
w przypadku danej zmiennej przyjęły wartości równe jedności. Obok uwzględnionych w badaniu
zmiennych w tabeli tej zamieszczono informacje dotyczące specjalizacji warsztatów tworzących po-
szczególne skupienia.
Tabela 10.4. Udział warsztatów rzemieślniczych o określonych cechach lub specjalnościach w wyodrębnionych grupach
warsztatów we wsi Odrowąż oraz Waksmund w 1970 r.
Źródło: obliczenia własne na podstawie podziału dendrytu przedstawionego na rysunku 10.1 na trzy skupienia.
ne. Wytwarzanie dóbr rzemieślniczych jest dla nich jedynie zajęciem dodatkowym, wykonywanym
w okresach wolniejszych od prac w gospodarstwie rolnym. Żaden z należących do tego skupienia
warsztatów nie wytwarza swoich dóbr dla szerokiego grona odbiorców. Są to w przeważającej części
sąsiedzi. Jedynie wskazywany przez jeden warsztat wyrób gnatek do wozów jest przeznaczany dla
anonimowego odbiorcy. Jak doprecyzowuje autorka badania, rzemieślnik wykonuje te wyroby w celu
sprzedaży na rynku w Nowym Targu oraz na zamówienie małego kręgu odbiorców. Na uwagę zasłu-
guje również, że do skupienia tego należały warsztaty trudniące się aż sześcioma różnymi profesjami
– najczęściej deklarowane to bednarstwo i kołodziejstwo.
Drugie najliczniejsze skupienie łączy warsztaty traktujące rzemiosło również jako zajęcie dodat-
kowe, wykonywane jako wsparcie budżetów domowych gospodarstw rolnych. Połowa z nich dyspo-
nuje jednak narzędziami mechanicznymi i wszyscy produkują dla szerokiego grona odbiorców, ale
odbiorcy są im znani. Warsztaty należące do tej grupy trudnią się bednarstwem, kołodziejstwem
i stolarstwem. Ta ostatnia profesja jednak przeważa.
Trzecie skupienie łączy tylko te warsztaty, które traktują swoje rzemiosło jako główne źródło
utrzymania. Są to warsztaty dysponujące przede wszystkim narzędziami mechanicznymi. Produkują
do szerokiego grona odbiorców, a połowa z nich wytwarza produkty dla anonimowych odbiorców, co
wiąże się z pewnością z ich standaryzacją. Uwagę zwraca fakt, że w ten sposób traktują swoją profesję
tylko warsztaty stolarskie.
Przedstawione badania, mimo że mają charakter statyczny, mogą służyć do sformułowania bar-
dziej syntetycznych wniosków dotyczących przemian zawodowych na polskiej wsi polskiej, a zatem
do zobrazowania procesów przemian na polskiej u progu lat 70. ubiegłego wieku. Wymieranie niektó-
rych zawodów wiązało się z takimi procesami, jak: profesjonalizacja zawodowa, specjalizacja oraz
standaryzacja wytwarzanych wyrobów. Co więcej, na profesjonalizację zawodową, zapewne ze
względu na zmieniający się rynek zbytu, mogli tylko liczyć stolarze.
z metod hierarchicznych: metody pełnego wiązania, dla której podstawy teoretyczne zawarto w roz-
dziale 6.1.3. Dodatkowo w przykładzie tym porównano wpływ wyboru różnych miar odległości na wy-
niki grupowania, o czym wspomniano w rozdziale czwartym. W dwóch wariantach grupowania zasto-
sowano polecane w tego typu badaniach podejścia: odległość Marczewskiego-Steinhausa (por. wzór
[4.17]) oraz Mahalanobisa (por. wzór [4.12]). Ostateczną ocenę obu podejść oparto na wskaźniku jako-
ści grupowania 𝐶-Calińskiego-Harabasza (por. wzór [6.18]). Niewielka liczba zmiennych pozwoliła na
zaprezentowanie, opisanych w rozdziale 6.3.2, dwóch procedur jego wyznaczania.
Nieodłącznym elementem pracy historyka jest analiza dokumentów. Niejednokrotnie stoi on przed za-
daniem zidentyfikowania pochodzenia tego typu materiału lub wskazania jego autorstwa na podstawie
szczątkowych treści występujących w danym dokumencie. Nie zawsze decyzje w tym zakresie okazują
się jednoznaczne, w efekcie czego niejednokrotnie teksty historyczne poddawane są wnikliwej analizie
semantycznej. Wydaje się, że przykład ten dobrze obrazuje miejsce metod ilościowych w badaniach
historycznych. Historyk w tego typu badaniach musi zapoznać się z grupą dokumentów, wyodrębnić
słowa bądź wyrażenia kluczowe w danym okresie, dla potencjalnych autorów, w końcu zliczyć okre-
ślone wyrażenia. Przykładem tego typu badań mogą być prowadzone w środowisku poznańskim analizy
dotyczące narracji historycznej w podręcznikach historii dla gimnazjalistów (CHMURA-RUTKOWSKA
i in. 2015). Dopiero na ostatnim etapie tego typu badań można wykorzystać metody grupowania, a ich
wyniki mogą służyć jedynie jako podstawa do dalszego i zapewne szerszego wnioskowania historycz-
nego.
W badaniach dotyczących klasyfikacji dokumentów wszystkie zmienne są wyrażone jako liczba
występowania poszczególnych słów lub wyrażeń w badanych obiektach. Przytoczone dane zostały za-
prezentowane w formie tabeli 7, zamieszczonej w Aneksie A. W swoich badaniach HAND i in. (2005,
s. 515-528) przeanalizowali dziesięć dokumentów pod względem występowania w nich sześciu wyra-
żeń. Jest to zatem przykład badań strukturalnych, w których zmienne są jednoimienne, wyrażone w tej
samej skali (ilorazowej) i w tej samej jednostce pomiarowej. Powoduje to, że rząd wielkości zmiennych
jest porównywalny: zmienne dotyczące słów lub wrażeń występujących w tekście częściej przyjmują
określone wartości, niezależnie którego słowa lub wyrażenia dotyczą. Co więcej, zakres ich zmienności
jest także taki sam: [0; 𝑘], gdzie k jest maksymalną liczbą wystąpień jednego z poszukiwanych słów
lub wyrażeń. Ponadto w macierzy obserwacji nie występują wartości ujemne. Zatem zmienne w przy-
padku klasyfikacji dokumentów lub tekstów zwykle nie wymagają przeprowadzenia procesu normali-
zacji.
[4.40]), stosowana w przypadku zmiennych wyrażonych w skali ilorazowej, miała wymiar 6 × 6. Macierz
tę zaprezentowano jako [11.1]. Kolejne wiersze i kolumny tej macierzy odnoszą się do poszczególnych
zmiennych, których nazwy zostały wymienione w tabeli 7, zamieszczonej w Aneksie A:
Występowanie wyrażenia „baza danych” było dodatnio skorelowane z wyrażeniem „SQL” oraz
𝑃 𝑃
„indeks”. Współczynniki korelacji między nimi wynosiły odpowiednio: 𝑟1;3 = 0,88 oraz 𝑟1;5 = 0,90.
Oznacza to, że w sytuacji, w której występowało w badanych dokumentach stosunkowo często wyraże-
nie „baza danych”, odnotowywana była także większa liczba występowania wyrażenia „SQL”. Wysoką
𝑃
dodatnią korelację odnotowano także między wyrażeniami „regresja” i „wiarygodność” (𝑟2;4 = 0,81).
Za to o ujemnym silnym związku można natomiast mówić w przypadku zmiennej „regresja” ze zmien-
𝑃 𝑃
nymi „baza danych” oraz „SQL” (𝑟2;1 = −0,72 oraz 𝑟2;3 = −0,76). Oznacza to, że im częściej w ba-
danych dokumentach pojawiało się pierwsze z wymienionych wyrażeń, tym rzadziej występowały
w nich frazy „baza danych” i „SQL”.
Na podstawie macierzy korelacji 𝑹𝑷 [11.1] została wyznaczona macierzy odległości 𝑫𝑿 [11.2].
W tym przypadku zastosowano przekształcenie zgodne ze wzorem [4.38], które zakłada największą od-
ległość między zmiennymi nieskorelowanymi. Wynik tego przekształcenia zaprezentowano poniżej:
Na podstawie tych informacji wyodrębniono klasy odległości między zmiennymi. Już z macierzy
korelacji 𝑹𝑷 [11.1] można wywnioskować, że grup zmiennych ściśle ze sobą związanych będzie nie-
wiele. Z tego powodu na podstawie macierzy odległości 𝑫𝑿 [11.2] wyodrębniono trzy klasy odległości
między zmiennymi i przyporządkowano im odpowiednie tekstury. Przy ich wyznaczaniu posłużono się
percentylami: w arkuszu kalkulacyjnym Excel wykorzystano funkcję PERCENTYL(), wskazując war-
tość percentylu na 0,33 oraz 0,66. Zakres danych stanowiły wartości zawarte w macierzy odległości 𝑫𝑿
[11.2] .W rezultacie ustalono następujące klasy odległości:
𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6
𝑢𝑖𝑗 = |𝑖 − 𝑗|/(𝑚 − 1)
|1−2| |2−2| |6−2|
𝑢1;2 = (6−1) = 0,2; 𝑢2;2 = (6−1) = 0; 𝑢6;2 = (6−1) = 0,8 …
Na tej podstawie możliwe było wyznaczenie odpowiednich iloczynów 𝑑𝑖𝑗 𝑢𝑖𝑗 , znajdujących się nad
przekątnymi macierzy 𝑫𝑿 [11.2] oraz macierzy 𝑼 [11.3]. Funkcja kryterium 𝐹 dla diagramu Czekanow-
skiego, przedstawionego na rysunku 11.1, przyjęła następującą wartość:
𝐹 = [0,75 ∗ 0,2] + [0,50 ∗ 0,4 + 0,70 ∗ 0,2] + [1,07 ∗ 0,6 + 0,61 ∗ 0,4 + 1,02 ∗ 0,2] +
+[0,45 ∗ 0,8 + 0,88 ∗ 0,6 + 0,30 ∗ 0,4 + 1,14 ∗ 0,2] +
+[1,05 ∗ 1 + 0,94 ∗ 0,8 + 0,98 ∗ 0,6 + 0,87 ∗ 0,4 + 1,05 ∗ 0,2] = 5,77.
Wartość tej funkcji należy obliczać po każdym przestawieniu kolumny i wiersza w diagramie Czeka-
nowskiego, dlatego warto korzystać z możliwości jakie daje program Excel i stworzyć odpowiedni ar-
kusz funkcji powiązanych.
Przestawienie pierwszej kolumny z drugą i pierwszego wiersza z drugim przyniosło wzrost funkcji
kryterium do poziomu 𝐹 = 5,78. Uznano zatem, że ta zamiana jest efektywna i ją utrzymano. W następ-
nym kroku sprawdzono rezultat zamiany kolumny drugiej z trzecią (oraz wiersza drugiego z trzecim). Dla
tego ustawienia diagramu funkcja kryterium osiągnęła wartość 𝐹 = 6,40. Pozostawiono zatem tę zmianę.
11.2. Dobór zmiennych diagnostycznych metodą Czekanowskiego 237
Następnie sprawdzano rezultat zamiany kolumny trzeciej i czwartej. Proces ten był kontynuowany, aż do
momentu w którym funkcja 𝐹 osiągnęła wartość maksymalną, tzn. żadna zmiana ułożenia diagramu Cze-
kanowskiego nie podnosiła już wartości funkcji 𝐹. Efekt tych działań to uporządkowany diagram Czeka-
nowskiego, przedstawiony na rysunku 11.2.
Rysunek 11.2. Uporządkowany diagram Czekanowskiego
𝑋4 𝑋6 𝑋2 𝑋1 𝑋3 𝑋5
Tabela 11.1. Ocena poprawności podziałów zmiennych uzyskanych w wyniku zastosowania metody Czekanowskiego
Ocena poprawności grupowania
Proponowany podział zmiennych na grupy
𝑝𝑏𝑤 𝑊 𝑝𝑑𝑧 𝑍 𝑊𝑝
Podział 1: {𝑋4 }, {𝑋6 }, {𝑋2 }, {𝑋1 ,𝑋3 , 𝑋5 } 12 12 24 24 1,00
Podział 2: {𝑋4 , 𝑋6 , 𝑋2 }, {𝑋1 ,𝑋3 , 𝑋5 } 12 18 18 18 0,67
Podział 3: {𝑋4 }, {𝑋6 }, {𝑋2 ,𝑋1 ,𝑋3 , 𝑋5 } 12 18 18 18 0,67
Podział 4: {𝑋4 ,𝑋6 }, {𝑋2 ,𝑋1 ,𝑋3 , 𝑋5 } 12 20 16 16 0,60
Podział 4: {𝑋4 ,𝑋6 }, {𝑋2 }, {𝑋1 ,𝑋3 , 𝑋5 } 12 14 22 22 0,86
𝑝𝑏𝑤 – liczba powiązań bliskich między obiektami wewnątrz wyodrębnionych grup; 𝑊 – liczba wszystkich powiązań wewnątrz
grup; 𝑝𝑑𝑧 – liczba powiązań dalszych między obiektami na zewnątrz wyodrębnionych grup; 𝑍 – liczba wszystkich powiązań
na zewnątrz wyodrębnionych grup; grup; 𝑊𝑝 – wskaźnik poprawności podziału.
Źródło: obliczenia własne na podstawie uporządkowanego diagramu Czekanowskiego przedstawionego na rysunku 11.2.
Dzięki powiązaniu symboli zmiennych z ich długimi nazwami, zawartymi w tabeli 7 w aneksie A,
można przeprowadzić opis uzyskanych wyników. Utworzenie grupy trzyelementowej wskazuje, że
frazy: „baza danych”, „SQL” oraz „indeks” w podobny sposób różnicowały badane dokumenty. Dla tej
238 11. Zagadnienie identyfikacji historycznej na przykładzie grupowania dokumentów lub tekstów
grupy zmiennych {𝑋1 , 𝑋3 , 𝑋5 } należy wybrać jedną zmienną diagnostyczną, która w dalszych bada-
niach będzie reprezentowała tę grupę. W tym celu wykorzystano wzór [5.3]. Podstawiając odpowiednie
odległości z macierzy odległości 𝑫𝑿 [11.2], otrzymano:
Na tej podstawie można stwierdzić, że najbliższa pozostałym zmiennym w grupie {𝑋1 ,𝑋3 , 𝑋5 } oka-
zała się zmienna 𝑋3 „SQL”. Zatem dalszych badaniach zostaną uwzględnione następujące zmienne: 𝑋2 ,
𝑋4 , 𝑋6 oraz zmienna 𝑋3 . jako reprezentantka grupy {𝑋1 , 𝑋3 , 𝑋5 }.
W przypadku grupowania obiektów historycznych wskazane wydaje się stosowanie metod hierarchicz-
nych. Pozwalają one bowiem nie tylko na podział tych obiektów na grupy, ale i ukazują wewnętrzną
strukturę hierarchiczną uzyskanych skupień. Spośród dostępnych w ramach programu Statistica metod
hierarchicznych wybrano algorytm pełnego wiązania. Szczegółowy jego opis można znaleźć w roz-
dziale 6.1.3. O wyborze tej metody w prezentowanym przykładzie przesądziło to, że prowadzi ona do
wyodrębnienia zwartych skupień obiektów i cechuje się dużą efektywnością. W przypadku identyfikacji
dokumentów i tekstów ważną jej cechą jest większa niż w innych metodach skłonność do tworzenia
skupień jednoelementowych, czyli wyodrębniania obiektów odstających.
Jak wspomniano w rozdziale czwartym, wyniki grupowania zależą nie tylko od doboru zmiennych
diagnostycznych czy metody grupowania. Na rezultaty tego procesu wpływa także miara odległości.
Niestety nie zawsze dobór tej miary jest jednoznaczny. Zwykle dla uwzględnionego w badaniu typu
danych i realizacji określonych celów grupowania badacz ma do dyspozycji większą liczbę miar podo-
bieństwa i niepodonieństwa. Z tego względu tym razem w dwóch wariantach obliczeń zaprezentowano
wpływ miary odległości na rezultaty grupowania. Wariant pierwszy zakładał, że grupowanie dokumen-
tów metodą pełnego wiązania odbywać się będzie przy założeniu wcześniejszego wyznaczenia odległo-
ści między nimi miarą Marczewskiego-Steinhausa (por. wzór [4.17]). W drugim wariancie punktem
wyjścia procesu grupowania była macierz odległości Mahalanobisa (por. wzór [4.12]).
Wariant pierwszy
W wyniku zastosowania metody Czekanowskiego w badaniach dotyczących identyfikacji dokumentów
i teksów uwzględniono zmienne: 𝑋2 , 𝑋4 , 𝑋6 oraz zmienną 𝑋3 jako reprezentantkę grupy {𝑋1 , 𝑋3 , 𝑋5 }.
Dotyczyły one kolejno występowania następujących fraz: regresja (𝑋2 ), wiarygodność (𝑋4 ), liniowa
(𝑋6 ), SQL (𝑋3 ). W oparciu o te zmienne wyznaczono odległości Marczewskiego-Steinhausa pomiędzy
grupowanymi dziesięcioma dokumentami. Zestawiono je w macierz odległości 𝑫𝑴𝑺 [11.3]. Wszystkie
obliczenia przeprowadzono w programie Excel.
11.3. Grupowanie dokumentów lub tekstów w oparciu o różne miary odległości 239
0,000 0,545 0,364 0,727 0,444 0,953 0,985 0,964 0,966 0,957
0,545 0,000 0,286 0,400 0,706 1,000 0,979 1,000 1,000 1,000
0,364 0,286 0,000 0,571 0,588 1,000 0,981 1,000 1,000 1,000
0,727 0,400 0,571 0,000 0,824 1,000 0,976 1,000 1,000 1,000
0,444 0,706 0,588 0,824 0,000 1,000 0,988 1,000 1,000 1,000
𝑫𝑴𝑺 = [11.3]
0,953 1,000 1,000 1,000 1,000 0,000 0,633 0,474 0,424 0,195
0,985 0,979 0,981 0,976 0,988 0,633 0,000 0,371 0,467 0,696
0,964 1,000 1,000 1,000 1,000 0,474 0,371 0,000 0,593 0,578
0,966 1,000 1,000 1,000 1,000 0,424 0,467 0,593 0,000 0,322
[0,957 1,000 1,000 1,000 1,000 0,195 0,696 0,578 0,322 0,000]
1,1
1,0
0,9
0,8
Odległość wiązania
0,7
0,6
0,5
0,4
0,3
0,2
0,1
O8 O7 O9 O10 O6 O4 O3 O2 O5 O1
S3 S2 S1
Aby wskazać optymalny punkt przecięcia dendrogramu, zastosowano tym razem, opisaną w roz-
dziale 6.1.2, regułę górnego obszaru odrzucenia Mojeny (por. wzór [6.3]). W tym celu konieczne było
odczytanie z dendrogramu odległości aglomeracyjnych, na których następowały kolejne etapy wiązania.
Procedurę uzyskania takiego zestawienia w ramach oprogramowania Statistica opisano w Aneksie B.
W prezentowanym przykładzie wartości te uporządkowane rosnąco wynosiły odpowiednio:
𝑑1 = 0,195 𝑑2 = 0,286 𝑑3 = 0,371
𝑑4 = 0,424 𝑑5 = 0,444 𝑑6 = 0,571
𝑑7 = 0,696 𝑑8 = 0,824 𝑑9 = 1,000
240 11. Zagadnienie identyfikacji historycznej na przykładzie grupowania dokumentów lub tekstów
Zgodnie z regułą górnego obszaru odrzucenia (MOJENA 1977), optymalny podział obiektów dla 𝑘 =
0,75 następuje na 𝑒-tym etapie wiązania, dla którego odległość aglomeracyjna pierwszego następnego
etapu spełnia nierówność:
𝑑𝑒+1 > 𝑑̅ + 𝑘𝑠𝑑 ⇒ 𝑑𝑒+1 > 0,535 + 0,75 ∗ 0,248 ⇒ 𝑑𝑒+1 > 0,721.
W myśl tej reguły dendrogram przedstawiony na rysunku 11.3 należało przeciąć na siódmym etapie
wiązania. Wniosek ten zaznaczono na dendrogramie linią przerywaną. Przy takich założeniach uzy-
skany został podział grupowanych dokumentów na trzy skupienia: 𝑠1 ={𝑂1 ; 𝑂5 }, 𝑠2 ={𝑂2 ; 𝑂3 ; 𝑂4 },
𝑠3 ={𝑂6 ; 𝑂7 ; 𝑂8 ; 𝑂9 ; 𝑂10}.
Wariant drugi
Grupowanie metodą pełnego wiązania powtórzono. Wariant drugi dla tego grupowania bazował tym
razem na macierzy odległości Mahalanobisa 𝑫𝑴 (por. wzór [4.12]). Podobnie jak w wariancie pierw-
szym, wyznaczono ją w arkuszu kalkulacyjnym:
0,00 8,13 1,01 7,21 11,05 8,04 12,32 8,76 7,95 10,13
8,13 0,00 7,21 0,68 10,30 3,17 10,23 4,05 14,14 5,77
1,01 8,23 0,00 5,94 16,89 9,09 12,15 8,06 10,37 12,06
7,21 0,68 5,94 0,00 14,77 3,64 10,72 4,06 14,13 6,44
11,05 10,30 16,89 14,77 0,00 12,16 15,13 13,45 15,85 14,19
𝑫𝑴 = . [11.4]
8,04 3,17 9,09 3,64 12,16 0,00 9,21 3,98 5,37 0,86
12,32 10,23 12,15 10,72 15,13 9,21 0,00 1,72 10,17 15,18
8,76 4,05 8,06 4,06 13,45 3,98 1,72 0,00 8,85 8,52
7,95 14,14 10,37 14,13 15,85 5,37 10,17 8,85 0,00 5,89
[10,13 5,77 12,06 6,44 14,19 0,86 15,18 8,52 8,52 0,00 ]
Macierzy odległości 𝑫𝑴 [11.4] stanowiła podstawę grupowania metodą pełnego wiązania. W wy-
niku tego procesu wyznaczono dendrogram, przestawiony na rysunku 11.4. Podobnie jak w poprzednim
wariancie, aby wskazać optymalny punkt przecięcia dendrogramu zastosowano regułę górnego obszaru
odrzucenia Mojeny (por. wzór [6.3]). Niezbędne było zatem określenie wartości odległości aglomera-
cyjnych. W prezentowanym przykładzie wynosiły one odpowiednio:
Przyjmując w regule górnego obszaru odrzucenia wartość stałej na poziomie 𝑘 = 0,75, wyznaczono
punkt optymalnego podziału dendrytu, przedstawionego na rysunku 11.4:
𝑑𝑒+1 > 𝑑̅ + 𝑘𝑠𝑑 ⇒ 𝑑𝑒+1 > 6,876 + 0,75 ∗ 6,491 ⇒ 𝑑𝑒+1 > 11,844.
11.3. Grupowanie dokumentów lub tekstów w oparciu o różne miary odległości 241
18
16
14
12
Odległość wiązania
10
0
O5 O9 O10 O6 O8 O7 O4 O2 O3 O1
S2 S4 S3 S1
W myśl tej reguły dendrogram należy przeciąć na siódmym etapie wiązania. W wyniku przeprowadze-
nia grupowania metodą pełnego wiązania w oparciu o wyodrębniono następujące skupienia:
𝑠1 ={𝑂1 ; 𝑂3 ; 𝑂2 ; 𝑂4 }, 𝑠2 ={𝑂5 }, 𝑠3 ={𝑂7 ; 𝑂8 }, 𝑠4 ={𝑂6 ; 𝑂9 ; 𝑂10 }. O wyborze rozwiązania ostatecz-
nego spośród obu zaprezentowanych podejść zadecyduje wartość współczynnika oceny grupowania, dla
którego proces wyznaczania opisany został w kolejnym podrozdziale.
mogły zostać wyznaczone na podstawie wzorów [6.13] oraz [6.15]. Możliwe było także zastosowanie
uproszczonego sposobu wyznaczania śladów obu macierzy, zaproponowane przez autorów wskaź-
nika 𝐶 (CALIŃSKI, HARABASZ 1974). Oba podejścia zostaną zaprezentowane poniżej odpowiednio do
wyników wariantu pierwszego, w którym zastosowano metodę pełnego wiązania z wykorzystaniem od-
ległości Marczewskiego-Steinhausa oraz wariantu drugiego w którym grupowanie tą samą metodą ba-
zowało na odległości Mahalanobisa. Oczywiście wybór metody wyznaczania wskaźnika 𝐶 Calińskiego-
-Harabasza nie wpływa na uzyskaną w wyniku obliczeń jego wartość.
Wariant pierwszy
W badaniu dotyczącym grupowania czy identyfikacji dokumentów bądź tekstów ostatecznie wzięto pod
uwagę cztery zmienne. W tej sytuacji, zarówno macierze wariancji wewnątrzgrupowej, jak i między-
grupowej, powinny liczyć po cztery wiersze i cztery kolumny. Do wyznaczenia macierzy wariancji we-
wnątrzgrupowych można posłużyć się funkcją tablicową KOWARIANCJA() dostępną w arkuszu kal-
kulacyjnym Excel. Należy jednak pamiętać, że otrzymane wartości wymagają pomnożenia przez liczbę
obiektów w grupie. W wyniku grupowania metodą pełnego wiązania w oparciu o odległość Marczew-
skiego-Steinhausa ustalono, że optymalny będzie podział badanych dokumentów na następujące sku-
pienia: 𝑠1 = {𝑂1 , 𝑂5 }, 𝑠2 = {𝑂2 , 𝑂3 , 𝑂4 }, oraz 𝑠3 = {𝑂6 , 𝑂7 , 𝑂8 , 𝑂9 , 𝑂10 }. Poniżej przedstawiono macie-
rze obserwacji dla każdego z tych skupień 𝑿𝒊 , oraz wyznaczone na ich podstawie macierze wariancji
i kowariancji 𝑾𝒊 :
50,0 55,0 0 −15,0
21 9 0 3 55,0 60,5 0 −16,5
𝑿𝟏 = [ ] 𝑾𝟏 = [ ]
31 20 0 0 0 0 0 0
−15,0 −16,5 0 4,5
42,0 12,0 0 0
10 5 0 0
12,0 6,0 0 0
𝑿𝟐 = [16 5 0 0] 𝑾𝟐 = [ ]
0 0 0 0
7 2 0 0
0 0 0 0
0 0 18 16
0 0 0 0
0 1 32 0
0 0,8 7,4 −13,2
𝑿𝟑 = 0 0 22 2 𝑾𝟑 = [ ].
0 0,50 251,2 −50,6
0 0 32 25
[0 0 1,25 50,6 542,8
0 17 23]
Ślad macierzy wariancji wewnątrzgrupowych to po prostu suma tych jej elementów, które znajdują się
na jej przekątnej:
𝑡𝑟(𝑾) = 92,0 + 67,3 + 251,2 + 547,3 = 957,8.
wariancji ogólnej a macierzą wariancji wewnątrzgrupowej. Macierz wariancji ogólnej 𝑻 dla zmiennych
prezentowanego przykładu można wyznaczyć korzystając znów z funkcji KOWARIANCJA(). Tym ra-
zem uwzględniono jednak zmienne dla wszystkich obiektów biorących udział w grupowaniu, bez ich
podziału na skupienia. Na tej podstawie, opierając się na zależności 𝑩 = 𝑻 − 𝑾, można było wyzna-
czyć macierz wariancji międzygrupowej 𝑩 oraz jej ślad:
Wariant drugi
W obliczeniach dotyczących wyników grupowania dziesięciu dokumentów tekstowych metodą pełnego
wiązania w oparciu o odległość Mahalanobisa, wskaźnik 𝐶 Calińskiego-Harabasza został wyznaczony
według sposobu zaproponowanego przez autorów (por. CALIŃSKI, HARABASZ 1974). Punktem wyjścia
do obliczeń jest macierz odległości Euklidesa 𝑫𝑬 (por. wzór [4.7]). Sposób wyznaczenia takiej macierzy
za pośrednictwem programu Statistica został zaprezentowany w Aneksie C.
0,0 12,1 7,1 15,9 15,2 31,9 39,2 31,7 46,5 34,8
12,1 0,0 6,0 4,2 25,8 26,6 33,8 24,8 43,7 30,7
7,1 6,0 0,0 9,5 21,2 29,3 36,0 27,7 45,4 33,2
15,9 4,2 9,5 0,0 30,0 25,2 32,8 23,3 42,8 29,5
15,2 25,8 21,2 30,0 0,0 44,1 48,4 43,0 56,1 46,7
𝑫𝑬 = [11.5]
31,9 26,6 29,3 25,2 44,1 0,0 21,3 14,6 18,4 7,1
39,2 33,8 36,0 32,8 48,4 21,3 0,0 10,2 25,1 27,5
31,7 24,8 27,7 23,3 43,0 14,6 10,2 0,0 25,9 21,6
46,5 43,7 45,4 42,8 56,1 18,4 25,1 25,9 0,0 17,1
[34,8 30,7 33,2 29,5 46,7 7,1 27,5 21,6 17,1 0,0 ]
Dodatkowo, dla ułatwienia dalszych obliczeń, poszczególne wartości macierzy odległości 𝑫𝑬 [11.5]
podniesiono do kwadratu oraz uporządkowano ją zgodnie z podziałem osiągniętym w ramach podejścia
przedstawionego w wariancie drugim: 𝑠1 = {𝑂1 ; 𝑂3 ; 𝑂2 ; 𝑂4 }, 𝑠2 = {𝑂5 }, 𝑠3 = {𝑂7 ; 𝑂8 },
𝑠4 = {𝑂6 ; 𝑂9 ; 𝑂10 }. Ze względu na fakt, że obliczenia śladu macierzy wewnątrzgrupowej oraz między-
grupowej (por. wzór [6.19] oraz [6.20]) opierają się jedynie na 𝑛(𝑛 − 1)/2 odległościach, wartości ma-
cierzy 𝑫𝟐𝑬 , ograniczono jedynie do tych, które znajdowały się ponad przekątną macierzy:
244 11. Zagadnienie identyfikacji historycznej na przykładzie grupowania dokumentów lub tekstów
𝑂1 𝑂2 𝑂3 𝑂4 𝑂5 𝑂7 𝑂8 𝑂6 𝑂9 𝑂10
̅̅̅ 2
𝑑2 = (𝑑1;2 2
+ 𝑑1;3 2
+ 𝑑1;4 2
+ ⋯ + 𝑑9;10 )/45 = (146 + 50 + 254 + ⋯ + 293)/45 = 923;
̅̅̅
2 2
𝑑 = 𝑑 = 105;
3 7;8
̅̅̅ 2
𝑑42 = (𝑑6;9 2
+ 𝑑6;10 2
+ 𝑑9;10 )/3 = (337 + 50 + 293)/3 = 227;
̅̅̅
𝑑2 = (𝑑 + 𝑑 + 𝑑 + 𝑑2 + 𝑑2 + 𝑑2 )/6 = (146 + 50 + 254 + 36 + 18 + 90)/6 = 99.
2 2 2
1 1;2 1;3 1;4 2;3 2;4 3;4
1 ̅̅̅2 + (𝑛 − 1)𝑑
̅̅̅2 + ⋯ + (𝑛 − 1)𝑑
̅̅̅2 ] =
𝑡𝑟(𝑾) = [(𝑛1 − 1)𝑑 1 2 2 𝑔 𝑔
2
1
[(4 − 1) ∗ 99 + (2 − 1) ∗ 105 + (3 − 1) ∗ 227] = 427,67;
=
2
1 ̅̅̅2 − 𝑡𝑟(𝑾) = 1 (10 − 1) ∗ 923 − 427,67 = 3727,43.
𝑡𝑟(𝑩) = (𝑛 − 1)𝑑
2 2
Grupowanie, dla którego wartość wskaźnika 𝐶 Calińskiego-Harabasza jest wyższa, należy uznać za
lepsze. W prezentowanym przykładzie na podstawie przeprowadzonej oceny grupowania ostateczne
11.4. Ocena uzyskanych wyników na podstawie wartości wskaźnika C Calińskiego-Harabasza 245
decyzje co do identyfikacji obiektów powinny zostać podjęte na podstawie rezultatów kwalifikacji do-
kumentów przeprowadzonej metodą pełnego wiązania w oparciu o macierz odległości Mahalanobisa.
Rzemiosło jest najdawniejszą postacią produkcji przemysłowej (IWASZKIEWICZ 1982, s. 5). W ramach
socjalistycznego modelu gospodarczego, jaki obowiązywał w Polsce po II wojnie światowej, oprócz
własności państwowej i spółdzielczej funkcjonowały także przedsiębiorstwa prywatne. Zaliczano do
nich przedsiębiorstwa rzemieślnicze, małe przedsiębiorstwa przemysłowe, przedsiębiorstwa prowa-
dzące swoją działalność w ramach handlu i usług, zajęć zawodowych i innych. W polskiej gospodarce
powojennej znaczenie drobnych przedsiębiorstw, w tym rzemieślniczych, polegało z jednej strony na
zaspokajaniu indywidualnych potrzeb konsumentów, a z drugiej na współpracy z przemysłem kluczo-
wym (ZIMNIEWICZ 1970, s. 7).
Oczywiście przedsiębiorstwa prywatne nie odgrywały kluczowej roli w gospodarce uspołecznionej,
ale ze względu na podstawy polityczne tego systemu nazywane były przedsiębiorstwami indywidual-
nymi. Ich istnienie i funkcjonowanie w okresie PRL budziło kontrowersje i było niejednokrotnie dys-
kutowane (zob. np.: NIEWADZI 1958, 1968; WIŚNIEWSKI 1964). Działalność rzemieślnicza podlegała
również procesom uspołeczniania gospodarki drobnotowarowej (RYCHŁOWSKI 1960). Zatem z jednej
strony negowano konieczność istnienia rzemiosła i własności indywidualnej w socjalistycznym modelu
gospodarczym, z drugiej podkreślano jego znaczenie w zakresie świadczenia usług dla ludności
(WIŚNIEWSKI 1964, s. 7-9).
Ważnym wydarzeniem w życiu organizacyjnym polskiego rzemiosła było wprowadzenie w 1948 r.
przymusu cechowego1. Jednocześnie nadzór nad cechami i ich związkami powierzono izbom rzemieśl-
niczym2. W efekcie czego w 1948 r. zmniejszono liczbę cechów (SZREJBROWSKI 1969). PRZYŁUSKI
(1972) zwraca uwagę, że zasadnicza, radykalna zmiana w stosunku do rzemiosła indywidualnego na-
stąpiła jednak dopiero w roku 1956, w wyniku uchwał VII oraz VIII Plenum KC PZPR, które uznały
rozwój rzemiosła za pożądany ze względów gospodarczych i społecznych. W myśl nowego podejścia
państwo powinno otoczyć rzemiosło pomocą i opieką i skończyć z fałszywą praktyką traktowania rze-
mieślnika jako przedstawiciela obcej socjalizmowi warstwy.
Spośród przedsiębiorstw indywidualnych najważniejszą rolę odgrywało rzemiosło. IWASZKIEWICZ
(1972), powołując się na źródła GUS i ZIR (Związek Izb Rzemieślniczych), stwierdził, że w 1955 r.
powstała kategoria statystyczna nazwana rzemiosłem przemysłowym. SADŁOWSKI (1972) podkreśla, że
rzemiosło wykonywało w okresie Polski Ludowej 50% wszystkich usług świadczonych dla ludności.
IWASZKIEWICZ (1982, s. 11-12) następująco zdefiniował pojęcie rzemieślnika w okresie powojennym:
„Być rzemieślnikiem – to być człowiekiem z głową, z własną inicjatywą, samodzielnym, a przez to
wolnym od nieprzyjemnej dla wielu zależności od przełożonych. (…) Pracując na własne ryzyko i wła-
sny rachunek, rzemieślnicy należą do najbardziej dynamicznych grup społeczeństwa polskiego. Muszą
oni mieć jedną właściwość: poczucie własnej godności zawodowej broniącej ich przed negatywnymi
ocenami niektórych urzędników czy działaczy politycznych, nie rozumiejących znaczenia drobnych
przedsiębiorstw prywatnych w kraju budującym socjalizm, żyjących poglądami z 1946 r. (gdy zakła-
dano pełną kolektywizację wsi i całkowite uspołecznienie rzemiosła)”.
Należy podkreślić, że w Wielkopolsce rzemiosło zawsze odgrywało istotną rolę. Na ten temat po-
wstała seria publikacji, napisana w ramach działalności Poznańskiego Oddziału Polskiego Towarzystwa
Dekret z dnia 3 kwietnia 1948 r. o częściowej zmianie prawa przemysłowego (Dz.U. 1948 nr 18, poz. 130).
1
Dekret z dnia 21 kwietnia 1948 r. o zmianie ustawy z dnia 19 lipca 1939 r. o izbach rzemieślniczych i ich
2
Historycznego. Można tu wymienić takie publikacje, jak monografia napisana przez Czesława ŁU-
CZAKA (1962) pt. Położenie ekonomiczne rzemiosła wielkopolskiego w czasie zaborów czy jej druga
część opracowana przez Zdzisława GROTA (1963) pt.: Polityczna działalność rzemiosła wielkopolskiego
w okresie zaborów (1793-1918). Okresu międzywojennego dotyczyło natomiast opracowanie ŁUCZAKA
(1964) pt. Położenie ekonomiczne rzemiosła wielkopolskiego 1918-1939. Okres powojenny działalności
rzemiosła w świetle sprawozdań Izby Rzemieślniczej został opisany w dwóch publikacjach: Rzemiosło
w Wielkopolsce w latach 1945-1957. Sprawozdanie Izby Rzemieślniczej w Poznaniu (1959) pod redak-
cją Tadeusza WIESIOŁOWSKIEGO i innych. Serię wydawniczą kończy opracowanie Rzemiosło wielko-
polskie 1919-1968 przygotowane przez Zbigniewa BARAŃSKIEGO i in. (1969). To ostatnie zostało wie-
lokrotnie przywoływane jako punkt odniesienia do uzyskanych wyników.
Działaniami organizacyjnymi rzemiosła wielkopolskiego kierowała przede wszystkim Izba Rze-
mieślnicza, która rozpoczęła swoją działalność już w marcu 1945 r. Z końcem wspomnianego roku
w zasięgu poznańskiej Izby Rzemieślniczej działało 326 cechów, zrzeszających 16 054 rzemieślników.
W 1947 r. zarejestrowano 379 cechów oraz 23 749 rzemieślników]. SZREJBROWSKI (1969) podaje, że
95% rzemieślników należała w tym okresie do cechu.
Rozwój rzemiosła w Wielkopolsce po zakończeniu działań wojennych nie przebiegał równomiernie.
Warsztaty rzemieślnicze w pierwszych latach po wojnie zajmowały się przede wszystkim usługami byto-
wymi (MOZOŁOWSKI 1980, s. 34). Do 1948 r. ich liczba wzrastała. Następnie odnotowano stopniowy
spadek, zahamowanie rozwoju, który Barański (1969) argumentuje założeniami politycznymi i gospodar-
czymi planu sześcioletniego (1950-1955), ograniczeniem zbytu producenckiego usług rzemieślniczych,
wzrostem podatków i dodatkowych opłat oraz niemal zupełnym brakiem zaopatrzenia materiałowego. Po-
ważny ubytek w liczbie zakładów rzemieślniczych pogłębiał się w latach 1950-1952, kiedy to rzemieśl-
nicy przechodzili do pracy w sektorze uspołecznionym lub, na skutek konkurencji ze strony uspołecznio-
nych punktów usługowych, zmuszeni byli likwidować własne zakłady. Tendencja ta utrzymywała się do
1954 r. i dotyczyła przede wszystkim szewców i krawców (BARAŃSKI i in. 1969, s. 244).
Na fali przeobrażeń społeczno-gospodarczych, jakie miały miejsce w połowie lat 50. ubiegłego
wieku, uchwalono ustawę o izbach rzemieślniczych i Związku Izb Rzemieślniczych3, która wprowa-
dziła wybory samorządowe do poszczególnych organów cechowych, w tym na stanowiska radców, do-
tychczas powoływanych przez Ministra Przemysłu Drobnego i Rzemiosła. Od 1958 r. rozpoczął się
nowy etap działalności organizacyjnej Izby Rzemieślniczej w Poznaniu (SZREJBROWSKI 1969). Główne
obszary działalności Izby po okresie przemian to współpraca z rzemieślniczą spółdzielczością zaopa-
trzenia i zbytu, pomoc finansowa dla cechów, które coraz liczniej przystępowały do budowy swoich
domów cechowych, popieranie inicjatyw budowy pawilonów usługowych dla rzemiosła, które miały
być ułatwieniem na polu świadczenia usług dla ludności. W lipcu 1958 r. weszła w życie ustawa o ze-
zwoleniach na wykonywanie przemysłu, rzemiosła i handlu i niektórych usług przez jednostki gospo-
darki nieuspołecznionej4. Ustawa ta uzależniła wykonywanie przez osoby prywatne wszelkiej działal-
ności gospodarczej od zezwolenia wydawanego przez organ prezydium rady narodowej (powiatowej
miejskiej, dzielnicowej), właściwy dla spraw handlu lub przemysłu.
Dużą trudność w rozwoju rzemiosł w PRL stanowiła kwestia zaopatrzenia materiałowo-technicz-
nego. „W toku wieloletniej praktyki utrwalił się system, zgodnie z którym rzemieślnicy zaopatrują się
3
Ustawa z dnia 11 września 1956 r. o izbach rzemieślniczych i Związku Izb Rzemieślniczych (Dz.U. 1956
nr 41, poz. 190).
4
Ustawa z dnia 1 lipca 1958 r. o zezwoleniach na wykonywanie przemysłu, rzemiosła, handlu i niektórych
usług przez jednostki gospodarki nie uspołecznionej (Dz.U. 1958 nr 45, poz. 224).
250 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych
w potrzebne materiały i surowce z rozmaitych źródeł. Podstawowym źródłem zaopatrzenia dla więk-
szości zakładów rzemieślniczych jest detaliczna sieć handlowa” (NUROWSKI 1980, s. 51). Innym źró-
dłem zaopatrzenia były dostawy dokonywane przez zleceniodawców.
Począwszy od roku 1958, w miarę wzrastania zamożności społeczeństwa, znaczenie usług w gospo-
darce wzrastało, a wraz z nim wzrastało znaczenie rzemiosła, ponieważ to głównie rzemiosło świad-
czyło prywatne usługi społeczeństwu (MOZOŁOWSKI 1980, s. 18). Jednym ze sposobów oceny efektyw-
ności danej gałęzi produkcyjnej jest ocena zmian wysokości podatku obrotowego i dochodowego, jaki
przedsiębiorstwa należące do branży odprowadzają do budżetu. Oczywiście rachunek ekonomiczny jest
bardziej uzasadniony w przypadku analizowania problemów związanych z sytuacją przedsiębiorstw
funkcjonujących w systemie wolnorynkowym. Niemniej jednak biorąc pod uwagę, że wszystkie przed-
siębiorstwa uwzględnione w badaniu funkcjonowały w jednym systemie i podlegały tym samym ramom
prawnym, porównanie ich efektywności, badanej wpływami podatkowymi, jest dopuszczalne. Takie
podejście zostało już wykorzystane w publikacji MACYRY i BŁAŻEJCZYK-MAJKI (2012).
W tej perspektywie powstają zatem pytania, czy rzeczywiście wśród prywatnych usługodawców
rzemiosło w okresie 1958-1970 odgrywało tak znaczącą rolę, na jaką wskazywali wymienieni wyżej
autorzy oraz na ile, w wyniku zmian podejścia ustawodawcy po 1958 r. do indywidualnych usługodaw-
ców, zmieniło się rozmieszczenie rzemiosła oraz przemysłu indywidualnego wspierającego przemysł
uspołeczniony w województwie poznańskim. Próbę odpowiedzi na te pytania oparto na wynikach me-
tod taksonomicznych zastosowanych dla danych podatkowych dostarczanych przez poszczególne po-
wiaty województwa poznańskiego w latach 1958-1970. Na tej podstawie możliwe było wskazanie re-
gionów, w których dana aktywność podmiotów indywidualnych miała większe znaczenie – cieszyła się
większym powodzeniem. Zmiany struktury odprowadzanych podatków obrotowego i dochodowego
w poszczególnych powiatach i miastach na prawie powiatu województwa poznańskiego zostały przea-
nalizowane w pięciu wybranych latach badanego okresu: 1958, 1961, 1964, 1967, 1970, co pozwoliło
na sformułowanie syntezy historycznej dla całego badanego okresu.
lat badanego okresu przedstawiono w tabelach 8-12, zamieszczonych w aneksie A. Informacje ilo-
ściowe, które dotyczą procesów złożonych analizowanych w czasie, można uporządkować za pomocą
tzw. kostki danych (por. rozdział 3.2). W proponowanym ujęciu kostka ta składała się z pięciu warstw.
Dla każdego roku 𝑡 = 1958, 1961, 1964, 1967, 1970 tworzy ją (34 × 6)-wymiarowa macierz obser-
wacji. Jej wiersze dotyczyły 𝑛 = 34 obiektów – powiatów i miast na prawie powiatu województwa
poznańskiego. Z kolei 𝑚 = 6 zmienne odnosiły się do wpływów budżetowych z podatków dochodo-
wych i obrotowych, wynikających z działalności przemysłu (𝑋𝑃 ), rzemiosła (𝑋𝑅𝑍 ), handlu (𝑋𝐻 ), usług
(𝑋𝑈 ) i tych wpływów podatkowych, które wynikały z prowadzenia działalności związanych z zajęciami
zawodowymi (lekarz, adwokat, dentysta, architekt itp.; 𝑋𝑍𝑍 ). Ostatnią grupę stanowiły przychody podat-
kowe uzyskane z innych działalności nieujętych w wymienionych kategoriach (𝑋𝐼 ).
Fragment macierzy obserwacji znormalizowanych w ten sposób, odnoszący się do pierwszych dzie-
więciu analizowanych powiatów w roku 1958 przedstawiono poniżej:
[12.1]
Tabela 12.1. Współczynniki zmienności oraz ich średnie dla zmiennych dotyczących znaczenia społeczno-gospodarczego
działalności indywidualnej w poszczególnych powiatach województwa poznańskiego w latach 1958-1970
Współczynniki zmienności
Nazwa zmiennej
1958 1961 1964 1967 1970 średnia
Przemysł 0,62 0,62 0,63 0,69 0,76 0,66
Rzemiosło 0,26 0,17 0,13 0,18 0,11 0,17
Handel 0,43 0,48 0,42 0,46 0,47 0,45
Usługi 0,53 0,49 0,30 0,37 0,45 0,43
Zajęcia zawodowe 0,59 0,42 0,46 0,52 0,52 0,50
Pozostali 0,69 0,58 0,41 0,36 0,45 0,50
Źródło: obliczenia własne na podstawie znormalizowanych zmiennych, zawartych w tabelach 8-12 w Aneksie A.
12.4. Dobór zmiennych diagnostycznych z wykorzystaniem taksonomii wrocławskiej 253
Analiza współczynników zmienności, zdefiniowanych osobno dla danych z każdego z badanych lat,
wykazała, że wszystkie zmienne w wystarczającym stopniu różnicują badane powiaty. Najniższe prze-
ciętnie zróżnicowanie wykazała zmienna dotycząca wpływów podatkowych z rzemiosła (𝑣̅𝑅𝑍 = 0,17),
a najwyższe wpływów podatkowych z przemysłu (𝑣̅𝑃 = 0,66). Zróżnicowanie tych ostatnich rosło przez
cały badany okres. Natomiast zróżnicowanie wpływów podatkowych z rzemiosła (𝑋𝑅𝑍 ) oraz usług (𝑋𝑈 )
stopniowo spadało do roku 1964. W przypadku pozostałych działalności (𝑋𝐼 ) tendencja taka utrzymała
się do roku 1967. Z kolei na podstawie współczynników zmienności wyznaczonych dla handlu (𝑋𝐻 )
oraz zajęć zawodowych (𝑋𝑍𝑍 ) nie można wyodrębnić jednoznacznie takich tendencji. Podsumowując,
analiza współczynników zmienności oraz ich średnich nie doprowadziła do wyłączenia z dalszych ba-
dań którejkolwiek ze zmiennych.
W drugim etapie doboru zmiennych diagnostycznych w badaniach przekrojowo-czasowych wyzna-
czono dla każdego roku macierz korelacji Pearsona (por. wzór [4.40]). W tabeli 12.2 przedstawiono
współczynniki korelacji dla każdej pary zmiennych w badanych latach oraz ich średnie. Na tej podsta-
1967 1964
wie silną korelację odnotowano jedynie w nielicznych przypadkach: 𝑟𝑅𝑍;𝐼 = −0,80; 𝑟𝑅𝑍;𝐼 = −0,70;
1967 1967
𝑟𝑅𝑍;𝑍𝑍 = −0,69; 𝑟𝑍𝑍;𝐼 = 0,69. O jedynej stałe słabnącej tendencji można mówić w przypadku korelacji
pomiędzy przemysłem a rzemiosłem (𝑟𝑃;𝑅𝑍 ).
Tabela 12.2. Współczynniki korelacji oraz ich średnie dla zmiennych dotyczących znaczenia społeczno-gospodarczego
działalności indywidualnych w poszczególnych powiatach województwa poznańskiego w latach 1958-1970
Na podstawie ostatniej kolumny tabeli 12.2 zbudowano macierz średnich współczynników korelacji
̅ 𝒕 (por. wzór [5.13]):
𝑹
1,00 −0,43 −0,28 −0,19 −0,05 0,13
−0,43 1,00 −0,53 −0,54 −0,58 −0,54
̅ 𝒕 = −0,28
𝑹
−0,53 1,00 0,47 0,38 0,15
. [12.2]
−0,19 −0,54 0,47 1,00 0,21 0,07
−0,05 −0,58 0,38 0,21 1,00 0,45
[ 0,13 −0,54 0,15 0,07 0,45 1,00 ]
254 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych
Aby wyodrębnić grupy zmiennych biorących udział w badaniu, wykorzystano, opisaną w rozdziale
5.2.3, taksonomię wrocławską. W tym celu na podstawie macierzy średnich współczynników korelacji
̅ 𝒕 [12.2] zbudowano macierz odległości. Aby podkreślić, że dotyczy ona zmiennych a nie obiektów,
𝑹
oznaczono ją jako 𝑫𝑿 [12.3]. Do jej budowy tym razem zastosowano przekształcenie [4.37]. To roz-
wiązanie zakładało, że za najdalsze względem siebie zmienne uznawane były te, które odznaczały się
najsilniejszą ujemną korelacją. Natomiast najbliższe sobie były najsilniej skorelowane dodatnio pary
zmiennych. Zatem w odniesieniu do prezentowanego przykładu, jeżeli w badanym okresie wzrost
udziału we wpływach podatkowych jednej grupy podatkowej był związany ze spadkiem udziału wpły-
wów drugiej grupy podatkowej, to odpowiednie zmienne były od siebie najdalej oddalone. Z kolei silna
dodatnia korelacja pomiędzy wpływami z dwóch grup podatkowych skutkowała, że odległość między
nimi była najmniejsza.
Wyznaczenie macierzy 𝑹̅ 𝒕 [12.2] oraz 𝑫𝑿 [12.3] pozwoliło na użycie w procesie doboru zmiennych
diagnostycznych jednej z metod taksonomicznych opisanych w rozdziale piątym. Ostatecznie w pre-
zentowanym przykładzie zastosowano taksonomię wrocławską (por. rozdział 5.2.3). Na podstawie
składowych macierzy odległości 𝑫𝑿 [12.3] wybrano najbliższe sobie zmienne. Efekty tego działania
zapisano obok macierzy odległości 𝑫𝑿 , w postaci wektora 𝒅𝐦𝐢𝐧. Obie struktury posłużyły do wyzna-
czenia najpierw grafów niezorientowanych, a następnie grafu spójnego. Ten ostatni stanowi rysu-
nek 12.1.
Rysunek 12.1. Graf spójny dla zmiennych dotyczących znaczenia społeczno-gospodarczego przemysłu i rzemiosła
w poszczególnych powiatach województwa poznańskiego w latach 1958-1970
1,03 𝑋𝑈
𝑋𝐻
1,11
𝑋𝑅𝑍 1,69
𝑋𝑃
1,32 𝑋𝑍𝑍
𝑋𝐼 1,05
Spośród wielu opcji rozcięcia grafu wrocławskiego wybrano taki, który prowadzi do podziału
zmiennych na cztery grupy: {𝑋𝑃 }, {𝑋𝑅𝑍 }, {𝑋𝐻 , 𝑋𝑈 } oraz {𝑋𝑍𝑍 , 𝑋𝐼 }. Usunięto zatem z dendrytu trzy
najdłuższe krawędzie. Zaproponowany podział jest tożsamy z wynikami reguły stopu zaproponowanej
12.4. Dobór zmiennych diagnostycznych z wykorzystaniem taksonomii wrocławskiej 255
przez Hellwiga dla 𝑘 = −0,5 (por. wzór [5.8]). W efekcie podjętych działań w prezentowanym przy-
kładzie do grupy zmiennych diagnostycznych zaliczono wpływy podatkowe z przemysłu (𝑋𝑃 ) oraz rze-
miosła (𝑋𝑅𝑍 ). Natomiast ze względu na strukturalny charakter badania zmienne dotyczące wpływów
podatkowych z handlu i usług (zmienne 𝑋𝐻 i 𝑋𝑈 ) zostały zsumowane, tworząc jedną zmienną synte-
tyczną (𝑋𝐻+𝑈 ). W ten sam sposób potraktowano także parę zmiennych 𝑋𝑍𝑍 i 𝑋𝐼 , które dotyczyły wpły-
wów podatkowych z zajęć zawodowych oraz pozostałych działalności, w efekcie czego powstała nowa
zmienna syntetyczna (𝑋𝑍𝑍+𝐼 ).
W przypadku stosowania metody k-średnich konieczne jest wskazanie liczby skupień, na które mają być
podzielone grupowane obiekty. W celu jej wyznaczenia można posłużyć się względami merytorycz-
nymi lub wesprzeć się metodami ilościowymi. Jednym z najwyżej ocenianych podejść jest wykorzysta-
nie rezultatów grupowania metodami hierarchicznymi. Podejście to zostało opisane w rozdziale 6.2.2.
W przypadku badań przestrzenno-czasowych należy oprzeć się na wynikach ze wszystkich uwzględ-
nionych w badaniu lat. Z tego powodu warto w wyznaczaniu optymalnej liczby skupień wykorzystać
własności wskaźników natężenia zmian odległości.
Jak wspomniano wcześniej, aktywność polskich przedsiębiorstw indywidualnych w latach 1958-
-1970 mierzono wielkością wpływów z podatku obrotowego i dochodowego z tych działalności. Na tej
podstawie można było wyznaczyć odległości wielowymiarowe pomiędzy powiatami województwa po-
znańskiego w badanych latach. Z kolei porównanie zmian w tych odległościach pozwoliło na wskazanie
grup powiatów, które w badanym okresie nie zmieniły swoich relacji z innymi powiatami pod wzglę-
dem struktury podatkowej (por. rozdział 4.4.3).
W rozdziale 4.1.3 oraz 4.2.3 przedstawione zostały propozycje wyznaczania odległości odpowied-
nich w porównaniach obiektów wielowymiarowych, opisanych za pomocą zmiennych strukturalnych.
W prezentowanym przykładzie ostatecznie wybrano prostszą pod względem algebraicznym odległość
Renkonena (por. wzór 4.33). Dla każdego z pięciu lat badanego okresu wyznaczona została jedna ma-
cierz odległości, która liczyła sobie 34 wiersze i 34 kolumny. Podstawą wyznaczenia każdej z nich były
wartości zmiennych uzyskane na etapie doboru zmiennych diagnostycznych. Wszystkie obliczenia ko-
nieczne do stworzenia wspomnianych pięciu macierzy odległości przeprowadzono za pomocą arkusza
kalkulacyjnego Excel. Fragment macierzy odległości 𝑫𝟏𝟗𝟓𝟖 , którą wyznaczono dla powiatów woje-
wództwa poznańskiego, grupowanych ze względu na wpływy podatkowe w 1958 r., przedstawiono po-
niżej:
0,00 0,19 0,09 0,10 0,14 0,11 0,18 0,08 ⋯
0,19 0,00 0,13 0,25 0,26 0,11 0,23 0,24 ⋯
0,09 0,13 0,00 0,18 0,16 0,10 0,19 0,17 ⋯
0,10 0,25 0,18 0,00 0,18 0,14 0,13 0,08 ⋯
𝑫𝟏𝟗𝟓𝟖 = 0,14 0,26 0,16 0,18 0,00 0,25 0,13 0,19 ⋯. [12.4]
0,11 0,11 0,10 0,14 0,25 0,00 0,21 0,14 ⋯
0,18 0,23 0,19 0,13 0,13 0,21 0,00 0,19 ⋯
0,08 0,24 0,17 0,08 0,19 0,14 0,19 0,00 ⋯
[ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱]
256 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych
Należy w tym miejscu podkreślić, że różnice w wartościach względnych wskaźników natężenia za-
warte w macierzy 𝑫𝑾 [12.5] oraz w tabeli 4.26 wynikają z faktu, że w pierwszym przypadku korzystano
ze zmodyfikowanej w procesie doboru zmiennych diagnostycznych listy zmiennych, a w drugim pod-
stawą obliczeń były macierze odległości wyznaczone w oparciu o wszystkie zmienne.
Na podstawie danych zawartych we fragmencie macierzy 𝑫𝑾 [12.5] można powiedzieć, że względ-
nie najmniejsze średnie różnice odległości wielowymiarowych w badanym okresie odnotowano pomię-
(𝑤)
dzy powiatem jarocińskim i kępińskim (𝑤7;5 = 0,09). Odległości średnio z roku na rok wahały się
o 9%. Z kolei najbardziej w badanym okresie oddaliły się od siebie pod względem struktury wpływów
(𝑤)
podatkowych z działalności indywidualnej powiaty kolski i gostyński (𝑤8;3 = 2,29). Przeciętnie z roku
na rok odległości między nimi różniły się o blisko 230%.
Na podstawie macierzy względnych wskaźników natężenia 𝑫𝑾 [12.5] przeprowadzono grupowanie
powiatów. Zastosowano jedną z metod hierarchicznych – metodę Warda, opisaną rozdziale 6.1.3. Jej
wyniki obrazuje dendrogram (rysunek 12.2), którego optymalny punkt przecięcia ustalono w oparciu
o regułę pierwszego znaczącego skoku odległości aglomeracyjnej (rysunek 12.3). Wyniki grupowa-
nia aglomeracyjnego wskazały, że przy uwzględnieniu relacji pomiędzy badanymi obiektami w każdym
rozpatrywanym roku, optymalnym rozwiązaniem był podział na pięć grup powiatów, uzyskany metodą
𝑘-średnich.
12.5. Wyznaczenie liczby skupień w badaniach przestrzenno-czasowych 257
Rysunek 12.2. Dendrogram grupowania metodą Warda powiatów województwa poznańskiego pod względem przeciętnych
zmian w odległościach pomiędzy obiektami w latach 1958-1970 (odległość: macierz względnych wskaźników
natężenia)
2,0
1,5
Odległość wiązania
1,0
0,5
0,0
p9
p8
p7
p6
p5
p2
p4
p3
p1
p23
p20
p13
p24
p29
p33
p16
p19
p10
p32
p30
p26
p15
p21
p28
p27
p18
p25
p14
p31
p17
p12
p11
p34
p22
Źródło: opracowanie własne z wykorzystaniem programu Statistica.
Rysunek 12.2. Wykres przebiegu aglomeracji w grupowaniu metodą Warda powiatów województwa poznańskiego
pod względem przeciętnych zmian w odległościach pomiędzy obiektami w latach 1958-1970
(odległość: macierz względnych wskaźników natężenia)
2,0
1,5
Odległość wiązania
1,0
0,5
0,0
-0,5
0 4 8 12 16 20 24 28 32
Etap wiązania
Tabela 12.3. Średnie wartości zmiennych wraz z odchyleniami standardowymi w wyodrębnionych grupach powiatów
ze względu na strukturę wpływów podatkowych z działalności indywidualnych w 1958 r.
Zajęcia zawo-
Skupienia powiatów Przemysł Rzemiosło Handel i usługi
dowe i pozostali
Kępno, Kościan, Ostrów, Ostrzeszów,
Pleszew, Poznań, Śrem, Środa, Szamo-
𝑠 0,09 [0,05] 0,70 [0,06] 0,16 [0,06] 0,05 [0,02]
tuły, Gniezno m., Kalisz m., Leszno m., 1
Ostrów m., Piła m.
Gostyń, Jarocin, Koło, Leszno, Między-
chód, Oborniki, Rawicz, Wągrowiec, 𝑠2 0,11 [0,04] 0,50 [0,05] 0,28 [0,04] 0,11 [0,05]
Września
Chodzież, Czarnków, Gniezno, Kalisz,
𝑠3 0,23 [0,07] 0,43 [0,06] 0,21 [0,05] 0,14 [0,04]
Konin, Turek, Wolsztyn
Krotoszyn, Nowy Tomyśl 𝑠4 0,02 [0,03] 0,46 [0,03] 0,43 [0,03] 0,09 [0,03]
Trzcianka, Słupca 𝑠5 0,22 [0,03] 0,26 [0,07] 0,39 [0,11] 0,13 [0,00]
Rysunek 12.4. Powiaty województwa poznańskiego pogrupowane ze względu strukturę wpływów podatkowych
z działalności indywidualnych w 1958 r.
Tabela 12.4. Średnie wartości zmiennych wraz z odchyleniami standardowymi w wyodrębnionych grupach powiatów
ze względu na strukturę wpływów podatkowych z działalności indywidualnych w 1961 r.
Zajęcia zawo-
Skupienia powiatów Przemysł Rzemiosło Handel i usługi
dowe i pozostali
Czarnków, Kościan, Leszno, Ostrów,
Trzcianka, Pleszew, Gniezno m., 𝑠1 0,08 [0,05] 0,71 [0,04] 0,09 [0,04] 0,11 [0,04]
Leszno m., Ostrów m.
Krotoszyn, Międzychód, Nowy
Tomyśl, Poznań, Września, Kalisz m., 𝑠2 0,04 [0,03] 0,61 [0,04] 0,22 [0,06] 0,12 [0,06]
Piła m.
Chodzież, Gostyń, Jarocin, Kępno,
Koło, Konin, Ostrzeszów, Słupca, 𝑠3 0,15 [0,04] 0,60 [0,04] 0,14 [0,03] 0,12[0,05]
Śrem, Środa, Wągrowiec
Gniezno, Rawicz, Szamotuły,
𝑠4 0,16 [0,02] 0,44 [0,06] 0,21 [0,05] 0,19 [0,07]
Turek
Kalisz, Oborniki, Wolsztyn 𝑠5 0,29 [0,06] 0,43 [0,01] 0,16 [0,02] 0,12 [0,04]
Rysunek 12.5. Powiaty województwa poznańskiego pogrupowane ze względu strukturę wpływów podatkowych
z działalności indywidualnych w 1961 r.
Tabela 12.5. Średnie wartości zmiennych wraz z odchyleniami standardowymi w wyodrębnionych grupach powiatów
ze względu na strukturę wpływów podatkowych z działalności indywidualnych w 1964 r.
Zajęcia zawo-
Skupienia powiatów Przemysł Rzemiosło Handel i usługi
dowe i pozostali
Kępno, Leszno, Ostrzeszów, Poznań,
𝑠1 0,09 [0,03] 0,73 [0,02] 0,11 [0,02] 0,07 [0,02]
Leszno m.
Chodzież, Czarnków, Jarocin, Kościan,
Krotoszyn, Międzychód, Nowy To-
myśl, Pleszew, Rawicz, Śrem, Środa, 𝑠2 0,05 [0,03] 0,63 [0,05] 0,21 [0,04] 0,11 [0,03]
Szamotuły, Września, Gniezno m., Ka-
lisz m., Ostrów m., Piła m.
Gniezno, Gostyń, Koło, Konin, Obor-
niki, Ostrów, Trzcianka, Słupca, Wolsz- 𝑠3 0,12 [0,03] 0,57 [0,03] 0,17 [0,04] 0,14 [0,02]
tyn
Kalisz, Wągrowiec 𝑠4 0,21 [0,05] 0,46 [0,02] 0,18 [0,01] 0,15 [0,01]
Turek 𝑠5 0,10 [0,00] 0,41 [0,00] 0,22 [0,00] 0,28 [0,00]
Rysunek 12.6. Powiaty województwa poznańskiego pogrupowane ze względu strukturę wpływów podatkowych
z działalności indywidualnych w 1964 r.
Tabela 12.6. Średnie wartości zmiennych wraz z odchyleniami standardowymi w wyodrębnionych grupach powiatów
ze względu na strukturę wpływów podatkowych z działalności indywidualnych w 1967 r.
Zajęcia zawodowe
Skupienia powiatów Przemysł Rzemiosło Handel i usługi
i pozostali
Gniezno, Jarocin, Kępno, Ko-
ścian, Leszno, Ostrzeszów, Po-
𝑠1 0,05 [0,03] 0,71 [0,06] 0,12 [0,03] 0,11 [0,04]
znań, Śrem, Środa, Gniezno m.,
Leszno m., Ostrów m.
Gostyń, Kalisz, Konin, Oborniki,
𝑠2 0,14 [0,02] 0,59 [0,05] 0,12 [0,04] 0,16 [0,03]
Ostrów, Trzcianka
Chodzież, Czarnków, Koło, Kro-
toszyn, Nowy Tomyśl, Pleszew,
Rawicz, Słupca, Szamotuły, Wą- 𝑠3 0,05 [0,03] 0,55 [0,04] 0,22 [0,04] 0,18 [0,05]
growiec, Września, Kalisz m.,
Piła m.
Międzychód, Wolsztyn 𝑠4 0,19 [0,00] 0,44 [0,08] 0,18 [0,07] 0,20 [0,00]
Turek 𝑠5 0,08 [0,00] 0,34 [0,00] 0,24 [0,00] 0,34 [0,00]
Rysunek 12.7. Powiaty województwa poznańskiego pogrupowane ze względu strukturę wpływów podatkowych
z działalności indywidualnych w 1967 r.
Tabela 12.7. Średnie wartości zmiennych wraz z odchyleniami standardowymi w wyodrębnionych grupach powiatów
ze względu na strukturę wpływów podatkowych z działalności indywidualnych w 1970 r.
Zajęcia zawodowe
Skupienia powiatów Przemysł Rzemiosło Handel i usługi
i pozostali
Gniezno, Gostyń, Kępno, Ko-
ścian, Leszno, Oborniki, Ostrze-
𝑠1 0,06 [0,03] 0,76 [0,05] 0,13 [0,04] 0,05 [0,02]
szów, Trzcianka, Poznań, Śrem,
Szamotuły, Września, Leszno m.
Chodzież, Czarnków, Jarocin,
Koło, Krotoszyn, Nowy Tomyśl,
Pleszew, Rawicz, Słupca, Wągro- 𝑠2 0,04 [0,03] 0,66 [0,03] 0,22 [0,03] 0,08 [0,02]
wiec, Gniezno m., Ostrów m.,
Piła m.
Kalisz, Ostrów, Środa 𝑠3 0,19 [0,01] 0,66 [0,03] 0,09 [0,03] 0,06 [0,03]
Konin, Wolsztyn 𝑠4 0,14 [0,01] 0,60 [0,05] 0,18 [0,02] 0,08 [0,02]
Międzychód, Turek, Kalisz m. 𝑠5 0,06 [0,02] 0,54 [0,03] 0,30 [0,05] 0,09 [0,05]
Rysunek 12.8. Powiaty województwa poznańskiego pogrupowane ze względu strukturę wpływów podatkowych
z działalności indywidualnych w 1970 r.
W wyniku zastosowania analizy 𝑘-średnich uzyskano dla każdego z badanych lat nieco odmienny po-
dział powiatów ze względu na strukturę wpływów podatkowych z działalności indywidualnych w latach
1958-1970. Aby dokonać periodyzacji wspomnianego okresu, należy odpowiedzieć na pytanie, na ile
grupowania przeprowadzone dla pięciu wybranych lat okresu 1958-1970 są ze sobą zgodne. Zadanie to
jest dość złożone, ponieważ każde ze wspomnianych grupowań oparto o cztery wymiary. Zmienne
uwzględnione w badaniu to udział wpływów podatkowych z przemysłu (𝑋𝑃 ), rzemiosła (𝑋𝑅𝑍 ), handlu
i usług (𝑋𝐻+𝑈 ) oraz zajęć zawodowych i z pozostałych działalności (𝑋𝑍𝑍+𝐼 ).
Aby odpowiedzieć na powyższe pytanie porównywano zatem uzyskane wyniki dla każdego roku.
W tym celu skorzystano z możliwości jakie daje zastosowanie uogólnionego współczynnika Sokala-
-Michenera (por. wzór [4.27]). Jeżeli w wyniku grupowania przeprowadzonego dla danego roku
(𝑡 = 1958, 1961, 1964, 1967, 1970) dwa powiaty (powiat 𝑖-ty oraz 𝑗-ty) znalazły się w jednym sku-
pieniu, to współczynnik zgodności 𝑧𝑖𝑗𝑡 przyjmował wartość jeden. W pozostałych przypadkach wartość
tego współczynnika była równa zeru. Oszacowania współczynników zgodności wyników grupowania
dla powiatu chodzieskiego (𝑝1 ) i powiatu czarnkowskiego (𝑝2 ) przedstawiono w pierwszym wierszu
tabeli 12.8. Wynika z niego, że powiaty te należały do jednego skupienia w roku 1958, 1964, 1967 oraz
1970. Podobnie postąpiono z każdą parą powiatów. W ten sposób uzyskano 561 (𝑛(𝑛 − 1)/2) wartości
współczynników zgodności dla każdego roku.
Tabela 12.8. Wartości wybranych współczynników zgodności wyników grupowania ze względu na strukturę
wpływów podatkowych z działalności indywidualnych w wybranych latach okresu 1958-1970
Rok badania
t = 1958 1961 1964 1967 1970
Porównywane powiaty
chodzieski i czarnkowski 𝑧1;2;𝑡 1 0 1 1 1
chodzieski i gnieźnieński 𝑧1;3;𝑡 1 0 0 0 0
chodzieski i gostyński 𝑧1;4;𝑡 0 1 0 0 0
chodzieski i jarociński 𝑧1;5;𝑡 0 1 1 0 1
chodzieski i kaliski 𝑧1;6;𝑡 1 0 0 0 0
… … … … … … …
czarnkowski i gnieźnieński 𝑧2;3;𝑡 1 0 0 0 0
czarnkowski i gostyński 𝑧2;4;𝑡 0 0 0 0 0
czarnkowski i jarociński 𝑧2;5;𝑡 0 0 1 0 1
czarnkowski i kaliski 𝑧2;6;𝑡 1 0 0 0 0
… … … … … … …
Ostrów m. i Piła m. 𝑧33;34;𝑡 1 0 1 0 1
Źródło: opracowanie własne w oparciu o wyniki grupowania metodą 𝑘-średnich dla każdego roku.
grupowania uzyskane dla roku 1967 oraz 1970. W tym przypadku wartość uogólnionego współczynnika
Sokala-Michenera 𝑠1967;1970 = 0,71 wskazywała, że 71% ze wszystkich wskaźników zgodności przy-
jęło tę samą wartość.
1,00 0,64 0,61 0,64 0,60
0,64 1,00 0,61 0,65 0,61
𝑺𝒕 = 0,61 0,61 1,00 0,68 0,63 . [12.6]
0,64 0,65 0,68 1,00 0,71
[0,60 0,61 0,63 0,71 1,00]
Macierz podobieństwa 𝑺𝒕 [12.6] stała się podstawą do wyznaczenia macierzy niezgodności procen-
towej 𝑫𝒕 [12.7]. Jak wspomniano w rozdziale 4.2.1, w tym celu konieczne było wykorzystanie prze-
kształcenia [4.22].
1,00 0,36 0,39 0,36 0,40
0,36 1,00 0,39 0,35 0,39
𝑫𝒕 = 0,39 0,39 1,00 0,32 0,37 . [12.7]
0,36 0,35 0,32 1,00 0,29
[0,40 0,39 0,37 0,29 1,00]
Macierz 𝑫𝒕 [12.7] stała się podstawą grupowania pięciu uwzględnionych w badaniu lat, dla których
przeprowadzono regionalizację powiatów ze względu na strukturę wpływów podatkowych z działalno-
ści indywidualnych w latach 1958-1970. Tym razem wykorzystano metodę Warda, opisaną w roz-
dziale 6.1.3. Jej wyniki przedstawia dendrogram na rysunku 12.9. Dodatkowo wykres przebiegu aglo-
meracji (rysunek 12.10) wskazuje, że o pierwszym znaczącym skoku odległości wiązania można mó-
Rysunek 12.9. Dendrogram grupowania metodą Warda poszczególnych lat, dla których przeprowadzono grupowanie
powiatów województwa poznańskiego pod względem struktury wpływów podatkowych z działalności
indywidualnych w latach 1958-1970 (odległość: niezgodność procentowa)
0,36
0,35
0,34
0,33
Odległość wiązania
0,32
0,31
0,30
0,29
0,28
0,27
1970 1967 1964 1961 1958
S1 S2 S3 S4
Rysunek 12.10. Wykres przebiegu aglomeracji w grupowaniu poszczególnych lat, dla których przeprowadzono grupowanie
powiatów województwa poznańskiego pod względem struktury wpływów podatkowych z działalności indy-
widualnych w latach 1958-1970 (odległość: niezgodność procentowa)
0,37
0,36
0,35
0,34
Odległość wiązania
0,33
0,32
0,31
0,30
0,29
0,28
0,27
0 1 2 3 4 5
Etap wiązania
wić już po pierwszym etapie wiązania. Zatem w interpretacji przestrzenno-czasowej wpływów podat-
kowych z działalności indywidualnej w poszczególnych powiatach województwa poznańskiego w la-
tach 1958-1970 można połączyć interpretację dla wyników grupowania z dwóch ostatnich lat. Rezultaty
grupowania powiatów ze względu na strukturę wpływów podatkowych z działalności indywidualnych
w pozostałych latach należy interpretować osobno.
Tabela 12.9. Średnie wartości zmiennych wraz z odchyleniami standardowymi w skupieniach powiatów o najwyższym
udziale wpływów podatkowych z działalności rzemiosła w województwie poznańskim latach 1958-1970
Zajęcia
Handel
Rok Powiaty Przemysł Rzemiosło zawodowe
i usługi
i pozostali
Leszno m., Kępno, Kościan, Ostrów,
Ostrzeszów, Pleszew, Poznań, Śrem,
1958 0,09 [0,05] 0,70 [0,06] 0,16 [0,06] 0,05 [0,02]
Środa, Szamotuły, Gniezno m., Kalisz
m., Ostrów m., Piła m.
Leszno m., Kościan, Czarnków,
1961 Leszno, Ostrów, Trzcianka, Pleszew, 0,08 [0,05] 0,71 [0,04] 0,09 [0,04] 0,11 [0,04]
Gniezno m., Ostrów m.
Leszno m., Kępno, Leszno,
1964 0,09 [0,03] 0,73 [0,02] 0,11 [0,02] 0,07 [0,02]
Ostrzeszów, Poznań
Leszno m., Leszno, Kępno, Kościan,
Gniezno, Ostrzeszów, Poznań, Śrem,
1967 0,05 [0,03] 0,71 [0,06] 0,12 [0,03] 0,11 [0,04]
Środa, Gniezno m., Ostrów m.,
Jarocin,
Leszno m., Leszno, Kępno, Kościan,
Gniezno, Ostrzeszów, Poznań, Śrem,
1970 0,06 [0,03] 0,76 [0,05] 0,13 [0,04] 0,05 [0,02]
Gostyń, Oborniki, Trzcianka,
Szamotuły, Września
W nawiasach kwadratowych wstawiono wartości odchyleń standardowych.
Źródło: opracowanie własne w oparciu od grupowania metodą 𝑘-średnich.
uspołecznionych miały marginalne znaczenie. Można tu wymienić usługi kominiarskie oraz fotogra-
ficzne, konserwację dźwigów, naprawę wag czy maszyn biurowych.
Ściśle związana z działalnością rzemieślniczą w okresie PRL była indywidualna działalność prze-
mysłowa (NIEWADZI 1958, s 8-9). W przypadku indywidualnej działalności przemysłowej trudno mó-
wić w odniesieniu do powiatów województwa poznańskiego o tak jednoznacznej tendencji, jak w przy-
padku rzemiosła (por. tabelę 12.10). Pamiętając, że uzyskane wyniki można traktować jako procentowy
udział w budżetach powiatów, a nie jako udział wyrażony w wartościach bezwzględnych, można zau-
ważyć utrzymujące się wysokie znaczenie podatków dochodowych i obrotowych z tej działalności
w powiecie kaliskim oraz wolsztyńskim.
Tabela 12.10. Średnie wartości zmiennych wraz z odchyleniami standardowymi w skupieniach powiatów o najwyższym
udziale wpływów podatkowych z indywidualnej działalności przemysłowej województwie poznańskim
w latach 1958-1970
Zajęcia
Rok Skupienia powiatów Przemysł Rzemiosło Handel i usługi zawodowe
i pozostali
Chodzież, Czarnków,
1958 Gniezno, Kalisz, Konin, 0,23 [0,07] 0,43 [0,06] 0,21 [0,05] 0,14 [0,04]
Turek, Wolsztyn
1958 Trzcianka, Słupca 0,22 [0,03] 0,26 [0,07] 0,39 [0,11] 0,13 [0,00]
1961 Kalisz, Oborniki, Wolsztyn 0,29 [0,06] 0,43 [0,01] 0,16 [0,02] 0,12 [0,04]
1964 Kalisz, Wągrowiec 0,21 [0,05] 0,46 [0,02] 0,18 [0,01] 0,15 [0,01]
1967 Międzychód, Wolsztyn 0,19 [0,00] 0,44 [0,08] 0,18 [0,07] 0,20 [0,00]
1970 Kalisz, Ostrów, Środa 0,19 [0,01] 0,66 [0,03] 0,09 [0,03] 0,06 [0,03]
Tabela 12.11. Średnie wartości zmiennych wraz z odchyleniami standardowymi w skupieniach powiatów o znaczącym
udziale wpływów podatkowych z indywidualnej działalności handlowej i usługowej w województwie po-
znańskim w latach 1958-1970
Zajęcia
Rok Skupienia powiatów Przemysł Rzemiosło Handel i usługi zawodowe
i pozostali
1958 Krotoszyn, Nowy Tomyśl 0,02 [0,03] 0,46 [0,03] 0,43 [0,03] 0,09 [0,03]
1958 Trzcianka, Słupca 0,22 [0,03] 0,26 [0,07] 0,39 [0,11] 0,13 [0,00]
Krotoszyn, Nowy Tomyśl, Międzychód,
1961 0,04 [0,03] 0,61 [0,04] 0,22 [0,06] 0,12 [0,06]
Września, Poznań, Kalisz m., Piła m.
1961 Gniezno, Rawicz, Szamotuły, Turek 0,16 [0,02] 0,44 [0,06] 0,21 [0,05] 0,19 [0,07]
1964 Turek 0,10 [0,00] 0,41 [0,00] 0,22 [0,00] 0,28 [0,00]
Krotoszyn, Nowy Tomyśl, Międzychód, ,
Września, Kalisz m., Piła m. Chodzież,
1964 Czarnków, Jarocin, Kościan, Pleszew, 0,05 [0,03] 0,63 [0,05] 0,21 [0,04] 0,11 [0,03]
Rawicz, Śrem, Środa, Szamotuły,
Gniezno m., Ostrów m.,
1967 Turek 0,08 [0,00] 0,34 [0,00] 0,24 [0,00] 0,34 [0,00]
Krotoszyn, Nowy Tomyśl, Września, Ka-
lisz m., Piła m., Chodzież, Czarnków,
1967 0,05 [0,03] 0,55 [0,04] 0,22 [0,04] 0,18 [0,05]
Koło, Pleszew, Rawicz, Słupca, Szamo-
tuły, Wągrowiec,
1970 Międzychód, Kalisz m., Turek, 0,06 [0,02] 0,54 [0,03] 0,30 [0,05] 0,09 [0,05]
Krotoszyn, Nowy Tomyśl, Chodzież,
Czarnków, Jarocin, Koło, Pleszew, Ra-
1970 0,04 [0,03] 0,66 [0,03] 0,22 [0,03] 0,08 [0,02]
wicz, Słupca, Wągrowiec, Gniezno m.,
Ostrów m., Piła m.
Źródło: opracowanie własne w oparciu od grupowania metodą 𝑘-średnich.
Wyniki grupowania uwzględniające skupienia, w których udział handlu i usług był znaczący,
przedstawiono w tabeli 12.11. Wśród powtarzających się najczęściej w uzyskanych skupieniach powia-
tów o relatywnie najwyższym udziale podatków od tej grupy przedsiębiorców w podatkach ogółem
z działalności indywidualnych w budżetach powiatowych, można wymienić powiat krotoszyński, no-
wotomyski, turecki, rawicki oraz miasta: Kalisz i Piłę. Wydaje się, że zwiększony udział przychodów
podatkowych z handlu i usług miał miejsce w powiatach, w których rzemiosło odgrywało mniej zna-
czącą rolę. Należy podkreślić że w każdym z badanych okresów wyodrębniono dwa skupienia o rela-
tywnie wysokim, ale zbliżonym poziomie udziału w podatkach ogółem przychodów z działalności han-
dlowej i usługowej. Można zatem powiedzieć, że zmienność w obszarze udziału handlu i usług, mimo
stosunkowo wysokiego udziału w wpływach podatkowych z działalności indywidualnych, ani razu
w badanym okresie nie przesądziła o specyficznym charakterze wyodrębnionych skupień. Ma to za-
pewne uzasadnienie praktyczne. Trudno mówić o możliwościach rozwoju tej dziedziny gospodarowa-
niaw oderwaniu od pozostałych obszarów życia gospodarczego. Co więcej, o ilości punktów handlo-
wych i usługowych w latach 60. i 70. ubiegłego wieku przesądzał także dostęp do towarów czy mate-
riałów, który w warunkach gospodarki socjalistycznej był ograniczony.
12.8. Podsumowanie badań przestrzenno-czasowych 271
5
Rozporządzenie Ministra Finansów z dnia 7 grudnia 1956 r. w sprawie zwolnienia od podatków nowozakła-
danych drobnych zakładów rzemieślniczych i chałupniczych oraz przemysłu ludowego i domowego (Dz.U. 1956
nr 60, poz. 289); Rozporządzenie Ministra Finansów z dnia 8 grudnia 1956 r. w sprawie poboru w formie ryczałtu
podatków obrotowego i dochodowego od osób prowadzących zakłady rzemieślnicze (Dz.U. 1956 nr 60, poz. 290);
Rozporządzenie Ministra Finansów z dnia 8 grudnia 1956 r. w sprawie kart podatkowych dla drobnych rzemieśl-
ników (Dz.U. 1956 nr 60, poz. 291).
272 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych
6
Ustawa z dnia 29 marca 1965 r. o ubezpieczeniu społecznym rzemieślników (Dz.U. 1965 nr 13, poz. 90).
12.8. Podsumowanie badań przestrzenno-czasowych 273
doboru zmiennych, który w analizach przestrzenno-czasowych wymaga, aby ostateczny zbiór zmien-
nych diagnostycznych był uniwersalny i dotyczył każdego z badanych lat, i w konsekwencji gwaranto-
wał porównywalność uzyskanych wyników w czasie. Po drugie, dzięki zastosowaniu metody k-średnich
pogrupowano powiaty ze względu na strukturę wpływów podatkowych od indywidualnych przedsię-
biorców – de facto przeprowadzono ich regionalizację. Następnie na podstawie wyników grupowania
powiatów, uzyskanych dla każdego z badanych lat, dokonano periodyzacji.
Punktem wyjścia do przeprowadzenia przestrzenno-czasowej syntezy historycznej na podstawie
wpływów podatkowych z działalności indywidualnych w powiatach województwa poznańskiego w la-
tach 1958-1970 była normalizacja zmiennych. Zaproponowane przekształcenia ilorazowe ograniczają
wpływ inflacji i prowadzą do prezentacji danych w formie, która umożliwiła ich interpretację na dal-
szych etapach badania. Prezentowany przykład obrazuje jednak, jak zagadnienie normalizacji może być
złożone – konieczna jest duża świadomość merytoryczna historyka przy podejmowaniu decyzji o tego
typu przekształceniach.
W przypadku badań przestrzenno-czasowych, jak wspominano wcześniej, dobór zmiennych powi-
nien być przeprowadzony w ten sposób, aby możliwe było przeprowadzenie grupowania na ich podsta-
wie w każdym z badanych lat, których podstawą byłby ten sam zestaw zmiennych. Aby zrealizować to
zadanie, posłużono się macierzą średnich współczynników korelacji pomiędzy wartościami wszystkich
zmiennych, dla których dostępne były dane ilościowe. Jej przekształcenie w macierz odległości pozwo-
liło już zastosować dualne procedury doboru zmiennych diagnostycznych, stosowane w grupowaniach
uwzględniających jedynie dwie perspektywy badania. W prezentowanym przykładzie posłużono się
taksonomią wrocławską. Na podstawie jej wyników dokonano syntezy najbliższych sobie zmiennych.
Takie postępowanie sprawiło, że przyjęty ostatecznie zbiór zmiennych zagwarantował porównywalność
uzyskanych wyników grupowania przeprowadzonych dla wybranych lat badanego okresu.
W przypadku większego zbioru grupowanych obiektów rekomendowane są metody optymaliza-
cyjne. W prezentowanym przykładzie zastosowano metodę 𝑘-średnich. Jednak na jej podstawie, w od-
różnieniu od metod hierarchicznych, uzyskiwane są grupy obiektów – w prezentowanym przykładzie
były to powiaty – o nieznanej strukturze wewnętrznej. Ten niedostatek metod kombinatorycznych
można zrekompensować, stosując w celu zdefiniowania pożądanej liczby skupień, jedną z metod hie-
rarchicznych. W zagadnieniu dotyczącym struktury wpływów podatkowych z działalności indywidual-
nych zastosowano metodę Warda w oparciu o macierz względnych wskaźników natężenia, która
uwzględniała zmiany odległości pomiędzy obiektami, jakie nastąpiły w całym badanym okresie.
Ostatnie zadanie, związane z periodyzacją badanego okresu, okazało się nie tyle złożone, co praco-
chłonne. Rezultaty regionalizacji poszczególnych obiektów porównywano parami w każdym okresie.
Na podstawie wyznaczonych w ten sposób wskaźników zgodności, zbudowano macierz podobieństwa
uzyskanych wyników dla poszczególnych lat badanego okresu. Dysponując tym narzędziem, dokonano
periodyzacji. Teoretycznie dla prezentowanego zagadnienia możliwa jest także podobna analiza, prze-
prowadzona jednak w oparciu o macierz podobieństwa wyznaczoną pomiędzy poszczególnymi powia-
tami i uwzględniająca wyniki ze wszystkich lat badanego okresu. W prezentowanym przykładzie, mimo
że uogólnienie pięciu wyników regionalizacji wydaje się bardzo atrakcyjnym tematem, działania tego
zaniechano. Decyzja ta wynikała z rezultatów wspomnianej już periodyzacji, która wskazywała na moż-
liwość syntezy tylko w obszarze dwóch ostatnich lat, dla których dokonano regionalizacji.
Analizę dotyczącą zagadnienia wpływów podatkowych z działalności indywidualnych można oczy-
wiście przeprowadzić, ograniczając się jedynie, do stosowanych zwykle w takich sytuacjach, uśrednień.
Należy jednak pamiętać, że takie postępowanie ogranicza się zawsze tylko do jednej perspektywy ba-
274 12. Synteza przestrzenno-czasowa na przykładzie struktury wpływów podatkowych
dawczej. W prezentowanym przykładzie można dokonać tego typu uogólnień cząstkowych albo w od-
niesieniu do wszystkich powiatów województwa poznańskiego, albo do poszczególnych lat badanego
okresu, albo w perspektywie wpływów podatkowych z działalności indywidualnych uwzględnionych
w badaniu. Podsumowując zatem, zastosowanie metod taksonomicznych w badaniach przestrzenno-
czasowych z pewnością można uznać za proces złożony. Wysiłek włożony w obliczenia prowadzi jed-
nak do syntez uwzględniających jednocześnie wszystkie perspektywy badawcze, co w konsekwencji
prowadzi do uzyskania możliwie pełnego obrazu badanego zjawiska historycznego.
13
Zakończenie
Opracowania
A
Ackoff R.L. (1969): Decyzje optymalne w badaniach stosowanych. Państwowe Wydawnictwo Naukowe, Warszawa.
Afifi A.A., Clark V. (1998): Computer-Aided Multivariate Analysis (3-rd ed.). Chapman & Hall, London-Weinheim-New York-
-Tokyo-Melbourne-Madras.
Aleksandrowicz S.W. (1979): Taksonomiczna metoda zgodności rang w badaniach geologicznych. Przegląd Geologiczny,
2/310 , s. 71-74.
Anderberg M.R. (1973): Cluster Analysis for Applications, Academic Press, New York-London.
Anderson E. (1960): A Semi-graphical Method for the Analysis of Complex Problems. Technometrics, 2, s. 387-392.
Anderson K.H., Butler J.S., Sloan F.A. (1987): Labor Market Segmentation: A Cluster Analysis of Job Groupings and Barriers
to Entry. Southern Economic Journal, 53/3, s. 571-590.
Augustyńska U. (2002): Statystyczna analiza danych w badaniach pedagogicznych z wykorzystaniem programu Statistica.
Wydawnictwo Wyższej Szkoły Pedagogicznej w Częstochowie, Częstochowa.
B
Babiński G. (1980): Wybrane zagadnienia z metodologii socjologicznych badań empirycznych. Skrypt uczelniany 340. Uni-
wersytet Jagielloński, Instytut Socjologii, Kraków.
Baker F.B., Hubert L.J. (1975): Measuring of Power of Hierarchical Cluster Analysis. Journal of the American Statistical As-
sociation, 70/349, s. 31-38.
Balicki A. (2009): Statystyczna analiza wielowymiarowa i jej zastosowania społeczno-ekonomiczne. Wydawnictwo Uniwer-
sytetu Gdańskiego, Gdańsk.
Baranowski B. (1966): Struktura produkcji roślinnej w Księstwie Warszawskim. Instytut Historii Kultury Materialnej Polskiej
Akademii Nauk, Zakład Narodowy imienia Ossolińskich Wydawnictwo Polskiej Akademii Nauk, Wrocław-Warszawa-
Kraków.
Barański Z. (1969): Sytuacja ekonomiczna [w:] Z. Barański, H. Hybiak, W. Iwaszkiewicz, A. Nowicki, K. Szrejbrowski:
Rzemiosło wielkopolskie 1919-1968. Opracowanie materiałowe działalności organizacyjnej i zawodowej. Wydawnictwo
Poznańskie, Poznań, s. 58-110.
Barański Z., Hybiak H., Iwaszkiewicz W., Nowicki A., Szrejbrowski K. (1969): Rzemiosło wielkopolskie 1919-1968. Opraco-
wanie materiałowe działalności organizacyjnej i zawodowej. Wydawnictwo Poznańskie, Poznań.
Bartosiewicz S. (1976): Propozycja metody tworzenia zmiennych syntetycznych. Prace Naukowe nr 84 Akademii Ekonomicz-
nej im. Oskara Langego we Wrocławiu, Wrocław.
Bazarnik J., Grabiński T., Wojdacki K.P. (1992): Taksonomiczne metody analizy przestrzennej struktury konsumpcji [w:]
S. Mynarski (red.): Badania przestrzenne rynku i konsumpcji: przewodnik metodyczny. Państwowe Wydawnictwo Na-
ukowe, Warszawa, s. 117-160.
Berezowski S. (1959): Problem podziału Polski na regiony gospodarcze. Gospodarka Planowa, 14/3, s. 56-63.
Berezowski S. (1962): Z teorii i praktyki równomiernego rozmieszczenia sił wytwórczych. Gospodarka Planowa, 17/7,
s. 34-39.
Berry B. J. L. (1961): A Method for Deriving Multifactor Uniform Regions. Przegląd Geograficzny, 33/2, s. 263-282.
Białobrzeski J. (1974): Opodatkowanie rzemiosła i innej działalności zarobkowej. Przepisy i komentarz wg stanu prawnego na
dzień 1 marca 1974 r. Wydawnictwo Prawnicze, Warszawa.
Blashfield R.K. (1976): Mixture Model Tests of Cluster Analysis: Accuracy of Four Agglomerative Hierarchical Methods. Psy-
chological Bulletin, 83/3, s. 377-387.
Błaczkowska A., Grześkowiak A., Przybysz K. (2008): Analiza porównawcza struktury wieku w państwach Unii Europejskiej.
Przegląd Statystyczny, 55/4, s. 114-115.
Błaczkowska A., Stanimir A. (2006): Skale pomiarowe [w:] Analiza danych marketingowych. Problemy, metody, przykłady.
Wydawnictwo Akademii Ekonomicznej im. O. Langego we Wrocławiu, Wrocław, s. 17-25.
280 Bibliografia
Błażejczyk-Majka L., Kala R. (2005): Metody analizy skupień do charakterystyki użytków rolniczych wybranych państw unij-
nych i Polski. Roczniki Naukowe Stowarzyszenia Ekonomistów Rolnictwa i Agrobiznesu, 7/5, str. 5–10.
Borowski S. (1962): Gospodarstwa rolne w Wielkopolsce w latach 1807-1823 w świetle współczesnej statystyki. Studia i Ma-
teriały do Dziejów Wielkopolski i Pomorza, 14/7/2, s. 79-137.
Borowski S. (1964): Gospodarce podłoże zmian ludnościowych w Wielkopolsce w latach 1807-1914. Roczniki Dziejów Spo-
łecznych i Gospodarczych, 25, s. 73-98.
Borowski S. (1967): Zgony i wiek zmarłych w Wielkopolsce w latach 1806-1914. Przeszłość Demograficzna Polski, Materiały
i Studia, 1, s. 111-130.
Borowski S. (1970): Rozwój demograficzny a problem maltuzjański na ziemiach polskich pod panowaniem niemieckim w la-
tach 1807-1914. Przeszłość Demograficzna Polski, Materiały i Studia, 3, s. 125-142.
Borys T. (1978): Metody normowania cech statystycznych w badaniach porównawczych. Przegląd Statystyczny, 25/2, s. 227-
-239.
Borys T. (1982): Przedmiot i podział statystyki i ekonometrii – artykuł dyskusyjny. Wiadomości Statystyczne, 5, s. 9-12.
Brandt S. (1974): Metody statystyczne i obliczeniowe analizy danych. Państwowe Wydawnictwo Naukowe, Warszawa.
Bray J.R., Curtis J.T. (1957): An Ordination of the Upland Forest Communities of Southern Wisconsin. Ecological Monogra-
phs, 27/4, s. 325-349.
Brzeziński J. (1980): Elementy metodologii badań psychologicznych. Państwowe Wydawnictwo Naukowe, Warszawa.
Buch W. (1960): Problemy rozmieszczenia przemysłu na tle ogólnych założeń planu perspektywicznego. Gospodarka Plano-
wa, 15/8-9, s. 28-34.
Bukietyński W., Hellwig Z., Królik U., Smoluk A. (1969): Uwagi o dyskryminacji zbiorów skończonych. Prace Naukowe
Wyższej Szkoły Ekonomicznej we Wrocławiu nr 21, Wrocław, s. 111-122.
Bunge M. (1968): O przyczynowości. Miejsce zasady przyczynowej we współczesnej nauce. Państwowe Wydawnictwo Na-
ukowe, Warszawa.
Bunge W. (1962): Theoretical geography. The Royal University of Lund, C.W.K. Gleerup, Lund.
Bunge W. (1966): Appendix to Theoretical Geography. The Royal University of Lund, C.W.K. Gleerup, Lund.
Buzek J. (1915): Pogląd na wzrost ludności na ziemiach ziem polskich w wieku 19-tym. Centralne Biuro Wydawnictw N.K.N.,
Kraków.
C
Caliński T., Harabasz J. (1974): A Dendrite Method for Cluster Analysis. Communications in Statistics, 3, s. 1-27.
Cameron S., Richardson S. (2005): Using Computers in History. Palgrave Mackmillan, New York.
Camper P. (1791): Dissertation physique de Mr. Pierre Camper, sur les différences réelles que présentent les traits du visage
chez les hommes de différents pays et de différents âges, sur le beau qui caractèrise les statues antiques et les pierres gra-
vées: suivie de la proposition d’une nouvelle méthode pour déssiner toutes sortes de têtes humaines avec la plus grande
sûreté. Chez B. Wild & J. Altheer, Utrecht.
Cronbach, L., Gleser, G. (1953): Assessing Similarity Between Profiles. Psychological Bulletin, 50, s. 456-473.
Chernoff H. (1973): Using Faces to Represent Points in k-dimensional Space Graphically. Journal of American Statistical As-
sociation, 68, s. 361-368.
Chmura-Rutkowska I., Głowacka-Sobiech E., Skórzyńska I. (2015): „Niegodne historii”? O nieobecności i stereotypowych
wizerunkach kobiet w świetle podręcznikowej narracji historycznej w gimnazjum. Wydawnictwo Naukowe Uniwersytetu
im. Adama Mickiewicza w Poznaniu, Poznań.
Chojecki D.K. (2014): Od społeczeństwa tradycyjnego do nowoczesnego. Demografia i zdrowotność głównych ośrodków
miejskich Pomorza Zachodniego w dobie przyspieszonej industrializacji i urbanizacji w Niemczech (1871-1913). Rozpra-
wy i Studia nr 884 Uniwersytetu Szczecińskiego, Szczecin.
Chojnicki Z. (1970): Podstawowe tendencje metodologiczne współczesnej geografii ekonomicznej. Przegląd Geograficzny,
42/2, s. 199-214.
Chojnicki Z., Czyż R. (1973): Metody taksonomii numerycznej w regionalizacji geograficznej. Państwowe Wydawnictwo
Naukowe, Warszawa.
Chomątowski S., Sokołowski A. (1978): Taksonomia struktur. Przegląd Statystyczny, 2, s. 217-125.
Choynowski M. (1971): Pomiar w psychologii [w:] J. Kozielecki (red.): Problemy psychologii matematycznej. Państwowe
Wydawnictwo Naukowe, Warszawa, s. 15-41.
Clark P.J. (1952): An Extension of the Coefficient of Divergence for Use with Multiple Characters. Copeia, 2, s. 61-64.
Constanza M.C., Afifi A.A. (1979): Comparison of Stopping Rules in Forward Stepwise Discriminant Analysis. Journal of the
American Statistical Association, 74/368, s. 777-785.
Cormack R.M. (1971): A Review of Classification (with discussion). Journal of Royal Statistical Society, seria A, 134/3, s. 321-
-367.
Cox D. R. (1957): Note on Grouping. Journal of American Statistical Association, 52/280, s. 543-547.
Cronbach L.J., Gleser, G.C. (1953): Assessing similarity between profiles. Psychological Bulletin, 50/6, s. 456-473.
Cyprian T., Sawicki J. (1948): Agresja na Polskę w świetle dokumentów, t. 1. Polski Instytut Wydawniczy, Warszawa.
Czekanowski J. (1911): Objektive Kriterien in der Ethnologie. Korrespondenz-Blatt der Deutschen Desellschaft für Anthropo-
logie, Ethnologie und Urgeschichte, 42, s.1-5.
Czekanowski J. (1913): Zarys metod statystycznych w zastosowaniu o antropologii. Prace Towarzystwa Naukowego Warszaw-
skiego nr 5, Warszawa.
Bibliografia 281
Czerwińska D., Gembarzewski H. (1975): O współczynniku Renkonena podobieństw zbiorów. Listy Biometryczne, 49-50,
s. 19-24.
Czyż T. (1967): Wyznaczanie regionów jednolitych metodą analizy czynników wielokrotnych. Przegląd Geograficzny, 39/1,
s. 135-160.
Czyż T. (1971): Zastosowanie metody analizy czynnikowej do badania ekonomicznej struktury regionalnej Polski. Ossoli-
neum, Wrocław.
D
Dąbkowski M., Laus-Mączyńska K. (1978): Metody wyszukiwania i klasyfikacji informacji. Wydawnictwa Naukowo-Tech-
niczne, Warszawa.
Dagnelie P. (1975): Analyse statistique à plusieur variables. Les Presse Agronomique, Gambloux.
Dalenius T. (1950): The Problem of Optimum Stratification. Scandinavian Actuarial Journal, 52/3-4, s. 203-213.
Daszyńska-Golińska Z. (1892): Metoda statystyki historycznej i jej dotychczasowe zdobycze. Ekonomista Polski, 11/9, s. 280-
-319.
Dillon W.R., Goldstein M. (1984): Multivariate Analysis: Methods and Applications. John Wiley & Sons, New York-Chich-
ester-Brisbane-Toronto-Singapore.
Dimitradou E., Dolnicar S., Weingessel A. (2002): An Examination of Indexes for Determining the Number of Clusters in
Binary Data Sets. Psychometrika, 67/1, s. 137-160.
Domański C. (1990): Testy statystyczne. Państwowe Wydawnictwo Ekonomiczne, Warszawa.
Domański R. (1964): Procedura typologiczna w badaniach ekonomiczno-geograficznych. Przegląd Geograficzny, 36/4, s. 627-
-660.
Domański R. (1986): Przestrzenne zagospodarowanie województwa [w:] R. Domański, S. Kozarski (red.): Województwo
poznańskie. Zagadnienia geograficzne i społeczno-gospodarcze. Państwowe Wydawnictwo Naukowe, Warszawa-Poznań,
s. 555-583.
Dominik A., Ruszkowski J., Studnicki T. (1990): Geografia ekonomiczna. Przewodnik metodyczny i przykłady analizy za-
gadnień geograficznych metodami kartograficzno-ilościowymi. Skrypty uczelniane. Akademia Ekonomiczna im. Karola
Adamieckiego w Katowicach, Katowice.
Dudek A. (2013): Metody analizy danych symbolicznych w badaniach ekonomicznych. Wydawnictwo Uniwersytetu Ekonom-
iczego we Wrocławiu, Wrocław.
Dziechciarz J., Walesiak M. (1997): Segmentacja rynku – zadanie ekonometryczne. Prace Naukowe nr 750 Akademii Eko-
nomicznej im. Oskara Langego we Wrocławiu. Informatyka i Ekonometria 4: Zastosowania metod ilościowych, s. 79-
-86.
Dzieje Zakładu Przemysłu Ziemniaczanego we Wronkach (1986): S. Kowal (oprac.). Uniwersytet im. Adama Mickiewicza
w Poznaniu. Poznań.
Dzionek-Kozłowska (2008): Relacje ekonomii i historii gospodarczej w świetle Methodenstreit [w:] J. Skodlarski (red.): Hi-
storia gospodarcza i historia myśli ekonomicznej a teoria ekonomii. Wydawnictwo Uniwersytetu Łódzkiego, Łódź, s. 101-
-113.
E
Edwards A.W.F., Cavalli-Sforza L.L. (1965): A method for cluster analysis. Biometrics, 21, s. 362-375.
Ekonometria przestrzenna (1991): A. Zeliaś (red.). Państwowe Wydawnictwo Ekonomiczne, Warszawa.
Everitt B.S. (1980): Cluster analysis (2-rd ed.). Heinemann Educational Book, John Willey & Sons, New York.
Everitt B.S. (1993): Cluster analysis (3-rd ed.). Heinemann, London.
Everitt B.S., Dunn G. (1991): Applied Multivariate Data Analysis. Edward Arnold, London-Boston-Melbourne-Auckland.
Everitt B.S., Landau S., Leese M., Stahl D. (2011): Cluster analysis (5-rd ed.). John Wiley & Sons, Chichester.
F
Fajferek A. (1965): Regionalizacja regionu ekonomicznego śląsko-krakowskiego na podstawie metody różnic przeciętnych.
Przegląd Geograficzny, 2, s. 342-353.
Falniowski A. (2003): Metody numeryczne w taksonomii. Wydawnictwo Uniwersytetu Jagielońskiego, Kraków.
Fierich J. (1957): Próba zastosowania metod taksonomicznych do rejonizacji systemów rolniczych w województwie krakow-
skim. Myśl Gospodarcza, 1.
Florek K., Łukaszewicz J., Perkal J., Steinhaus H., Zubrzycki S. (1951): Sur la liaison et la division des points d’un ensemble
fini. Colloquium Mathematicae, 2, s. 282-289.
Florek K., Łukaszewicz J., Perkal J., Steinhaus H., Zubrzycki S. (1951): Taksonomia wrocławska. Przegląd Antropologiczny,
17, s. 193-211.
Foryś I, Batóg B (2016): Porównanie struktury mieszkań w obrocie w wybranych miastach północno-zachodniej Polski. Ze-
szyty Naukowe Uniwersytetu Ekonomicznego w Krakowie, 9/957, Kraków, s. 55-70.
Frankowski Z. (1991): Zastosowanie metod taksonomicznych w badaniach przestrzennych. Agencja Wydawnicza Instytutu
Gospodarki Przestrzennej i Komunalnej, Warszawa.
Frąckiewicz L., Zadęcki J (1973): Zastosowanie taksonomii wrocławskiej do badań warunków bytu i życia ludności w regio-
nach województwa katowickiego. Wiadomości Statystyczne, 9, s. 30-34.
Friedman H.P., Rubin J. (1967): On some invariant criteria for grouping data. Journal of the American Statistical Association,
62/320, s. 1159-1178.
282 Bibliografia
G
Gałuszka B. (1992a): O metodzie szacowania brakujących danych przekrojowych. Przegląd Statystyczny, 39/2, s. 165-178.
Gałuszka B. (1992b): Taksonomiczna metoda k-średnich dla niepełnych danych. Zeszyty Naukowe Akademii Ekonomicznej
w Krakowie, 388, Kraków, s. 65-78.
Gałuszka B. (1994): Szacowanie brakujących danych w szeregach przekrojowych w oparciu o taksonomiczną metodę
k-średnich (wyniki badań). Zeszyty Naukowe Akademii Ekonomicznej w Krakowie, 440, Kraków, s. 31-40.
Gatnar E., Wywiał J. (1998): Wykorzystanie metod grupowania danych do wspomagania prac nad podziałem administracyj-
nym kraju. Sekcja Klasyfikacji i Analizy Danych Polskiego Towarzystwa Statystycznego: Taksonomia 5. Klasyfikacja
i analiza danych – teoria i zastosowania, Wrocław, s. 21-26.
Gazińska M., Dmytrów K. (2000): Statystyczna analiza nadumieralności ludności wiejskiej w Polsce. Przegląd Statystyczny,
47/1-2, s. 187-197.
Gazińska M., Gaziński R. (2010): Rzemiosło w miastach Pomorza Pruskiego w 1779 i 1782r. Analiza taksonomiczna. Prace
Naukowe nr 107 Uniwersytetu Ekonomicznego we Wrocławiu: Taksonomia 17. Klasyfikacja i analiza danych – teoria
i zastosowania, Wrocław, s. 62-70.
Gieysztorowa I. (1976): Wstęp do demografii staropolskiej. Polska Akademia Nauk, Instytut Historii, Państwowe Wydawnic-
two Naukowe, Warszawa.
Gieysztorowa I. (1980): Niewiarygodność statystyki demograficznej ziem polskich w XIX w. i potrzeba jej korekty. Przeszłość
Demograficzna Polski. Materiały i Studia, 12, s. 179-190.
Giudici P. (2003): Applied Data Mining –Statistical Methods for Business and Industry. John Wiley & Sons, Chihester-West
Sussex.
Gługiewicz Z. (1960): Rejony podaży kontraktowanej trzody chlewnej w województwie poznańskim. Ruch Prawniczy, Eko-
nomiczny i Socjologiczny, 2, s. 179-210.
Gordon A.D. (1981): Classification. Methods for the Exploratory Analysis of Multivariate Data. Chapman & Hall, London.
Gordon A.D. (1987): A review of hierarchical classification. Journal of the Royal Statistical Society. Ser. A., s. 119-137.
Gordon A.D. (1999): Classification. Methods for the Exploratory Analysis of Multivariate Data (2-nd eds.). Chapman & Hall,
London.
Gorzelak G. (1981): Statystyczna analiza porównawcza – teoria i praktyka. Wiadomości Statystyczne, 8, s. 16-19.
Gower J.C. (1967a): A comparison of some methods of cluster analysis. Biometrics, 23, s. 623-638.
Gower J.C. (1967b): Some distance properties of latent root and vector methods used in multivariate analysis. Biometrica, 53,
s. 325-338.
Gower J.C. (1971): A General Coefficient of Similarity and some of its Properties. Biometrics, 27, s. 857-874.
Gower J.C., Ross G.J.S. (1969): Minimum spanning trees and single linkage cluster analysis. Journal of the Royal Statistical
Society: Series C (Applied Statistics), 18/1, s. 54-64.
Górska K. (1956): Pomiary gruntów w Wielkopolsce w końcu XVIII i w pierwszej połowie XIX wieku. Studia i Materiały do
Dziejów Wielkopolski i Pomorza, 2/1, s. 113-166.
Grabiński T. (1975a): Numeryczne metody periodyzacji rozwoju obiektów gospodarczych. Przegląd Statystyczny, 22/3, s. 435-
-444.
Grabiński T. (1975b): Statystyczna procedura ustalania faz rozwoju obiektów historycznych [w:] K. Zając (red.): Metody
statystyczne w badaniach społeczno-ekonomicznych. Studia z zastosowań statystyki w demografii, socjologii i ekonomii.
Polska Akademia Nauk – Oddział w Krakowie. Prace Komisji Socjologicznej nr 38, Zakład Narodowy Imienia Ossoliń-
skich, Wydawnictwo Polskiej Akademii Nauk, Wrocław-Warszawa-Kraków-Gdańsk, s. 15-39.
Grabiński T. (1984): Wielowymiarowa analiza porównawcza w badaniach dynamiki zjawisk ekonomicznych. Zeszyty Nauko-
we Akademii Ekonomicznej w Krakowie, Seria specjalna: Monografie, 61, Kraków.
Grabiński T. (1985): Metody określania charakteru zmiennych w wielowymiarowej analizie porównawczej. Zeszyty Naukowe
Akademii Ekonomicznej w Krakowie, 213, Kraków.
Grabiński T. (1989a): Analiza poprawności metod grupowania [w:] A. Grabiński, S. Wydymus, A. Zeliaś: Metody taksonomii
numerycznej w modelowaniu zjawisk społeczno-gospodarczych. Państwowe Wydawnictwo Naukowe, Warszawa, s. 136-
-167.
Grabiński T. (1989b): Taksonomiczne metody porządkowania i grupowania obiektów [w:] A. Grabiński, S. Wydymus, A. Ze-
liaś: Metody taksonomii numerycznej w modelowaniu zjawisk społeczno-gospodarczych. Państwowe Wydawnictwo Na-
ukowe, Warszawa, s. 49-83.
Grabiński T. (1992): Metody taksometrii. Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków.
Grabiński T. (2003): Analiza taksonometryczna krajów Europy w ujęciu regionów. Wydawnictwo Akademii Ekonomicznej
w Krakowie, Kraków.
Grabiński T., Malina A., Zeliaś A. (1990): Metody analizy danych empirycznych na podstawie szeregów przekrojowo-czaso-
wych. Skrypt uczelniany. Akademia Ekonomiczna w Krakowie, Kraków.
Grabiński T., Wydymus S., Zeliaś A. (1979): Z badań nad metodami szacowania brakujących informacji. Zeszyty Naukowe
Akademii Ekonomicznej w Krakowie, 114, Kraków, s. 31-60.
Grabiński T., Wydymus S., Zeliaś A. (1982): Metody doboru zmiennych w modelach ekonometrycznych. Państwowe Wydaw-
nictwo Naukowe, Warszawa.
Grabiński T., Wydymus S., Zeliaś A. (1989): Metody taksonomii numerycznej w modelowaniu zjawisk społeczno-gospodar-
czych. Państwowe Wydawnictwo Naukowe, Warszawa.
Bibliografia 283
Grabiński T., Zając K. (1975): Dynamiczna metoda badania struktur demograficznych [w:] K. Zając (red.): Metody statystycz-
ne w badaniach społeczno-ekonomicznych. Studia z zastosowań statystyki w demografii, socjologii i ekonomii. Polska
Akademia Nauk – Oddział w Krakowie. Prace Komisji Socjologicznej nr 38, Zakład Narodowy Imienia Ossolińskich,
Wydawnictwo Polskiej Akademii Nauk, Wrocław-Warszawa-Kraków-Gdańsk, s. 15-39.
Grigg D (1965): The logic of regional systems. Annals of the Association of America Geographers, 55, 3, s. 465-491.
Grossman H. (1925): Struktura społeczna i gospodarcza Księstwa Warszawskiego na podstawie spisów ludności 1808 i 1810 r.
Kwartalnik Statystyczny, 1925/II/1, s. 1-108.
Grot Z. (1963): Polityczna działalność rzemiosła wielkopolskiego w okresie zaborów (1793-1918). Państwowe Wydawnictwo
Naukowe. Poznań.
Grześkowiak A., Stanimir A. (2014): Analiza wielowymiarowa [w:] J. Dziechciarz i A. Grześkowiak (red.): Statystyczno-
ekonometryczna analiza danych ekonomicznych. Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu, Wrocław,
s. 13-40.
Grzyb S. (1964): Łąki w dorzeczu rzeki Liwiec. Zagadnienia geobotaniczne i fizjograficzno-typologiczne. Roczniki Nauk
Rolniczych, Seria D, 109, Państwowe Wydanwictwo Naukowe, Warszawa.
Guenther-Swart I. (1941): Grundlagen der Landwirtschaft im Reichsgau Wartheland und im Reichsgau Danzig-Westpreussen.
S. Hirzel, Leipzig.
Guzik B. (1989): Zróżnicowanie obiektów w wielowymiarowej analizie porównawczej. Wiadomości Statystyczne, 34/4,
s. 15-19.
Guzik B., Jurek W. (1993): Ekonometria z zadaniami. Wydawnictwo Akademii Ekonomicznej w Poznaniu, Poznań.
H
Hair J.F., Anderson R.E., Tatham R.L., Black W.C. (1995): Multivariate Data Analysis with Readings. Prentice Hall Interna-
tional, London.
Hand D., Mannila H., Smyth P. (2005): Eksploracja danych. Wydawnictwo Naukowo-Techniczne, Warszawa.
Harańczyk G. (2005): Analiza skupień na przykładzie segmentacji nowotworów [w:] Przegląd programów z rodziny Statistica.
StatSoft Polska, Kraków, s. 77-92.
Härdle W., Simar L. (2003): Applied Multivariate Statistical Analysis. Springer-Verlag, Berlin-Heidelberg.
Hartigan J.A. (1979): Algorithm AS136: K-means Clustering Algorithm. Journal of the Royal Statistical Society. Series C (Ap-
plied Statistics), 28/1, s. 100-108.
Hartigan J.A. (1982): Classification [w:] Encyclopedia of statistical sciences. Vol. 2. John Wiley & Sons, New York, s. 1-10.
Hellwig Z. (1968): Zastosowanie metody taksonomicznej do typologicznego podziału krajów ze względu na poziom ich roz-
woju oraz zasoby i strukturę wykwalifikowanych kadr. Przegląd Statystyczny, 15/4, s. 307-327.
Hellwig Z. (1969): Problem optymalnego doboru predykat. Przegląd Statystyczny, 16/1, s. 221-237.
Hellwig Z. (1981): Wielowymiarowa analiza porównawcza i jej zastosowanie w badaniach wielocechowych obiektów gospo-
darczych [w:] W. Welfe (red.): Metody i modele ekonomiczno-matematyczne w doskonaleniu zarządzania gospodarką
socjalistyczną. Polskie Wydawnictwo Ekonomiczne, Warszawa, s. 46-68.
Hellwig Z. (1997): Rangowanie taksometryczne [w:] Z. Hellwig (red.): Ekspansja gospodarcza Polski końca XX wieku. Wy-
dawnictwo Wyższej Szkoły Bankowej, Poznań, s. 185-197.
Henzel T. (1953): Metoda różnic i metoda kwadratów różnic przeciętnych. Przegląd Antropologiczny, 19, s. 22-42.
Hodson F.R. (1971): Numerical typology and prehistoric archaeology [w:] F.R. Hodson, D.G. Kendall, P.A. Tautu (red.): Ma-
thematics in the Archaeological and Historical Sciences. Edinburgh University Press, Edinburgh, s. 30-45.
Hodson F.R., Sneath P.H., Doran J.E. (1966): Some experiments in the numerical analysis of archaeological data. Biometrika,
53, s. 311-324.
Hudson P. (2000): History by Numbers: An Introduction to Quantitative Approaches. Hodder Education, London.
IJ
Iwaszkiewicz W. (1969): Działalność organizacyjna i zawodowa wielkopolskiego rzemiosła [w:] Z. Barański, H. Hybiak,
W. Iwaszkiewicz, A. Nowicki, K. Szrejbrowski: Rzemiosło wielkopolskie 1919-1968. Opracowanie materiałowe działal-
ności organizacyjnej i zawodowej. Wydawnictwo Poznańskie, Poznań, s. 9-16.
Iwaszkiewicz W. (1972): Problemy ekonomiczne rzemiosła [w:] W. Okuszko, T. Przyłuski (red.): Rzemiosło w Polsce Ludo-
wej. Związek Izb Rzemieślniczych, Biuro Wydawnictw KDW, Warszawa, s. 205-224.
Iwaszkiewicz W. (1982): Czy rzemieślnikom są potrzebne spółdzielnie. Wydawnictwo Spółdzielcze, Warszawa.
Izenman A.J. (2008): Modern Multivariate Statistical Techniques. Regression, Classification, and Manifold Learning. Springer
Science+Business Media, New York.
Jajuga K. (1984): O sposobach określania ilości klas w zagadnieniach klasyfikacji i klasyfikacji rozmytej. Prace Naukowe
nr 262 Akademii Ekonomicznej im. Oskara Langego we Wrocławiu, Wrocław.
Jajuga K. (1991): Poziom zjawiska złożonego a położenie przestrzenne obiektów. Prace Naukowe nr 600 Akademii Ekono-
micznej im. Oskara Langego we Wrocławiu: Metody statystycznej analizy wielowymiarowej i ich zastosowania w bada-
niach ekonomicznych, Wrocław, s. 105-112.
Jajuga K., Walesiak M. (1999): Standardisation of Data Set Under Different Measurement Scales [w:] R. Decker, W. Gaul (red.):
Classification and Information Processing at the Turn of the Millennium. Proceedings of the 23rd Annual Conference of the
Gesellschaft für Klassification e.V., University of Bielefeld, March 10-12, 1999. Springer, Berlin-Heidelberg, s. 105-112.
Janicki T. (1996): Wieś w Kraju Warty (1939-1945). Dzieje Gospodarcze Wielkopolski, 2, PSO, Poznań.
284 Bibliografia
Janowitz M.F. (2002): Short course: a combinatorial introduction to cluster analysis. Classification Society of North America,
The State University Piscataway, Piscataway Township.
Jarocka M. (2015): Wybór formuły normalizacyjnej w analizie porównawczej obiektów wielocechowych. Economics and
Management, 1, 113-126.
Jezierski A., Leszczyńska C. (2001): Historia gospodarcza Polski. Wydawnictwo Key Text. Warszawa.
Johnson R.A., Wichern D.W. (1992): Applied Multivariate Statistical Analysis (3th edition). Prentice Hall International, Ltd.,
London.
Johnson R.A., Wichern D.W. (1998): Applied Multivariate Statistical Analysis (4th edition). Prentice Hall International, Ltd.,
New Jersey.
Johnson S.C. (1967): Hierarchical Clustering Shemes. Psychometrika, 32, s. 241-254.
K
Kaczmarczyk S. (2002): Badania marketingowe. Metody i techniki. Polskie Wydawnictwo Ekonomiczne, Warszawa.
Kaczmarek Z., Czajka S., Adamska E. (2008): Propozycja metody grupowania obiektów jedno- i wielocechowych z zastoso-
waniem odległości Mahalanobisa i analizy skupień. Biuletyn Instytutu Hodowli i Aklimatyzacji Roślin, 249, s. 9-17.
Kala R. (2003): Wprowadzenie do statystyki i ekonometrii. Wydawnictwo Akademii Rolniczej im. Augusta Cieszkowskiego
w Poznaniu, Poznań.
Kaliński J. (1995): Gospodarka Polski w latach 1944-1989. Przemiany strukturalne. Państwowe Wydawnictwo Ekonomiczne,
Warszawa.
Kaliński J. (2012): Najnowsze dzieje Polski. Gospodarka w PRL. Instytut Pamięci Narodowej, Komisja Ścigania Zbrodni
Przeciwko Narodowi Polskiemu, Warszawa.
Kaliński J., Landau Z. (1998): Gospodarka Polski w XX w. Polskie Wydawnictwo Ekonomiczne, Warszawa.
Karoński M., Caliński T. (1973a): Grupowanie cech na podstawie współczynnika korelacji. Roczniki Akademii Rolniczej
w Poznaniu: Algorytmy biometryczne i statystyczne nr 2, 64, Poznań, s. 95-103.
Karoński M., Caliński T. (1973b): Grupowanie obiektów wielocechowych na podstawie odległości euklidesowych. Roczniki
Akademii Rolniczej w Poznaniu: Algorytmy biometryczne i statystyczne nr 2, 64, Poznań, s. 117-129.
Karoński M., Caliński T. (1973c): Grupowanie populacji o rozkładach normalnych na podstawie odległości Mahalanobisa.
Roczniki Akademii Rolniczej w Poznaniu: Algorytmy biometryczne i statystyczne nr 2, 64, Poznań, s. 105-115.
Karpiński A. (1965): Próba rozgraniczenia i charakterystyki faz rozwoju gospodarczego Polski Ludowej. Gospodarka Plano-
wa, 20/3, s. 1-6.
Karpiński A. (1980): Zarys rozwoju gospodarczego Polski Ludowej (wyd. 3). Książka i Wiedza, Warszawa.
Kaufman L., Rousseeuw P.J. (1990): Findings Groups in Data: an Introduction to Cluster Analysis. John Willey & Sons, New
York.
Kaufman L., Rousseeuw P.J. (2005): Findings Groups in Data: an Introduction to Cluster Analysis. John Willey & Sons, Hobo-
ken.
Kendall M. G., Buckland W.R. (1986): Słownik terminów statystycznych. Państwowe Wydawnictwo Ekonomiczne, Warsza-
wa.
Kendall M.G. (1938): A New Measure of Rank Correlation. Biometrika, 30/1-2, s. 81-93.
Kendall M.G. (1955): Rank Correlation Methods. Charles Griffin & Company Limited, London.
Kendall M.G. (1957): A Course of Multivariate Analysis. Charles Griffin & Company Limited, London.
Kędelski M. (1985): Umieralność i trwanie życia w Wielkopolsce w latach 1916-1875. Przeszłość Demograficzna Polski.
Materiały i Studia, 16, s. 109-138.
Kędelski M. (1996): Umieralność i trwanie życia ludności Wielkopolski w XIX w. Akademia Ekonomiczna w Poznaniu, Po-
znań.
Kędelski M., Roeske-Słomka I. (1995): Statystyka. Skrypt uczelniany 453. Akademia Ekonomiczna w Poznaniu, Poznań.
Kidder A.V. (1915): Pottery of the Pajarito Plateau and of Some Adjacent Regions in New Mexico. Memoirs of the American
Anthropological Association, 2/6, s. 407-482.
King B. (1967): Step-Wise Clustering Procedures. Journal of the American Statistical Association, 62, s. 86-101.
Kleniewicz K. (1947): Polska współczesna. Część III. Statystyka Polski. Księgarnia Łódzka Wydawnicza „Czytaj”. Łódź.
Kolenda M. (2006): Taksonomia numeryczna. Klasyfikacja, porządkowanie i analiza obiektów wielocechowych, Wydawnic-
two Akademii Ekonomicznej we Wrocławiu, Wrocław.
Kolupa M., Napiórkowski G. (1979): Metody doboru zmiennych objaśniających w modelach ekonometrycznych [w:] M. Grusz-
czyński, E. Leniewska, M. Kolupa, G. Napiórkowski (red.): Miary zgodności, metody doboru zmiennych, problemy
współliniowości, Państwowe Wydawnictwo Naukowe, Warszawa, s. 116-184.
Konferowicz S. (1968): Problemy badawcze rozwoju polskiej myśli statystycznej (przedsłowie) [w:] Rozwój polskiej myśli
statystycznej. Wybór pism statystyków polskich (1968). Państwowe Wydawnictwo Ekonomiczne, Warszawa, s. 7-30.
Kopczewska K. (2007): Ekonometria i statystyka przestrzenna z wykorzystaniem programu R CRAN. CeDeWu Wydawnictwa
Fachowe, Warszawa.
Kopczyński M. (2005): Podstawy statystyki: podręcznik dla humanistów. Oficyna Wydawnicza “Mówią Wieki”, Warszawa.
Kopociński B. (1960a): Dyskryminacja za pomocą dendrytów. Zastosowania Matematyki, 5/3, s. 271--279.
Kopociński B. (1960b): O podziale terytorialnym Polski na części. Zastosowania Matematyki, 5/2, s. 173-177.
Koronacki J., Ćwik J. (2008): Statystyczne systemy uczące się (wyd. 2). EXIT, Warszawa.
Bibliografia 285
Korzeniewski J. (2005): Propozycja nowego algorytmu wyznaczającego liczbę skupień. Prace naukowe nr 1076 Akademii
Ekonomicznej im. Oskara Langego we Wrocławiu: Taksonomia 12. Klasyfikacja i analiza danych – teoria i zastosowania,
Wrocław, s. 257-264.
Korzeniewski J. (2012): Metody selekcji zmiennych w analizie skupień. Nowe procedury. Wydawnictwo Uniwersytetu Łódz-
kiego, Łódź.
Korzeniewski J. (2014): Indeks wyboru liczby skupień w zbiorze danych. Przegląd Statystyczny, 61/2, s. 169-180.
Korzybski Z.E.J. (1870): Wstęp do teorii statystyki, cz. I. Rys historyczny i ogólne zasady. Drukarnia K. Kowalewskiego,
Warszawa. Przedruk [w:] Rozwój polskiej myśli statystycznej. Wybór pism statystyków polskich (1968). Państwowe
Wydawnictwo Ekonomiczne, Warszawa, s. 112-120.
Kowal J. (1998): Metody statystyczne w badaniach sondażowych rynku. Wydawnictwo Naukowe PWN, Warszawa.
Kowalewski G. (2006): Metody klasyfikacji i porządkowania [w:] A. Stanimir (red.): Analiza danych marketingowych. Proble-
my, metody, przykłady. Skrypt uczelniany. Wydawnictwo Akademii Ekonomicznej im. Oskara Langego we Wrocławiu,
Wrocław, s. 101-126.
Kozielecki J. (1971): Problemy psychologii matematycznej. Państwowe Wydawnictwo Naukowe, Warszawa.
Kozłowski F.A. (1838): Rys statystyki ogólnej porównawczej pod względem darów przyrodzenia, ludności, przemysłu pier-
wotnego, rękodzielnego, fabrycznego, handlu i kultury państwa Europy. Warszawa, s. 21-27. Przedruk [w:] Rozwój pol-
skiej myśli statystycznej. Wybór pism statystyków polskich (1968). Państwowe Wydawnictwo Ekonomiczne, Warszawa,
s. 93-96.
Kroeber A.I. (1916): Zuni potsherds. American Museum of Natural History, Anthropological Papers, 18, s. 1-38.
Kroeber A.I., Dixon R.B. (1903): Native Langue of California. American Anthropologist, 5, s. 1-26.
Kukuła K. (1975): Propozycja w zakresie pewnych zmian dynamiki struktury. Przegląd Statystyczny, 22/3, s. 453-462.
Kukuła K. (1996): Statystyczne metody analizy struktur ekonomicznych. Wydawnictwo Edukacyjne, Kraków.
Kukuła K. (2000): Metoda unitaryzacji zerowanej. Wydawnictwo Naukowe PWN. Warszawa.
Kukuła K. (2012): Propozycja budowy rankingu obiektów z wykorzystaniem cech ilościowych oraz jakościowych. Metody
Ilościowe w Badaniach Ekonomicznych, 13/1, s. 5-16.
Kula W. (1963): Problemy i metody historii gospodarczej. Państwowe Wydawnictwo Naukowe, Warszawa.
Kurkiewicz J. (1992): Podstawowe metody analizy demograficznej. Państwowe Wydawnictwo Naukowe, Warszawa.
Kurkiewicz J., Pociecha J., Zając K. (1991): Metody wielowymiarowej analizy porównawczej w badaniach rozwoju demogra-
ficznego. Szkoła Główna Handlowa, Instytut Statystyki i Demografii, Warszawa.
L
Lance G.N., Williams W.T. (1966a): A generalized sorting strategy for computer classifications. Nature, 212, s. 218.
Lance G.N., Williams W.T. (1966b): Computer programs for hierarchical polythetic classification (similarity analysis). Com-
puter Journal, 9/1, s. 60–64.
Lance G.N., Williams W.T. (1967a): A general theory of classificatory sorting strategies. I: Hierarchical systems. Computer
Journal, 9, s. 373-380.
Lance G.N., Williams W.T. (1967b): Mixed-data classificatory programs. I: Agglomerative Systems. Australian Computer
Journal, 1, s. 15-20.
Lance G.N., Williams W.T. (1968): A general theory of classificatory sorting strategies. II: Clustering systems. Computer Jo-
urnal, 10, s. 271-277.
Landau Z. (1994): Gospodarka Polski Ludowej. Wydawnictwa Szkolne i Pedagogiczne, Warszawa.
Landau Z. (1995): Polska Gomułki. Wydawnictwa Szkolne i Pedagogiczne, Warszawa.
Liao T. W. (2005): Clustering of Time Series Data – a Survey. Pattern Recognition, 38, s. 1857-1874.
Liczkowski J. (1961): Próba delimitacji rejonów intensywności za pomocą taksonomicznej metody różnic przeciętnych. Za-
gadnienia Ekonomiki Rolnej, 3/45, s. 37-58.
Lipieta A. (2000): Jakość życia. Metody mierzenia [w:] A. Zeliaś (red.): Taksonomiczna analiza przestrzennego zróżnicowania
poziomu życia w Polsce w ujęciu dynamicznym. Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków, s. 23-34.
Lira J., Wagner W., Wysocki F. (2002): Mediana w zagadnieniach porządkowania obiektów wielocechowych [w:] J Paradysz
(red.): Statystyka regionalna w służbie samorządu lokalnego i biznesu. Internetowa Oficyna Wydawnicza, Centrum Staty-
styki Regionalnej, Akademia Ekonomiczna w Poznaniu, Poznań, s. 87-99.
Luszniewicz A., Słaby T. (2008): Statystyka z pakietem komputerowym STATISTICA PL. Teoria i zastosowania (wyd. 3).
Wydawnictwo C.H. Beck, Warszawa.
Łuczak C. (1962): Położenie ekonomiczne rzemiosła wielkopolskiego w okresie zaborów (1793-1918). Państwowe Wydaw-
nictwo Naukowe, Oddział Poznaniu, Poznań.
Łuczak C. (1972): „Kraj Warty” 1939-1945. Studium historyczno-gospodarcza okupacji hitlerowskiej. Wydawnictwo Poznań-
skie, Poznań.
Łuczak C. (1977): Hitlerowskie plany przestrzennego zagospodarowania okupowanej Polski (1939-1945) [w:] A. Czubiński
(red.): Polska - Niemcy - Europa. Studia z dziejów myśli politycznej i stosunków międzynarodowych. Wydawnictwo
Naukowe Uniwersytetu im. Adama Mickiewicza w Poznaniu, Poznań, s. 589-596.
Łuczak C. (1982): Polityka ekonomiczna Trzeciej Rzeszy w latach drugiej wojny światowej. Wydawnictwo Poznańskie, Po-
znań.
Łuczak C. (1996): Pod niemieckim jarzmem (Kraj Warty 1939-1945). PSO, Poznań.
286 Bibliografia
M
Macyra R. (2011): O historii gospodarczej inaczej [w:] R. Matera i A. Pieczewski (red.): Przegląd badań nad historią gospodar-
czą w XXI wieku. Wydawnictwo Uniwersytetu Łódzkiego, Łódź, s. 15-25.
Macyra R., Błażejczyk-Majka L. (2012): „Nieprzemysłowa” bogata Wielkopolska 1956-1970: uwagi wstępne [w:] E. Kościk
i R. Klementowski (red.): Z dziejów przemysłu po 1945 roku, tom 2. Wydawnictwo GAJT, Wrocław, s. 197-212.
Madajczyk C. (1961): Projekt osadnictwa hitlerowskiego w Poznańskiem i na Pomorzu z sierpnia 1939 r. Najnowsze Dzieje
Polski. Materiały i studia z okresu II wojny światowej, 5, s. 103-151.
Mahalanobis P.C. (1936): On Generalized Distance in Statistics. Proceedings of National Institute of Sciences of India, 2,
s. 49-55.
Malina A. (1992): Badanie przestrzennego zróżnicowania poziomu rozwoju społeczno-ekonomicznego Polski. Zeszyty Na-
ukowe Akademii Ekonomicznej w Krakowie, 388, Kraków, s. 51-64.
Malina A. (2008): Analiza zmian struktury zatrudnienia w Polsce w porównaniu z krajami Unii Europejskiej. Zeszyty Naukowe
Akademii Ekonomicznej w Krakowie, 726, Kraków, s. 5-21.
Malina A., Wanat S. (2000): Badanie podobieństwa dynamicznego województw ze względu na poziom życia ludności w latach
1990-1997 [w:] A. Zeliaś (red.): Taksonomiczna analiza przestrzennego zróżnicowania poziomu życia w Polsce w ujęciu
dynamicznym. Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków, s. 180-197.
Malina A., Zeliaś A. (1997): Taksonomiczna analiza przestrzennego zróżnicowania jakości życia ludności w Polsce w 1994 r.
Przegląd Statystyczny, 44/1, s. 11-27.
Mallory-Greenough J.M., Greenough J.D. (1998): New Data for Old Pots: Trace Element Characterization of Ancient Egyptian
pottery using ICP-MS. Journal of Archeological Science, 25, s. 85-97.
Mańkowski D.R., Laudański Z., Janaszek M. (2011): Przydatność wybranych miar podobieństwa dla danych binarnych do ana-
liz wielocechowych w badaniach molekularnych. Biuletyn Instytutu Hodowli i Aklimatyzacji Roślin, 262, s. 155-173.
Marassé M. (1866): O pojęciu i zadaniu statystyki. Kraków, s. 38-41, 139-141. Przedruk [w:] Rozwój polskiej myśli statystycz-
nej. Wybór pism statystyków polskich (1968). Państwowe Wydawnictwo Ekonomiczne, Warszawa, s. 142-145.
Marczewski E., Steinhaus H. (1958): On a Certain Distance of Sets and the Corresponding Distance of Functions. Colloquium
Mathematicum, 6, s. 319-327.
Marczewski J. (1979): Hitlerowska koncepcja polityki kolonizacyjno-wysiedleńczej i jej realizacja w „Okręgu Warty”. Instytut
Zachodni, Poznań.
Marczuk J. (1980): Podstawowe funkcje i zadania rzemiosła [w:] J. Marczuk, M. Nurowski: Rzemiosło w życiu społeczno-
-gospodarczym, Wydawnictwo Epoka, Warszawa, s. 5-33.
Mardia K.V., Kent J.T., Bibby J.M. (1979): Multivariate analysis. Academic Press Inc. London.
Marek T. (1989): Analiza skupień w badaniach empirycznych. Metody SAHN. Państwowe Wydawnictwo Naukowe, Warsza-
wa.
Markowska M. (2008). Wykorzystanie miary Braya-Curtisa do oceny zmian innowacyjności europejskiej przestrzeni regio-
nalnej. Prace Naukowe nr 21 Akademii Ekonomicznej im. Oskara Langego we Wrocławiu: Ekonometria 6: Zastosowania
metod ilościowych, Wrocław, s. 17–25.
Markowska M. (2012): Dynamiczna taksonomia innowacyjności regionów. Wydawnictwo Uniwersytetu Ekonomicznego we
Wrocławiu, Wrocław.
Markowska M. (2015). Ocena zmian struktury pracujących w unijnych regionach szczebla NUTS 2 z wykorzystaniem miary
Braya i Curtisa. Prace Komisji Geografii Przemysłu Polskiego Towarzystwa Geograficznego, 29/2, s. 7–22.
Mathematics in the Archeological and Historical Sciences (1971): F.R. Hodson, D.G. Kendall, P.A. Tautu (red.). Edinburgh
University Press, Edinburgh.
McQueen J. (1967): Some Methods for Classification and Analysis of Multivariate Observations [w:] L.M. LeCam, J. Ney-
man (eds.): Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, Volume 1: Statis-
tics. University of California Press, Berkeley, s. 281-297.
McQuitty L.L. (1957): Elementary Linkage Analysis for Isolating Orthogonal and Oblique Types and Typal Relevancies. Edu-
cational Psychological Measurement, 17, s. 207-229.
McQuitty L.L. (1960): Hierarchical Linkage Analysis for the Isolation of Types. Educational Psychological Measurement, 20,
s. 55-67.
McQuitty L.L. (1966): Similarity Analysis by Reciprocal Pairs for Discrete and Continuous Data. Educational Psychological
Measurement, 26, s. 825-831.
McQuitty L.L. (1967): Expansion Analysis of Similarity Analysis by Reciprocal Pairs for Discrete and Continuous Data. Edu-
cational Psychological Measurement, 27, s. 253-255.
Mezzich J.E., Solomon H. (1980): Taxonomy and behavioral science. Comparative Performance of Grouping Method. Aca-
demic Press Inc., London.
Migdał-Najman K., Najman K. (2005): Analityczne metody ustalania liczby skupień. Prace Naukowe nr 1076 Akademii Eko-
nomicznej im. Oskara Langego we Wrocławiu: Taksonomia 12. Klasyfikacja i analiza danych – teoria i zastosowania,
Wrocław, s. 265-273.
Migut G. (2009): Zastosowanie technik analizy skupień i drzew decyzyjnych do segmentacji rynku [w:] Zastosowanie nowo-
czesnej analizy danych w marketingu i badaniach rynku - materiały z seminarium. StatSoft Polska, Kraków, s. 75-92.
Mikulec A. (2012): Metody oceny wyniku grupowania w analizie skupień. Prace Naukowe Uniwersytetu Ekonomicznego we
Wrocławiu nr 242: Taksonomia 19. Klasyfikacja i analiza danych teoria i zastosowania, Wrocław, s. 460-468.
Bibliografia 287
Mikulec A. (2013): Kryterium Mojeny i Wisharta w analizie skupień – przypadek skupień o różnych macierzach kowariancji.
Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu nr 278: Taksonomia 20. Klasyfikacja i analiza danych teoria
i zastosowania, Wrocław, s. 206-215.
Milligan G.W. (1980): An examination of the effect of six types of error perturbation on fifteen clustering algorithms. Psy-
chometrika, 45/8, s. 325-342.
Milligan G.W. (1981): A Review of Monte Carlo Tests of Cluster Analysis. Multivariate Behavioral Research, 16, s. 379-407.
Milligan G.W., Cooper M.C. (1985): An Examination of Procedures for Determining the Number of Clusters in a Data Set.
Psychometrika, 50/2, s. 159-179.
Miśkiewicz R. (2016): Problem oceny struktur organizacyjnych w kontekście ich podobieństwa. Organizacja i Zarządzanie,
1, s. 83-99.
Młodak A. (2006): Analiza taksonomiczna w statystyce regionalnej. Centrum Doradztwa i Informacji, Difin, Warszawa.
Mojena R. (1977): Hierarchical Grouping Method and Stopping Rules. An Evaluation. Computer Journal, 20/4, s. 359-363.
Molik W. (2007): O nowy model syntezy dziejów regionu na przykładzie Wielkopolski [w:] K.A. Makowski (red.): O nowy
model historycznych badań regionalnych. Instytut Zachodni, Centrum „Instytut Wielkopolski” Uniwersytetu im. Adama
Mickiewicza w Poznaniu, Poznań, s. 5-34.
Morajda J., Grabowski M. (2001): Zastosowanie algorytmów genetycznych w klasyfikacji bezwzorcowej. Przegląd Statystycz-
ny, 48/3-4, s. 301- 314.
Morawski W. (2008): Czy historia gospodarcza jest jeszcze potrzebna? [w:] J. Skodlarski (red.): Historia gospodarcza i historia
myśli ekonomicznej a teoria ekonomii. Wydawnictwo Uniwersytetu Łódzkiego, Łódź, s. 11-17.
Morawski W. (2011): Czego historią jest historia gospodarcza? [w:] R. Matera i A. Pieczewski (red.): Przegląd badań nad hi-
storią gospodarczą w XXI wieku. Wydawnictwo Uniwersytetu Łódzkiego, Łódź, s. 15-25.
Mozołowski A. (1980): Usługi i rzemiosło. Uwagi i propozycje. Krajowa Agencja Wydawnicza, Warszawa.
Mucha H.J. (2012): Method Selection in Cluster Analysis Followed by Build-in Validation [w:] J. Pociecha, R. Decker (red.):
Data Analysis Methods and its Applications. Wydawnictwo C.H. Beck, Warszawa, s. 125-142.
Mydlarski J. (1953): Rzut oka na próby typologiczego określenia człowieka. Przegląd Antropologiczny, 19, s. 6-21.
Mynarski S. (1990): Metody badań marketingowych. Państwowe Wydawnictwo Ekonomiczne, Warszawa.
Mynarski S. (2006) : Analiza danych rynkowych i marketingowych z wykorzystane programu EXCEL. Wydawnictwo Akade-
mii Ekonomicznej w Krakowie, Kraków.
N
Najgrakowski M. (1976): Jednostki przestrzenne w badaniach międzyregionalnego rozwoju gospodarczego i społecznego.
Próba wydzielenia regionów rozwoju społeczno-ekonomicznego w Polsce. Biuletyn Komitetu Przestrzennego Zagospo-
darowania Kraju, 89: Regionalne zróżnicowanie rozwoju społeczno-gospodarczego Polski, s. 39-70.
Narojczyk K. (2005): Budowa badawczych baz danych w oparciu o historyczne źródła statystyczne. Wydawnictwo LITTERA,
Olsztyn.
Nawrol C. (1989): Analiza skupień w badaniach empirycznych. Rozmyte modele hierarchiczne. Państwowe Wydawnictwo
Naukowe, Warszawa.
Niemczyk A. (2001): Poziom rozwoju społecznego w nowym układzie administracyjnym Polski. Przegląd Statystyczny,
48/3-4, s. 289-300.
Niewadzi Cz. (1958): Małe przedsiębiorstwa przemysłowe w gospodarce narodowej. Przemysł drobny i rzemiosło. Polskie
Wydawnictwa Gospodarcze, Warszawa.
Niewadzi Cz. (1968): Polityka rozwoju rzemiosła w Polsce. Państwowe Wydawnictwo Naukowe, Warszawa.
North D.C. (1976): The Place of Economic History in the Discipline of Economics. Economic Inquiry, 14/1, s. 461-465.
Nowak E. (1979): Propozycja prostej metody konstruowania miernika rozwoju i jego wykorzystania do badań regresyjnych.
Przegląd Statystyczny, 25/1-2, s. 127-133.
Nowak E. (1981a): Badanie zgodności wyboru cech diagnostycznych. Przegląd Statystyczny, 28/3-4, s. 301-309.
Nowak E. (1981b): Porównywanie obiektów społeczno-gospodarczych ze względu na ich strukturę. Wiadomości Statystyczne,
7, s. 21-25.
Nowak E. (1984): Problemy doboru zmiennych do modelu ekonometrycznego. Polskie Wydawnictwo Naukowe, Warszawa.
Nowak E. (1990): Metody taksonomiczne w klasyfikacji obiektów społeczno-gospodarczych. Polskie Wydawnictwo Ekono-
miczne, Warszawa.
Nowak E. (2004): Metody klasyfikacji w badaniach geograficznych (analiza porównawcza). Akademia Świętokrzyska im. Jana
Kochanowskiego w Kielcach, Bogucki Wydawnictwo Naukowe, Kielce-Poznań.
Nurowski M. (1980): Prawno-ekonomiczne warunki wykonywania rzemiosła [w:] J. Marczuk, M. Nurowski: Rzemiosło w ży-
ciu społeczno-gospodarczym. Wydawnictwo Epoka, Warszawa, s. 34-66.
O
O nowy model historycznych badań regionalnych (2007): K.A. Makowski (red.). Instytut Zachodni, Centrum „Instytut Wiel-
kopolski” Uniwersytetu im. Adama Mickiewicza w Poznaniu, Poznań.
Orłowski K. (2001): Zastosowanie pakietu Statistica w analizie wyników badań społecznych. Wydawca Stowarzyszenie Psy-
chologia i Architektura, Poznań.
Ostasiewicz W. (2003): Istota pomiaru statystycznego [w:] W. Ostasiewicz (red.): Pomiar statystyczny. Wydawnictwo Akade-
mii Ekonomicznej im. Oskara Langego we Wrocławiu, Wrocław, s. 11-45.
288 Bibliografia
Rószkiewicz M. (2002): Metody ilościowe w badaniach marketingowych. Wydawnictwo Naukowe PWN, Warszawa.
Runge J. (2006): Metody badań w geografii społeczno-ekonomicznej – elementy metodologii, wybrane narzędzia badawcze.
Wydawnictwo Uniwersytety Śląskiego, Katowice.
Rusiński W. (1968): Historia gospodarcza i ekonomia polityczna. Podział zadań i formy współpracy. Ruch Prawniczy, Ekono-
miczny i Socjologiczny, 30/2, s. 145-157.
Rusiński W. (1982): Zarys historii gospodarczej Polski na tle dziejów gospodarczych powszechnych. Wydawnictwo Akademii
Ekonomicznej w Poznaniu, Poznań.
Rusiński W. (1986): Zarys historii gospodarczej Polski na tle dziejów gospodarczych powszechnych. Państwowe Wydawnic-
two Naukowe, Warszawa.
Rutkowski J. (1918): Statystyka zawodowa ludności wiejskiej w Polsce w drugiej połowie XV w. Akademia Umiejętności
w Krakowie, Kraków.
Rutkowski J. (1925): Zagadnienie syntezy w historii gospodarczej [w:] Pamiętnik IV Zjazdu Historyków Polskich w Poznaniu
6-9 grudnia 1925. I. Referaty. Polskie Towarzystwo Historyczne, Zakład Narodowy im. Ossolińskich we Lwowie, Lwów,
s. 1-7. Przedruk [w:] Jan Rutkowski. Wokół teorii ustroju feudalnego (1982): J. Topolski (wybór i oprac.). Państwowy
Instytut Wydawniczy, Warszawa, s. 455-461.
Rutkowski J. (1937): O podniesieniu poziomu naszej twórczości naukowej. Nauka Polska: jej potrzeby, organizacja i rozwój,
22, s. 37-55.
Rutkowski J. (1946): Historia gospodarcza Polski. T. 1. Czasy przedrozbiorowe. Księgarnia Akademicka, Poznań.
Rutkowski J. (1981): Podobieństwo struktur i zmiany strukturalne – zagadnienia kwantyfikacji, Wiadomości Statystyczne, 8,
s. 20-23.
Rychłowski (1960): Podział Polski na regiony ekonomiczne. Gospodarka Planowa, 15/1, s. 43-47.
Rzemiosło w Wielkopolsce w latach 1954-1957. Sprawozdanie Izby Rzemieślniczej w Poznaniu (1959): T. Wiesiołowski,
A. Nowicki, K. Szrejbrowski (red.). Wydawnictwo Poznańskie, Poznań.
S
Sadłowski J. (1972): Udział rzemiosła w życiu społecznym Polski Ludowej [w:] W. Okuszko, T. Przyłuski (red.): Rzemiosło
w Polsce Ludowej. Związek Izb Rzemieślniczych, Biuro Wydawnictw KDW, Warszawa, s. 9-24.
Sagan A., Łapczyński M. (2009): Techniki segmentacji w badaniach rynkowych. Materiały szkoleniowe StatSoft Polska, Kra-
ków.
Sambor J. (1972): Słowa i liczby. Zagadnienia językoznawstwa statystycznego. Zakład Narodowy Imienia Ossolińskich, Wy-
dawnictwo Polskiej Akademii Nauk, Wrocław-Warszawa-Kraków-Gdańsk.
Samuelson P.A. (1952): Economic Theory and Mathematics – An Appraisal. American Economic Review, 42/2, s. 56–66.
Scott A.J., Symons M. (1971): Clustering Methods Based on Likelihood Ratio Criteria. Biometrics, 27, s. 387-397.
Sebestyen G.S. (1962): Decision Making Process in Pattern Recognition. Macmillan, New York.
Sharma S. (1996): Applied Multivariate Techniques. John Wiley & Sons, New York.
Siedlecka U. (1976): Zastosowanie metody taksonomii stochastycznej do dyskryminacji zbiorów skończonych. Przegląd Sta-
tystyczny, 23/3, s. 275-288.
Siedlecka U. (1990): Przestrzenna analiza wyposażenia gospodarstw domowych w wybrane dobra trwałego użytkowania.
Wiadomości Statystyczne, 35/1, s. 28-30.
Siedlecka U. (1999): Metody klasyfikacji obiektów wielocechowych [w:] W. Ostasiewicz (red.): Statystyczne metody analizy
danych. Wydawnictwo Akademii Ekonomicznej we Wrocławiu, Wrocław, s. 83-157.
Simpson G.G. (1961): Principles of Animal Taxonomy. Tokyo.
Słodowa-Hełpa M. (1988): Ludność wiejska wielkopolski w procesie przemian społeczno-ekonomicznych. Przeobrażenia
struktury społeczno-zawodowej w latach 1945-1970. Państwowe Wydawnictwo Naukowe, Warszawa-Poznań.
Smoluk A. (1976): Uwagi o dyskryminacji w zwartych przestrzeniach metrycznych. Przegląd Statystyczny, 23/4, s. 483-489.
Sneath P.H.A. (1957): Application of Computers to Taxonomy. Journal of General Microbiology, 17/1, s. 201-226.
Sneath P.H.A., Sokal R.R. (1973): Numerical Taxonomy : the Principles and Practice of Numerical Classification. W.H. Fre-
eman & Company, San Francisco.
Sobczak E., (1994): O klasyfikacji struktur handlu zagranicznego wybranych państw świata. Prace Naukowe nr 667 Akademii
Ekonomicznej im. Oskara Langego we Wrocławiu: Ekonomia matematyczna, Wrocław, s. 133-138.
Sobczak W., Malina W. (1985): Metody selekcji i redukcji informacji. Wydawnictwa Naukowo-Techniczne, Warszawa.
Sobczyk M. (1997): Statystyka. Wydawnictwo Naukowe PWN, Warszawa.
Sokal R.R., Michener C.D. (1958): A Statistical Method for Evaluating Systematic Relationships. The University of Kansas
Science Bulletin, 38/22, s. 1409-1438.
Sokal R.R., Rohlf F.J. (1962): The Comparison of Dendrograms by Objective Methods. Taxon, 11/2, s. 33-40.
Sokal R.R., Sneath P.H.A. (1963): Principles of Numerical Taxonomy. W.H. Freeman & Company, San Francisco-London.
Sokołowski A. (1976): Metoda porównywania wyników podziału zbioru skończonego. XII Konferencja Naukowa Ekonome-
tryków, Statystyków i Matematyków Akademii Ekonomicznych Polski Południowej, Karpacz.
Sokołowski A. (1982): O zagadnieniach taksonomicznych. Zeszyty Naukowe Akademii Ekonomicznej w Krakowie, 165, Kra-
ków, s. 65-72.
Sokołowski A. (1992): Empiryczne testy istotności w taksonomii. Zeszyty Naukowe Akademii Ekonomicznej w Krakowie,
Seria specjalna: Monografie, 108, Kraków.
290 Bibliografia
Sokołowski A. (1998): Porównanie zmian w przestrzennym zróżnicowaniu warunków życia w Polsce, Czechach, Słowacji
i na Węgrzech w latach 1990-1996. XXXIV Konferencja Statystyków, Ekonometryków i Matematyków Akademii Eko-
nomicznych Polski Południowej. XVI Seminarium Naukowe im. Profesora Zbigniewa Pawłowskiego, Ustroń 12-15 maja
1998.
Sokołowski A., Zając K. (1987): Rozwój demograficzny a rozwój gospodarczy. Państwowe Wydawnictwo Ekonomiczne, War-
szawa.
Spearman C. (1904): The Proof and Measurement of Association between Two Things. American Journal of Psychology, 15/1,
s. 72–101.
Spier L. (1917): An Outline for a Chronology of Zuni Ruins. Anthropological Papers of the American Museum of Natural His-
tory, 18/3, s. 207-331.
Stanisz A. (2007): Przystępny kurs statystyki: z zastosowaniem STATISTICA PL na przykładach z medycyny. Tom 3: Analizy
wielowymiarowe. StatSoft, Kraków.
Statystyczny drogowskaz 1. Praktyczne wprowadzenie do wnioskowania statystycznego (2013): S. Bedyńska, M. Cypryańska
(red.). Wydawnictwo Akademickie SEDNO, Warszawa.
Steczkowski J. (1970): Statystyczna procedura określana struktury zbiorowości. Zeszyty Naukowe Wyższej Szkoły Ekono-
micznej w Krakowie, Seria specjalna: Rozprawy habilitacyjne, 21, Kraków.
Steczkowski J., Zeliaś A. (1981): Statystyczne metody analizy cech jakościowych. Państwowe Wydawnictwo Ekonomiczne,
Warszawa.
Steczkowski J., Zeliaś A. (1997): Metody statystyczne w badaniu zjawisk jakościowych. Akademia Ekonomiczna w Krakowie,
Kraków.
Steinhausen D., Langer K. (1977): Clusteranalyse. Einführung in Methoden und Verfahren der automatischen Klassifikation.
Mit zahlreichen Algorithmen, FORTRAN-Programmen, Anwendungsbeispielen und einer Kurzdarstellung der multivari-
aten statistischen Verfahren. Walter de Gruyter, Berlin-New York.
Stevens S.S. (1951): Mathematics, Measurement, and Psychophysics [w:] S.S. Stevens (red.): Handbook of Experimental Psy-
chology. John Willey & Hall, New York, s. 1-45.
Stevens S.S. (1959): Measurement, Psychophysics and Utility [w:] C.W. Churchman i P. Ratoosh (red.): Measurement: Defini-
tion and Theories. John Wiley & Sons, New York, s. 18-64.
Stokowski F. (1971): Metody taksonometryczne w analizie przestrzennego zróżnicowania procesów demograficznych (na
przykładzie ruchu naturalnego w województwie warszawskim). Studia Demograficzne, 25, s, 75-107.
Stone R. (1960): A Comparison of the Economic Structure of Regions Based on the Concept Distance. Journal of Regional
Science, 2/2, s. 2-20.
Stone R. (1970): Matematyka w naukach społecznych. Państwowe Wydawnictwo Ekonomiczne, Warszawa.
Strahl D. (1978): Propozycja konstrukcji miary syntetycznej. Przegląd Statystyczny, 25/2, s. 205-215.
Strahl D. (1990): Metody programowania rozwoju społeczno-gospodarczego. Państwowe Wydawnictwo Ekonomiczne, War-
szawa.
Strahl D. (1997): Metody statystycznej analizy wielowymiarowej w identyfikacji transformacji strukturalnej. Prace Naukowe
nr 743 Akademii Ekonomicznej we Wrocławiu. Informatyka i Ekonometria 2: Zastosowania metod ilościowych, Wrocław,
s. 123-131.
Strahl D. (2008): Klasyfikacja pozycyjna w analizach dynamicznych. Prace Naukowe nr 27 Uniwersytetu Ekonomicznego we
Wrocławiu, Ekonometria 22: Zastosowania metod ilościowych, Wrocław, s. 9-18.
Strahl D., Walesiak M (1997): Normalizacja zmiennych w skali przedziałowej i ilorazowej w referencyjnym systemie granicz-
nym. Przegląd Statystyczny, 44/1, s. 69-77.
Strong W.D. (1925): Uhle Pottery Collections form Ancon. Publications in American Archaeology and Ethnology, 21, s. 135-
-190.
Sutton M.Q., Reinhard K.J. (1995): Cluster Analysis of the Coprolites from Antelope House: Implications for Anasazi Diet and
Cuisine. Journal of Archaeological Science, 22, s. 741-750.
Szczepaniak A. (1990): Próba oceny przestrzennego zróżnicowania uprzemysłowienia kraju metodą taksonomii wrocławskiej.
Przegląd Statystyczny, 35/7, s.16-20.
Szczotka F.A. (1972): On a method of ordering and clustering of objects. Zastosowania Matematyki, 13, s. 23-33.
Szczotka F.A. (1976): Podstawy taksonomii numerycznej. Biuletyn Informacyjny nr 17. Polska Akademia Nauk. Instytut Geo-
grafii i Przestrzennego Zagospodarowania, Warszawa.
Szpaderski A. (1960): Zastosowanie metod podobieństwa do rejonizacji ekonomiczno-rolniczej. Ruch Prawniczy, Ekonomicz-
ny i Socjologiczny, 2, s. 153-178.
Szrejbrowski K. (1969): Działalność organizacyjna izby rzemieślniczej w Poznaniu [w:] Z. Barański, H. Hybiak, W. Iwaszkie-
wicz, A. Nowicki, K. Szrejbrowski (red.): Rzemiosło wielkopolskie 1919-1968. Opracowanie materiałowe działalności
organizacyjnej i zawodowej. Wydawnictwo Poznańskie, Poznań, s. 17-57.
Sztemberg-Lewandowska M. (2008): Analiza czynnikowa w badaniach marketingowych, Uniwersytet Ekonomiczny we Wro-
cławiu, Wrocław.
T
Taksonomia struktur w badaniach regionalnych (1998): D. Strahl (red.). Wydawnictwo Akademii Ekonomicznej im. Oskara
Langego we Wrocławiu, Wrocław.
Bibliografia 291
Taylor E. (1962): Teoria a historia gospodarstwa społecznego. Ruch Prawniczy, Ekonomiczny i Socjologiczny, 24/2, s. 121-
-130.
Thorndike R.L. (1953): Who Belongs in a Family? Psychometrika, 18, s. 267-276.
Timm N.H. (2002): Applied Multivariate Analysis. Springer-Verlag, New York.
Topolski J. (1965): O zagadnieniu syntezy w historii gospodarczej. Roczniki Dziejów Społecznych i Gospodarczych, 26/1964,
s. 260-265.
Topolski J. (1984): Metodologia historii. Państwowe Wydawnictwo Naukowe, Warszawa.
Topolski J. (1986): O nowy model historii. Jan Rutkowski (1886-1949). Państwowe Wydawnictwo Naukowe, Warszawa.
Trosset M. (2005): Visualizing correlation. Journal of Computational and Graphical Statistics, 14/1, s. 1-19.
U
Uczczenie pamięci śp. Prof. Jana Rutkowskiego (1950). Poznańskie Towarzystwo Przyjaciół Nauk, Poznań.
W
Walesiak M. (1983): Propozycja rodziny miar odległości struktur udziałowych. Wiadomości Statystyczne, 10, s. 23-24.
Walesiak M. (1990): Syntetyczne badania porównawcze w świetle teorii pomiaru. Przegląd Statystyczny, 37/1-2, s. 37-46.
Walesiak M. (1991a): O stosowaniu miar korelacji w analizie wyników pomiaru porządkowego. Prace Naukowe nr 600 Akade-
mii Ekonomicznej im. Oskara Langego we Wrocławiu: Metody statystycznej analizy wielowymiarowej i ich zastosowania
w badaniach ekonomicznych, Wrocław, s. 13-20.
Walesiak M. (1991b): Strategie postępowania w badaniach statystycznych w przypadku zmiennych mierzonych na skalach
różnego typu. Badania Operacyjne i Decyzje, 1, s. 71-77.
Walesiak M. (1993a): Przegląd zastosowań metod klasyfikacji i porządkowania liniowego w rozwiązywaniu problemów mar-
ketingowych. Wiadomości Statystyczne, 2, s. 8-12.
Walesiak M. (1993b): Statystyczna analiza wielowymiarowa w badaniach marketingowych. Prace Naukowe nr 654 Akademii
Ekonomicznej im. Oskara Langego we Wrocławiu. Monografie i opracowania nr 101. Wydawnictwo Akademii Ekono-
micznej we Wrocławiu, Wrocław.
Walesiak M. (1996a): Dopuszczalne działania na liczbach w badaniach marketingowych z punktu widzenia skal pomiarowych.
Prace Naukowe nr 718 Akademii Ekonomicznej im. Oskara Langego we Wrocławiu: Informatyka i Ekonometria 1: Zasto-
sowania metod ilościowych, Wrocław, s. 133-144.
Walesiak M. (1996b): Metody analizy danych marketingowych, Państwowe Wydawnictwo Naukowe, Warszawa.
Walesiak M. (2002a): Propozycja uogólnionej miary odległości w statystycznej analizie wielowymiarowej [w:] J. Paradysz
(red.): Statystyka regionalna w służbie samorządu lokalnego i biznesu. Internetowa Oficyna Wydawnicza, Centrum Staty-
styki Regionalnej, Akademia Ekonomiczna w Poznaniu, Poznań, s. 115-121.
Walesiak M. (2002b): Uogólniona miara odległości w statystycznej analizie wielowymiarowej. Wydawnictwo Akademii Eko-
nomicznej we Wrocławiu, Wrocław.
Walesiak M. (2003): Miara odległości obiektów opisanych zmiennymi mierzonymi na różnych skalach pomiaru. Prace Nauko-
we nr 1006 Akademii Ekonomicznej im. Oskara Langego we Wrocławiu: Zastosowania statystyki i matematyki w ekono-
mii, Wrocław, s. 261-267.
Walesiak M. (2004): Problemy decyzyjne w procesie klasyfikacji zbioru obiektów. Prace Naukowe nr 1010 Akademii Ekono-
micznej im. Oskara Langego we Wrocławiu: Ekonometria 13, Wrocław, s. 52-71.
Walesiak M. (2005): Rekomendacje w zakresie strategii postępowania w procesie klasyfikacji zbioru obiektów [w:] A. Zeliaś
(red.): Przestrzenno-czasowe modelowanie i prognozowanie zjawisk gospodarczych. Wydawnictwo Akademii Ekono-
micznej w Krakowie, Kraków, s. 185-203.
Walesiak M. (2009): Analiza skupień [w:] M. Walesiak, E. Gatnar (red.): Statystyczna analiza danych z wykorzystaniem pro-
gramu R. Wydawnictwo Naukowe PWN, Warszawa, s. 407-433.
Walesiak M. (2011): Uogólniona miara odległości GDM w statystycznej analizie wielowymiarowej z wykorzystaniem progra-
mu R. Wydawnictwo Uniwersytetu Ekonomicznego, Wrocław.
Walesiak M. (2012): Pomiar odległości obiektów opisanych zmiennymi mierzonymi na skali porządkowej. Prace Naukowe
nr 242 Uniwersytetu Ekonomicznego we Wrocławiu: Taksonomia 19. Klasyfikacja i analiza danych – teoria i zastosowa-
nia, Wrocław, s. 39-46.
Walesiak M., Bąk A. (2000): Conjoint analysis w badaniach marketingowych. Wydawnictwo Akademii Ekonomicznej we
Wrocławiu, Wrocław.
Walesiak M., Dudek A. (2009): Ocena wybranych procedur analizy skupień dla danych porządkowych. Prace Naukowe nr 47
Uniwersytetu Ekonomicznego we Wrocławiu: Taksonomia 16: Klasyfikacja i analiza danych – teoria i zastosowania,
Wrocław, s. 41-49.
Ward J.H. (1963): Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association,
58/301, s. 236-244.
Wasilewska E. (2008): Statystyka opisowa nie tylko dla socjologów. Teoria, przykłady, zadania. Wydawnictwo Szkoły Głównej
Gospodarstwa Wiejskiego, Warszawa.
Waściszewski L. (1930): Statystyka. Teoria metody statystycznej. Lublin, s. 10-33. Przedruk [w:] Rozwój polskiej myśli staty-
stycznej. Wybór pism statystyków polskich (1968). Państwowe Wydawnictwo Ekonomiczne, Warszawa, s. 352-366.
Wąsowicz H. (1986): Łaciński kalendarz symboliczny (cisiojanus) do połowy XVI wieku. Redakcja Wydawnictw Katolickie-
go Uniwersytetu Lubelskiego, Lublin, s. 82-83.
292 Bibliografia
Wąsowicz H. (1995): Kalendarz ksiąg liturgicznych Krakowa do połowy 16. wieku : studium chronologiczno-typologiczne.
Redakcja Wydawnictw Katolickiego Uniwersytetu Lubelskiego, Lublin, s. 182-183.
Wąsowicz H. (2007): Metody trójwymiarowej projekcji w chronologii [w:] T.T. Prinke (red.): Megabajty dziejów. Informaty-
ka w badaniach, popularyzacji i dydaktyce historii. Instytut Historii Uniwersytetu im. Adama Mickiewicza w Poznaniu,
Poznań, s. 63-78.
Wąsowicz H. (2016): Cyzjojany łacińskie : studium typologiczne. Wydawnictwo Katolickiego Uniwersytetu Lubelskiego Jana
Pawła II, Lublin.
Wieczorkowski G., Wierzbiński J (2007): Statystyka. Analiza badań społecznych. Wydawnictwo Naukowe Scholar, Warsza-
wa.
Wierzchoń S., Kłopotek M. (2015): Algorytmy analizy skupień. Wydawnictwo WNT, Warszawa.
Winkler R., Kruse R., Klawonn F. (2012): A New Distance Function for Fuzzy c-Means Clustering in High-Dimensional
Spaces with Applications in S.O.D.A. [w:] J. Pociecha i R. Decker (red.): Data Analysis Methods and its Applica-
tions. Wydawnictwo C.H. Beck, Warszawa, s. 91-108.
Wishart D. (1969): An Algorithm for Hierarchical Classifications. Biometrics, 25/1, s. 165-170.
Wiśniewski F. (1964): Rzemiosło indywidualne w dwudziestoleciu Polski Ludowej. Studium ekonomiczne. Polskie Towa-
rzystwo Ekonomiczne, Oddział w Poznaniu, Rozprawy i monografie Nr 9, Państwowe Wydawnictwo Naukowe, Oddział
w Poznaniu, Poznań.
Wiśniewski J. (1986): Korelacja i regresja w badaniach zjawisk jakościowych na tle teorii pomiaru. Przegląd Statystyczny,
23/3, s. 238-248.
Wiśniewski J. (1987): Teoria pomiaru a teoria błędów w badaniach statystycznych. Wiadomości Statystyczne, 11, s. 18-20.
Wiśniewski J. (2014): Dylematy stosowania współczynnika korelacji Spearmana. Studia Ekonomiczne nr 181 Uniwersytetu
Ekonomicznego w Katowicach: Zarządzanie ryzykiem kapitałowym i ubezpieczeniowym oraz społecznymi uwarunko-
waniami ryzyka rynku pracy, s. 174-184.
Wydymus S. (1988): Analiza porównawcza struktur gospodarczych [w:] A. Zeliaś (red.): Metody statystyki międzynarodowej.
Państwowe Wydawnictwo Ekonomiczne, Warszawa, s. 162-199.
Wydymus S. (1989): Taksonometryczne modele syntetyczne w analizie zjawisk społeczno-ekonomicznych [w:] A. Grabiński,
S. Wydymus, A. Zeliaś: Metody taksonomii numerycznej w modelowaniu zjawisk społeczno-gospodarczych. Państwowe
Wydawnictwo Naukowe, Warszawa, s. 186-200.
Wysocki F. (2010): Metody taksonomiczne w rozpoznawaniu typów ekonomicznych rolnictwa i obszarów wiejskich. Wydaw-
nictwo Uniwersytetu Przyrodniczego w Poznaniu. Poznań.
Wysocki Z. (1965): Zagadnienie taksonomii geograficznej. Przegląd Geograficzny, 37/2, s. 313-339.
Wywiał J. (1994): O metodzie Warda grupowania zbiorów. Prace Naukowe nr 667 Akademii Ekonomicznej im. Oskara Langego
we Wrocławiu: Ekonomia matematyczna, Wrocław, s. 119-122.
XYZ
Xu L. (1997): Bayesian Ying–Yang machine, clustering and number of clusters. Pattern Recognition Letters, 18, s. 1167-
-1178.
Yule G.U., Kendall M.G. (1966): Wstęp do teorii statystyki. Państwowe Wydawnictwo Naukowe, Warszawa.
Zaborski A. (1998): Metody wyznaczania macierzy podobieństwa między obiektami w skalowaniu wielowymiarowym [w:]
K. Jajuga, M. Walesiak (red.): Klasyfikacja i analiza danych. Teoria i zastosowania. Taksonomia 5. Wydawnictwo Akade-
mii Ekonomicznej we Wrocławiu, Wrocław, s. 55-63.
Zaborski A. (2001): Skalowanie wielowymiarowe w badaniach marketingowych. Wydawnictwo Akademii Ekonomicznej we
Wrocławiu, Wrocław.
Zając K. (1967): Podstawy statystyki. Skrypt uczelniany. Wyższa Szkoła Ekonomiczna w Krakowie, Kraków.
Zajda J. (1960): Produkcja czysta jako kategoria ekonomiczna systemu finansowego. Ruch Prawniczy, Ekonomiczny i Socjo-
logiczny, 22/4, s. 109-125.
Zakrzewska M. (1987): O miarach podobieństwa obiektów i cech przydatnych w psychologicznych zastosowaniach analizy
skupień [w:] J. Brzeziński (red.): Wielozmienne modele statystyczne w badaniach psychologicznych. Państwowe Wydaw-
nictwo Naukowe, Poznań, s. 205-259.
Zambrzycka-Kunachowicz A. (1974a): Próba zastosowania jednej z metod taksonomicznych w typologii zjawisk etnograficz-
nych. Zeszyty Naukowe nr 375 Uniwersytetu Jagiellońskiego: Prace Etnograficzne, 7, Kraków, s. 36-60.
Zambrzycka-Kunachowicz A. (1974b): Rzemieślnik w społeczności rolników. Polska Akademia Nauk, Instytut Filozofii i So-
cjologii – Prace Etnograficzne, Ossolineum, Warszawa.
Zeliaś A. (1968): Analiza czynnikowa nad rejonizacją produkcji rolniczej. Zagadnienia Ekonomiki Rolnej, 5/89, s. 83-97.
Zeliaś A. (1982): Kilka uwag o kryteriach doboru zmiennych w modelach ekonometrycznych. Folia Oeconomica Cracoviensia,
24, s. 21-36.
Zeliaś A. (1984): Teoria prognozy. Polskie Wydawnictwo Ekonomiczne, Warszawa.
Zeliaś A. (1989): Dobór zmiennych diagnostycznych do modeli taksonometrycznych [w:] T. Grabiński, S. Wydymus, A. Ze-
liaś: Metody taksonomii numerycznej w modelowaniu zjawisk społeczno-gospodarczych. Państwowe Wydawnictwo Na-
ukowe, Warszawa, s. 36-48.
Zeliaś A. (1997): Teoria prognozy. Polskie Wydawnictwo Ekonomiczne, Warszawa.
Bibliografia 293
Zeliaś A. (2000a): Dobór zmiennych diagnostycznych [w:] A. Zeliaś (red.): Taksonomiczna analiza przestrzennego zróżnico-
wania poziomu życia w Polsce w ujęciu dynamicznym. Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków,
s. 35-55.
Zeliaś A. (2000b): Określanie podobieństwa dynamicznych obiektów ujmowanych w wielowymiarowej przestrzeni zmiennych
diagnostycznych [w:] A. Zeliaś (red.): Taksonomiczna analiza przestrzennego zróżnicowania poziomu życia w Polsce
w ujęciu dynamicznym. Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków, s. 98-101.
Zeliaś A., Pawełek B., Wanat S. (2002): Metody statystyczne. Zadania i sprawdziany. Polskie Wydawnictwo Ekonomiczne,
Warszawa.
Zimniewicz K. (1970): Rola gospodarcza i przeobrażenia organizacyjne przemysłu drobnego w Wielkopolsce w dwudzie-
stoleciu Polski Ludowej (1945-1965). Poznańskie Towarzystwo Przyjaciół Nauk. Państwowe Wydawnictwo Naukowe,
Oddział w Poznaniu, Poznań.
Akty prawne
Dekret z dnia 21 kwietnia 1948 r. o zmianie ustawy z dnia 19 lipca 1939 r. o izbach rzemieślniczych i ich związku (Dz.U. 1948
nr 23, poz. 155).
Dekret z dnia 3 kwietnia 1948 r. o częściowej zmianie prawa przemysłowego (Dz.U. 1948 nr 18, poz. 130).
Rozporządzenie Ministra Finansów z dnia 7 grudnia 1956 r. w sprawie zwolnienia od podatków nowozakładanych drobnych
zakładów rzemieślniczych i chałupniczych oraz przemysłu ludowego i domowego (Dz.U. 1956 nr 60, poz. 289).
Rozporządzenie Ministra Finansów z dnia 8 grudnia 1956 r. w sprawie poboru w formie ryczałtu podatków obrotowego i do-
chodowego od osób prowadzących zakłady rzemieślnicze (Dz.U. 1956 nr 60, poz. 290).
Rozporządzenie Ministra Finansów z dnia 8 grudnia 1956 r. w sprawie kart podatkowych dla drobnych rzemieślników (Dz.U.
1956 nr 60, poz. 291).
Ustawa z dnia 1 lipca 1958 r. o zezwoleniach na wykonywanie przemysłu, rzemiosła, handlu i niektórych usług przez jednostki
gospodarki nie uspołecznionej (Dz.U. 1958 nr 45, poz. 224).
Ustawa z dnia 11 września 1956 r. o izbach rzemieślniczych i Związku Izb Rzemieślniczych (Dz.U. 1956 nr 41, poz. 190).
Ustawa z dnia 29 marca 1965 r. o ubezpieczeniu społecznym rzemieślników (Dz.U. 1965 nr 13, poz. 90).
AGAD, Archiwum Zamoyskich, sygn. 1/358/0/0/96, p. 344-421: Statystyka Księstwa Warszawskiego i Królestwa Kongreso-
wego z lat 1806-1812, 1817-1824, 1852 i wywozu gdańskiego 1691-1817, Tabela ludności powiatów: Poznański.
AGAD, Archiwum Zamoyskich, sygn. 1/358/0/0/96, p. 344-421: Statystyka Księstwa Warszawskiego i Królestwa Kongre-
sowego z lat 1806-1812, 1817-1824, 1852 i wywozu gdańskiego 1691-1817, Tabela ludności ogółem Departamentu Po-
znańskiego,
AGAD, Archiwum Zamoyskich, sygn. 1/358/0/0/96, p. 800-819: Statystyka Księstwa Warszawskiego i Królestwa Kongreso-
wego z lat 1806-1812, 1817-1824, 1852 i wywozu gdańskiego 1691-1817, Tabela roczna zaślubionych, nowonarodzonych
i zmarłych.
AGAD, Archiwum Zamoyskich, sygn. 1/358/0/0/96, p. 820-841: Statystyka Księstwa Warszawskiego i Królestwa Kongreso-
wego z lat 1806-1812, 1817-1824, 1852 i wywozu gdańskiego 1691-1817, Tabela Miast w Dziewięciu Departamentach
Księstwa Warszawskiego z wyrażeniem ich liczby Domów i Ludności.
AGAD, Rada Ministrów Księstwa Warszawskiego, sygn. 1/176/2/093, p. 1-6: Księgi Kancelaryjne, Akta spraw, Tabele staty-
styczne.
APP, Prezydium WRN w Poznaniu, sygn. 7083/X/40, p. 1-135: Wydział Finansowy, Charakterystyka powiatów wojew. po-
znańskiego 1961-1962, 1963-1964.
APP, Prezydium WRN w Poznaniu, sygn. 7084/X/41, p. 3-60: Wydział Finansowy, Krótka charakterystyka powiatów wojew.
poznańskiego.
APP, Prezydium WRN w Poznaniu, sygn. 7092/X/49, p. 137: Wydział Finansowy, Charakterystyka powiatów województwa
poznańskiego.
APP, Prezydium WRN w Poznaniu, sygn. 7105/X/62, p. 12-20: Wydział Finansowy, Charakterystyka powiat. wojew. poznań-
skiego 1961-1965.
APP, Prezydium WRN w Poznaniu, sygn. 7075/X/32, p. 77-83, 156-163: Wydział Finansowy, Sprawozdanie o dokonanych
przypisach, odpisach i uiszczeniach 12P za 1958 r.,
APP, Prezydium WRN w Poznaniu, sygn. 7098/X/55, p. 108: Wydział Finansowy, Sprawozdanie o dokonanych przypisach,
odpisach i uiszczeniach 12P za 1964 r.
APP, Prezydium WRN w Poznaniu, sygn. 7123/X/80, p. 7: Wydział Finansowy, Sprawozdanie o dokonanych przypisach,
odpisach i uiszczeniach 12P za 1967 r.
APP, Prezydium WRN w Poznaniu, sygn. 7176/X/133, p. 14: Wydział Finansowy, Sprawozdanie 10P o dokonanych przypi-
sach, odpisach i wpłatach za 1970 r.
294 Bibliografia
APP, Prezydium WRN w Poznaniu, sygn. 7179/X/136, p. 101: Wydział Finansowy, Sprawozdanie 10P o dokonanych przypi-
sach, odpisach i wpłatach za 1973 r.
Rocznik Statystyczny 1960 (XX), Główny Urząd Statystyczny, Warszawa 1961.
Rocznik Statystyczny 1961 (XXI), Główny Urząd Statystyczny, Warszawa 1962.
Rocznik Statystyczny 1962 (XXII), Główny Urząd Statystyczny, Warszawa 1963.
Rocznik Statystyczny 1963 (XXIII), Główny Urząd Statystyczny, Warszawa 1964.
Rocznik Statystyczny 1964 (XXIV), Główny Urząd Statystyczny, Warszawa 1965.
Rocznik Statystyczny 1965 (XXV), Główny Urząd Statystyczny, Warszawa 1966.
Rocznik Statystyczny 1966 (XXVI), Główny Urząd Statystyczny, Warszawa 1966.
Rocznik Statystyczny 1967 (XXVII), Główny Urząd Statystyczny, Warszawa 1967.
Rocznik Statystyczny 1968 (XXVIII), Główny Urząd Statystyczny, Warszawa 1968.
Rocznik Statystyczny 1969 (XXIX), Główny Urząd Statystyczny, Warszawa 1969.
Rocznik Statystyczny 1970 (XXX), Główny Urząd Statystyczny, Warszawa 1970.
Rocznik Statystyczny 1971 (XXXI), Główny Urząd Statystyczny, Warszawa 1972.
Rocznik Statystyczny 1972 (XXXII), Główny Urząd Statystyczny, Warszawa 1973.
Rocznik Statystyczny 1973 (XXXIII), Główny Urząd Statystyczny, Warszawa 1974.
Rocznik Statystyczny 1974 (XXXIV), Główny Urząd Statystyczny, Warszawa 1975.
Rocznik Statystyczny 1975 (XXXV), Główny Urząd Statystyczny, Warszawa 1976.
Rocznik Statystyczny 1976 (XXXVI), Główny Urząd Statystyczny, Warszawa 1977.
Rocznik Statystyczny 1977 (XXXVII), Główny Urząd Statystyczny, Warszawa 1978.
Rocznik Statystyczny 1978 (XXXVIII), Główny Urząd Statystyczny, Warszawa 1979.
Rocznik Statystyczny 1979 (XXXVIX), Główny Urząd Statystyczny, Warszawa 1980.
Rocznik Statystyczny 1980 (XL), Główny Urząd Statystyczny, Warszawa 1981.
Rocznik Statystyczny 1981 (XLI), Główny Urząd Statystyczny, Warszawa 1982.
Rocznik Statystyczny 1982 (XLII), Główny Urząd Statystyczny, Warszawa 1983.
Rocznik Statystyczny 1983 (XLIII), Główny Urząd Statystyczny, Warszawa 1984.
Rocznik Statystyczny 1984 (XLIV), Główny Urząd Statystyczny, Warszawa 1985.
Rocznik Statystyczny 1985 (XLV), Główny Urząd Statystyczny, Warszawa 1986.
Rocznik Statystyczny 1986 (XLVI), Główny Urząd Statystyczny, Warszawa 1987.
Rocznik Statystyczny 1987 (XLVII), Główny Urząd Statystyczny, Warszawa 1988.
Rocznik Statystyczny 1988 (XLVIII), Główny Urząd Statystyczny, Warszawa 1989.
Rocznik Statystyczny 1989 (XLIX), Główny Urząd Statystyczny, Warszawa 1990.
Rocznik Statystyczny 1990 (L), Główny Urząd Statystyczny, Warszawa 1991.
Aneks A
Dane ilościowe
Tabela 1. Zmienne dotyczące sytuacji demograficznej w departamencie poznańskim w 1810 r.
Wschowa 𝑝1 2,24 33,5 0,94 2,2 8,4 23,1 23,5 22,7 57,1 35,3 7,6
Krobia 𝑝2 2,78 33,3 0,96 2,2 8,0 30,6 33,1 28,2 63,5 33,2 3,3
Międzyrzecz 𝑝3 1,13 30,4 0,98 2,4 8,7 35,2 37,6 32,8 46,5 46,0 7,5
Krotoszyn 𝑝4 2,25 28,1 1,00 2,6 7,7 34,9 35,2 34,6 76,7 18,4 4,9
Babimost 𝑝5 1,58 28,0 0,99 2,0 6,2 31,1 33,0 29,2 42,4 52,5 5,1
Oborniki 𝑝6 1,40 23,7 1,00 1,8 8,2 32,4 33,7 31,2 62,0 30,4 7,6
Kościan 𝑝7 1,75 20,6 0,97 4,9 4,6 27,2 29,2 25,3 78,8 17,2 4,0
Śrem 𝑝8 1,99 20,3 0,99 1,8 7,2 34,7 36,7 32,7 81,7 14,3 4,0
Gniezno 𝑝9 1,46 18,9 1,05 2,0 7,2 28,5 28,8 28,1 79,7 17,0 3,3
Pyzdry 𝑝10 1,86 17,7 1,04 1,6 5,9 37,1 38,4 35,8 84,4 9,0 6,6
Powidz 𝑝11 1,51 17,1 1,05 1,3 5,3 44,8 45,2 44,5 80,9 14,8 4,3
Środa 𝑝12 1,86 12,8 1,00 2,1 6,9 33,3 36,0 30,6 88,6 8,5 2,9
Poznań 𝑝13 1,50 10,2 1,01 1,8 7,3 35,5 38,0 32,6 87,5 9,4 3,1
Wągrowiec 𝑝14 1,19 9,7 1,03 2,1 8,1 32,2 33,2 31,3 79,6 17,7 2,7
ogółem 1,69 25,2 0,99 2,3 7,3 32,9 34,6 31,2 70,4 24,2 5,4
M – mężczyźni, K – kobiety.
Źródło: M. KĘDELSKI (1996, s. 25) [za:] AGAD, Archiwum Zamoyskich, sygn. 1/358/0/0/96.
Aneks A. Dane ilościowe 297
Tabela 2. Powierzchnia upraw podstawowych gatunków roślin na ziemiach polskich tworzących Kraj Warty,
średnia z lat 1933-1937 [% UR]
Źródło: dane zestawiono na podstawie map przedstawionych przez GUENTHER-SWARTA (1941, s. 24-54) oraz JANICKIEGO
(1996, s. 119-141).
298 Aneks A. Dane ilościowe
Tabela 3. Wielkość hodowli zwierząt na ziemiach polskich tworzących Kraj Warty w 1937 r. [szt./100 ha UR]
Źródło: dane zestawiono na podstawie map przedstawionych przez GUENTHER-SWARTA (1941, s. 24-54) oraz JANICKIEGO
(1996, s. 119-141).
Tabela 4. Wartość produkcji czystej w polskim przemyśle uspołecznionym w latach 1958-1972 w cenach bieżących [mld zł]
Rok
1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973
Gałęzie przemysłu
energetyczny 𝑋1 1,9 3,4 3,6 3,1 3,9 5,2 7,2 8,0 9,0 9,5 10,6 11,4 11,8 12,0 13,1 15,0
paliw i węglowy 𝑋2 6,0 13,4 18,9 20,8 20,9 22,1 24,7 27,0 28,5 29,1 32,6 34,4 44,5 51,5 53,8 57,2
hutnictwo żelaza 𝑋3 5,5 4,8 7,2 9,9 9,5 9,7 11,0 12,3 12,7 13,1 14,2 15,9 17,5 22,2 25,0 27,7
metali nieżelaznych 𝑋4 1,3 1,0 2,0 2,9 3,0 3,0 3,2 3,5 3,7 4,3 4,7 5,3 6,3 9,5 10,8 13,1
metalowy 𝑋5 6,6 7,6 8,6 9,7 11,2 12,5 13,9 15,4 16,0 15,7 17,1 18,9 19,1 20,0 22,3 25,7
elektrotechniczny 𝑋6 4,5 5,4 6,5 7,9 9,7 10,3 11,5 13,1 14,4 13,3 15,3 17,0 20,2 20,0 22,8 26,5
środków transportu 𝑋7 8,8 9,9 11,5 12,8 15,0 15,2 16,9 19,6 20,3 20,6 22,5 26,0 33,9 35,5 39,9 46,9
maszynowy 𝑋8 8,3 9,3 10,4 11,9 13,0 13,8 15,9 17,0 18,3 19,5 21,9 23,5 29,7 35,8 40,5 48,0
chemiczny 𝑋9 7,3 6,9 8,4 11,0 13,8 14,7 17,0 18,2 20,5 23,2 27,0 30,1 43,0 35,8 43,5 53,1
materiałów budowlanych 𝑋10 5,7 5,6 6,2 6,7 6,7 6,7 7,5 7,7 8,3 8,8 9,4 9,6 10,0 13,0 14,3 15,4
szklarski 𝑋11 1,3 1,8 1,9 1,9 2,1 2,2 2,5 2,7 2,9 2,7 2,9 3,1 3,2 3,2 3,6 4,5
ceramiki szlachetnej 𝑋12 0,4 0,6 0,6 0,7 0,7 0,7 0,7 0,7 0,8 0,8 0,9 0,9 0,9 1,0 1,2 1,5
drzewny 𝑋13 5,3 5,4 5,6 6,4 7,0 7,6 8,2 8,9 9,5 10,1 10,6 11,6 12,0 13,1 14,1 17,0
papierniczy 𝑋14 2,5 2,4 2,5 2,8 2,9 3,3 3,5 3,7 3,9 4,2 4,3 4,5 4,6 5,2 5,7 6,1
poligraficzny 𝑋15 1,1 1,1 1,3 1,3 1,4 1,5 1,6 1,8 1,9 2,0 2,1 2,3 2,4 2,8 2,9 3,1
włókienniczy 𝑋16 23,5 23,8 22,0 22,5 23,8 23,8 26,2 30,0 32,5 34,2 39,1 42,5 44,8 46,4 53,3 62,4
odzieżowy 𝑋17 3,5 3,1 3,1 3,5 4,4 5,0 5,4 6,1 6,6 7,0 7,9 8,7 9,6 10,1 11,7 13,4
skórzany 𝑋18 6,8 6,8 6,1 5,8 6,3 6,4 7,2 7,8 8,0 8,6 9,1 9,8 10,0 9,1 10,5 11,9
spożywczy 𝑋19 41,5 43,1 40,4 42,8 44,3 47,4 50,7 54,8 56,6 55,8 58,0 63,0 72,8 72,1 66,8 77,3
pozostałe gałęzie przemysłu 𝑋20 2,9 3,3 3,9 4,4 5,0 5,1 5,0 5,0 5,1 3,3 3,5 3,8 –1,6 1,0 0,0 –0,2
razem 144,7 158,7 170,6 188,8 204,7 216,1 239,9 263,3 279,4 285,9 313,8 342,2 394,6 419,5 455,9 525,6
Źródło: ROCZNIKI STATYSTYCZNE: 1960 (s. 98), 1961 (s. 92), 1963 (s. 112), 1964 (s. 114), 1965 (s. 122), 1966 (s. 128), 1967 (s. 129), 1968 (s. 115), 1969 (s. 125), 1970 (s. 125), 1971 (s. 126),
1972 (s. 167), 1974 (s. 216).
Tabela 5. Wartość produkcji czystej w polskim przemyśle uspołecznionym w latach 1973-1989 w cenach bieżących [mld zł]
Rok
1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989
Gałęzie przemysłu
energetyczny 𝑋1 15,5 15,4 19,0 20,3 21,1 18,0 18,7 14,0 72,2 64,6 86,9 93,6 106,3 156,0 229,3 1088,6
paliw i węglowy 𝑋2 103,0 137,6 100,9 110,7 113,2 116,0 109,9 78,2 271,6 404,1 439,1 473,6 582,2 802,6 1559,0 3727,6
hutnictwo żelaza 𝑋3 34,3 32,9 30,0 35,6 38,3 27,8 27,9 18,3 71,7 93,8 123,8 148,8 184,7 250,1 461,6 2964,7
metali nieżelaznych 𝑋4 15,1 17,2 14,5 17,1 14,7 24,4 35,1 26,0 40,8 55,0 74,3 82,3 109,1 184,7 437,6 1785,4
metalowy 𝑋5 30,5 35,4 39,3 48,3 54,3 59,5 58,3 56,4 114,2 134,9 170,9 204,1 250,8 321,3 543,4 2494,6
elektrotechniczny 𝑋6 31,2 36,4 37,1 49,5 56,8 58,3 60,0 59,9 129,0 153,9 193,2 237,5 288,7 386,6 737,2 3160,5
środków transportu 𝑋7 58,1 73,6 56,3 78,8 98,6 101,6 104,4 98,0 213,2 245,2 291,6 345,8 397,1 520,9 974,6 4043,4
maszynowy 𝑋8 58,7 71,9 86,9 113,6 124,1 134,3 136,6 147,2 268,1 308,6 377,8 475,1 601,2 809,3 1456,3 5337,6
chemiczny 𝑋9 65,4 75,4 79,5 84,7 97,7 98,6 100,0 103,3 182,4 204,7 243,3 293,8 355,1 501,4 949,3 4093,5
materiałów budowlanych 𝑋10 15,3 14,9 15,6 20,4 19,5 15,9 13,7 10,1 77,8 86,6 100,8 108,3 136,7 174,0 290,2 1118,8
szklarski 𝑋11 5,1 5,4 7,2 7,8 10,0 10,8 11,1 11,5 24,7 30,9 37,4 39,9 45,1 61,3 111,5 483,3
ceramiki szlachetnej 𝑋12 1,7 2,1 2,4 2,7 3,5 3,8 3,8 4,1 9,6 13,0 17,1 20,3 23,5 28,3 53,3 251,8
drzewny 𝑋13 22,0 25,5 27,8 32,3 33,5 32,6 37,6 39,2 75,7 86,3 109,6 131,4 157,0 209,6 351,6 1800,9
papierniczy 𝑋14 6,2 6,3 9,5 9,8 9,5 8,4 8,3 8,1 24,1 22,1 25,2 35,5 48,7 74,2 131,8 637,8
poligraficzny 𝑋15 3,7 4,0 4,6 5,7 6,2 6,3 6,2 6,0 12,4 16,6 23,1 29,1 38,6 53,9 87,7 305,1
włókienniczy 𝑋16 74,9 90,0 102,6 103,0 108,2 107,6 116,7 113,3 168,2 208,4 275,9 345,8 428,6 543,6 933,7 4278,4
odzieżowy 𝑋17 15,6 18,6 20,7 18,4 20,1 20,2 21,9 27,5 53,2 74,4 90,4 105,3 129,7 172,9 318,8 1350,9
skórzany 𝑋18 12,8 14,9 16,8 18,7 20,0 20,8 25,0 26,7 51,1 71,8 84,1 104,9 126,0 165,9 317,7 1467,5
spożywczy 𝑋19 100,7 110,2 126,3 96,9 106,2 113,1 122,1 –1,8 394,8 501,8 558,7 606,4 641,9 791,4 894,5 7136,1
pozostałe gałęzie przemysłu 𝑋20 –4,7 –4,0 2,7 2,4 3,5 5,0 2,3 19,6 40,5 49,5 52,0 56,2 77,6 99,0 163,4 780,2
razem 665 783 800 877 959 983 1020 866 2295 2826 3375 3938 4729 6307 11003 48307
Źródło: ROCZNIKI STATYSTYCZNE: 1974 (s. 216), 1975 (s. 161), 1976 (s. 152), 1977 (s. 124), 1978 (s. 117), 1979 (s. 136), 1980 (s. 141), 1981 (s. 233), 1982 (s. 175), 1983 (s. 191), 1984
(s. 211), 1985 (s. 215), 1986 (s. 216), 1987 (s. 221), 1988 (s. 2016-207), 1989 (s. 226), 1990 (s. 264-265).
Tabela 6. Warsztaty rzemieślnicze we wsi Odrowąż i Waksmund i ich charakterystyki*
kołodziejstwo, kowalstwo 𝑤1 1 0 1 0 1 0 0 1
stolarstwo meblowe 𝑤2 0 1 1 0 0 1 0 1
kołodziejstwo 𝑤3 0 1 1 0 1 0 0 1
stolarstwo, bednarstwo, kołodziejstwo, ciesielstwo 𝑤4 1 0 1 0 1 0 0 1
stolarstwo, bednarstwo 𝑤5 1 0 1 0 1 0 0 1
bednarstwo 𝑤6 1 0 1 0 0 1 0 1
kołodziejstwo, stolarstwo meblowe i budowlane 𝑤7 1 0 1 0 0 1 0 1
stolarstwo budowlane i meblowe 𝑤8 1 0 1 0 0 1 0 1
stolarstwo budowlane i meblowe 𝑤9 1 0 1 0 0 1 0 1
stolarstwo meblowe, pamiątkarstwo 𝑤10 0 1 0 1 0 1 1 1
wyrób gnatek, części do wozu 𝑤11 0 1 1 0 1 0 1 0
wyrób gnatek, części do wozu 𝑤12 0 1 0 1 1 0 1 0
stolarstwo budowlane 𝑤13 0 1 0 1 0 1 0 0
stolarstwo budowlane 𝑤14 0 1 0 1 0 1 0 0
bednarstwo 𝑤15 0 1 1 0 1 0 0 0
bednarstwo 𝑤16 0 1 1 0 0 1 0 0
kołodziejstwo, kowalstwo 𝑤17 0 1 1 0 0 1 0 0
kołodziejstwo 𝑤18 1 0 1 0 1 0 0 0
stolarstwo meblowe 𝑤19 0 1 1 0 0 1 0 0
* wartości „1” oznaczają pozytywną odpowiedź, „0” odnosi się do odpowiedzi negatywnych; w przypadku zmiennej „wieś”: „1” oznacza wieś Odrowąż, natomiast „0” wieś Waksmund
Źródło: ZAMBRZYCKA-KUNACHOWICZ (1974a).
Tabela 7. Występowanie wyrażeń w dziesięciu dokumentach
Zajęcia zawo-
Zmienne Przemysł Rzemiosło Handel Usługi Pozostali
dowe
Powiaty
𝑋𝑃 𝑋𝑅𝑍 𝑋𝐻 𝑋𝑈 𝑋𝑍𝑍 𝑋𝐼
Źródło: APP, Prezydium WRN w Poznaniu, sygn. 7075/X/32; APP, Prezydium WRN w Poznaniu, sygn. 7084/X/41;
APP, Prezydium WRN w Poznaniu, sygn. 7092/X/49.
304 Aneks A. Dane ilościowe
Zajęcia
Zmienne Przemysł Rzemiosło Handel Usługi Pozostali
zawodowe
Powiaty 𝑋𝑃 𝑋𝑅𝑍 𝑋𝐻 𝑋𝑈 𝑋𝑍𝑍 𝑋𝐼
256 1282 74 180 136 120
Chodzież 𝑝1
Czarnków 𝑝2 97 1048 6 24 100 50
Gniezno 𝑝3 168 465 46 174 110 87
Gostyń 𝑝4 687 2039 232 155 214 127
Jarocin 𝑝5 143 1087 105 83 215 159
Kalisz 𝑝6 1135 1351 187 282 153 148
Kępno 𝑝7 452 1773 131 123 163 80
Koło 𝑝8 452 1882 244 321 281 223
Konin 𝑝9 491 1427 121 207 318 145
Kościan 𝑝10 362 2633 124 182 320 146
Krotoszyn 𝑝11 149 2265 386 603 218 132
Leszno 𝑝12 160 829 35 58 30 84
Międzychód 𝑝13 24 369 60 53 74 75
Nowy Tomyśl 𝑝14 74 1633 257 663 234 18
Oborniki 𝑝15 580 943 100 270 147 96
Ostrów 𝑝16 100 1151 32 72 77 264
Ostrzeszów 𝑝17 547 1725 106 171 72 94
Trzcianka 𝑝18 215 1473 152 141 179 72
Pleszew 𝑝19 2275 9575 223 363 378 134
Poznań 𝑝20 57 1529 114 238 231 169
Rawicz 𝑝21 207 672 176 232 75 89
Słupca 𝑝22 238 1225 184 208 176 133
Śrem 𝑝23 598 1735 117 241 94 107
Środa 𝑝24 450 2288 221 424 132 152
Szamotuły 𝑝25 131 474 51 130 89 66
Turek 𝑝26 321 652 96 188 263 249
Wągrowiec 𝑝27 291 1351 221 209 133 144
Wolsztyn 𝑝28 434 779 149 155 194 100
Września 𝑝29 316 1799 222 382 210 25
Gniezno m. 𝑝30 136 3774 295 314 297 222
Kalisz m. 𝑝31 253 6288 1531 1246 600 333
Leszno m. 𝑝32 343 3041 291 266 289 306
Ostrów m. 𝑝33 80 4211 339 523 295 204
Piła m. 𝑝34 87 1134 111 174 67 117
Źródło: APP, Prezydium WRN w Poznaniu, sygn. 7105/X/62; APP, Prezydium WRN w Poznaniu, sygn. 7083/X/40;
APP, Prezydium WRN w Poznaniu, sygn. 7084/X/41; APP, Prezydium WRN w Poznaniu, sygn. 7092/X/49.
Aneks A. Dane ilościowe 305
Tabela 10. Wpływy z podatku obrotowego i dochodowego w województwie poznańskim w 1964 r. w tys. zł
Zajęcia
Zmienne Przemysł Rzemiosło Handel Usługi Pozostali
zawodowe
Powiaty
𝑋𝑃 𝑋𝑅𝑍 𝑋𝐻 𝑋𝑈 𝑋𝑍𝑍 𝑋𝐼
Źródło: APP, Prezydium WRN w Poznaniu, sygn. 7098/X/55; APP, Prezydium WRN w Poznaniu, sygn. 7083/X/40;
APP, Prezydium WRN w Poznaniu, sygn. 7084/X/41; APP, Prezydium WRN w Poznaniu, sygn. 7092/X/49.
306 Aneks A. Dane ilościowe
Tabela 11. Wpływy z podatku obrotowego i dochodowego w województwie poznańskim w 1967 r. w tys. zł.
Zajęcia zawo-
Zmienne Przemysł Rzemiosło Handel Usługi Pozostali
dowe
Powiaty
𝑋𝑃 𝑋𝑅𝑍 𝑋𝐻 𝑋𝑈 𝑋𝑍𝑍 𝑋𝐼
Źródło: APP, Prezydium WRN w Poznaniu, sygn. 7123/X/80; APP, Prezydium WRN w Poznaniu, sygn. 7084/X/41;
APP, Prezydium WRN w Poznaniu, sygn. 7092/X/49.
Aneks A. Dane ilościowe 307
Tabela 12. Wpływy z podatku obrotowego i dochodowego w województwie poznańskim w 1970 r. w tys. zł.
Zajęcia zawo-
Zmienne Przemysł Rzemiosło Handel Usługi Pozostali
dowe
Powiat
𝑋𝑃 𝑋𝑅𝑍 𝑋𝐻 𝑋𝑈 𝑋𝑍𝑍 𝑋𝐼
Źródło: APP, Prezydium WRN w Poznaniu, sygn. 7176/X/133; APP, Prezydium WRN w Poznaniu, sygn. 7179/X/136; APP,
Prezydium WRN w Poznaniu, sygn. 7084/X/41; APP, Prezydium WRN w Poznaniu, sygn. 7092/X/49.
Aneks B
Analiza skupień w programie Statistica
Rysunek B6. Przykład macierzy odległości w arkuszu Excel przygotowanej do importu do programu Statistica
Aby przygotowaną w arkuszu kalkulacyjnym macierz odległości można było importować do pro-
gramu Statistica, konieczne jest umieszczenie pod macierzą kilku informacji, niezbędnych
w macierzowym zapisie pliku przyjętym w programie Statistica. Format zapisu oraz wartości przyjęte
w prezentowanym przykładzie zostały przedstawione w dolnej części rysunku B.6. O ile w przypadku
analizy skupień nie jest konieczne wpisywanie informacji dotyczących średnich (Means) i odchyleń
standardowych (Std. Dev.), o tyle program wymaga podania liczby obiektów (No. Cases), dla których
została przygotowania macierz odległości. W przykładzie dotyczącym struktury produkcji czystej
w polskim przemyśle uspołecznionym wynosiła ona 32 i stanowiły ją kolejne lata pomiędzy rokiem
1958 oraz 1989. Wartość tę wpisano w komórce B36 (por. rysunek B.6). W ostatnim wierszu zapisano
informacje dotyczące typu prezentowanej macierzy. I tak umieszczenie w komórce B37 wartości „1”
Aneks B. Analiza skupień a programie Statistica 313
oznaczałoby, że powyżej znajduje się macierz korelacji. Wartość „2” wskazywałoby na macierz podo-
bieństwa, „3” dotyczy macierzy niepodobieństwa, a „4” macierzy kowariancji. Aby macierz 𝑫𝑰 [9.4],
zapisana w arkuszu kalkulacyjnym (rysunek B.6) po imporcie jej do programu Statistica była trakto-
wana jako macierz odległości, należy wybrać spośród powyższych opcji cyfrę „3”. Co więcej, nieza-
leżnie od tego, czy w wierszach pojawią się wartości, ich nazwy powinno się umieścić w arkuszu.
Dzięki temu tablica importowana do programu Statistica, zostanie odczytana jako macierz.
Rysunek B7. Opcje programu Statistica dostępne w ramach prawego przycisku myszy
Tak przygotowana macierz może być już importowana do programy Statistica. W tym celu należy
po otwarciu programu statystycznego powtórzyć taką samą sekwencję czynności, jaką opisano
w przypadku importowania macierzy obserwacji (por. rysunki 6.2-6.5). Ważną czynnością przed przy-
stąpieniem do zastosowania analizy skupień jest eliminacja w importowanym arkuszu pustych wier-
szy. W tym celu zaznacza się zbędne wiersze i spośród opcji prawego przycisku myszki wybiera się
opcję Usuń przypadki (por. rysunek B.7). W ten sposób macierz odległości zostanie poprawnie odczy-
tana przez program Statistica.
314 Aneks B. Analiza skupień a programie Statistica
Obok zadań związanych z grupowaniem, moduł Analiza skupień może służyć także jako kalkulator
podobieństwa lub odległości. Oczywiście można wykorzystać w tym celu jedynie wbudowane funk-
cje. Zagadnienie to jest szczególnie ważne w przypadku stosowania metody grupowania wielowymia-
rowego, która nie została uwzględniona w programie Statistica.
Punktem wyjścia do tego typu działania jest wpisanie lub importowanie macierzy obserwacji (por.
rysunki B.1-B.5). W następnym kroku należy przeprowadzić grupowanie dowolną hierarchiczną me-
todą taksonomiczną. Polega to na wskazaniu odpowiedniej analizy spośród dostępnych opcji
w zakładce Statystyka: Statystyka/Wielowymiarowe techniki eksploracyjne/Analiza skupień/Aglo-
meracja (por. rysunki B.8 oraz B.9).
Następnie w zakładce Więcej należy wskazać tę miarę odległości, dla której ma być wyznaczona
interesująca badacza macierz (rysunek B.10). Wszystkie spośród metryk wbudowanych w pakiecie
Statistica zostały opisane już w rozdziale czwartym. Do grupy tej należą: odległość euklidesową (wzór
[4.7]), kwadrat odległości euklidesowej (wzór [4.8]), odległość miejska (Manhattan, wzór [4.9]), odle-
głość Czybyszewa (wzór [4.10]), odległość potęgowa (wzór [4.6]), niezgodność procentowa (prze-
kształcony wzór [4.26]) oraz odległość 1-r Pearsona (przekształcony wzór [4.40]).
Aneks B. Analiza skupień a programie Statistica 315
Wśród wielu metod oferowanych w ramach programu Statistica można wymienić algorytmy grupo-
wania hierarchicznego. Podstawą grupowania może być macierz obserwacji lub macierz odległości.
W prezentacji pierwszego ze wspomnianych zagadnień posłużono się przykładem przedstawionym
w rozdziale siódmym.
Punktem wyjścia do przeprowadzenia grupowania wielowymiarowego była zmodyfikowana ma-
cierz obserwacji 𝑿′′ [7.3]. Warto w tym miejscu przypomnieć, że na jej ostateczną postać miała
wpływ przeprowadzona wcześniej normalizacja zmiennych. Macierz ta została importowana do pro-
gramu Statistica, której efekt końcowy przedstawia rysunek B.13.
Rysunek B13. Macierz zmiennych unormowanych 𝑿′′ [7.3] po imporcie do programu Statistica
W programie Statistica metody hierarchiczne grupowania można zastosować nie tylko w oparciu
o macierz obserwacji, ale również bazując na macierzy odległości. Takie rozwiązanie zastosowano
w przykładzie dotyczącym periodyzacji okresu 1958-1969 na podstawie produkcji czystej wytwarza-
nej w przemyśle uspołecznionym, który został przedstawiony w rozdziale dziewiątym.
W przykładzie tym macierz odległości 𝑫𝑰 [9.4] przygotowano w oparciu o współczynnik „Canber-
ra” (por. wzór [4.14]). Macierz tę przygotowano w programie Excel. Została ona wyznaczona
w oparciu o pięć zmiennych diagnostycznych 𝑋1 , 𝑋2 , 𝑋6 , 𝑋16 , 𝑋20 , a następnie zaimportowana do
programu Statistica. Proces ten został opisany w rozdziale Aneks B.2. Końcowy efekt tego działania
przedstawiono na rysunku B.17.
320 Aneks B. Analiza skupień a programie Statistica
Rysunek B17. Importowana do programu Statistica macierz odległości jako podstawa grupowania
Przyciśnięcie klawisza OK wywołuje okno wynikowe analizy skupień. Jego wygląd, dostępny
w zakładce Podstawowe, przedstawiono jako rysunek B.19.
Rysunek B20. Opcje dostępne w ramach zakładki Więcej na karcie Wyniki aglomeracji
w programie Statistica
Spośród wielu możliwości najczęściej w publikacjach naukowych jako wynik grupowanie meto-
dami hierarchicznymi prezentowany jest dendrogram. W programie Statistica można wygenerować
jego poziomą (przycisk Poziomy, hierarchiczny wykres drzewa) oraz pionową wersję (przycisk Pio-
nowy wykres sopelkowy). Jak wspomniano już w rozdziale Aneks B.3, możliwe jest również z tego
poziomu uzyskanie macierzy odległości (przycisk Macierz odległości) oraz jej zapisu w formacie ma-
cierzowym (przycisk Macierz). Z kolei przycisk Wykres przebiegu aglomeracji wywołuje wykres,
prezentowany kilkakrotnie w części praktycznej, przedstawiający etapy wiązania i odległości, na któ-
rych łączone są kolejne skupienia. W przypadku większych zbiorów grupowanych obiektów ułatwie-
niem w odczycie dendrogramu jest numeryczny zapis jego budowy, wywoływany po wskazaniu przy-
cisku Przebieg aglomeracji. Szczegółową prezentację wymienionych opcji oparto na przykładzie do-
tyczącym sytuacji demograficznej w departamencie poznańskim w 1810 r., opisanym w rozdziale
ósmym.
Aneks B. Analiza skupień a programie Statistica 323
Korzystając z odpowiednich opcji dostępnych w ramach zakładki Więcej na karcie Wyniki aglomeracji
w programie Statistica, można uzyskać przede wszystkim dendrogram (por. rysunek B.20). Jego for-
mę, prezentowaną w części praktycznej tej monografii, można otrzymać po zaznaczeniu opcji Prosto-
kątne gałęzie oraz wyborze przycisku Pionowy wykres sopelkowy. Ostateczny wynik tego działania
przedstawiono na rysunku B.21.
Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale siódmym, por. rysunek 7.5.
324 Aneks B. Analiza skupień a programie Statistica
Rysunek B22. Opcje dostępne w ramach lewego przycisku myszy w ramach edycji dendrogramu
w programie Statistica
Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale siódmym, por. rysunek 7.5.
Z kolei dodatkowy wybór opcji Skaluj: 100 * odl. wiązania / odl. maksym spowodowałaby, że za-
miast wartości odległości na jednej z osi rzędnych dendrogramu prezentowany byłby procent odległo-
ści maksymalnej, na poziomie której wszystkie badane obiekty zostały połączone w jedno skupienie.
Uzyskany w wyniku grupowania dendrogram (por. rysunek B.21) można oczywiście edytować
zgodnie ze swoimi potrzebami. Dostępne opcje w tym zakresie można wywołać, klikając na dendro-
gramie lewym przyciskiem myszy. Wybierając odpowiednie funkcje, można uzyskany wykres sforma-
tować (na rysunku B.22 opcja Opcje wykresu) czy zapisać (opcja Zapisz wykres). Możliwe jest także
jego kopiowanie, np. do edytora tekstu (opcja Kopiuj wykres).
Warto w tym miejscu wskazać, w jaki sposób na wygenerowanym w programie Statistica dendro-
gramie, przedstawionym na rysunku B.21, zaznaczyć linię odniesienia, która przecina dendrogram
w optymalnym punkcie. W tym celu należy spośród możliwości uzyskanych po naciśnięciu lewego
przycisku myszy na dendrogramie przedstawionym na rysunku B.22, wybrać Opcje wykresu. Okno
wynikowe zaprezentowano na kolejnym rysunku. Pierwszym krokiem (oznaczonym na rysunku B.23
jako [1]) jest wybór spośród dostępnych po lewej stronie ekranu opcji: Oś/Linie odniesienia.
W kolejnych krokach należy wskazać przycisk Dodaj nową ([2]), co pozwoli na ustalenie miejsca,
w którym linia odniesienia przecinająca dendrogram powinna się znaleźć. W tym celu w okienko [4]
należy wpisać wartość wyznaczoną intuicyjnie lub uzyskaną w trakcie odpowiednich obliczeń. Można
także w ramach tej karty dostosować do swoich potrzeb grubość linii, jej wzór oraz kolor ([5]).
Aneks B. Analiza skupień a programie Statistica 325
[2]
[3]
[5]
[4]
[1]
Jeżeli istnieje konieczność przesunięcia położenia linii odniesienia, wystarczy na wykresie kliknąć
na nią dwa razy lub ponownie prawym przyciskiem myszy wybrać Opcje wykresu. W konsekwencji
obu działań pojawia się ponownie okno przedstawione na rysunku B.23, na którym można dokonać
koniecznych zmian.
Analiza opcji dostępnych po lewej stronie okna Opcje wykresu (por. rysunek B.23) pozwala dosto-
sować postać wygenerowanego dendrogramu do potrzeb użytkownika. I tak zmiana tła wykresu jest
możliwa w ramach opcji Wykres/Okno. Zmiana koloru i grubości linii wykresu właściwego jest udo-
stępniona po wskazaniu okna Wykres właściwy/Ogólne. Z kolei opcja Oś/Wartości skali umożliwia
zmianę układu zapisu wartości skali. Formatowanie wykresów w programie Statistica jest na tyle intu-
icyjne, że nie wymaga szczegółowego opisu działań.
326 Aneks B. Analiza skupień a programie Statistica
Wykres przebiegu aglomeracji stanowi podstawę jednej z reguł wyznaczania optymalnego punktu
podziału dendrogramu, opisaną w rozdziale szóstym (por. rysunek 6.3). Aby go uzyskać, należy
z okna wyników aglomeracji (por. rysunek B.20) wybrać opcję Wykres przebiegu aglomeracji. Wynik
tego działania w przypadku gdy analizowane były dane dotyczące demografii poszczególnych powia-
tach departamenty poznańskiego w 1810 r., przedstawiono na rysunku B.24. Powtórzenie czynności
zaprezentowanych na rysunku B.23 pozwala natomiast na umieszczenie na tego typu wykresie linii
odniesienia, obrazującej punkt przecięcia dendrogramu. Należy jednak w tym celu wybrać w górnym
okienku karty przedstawionej na rysunku B.23 oś Y.
Na podstawie szczegółowej analizy dendrogramu (por. rysunek B.21) oraz wykresu przebiegu
aglomeracji (por. rysunek B.24) możliwe jest odczytanie wartości odległości, na której łączone były
obiekty na poszczególnych etapach wiązania. Działanie to jest szczególnie istotne, jeżeli badacz wy-
biera optymalny punkt przecięcia dendrogramu w oparciu o regułę ilorazu odległości aglomeracyjnej
lub górnego obszaru odrzucenia, które zostały opisane w rozdziale 6.1.2.
W ramach programu Statistica możliwe jest wygenerowanie tych wartości za pomocą przycisku
Przebieg aglomeracji, dostępnego w zakładce Więcej na karcie Wyniki aglomeracji w programie Stati-
stica (por. rysunek B.20). Fragment tablicy uzyskanej w ten sposób zaprezentowano na rysunku B.25.
Wyniki te dotyczą dendrogramu przedstawionego na rysunku B.21.
Aneks B. Analiza skupień a programie Statistica 327
Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale siódmym, dla dendrogramu
przedstawionego jako rysunek B.21.
Skopiowanie danych do arkusza kalkulacyjnego pozwala na ich dalsze przetwarzanie. W tym celu
należy zaznaczyć cały arkusz i spośród wielu możliwości kopiowania, dostępnych w zakładce Edycja,
należy wybrać opcję Kopiuj z nagłówkami. Dane uzyskane w ten sposób należy wkleić do arkusza
kalkulacyjnego (por. rysunek B.26). Pierwsza kolumna skopiowanej tablicy stanowi punkt wyjścia do
zastosowania reguły ilorazu odległości aglomeracyjnej lub górnego obszaru odrzucenia.
Źródło: opracowanie własne w oparciu przykład zaprezentowany w rozdziale siódmym. Pierwsza kolumna, po
przesortowaniu w porządku malejącym stanowi część tabeli 7.6.
Zwykle ostatni etap grupowania to charakterystyka wyodrębnionych skupień i ocena uzyskanych wy-
ników. Nieodzownym narzędziem w tym obszarze, szczególnie przy znaczącej liczbie grupowanych
obiektów, jest przypisanie grupowanych obiektów do wyznaczonych skupień. Tego typu zestawienie
jest dostępne w ramach zestawień wynikowych analizy skupień dostępnych w programie Statistica.
Tym razem konieczne jest wykorzystanie opcji dostępnych w ramach przycisku: Zapisz klasyfikację
(por. okno programu przedstawione na rysunku B.20). Działanie to spowoduje, że pojawi się okno
z dendrogramem, na którym należy zaznaczyć położenie linii podziału. Kliknięcie na nią myszką po-
328 Aneks B. Analiza skupień a programie Statistica
zwoli po raz kolejny wywołać okno formatowania linii odniesienia (por. rysunek B.23). Wpisanie
odpowiedniej wartości w okienku ,wskazanym na rysunku B.23 strzałką [4], prowadzi do podziału
dendrogramu na poziomie, który wyznaczony został za pomocą jednej z reguł opisanych w rozdziale
6.1.2. W efekcie tego działania wywołane zostaje zestawienie zawierające dwie kolumny, w których
zawarto nazwy obiektów grupowanych oraz numer skupienia, do którego zostały przypisane. Przykład
takiego zestawienia przedstawiono na rysunku B.27.
Obok metod hierarchicznych drugą najczęściej stosowaną grupą metod są metody kombinatoryczne.
Program Statistica w oferuje w pakiecie Analiza skupień metodę 𝑘-średnich. Została ona szczegółowo
opisana w części teoretycznej, w rozdziale 6.2. Warto jednak w tym miejscu przypomnieć, że metoda
𝑘-średnich jest szczególne polecana w przypadkach, gdy badacz ma za zadanie sklasyfikować dużą
liczę obiektów. W odróżnieniu od metod hierarchicznych dane wejściowe w tej metodzie mogą być
przedstawione jedynie w formie macierzy obserwacji. Do prezentacji zastosowania metody k-średnich
w badaniach historycznych przy wykorzystaniu programu Statistica posłużono się przykładem przed-
stawionym w rozdziale dwunastym, dotyczącym działalności indywidualnych w 1958-1970, przy
Aneks B. Analiza skupień a programie Statistica 329
czym ze względu na powtarzalność procedur w kolejnych badanych latach ograniczono się jedynie do
danych dotyczących roku 1958.
Jak już szczegółowo opisano w rozdziale 6.2, metoda k-średnich wymaga przyjęcia przez badacza
kilku założeń. Dwa z nich, dotyczące liczby skupień i pierwszych punktów centralnych, mają charak-
ter kluczowy dla osiąganych wyników grupowania. W prezentowanym przykładzie ostatecznie ustalo-
no, że powiaty powinny być podzielone na pięć skupień (por. rozdział 12.5). Założono także, że
pierwsze centra powinny być wyznaczone w taki sposób, aby zmaksymalizować odległości pomiędzy
skupieniami (por. rozdział 12.6). Należy także wskazać zmienne, które będą podstawą grupowania.
Nie bez znaczenia jest także to, że analizie podlegać będą wiersze, a nie kolumny macierzy obserwa-
cji. W programie Statistica wszystkie te ustalenia są dostępne na karcie Więcej, dostępnej w ramach
modułu Grupowanie metodą 𝑘-średnich. Jej wygląd w odniesieniu do prezentowanego przykładu
przedstawiono na rysunku B.30.
Aneks B. Analiza skupień a programie Statistica 331
Zatwierdzenie przyjętych założeń dla metody 𝑘-średnich przyciskiem OK (por. rysunek B.30),
prowadzi do okna prezentującego wyniki grupowania (por. rysunek B.31). Podobnie jak w przypadku
wyników aglomeracji przedstawionych na rysunkach B.16 oraz B.19, górną część karty Podstawowe
stanowi lista przyjętych wcześniej założeń. W dolnej części znajdują się natomiast przyciski prowa-
dzące do różnych form prezentacji osiągniętych wyników grupowania. Poszczególne opcje dostępne
w programie Statistica zostały scharakteryzowane w kolejnym podrozdziale.
332 Aneks B. Analiza skupień a programie Statistica
Aby uzyskać dostęp do wszystkich opracowanych w ramach programu Statistica form prezentacji
wyników grupowania metodą 𝑘-średnich, należy w zaprezentowanej na rysunku B.31 karcie wybrać
zakładkę Więcej (por. rysunek B.32).
Już na podstawie porównania rysunków B.20 oraz B.32 można zauważyć, że wyniki uzyskane me-
todami kombinatorycznymi różnią się nieco pod względem formy od powstałych po grupowaniu hie-
rarchicznym. Niemniej jednak wśród podstawowych wyników można wymienić średnie wartości
zmiennych oraz odległości między centrami wyodrębnionych skupień (przycisk Podsum.: Średnie
skupień i odległ. euklid.). Nieco szerszy zestaw statystyk opisowych dla każdego skupienia można
znaleźć pod przyciskiem Statystyki opisowe każdego skupienia oraz Wykres średnich. Istnieje także
możliwość przeprowadzenia analizy wariancji dla uzyskanych wyników grupowania (zob. przycisk
Analiza wariancji). Oczywiście wydaje się, że najważniejsze w przypadku grupowania jest przedsta-
wienie składu wyodrębnionych skupień. Informacje takie można uzyskać w ramach opcji Elementy
każdego skupienia i odległości oraz Zapisz klasyfikacje i odległości.
Szczegółową prezentację wymienionych opcji oparto na przykładzie dotyczącym wpływów podat-
kowych na poziomie powiatów, generowanych przez grupy podatników prowadzących działalności
indywidualne w województwie poznańskim w 1958 r. Warto w tym miejscu po raz kolejny podkreślić,
Aneks B. Analiza skupień a programie Statistica 333
że dane uzyskane w ramach programu Statistica można kopiować do programu Excel i tam kontynuo-
wać dalsze obliczenia. Warto wtedy skorzystać z opcji kopiowania z nagłówkami: Edycja/Kopiuj
z nagłówkami. W ramach tego programu istnieje także możliwość zapisania raportu z badań
w formacie pliku tekstowego.
Punktem wyjścia do interpretacji wyników grupowania metodą 𝑘-średnich jest ustalenie składów po-
szczególnych skupień. Aby je uzyskać, należy w ramach zakładki Więcej na karcie Wyniki grupowa-
nia metodą 𝑘-średnich wybrać opcję Elementy każdego skupienia i odległości (por. rysunek B.32).
Ostateczny wynik tego działania dla przykładu dotyczącego wpływów podatkowych z rzemiosła in-
dywidualnego w poszczególnych powiatach województwa poznańskiego w 1958 r. przedstawiono na
rysunku B.33. Ze względu na fakt, że założono, iż docelowo w tym przykładzie powstanie pięć sku-
pień powiatów (por. rysunek B.30), w oknie nawigacji, znajdującym się po lewej stronie ekranu, po-
jawiło się pięć adekwatnych zestawień. Każde z nich dotyczyło jednego z wyodrębnionych skupień
powiatów. Lewą stronę okna Elementy każdego skupienia i odległości stanowi natomiast wykaz obiek-
tów tworzących dane skupienie wraz z ich odległościami do środka ciężkości tego skupienia. Procedu-
ra wyznaczania tych odległości została szczegółowo przedstawiona w części teoretycznej na rysunku
6.15.
Rysunek B33. Okno Elementy każdego skupienia i odległości wygenerowane w ramach programu Statistica
Źródło: opracowanie własne na podstawie przykładu opisanego w rozdziale dwunastym, dane dla 1958 r., por. rysunek 12.4.
Z kolei aby uzyskać skład poszczególnych skupień zestawionych w jedną tabelę, warto skorzystać
z opcji Zapisz klasyfikacje i odległości. Jest ona również dostępna w ramach zakładki Więcej na karcie
Wyniki grupowania metodą 𝑘-średnich (por. rysunek B.32). Obok informacji zawartych na rysunku
B.33 można tam także dodatkowo umieścić zmienne biorące udział w grupowaniu. Przykład takiego
zestawienia zaprezentowano na rysunku B.34. Ich przekopiowanie do arkusza kalkulacyjnego (por.
rysunki B.12, B.25 oraz B.26) umożliwia opracowanie danych do formy oczekiwanej przez badacza.
334 Aneks B. Analiza skupień a programie Statistica
Spośród wielu opcji dostępnych w ramach prezentacji uzyskanych wyników grupowania metodą 𝑘-
średnich program Statistica umożliwia wygenerowanie średnich wartości zmiennych
w wyodrębnionych skupieniach. Aby sporządzić takie zestawienie, należy w ramach zakładki Podsta-
wowe lub Więcej na karcie Wyniki grupowania metodą 𝑘-średnich wybrać opcję Podsum.: Średnie
skupień i odległ. euklid. (por. rysunki B.31 oraz B.32). W efekcie generowana jest tabela, którą, dla
prezentowanego przykładu dotyczącego wpływów podatkowych z działalności indywidualnych
w 1958 r. w poszczególnych powiatach województwa poznańskiego, przedstawiono na rysunku B.35.
Aneks B. Analiza skupień a programie Statistica 335
Rysunek B35. Przykładowe zestawienie średnich wartości zmiennych w poszczególnych skupieniach, wygenerowane
w ramach programu Statistica
Źródło: opracowanie własne na podstawie przykładu opisanego w rozdziale dwunastym, dane dla 1958 r., por. tabelę 12.3.
Rysunek B37. Okno Statystyki opisowe każdego skupienia wygenerowane w ramach programu Statistica
Źródło: opracowanie własne na podstawie przykładu opisanego w rozdziale dwunastym, dane dla 1958 r.;
por. tabelę 12.3.
W przypadku grupowania metodą 𝑘-średnich program Statistica udostępnia także wyniki analizy
wariancji dla zmiennych, które były podstawą przeprowadzonego podziału obiektów na skupienia.
Opcja ta jest dostępna na karcie Wyniki grupowania metodą 𝑘-średnich zarówno w ramach zakładki
Podstawowe, jak i Więcej (por. rysunki B.31 oraz B.32). Mimo że zagadnienie to nie było przedsta-
wione w części teoretycznej, warto na nie zwrócić uwagę. Jak już wspomniano wielokrotnie, celem
metody 𝑘-średnich jest takie pogrupowanie obiektów, aby zminimalizować wariancję wewnątrzgru-
pową, a zmaksymalizować wariancję międzygrupową (por. rozdział 6.2.1). Porównanie zatem wyni-
ków analizy wariancji, uzyskane dla ostatecznego podziału obiektów, powala stwierdzić, które ze
zmiennych będących podstawą grupowania w sposób istotny (zwykle 𝑝 < 0,05) przyczyniły się [do]
otrzymanego podziału. Jeżeli któraś ze zmiennych nie spełnia tego warunku, to jej usunięcie zwykle
nie zmienia znacząco wyników grupowania. Więcej wiadomości na temat analizy wariancji można
przeczytać w publikacjach KALA (2003, s. 79-82) czy STANISZ (2007, s. 152-154).
Przykładową analizę wariancji, przeprowadzoną dla wyników podziału powiatów województwa
poznańskiego ze względu na strukturę wpływów podatkowych z działalności indywidualnych w 1958
r., przedstawiono na rysunku B.38. Wszystkie wartości prawdopodobieństwa (ostatnia kolumna) oka-
zały się niższe od poziomu krytycznego. Można zatem uznać, że każda z nich w sposób istotny wpły-
wała na wyniki grupowania.
𝑖 = 1, 2, … , 𝑚 – numeruje zmienne,
𝑡 = 1, 2, … , 𝑇 – numeruje okresy,
𝑘 = 1, 2, … , 𝑔 – numeruje skupienia,
Skalary:
𝜔𝑖 ; – i-ty obiekt, jednostka w populacji 𝛺
𝑡
𝑥𝑖𝑗 ; – wartość 𝑗-tej zmiennej w 𝑖-tym obiekcie wielowymiarowym ωi , mierzonej
w 𝑡-tym okresie
𝐶𝑖 ; – 𝑖-te skupienie
Macierze:
̅𝒕
𝑹 – (𝑚 × 𝑚)-wymiarowa macierz średnich współczynników zmienności wyznaczonych
dla zmiennych w badanym okresie,