Lab 4 END

Міністерство освіти і науки, молоді та спорту України
Національний університет “Львівська політехніка”

Кафедра автоматизованих систем управління
Методичні вказівки
до лабораторної роботи № 4
“ Кластеризація в Data Mining. Базові алгоритми кластеризації.

Ієрархічний алгоритм кластеризації ”
з дисципліни
“Інтелектуальний аналіз даних”
для студентів базового напрямку підготовки по спеціальності

“Комп’ютерні науки” (шифр 122)
Львів-2019
Методичні вказівки до лабораторної роботи № 4 “ Кластеризація в Data
Mining. Базові алгоритми кластеризації. Ієрархічний алгоритм
кластеризації” з дисципліни “Інтелектуальний аналіз даних” для студентів
спеціальності - шифр 122 “Комп’ютерні науки” Укл. доц. Ковівчак Я.В., Львів:
Національний університет “Львівська політехніка”, 2019.
Методичні вказівки обговорено та схвалено на засіданні кафедри АСУ

Протокол № ___________ від «___»___________2019 р.
Завідувач кафедрою АСУ ______________ Цмоць І. Г.
Методичні вказівки обговорено та схвалено на засіданні методичної комісії

базового напрямку підготовки
Протокол № ___________ від «___»___________2019 р.
Лабораторна робота № 4
Кластеризація в Data Mining. Базові алгоритми кластеризації.

Ієрархічний алгоритм кластеризації
Мета: Ознайомлення з алгоритмами ієрархічної кластеризації даних,

їх побудовою, етапами реалізації.
Завдання: Навчитись аналітично розв’язувати задачу кластеризації
вибірки об’єктів та побудувати дендрограму розв’язку задачі.
1. Теоретична частина
Вступ
Кластерний аналіз (англ . Data clustering ) — задача розбиття заданої
вибірки об'єктів (ситуацій) на підмножини, звані кластерами, так, щоб кожен
кластер складався з схожих об'єктів, а об'єкти різних істотно суттєвих кластерів
відрізнялися. Задача кластеризації відноситься до статистичної обробки.
Кластерний аналіз — це багатовимірна статистична процедура, що виконує збір
даних, що містять інформацію про вибірку об'єктів, і яка упорядковує об'єкти в
порівняно однорідні групи (кластери) (Q-кластеризація, або Q-техніка, власне
кластерний аналіз). Кластер — група елементів, що характеризуються
загальною спільною властивістю, головна ціль кластерного аналізу —
знаходження груп схожих об'єктів у вибірці. Спектр застосувань кластерного
аналізу дуже широкий: його використовують в археології, медицині, психології,
хімії, біології, державному управлінні, філології, антропології, маркетингу,
соціології і інших дисциплінах. Проте універсальність застосування привела до
появи великої кількості несумісних термінів, методів і підходів, що утрудняють
однозначне використання і несуперечливу інтерпретацію кластерного аналізу.
Завдання і умови
Мета кластерного аналізу. Достатньо багато досліджень ставлять за
мету організацію отриманих даних у наглядні структури. Так, в біології часто
метою є розбиття сукупності тварин на види і підвиди, у психології –
класифікація видів поведінки, у педагогіці – таксономія виховних цілей тощо.
Допомогти це зробити може кластерний аналіз. Фактично, кластерний аналіз
є набором різноманітних алгоритмів класифікації. Техніка кластеризації
застосовується в дуже різноманітних сферах діяльності. Так, автори
підручника Statsoft наводять приклади застосування кластерного аналізу в
медицині – кластеризації піддаються симптоми захворювання чи види
лікування, і отримуються достатньо цікаві класифікації. Теж саме стосується
психіатрії та психотерапії. Відомі також ряд прикладів застосування
кластерного аналізу в сфері маркетингу. Загалом, коли необхідно
класифікувати великі масиви інформації на групи, які придатні для
подальшого аналізу – кластерний аналіз є незамінним інструментом. Цікаві
можливості кластерного аналізу у сфері психологічних досліджень групових
процесів та явищ.
Кластерний аналіз має одну суттєву особливість – він не є звичайним
статистичним методом, оскільки до нього у більшості випадків незастосовні
процеси перевірки статистичної значимості. Кластерний аналіз дає найбільш
значиме рішення. Саме тому досить часто його використовують тоді, коли
дослідник має набір даних, але не має жодної апріорної гіпотези про класи цих
даних.
Кластерний аналіз виконує наступні основні завдання:
 Розробка типології або класифікації.
 Дослідження корисних концептуальних схем групування об'єктів.
 Породження гіпотез на основі дослідження даних.
 Перевірка гіпотез або дослідження для визначення, чи дійсно типи
(групи), виділені тим або іншим способом, присутні в наявних даних.
Незалежно від предмету вивчення застосування кластерного аналізу він
передбачає наступні етапи:
 Відбір вибірки для кластеризації.
 Визначення безлічі змінних, по яких оцінюватимуть об'єкти у вибірці.
 Обчислення значень тієї або іншої міри схожості між об'єктами.
 Застосування вживання методу кластерного аналізу для створення груп
схожих об'єктів.
 Перевірка достовірності результатів кластерного рішення .
Кластерний аналіз представляє собою наступні вимоги до даним: по-
перше, показники не повинні робити кореляцію між собою; по-друге,
показники повинні бути безрозмірними; по-третє, їх розподіл повинен бути
близьким до нормального; по-четверте, показники повинні відповідати вимозі
«стійкості», під якою розуміється відсутність впливу на їх значення випадкових
факторів ; по-п'яте, вибірка повинна бути однорідна, не містити «залишків».
Якщо кластерному аналізу передує факторний аналіз, то вибірка не потребує
«корегування» — викладені вимоги виконуються автоматично самою
процедурою факторного моделювання (є ще одна чеснота, — z-стандартизація
без негативних наслідків для вибірки; якщо її проводити безпосередньо для
кластерного аналізу, вона може спричинити зменшення чіткості розділення
груп). Інакше вибірку потрібно коректувати.
Аналіз і інтерпретація його результатів

При аналізі результатів соціологічних досліджень рекомендується
здійснювати аналіз методами ієрархічного агломеративного сімейства, а саме
методом Варда, при якому всередині кластерів оптимізується мінімальна
дисперсія, у результаті створюються кластери приблизно рівних розмірів.
Метод Варда найбільш успішний для аналізу соціологічних даних. Головним
підсумком ієрархічного кластерного аналізу являється дендрограмма або
«поступова діаграма». При її інтерпретації дослідники стикаються із
проблемою того ж роду, що і тлумачення результатів факторного аналізу —
відсутністю однозначних критеріїв виділення кластерів. Рекомендується
використовувати два способи — візуальний аналіз дендрограми і порівняння
результатів кластеризації, виконаної різними методами. Візуальний аналіз
дендрограмми припускає «обрізання» дерева на оптимальному рівні схожості
елементів вибірки.
Перевагою ієрархічних методів кластеризації є їх наочність.
Ієрархічні алгоритми пов'язані з побудовою дендрограмм (від грецького
dendron - "дерево"), які є результатом ієрархічного кластерного аналізу.
Дендрограмма описує близькість окремих точок і кластерів один до одного,
представляє в графічному вигляді послідовність об'єднання (поділу) кластерів.
Дендрограма (dendrogram) - деревоподібна діаграма, що містить n рівнів,
кожен з яких відповідає одному з кроків процесу послідовного збільшення
кластерів.
Дендрограму також називають деревоподібної схемою, деревом об'єднання
кластерів, деревом ієрархічної структури.
Дендрограма являє собою вкладене групування об'єктів, яке змінюється на
різних рівнях ієрархії.
Існує багато способів побудови дендрограмм. У Дендрограмі об'єкти
можуть розташовуватися вертикально або горизонтально.
Приклад вертикальної дендрограми наведено на рисунку 1.
Рис. 1. Приклад побудови дендрограми.
Числа 11, 10, 3 і т.д. відповідають номерам об'єктів або спостережень

вихідної вибірки. Ми бачимо, що на першому кроці кожне спостереження являє
один кластер (вертикальна лінія), на другому кроці спостерігаємо об'єднання
таких спостережень: 11 і 10; 3, 4 і 5; 8 і 9; 2 і 6. На другому кроці
продовжується об'єднання в кластери: спостереження 11, 10, 3, 4, 5 і 7, 8, 9.
Даний процес продовжується до тих пір, поки всі спостереження не
об'єднаються в один кластер.
Цілі кластеризації
Розуміння даних шляхом виявлення кластерної структури. Розбиття
вибірки на групи схожих об'єктів дозволяє спростити подальшу обробку даних і
прийняття рішень, застосовуючи до кожного кластера свій метод аналізу
(стратегія «розділяй і пануй»).
Стиснення даних. Якщо початкова вихідна вибірка надмірно велика, то
можна скоротити її, залишивши поодинці найбільш типовому представникові
від кожного кластера.
Виявлення новизни (англ. novelty detection ). Виділяються нетипові
об'єкти, які не вдається приєднати ні до одного з кластерів.
У першому випадку число кластерів прагнуть зробити трохи менш . У
другому випадку важливіше забезпечити високий ступінь міри схожості
об'єктів всередині кожного кластера, а кластерів може бути скільки завгодно. У
третьому випадку найбільший інтерес представляють окремі об'єкти, що не
вписуються ні в один з кластерів.
У всіх цих випадках може застосовуватися ієрархічна кластеризація, коли
великі кластери дробляться на дрібніші, ті у свою чергу дробляться ще
дрібніше і так далі. Такі завдання називаються завданнями таксономії .
Результатом таксономії являється деревоподібна ієрархічна структура. При
цьому кожен об'єкт характеризується переліком всіх кластерів, яким він
належить, зазвичай від великого до дрібного .
Класичним прикладом зразком таксономії на основі схожості являється
біноміальна номенклатура живих істот, запропонована Карлом Лінєєм в
середині XVIII століття . Аналогічні систематизації будуються в багатьох
областях знань, щоб упорядкувати інформацію про велику кількість об'єктів.
Методи кластеризації
 K-середніх (K-means );
 Графські алгоритми кластеризації;
 Статистичні алгоритми кластеризації;
 Алгоритми сімейства FOREL;
 Ієрархічна кластеризація або таксономія;
 Нейронна мережа Кохонена;
 Ансамбль кластеризатерів;
 Алгоритми сімейства Кrab;
 EM-алгоритм;
 Алгоритм, заснований на методі просіювання.
Формальна постановка завдання кластеризації
Нехай існує безліч об'єктів, безліч номерів (імен) кластерів. Є задана
функція відстані між об'єктами, є наявна кінцева скінченна вибірка об'єктів.
Потрібно розбити вибірку на непересічні підмножини, звані кластерами, так,
щоб кожен кластер складався з об'єктів, близьких по метриці, а об'єкти різних
кластерів істотно відрізняються. При цьому кожному об'єкту приписується
номер кластера.
Алгоритм кластеризації — це функція, яка будь-якому об'єкту ставить у
відповідність номер кластера. Множина в деяких випадках відома заздалегідь
наперед, проте частіше ставиться завдання визначити оптимальне число
кластерів, або інший критерій якості кластеризації.
Кластеризація відрізняється від класифікації тим, що мітки початкових
вихідних об'єктів спочатку не задані, і навіть може бути невідома сама множина
.
Розв’язок задачі кластеризації принципово неоднозначний, і тому є
декілька причин:
 не існує однозначно найкращого критерію якості кластеризації.
Відомий цілий ряд, низка евристичних критеріїв, а також низка алгоритмів, що
не мають чітко вираженого висловлюваного критерію. Всі вони можуть давати
різні результати;
 число кластерів, як правило, невідоме заздалегідь наперед і
встановлюється відповідно до деякого суб'єктивного критерію;
 результат кластеризації істотно суттєво залежить від метрики, вибір
якої, як правило, також суб'єктивний і визначається експертом;
 групування результатів пошуку: Кластеризація використовується для
«інтелектуального» групування результатів при пошуку файлів, веб-сайтів,
інших об'єктів, надаючи користувачеві можливість спроможність швидкої
навігації, вибору свідомо більш релевантної підмножини і виключення винятку
свідомо менш ревалентного — що може підвищити «юзабіліті» інтерфейсу в
порівнянні з висновком,виведенням у вигляді простого сортованого по
релевантнтності списку;
 Clusty — кластеризуюча пошукова машина компанії Vivisimo;
 Nigma — російська пошукова система із автоматичною кластеризацією
результатів;
 Quintura — візуальна кластеризація у вигляді хмари ключових
джерельних слів;
 сегментація зображень (image segmentation): Кластеризація може бути
використана для розбиття цифрового зображення на окремі області з ціллю
знаходження меж кордонів (edge detection ), або розпізнавання об'єктів.
Завдання кластерного аналізу може бути сформульовано виходячи з
наступних розміркувань. Нехай сукупність, що складається з n об'єктів, кожний
з яких описується за допомогою m чинників-симптомів, задана у вигляді
матриці вихідних (Х) або стандартизованих даних (Z), розміру n*m.
Тоді кластером називається така компактна група об'єктів із всієї вихідної
сукупності, для якої середній квадрат серединногрупової відстані від об'єктів
групи до її центра ваги менше середнього квадрата відстані від всіх об'єктів до
центра ваги всієї вихідної сукупності. Чим більше серед виділених груп
кластерів, тим більш успішною можна вважати отриману розбивку
досліджуваної сукупності об'єктів.
Тоді завдання кластерного аналізу зводяться до пошуку й виділення у
вихідній сукупності об'єктів максимального числа кластерів, які розглядаються
як кількісно однорідні групи одночасно за всіма чинниками-симптомами.
Іншими словами, у процесі кластеризації треба прагнути одержати таку
розбивку сукупності, щоб кожний об'єкт належав до однієї й тільки до однієї
групи, та відстані між об'єктами однієї групи були істотно меншими, у
порівнянні з відстанями між об'єктами різних груп.
Для поставленої задачі це буде означати, що вдалося виділити групи
підприємств з близькими значеннями показників, що відображають їхню
конкурентоздатність, тобто визначити типи, класи досліджуваних об’єктів за
рівнем латентної ознаки, що оцінюється.
Як і при застосуванні методів таксономії, одним із важливіших моментів
кластерного аналізу є питання визначення певного кола чинників-симптомів,
що характеризують латентну економічну ознаку підприємства. Слід мати на
увазі, що це проблема не статистична, а економічна, яка повинна вирішуватися
в ході якісного дослідження з урахуванням положень відповідної науки (в
даному випадку теорії конкуренції та конкурентоспроможності підприємств).
Після визначення матриці вихідних даних X, стандартизації чинників-
симптомів і утворення матриці Z, розрахунку матриці відстаней D між усіма
об’єктами (підприємствами) переходять до безпосереднього застосування
алгоритмів кластерного аналізу, яких у теперішній час у математико-
статистичній літературі налічується більше ста . Всі вони можуть бути
згруповані у три основних напрямки:
а) процедури прямої класифікації;
б) оптимізаційні алгоритми;
в) апроксимаційні підходи.
Процедури прямої класифікації – це історично найбільш ранній напрямок
кластерного аналізу, пов'язаний з іменами німецького біолога Ф. Гейнке,
польського антрополога К. Чекановського, які на початку ХХ століття висунули
ідеї пошуку компактних груп об'єктів у просторі множини ознак.
Суть першого напрямку укладається в чіткому формулюванні поняття
кластера й утворенні груп об'єктів, що відповідають даному формулюванню.
Найбільшого поширення серед процедур прямої класифікації одержали
ієрархічні алгоритми, які базуються на наступному визначенні кластера: всі
відстані між об'єктами усередині групи повинні бути менше будь-якої відстані
між об'єктами групи й іншою частиною множини об’єктів.
Застосування
Інтелектуальний аналіз даних (data mining ). Кластеризація у Data Mining
набуває цінності тоді, коли вона виступає одним з етапів аналізу даних,
побудови закінченого аналітичного рішення. Аналітику часто легко виділити
групи схожих об'єктів, вивчити їх особливості і побудувати для кожної групи
окрему модель, чим створювати одну загальну спільну модель для всіх даних.
Таким прийомом постійно користуються в маркетингу, виділяючи групи
клієнтів, покупців, товарів і розробляючи для кожної з них окрему стратегію.
Програмна реалізація алгоритмів кластерного аналізу широко
представлена в різних інструментах Data Mining, які дозволяють вирішувати
завдання досить великої розмірності. Наприклад, агломеративні методи
реалізовані в пакеті SPSS, подільні методи − в пакеті Statgraf.
Ієрархічні методи кластеризації розрізняються правилами побудови
кластерів. В якості правил виступають критерії, які використовуються при
вирішенні питання про "схожості" об'єктів при їх об'єднанні в групу
(агломеративні методи) або поділу на групи (подільні методи).
Ієрархічні методи кластерного аналізу використовуються при невеликих
обсягах наборів даних.
Ієрархічний кластерний аналіз в SPSS

Розглянемо процедуру ієрархічного кластерного аналізу в пакеті SPSS
(SPSS). Вона передбачає групування як об'єктів (рядків матриці даних), так і
змінних (стовпців). Можна вважати, що в останньому випадку роль об'єктів
відіграють рядки, а роль змінних - стовпці.
У цьому методі реалізується ієрархічний агломеративний алгоритм, зміст
якого полягає в наступному. Перед початком кластеризації всі об'єкти
вважаються окремими кластерами, в ході алгоритму вони об'єднуються.
Спочатку вибирається пара найближчих кластерів, які об'єднуються в один
кластер. В результаті кількість кластерів стає рівним N-1. Процедура
повторюється, поки всі класи не об'єднаються. На будь-якому етапі об'єднання
можна перервати, отримавши потрібне число кластерів. Таким чином,
результат роботи алгоритму агрегування залежить від способів обчислення
відстані між об'єктами та визначення близькості між кластерами.
Для визначення відстані між парою кластерів можуть бути сформульовані
різні підходи. З урахуванням цього в SPSS передбачені наступні методи:
 Середня відстань між кластерами (Between-groups linkage),
встановлюється за умовчанням;
 Середня відстань між усіма об'єктами пари кластерів з урахуванням
відстаней всередині кластерів (Within-groups linkage);
 Відстань між найближчими сусідами - найближчими об'єктами
кластерів (Nearest neighbor);
 Відстань між самими далекими сусідами (Furthest neighbor);
 Відстань між центрами кластерів (Centroid clustering) або центроїдне
метод. Недоліком цього методу є те, що центр об'єднаного кластера
обчислюється як середнє центрів об'єднуються кластерів, без урахування їх
обсягу;
 Метод медіан - той же центроїдне метод, але центр об'єднаного
кластера обчислюється як середнє всіх об'єктів (Median clustering);
 Метод Варда.
Слід зазначити, що процедура кластеризації об’єктів на основі
ієрархічного агломеративного алгоритму реалізована в пакеті прикладних
обчислювальних програм STATISTICA компанії StarSoft.
Міри подібності
Для обчислення відстані між об'єктами використовуються різні міри
подібності, які називаються також метриками або функціями відстаней.
Зупинимося докладніше на найбільш популярних процедурах прямої
класифікації – ієрархічних агломеративних і деяких інших алгоритмах
кластерного аналізу.
Відстані між об'єктами припускають їх представлення у вигляді точок m-
мірного простору Rm. У цьому випадку можуть бути використані різні підходи
до обчислення відстаней приналежних простору вхідних змінних.
Евклідова відстань. Це, мабуть, найбільш загальний тип відстані. Вона є

геометричним відстанню в багатовимірному просторі і обчислюється таким
чином:
Відстань (x, y) = { ∑i (xi - yi) 2}1/2
Зауважимо, що евклідова відстань (і її квадрат) обчислюється за
вихідними, а не за стандартизованими даними. Це звичайний спосіб його
обчислення, який має певні переваги (наприклад, відстань між двома об'єктами
не змінюється при введенні в аналіз нового об'єкта, який може виявитися
викидом). Тим не менш, на відстані можуть сильно впливати відмінності між
осями, по координатах яких обчислюються ці відстані. Наприклад, якщо одна з
осей виміряна в сантиметрах, а ви потім переведете її в міліметри (множачи
значення на 10), то остаточне евклідова відстань (або квадрат евклідового
відстані), що обчислюється за координатами, сильно зміниться, і, як наслідок,
результати кластерного аналізу можуть сильно відрізнятися від попередніх.
Квадрат евклідового відстані. Іноді може виникнути бажання звести в

квадрат евклідову відстань, щоб надати більші ваги більш віддаленим один від
одного об'єктам. Це відстань обчислюється наступним чином (див. також
зауваження в попередньому пункті):
Відстань (x, y) = ∑i (xi - yi) 2
Відстань міських кварталів (Манхеттенський відстань). Це відстань є

середнім різниць по координатах. У більшості випадків ця міра відстані
приводить до таких же результатів, як і для звичайного відстані Евкліда. Проте
відзначимо, що для цього заходу вплив окремих великих різниць (викидів)
зменшується (так як вони не зводяться в квадрат). Манхеттенська відстань
обчислюється за формулою:
Відстань (x, y) = ∑i | xi - yi |
Відстань Чебишева. Ця відстань може виявитися корисною, коли

бажають визначити два об'єкти як "різні", якщо вони відрізняються по якій-
небудь одній координаті (якимсь одним виміром). Відстань Чебишева
обчислюється за формулою:
Відстань (x, y) = Максимум | xi – yi |
Відсоток незгоди. Ця міра використовується в тих випадках, коли дані є

категоріальними. Це відстань обчислюється за формулою:
Відстань (x, y) = (Кількість xi≠ yi) / i
Представлення результатів
Результатом кластерного аналізу є набір кластерів, що містять елементи
вихідної множини. Кластерна модель повинна описувати як самі кластери, так і
належність кожного об'єкта до одного з них.
Для невеликого числа об'єктів, що характеризуються двома змінними,
результати кластерного аналізу зображують графічно. Елементи
представляються точками, кластери розділяються прямими, які описуються
лінійними функціями. Якщо кластери не можна розділити прямими, то
малюються ламані лінії, які описуються нелінійними функціями.
Ряд алгоритмів кластеризації будують ієрархічні структури кластерів. У
таких структурах найвищий рівень відповідає всій множини об'єктів, тобто
одному-єдиному кластеру. На наступному рівні він ділиться на декілька
підкластерів. Кожен з них ділиться ще на декілька і так далі. Побудова такої
ієрархії може відбуватися до тих пір, поки кластери не відповідатимуть
окремим об'єктам. Такі діаграми називаються дендрограмами (dendrograms).
Алгоритми ієрархічної кластеризації

Ієрархічні алгоритми дозволяють одержувати послідовну розбивку
сукупності об'єктів за певним правилом. Вони підрозділяються на подільні й
агломеративні.
Подільні алгоритми починають роботу з розгляду вихідної сукупності як
одного кластера й послідовно розділяють її на більш дрібні групи, аж до
розбивки, коли кожний об'єкт вважається окремим кластером .
В результаті утворюється ієрархічне дерево кластерів, і аналітик може
вибрати ту її конфігурацію, яка краще відповідає розв'язанню задачі (Рис. 2).
Рис 2. Розбиття даних в кластери за допомогою дивізійних алгоритмів.
В агломеративній кластеризації також формується ієрархічне дерево, але

шляхом об'єднання об'єктів в більш великі кластери з більш дрібних. Спочатку
кожен об'єкт вихідної безлічі розглядається як окремий кластер, потім
шукаються два об'єкти, відстань між якими мінімальна, і об'єднуються в один і
т.д. Дана процедура продовжується до тих пір, поки всі об'єкти не будуть
зібрані в єдиний кластер (рис. 3).
Рис 3. Розбиття даних в кластери за допомогою агломеративних

алгоритмів
Ієрархічні алгоритми характеризуються рядом переваг у порівнянні з

іншими процедурами кластерного аналізу. Відзначимо важливіші з них:
 відносна простота й змістовна ясність;
 допустимість втручання в роботу алгоритму;
 можливість графічного подання процесу класифікації у вигляді
дендрограми, тобто дерева об'єднання (розбивки);
 порівняно невисока трудомісткість розрахунків.
На першому кроці даних процедур кожний об'єкт вважається окремим
кластером і провадиться об'єднання (агломерація) кластерів відповідно до
деякого правила, що визначає послідовність (ієрархію) такого об'єднання.
Алгоритми зазначеного типу розрізняються між собою, головним чином,
критеріями, які використовуються при об'єднанні кластерів. Головні з них
наступні:
1. Критерій “ближнього сусіда”. В англомовній літературі даний критерій
відомий як простий (одиночний) зв'язок (single linkage). На кожному кроці
поєднуються кластери Кp і Кs, відстань між найближчими об'єктами p і s яких
мінімальна.
При його використанні на першому кроці поєднуються два найближчих
між собою об'єкта, на другому – кластери за мінімальною відстанню між двома
ближніми сусідами й т.д. Звідси й назва критерію: потрібний тільки один
мінімальний зв'язок, щоб приєднати об'єкт до кластера, оскільки враховується
лише одиночний, простий зв'язок з однією точкою кластера (рис . 4, 5).
Рис.4. Критерій “ближнього сусіда”

Рис. 5. Приклад критерію «ближнього сусіда»
2. Критерій “далекого сусіда”. В англомовній літературі даний критерій

відомий як повний зв'язок (сomplete linkage). На кожному кроці поєднуються
кластери Кp і Кs, відстань між найбільш віддаленими об'єктами p і s яких
мінімальна. (Рис. 6)
Рис. 6. Приклад критерію «далекого сусіда»
3. Критерій “середнього зв'язку” (середньої відстані). На кожному кроці

поєднуються кластери Кp і Кs, середня відстань між всіма парами об'єктів яких
мінімальна.
Даний критерій має дві модифікації залежно від способу розрахунку
середніх відстаней між об'єктами кожного кластера: 1) критерій середньої
відстані, розрахований за формулою простої середньої арифметичної
(Unweigted pair-group averrage); 2) критерій середньої відстані, розрахований
по формулі зваженої середньої арифметичної (Weigted pair-group averrage). У
першому випадку не враховується число об'єктів у кожному кластері, тобто
їхня статистична вага, а в другому – враховується.
4. Критерій “середнього сусіда” (центроїда). На кожному кроці
поєднуються кластери Кp і Кs, відстань між центрами ваги яких мінімальна.
Даний критерій також має дві модифікації залежно від способу обліку
чисельності кожного кластера: 1) критерій центроїда, розрахований без
урахування числа об'єктів (статистичної ваги) поєднуваних груп (Unweigted
pair-group centroid); 2) критерій центроїда, розрахований з урахуванням числа
об'єктів (статистичної ваги) поєднуваних груп (Weigted pair-group centroid).
(Рис. 7)
Рис. 7. Центроїд: середня перехресна подібність.
5. Критерій Варда (Ward’s method). Цей метод агломерації відрізняється від

попередніх тим, що він ґрунтується на аналізі збільшень всередині групової
варіації чинників-симптомів для всіх можливих варіантів об'єднання кластерів.
Помічено, що метод Уорда приводить до утворення кластерів приблизно рівних
розмірів у формі гіперсфер. (Рис. 8)
Рис. 8. Групове усереднення: усереднення всі показників подібності.
Для перших трьох методів існує загальна формула, запропонована А. Н.

Колмогоровим для мір подібності.
1
 ( n i K (i, j )   (n j K ( j , k )  ))  
K  ( i, j , k )    , −∞ ≤ η ≤ +∞
 ni  n j 
де-[i,j] група з двох об'єктів (кластерів) I i J ; k- об'єкт (кластер), з яким
шукається схожість зазначеної групи; Ni-число елементів в кластері і; Nj-число
елементів в кластері j.
Для відстаней є аналогічна формула Ланса – Вільямса.
Загальна схема ієрархічного агломеративного алгоритму

Загальна схема ієрархічного агломеративного алгоритму складається з
наступних основних етапів:
1) всі об'єкти zi розглядаються як n самостійних кластерів К1, К2, … , Кn;
2) розраховуються відстані між всіма кластерами, і утворюються матриця
відстаней D, розміру n*n;
3) на базі обраного критерію визначається пара найближчих кластерів, які
поєднуються в один новий кластер. Якщо відразу кілька кластерів мають
мінімальну відстань між собою, то вибирають будь-яку пару;
4) обчислюються відстані від отриманого нового кластера до всіх інших.
Розмірність матриці D при цьому знижується на одиницю;
5) на наступному кроці повторюється виконання пунктів 2, 3, 4 доти, поки
не вийде розбивка, що складається з одного кластера – вихідної сукупності
об'єктів.
Очевидно, що доводити ієрархічний агломеративний алгоритм до кінця не
має змісту, тому що одержаний результат кластеризації є тривіальним, а
завдання багатомірного групування залишається невирішеним. Необхідна
об'єктивно обґрунтована зупинка процедури агломерації. Сигналом для такої
зупинки може служити різкий ріст на черговому кроці мінімальної відстані між
поєднуваними кластерами. Це вказує на те, що в одну групу поєднуються вже
більш різнорідні об'єкти, чим на попередніх кроках.
Блок схема алгоритму

Як видно із загальної блок-схеми наведеного алгоритму (рис. 9), для його
успішного здійснення необхідно:
1) розрахувати відстані від нового (об'єднаного) кластера до всіх інших;
2) вчасно зупинити процедуру, вибравши оптимальне число компактних
груп об'єктів.
З приводу останньої проблеми можна сказати, що вона вирішується в
значній мірі суб'єктивно, залежно від досвіду й інтуїції дослідника. На відміну
від неї, перше завдання має цілком строге математичне рішення. Існує
загальна формула для розрахунку відстані між кластером Кr, що є результатом
об'єднання кластерів Kp і Ks, і кластером Kg.
4.Аналіз зміни
відстаней між
кластерами
Рис. 9. Блок-схема ієрархічного агломеративного алгоритму
Таким чином визначаються відстані від нового (об'єднаного кластера) до

всіх інших. Потім відбувається перехід до третього етапу алгоритму з
наступним аналізом зміни мінімальної відстані між кластерами. Зупинка
багатовимірної процедури здійснюється в тому випадку, коли зазначена
відстань зростає стрибкоподібно, що сигналізує про перспективу об'єднати в
один кластер об'єкти, досить віддалені один від одного.
Алгоритм кластеризації з використанням критерію
«ближнього сусіда»
Алгоритм агломераційної виду, який стирає рядки і стовпці в
безпосередній матриці, і старі кластери формують нові.
Задана матриця розміром N*N . Вона межує з D = [d(i,j)].
Кластерам присвоюється порядковий номер 0,1, ... , (n-1) і L(k)- рівень k-ї
кластерів. Кластери з порядковим номером m позначаються як (m) і
зближаються з кластерами (r) і (s), які позначаються як d [(r),(s)]
Алгоритм складається з наступних кроків:
1. Почніть з непересічених кластерів,які мають рівень L (0) = 0 і
порядковий номер m = 0;
2. Знайдіть найменш різнорідні (різних за складом) пари кластерів серед
поточних кластерів, скажемо пару (r), (s), відповідно до
d[(r),(s)] = min d[(i),(j)],
де мінімум знаходиться по всім парам кластерів в поточній кластеризації;
3. Збільшуємо порядковий номер (інкрементуємо) : m = m +1. Сортуємо
кластери (r) і (s) в єдиний кластер, який утворює кластер m;
Встановлюємо рівень кластеризації відповідно за формулою :
L(m) = d[(r),(s)];
4. Оновлюємо матрицю, D, викреслюючи рядки і стовпці, відповідних
кластерів (r) і (s) і додаємо рядки і стовпці, відповідних новостворених
кластерів. Близькість між новим кластером, позначається (R, S) і старий кластер
(k) визначається наступним чином: d[(k), (r,s)] = min d[(k),(r)], d[(k),(s)];
5. Якщо всі об'єкти знаходяться в одному кластері, зупиняємось. В іншому
випадку, переходимо до кроку 2.
Кластеризація методами одиночного і повного зв'язку(ближнього і

далекого сусіда)
В кластеризації методом одиночного зв'язку (single-link clustering, single-
linkage clustering) схожістю двох кластерів є схожість між їх найбільш схожими
елементами. Критерій об'єднання в методі одиночного зв'язку носить локальний
характер. У цьому алгоритмі увага приділяється виключно області, в якій два
кластери найбільш близькі один до одного. Інші, більш віддалені, частини
кластера і його структура не враховується
У кластеризації методом повного зв'язку (complete-link clustering,
complete-linkage clustering) схожістю двох кластерів є схожість між їх найбільш
несхожими елементами. Це еквівалентно вибору пари кластерів, об'єднання
яких має найменший діаметр. Критерій об'єднання в методі повного зв'язку
носить нелокальний характер: рішення про об'єднання кластерів може впливати
вся структура кластеризації. Це приводить до переважання компактних
кластерів з маленькими діаметрами над довгими розтягнутими кластерами, але
одночасно підвищує чутливість до викидів. Окремий документ, що знаходиться
далеко від центру, може різко збільшити діаметр можливого об'єднання і
повністю змінити остаточне розбиття.
Рис. 10. Кластеризація восьми документів методами одиночної зв'язку

(ліворуч) і повною зв'язку (праворуч). Еліпси відповідають послідовним етапам
кластеризації. Зліва: схожість на основі одиночної зв'язку між двома
двоточковими кластерами вгорі дорівнює показнику подібності між
документами d2 і d3 (суцільна лінія), яке перевищує схожість на основі
одиночної зв'язку між двоточковими кластерами зліва (пунктирна лінія).
Праворуч: схожість на основі повної зв'язку двох двоточкових кластерів вгорі
дорівнює показнику подібності між документами d1 і d4 (пунктирна лінія), яка
менше, ніж подібність на основі повної зв'язки між двома лівими двоточковими
кластерами (суцільна лінія)
На рис. 10 продемонстрований процес кластеризації восьми документів

методами одиночного і повного зв'язку. На перших етапах обидва методи
формують по чотири ідентичні кластери, кожен з двох документів. Потім
алгоритм методу одиночного зв'язку об'єднує верхні дві пари (а після — і
нижні). Оскільки як міра схожості в даному алгоритмі використовується
максимальна схожість між елементами, ці кластери вважаються найближчими.
Алгоритм методу повного зв'язку об'єднує дві ліві пари (а потім і дві праві),
оскільки ці пари ближче один до одного відповідно до визначення схожості
кластерів як мінімальної схожості їх елементів. Приклад кластеризації за
допомогою методу повного зв'язку — на рис. 11. Провівши відсікання
останнього об'єднання на рис. 6, ми отримаємо два кластери однакового
розміру (документи 1-16 від NYSE closing averages до Lloyds chief / U.S.
grillingі документи 17-30 від Ohio Blue Cross до Clinton signs law). На рис. 3 не
існує такого перетину дендрограми, яке приводило до розбиття на кластери
приблизно однакового розміру.
Як кластеризацію методом одиночного зв'язку, так і кластеризацію
методом повного зв'язку можна інтерпретувати за допомогою теорії графів. Хай
sk комбінаційна міра схожості між двома кластерами, об'єднаними наетапі k, а
G(sk) — граф, що зв'язує всі крапки, схожість між якими не менша, ніж sk. Тоді
кластери після етапу k в процесі кластеризації методом одиночного зв'язку є
зв'язними компоненти графа G(sk), а кластери після етапу k в процесі
кластеризації методом повного зв'язку є максимальними кліками (cliques) графа
G(sk). Компонент зв’язності (connected component) — це максимальна множина
вершин, сполучених між собою так, що для кожної пари існує ребро, що
сполучає їх. Клік (clique) — це множина крапок,які створюють повний граф
(тобто будь-які дві суміжні крапки).
Рис. 11. Дендрограма кластеризації за методом повної зв'язку.
Ці інтерпретації пояснюють назви методів: одиночного зв'язку і повного

зв'язку. Кластери, отримані методом одиночного зв'язку на етапі k, — це
максимальна множина крапок, між якими існує хоч би один зв'язок по
схожості: s ≥sk. Кластери, отримані методом повного зв'язку на етапі k, — це
максимальна множина крапок, в кожної з яких є зв'язок у міру схожості зі всіма
іншими: s ≥sk.
Алгоритми кластеризації методами одиночного і повного зв'язку зводять
завдання оцінки якості кластера до оцінки міри схожості між двома
документами: двома найбільш схожими документами в алгоритмі методу
одиночного зв'язку і двома найбільш несхожими документами в алгоритмі
методу повного зв'язку. Оцінки схожості між двома документами не
відображають властивості розподілу документів в кластері. З цієї причини не
дивно, що обидва алгоритми часто породжують небажані кластери.
Кластеризація методом одиночного зв'язку може створити розкидані
кластери, як показано на рис. 11. Оскільки критерій об'єднання в цьому
алгоритмі носить строго локальний характер, ланцюжок пар може розтягнутися
на велику відстань без врахування форми виникаючого кластера. Цей ефект
називається зчепленням (chaining).
Останні одинадцять об’єднань в алгоритмі кластеризації методом
одиночного зв'язку (що знаходяться над лінією d = 0,1), які добавляють
одиничний документ, або пару документів, утворюють ланцюжок.
Кластеризація методом повного зв'язку, продемонстрована на рис. 11, дозволяє
уникнути цього ефекту. Коли дендрограма розтинається на етапі останнього
об'єднання, документи розділяються на дві групи приблизно однакового об'єму.
Загалом, це корисніша організація даних ніж зчеплені кластери.
Проте кластеризація методом повного зв'язку має інший недолік. Вона
надає велику вагу викидам, тобто крапкам, що не вписуються в загальну
структуру кластера. У прикладі, показаному на рис. 12, чотири документи, d2,
d3, d4, d5 не попали в один кластер із-за викиду d1. Кластеризація методом
повного зв'язку в даному випадку не здатна створити найбільш природну
структуру кластерів.
Рис. 12. Зчеплення, що виникає при кластеризації методом одиночної

зв'язку. Локальний критерій у кластеризації методом одиночної зв'язку може
породити не бажано витягнуті кластери
Рис.13. Викиди в кластеризації методом повної зв'язку. П'ять документів

мають координати х, рівні 1 +2 е 4, 5 +2 е, 6 і 7е. Кластеризація методом повної
зв'язку створює два кластери, показаних як еліпси. Найбільш правильним з
інтуїтивною точки зору було б розбиття {{d1}, {d2, d3, d4, d5}}, але при
кластеризації методом повної зв'язку викид d1 розбиває майстер {d2, d3, d4, d5}
так; як показано на малюнку
Часова складність
Складність “наївного” алгоритму агломеративної ієрархічної
кластеризації становить Θ (N3), оскільки, щоб знайти елементи з найбільшою
подібністю на кожній з N - 1 ітерацій необхідно здійснити повний перебір
елементів матриці С, що має розмірність N x N.
Для чотирьох методів, розглянутих у цій роботі, більш ефективним є
алгоритм, що використовує черги з пріоритетом.
На рис. 13 показано, що стійкість по відношенню до найкращого
об'єднання не зберігається в алгоритмі кластеризації методом повного зв'язку.
Це означає, що ми не можемо використовувати масив для прискорення
кластеризації. Після об'єднання кластера d2, найкращого кандидата на
об'єднання з кластером з кластером d3 окремий кластер d1 стає найкращим
кандидатом на об'єднання з кластером d3. Це пояснюється тим, що критерій
повного зв'язку є нелокальним і залежить від точок, що знаходяться на великій
відстані від області дотику двох кандидатів на об'єднання.
Рис. 14. Кластеризація методом повної зв'язку не є стійкою по

відношенню до найкращого об'єднання. Спочатку найкращим кандидатом на
об'єднання з кластером d3 є документ d2. Однак після об'єднання кластерів d1
до d2 найкращим кандидатом на об'єднання є кластер d4. У стійкому алгоритмі,
такому як алгоритм методу одиночної зв'язку, найкращим кандидатом на
об'єднання з d3 був би кластер {d1, d2}
На практиці зниження ефективності алгоритму зі складністю Θ(N 2logN)

порівняно з алгоритмом методу одиночного зв'язку, що має складність Θ(N 2),
невелика, оскільки обчислення міри подібності між двома документами
виконується на порядок повільніше, ніж порівняння двох чисел при сортуванні.
Всі алгоритми в цій главі мають складність Θ(N 2) з урахуванням обчислення
міри подібності. Отже, відмінності по складності на практиці рідко беруться до
уваги при виборі алгоритму.
2. Приклади реалізації ієрархічної кластеризації даних.
Приклад №1. Використання ієрархічної кластеризації в соціологічних

дослідженнях.
Було проведено дослідження позитивного ставлення студентів інституту
ІКНІ спеціальності ”КН“ до студентів інших факультетів та до майбутніх
професійних ролей, і нас цікавить об’єднання студентів у групи на основі
схожого ставлення. Для цього було створено рольовий перелік факультетів та
можливих спеціальностей випускників КН. Потім було запропонували
студентам оцінити своє ставлення до всіх ролей за 10-бальною шкалою. В
результаті було отримано масив даних (табл. 1).
Таблиця 1
Об’єкти (студенти-учасники дослідження)
Р.А.
К.В.
В.Д.
З.А.
А.О.
О.В.
М.П.
К.П.
П.Р.
Д.К.
Е.О.
Студент
Випадки (результати) оцінювання)
факультету 5 9 9 5 5 10 3 5 1,5 1,5 1,5

Комп’ютерні
науки
Студент
педагогічног 2 0,5 3 1 2 3 4 2 9 9 9
о факультету
Студент
математичног 3 1 2 4 3 4 6 3,5 10 10 10
Студент
природничог 9 2 1,5 3 4 2 7 7 9,5 9,5 9,5
Студент
історичног 4 3 2,5 3,5 6 5 9 9 7 7 7
о
факультету
Студент
філологічног 10 4 1 2 1 6 1,5 1 8 8 8
Програміст 4,5 9,5 10 10 10 9 2,5 5,5 2 2 2
Соціальний
5,5 10 8 9,5 9,5 9,5 3,5 4 1 1 1
педагог
Вчитель 8 5 5 7 5 7 5 3 6 6 6
Викладач 6 6 7 9 8 5,5 8 8 5 5 5
Керівник 3,5 7 6 8 7 4,5 10 10 3 3 3
Для прикладу (табл. 2) обчислимо відстань між першим та другим

об’єктами (досліджувані А.О. та О.В. з вихідного масиву даних табл. 1).
Таблиця 2
Об’єкти
хі уі 2
А.О.
О.В.
ху і 2 L
хі і і
уі
Студент
5 9 -4 16
”Комп’ютерній науки”
Студент педагогічного
2 0,5 1,5 2,25
Студент фізико -
3 1 2 4
математичного факультету
Студент природничого
9 2 7 49
Студент історичного
4 3 1 1
факультету L 175,75 13,26
Студент філологічного
10 4 6 36
Психолог 4,5 9,5 -5 25
Соціальний педагог 5,5 10 -4,5 20,25
Вчитель 8 5 3 9
Викладач 6 6 0 0
Керівник 3,5 7 -3,5 12,25
Консультант 7 8 -1 1
хі уі 2 175,75
і
Провівши послідовні обчислення відстаней між усіма об’єктами
будують таблицю відстаней (distances matrix) (табл. 3).
Таблиця 3
А.О. О.В. М.П. К.П. Р.А. К.В. В.Д. П.Р. Д.К. Е.О. З.А.
А.О. 0,00 13,26 14,81 13,41 13,51 11,5 14,37 13,63 12,82 12,82 12,82
О.В. 13,26 0,00 6,24 7,00 7,26 5,94 16,76 12,94 21,66 21,66 21,66
М.П. 14,81 6,24 0,00 6,82 6,69 8,02 14,94 12,37 20,41 20,41 20,41
К.П. 13,41 7,00 6,82 0,00 4,03 8,82 13,44 10,95 19,62 19,62 19,62
Р.А. 13,51 7,26 6,69 4,03 0,00 8,86 12,35 9,04 18,89 18,89 18,89
К.В. 11,51 5,94 8,02 8,82 8,86 0,00 16,43 13,83 18,69 18,69 18,69
В.Д. 14,37 16,76 14,94 13,44 12,35 16,43 0,00 6,61 12,85 12,85 12,85
П.Р. 13,63 12,94 12,37 10,95 9,04 13,83 6,61 0,00 15,97 15,97 15,97
Д.К. 12,82 21,66 20,41 19,62 18,89 18,69 12,85 15,97 0,00 0,00 0,00
Е.О. 12,82 21,66 20,41 19,62 18,89 18,69 12,85 15,97 0,00 0,00 0,00
З.А. 12,82 21,66 20,41 19,62 18,89 18,69 12,85 15,97 0,00 0,00 0,00
Чим менше значення у комірці таблиці, тим ближче знаходяться між

собою відповідні об’єкти.
Так, з табл. 3 видно, що найбільша відстань – між студентами О.В. та
Д.К., Е.О., З.А. (L=21,66), а також між М.П. та Д.К., Е.О., З.А. (L=20,41).
Очевидно, що вже на цьому етапі аналіз можна зробити висновок про
наявність принаймні двох груп студентів, які різняться за свої ставленням
до навчання та майбутньої професії – група О.В., М.П., та група Д.К., Е.О.,
З.А. Подивимося на відстані всередині кожної з груп. Дійсно, виявляється,
що дуже близькі між собою студенти О.В. та М.П. (L=6,24), а також
ідентичні між собою (знаходяться на нульовій відстані) студенти Д.К., Е.О. та
З.А. (L=0).
Деревоподібна кластеризація: стратегії кластеризації.

Можна продовжити цей аналіз, шукаючи близькі та віддалені групи
студентів, орієнтуючись виключно на таблицю відстаней, а можна
продовжити деревоподібний кластерний аналіз, використавши одну із
стратегій кластеризації.
Застосуємо стратегію найближчого сусіда. Найменша відстань у
таблиці – між об’єктами Д.К., Е.О., З.А. (L=0). Очевидно, вони утворюють
перший кластер. Друга по величині відстань – між об’єктами К.П. і Р.А.
(L=4,03). Їх варто об’єднати у другий кластер. Третій кластер утворять
об’єкти О.В. і К.В. (L=5,94). До третього кластера також слід приєднати
об’єкт М.П., оскільки його відстань від О.В. рівна L=6,25. Таким чином,
четвертий кластер буде мати свою структуру – первинний кластер з об’єктів
О.В. і К.В., і вторинний кластер, який включає в себе ще об’єкт М.П.
П’ятий кластер буде утворений об’єктами В.Д. і П.Р. (L=6,61).
На цьому етапі кластеризації майже кожен об’єкт увійшов до якогось
кластера, і тепер слід зв’язати між собою вже утворені кластери. Наступна
за величиною є відстань L=6,69 – це відстань між об’єктами М.П. (четвертий
кластер) і Р.А. (другий кластер). Очевидно, що другий та третій кластери
слід об’єднати у кластер вищого порядку – шостий кластер. На наступному
кроці варто вже шукати відстані між п’ятим і шостим кластерами. Нею буде
L=9,04 між об’єктами П.Р. і Р.А. і утвориться сьомий кластер. Далі
аналізуючи відстані можна побачити, що до сьомого кластеру приєднується
об’єкт А.О. з мінімальною відстанню L=11,51 від об’єкта К.В. з сьомого
кластера. Так утворюється восьмий кластер. І нарешті дев’ятий кластер
утворений об’єднанням першого та восьмого з відстанню L=12,81 (об’єкти
Д.К., Е.О., З.А та А.О.)
Можна узагальнено представити описаний процес кластеризації у
таблиці об’єднань (amalgamation schedule) − табл. 4.
Таблиця 4
В наведеній таблиці представлено кожен описаний вище крок, біля

кожного кроку стоїть відстань між найближчими сусідами, а справа –
виділені на кожному з кроків кластери. На цьому процедура кластеризації
завершена, і можна побудувати графічне зображення отриманих кластерів –
кластерне дерево (hierarchical tree plot) – рис. 15.
Рис 15. Кластерне дерево відстані (дендрограма).
Тепер наочно і чітко видно утворену кластерну структуру – кластери

студентів, що мають однакове ставлення до своїх рольових позицій і до
студентів інших факультетів. Перша група студентів – Д.К., В.О., З.А.,
друга група – К.П. та Р.А., третя група – О.В. та К.В., до якої приєднується
М.П., четверта група – В.Д. та П.Р. Далі від усіх знаходиться студент А.О.,
який не входить у жоден з первинних кластерів, а значить, найбільше
відрізняється від всіх інших.
Приклад №2. Ієрархічна кластеризація відстаней між містами.
Давайте подивимося простий приклад: ієрархічна кластеризації відстані в

кілометрах між деякими містами Італії (рис. 16). Застосований метод
«ближнього сусіда».
Вхідна матриця відстаней (L = 0 для всіх кластерів):
BA FI MI NA RM TO
BA 0 662 877 255 412 996
FI 662 0 295 468 268 400
MI 877 295 0 754 564 138
NA 255 468 754 0 219 869
RM 412 268 564 219 0 669
TO 996 400 138 869 669 0
Рис. 16. Досліджувані міста Італії
Найближча пара міст МІ і ТО, на відстані 138. Вони об'єднані в єдиний

кластер який називається "MI / TO". Рівень нового кластера L (MI / TO) = 138 і
новий номер послідовності n = 1.
Тоді ми обчислюємо відстань від цього нового об'єкта до всіх інших
об'єктів. Правило кластеризації говорить, що відстань від складеного об'єкта
до іншого об'єкта дорівнює найкоротшій відстані від будь-якого члена
кластера із зовнішнім об'єктом. Таким чином, відстань від "MI / ТО" RM
обрана 564, яка є відстанню MI до RM, і так далі.
Після об’єднання з МІ отримуємо наступну матрицю:
BA FI MI/TO NA RM
BA 0 662 877 255 412
FI 662 0 295 468 268
MI/TO 877 295 0 754 564
NA 255 468 754 0 219
RM 412 268 564 219 0
Рис. 17. Перше об’єднання
min d(i,j) = d(NA,RM) = 219 => злиття NA і RM в новий кластер під

назвою NA/RM. L(NA/RM) = 219.
Розшифрую даний запис: мінімальна відстань знаходиться між містами
NA, RM і вона дорівнює 219. Ці два міста утворюють новий кластер з рівнем
L=219. m = 2
MI/T NA/R
BA FI
O M
66
BA 0 877 255
2
66
FI 0 295 268
2
87 29
MI/TO 0 564
7 5
NA/R 25 26
564 0
M 5 8
Рис. 18. Друге об’єднання
min d(i,j) = d(BA,NA/RM) = 255 =>злиття BA і NA/RM в новий кластер під
назвою BA/NA/RM. L(BA/NA/RM) = 255. m = 3.
BA/NA/R
FI MI/TO
M
BA/NA/R
0 268 564
M
FI 268 0 295
MI/TO 564 295 0
Рис. 19. Третє об’єднання
min d(i,j) = d(BA/NA/RM,FI) = 268 => злиття BA/NA/RM і FI в новий

кластер під назвою BA/FI/NA/RM. L(BA/FI/NA/RM) = 268. m = 4.
BA/FI/NA/R
MI/TO
M
BA/FI/NA/R
0 295
M
MI/TO 295 0
Рис. 20. Четверте об’єднання
Нарешті, ми об'єднуємо два останніх кластера на рівні 295.

Процес узагальнений наступним ієрархічним деревом:
Рис. 21. Дендрограма отриманого розв’язку.
Приклад №3 Ієрархічної кластеризації даних виконаний в пакеті

прикладних програм Statsoft STATISTICA.
Розглянемо процедуру вирішення практичної задачі методом кластерного
аналізу в системі STATISTICA.
Завданням кластерного аналізу є організація спостережуваних даних в
наочні структури. Для вирішення даної задачі в кластерному аналізі
використовуються наступний метод: Joining (tree clustering) (ієрархічні
агломеративні методи або деревоподібна кластеризація).
Розберемо принцип проведення кластерного аналізу на основі даних
представлених в таблиці. У ній містяться дані за показником рівня життя
населення та показники-аргументи, які беруть участь у класифікації.
Розглянемо процес формування вибірок в системі STATISTICA.
1. З перемикача модулів STATISTICA відкрийте модуль Cluster Analysis
(Кластерний Аналіз). Висвітиться назва модуля і далі натисніть кнопку Switch
to (Переключитися в) або виберіть назву модуля Cluster Analysis.
2. На екрані з'явиться стартова панель модуля (рис.22) Clustering Method
(методи кластерного аналізу): Joining (tree clustering) (ієрархічні
агломеративні методи або деревоподібна кластеризація).
Рис.22. Стартова панель модуля Clustering Method (методи кластерного
аналізу)
3. Створимо новий файл (New).Заповніть табличку згідно свого завдання.

Після вибору Joining (tree clustering) і натискання на кнопку ОК з'являється
вікно Cluster Analysis: Joing (Tree Clustering) (вікно введення режимів роботи
для ієрархічних агломеративних методів) (рис. 23), в якому кнопка Variables
дозволяє вибрати змінні беруть участь у класифікації. Натиснемо на кнопку
Variables і виберемо всі змінні Select All. Далі натискаємо на кнопку OK.
Рис.23. ClusterAnalysis: Joing (TreeClustering)

(Вікно введення режимів роботи для ієрархічних агломеративних методів)
Також можна задати Input (тип вхідної інформації) і Cluster (режим

класифікації (за ознаками або об'єктам)). Можна вказати Amalgamation
(linkage) rule (правило об'єднання) і Distance measure (метрика відстаней).
Codes for grouping variable (коди для груп змінної) будуть вказувати кількість
аналізованих груп об'єктів. Missing data (пропущені змінні) дозволяє вибрати
або порядкове видалення змінних зі списку, або замінити їх на середні
значення. Open Data-дозволяє відкрити файл з даними. Причому можна
вказати умови вибору спостережень з бази даних-кн. Select Cases. Можна
задавати ваги змінним, вибравши їх із списку – кнопкою W.
Проставте значення, як показано на рисунку 22.
4. Після задання всіх необхідних параметрів і натискання на кнопку ОК
будуть зроблені обчислення, а на екрані з'явиться вікно, що містить результати
кластерного аналізу "Joining Results" рис.24.
Рис.24. Вікно, що містить результати кластерного аналізу "JoiningResults"
Висновок результатів та їх аналіз

Інформаційна частина діалогового вікна Joining Results Discriminant
Function Analisis Results (результати аналізу кластерних функцій) повідомляє:
 Number of variables - число змінних;
 Number of cases - число спостережень;
 Missing data were casewise deleted - здійснена класифікація
спостережень або змінних (залежить від рівня параметра в рядку Cluster в
попередньому вікні налаштування.)
 Amalgation (joing) rule - правило об'єднання кластерів (назва
ієрархічного агломеративного методу, заданого в рядку Amalgation rules, а в
попередньому вікні налаштування);
 Distanse metricis - Метрика відстані (залежить від установки в рядку
Distance measureу попередньому вікні налаштування.
Користувач може викликати на екран горизонтальну і вертикальну
діаграму (Horizontal hierarchical plot або Vertical icicle plot). Найбільш
традиційне - вертикальне уявлення. (Рис. 25).
Рис.25. Vertical icicle plot
Тепер уявіть собі, що поступово (дуже малими кроками) ви "послабляєте"

ваш критерій про те, які об'єкти є унікальними, а які ні. Іншими словами, ви
знижуєте поріг, що відноситься до вирішення питання про об'єднання двох або
більше об'єктів в один кластер. В результаті, ви пов'язуєте разом все більше і
більше число об'єктів і об'єднуєте все більше і більше кластерів, що
складаються з елементів, що усе більше відрізняються. Остаточно, на
останньому кроці всі об'єкти об'єднуються разом. В результаті успішного
аналізу методом об'єднання з'являється можливість виявити кластери (гілки) і
інтерпретувати їх.
Щоб повернутися в вікно, що містить інші результати кластерного аналізу,
необхідно натиснути на кнопку Continue.
Клацанням миші можна розкрити рядок Amalgamation schedule, що
містить протокол об'єднання кластерів. Рис. 26
Рис. 26. Amalgamation schedule
У заголовку вказано ієрархічний агломеративний метод і метрика відстані.

Таблиця може займати кілька вікон.
Наступною у вікні результатів йде кнопка Graph of amalgamation
schedule. Після натискання, розкривається вікно, що містить ступінчасте,
графічне зображення змін відстаней при об'єднанні кластерів рис. 27.
Рис. 27. Graph of amalgamation schedule
Повернувшись в основне вікно результатів і класифікації. Для перегляду

же матриці відстаней необхідно здійснити натискання по рядку Distance matrix
(рис.27).
Рис.28. Матриця відстаней
В основному вікні результатів класифікації є рядок Save distance matrix

as: (Зберегти матрицю відстаней як ), що дозволяє задати ім'я файлу, в якому
буде збережена матриця відстаней, яка в подальшому буде піддана обробці.
Рядок Discriptive statistics містить такі найважливіші описові статистики,
як середнє (means) і середньоквадратичне відхилення (standart deviations) для
кожного спостереження. При проведенні класифікації n об'єктів за k ознаками,
для користувача виникає великий інтерес до значення цих показників для
кожної ознаки. Для того щоб ці характеристики розраховувалися саме за
ознаками необхідно повернуться в основне вікно налаштування параметрів і
задати в рядку Cluster значення "variables (columns)".
3. Порядок виконання роботи

3.1. Ознайомитися з теоретичною частиною.
3.2. Виконати реалізацію алгоритму ієрархічної кластеризації на основі
свого індивідуального завдання.
3.3. Оформити звіт по результатах виконаної роботи.
Варіанти індивідуальних завдань

Частина №1
Створити ієрархічну кластеризацію відстаней в кілометрах між деякими
містами України. Із заданих міст створити матрицю для подальшої
кластеризації об’єктів. Застосувати метод «ближнього сусіда». Також
побудувати кластерне дерево відстані для заданих міст. На карті зобразити
послідовності сполучення кластерів (міст).
1) міста: Львів, Луцьк, Київ, Вінниця, Чернівці, Одеса.

2) міста: Хмельницький, Тернопіль, Миколаїв, Одеса, Ковель,Житомир.
3) міста: Харків, Полтава, Чернігів, Рівне, Луцьк, Броди.
4) міста: Керч, Севастополь, Житомир, Кривий Ріг, Київ, Алушта.
5) міста:Харків, Донецьк, Луганськ, Ялта, Броди, Рівне.
6) міста: Лубни, Миргород, Полтава, Вінниця, Чернівці, Житомир.
7) міста: Мукачево, Полтава, Тернопіль, Львів, Миколаїв, Чернівці.
8) міста: Моршин, Стрий, Самбір, Трускавець, Червоноград, Ковель.
9) міста: Херсон, Ялта, Дрогобич, Коломия, Львів, Полтава.
10) міста: Хмельницький, Ялта, Тернопіль, Львів, Самбір, Трускавець.
11) міста: Чернігів, Рівне, Дрогобич, Коломия, Полтава, Чернівці.
12) міста: Харків, Полтава, Самбір, Трускавець, Кривий Ріг, Київ
13) міста: Івано-Франківськ, Нововолинськ, Шацьк, Кам’янець
Подільський, Умань, Дніпродзержинськ.
14) міста: Кременчук, Нікополь, Миколаїв, Кіровоград, Євпаторія,
Севастополь
15) міста: Суми, Радивилів, Дубно, Броди, Біла Церква, Херсон.
Частина №2
Завдання полягає в тому, щоб перевірити коректність шуканої конфігурації
об'єктів методом Joining (tree clustering) (ієрархічні агломеративні методи або
деревоподібна кластеризація), проаналізуйте Vertical icicle plot, Amalgamation
schedule, Graph of amalgamation schedule, матрицю відстаней. Використайте
різні правила об'єднання кластерів (Amalgation (joing) rule) та метрику відстані
(Distansemetric).
Завдання 16
У таблиці містяться дані про споживання продуктів на душу населення і
показники - аргументи, які беруть участь у кластеризації.
Країни:
X1 X2 X3 X4 X5 X6
Росія
55 3,9 30 5 28 124
Австралія
100 2,6 47 8,2 121 87
Австрія
93 5,3 37 12 146 74
Азербайдж.
20 4,1 12,4 7,9 52 141
Вірменія
20 3,7 4,3 6,5 72 134
Білорусь
72 3,6 28 5,4 38 120
Бельгія
85 6,9 48 11 83 72
Болгарія
65 3 18 9,5 92 156
Великобританія
67 3,5 39 8,8 91 91
Завдання 17
У таблиці містяться дані про економічні показники країн.
Країни:
X5 X11 X6 X7 X10
Угорщина
32,1 64,73 24,5 6 39,8
Німеччина
38,1 36,63 76,2 8,6 56,9
Греція
41,5 32,84 44,4 5,7 37,4
Грузія
55 62,64 11,3 3,5 18,6
Данія
36,7 34,07 79,2 6,7 54,4
Ірландія
15,8 39,27 57 6,7 64,2
Іспанія
40,9 28,46 54,8 7,3 22,6
Італія
49,4 30,27 72,1 8,5 46
Казахстан
38,1 69,04 13,4 3,3 7,9
Канада
27,6 25,42 79,9 10,2 25,4
Киргизія
33,2 53,13 11,2 3,4 17
Завдання 18
У таблиці містяться дані про хімічні речовини(стовпці) та їхні складові
сполуки(рядки).
Сполуки: SiO2 TiO2 Al2O3 FeO MgO CaO

a1 43.5 0.58 12.5 11.2 12.7 9.9
a2 53.6 1.2 13.2 10.5 12.4 8.5
a3 48.9 1.5 15.4 13.4 13.1 9.1
b1 41.7 2.1 16.2 10.5 14 8.6
b5 50.1 0.9 11.5 10.6 12.1 7.9
c6 40.2 1.5 14.2 10.4 11.9 8.1
d5 46.5 2.1 11.6 11.8 11.8 9.5
a7 51.6 1.8 10.3 12.5 12.4 8.9
Завдання 19
У таблиці містяться дані про рівень життя в українських містах.
Міста: X1 X2 X3 X4 X5 X6 X7
Львів 12 32 1 22 10 2 66
Луцьк 21 11 32 66 4 45 39
Донецьк 1 10 24 56 5 56 56
Київ 51 25 33 56 11 5 56
Житомир 1 280 22 54 24 22 25
Сімферополь 22 12 32 39 4 10 36
Кривий Ріг 1 12 11 19 9 20 30
Завдання 20
У таблиці містяться дані про міста Франції.
Міста: X1 X2 X3 X4 X5 X6 X7
Париж 9,5 15,6 123,1 11,2 32,9 565,4 7,4
Марсель 8,9 9,5 122,1 25,5 23,2 456,6 6,9
Ліон 7,1 9,9 112,6 14,9 11,6 543,2 6,4
Лілль 6,6 9,1 100,9 12,5 22,1 445,5 5,9
Ніцца 7,6 8,6 109,1 14,5 25,2 347,9 6,9
Тулуза 6,9 10,5 121,6 21,5 18,9 483,6 5,4
Бордо 5,1 11,9 119,1 17,1 25,5 451,2 5,9
Нант 4,5 5,6 100,6 15,9 16,2 489,5 1,4
Тулон 2,5 7,5 99,1 18,5 15,5 410,9 2,9
Завдання 21
У таблиці містяться дані про університети Європи.
Університет Х-ка X1 X2 X3 X4 X5 X6
Гарвардський університет 27000 1636 27500 1 22 567
Кембриджський університет 21500 1209 18500 1 12 767
Оксфордський університет 22500 1117 15400 1 2 654
Массачусетський 11500 1861 30400 0 23 999
технологічний інститут
Йельський університет 19000 1701 29500 0 1 53
Стенфордський університет 2000 1891 25602 0 1 31
Каліфорнійський 31000 1891 16200 0 12 12
технологічний інститут
Каліфорнійський 31500 1868 20700 1 2 32
університет
Імперський коледж Лондона 12000 1868 21000 1 2 12
Принстонський університет 7000 1746 29910 1 3 21
Завдання 22
У таблиці містяться дані про студентів.
Студент: X1 X2 X3 X4 X5 X6 X7 X8
Іванов 5 5 5 5 5 5 5 5
Петров 4 5 4 3 4 5 5 5
Штельмах 4 5 4 3 4 5 4 4
Сидоров 4 4 4 4 3 4 4 4
Федоров 3 3 3 3 4 3 3 3
Максимов 3 4 4 3 4 4 4 2
Вовков 5 5 5 5 4 3 3 4
Завдання 23
У таблиці містяться дані про футбольні клуби.
Клуб: X1 X2 X3 X4 X5 X6 X7 X8 X9
Челсі 11,3 12,8 22,6 22,4 56,2 56,1 55,1 147,3 444,2
Реал 12,8 14,2 25,32 22,3 25,21 25,31 54,11 454,2 541,2
Барселона 11,4 10,3 22,21 22,6 11,2 63,2 25,2 555,2 200,3
Манчестер Сіті 0,3 11,8 23,1 12,8 23 52 32,2 420,3 302
Манчестер 2,8 13,8 52 23,2 25,3 12,9 51 320,2 120,2
Юнайтед
ПСЖ 11,5 11,1 41,2 22,5 62,6 42,6 41,2 329,2 256,2
Мілан 9,7 14,3 11,8 12,2 55,6 56,3 52 245,2 230
Інтер 2,8 13,7 23,1 22,2 22,6 23 68,82 200,5 145,4
Завдання 24
У таблиці містяться дані про ґрунти.
Х-ка
Проба ґрунту X1 X2 X3 X4 X5 X5 X6
1 15.21 70.6 467.1 1400 0.12 0.63 4.53
2 33.27 67.5 1059.8 460 0.15 1.19 4.9
3 68.09 1700.3 3309.7 1200 0.36 2.3 4.82
4 32.89 168.1 1392.9 2100 0.17 1.29 4.84
5 19.87 102.7 71.3 920 0.14 0.73 7.93
6 16.46 32.5 367 1100 0.06 0.52 3.78
7 10.56 192.9 352.4 1000 0.1 0.33 4.59
8 15.63 118.4 300.2 1900 0.11 0.61 4.16
9 11.15 101.4 308.4 1300 0.11 0.47 5.13
10 16.25 232.5 306.2 1600 0.12 0.66 4.43
11 9.94 51.4 212.3 1800 0.1 0.37 4.7
12 70.63 150.3 627.7 590 0.15 1.81 3.65
13 9 9.8 129.7 95 0.01 0.21 3.63
14 19.71 297.7 467.9 2200 0.08 0.63 4.04
15 26.02 83.9 618.5 2800 0.08 0.88 3.93
16 11.84 168.9 375.8 750 0.07 0.45 5.89
17 10.71 127.3 330.3 910 0.13 0.43 4.56
18 8.3 107.4 241.4 880 0.08 0.31 4.74
19 12.67 188.7 516.4 1300 0.05 0.33 4.4
20 15.92 203.6 336.9 1500 0.08 0.52 4.13
21 12.92 170.6 319.6 1600 0.06 0.44 4.05
22 7.54 53.8 315.7 890 0.05 0.28 4.7
23 21.96 104.3 578.8 1900 0.12 0.81 4.11
24 88.78 107.6 1156.8 290 0.06 0.99 3.19
25 72.19 174.7 1061.3 690 0.14 2.32 3.93
Завдання 25
У таблиці містяться дані про річки світу.
Річка: X1 X2 X3 X3 X4 X5 X6
Амазонка 5421,3 22,43 65,32 21,4 123,32 32,42 123,4
Волга 1233l,2 32,54 32,34 32,34 845,98 61,24 343,6
Урал 5343,21 12,76 12,63 34,4 456,96 29,63 341,8
Дон 2134,1 65,62 34,74 54,4 345,56 54,75 132,7
Хуанхе 6542,2 43,43 54,85 76,3 356,73 37,45 143,9
Об 2434,6 32,34 76,54 43,3 357,74 36,52 162,05
Конго 2342,5 12,23 23,63 65,23 343,52 47,22 179,66
Міссісіпі 4123,8 54,21 45,34 76,3 324,57 32,34 146,54
Одер 2342,43 32,76 45,44 43,3 111,74 35,55 137,44
Завдання 26
У таблиці містяться дані про економічні центри Італії.
Місто: X1 X2 X3 X4 X5 X6 X7 X8
Рим 12,43 32,76 45,43 76,34 98,55 34,44 48,4 33,44
Турин 34,41 41,65 31,33 43,4 84,45 34,23 22,5 34,54
Мілан 41,22 32,54 83,5 23,5 56,34 45,23 84,76 43,54
Палермо 21,12 21,23 24,8 12,4 55,78 11,12 33,76 22,75
Болонья 31,32 11,33 26,32 38,77 43,43 21,65 45,882 11,98
Неаполь 12,45 12,44 29,56 73,54 82,23 12,4 66,33 23,90
Завдання 27
У таблиці містяться дані про міста Іспанії.
Мадрид 234,44 654,6 888,44 455,98 455,1 452,4 121,6 3,88
Барселона 235,34 236,21 568,32 632,76 256,2 254,33 635,55 5,44
Більбао 236,23 256,32 756,54 256,67 356,5 563,11 256,5 8,3
Севілья 123,55 456,31 745,12 241,56 245,4 258,87 254,8 7,4
Валенсія 412,33 356,33 762,81 256,45 569,6 255,44 215,4 4,6
Сарагоса 125,12 359,44 741,5 256,54 589,8 452,43 248,3 7,7
Малага 149,45 354,44 621,65 254,44 514,9 145,5 524,30 7,3
Завдання 28
У таблиці містяться дані міста Англії.
Лондон 21,2 231,55 12,33 23,5 34,55 12,4 3,6 431,54
Манчестер 43,34 432,4 12,23 12,3 14,45 23,6 4,5 129,34
Портсмут 81,3 324,2 32,12 23,2 32,43 21,6 5,3 234,23
Ньюкасл 75,21 546,5 45,11 32,45 23,33 32,4 3,5 453,56
Ліверпуль 62,3 453,3 34,23 76,7 12,87 23,6 2,54 324,87
Бірмінгем 53,5 323,4 65,6 45,5 12,44 12,4 5,22 233,54
Бристоль 23,4 324,22 78,87 23,77 3,32 33,2 8,34 435,45
Завдання 29
У таблиці містяться дані про текстові документи.
Документ: X1 X2 X3 X4 X5 X6 X7 X8
Соціологія 2 3 2 2 1 2 2 1
Філософія 3 2 3 2 1 2 3 2
Макроекономіка 5 5 4 5 4 4 4 4
Історія 5 4 5 6 6 6 6 5
економічних
вчень
Етика 0 1 0 0 0 1 1 1
Мікроекономіка 4 4 4 3 4 3 3 5
Завдання 30
У таблиці містяться дані про інтернет ресурси.
Інтернет ресурс: X1 X2 X3 X4 X5 X6 X7 X8
http://www.champion.com.ua 2,3 2,2 3,5 2,5 3,3 2,6 4,8 4,4
/
http://24tv.ua/ 6,4 5,3 6,4 5,4 5,4 5,5 6,7 5,2
http://www.pravda.com.ua/ 6,5 6,6 5,4 7,7 7,7 6,4 5,6 7,3
http://zik.ua/ 6,5 5,5 7,3 6,5 5,6 7,4 7,5 7,2
http://techno.bigmir.net/ 1,8 2,4 1,6 1,4 2,5 2,3 2,4 3,8
http://www.pslan.com/ 5,4 8,8 6,8 6,4 7,8 7,2 8,3 6,1
http://www.lostfilm.tv/ 5,8 8,6 7,3 6,9 6,3 8,2 8,9 6,07
Вимоги до звіту
Оформити звіт для захисту лабораторної роботи за зразком:
 назва роботи;
 мета роботи;
 порядок роботи;
 короткі теоретичні відомості;
 аналіз отриманих результатів та висновок.
Оформлення звіту
Звіт повинен відповідати вимогам, перерахованим в розділі 3 – Вимоги до
звіту. Звіт оформляється на листах формату А4 (також додається електронний
варіант). Титульна сторінка повинна містити: назву предмету, такий заголовок:
Звіт
до лабораторної роботи № 4
“Кластеризація в Data Mining. Базові алгоритми кластеризації.
Ієрархічний алгоритм кластеризації”
ПІБ, номер групи студента і дату виконання лабораторної роботи. Звіт

подається викладачу для перевірки на занятті, яке є наступними за даною
лабораторною роботою.
Контрольні питання:
1. Що таке кластеризація?
2. Що таке характеристична функція?
3. Опишіть формальне завдання кластеризації.
4. Що таке міра близькості? Як вона обчислюється?
5. Класифікація алгоритмів кластеризації.
6. У чому полягає різниця між агломеративними та подільними
алгоритмами?
7. Часова складність алгоритмів кластеризації.
8. Де застосовується кластеризація?
Список рекомендованої літератури:

1. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д.
Прикладная статистика: классификация и снижение размерности. — М.:
Финансы и статистика, 1989.
2. Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание».
Математические методы. Программная система. Практические применения. —
М.: Фазис, 2006. ISBN 5-7036-0108-8.
3. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. —
Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.
4. Мандель И. Д. Кластерный анализ. — М.: Финансы и статистика, 1988.
ISBN 5-279-00050-7.
5. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям (+
СD). -СПб: Питер, 2009. ISBN 978-5-49807-257-9
6. Хайдуков Д. С. Применение кластерного анализа в государственном
управлении// Философия математики: актуальные проблемы. – М.: МАКС
Пресс, 2009.
7. Шлезингер М., Главач В. Десять лекций по статистическому и
структурному распознаванию. — Киев: Наукова думка, 2004. ISBN 966-00-
0341-2.
8. Викіпедія – вільна енциклопедія http://uk.wikipedia.org/
Навчальне видання
“ Інтелектуальний аналіз даних ”
Методичні вказівки до лабораторної роботи № 4 “Кластеризація в DataMining.

Базові алгоритми кластеризації. Алгоритми ієрархічної кластеризації” з
дисципліни “Інтелектуальний аналіз даних” для студентів спеціальності 0804
“Комп’ютерні науки”
Укладач:
доц. Ковівчак Ярослав Васильович
Комп’ютерний набір, верстку та редагування

здійснили ст. гр. КН-32, каф. АСУ, Муха Б., Мандзій А.,
ст. гр.. КН-30, каф. АСУ, Фединишин Р.

Lab 4 END

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Lab 4 END

Uploaded by

Copyright:

Available Formats

Міністерство освіти і науки, молоді та спорту України

Національний університет “Львівська політехніка”

“ Кластеризація в Data Mining. Базові алгоритми кластеризації.

для студентів базового напрямку підготовки по спеціальності

Методичні вказівки обговорено та схвалено на засіданні кафедри АСУ

Методичні вказівки обговорено та схвалено на засіданні методичної комісії

Кластеризація в Data Mining. Базові алгоритми кластеризації.

Мета: Ознайомлення з алгоритмами ієрархічної кластеризації даних,

Аналіз і інтерпретація його результатів

Рис. 1. Приклад побудови дендрограми.

Числа 11, 10, 3 і т.д. відповідають номерам об'єктів або спостережень

Ієрархічний кластерний аналіз в SPSS

Евклідова відстань. Це, мабуть, найбільш загальний тип відстані. Вона є

Квадрат евклідового відстані. Іноді може виникнути бажання звести в

Відстань міських кварталів (Манхеттенський відстань). Це відстань є

Відстань Чебишева. Ця відстань може виявитися корисною, коли

Відсоток незгоди. Ця міра використовується в тих випадках, коли дані є

Алгоритми ієрархічної кластеризації

Рис 2. Розбиття даних в кластери за допомогою дивізійних алгоритмів.

В агломеративній кластеризації також формується ієрархічне дерево, але

Рис 3. Розбиття даних в кластери за допомогою агломеративних

Ієрархічні алгоритми характеризуються рядом переваг у порівнянні з

Рис.4. Критерій “ближнього сусіда”

2. Критерій “далекого сусіда”. В англомовній літературі даний критерій

Рис. 6. Приклад критерію «далекого сусіда»

3. Критерій “середнього зв'язку” (середньої відстані). На кожному кроці

Рис. 7. Центроїд: середня перехресна подібність.

5. Критерій Варда (Ward’s method). Цей метод агломерації відрізняється від

Рис. 8. Групове усереднення: усереднення всі показників подібності.

Для перших трьох методів існує загальна формула, запропонована А. Н.

Загальна схема ієрархічного агломеративного алгоритму

Блок схема алгоритму

Рис. 9. Блок-схема ієрархічного агломеративного алгоритму

Таким чином визначаються відстані від нового (об'єднаного кластера) до

Кластеризація методами одиночного і повного зв'язку(ближнього і

Рис. 10. Кластеризація восьми документів методами одиночної зв'язку

На рис. 10 продемонстрований процес кластеризації восьми документів

Рис. 11. Дендрограма кластеризації за методом повної зв'язку.

Ці інтерпретації пояснюють назви методів: одиночного зв'язку і повного

Рис. 12. Зчеплення, що виникає при кластеризації методом одиночної

Рис.13. Викиди в кластеризації методом повної зв'язку. П'ять документів

Рис. 14. Кластеризація методом повної зв'язку не є стійкою по

На практиці зниження ефективності алгоритму зі складністю Θ(N 2logN)

Приклад №1. Використання ієрархічної кластеризації в соціологічних

факультету 5 9 9 5 5 10 3 5 1,5 1,5 1,5

Для прикладу (табл. 2) обчислимо відстань між першим та другим

Чим менше значення у комірці таблиці, тим ближче знаходяться між

Деревоподібна кластеризація: стратегії кластеризації.

В наведеній таблиці представлено кожен описаний вище крок, біля

Тепер наочно і чітко видно утворену кластерну структуру – кластери

Давайте подивимося простий приклад: ієрархічна кластеризації відстані в

Рис. 16. Досліджувані міста Італії

Найближча пара міст МІ і ТО, на відстані 138. Вони об'єднані в єдиний

Рис. 17. Перше об’єднання

min d(i,j) = d(NA,RM) = 219 => злиття NA і RM в новий кластер під

Рис. 19. Третє об’єднання

min d(i,j) = d(BA/NA/RM,FI) = 268 => злиття BA/NA/RM і FI в новий

Нарешті, ми об'єднуємо два останніх кластера на рівні 295.

Рис. 21. Дендрограма отриманого розв’язку.

Приклад №3 Ієрархічної кластеризації даних виконаний в пакеті

3. Створимо новий файл (New).Заповніть табличку згідно свого завдання.

Рис.23. ClusterAnalysis: Joing (TreeClustering)

Також можна задати Input (тип вхідної інформації) і Cluster (режим