Professional Documents
Culture Documents
Lab 4 END
Lab 4 END
Методичні вказівки
до лабораторної роботи № 4
з дисципліни
“Інтелектуальний аналіз даних”
Львів-2019
Методичні вказівки до лабораторної роботи № 4 “ Кластеризація в Data
Mining. Базові алгоритми кластеризації. Ієрархічний алгоритм
кластеризації” з дисципліни “Інтелектуальний аналіз даних” для студентів
спеціальності - шифр 122 “Комп’ютерні науки” Укл. доц. Ковівчак Я.В., Львів:
Національний університет “Львівська політехніка”, 2019.
1. Теоретична частина
Вступ
Кластерний аналіз (англ . Data clustering ) — задача розбиття заданої
вибірки об'єктів (ситуацій) на підмножини, звані кластерами, так, щоб кожен
кластер складався з схожих об'єктів, а об'єкти різних істотно суттєвих кластерів
відрізнялися. Задача кластеризації відноситься до статистичної обробки.
Кластерний аналіз — це багатовимірна статистична процедура, що виконує збір
даних, що містять інформацію про вибірку об'єктів, і яка упорядковує об'єкти в
порівняно однорідні групи (кластери) (Q-кластеризація, або Q-техніка, власне
кластерний аналіз). Кластер — група елементів, що характеризуються
загальною спільною властивістю, головна ціль кластерного аналізу —
знаходження груп схожих об'єктів у вибірці. Спектр застосувань кластерного
аналізу дуже широкий: його використовують в археології, медицині, психології,
хімії, біології, державному управлінні, філології, антропології, маркетингу,
соціології і інших дисциплінах. Проте універсальність застосування привела до
появи великої кількості несумісних термінів, методів і підходів, що утрудняють
однозначне використання і несуперечливу інтерпретацію кластерного аналізу.
Завдання і умови
Мета кластерного аналізу. Достатньо багато досліджень ставлять за
мету організацію отриманих даних у наглядні структури. Так, в біології часто
метою є розбиття сукупності тварин на види і підвиди, у психології –
класифікація видів поведінки, у педагогіці – таксономія виховних цілей тощо.
Допомогти це зробити може кластерний аналіз. Фактично, кластерний аналіз
є набором різноманітних алгоритмів класифікації. Техніка кластеризації
застосовується в дуже різноманітних сферах діяльності. Так, автори
підручника Statsoft наводять приклади застосування кластерного аналізу в
медицині – кластеризації піддаються симптоми захворювання чи види
лікування, і отримуються достатньо цікаві класифікації. Теж саме стосується
психіатрії та психотерапії. Відомі також ряд прикладів застосування
кластерного аналізу в сфері маркетингу. Загалом, коли необхідно
класифікувати великі масиви інформації на групи, які придатні для
подальшого аналізу – кластерний аналіз є незамінним інструментом. Цікаві
можливості кластерного аналізу у сфері психологічних досліджень групових
процесів та явищ.
Кластерний аналіз має одну суттєву особливість – він не є звичайним
статистичним методом, оскільки до нього у більшості випадків незастосовні
процеси перевірки статистичної значимості. Кластерний аналіз дає найбільш
значиме рішення. Саме тому досить часто його використовують тоді, коли
дослідник має набір даних, але не має жодної апріорної гіпотези про класи цих
даних.
Кластерний аналіз виконує наступні основні завдання:
Розробка типології або класифікації.
Дослідження корисних концептуальних схем групування об'єктів.
Породження гіпотез на основі дослідження даних.
Перевірка гіпотез або дослідження для визначення, чи дійсно типи
(групи), виділені тим або іншим способом, присутні в наявних даних.
Незалежно від предмету вивчення застосування кластерного аналізу він
передбачає наступні етапи:
Відбір вибірки для кластеризації.
Визначення безлічі змінних, по яких оцінюватимуть об'єкти у вибірці.
Обчислення значень тієї або іншої міри схожості між об'єктами.
Застосування вживання методу кластерного аналізу для створення груп
схожих об'єктів.
Перевірка достовірності результатів кластерного рішення .
Кластерний аналіз представляє собою наступні вимоги до даним: по-
перше, показники не повинні робити кореляцію між собою; по-друге,
показники повинні бути безрозмірними; по-третє, їх розподіл повинен бути
близьким до нормального; по-четверте, показники повинні відповідати вимозі
«стійкості», під якою розуміється відсутність впливу на їх значення випадкових
факторів ; по-п'яте, вибірка повинна бути однорідна, не містити «залишків».
Якщо кластерному аналізу передує факторний аналіз, то вибірка не потребує
«корегування» — викладені вимоги виконуються автоматично самою
процедурою факторного моделювання (є ще одна чеснота, — z-стандартизація
без негативних наслідків для вибірки; якщо її проводити безпосередньо для
кластерного аналізу, вона може спричинити зменшення чіткості розділення
груп). Інакше вибірку потрібно коректувати.
Цілі кластеризації
Розуміння даних шляхом виявлення кластерної структури. Розбиття
вибірки на групи схожих об'єктів дозволяє спростити подальшу обробку даних і
прийняття рішень, застосовуючи до кожного кластера свій метод аналізу
(стратегія «розділяй і пануй»).
Стиснення даних. Якщо початкова вихідна вибірка надмірно велика, то
можна скоротити її, залишивши поодинці найбільш типовому представникові
від кожного кластера.
Виявлення новизни (англ. novelty detection ). Виділяються нетипові
об'єкти, які не вдається приєднати ні до одного з кластерів.
У першому випадку число кластерів прагнуть зробити трохи менш . У
другому випадку важливіше забезпечити високий ступінь міри схожості
об'єктів всередині кожного кластера, а кластерів може бути скільки завгодно. У
третьому випадку найбільший інтерес представляють окремі об'єкти, що не
вписуються ні в один з кластерів.
У всіх цих випадках може застосовуватися ієрархічна кластеризація, коли
великі кластери дробляться на дрібніші, ті у свою чергу дробляться ще
дрібніше і так далі. Такі завдання називаються завданнями таксономії .
Результатом таксономії являється деревоподібна ієрархічна структура. При
цьому кожен об'єкт характеризується переліком всіх кластерів, яким він
належить, зазвичай від великого до дрібного .
Класичним прикладом зразком таксономії на основі схожості являється
біноміальна номенклатура живих істот, запропонована Карлом Лінєєм в
середині XVIII століття . Аналогічні систематизації будуються в багатьох
областях знань, щоб упорядкувати інформацію про велику кількість об'єктів.
Методи кластеризації
K-середніх (K-means );
Графські алгоритми кластеризації;
Статистичні алгоритми кластеризації;
Алгоритми сімейства FOREL;
Ієрархічна кластеризація або таксономія;
Нейронна мережа Кохонена;
Ансамбль кластеризатерів;
Алгоритми сімейства Кrab;
EM-алгоритм;
Алгоритм, заснований на методі просіювання.
Формальна постановка завдання кластеризації
Нехай існує безліч об'єктів, безліч номерів (імен) кластерів. Є задана
функція відстані між об'єктами, є наявна кінцева скінченна вибірка об'єктів.
Потрібно розбити вибірку на непересічні підмножини, звані кластерами, так,
щоб кожен кластер складався з об'єктів, близьких по метриці, а об'єкти різних
кластерів істотно відрізняються. При цьому кожному об'єкту приписується
номер кластера.
Алгоритм кластеризації — це функція, яка будь-якому об'єкту ставить у
відповідність номер кластера. Множина в деяких випадках відома заздалегідь
наперед, проте частіше ставиться завдання визначити оптимальне число
кластерів, або інший критерій якості кластеризації.
Кластеризація відрізняється від класифікації тим, що мітки початкових
вихідних об'єктів спочатку не задані, і навіть може бути невідома сама множина
.
Розв’язок задачі кластеризації принципово неоднозначний, і тому є
декілька причин:
не існує однозначно найкращого критерію якості кластеризації.
Відомий цілий ряд, низка евристичних критеріїв, а також низка алгоритмів, що
не мають чітко вираженого висловлюваного критерію. Всі вони можуть давати
різні результати;
число кластерів, як правило, невідоме заздалегідь наперед і
встановлюється відповідно до деякого суб'єктивного критерію;
результат кластеризації істотно суттєво залежить від метрики, вибір
якої, як правило, також суб'єктивний і визначається експертом;
групування результатів пошуку: Кластеризація використовується для
«інтелектуального» групування результатів при пошуку файлів, веб-сайтів,
інших об'єктів, надаючи користувачеві можливість спроможність швидкої
навігації, вибору свідомо більш релевантної підмножини і виключення винятку
свідомо менш ревалентного — що може підвищити «юзабіліті» інтерфейсу в
порівнянні з висновком,виведенням у вигляді простого сортованого по
релевантнтності списку;
Clusty — кластеризуюча пошукова машина компанії Vivisimo;
Nigma — російська пошукова система із автоматичною кластеризацією
результатів;
Quintura — візуальна кластеризація у вигляді хмари ключових
джерельних слів;
сегментація зображень (image segmentation): Кластеризація може бути
використана для розбиття цифрового зображення на окремі області з ціллю
знаходження меж кордонів (edge detection ), або розпізнавання об'єктів.
Завдання кластерного аналізу може бути сформульовано виходячи з
наступних розміркувань. Нехай сукупність, що складається з n об'єктів, кожний
з яких описується за допомогою m чинників-симптомів, задана у вигляді
матриці вихідних (Х) або стандартизованих даних (Z), розміру n*m.
Тоді кластером називається така компактна група об'єктів із всієї вихідної
сукупності, для якої середній квадрат серединногрупової відстані від об'єктів
групи до її центра ваги менше середнього квадрата відстані від всіх об'єктів до
центра ваги всієї вихідної сукупності. Чим більше серед виділених груп
кластерів, тим більш успішною можна вважати отриману розбивку
досліджуваної сукупності об'єктів.
Тоді завдання кластерного аналізу зводяться до пошуку й виділення у
вихідній сукупності об'єктів максимального числа кластерів, які розглядаються
як кількісно однорідні групи одночасно за всіма чинниками-симптомами.
Іншими словами, у процесі кластеризації треба прагнути одержати таку
розбивку сукупності, щоб кожний об'єкт належав до однієї й тільки до однієї
групи, та відстані між об'єктами однієї групи були істотно меншими, у
порівнянні з відстанями між об'єктами різних груп.
Для поставленої задачі це буде означати, що вдалося виділити групи
підприємств з близькими значеннями показників, що відображають їхню
конкурентоздатність, тобто визначити типи, класи досліджуваних об’єктів за
рівнем латентної ознаки, що оцінюється.
Як і при застосуванні методів таксономії, одним із важливіших моментів
кластерного аналізу є питання визначення певного кола чинників-симптомів,
що характеризують латентну економічну ознаку підприємства. Слід мати на
увазі, що це проблема не статистична, а економічна, яка повинна вирішуватися
в ході якісного дослідження з урахуванням положень відповідної науки (в
даному випадку теорії конкуренції та конкурентоспроможності підприємств).
Після визначення матриці вихідних даних X, стандартизації чинників-
симптомів і утворення матриці Z, розрахунку матриці відстаней D між усіма
об’єктами (підприємствами) переходять до безпосереднього застосування
алгоритмів кластерного аналізу, яких у теперішній час у математико-
статистичній літературі налічується більше ста . Всі вони можуть бути
згруповані у три основних напрямки:
а) процедури прямої класифікації;
б) оптимізаційні алгоритми;
в) апроксимаційні підходи.
Процедури прямої класифікації – це історично найбільш ранній напрямок
кластерного аналізу, пов'язаний з іменами німецького біолога Ф. Гейнке,
польського антрополога К. Чекановського, які на початку ХХ століття висунули
ідеї пошуку компактних груп об'єктів у просторі множини ознак.
Суть першого напрямку укладається в чіткому формулюванні поняття
кластера й утворенні груп об'єктів, що відповідають даному формулюванню.
Найбільшого поширення серед процедур прямої класифікації одержали
ієрархічні алгоритми, які базуються на наступному визначенні кластера: всі
відстані між об'єктами усередині групи повинні бути менше будь-якої відстані
між об'єктами групи й іншою частиною множини об’єктів.
Застосування
Інтелектуальний аналіз даних (data mining ). Кластеризація у Data Mining
набуває цінності тоді, коли вона виступає одним з етапів аналізу даних,
побудови закінченого аналітичного рішення. Аналітику часто легко виділити
групи схожих об'єктів, вивчити їх особливості і побудувати для кожної групи
окрему модель, чим створювати одну загальну спільну модель для всіх даних.
Таким прийомом постійно користуються в маркетингу, виділяючи групи
клієнтів, покупців, товарів і розробляючи для кожної з них окрему стратегію.
Програмна реалізація алгоритмів кластерного аналізу широко
представлена в різних інструментах Data Mining, які дозволяють вирішувати
завдання досить великої розмірності. Наприклад, агломеративні методи
реалізовані в пакеті SPSS, подільні методи − в пакеті Statgraf.
Ієрархічні методи кластеризації розрізняються правилами побудови
кластерів. В якості правил виступають критерії, які використовуються при
вирішенні питання про "схожості" об'єктів при їх об'єднанні в групу
(агломеративні методи) або поділу на групи (подільні методи).
Ієрархічні методи кластерного аналізу використовуються при невеликих
обсягах наборів даних.
Міри подібності
Для обчислення відстані між об'єктами використовуються різні міри
подібності, які називаються також метриками або функціями відстаней.
Зупинимося докладніше на найбільш популярних процедурах прямої
класифікації – ієрархічних агломеративних і деяких інших алгоритмах
кластерного аналізу.
Відстані між об'єктами припускають їх представлення у вигляді точок m-
мірного простору Rm. У цьому випадку можуть бути використані різні підходи
до обчислення відстаней приналежних простору вхідних змінних.
Представлення результатів
Результатом кластерного аналізу є набір кластерів, що містять елементи
вихідної множини. Кластерна модель повинна описувати як самі кластери, так і
належність кожного об'єкта до одного з них.
Для невеликого числа об'єктів, що характеризуються двома змінними,
результати кластерного аналізу зображують графічно. Елементи
представляються точками, кластери розділяються прямими, які описуються
лінійними функціями. Якщо кластери не можна розділити прямими, то
малюються ламані лінії, які описуються нелінійними функціями.
Ряд алгоритмів кластеризації будують ієрархічні структури кластерів. У
таких структурах найвищий рівень відповідає всій множини об'єктів, тобто
одному-єдиному кластеру. На наступному рівні він ділиться на декілька
підкластерів. Кожен з них ділиться ще на декілька і так далі. Побудова такої
ієрархії може відбуватися до тих пір, поки кластери не відповідатимуть
окремим об'єктам. Такі діаграми називаються дендрограмами (dendrograms).
1
( n i K (i, j ) (n j K ( j , k ) ))
K ( i, j , k ) , −∞ ≤ η ≤ +∞
ni n j
де-[i,j] група з двох об'єктів (кластерів) I i J ; k- об'єкт (кластер), з яким
шукається схожість зазначеної групи; Ni-число елементів в кластері і; Nj-число
елементів в кластері j.
Для відстаней є аналогічна формула Ланса – Вільямса.
Часова складність
Складність “наївного” алгоритму агломеративної ієрархічної
кластеризації становить Θ (N3), оскільки, щоб знайти елементи з найбільшою
подібністю на кожній з N - 1 ітерацій необхідно здійснити повний перебір
елементів матриці С, що має розмірність N x N.
Для чотирьох методів, розглянутих у цій роботі, більш ефективним є
алгоритм, що використовує черги з пріоритетом.
На рис. 13 показано, що стійкість по відношенню до найкращого
об'єднання не зберігається в алгоритмі кластеризації методом повного зв'язку.
Це означає, що ми не можемо використовувати масив для прискорення
кластеризації. Після об'єднання кластера d2, найкращого кандидата на
об'єднання з кластером з кластером d3 окремий кластер d1 стає найкращим
кандидатом на об'єднання з кластером d3. Це пояснюється тим, що критерій
повного зв'язку є нелокальним і залежить від точок, що знаходяться на великій
відстані від області дотику двох кандидатів на об'єднання.
Р.А.
К.В.
В.Д.
З.А.
А.О.
О.В.
М.П.
К.П.
П.Р.
Д.К.
Е.О.
Студент
Випадки (результати) оцінювання)
А.О.
О.В.
ху і 2 L
хі і і
уі
Студент
5 9 -4 16
факультету
”Комп’ютерній науки”
Студент педагогічного
2 0,5 1,5 2,25
факультету
Студент фізико -
3 1 2 4
математичного факультету
Студент природничого
9 2 7 49
факультету
Студент історичного
4 3 1 1
факультету L 175,75 13,26
Студент філологічного
10 4 6 36
факультету
Психолог 4,5 9,5 -5 25
Соціальний педагог 5,5 10 -4,5 20,25
Вчитель 8 5 3 9
Викладач 6 6 0 0
Керівник 3,5 7 -3,5 12,25
Консультант 7 8 -1 1
хі уі 2 175,75
і
Провівши послідовні обчислення відстаней між усіма об’єктами
будують таблицю відстаней (distances matrix) (табл. 3).
Таблиця 3
А.О. О.В. М.П. К.П. Р.А. К.В. В.Д. П.Р. Д.К. Е.О. З.А.
А.О. 0,00 13,26 14,81 13,41 13,51 11,5 14,37 13,63 12,82 12,82 12,82
О.В. 13,26 0,00 6,24 7,00 7,26 5,94 16,76 12,94 21,66 21,66 21,66
М.П. 14,81 6,24 0,00 6,82 6,69 8,02 14,94 12,37 20,41 20,41 20,41
К.П. 13,41 7,00 6,82 0,00 4,03 8,82 13,44 10,95 19,62 19,62 19,62
Р.А. 13,51 7,26 6,69 4,03 0,00 8,86 12,35 9,04 18,89 18,89 18,89
К.В. 11,51 5,94 8,02 8,82 8,86 0,00 16,43 13,83 18,69 18,69 18,69
В.Д. 14,37 16,76 14,94 13,44 12,35 16,43 0,00 6,61 12,85 12,85 12,85
П.Р. 13,63 12,94 12,37 10,95 9,04 13,83 6,61 0,00 15,97 15,97 15,97
Д.К. 12,82 21,66 20,41 19,62 18,89 18,69 12,85 15,97 0,00 0,00 0,00
Е.О. 12,82 21,66 20,41 19,62 18,89 18,69 12,85 15,97 0,00 0,00 0,00
З.А. 12,82 21,66 20,41 19,62 18,89 18,69 12,85 15,97 0,00 0,00 0,00
BA FI MI/TO NA RM
BA 0 662 877 255 412
FI 662 0 295 468 268
MI/TO 877 295 0 754 564
NA 255 468 754 0 219
RM 412 268 564 219 0
BA/NA/R
FI MI/TO
M
BA/NA/R
0 268 564
M
FI 268 0 295
MI/TO 564 295 0
BA/FI/NA/R
MI/TO
M
BA/FI/NA/R
0 295
M
MI/TO 295 0
Рис. 20. Четверте об’єднання
Частина №2
Завдання полягає в тому, щоб перевірити коректність шуканої конфігурації
об'єктів методом Joining (tree clustering) (ієрархічні агломеративні методи або
деревоподібна кластеризація), проаналізуйте Vertical icicle plot, Amalgamation
schedule, Graph of amalgamation schedule, матрицю відстаней. Використайте
різні правила об'єднання кластерів (Amalgation (joing) rule) та метрику відстані
(Distansemetric).
Завдання 16
У таблиці містяться дані про споживання продуктів на душу населення і
показники - аргументи, які беруть участь у кластеризації.
Країни:
X1 X2 X3 X4 X5 X6
Росія
55 3,9 30 5 28 124
Австралія
100 2,6 47 8,2 121 87
Австрія
93 5,3 37 12 146 74
Азербайдж.
20 4,1 12,4 7,9 52 141
Вірменія
20 3,7 4,3 6,5 72 134
Білорусь
72 3,6 28 5,4 38 120
Бельгія
85 6,9 48 11 83 72
Болгарія
65 3 18 9,5 92 156
Великобританія
67 3,5 39 8,8 91 91
Завдання 17
У таблиці містяться дані про економічні показники країн.
Країни:
X5 X11 X6 X7 X10
Угорщина
32,1 64,73 24,5 6 39,8
Німеччина
38,1 36,63 76,2 8,6 56,9
Греція
41,5 32,84 44,4 5,7 37,4
Грузія
55 62,64 11,3 3,5 18,6
Данія
36,7 34,07 79,2 6,7 54,4
Ірландія
15,8 39,27 57 6,7 64,2
Іспанія
40,9 28,46 54,8 7,3 22,6
Італія
49,4 30,27 72,1 8,5 46
Казахстан
38,1 69,04 13,4 3,3 7,9
Канада
27,6 25,42 79,9 10,2 25,4
Киргизія
33,2 53,13 11,2 3,4 17
Завдання 18
У таблиці містяться дані про хімічні речовини(стовпці) та їхні складові
сполуки(рядки).
Завдання 19
У таблиці містяться дані про рівень життя в українських містах.
Міста: X1 X2 X3 X4 X5 X6 X7
Львів 12 32 1 22 10 2 66
Луцьк 21 11 32 66 4 45 39
Донецьк 1 10 24 56 5 56 56
Київ 51 25 33 56 11 5 56
Житомир 1 280 22 54 24 22 25
Сімферополь 22 12 32 39 4 10 36
Кривий Ріг 1 12 11 19 9 20 30
Завдання 20
У таблиці містяться дані про міста Франції.
Міста: X1 X2 X3 X4 X5 X6 X7
Париж 9,5 15,6 123,1 11,2 32,9 565,4 7,4
Марсель 8,9 9,5 122,1 25,5 23,2 456,6 6,9
Ліон 7,1 9,9 112,6 14,9 11,6 543,2 6,4
Лілль 6,6 9,1 100,9 12,5 22,1 445,5 5,9
Ніцца 7,6 8,6 109,1 14,5 25,2 347,9 6,9
Тулуза 6,9 10,5 121,6 21,5 18,9 483,6 5,4
Бордо 5,1 11,9 119,1 17,1 25,5 451,2 5,9
Нант 4,5 5,6 100,6 15,9 16,2 489,5 1,4
Тулон 2,5 7,5 99,1 18,5 15,5 410,9 2,9
Завдання 21
У таблиці містяться дані про університети Європи.
Університет Х-ка X1 X2 X3 X4 X5 X6
Гарвардський університет 27000 1636 27500 1 22 567
Кембриджський університет 21500 1209 18500 1 12 767
Оксфордський університет 22500 1117 15400 1 2 654
Массачусетський 11500 1861 30400 0 23 999
технологічний інститут
Йельський університет 19000 1701 29500 0 1 53
Стенфордський університет 2000 1891 25602 0 1 31
Каліфорнійський 31000 1891 16200 0 12 12
технологічний інститут
Каліфорнійський 31500 1868 20700 1 2 32
університет
Імперський коледж Лондона 12000 1868 21000 1 2 12
Принстонський університет 7000 1746 29910 1 3 21
Завдання 22
У таблиці містяться дані про студентів.
Студент: X1 X2 X3 X4 X5 X6 X7 X8
Іванов 5 5 5 5 5 5 5 5
Петров 4 5 4 3 4 5 5 5
Штельмах 4 5 4 3 4 5 4 4
Сидоров 4 4 4 4 3 4 4 4
Федоров 3 3 3 3 4 3 3 3
Максимов 3 4 4 3 4 4 4 2
Вовков 5 5 5 5 4 3 3 4
Завдання 23
У таблиці містяться дані про футбольні клуби.
Клуб: X1 X2 X3 X4 X5 X6 X7 X8 X9
Челсі 11,3 12,8 22,6 22,4 56,2 56,1 55,1 147,3 444,2
Реал 12,8 14,2 25,32 22,3 25,21 25,31 54,11 454,2 541,2
Барселона 11,4 10,3 22,21 22,6 11,2 63,2 25,2 555,2 200,3
Манчестер Сіті 0,3 11,8 23,1 12,8 23 52 32,2 420,3 302
Манчестер 2,8 13,8 52 23,2 25,3 12,9 51 320,2 120,2
Юнайтед
ПСЖ 11,5 11,1 41,2 22,5 62,6 42,6 41,2 329,2 256,2
Мілан 9,7 14,3 11,8 12,2 55,6 56,3 52 245,2 230
Інтер 2,8 13,7 23,1 22,2 22,6 23 68,82 200,5 145,4
Завдання 24
У таблиці містяться дані про ґрунти.
Х-ка
Проба ґрунту X1 X2 X3 X4 X5 X5 X6
1 15.21 70.6 467.1 1400 0.12 0.63 4.53
2 33.27 67.5 1059.8 460 0.15 1.19 4.9
3 68.09 1700.3 3309.7 1200 0.36 2.3 4.82
4 32.89 168.1 1392.9 2100 0.17 1.29 4.84
5 19.87 102.7 71.3 920 0.14 0.73 7.93
6 16.46 32.5 367 1100 0.06 0.52 3.78
7 10.56 192.9 352.4 1000 0.1 0.33 4.59
8 15.63 118.4 300.2 1900 0.11 0.61 4.16
9 11.15 101.4 308.4 1300 0.11 0.47 5.13
10 16.25 232.5 306.2 1600 0.12 0.66 4.43
11 9.94 51.4 212.3 1800 0.1 0.37 4.7
12 70.63 150.3 627.7 590 0.15 1.81 3.65
13 9 9.8 129.7 95 0.01 0.21 3.63
14 19.71 297.7 467.9 2200 0.08 0.63 4.04
15 26.02 83.9 618.5 2800 0.08 0.88 3.93
16 11.84 168.9 375.8 750 0.07 0.45 5.89
17 10.71 127.3 330.3 910 0.13 0.43 4.56
18 8.3 107.4 241.4 880 0.08 0.31 4.74
19 12.67 188.7 516.4 1300 0.05 0.33 4.4
20 15.92 203.6 336.9 1500 0.08 0.52 4.13
21 12.92 170.6 319.6 1600 0.06 0.44 4.05
22 7.54 53.8 315.7 890 0.05 0.28 4.7
23 21.96 104.3 578.8 1900 0.12 0.81 4.11
24 88.78 107.6 1156.8 290 0.06 0.99 3.19
25 72.19 174.7 1061.3 690 0.14 2.32 3.93
Завдання 25
У таблиці містяться дані про річки світу.
Річка: X1 X2 X3 X3 X4 X5 X6
Амазонка 5421,3 22,43 65,32 21,4 123,32 32,42 123,4
Волга 1233l,2 32,54 32,34 32,34 845,98 61,24 343,6
Урал 5343,21 12,76 12,63 34,4 456,96 29,63 341,8
Дон 2134,1 65,62 34,74 54,4 345,56 54,75 132,7
Хуанхе 6542,2 43,43 54,85 76,3 356,73 37,45 143,9
Об 2434,6 32,34 76,54 43,3 357,74 36,52 162,05
Конго 2342,5 12,23 23,63 65,23 343,52 47,22 179,66
Міссісіпі 4123,8 54,21 45,34 76,3 324,57 32,34 146,54
Одер 2342,43 32,76 45,44 43,3 111,74 35,55 137,44
Завдання 26
У таблиці містяться дані про економічні центри Італії.
Місто: X1 X2 X3 X4 X5 X6 X7 X8
Рим 12,43 32,76 45,43 76,34 98,55 34,44 48,4 33,44
Турин 34,41 41,65 31,33 43,4 84,45 34,23 22,5 34,54
Мілан 41,22 32,54 83,5 23,5 56,34 45,23 84,76 43,54
Палермо 21,12 21,23 24,8 12,4 55,78 11,12 33,76 22,75
Болонья 31,32 11,33 26,32 38,77 43,43 21,65 45,882 11,98
Неаполь 12,45 12,44 29,56 73,54 82,23 12,4 66,33 23,90
Завдання 27
У таблиці містяться дані про міста Іспанії.
Місто: X1 X2 X3 X4 X5 X6 X7 X8
Мадрид 234,44 654,6 888,44 455,98 455,1 452,4 121,6 3,88
Барселона 235,34 236,21 568,32 632,76 256,2 254,33 635,55 5,44
Більбао 236,23 256,32 756,54 256,67 356,5 563,11 256,5 8,3
Севілья 123,55 456,31 745,12 241,56 245,4 258,87 254,8 7,4
Валенсія 412,33 356,33 762,81 256,45 569,6 255,44 215,4 4,6
Сарагоса 125,12 359,44 741,5 256,54 589,8 452,43 248,3 7,7
Малага 149,45 354,44 621,65 254,44 514,9 145,5 524,30 7,3
Завдання 28
У таблиці містяться дані міста Англії.
Місто: X1 X2 X3 X4 X5 X6 X7 X8
Лондон 21,2 231,55 12,33 23,5 34,55 12,4 3,6 431,54
Манчестер 43,34 432,4 12,23 12,3 14,45 23,6 4,5 129,34
Портсмут 81,3 324,2 32,12 23,2 32,43 21,6 5,3 234,23
Ньюкасл 75,21 546,5 45,11 32,45 23,33 32,4 3,5 453,56
Ліверпуль 62,3 453,3 34,23 76,7 12,87 23,6 2,54 324,87
Бірмінгем 53,5 323,4 65,6 45,5 12,44 12,4 5,22 233,54
Бристоль 23,4 324,22 78,87 23,77 3,32 33,2 8,34 435,45
Завдання 29
У таблиці містяться дані про текстові документи.
Документ: X1 X2 X3 X4 X5 X6 X7 X8
Соціологія 2 3 2 2 1 2 2 1
Філософія 3 2 3 2 1 2 3 2
Макроекономіка 5 5 4 5 4 4 4 4
Історія 5 4 5 6 6 6 6 5
економічних
вчень
Етика 0 1 0 0 0 1 1 1
Мікроекономіка 4 4 4 3 4 3 3 5
Завдання 30
У таблиці містяться дані про інтернет ресурси.
Інтернет ресурс: X1 X2 X3 X4 X5 X6 X7 X8
http://www.champion.com.ua 2,3 2,2 3,5 2,5 3,3 2,6 4,8 4,4
/
http://24tv.ua/ 6,4 5,3 6,4 5,4 5,4 5,5 6,7 5,2
http://www.pravda.com.ua/ 6,5 6,6 5,4 7,7 7,7 6,4 5,6 7,3
http://zik.ua/ 6,5 5,5 7,3 6,5 5,6 7,4 7,5 7,2
http://techno.bigmir.net/ 1,8 2,4 1,6 1,4 2,5 2,3 2,4 3,8
http://www.pslan.com/ 5,4 8,8 6,8 6,4 7,8 7,2 8,3 6,1
http://www.lostfilm.tv/ 5,8 8,6 7,3 6,9 6,3 8,2 8,9 6,07
Вимоги до звіту
Оформити звіт для захисту лабораторної роботи за зразком:
назва роботи;
мета роботи;
порядок роботи;
короткі теоретичні відомості;
аналіз отриманих результатів та висновок.
Оформлення звіту
Звіт повинен відповідати вимогам, перерахованим в розділі 3 – Вимоги до
звіту. Звіт оформляється на листах формату А4 (також додається електронний
варіант). Титульна сторінка повинна містити: назву предмету, такий заголовок:
Звіт
до лабораторної роботи № 4
“Кластеризація в Data Mining. Базові алгоритми кластеризації.
Ієрархічний алгоритм кластеризації”
Контрольні питання:
1. Що таке кластеризація?
2. Що таке характеристична функція?
3. Опишіть формальне завдання кластеризації.
4. Що таке міра близькості? Як вона обчислюється?
5. Класифікація алгоритмів кластеризації.
6. У чому полягає різниця між агломеративними та подільними
алгоритмами?
7. Часова складність алгоритмів кластеризації.
8. Де застосовується кластеризація?
Укладач:
доц. Ковівчак Ярослав Васильович