Professional Documents
Culture Documents
8 Data Mining Clustering
8 Data Mining Clustering
8 Data Mining Clustering
Клъстеризация
Съдържание
Клъстери
Сравнение на задачите за класификация
и клъстеризация
Критерии за сходство
Математически характеристики на
клъстера
Подходи към задачата за клъстеризация
Методи на клъстерния анализ
Йерархични методи на клъстерния анализ
Нейерархични (итеративни) методи на
клъстерния анализ
(.wav)
Clustering
Въведение
Задачата за клъстеризация е подобна на задачата за
класификация, на която е логично продължение.
Разликата между двете задачи е, че класовете на
изучаваната съвкупност от данни в задачата за
клъстеризация не са предварително известни. Синоними
на задачата за клъстеризция са “автоматична
класификация”, “обучение без учител”, и “таксономия”.
Клъстеризацията е предназначена за разбиване на
съвкупността от обекти на еднородни групи (клъстери
или класове). Ако данните от клъстеризацията бъдат
представени като точки в пространството на признаците,
то клъстеризацията може да се представи чрез
определянето на концентрация на точки.
Целта на клъстеризацията е търсене на съществуващи
структури.
Често клъстеризацията се прилага като предварителна
стъпка в Data Mining-процеса.
Клъстери
Клъстерът може да се характеризира като група
обекти, имащи общи свойства. Два основни
признака характеризират клъстерите:
Вътрешна еднородност;
Външна изолираност.
Клъстеризацията първоначално е прилагана в
биологичните науки, антропология и
психология, я в последствие и в решаването
на различни икономически задачи с оглед
организирането и представянето на данните
в нагледни структури и подпомагането на
задачите за вземане на решение.
Сравнение на задачите за
класификация и клъстеризация
Характеристика Класификация Клъстеризация
Класификация: класовете са
определени първоначално.
Клъстеризация: класовете не
са известни предварително.
Извършва се търсене на
групи от еднородни обекти.
Непресекаеми и пресекаеми
клъстери
Клъстерите могат да бъдат непресекаеми (non-
overlapping, exclusive) или пресекаеми (overlapping).
m
d Eucl (x, y ) (x y )
i 1
i i
2
m
d Manh (x, y ) | xi yi |
i 1
Разстояние по Чебишев и др;
Процент на несъгласие – за категорийни данни.
Подготовка на данните за
клъстеризация
За да бъдат приложени критериите за сходство и ефективно да се
реализират алгоритмите за клъстеризация, стойностите на
атрибутите трябва дабъдат приведени в съпоставими скали и
сравними дименсии. За целта даните трябва да бъдат
нормализирани или стандартизирани.
Стандартизация от вида:
X X min
X*
X max X min
Нормализация от вида:
X X
X*
(X )
където X* е трансформираната величина, Xmin, Xmax и са нейните
X
минимална, максимална и средна стойности, а σ(X) е
средноквадратичното и отклонение.
Математически характеристики на
клъстера
Клъстерът има следните математически
характеристики:
Център – обикновено това е
средногеометричното място на точките в
пространството на променливите.
Радиус –максималното разстояние на
точките от центъра на клъстера
Средно квадратично отклонение – мярка
за разсейване около центъра
Размер – брой на обектите в клъстера.
Характеристики на клъстерите
Радиус
Център
Вариация между
клъстерите
Вариация в
клъстерите
Подходи към задачата за
клъстеризация
Алгоритми, основаващи се на разделянето на данните
(Partitioning algorithms), в т.ч.итеративни:
Разделяне на обектите на k клъстери;
Итеративно преразпределение на обектите за подобряване на
клъстеризацията.
Йерархични алгоритми (Hierarchy algorithms):
Агломерация: всеки обект първоначално е клъстер, клъстерите се
съединяват един с друг като формират голям клъстер и т.н.
Методи, основаващи се на концентрация на обекти (Density-
based methods):
Основаващи се на възможноста за съединяване на обектите;
Игнориращи шума, намиращи клъстери с произволна форма.
Грид-методи (Grid-based methods):
Квантоване на обектите в грид-структури.
Моделни методи (Model-based):
Използване на модели за намиране на клъстери, които най-добре
съответстват на данните.
Методи на клъстерния анализ
Терминът “клъстерен анализ” е въведен от Трион
(Tryon) през 1939 г. и включва следните групи
задачи:
Разработване на топологии и класификации.
Изследване на полезни концептуални схеми за
групиране на обекти.
Представяне на хипотези въз основа на изследване
на данните.
Проверка на хипотези или резултати от
изследване, за да се определи действително ли
типовете (групите), отделени по един или друг
начин присъстват в наличните данни.
На практика при използването на клъстерния анализ
се едновременно се решават няколко задачи.
Особености на клъстерния анализ
За разлика от задачата за класификация, клъстерния
анализ не изисква априорни предположения за
съвкупността от данните, не налага ограничения върху
представянето на изследваните обекти, позволява да се
анализират показатели от различни типове от данни
(интервални данни, честоти, двоични данни и т.н.).
Важно е да се вземе под внимание, че променливите
трябва да се представят в сравними скали.
Клъстерният анализ позволява да се съкрати
размерността на данните и те да се представят в по-
нагледен вид.
Клъстерният анализ може да се прилага към съвкупности
от динамични редове (time series). Могат да бъдат
определени периоди на сходство на някои от
показателите и да се определят групи от динамични
редове със сходна динамика.
Методи на клъстерния анализ
Две основни групи методи:
Йерархични – чрез рекурсивно
обединяване или разделяне на
клъстерите се създава дървовидна
структура (изобразена като дендограма)
Нейерархични
Всяка от групите включва множество
подходи и алгоритми.
Различните методи на клъстерния анализ
могат да дадат различни решения за едни
и същи данни, което се приема за
нормално
Йерархични методи на
клъстерния анализ
Същността на йерархичните методи на клъстерния
анализ е в последователно обединяване на по-
малките клъстери в по-големи или обратно –
разделяне на по-големите клъстери на по-малки:
Йерархични агломеративни методи
(Agglomerative Nesting, AGNES) – състоят се в
последователно обединение на изходните обекти и
намаляване на броя на клъстерите.
Йерархични делящи методи (DIvisive ANAlysis,
DIANA) – противоположен подход на
аглмеративния. Първоначално всички обекти
принадлежат на един клъстер, който в
последователни стъпки се разделя на по-малки
клъстери.
Дендограма на йерархичните
методи
Ст.0 Ст.1 Ст.2 Ст.3 Ст.4
а Агломеративни методи
ab
b
abcde
c
cde
d
de
e
Делящи методи
2 3
1
Алгоритъм на k-средните -
пример
Стъпки на алгоритъма, показани на
схемата:
1. Назначение на най-подходящ
(сходен) клъстер за всеки обект.
2. Преизчисляване на клъстерните
центрове (покоординатни средни).
3. Преразпределяне на обектите.
Предимства и недостатъци
Предимства на алгоритъма:
Простота в използването;
Бързодействие;
Разбираемост и прозрачност.
Недостатъци:
Алгоритмът е твърде чувствителен към
значителните отклонения, които могат да
изкривят покоординатните средни;
Възможно е алгоритъмът да работи бавно за
големи съвкупности от данни (проблемът се
решава с ограничена извадка).