Professional Documents
Culture Documents
2.1 Статистичний аналіз даних з пропусками - копия (Автосохраненный)
2.1 Статистичний аналіз даних з пропусками - копия (Автосохраненный)
1
ПОСТАНОВКА ЗАДАЧІ
Слайд 2
У роботі ставиться задача вивчення методів обробки багатовимірних даних з
пропусками та порівняння цих методів за допомогою застосування алгоритмів
машинного навчання для розв’язування задачі класифікації для даних зі
штучними та з природними пропусками.
3 4
ЗАМІНА МОДОЮ ЗАМІНА ПРОПУСКІВ ВИБІРКОВИМ
СЕРЕДНІМ ЗНАЧЕННЯМ
3
ВИДАЛЕННЯ
ОБ’ЄКТІВ (ОЗНАК) Якщо мала частина
З ПРОПУСКАМИ спостережень вибірки має
пропуски
Перевага в тому, що ми не
псуємо дані шляхом
заміни
Альтернатива у випадку
пропусків в невеликій
кількості ознак - є
видалення цих ознак
4
4
ЗАМІНА
для методів, основаних на СПЕЦІАЛЬНИМИ
деревах, розумно ЗНАЧЕННЯМИ
заповнити пропуск
значеннями, що не
зустрічаються у виборці,
наприклад -1 (для
невід’ємних значеня ознак)
5
ЗАПОВНЕННЯ МОДОЮ ЗАПОВНЕННЯ
СЕРЕ ДНІМ
6
МЕТОДИ ВІДНОВЛЕННЯ ПРОПУСКІВ
Слайд 6
заміна заміна за допомогою заміна
МЕТОДОМ KNN RANDOM FOREST ЛІНІЙНОЮ
РЕГРЕСІЄЮ
7
Заміна за допомогою методу найближчих сусідів(KNN)
Прогноз в листі
- об’єкти підвибірки
– критерій Джинні
– частка об'єктів -го класу в вершині .
ще один критерій інформативності –
ентропія
10
Заміна за допомогою випадкового лісу - Random Forest
• Композиція дерев
Композиція дерев - побудова одного неперенавченного алгоритму, для цього потрібно навчити
базових алгоритмів. Необхідно зробити їх різними за допомогою рандомізації
ВИПАДКОВИЙ
- прогнози
базових
БУТСТРАП БЕГГІНГ ПІДПРОСТІР
алгоритмів
Параметри невідомі, і їх
необхідно оцінити за
вибіркою . Для оцінювання
, невідомих параметрів
використаємо метод
,
стохастичного спуску
13
Метод стохастичного спуску
2. У методі стохастичного градієнтного спуску
оцінки параметрів обчислюються тільки з
1. Аналітично невідомі параметри знаходять за урахуванням одного навмання взятого об’єкта
допомогою нормальних рівнянь. Для цього навчальної вибірки:
розв’язують матричне рівняння:
,
точний розв’язок якого:
…
.
де випадковий індекс, .
Слайд
Спочатку 9
відбувається
Для кожної ознаки з пропусками
Наприкінці для збереження
природності даних значення в
заміна пропусків заповнених пропусках
розв’язується задача прогнозування
вибірковим середнім замінюються на найближчі
за допомогою лінійної регресії та
значенням за кожною унікальні значення за кожною
випадковим лісом
ознакою матриці ознак ознакою матриці ознак.
2 4
1 3 5
Далі для збереження Заміна пропущених значень в
природності даних значення в кожній ознаці проводиться за
заповнених пропусках допомогою прогнозу,
замінюються на найближчі здобутому при розв’язанні
унікальні значення за кожною задачі лінійної регресії або
ознакою. випадковим лісом
15
9
Задача кластеризації об’єктів
Цільова функція
Для знаходження невідомих параметрів та параметрів необхідно мінімізувати цільову
функцію за цими параметрами.
16
Алгоритм методу k середніх
1. Навмання обирається центрів кластерів , де .
2. Запускаємо метод середніх і здобуваємо оцінки параметрів
та , а саме:
2.1 Мінімізуємо цільову функцію при заданих і знаходимо
номери кластерів, до центру яких найближче
розташовані об’єкти ).
2.2 Мінімізуємо цільову функцію при заданих і знаходимо
(координати центрів кластерів як середні значення
координат об’єктів, які належать кластерам 1, …, ).
Кроки 2.1, 2.2 повторюємо до тих пір, поки об’єкти
між кластерами не припинять переміщуватися.
3. Обчислюємо цільову функцію .
4. Повторюємо пункти 1, 2, 3 від 100 до 1000 разів (кількість
ітерацій задаємо самі) і обираємо кластеризацію, яка надає
найменше значення цільової функції .
17
Заповнення пропусків за допомогою методу k
середніх.
Висувається гіпотеза про те, що близькі об’єкти мають близькі значення ознак. Тому
пропущені значення ознак певного об’єкту можна відновити за відомими значеннями ознак
18
Вихідні дані та особливості реалізації методів
•
Слайд 6
6 наборів даних з UCI
Machine Learning с т в о р е н н я п р о п у с к і в
Repository
• три з яких мали
природні пропуски
19
6
НАБОРИ ДАНИХ
Слайд 4 без пропусків
22
Заповнення штучних пропусків
. 23
9
Заповнення штучних пропусків
24
10
Заповнення штучних пропусків
де – функція втрат,
– значення, знайдені тим або іншим методом відновлювання пропусків
Середнє значення помилки на кросс-валідаційній вибірці дорівнює:
26
11
Заповнення природних пропусків
Таблиця 1: Точність класифікації відновлених даних з природними пропусками
27
12
Висновки
Вибір методу заповнення пропусків може залежати від типів ознак, у яких існують
пропуски, від кількості об'єктів, що мають пропущені значення, та від причини їх
виникнення. У кожній задачі необхідний індивідуальний підбір методу обробки
пропущених значень.
28
Слайд 11
ДЯКУЮ ЗА УВАГУ
29