Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 29

Слайд 1

«Статистичний аналіз даних з пропусками»


МС – 20м – 1
Велієва Наіля

1
ПОСТАНОВКА ЗАДАЧІ
Слайд 2
У роботі ставиться задача вивчення методів обробки багатовимірних даних з
пропусками та порівняння цих методів за допомогою застосування алгоритмів
машинного навчання для розв’язування задачі класифікації для даних зі
штучними та з природними пропусками.

• Нехай маємо матрицю об’єктів-ознак , де – кількість об’єктів, –


кількість ознак.

• Частина значень матриці – відсутні

• Необхідно отримати матрицю об’єктів-ознак без пропусків з метою


подальшого застосування алгоритмів машинного навчання
2
МЕТОДИ ВІДНОВЛЕННЯ ПРОПУСКІВ
Слайд 3
1 2
ВИДАЛЕННЯ ОБ’ЄКТІВ (ОЗНАК) З ЗАМІНА СПЕЦІАЛЬНИМИ
ПРОПУСКАМИ ЗНАЧЕННЯМИ

3 4
ЗАМІНА МОДОЮ ЗАМІНА ПРОПУСКІВ ВИБІРКОВИМ
СЕРЕДНІМ ЗНАЧЕННЯМ

3
ВИДАЛЕННЯ
ОБ’ЄКТІВ (ОЗНАК) Якщо мала частина
З ПРОПУСКАМИ спостережень вибірки має
пропуски

Перевага в тому, що ми не
псуємо дані шляхом
заміни

Альтернатива у випадку
пропусків в невеликій
кількості ознак - є
видалення цих ознак

4
4
ЗАМІНА
для методів, основаних на СПЕЦІАЛЬНИМИ
деревах, розумно ЗНАЧЕННЯМИ
заповнити пропуск
значеннями, що не
зустрічаються у виборці,
наприклад -1 (для
невід’ємних значеня ознак)

для методів, що чутливі до


масштабу ознак, пропуск
замінюємо 0

5
ЗАПОВНЕННЯ МОДОЮ ЗАПОВНЕННЯ
СЕРЕ ДНІМ

6
МЕТОДИ ВІДНОВЛЕННЯ ПРОПУСКІВ
Слайд 6
заміна заміна за допомогою заміна
МЕТОДОМ KNN RANDOM FOREST ЛІНІЙНОЮ
РЕГРЕСІЄЮ

заміна за допомогою заміна за допомогою


метода K - MEANS SVD

7
Заміна за допомогою методу найближчих сусідів(KNN)

• Этапи 1 - 3 • Этапи 4-6 • Этапи 7-10


7. Сортування відстаней за
1. Вхідні дані: матриця ознак 4. Знаходження X_full об’єктів без зростанням і вибір найменших
з пропусками, кількість пропусків.
найближчих сусідів , 8. Заповнення пропусків
відстань між об’єктами – 5. X[i, mask_obj] – рядок с среднім значенням по кожній
евклідова відстань. пропуском, в кому видалені ознаці «найближчих сусідів»
пропуски
2. Створення маски 9. для збереження природності
mask(матриця) матриці X_full[:, mask_obj] – матриця без даних значення в заповнених
ознак: True (пропуск) та пропусків, але її розмірність по пропусках замінюються на
False (не пропуск). стовпцям та, що і у X[i, mask_obj] найближчі унікальні значення
3. Створення маски 6. Обчислення квадратів відстаней за кожною ознакою матриці
ознак
objects(вектор): True(в
рядку є пропуск) та False X_full[:, mask_obj] - X[i, mask_obj]
10. Вихідні дані: матриця ознак
(в рядку пропуску немає). X без пропусків.
8
Заміна за допомогою випадкового лісу – Random Forest
• Дерева рішень

Умова у внутрішніх вершинах:


.
де - значення j – ої ознаки

Прогноз в листі

задача регресії задача класифікація


дійсне число клас, якому належить об’єкт

- об’єкти підвибірки

Дерево рішень може легко перенавчитися


9
Заміна за допомогою випадкового лісу - Random Forest
• Навчання для дійсних та бінарних ознак
Критерій помилки у вершині m:

- критерієм інформативності, характеризує розсіювання цільової ознаки в підмножині


об’єктів

задача регресії задача к ласифікації

– критерій Джинні
– частка об'єктів -го класу в вершині .
ще один критерій інформативності –
ентропія

10
Заміна за допомогою випадкового лісу - Random Forest
• Композиція дерев
Композиція дерев - побудова одного неперенавченного алгоритму, для цього потрібно навчити
базових алгоритмів. Необхідно зробити їх різними за допомогою рандомізації

Прогноз задачі прогноз задачі


регресії класифікації

ВИПАДКОВИЙ
- прогнози
базових
БУТСТРАП БЕГГІНГ ПІДПРОСТІР
алгоритмів

l – навчальна вибірка. Генеруємо навчає на кожній підмножині


з неї об'єктів з поверненням. рядків бутстрап вибірки один обирає різні випадкові
Кількість різних об'єктів буде 63%. базовий алгоритм підмножини стовбців і навчає
Алгоритм буде навчатися на на цій підмножині один
підвибірках однієї і тієї ж базовий алгоритм
навчальної вибірки, тому
прогнози будуть
корельовані 11
Заміна за допомогою випадкового лісу - Random Forest
• Випадковий ліс
Будемо шукати найкращу ознаку для розбиття вершини з деякої випадкової підмножини
ознак, іі розмір - . При розв’язанні задачі регресії обирають як 1/3 ознак, а при розв’язанні задачі
класифікації .
Пункти 1, 2
повторюються разів для
1. Бутстрап побудови дерев рішень.

2. Дерево рішень навчається на цій підвибірці.


3. Об'єднуємо
1. Дерево будується, доки в кожному листі не залишиться об’єктів побудовані дерева
(часто вибирають , отримаємо перенавчене дерево рішень , але в композицію.
це нам і потрібно при побудові композиції.
2. Для вибору оптимального розбиття вершини ми шукаємо
найкращу ознаку з . Ця підмножина ознак вибирається заново
12
кожен раз при розбитті кожної нової вершини.
Заповнення пропусків за допомогою лінійної регресії
• Лінійна модель

– результати спостережень, які описуються


лінійною моделлю:

Параметри невідомі, і їх
необхідно оцінити за
вибіркою . Для оцінювання
, невідомих параметрів
використаємо метод
,
стохастичного спуску

13
Метод стохастичного спуску
2. У методі стохастичного градієнтного спуску
оцінки параметрів обчислюються тільки з
1. Аналітично невідомі параметри знаходять за урахуванням одного навмання взятого об’єкта
допомогою нормальних рівнянь. Для цього навчальної вибірки:
розв’язують матричне рівняння:
,
точний розв’язок якого:

.

де випадковий індекс, .

Використовуючи цей метод ми не обов’язково дійдемо до глобального мінімуму і


залишимося у ньому, але завжди будемо в його околі, а цього достатньо для
здобуття оцінок параметрів .
Переваги методу стохастичного градієнтного спуску такі:
1) швидше виконує один крок градієнтного спуску;
2) не потребує зберігання навчальної вибірки в пам’яті;
3) підходить для онлайн-навчання. 14
Заповнення пропусків за допомогою випадкового лісу та лінійної регресії

Слайд
Спочатку 9
відбувається
Для кожної ознаки з пропусками
Наприкінці для збереження
природності даних значення в
заміна пропусків заповнених пропусках
розв’язується задача прогнозування
вибірковим середнім замінюються на найближчі
за допомогою лінійної регресії та
значенням за кожною унікальні значення за кожною
випадковим лісом
ознакою матриці ознак ознакою матриці ознак.

2 4

1 3 5
Далі для збереження Заміна пропущених значень в
природності даних значення в кожній ознаці проводиться за
заповнених пропусках допомогою прогнозу,
замінюються на найближчі здобутому при розв’язанні
унікальні значення за кожною задачі лінійної регресії або
ознакою. випадковим лісом
15
9
Задача кластеризації об’єктів

За навчальною вибіркою об’єктів необхідно знайти структуру в даних, тобто згрупувати


схожі об’єкти в груп (кластерів).

– номери кластерів, яким належать об’єкти ,


– координати центрів кластерів, яким належать об’єкти в поточний момент.

Цільова функція
Для знаходження невідомих параметрів та параметрів необхідно мінімізувати цільову
функцію за цими параметрами.

16
Алгоритм методу k середніх
1. Навмання обирається центрів кластерів , де .
2. Запускаємо метод середніх і здобуваємо оцінки параметрів
та , а саме:
2.1 Мінімізуємо цільову функцію при заданих і знаходимо
номери кластерів, до центру яких найближче
розташовані об’єкти ).
2.2 Мінімізуємо цільову функцію при заданих і знаходимо
(координати центрів кластерів як середні значення
координат об’єктів, які належать кластерам 1, …, ).
Кроки 2.1, 2.2 повторюємо до тих пір, поки об’єкти
між кластерами не припинять переміщуватися.
3. Обчислюємо цільову функцію .
4. Повторюємо пункти 1, 2, 3 від 100 до 1000 разів (кількість
ітерацій задаємо самі) і обираємо кластеризацію, яка надає
найменше значення цільової функції .

17
Заповнення пропусків за допомогою методу k
середніх.

Висувається гіпотеза про те, що близькі об’єкти мають близькі значення ознак. Тому

пропущені значення ознак певного об’єкту можна відновити за відомими значеннями ознак

центру кластеру, якому належить об’єкт з пропусками.

18
Вихідні дані та особливості реалізації методів


Слайд 6
6 наборів даних з UCI
Machine Learning с т в о р е н н я п р о п у с к і в
Repository
• три з яких мали
природні пропуски

відсоток пропусків Створювалися набори з


частками пропусків від 2.5%
обирається до 15% з кроком 2.5% у 25%
підмножина
найважливіших
ознак за
25 % найважливіших ознак,
вибраних за допомогою
випадкового лісу
випадковим лісом

19
6
НАБОРИ ДАНИХ
Слайд 4 без пропусків

• AI4I 2020 Predictive Maintenance Dataset


Data Set – набір даних профілактичного • Сar Evaluation Data Set – набір
технічного обслуговування. Необхідно даних машин, в яких необхідно
спрогнозувати відмовить/не відмовить класифікувати до якого типу
машина, яка надає профілактичне належить машина в залежності від
обслуговування. ціни, технічного обслуговування,
• Banknote Authentication Data Set – набір рівня комфорту та інше. В наборі
даних із зображень, знятих із справжніх 1728 об'єктів та 6 ознак, як
і підроблених екземплярів банкнот. кількісні, так і категорільні.
Необхідно автентифікувати банкноти. В
наборі 1372 об’єктів, 5 ознак – всі
кількісні.
НАБОРИ ДАНИХ
з природними
пропусками
• Cargo 2000 Freight Tracking and Tracing Data Set –
набір даних відстеження вантажу транспортно-
експедиторської компанії, в якому об’єднуються до • HCC Survival Data Set – набір
трьох невеликих вантажів від постачальників, які в даних, який містить кілька
свою чергу разом відправляються клієнтам. Задача демографічних факторів, факторів
полягає в тому, щоб спрогнозувати кількість вхідних ризику, лабораторних та загальних
транспортних ділянок всього процесу. характеристик виживання 165
В наборі 3942 об'єктів та 98 ознаки, лише кількісні, реальних пацієнтів з діагнозом – рак
пропуски становлять 54,4%.
печінки. Необхідно спрогнозувати,
чи виникне рак печінки у людини. В
• Cervical cancer (Risk Factors) Data Set – набір
наборі 165 об'єктів та 49 ознак, усі з
даних, що описує результати деяких аналізів жінок і
параметрів як куріння, кількості вагітностей і та інше. яких кількісні. В даних 10,02%
Задача полягає в тому, щоб спрогнозувати чи буде у пропущених значень.
жінки рак у шийці матки. В наборі 858 об'єктів та 36
ознак, серед яких усі кількісні. 11,73% пропущених
значень. 21
Заповнення штучних пропусків

Рис. 1: Залежність точності класифікації відновлених даних від


частки пропущених значень.

22
Заповнення штучних пропусків

Рис. 1: Залежність точності класифікації відновлених даних від


частки пропущених значень.

. 23
9
Заповнення штучних пропусків

Рис. 1: Залежність точності класифікації відновлених даних від


частки пропущених значень.

24
10
Заповнення штучних пропусків

Заміна спеціальним значенням показала не дуже добрий


результат при застосуванні логістичної регресії та методу k
найближчих сусідів. Заміна за допомогою методу k найближчих
сусідів показала один із найкращих результатів на одному з наборів
даних та один із найгірших на іншому.

Логістична регресія для всіх методів показує або середні, або


низькі значення accuracy.

У середньому найкраще себе показали методи, засновані на


випадковому лісі, KNN і K - means. 25
Рис. 2: Залежність середньоквадратичної помилки між відновленими та
дійсними даними від частки пропущених значень

де – функція втрат,
– значення, знайдені тим або іншим методом відновлювання пропусків
Середнє значення помилки на кросс-валідаційній вибірці дорівнює:

26
11
Заповнення природних пропусків
Таблиця 1: Точність класифікації відновлених даних з природними пропусками

27
12
Висновки

У дипломній роботі було розглянуто найбільш поширені методи відновлення


пропусків у даних, проведено їх порівняння між собою в залежності від наявності
різних часток пропущених значень.

Експерименти показали, що немає універсального методу, який перевершував би за


якістю всі інші.

Прості методи заповнення пропусків (заповнення модою, середнім і спеціальним


значенням) показують якість порівняну з просунутими методами у випадку даних з
природними пропусками.

Вибір методу заповнення пропусків може залежати від типів ознак, у яких існують
пропуски, від кількості об'єктів, що мають пропущені значення, та від причини їх
виникнення. У кожній задачі необхідний індивідуальний підбір методу обробки
пропущених значень.
28
Слайд 11

ДЯКУЮ ЗА УВАГУ

29

You might also like