Download as pdf or txt
Download as pdf or txt
You are on page 1of 12

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

ХАРКІВСЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ РАДІОЕЛЕКТРОНІКИ

Кафедра інформаційних управляючих систем

Звіт
з практичного заняття № 1
з дисципліни «Інтелектуальний аналіз даних»
на тему: «ПОРІВНЯЛЬНЕ РОЗВ’ЯЗАННЯ ЗАДАЧІ КЛАСИФІКАЦІЇ
МЕТОДАМИ NAIVE BAYES ТА DECISION TREE»

Виконали: Перевірив:
ст. гр. ІТУ-20-2 Кожанов А.Є.
Агарков Д.С.

Омельченко М.Д.

Кушнаренко Є.О.

Харків 2022
1.1 Мета роботи
Набуття практичних навичок класифікації методами Naive Bayes та
Decision Tree з використанням засобів Oracle Data Miner.

1.2 Хід виконання роботи


Частина 1.
Завдання класифікації - завдання, в якій є безліч об'єктів (ситуацій),
розділених деяким чином на класи. Задано кінцеве безліч об'єктів, для яких
відомо, до яких класів вони належать. Ця множина називається вибіркою.
У ході виконання практичного завдання було визначено за мету визначити
статус студента. Для виконання даної задачі використовується Oracle Data
Miner – програмний продукт, призначений для аналізу даних та інтерпретації
отриманих результатів. Відповідно до варіанту було обрано таблицю data в br2
в якості джерела даних.
Побудуємо моделі двома методами – метод «Naive Bayes» та «Decision
Tree»,. Для цього оберемо опцію Activity -> Build.

При побудові моделі обираємо алгоритм.


Оберемо джерело даних, які необхідно проаналізувати, а також провести
налаштування параметрів вибірки. У полі "Schema" вкажемо таблицю, яка
містить дані, що підлягають аналізу. Дата народження не є важливим
атрибутом при прогнозуванні статуса студента, тому його не включаємо до
списку.
У наступньому кроці обираємо «статус студента», який прогнозуємо.

Виконаємо попередній перегляд даних, що аналізуються. Це можна


зробити, використовуючи вкладку «Data Summary».
Після запуску розрахунку отримаємо наступні дані за методом Decision
Tree:

За допомогою опції Accuracy можемо отримати інформацію про


проведений аналіз:

Виконаємо аналіз даних методом «Naive Bayes». Оберемо ті ж самі


налаштування.
У результаті отримаємо наступну адекватність моделі:
Задля покращення адекватності моделі було проведено ряд заходів, такі як
зміна розміру вибірки, зміна налаштувань і параметрів, але покращень не
відбулось.
Частина 2.
На підставі початкових даних у ході виконання практичного завдання
розв’яжемо завдання двокласової класифікації. Задача полягає у визначенні
приналежніості об’єкта до 1-го чи 2-го класу. Таку класифікацію дозволяє
виконати метод Naive Bayes, що використовує формулу Байеса для розрахунку
умовної вірогідності.
Етап 1.Сформуємо навчальну вибірку об'єктів відповідно до варіанту.
Відповідно до цього варіанту: таблиця даних відповідає гілці Х7 =1. Відсутній
об'єкт 8.
Сформуємо навчальну вибірку – об’єкти №2, №4, №6 із 1 класу та
об’єкти №10, №12, №13, №14, №15, №16 із 2 класу.
Етап 2. За умовою задачі ознаки об’єктів є незалежними одна від одної.
Етап 3. Розрахуємо вірогідності для кожного з визначених класів на
основі навчальної вибірки.
P (C = y1) = 3/9=1/3.
P (C = y2) = 6/9=2/3.
Етап 4. Розрахуємо вірогідності для кожного зі значень кожного з ознак
об'єкту і кожного з класів на основі навчальної вибірки.
Для першого класу вірогідності для кожного зі значень кожного з ознак
об’єкту буде виглядати наступним чином:
Ознаки P (X=0) P ( X=1)
об’єктів
X1 2/3 1/3
X2 2/3 1/3
X3 0 1
X4 2/3 1/3
X5 2/3 1/3
X6 1/3 2/3
X7 0 1
X8 2/3 1/3
X9 2/3 1/3
X10 1/3 2/3
X11 0 1
X12 2/3 1/3
X13 2/3 1/3
X14 2/3 1/3
X15 0 1
X16 1/3 2/3
Для другого класу вірогідності для кожного зі значень кожного з ознак
об’єкту буде виглядати наступним чином:
Ознаки P (X=0) P ( X=1)
об’єктів
X1 2/3 1/3
X2 1/6 5/6
X3 1/3 2/3
X4 1/3 2/3
X5 2/3 1/3
X6 2/3 1/3
X7 0 1
X8 1/2 1/2
X9 1/2 1/2
X10 2/3 1/3
X11 1/3 2/3
X12 5/6 1/6
X13 1/3 2/3
X14 1/3 2/3
X15 1/3 2/3
X16 1/3 2/3

Для розрахунку вірогідності приналежності об’єкта до певного класу


використаємо наступну формулу:
P(C = y j | {at 1 ,...,at h ,...,at n })
P(C = y j | {at 1 ,...,at h ,...,at n }) = K
=
 P (C = y
k =1
k | {at 1 ,...,at h ,...,at n })

P(at 1 = d k | C = y j )  ... P(at h = d p | C = y j )  ... P(at n = d z | C = y j )  P(C = y j )


= K

 P(at
k =1
1 = d k | C = y k )  ... P(at h = d p | C = y k )  ... P(at n = d z | C = y k )  P(C = y k )

Для зручності розрахунку розрахуємо окремо чисельник для першого та


другого класу відповідно.
Розрахуємо ймовірності приналежності об’єкта до першого та другого
класу відповідно.
Отже, отримані результати можемо інтерпретувати наступним
чином: за формулою Байеса було визначено, що об’єкт із ймовірністю 0,94
належить до 1 класу, що відповідає дійсності, отже, модель адекватна.
Висновки. У ході виконання практичного завдання було вивчено два
методи розв’язання класифікаційних задач – Naive Bayes та Decision Tree та
використано засоби Oracle Data Miner.
Метод Naive Bayes використовується при розв’язанні задач класифікації
де необхідно приймати рішення про приналежність об'єкту до одного з
виділених класів, аналізуючи одночасно значення декількох окремих ознак
цього об'єкту за допомогою використання формули Байеса.
Метод Decision Tree дозволяє подати класифікаційні правила у вигляді
ієрархічної структури. Такий спосіб подання результатів розв’язання задачі
класифікації використовують, коли кожне наступне рішення залежить або від
результатів попереднього рішення, або від результатів проведених
випробувань.
При аналізі моделей за допомогою програмного продукту Oracle Data
Miner було визначно, що метод Naive Bayes є більш точним, ніж Decision Tree.

You might also like