Download as ppt, pdf, or txt
Download as ppt, pdf, or txt
You are on page 1of 43

Відкритий міжнародний університет розвитку

людини “Україна”

ЛЕКЦІЯ № 14
з навчальної дисципліни
«Системний аналіз та проектування інформаційних систем»

МОДУЛЬ № 2. Проектування інформаційних систем

Заняття № 7. Інтелектуальний аналіз даних. Технології OLAP, Data Mining.

Київ 2020
ВСТУП
ВСТУПНА ЧАСТИНА

ПИТАННЯ ЗАНЯТТЯ:
1. Загальні відомості про інтелектуальний аналіз
даних.
2. Технології OLAP.
3. Технології Data Mining.

НАВЧАЛЬНА ТА ВИХОВНА МЕТА:


1. Надати основні відомості щодо сутності задач
інтелектуального аналізу даних та реалізації технологій
OLAP і Data Mining.
2. Навчити самостійно працювати як з основною
літературою, так з додатковою, виховувати снагу до
навчання, здобуття знань. Формувати дослідницькі
навички нестандартного мислення.
ВСТУПНА ЧАСТИНА

НАВЧАЛЬНА ЛІТЕРАТУРА:
1. Paul Thagard Mind:Introduction to Cognitive Science. –
Cambridge, MA: The MIT Press. – 2005.
2. Yingxu Wang Software engineering foundations: a software
science perspective – NY:Auerbach Publications. – 2008. – 1392 p.
3. Вебер А.В., Данилов А.Д., Шифрин С.И. Knowledge-
технологии в консалтинге и управлении. – СПб: Наука и Техника,
2003. – 176 с.
4. Варенко В.М. Інформаційно-аналітична діяльність: Навч.
посіб. / В. М. Варенко. – К.: Університет «Україна», 2014. – 417 с.
5. Телешун С. О. Інформаційно-аналітична діяльність в
державному управлінні : навч.-метод. матеріали / С. О. Телешун,
І. В. Рейтерович. – К. : НАДУ, 2013. – 36 с
Питання 1.
Загальні відомості про
інтелектуальний аналіз
даних.
Питання 1. Загальні відомості про інтелектуальний
аналіз даних.

Місце інтелектуального аналізу даних

Інформаційно-аналітична діяльність
Передбачає

Інтелектуальний аналіз даних


Може бути реалізований

Автоматизація інформаційно-аналітичної діяльності

Включає

Технології OLAP

Технології Data Mining


Питання 1. Загальні відомості про інтелектуальний
аналіз даних.

Основні положення.

Інформаційно-аналітична діяльність – це сукупність дій на основі


концепцій, методів, засобів, нормативно-методичних матеріалів для
збору, накопичення, обробки та аналізу даних з метою обґрунтування та
прийняття рішень.

Засоби інформаційно-аналітичної діяльності – це сукупність


документальних, програмних, програмно-технічних та інших засобів,
призначених для накопичення, обробки, систематизації, зберігання і
видачі інформації.

Форми інформаційної роботи – особливості документування,


накопичення, зберігання, інтеграції інформаційних даних з метою
раціонального і ефективного прийняття рішень.
Питання 1. Загальні відомості про інтелектуальний
аналіз даних.
ПРИКЛАДИ галузей застосування ІНфАР
Питання 1. Загальні відомості про інтелектуальний
аналіз даних.
Основні положення.
Інтелектуальний аналіз даних (Data Mining), також глибинний
аналіз даних — виявлення прихованих закономірностей або
взаємозв'язків між змінними у великих масивах необроблених даних.
Зазвичай поділяють на задачі класифікації, моделювання та
прогнозування.

Автоматизація інформаційно-аналітичної діяльності – це


реалізація задач інформаційно-аналітичної діяльності прикладними або
спеціалізованими, програмними, програмно-апаратними засобами
накопичення, обробки, систематизації, зберігання і видачі інформації.
Питання 1. Загальні відомості про інтелектуальний
аналіз даних.
Автоматизовані засоби інтелектуального аналізу даних
OLAP (On-Line Analytical Processing) – технологія і засоби оперативної
аналітичної обробки інформації, спрямовані на автоматизацію пошуку закономірностей
взаємодії об’єктів інтелектуального аналізу через інтегроване (сумісне) подання
первинних даних.
DM (Data Minin) – технологія і засоби для виявлення глибинних зв’язків,
відносин та закономірностей між потоками різнорідних даних, що можуть
використовуватись для задач класифікації, моделювання та прогнозування об’єктів
інтелектуального аналізу.
ТМ (Text Mining) – технології і засоби для здобуття закономірностей і відносин
між інформацією в текстових форматах, які дають можливість аналізувати і
класифікувати текстову інформацію.
IM (Image Mining) – технології і засоби для розпізнавання і класифікації різних
візуальних образів.
DS (Decision Support) – засоби для підтримки прийняття рішень, які є оболонками
експертних систем, що надають можливість визначати відносини і взаємозв'язки між
інформаційними структурами в базах структурованої інформації, а також прогнозувати
можливі результати прийняття рішень.
KD (Knowledge discover) – технології неформалізованого пошуку прихованих
закономірностей в даних, які базуються на інтелектуальних технологіях формування і
структуризації інформаційних потоків.
Питання 1. Загальні відомості про інтелектуальний
аналіз даних.

Алгоритм інтелектуального аналізу даних

Технології Text Mining

Технології OLAP

Технології Data Mining

Технології Decision Support


Питання 1. Загальні відомості про інтелектуальний
аналіз даних.
Питання 2.
Технології OLAP.
Питання 2. Технології OLAP.

Необхідність OLAP – для швидкого отримання результатів


аналізу даних, реалізується шляхом оперативної аналітичної обробки
даних (OLAP). У основі концепції OLAP лежить принцип
багатовимірного представлення даних через засоби аналізу, які
доповнюють функції існуючих технологій СУБД і достатньо гнучкі,
щоб передбачити і автоматизувати різні види інтелектуального
аналізу, властиві OLAP.
Суть OLAP полягає в наступному. Багатовимірне
концептуальне уявлення (multidimensional conceptual view) є
множинною перспективою, яка складається з декількох незалежних
вимірювань, уздовж яких можуть бути проаналізовані визначені
сукупності даних. Одночасний аналіз з декількох вимірювань
визначається як багатовимірний. Кожне вимірювання включає напрям
консолідації даних, які складаються з серії послідовних рівнів
узагальнення, де кожен вищий рівень відповідає більшому ступеню
агрегації даних у відповідному вимірюванні.
Питання 2. Технології OLAP.

2,5 Ряд1
Ряд2
2 Ряд3
Ряд4
Ряд5
1,5
Ряд6
Ряд7
1 Ряд8
Ряд9
0,5 Ряд10
Ряд11
0 Ряд12
Ряд13
19

Р1
17

Ряд14
15

Р4
13
11

Р7
9

Р10
5

Р13
1
Питання 2. Технології OLAP.

Ряд1
Ряд2
Ряд3
Ряд4
Ряд5
Ряд6
5 Ряд7
Ряд8
Ряд9
10 Ряд10
Р13
4 Ряд11
Р11
7 Ряд12
Р9
Ряд13
10 Р7 Ряд14
13
Р5
16 Р3
19 Р1
Питання 2. Технології OLAP.

2,5 Ряд1
Ряд2
Ряд3
2 Ряд4
Ряд5
Ряд6
1,5 Ряд7
Ряд8
Ряд9
1 Ряд10
Ряд11
Ряд12
0,5 Ряд13
Р13 Ряд14
Р7

0 Р1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Питання 2. Технології OLAP.

Ряд1
3
Ряд2
Ряд3
2,5
Ряд4
Ряд5
2
Ряд6
1,5 Ряд7
Ряд8
1 Ряд9
Ряд10
0,5 Р13 Ряд11
Р10 Ряд12
0
Р7 Ряд13
1
3

Ряд14
5

Р4
9

11

13

Р1
15

17

19
Питання 2. Технології OLAP.

2,5
Ряд1
Ряд2
2 Ряд3
Ряд4
Ряд5
1,5
Ряд6
Ряд7
1 Ряд8
Ряд9
0,5 Ряд10
Ряд11
Ряд12
0
Ряд13
1
3

Р13
Ряд14
5

Р10
9

11

Р7
13

15

Р4
17

19

Р1
Питання 2. Технології OLAP.

Багатовимірний OLAP аналіз.


Вимірювання – це послідовність значень одного з аналізованих параметрів.
Множинність вимірювань припускає представлення даних у вигляді
багатовимірної моделі.
Багатовимірне концептуальне уявлення (multi-dimensional conceptual view) – це
множинна перспектива, що складається з декількох незалежних вимірювань,
уздовж яких можуть бути проаналізовані визначені сукупності даних.
Одночасний аналіз по декількох вимірюваннях визначається як
багатовимірний аналіз.
Кожне вимірювання може бути представлено у вигляді ієрархічної структури.
На перетинах осей вимірювань (Dimensions) розташовуються дані, що
кількісно характеризують аналізовані факти – заходи (Measures).
Багатовимірну модель даних можна представити як гіперкуб
Питання 2. Технології OLAP.

Багатовимірний OLAP аналіз.

Вимірювання

Вимірювання

Мірі

Мірі

Вимірювання
Питання 2. Технології OLAP.

Багатовимірний OLAP аналіз – операції над гіперкубом.


1. Зріз (Slice) – формування підмножини багатовимірного масиву даних,
відповідного єдиному значенню одного або декількох елементів вимірювань, що
не входять в цю підмножину. Наприклад, при виборі елементу «Факт»,
вимірювання «Сценарій»" зріз даних є підкубом, в який входить вся решта
вимірювань.
Дані, що не увійшли до сформованого зрізу, пов'язані з тими елементами
вимірювання «Сценарій», які не були вказані як визначають (наприклад, «План»,
«Відхилення», «Прогноз» і т. п.). Якщо розглядати термін «зріз» з позиції
кінцевого користувача, то найчастіше його роль грає двовимірна проекція куба.
Питання 2. Технології OLAP.

Багатовимірний OLAP аналіз – операції над гіперкубом.

Фіксоване значення

Зріз
Питання 2. Технології OLAP.

Багатовимірний OLAP аналіз – операції над гіперкубом.


2. Обертання (Rotate) – зміна розташування вимірів, представлених в звіті або
на сторінці, що відображається. Наприклад, операція обертання може полягати в
перестановці місцями рядків і стовпців таблиці або переміщенні вимірів, що
цікавлять, в стовпці або рядки створюваного звіту, що дозволяє надавати йому
бажаному вигляду. Крім того, обертанням куба даних є переміщення внетаблічних
вимірів на місце вимірів, представлених на сторінці, що відображається і навпаки
(при цьому внетабличне вимірювання стає новим виміром рядка або вимір
стовпця).
Питання 2. Технології OLAP.

Багатовимірний OLAP аналіз – операції над гіперкубом.

Вимірювання 1 Вимірювання 2

Вимірювання 2

Вимірювання 1

Обертання

Вимірювання 3 Вимірювання 3
Питання 2. Технології OLAP.

Багатовимірний OLAP аналіз – операції над гіперкубом.


2. Консолідація (Drill Up) і деталізація (Drill Down) – операції, які
визначають перехід вгору по напряму від детального (down) представлення даних
до агрегованого (up) і навпаки, відповідно. Напрям деталізації (узагальнення)
може бути заданий як за ієрархією окремих вимірювань, так і згідно іншим
відносинам, встановленим в рамках вимірювань або між вимірюваннями.
Питання 2. Технології OLAP.

Багатовимірний OLAP аналіз – операції над гіперкубом.

Консолідація

Деталізація
Питання 2. Технології OLAP.

Вимоги до OLAP програмних систем.


1 Багатовимірне Концептуальне представлення моделі даних в продукті OLAP повинне
концептуальне бути багатовимірним за своєю природою, тобто дозволяти аналітикам
представлення даних виконувати інтуїтивні операції "аналізу вздовж і поперек" ("slice and
(Multi-Dimensional dice"), обертання (rotate) і розміщення (pivot) напрямів консолідації.
Conceptual View)
2 Прозорість Користувач не повинен знати про те, які конкретні засоби
(Transparency) використовуються для збереження і обробки даних, як дані
організовані і звідки беруться.
3 Досяжність Аналітик повинен мати можливість здійснювати аналіз в рамках
(Accessibility) загальної концептуальної схеми. Тобто інструментарій OLAP повинен
накладати свою логічну схему на фізичні масиви даних, виконуючи всі
перетворення, які потрібні для забезпечення єдиного, узгодженого і
цілісного погляду користувача на інформацію.
4 Стійка Із збільшенням числа вимірювань і розмірів бази даних аналітики не
продуктивність повинні зіткнутися з будь-яким зменшенням продуктивності. Стійка
(Consistent Reporting продуктивність необхідна для підтримки простоти використання і
Performance) незалежності від ускладнень, які потрібні для доведення OLAP до
кінцевого користувача.
Питання 2. Технології OLAP.

Вимоги до OLAP програмних систем.


5 Клієнт-серверна Велика частина даних, які вимагають оперативної аналітичної
архітектура (Client- обробки, зберігається в мейнфреймовых системах, а витягується з
Server Architecture) персональних комп'ютерів. Тому однією з вимог є здатність продуктів
OLAP працювати в середовищі сервер клієнта. Компонент
інструменту OLAP повинен бути достатньо інтелектуальним і мати
здатність будувати загальну концептуальну схему на основі
узагальнення і консолідації різних логічних і фізичних схем
корпоративних баз даних для забезпечення ефекту прозорості.
6 Рівноправ'я Всі вимірювання даних повинні бути рівноправни. Додаткові
вимірювань характеристики можуть бути надані окремим вимірюванням, але
(Generic оскільки всі вони симетричні, дана додаткова функціональність може
Dimensionality) бути надана будь-якому вимірюванню. Базова структура даних,
формули і формати звітів не повинні спиратися на якесь одне
вимірювання.
7 Динамічна обробка Інструмент OLAP повинен забезпечувати оптимальну обробку
розріджених матриць розріджених матриць. Швидкість доступу повинна зберігатися
(Dynamic Sparse незалежно від розташування осередків даних і бути постійною
Matrix Handling) величиною для моделей, які мають різне число вимірювань і різну
розрідженість даних.
8 Підтримка режиму з Частіше всього декілька аналітиків мають необхідність працювати
багатьма одночасно з однією аналітичною моделлю або створювати різні моделі
користувачами на основі одних корпоративних даних. Інструмент OLAP повинен
(Multi-User Support) надавати їм конкурентний доступ, забезпечувати захист даних.
Питання 2. Технології OLAP.

Вимоги до OLAP програмних систем.


9 Необмежена Обчислення і маніпуляція даними по будь-якому числу вимірювань не
підтримка повинні забороняти або обмежувати будь-які відносини між
кросмерных операцій вогнищами даних. Перетворення, які вимагають довільного
(Unrestricted Cross- визначення, повинні задаватися на функціонально повній формульном
dimensional мові.
Operations)
10 Інтуїтивне Переорієнтація напрямів консолідації, деталізація даних в колонках і
маніпулювання рядках, агрегація і інші маніпуляції, властиві структурі ієрархії
даними (Intuitive напрямів консолідації, повинні виконуватися в максимально зручному,
Data Manipulation) природному і комфортному призначеному для користувача інтерфейсі.

11 Гнучкий механізм Повинні підтримуватися різні способи візуалізації даних, тобто звіти
генерації звітів повинні представлятися в будь-якій можливій орієнтації.
(Flexible Reporting)
12 Необмежена Настійно рекомендується допущення в кожному серйозному OLAP
кількість вимірювань інструменті як мінімум п'ятнадцяти, а краще за двадцяти, вимірювань
і рівнів агрегації в аналітичній моделі. Більш того, кожне з цих вимірювань повинне
(Unlimited допускати практично необмежену кількість визначених користувачем
Dimensions and рівнів агрегації по будь-якому напряму консолідації.
Aggregation Levels)
Питання 2. Технології OLAP.

Вимоги до OLAP програмних систем.


9 Необмежена Обчислення і маніпуляція даними по будь-якому числу вимірювань не
підтримка повинні забороняти або обмежувати будь-які відносини між
кросмерных операцій вогнищами даних. Перетворення, які вимагають довільного
(Unrestricted Cross- визначення, повинні задаватися на функціонально повній формульном
dimensional мові.
Operations)
10 Інтуїтивне Переорієнтація напрямів консолідації, деталізація даних в колонках і
маніпулювання рядках, агрегація і інші маніпуляції, властиві структурі ієрархії
даними (Intuitive напрямів консолідації, повинні виконуватися в максимально зручному,
Data Manipulation) природному і комфортному призначеному для користувача інтерфейсі.

11 Гнучкий механізм Повинні підтримуватися різні способи візуалізації даних, тобто звіти
генерації звітів повинні представлятися в будь-якій можливій орієнтації.
(Flexible Reporting)
12 Необмежена Настійно рекомендується допущення в кожному серйозному OLAP
кількість вимірювань інструменті як мінімум п'ятнадцяти, а краще за двадцяти, вимірювань
і рівнів агрегації в аналітичній моделі. Більш того, кожне з цих вимірювань повинне
(Unlimited допускати практично необмежену кількість визначених користувачем
Dimensions and рівнів агрегації по будь-якому напряму консолідації.
Aggregation Levels)
Питання 2. Технології OLAP.

Приклад архітектури OLAP системи


Питання 2. Технології OLAP.

Математичні основи OLAP аналізу


• статистики емпіричного ряду; • планування експерименту;
• перевірка гіпотез; • лінійна алгебра;
• дисперсійний аналіз; • методи теорії множин;
• теорія розподілів; • дерева рішень;
• кореляційний аналіз; • нечітка логіка;
• методи зниження розмірності; • генетичні алгоритми;
• факторний аналіз; • еволюційне програмування.
• розпізнавання образів без і з • багатовимірне
навчанням; шкалирование;
• методи оптимізації.
Питання 2.
Технології Data Mining.
Питання 2. Технології Data Mining.

Необхідність Data Mining – для поглибленого аналізу даних, у тому


числі результатів OLAP аналізу з метою ВИЯВЛЕННЯ НОВИХЗНАНЬ,
закономірностей, властивостей і прогнозування розвитку досліджуваних
об’єктів чи процесів.
Data Mining (DM) – це процес:
виділення з даних неявної і неструктурованої інформації та
представлення її у вигляді, придатному для реалізації;
аналізу, виділення і представлення деталізованих (detailed data) даних
неявної конструктивної інформації;
виділення (selecting), дослідження і моделювання великих об'ємів
даних для виявлення невідомих до цього структур;
мета якого – знайти нові значущі кореляції, образів і тенденції, в
результаті обробки великого об'єму збережених даних з використанням
методик розпізнавання образів та інших статистичних і математичних
методів;
автоматичного виділення адекватної, ефективної, раніше невідомої і не
зовсім зрозумілої інформації з великих баз даних.
Питання 2. Технології Data Mining.

ГОЛОВНІ задачі Data Mining


Завдання класифікації зводиться до визначення класу об'єкту по
його характеристиках. В цьому завданні безліч класів, до яких
може бути віднесений об'єкт, відомо наперед.

Завдання регресії подібно до завдання класифікації дозволяє


визначити по відомих характеристиках об'єкту значення деякого
його параметра. На відміну від завдання класифікації значенням
параметра є не кінцева безліч класів, а безліч дійсних чисел.

Завдання пошуку асоціативних правил. Метою пошуку


асоціативних правил є знаходження частих залежностей (або
асоціацій) між об'єктами або подіями. Знайдені залежності
представляються у вигляді правил і можуть бути використані як
для кращого розуміння природи аналізованих даних, так і для
прогнозу появи подій.

Завдання кластеризації полягає в пошуку незалежних груп


(кластерів) і їх характеристик у всій множині аналізованих даних.
Угрупування однорідних об'єктів дозволяє скоротити їх число, а
отже, і полегшити аналіз.
Питання 2. Технології Data Mining.

Завдання Data Mining за призначенням діляться на описові і


передбачаючі.
Описові (descriptive) завдання приділяють увагу поліпшенню розуміння
аналізованих даних. Ключовий момент в таких моделях — легкість і
прозорість результатів для сприйняття людиною. Можливо, виявлені
закономірності будуть специфічною межею саме конкретних досліджуваних
даних і більше ніде не зустрінуться, але це все одно може бути корисно і
тому повинно бути відомо. До такого виду завдань відносяться
кластеризація і пошук асоціативних правил.
Рішення передбачаючих (predictive) задач розбивається на два етапи.
На першому етапі на підставі набору даних з відомими результатами
будується модель. На другому етапі вона використовується для прогнозу
результатів на підставі нових наборів даних. При цьому, природно,
потрібний, щоб побудовані моделі працювали максимально точно. До даного
виду завдань відносять завдання класифікації і регресії. Сюди можна
віднести і завдання пошуку асоціативних правил, якщо результати її
рішення можуть бути використані для прогнозу появи деяких подій.
Питання 2. Технології Data Mining.

Етапи виявлення нових знань

1. Розуміння і формулювання
завдання аналізу

2. Підготовка даних для


автоматизованого аналізу

3. Застосування методів Data


Mining і побудова моделей

4. Перевірка побудованих
моделей

5. Інтерпретація моделей
людиною.
Питання 2. Технології Data Mining.

Деякі методи Data Mining


об'єднання (association) – виділення структур, які повторюються в часові
послідовності. Виявляє правила, по яких присутність одного набору елементів
корелюється з іншим;
аналіз часових рядів (sequence-based analysis) – дозволяє знайти часові
закономірності між транзакціями;
кластеризація (clustering) – групування записів, які мають однакові
характеристики, наприклад, по близькості значень полів. Можуть
використовуватися статистичні методи або нейросети. Кластеризація
розглядається як перший необхідний крок для подальшого аналізу даних;
класифікація (classification) – віднесення запису до одного із заздалегідь
певних класів;
оцінювання (estimation);
нечітка логіка (fuzzy logic);
статистичні методи, які дозволяють знаходити криву, найбільш близько
розташовану до набору точок даних;
генетичні алгоритми (genetic algorithms);
фрактальні перетворення (fractal-based transforms);
нейронні мережі (neural networks) – дані пропускаються через шари вузлів,
«навчених» розпізнаванню ті або інші структури.
Питання 2. Технології Data Mining.

Програмні засоби Data Mining


На даний час технологія Data Mining представлена цілим рядом
комерційних і вільно поширюваних програмних продуктів. Достатньо повний і
регулярно оновлюваний список цих продуктів можна знайти на сайті
www.kdnuggets.com , присвяченому Data Mining
ВИСНОВКИ
ВИСНОВКИ

1. Інтелектуальний аналіз даних дозволяє


автоматично, ґрунтуючись на великій кількості
накопичених даних, генерувати гіпотези, які можуть
бути перевірені іншими засобами аналізу (наприклад,
OLAP).
2. Data Mining – забезпечує дослідження і
алгоритмічне виявлення (алгоритмами, засобами
штучного інтелекту) в сирих даних прихованих знань,
які раніше не були відомі, нетривіальні, практично
корисні і доступні для інтерпретації людиною.
3. Методами Data Mining розв'язуються три основні
завдання: завдання класифікації і регресії, завдання
пошуку асоціативних правил і завдання кластеризації.
Відкритий міжнародний університет розвитку
людини “Україна”

Дякую за увагу!

You might also like