Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 30

ТЕМА 10:

СЕМАНТИЧНИЙ АНАЛІЗ ТЕКСТІВ


ВИЛУЧЕННЯ СЕМАНТИКИ З ТЕКСТІВ

Один з методів і одночасно завдань інтелектуального аналізу


тексту, заснований на тому, що дані, що «зберігаються» у формі
тексту природною мовою, мають невизначеність. Навчити цьому
комп'ютер – головна мета семантичного аналізу.

Семантика – той самий «смисловий» багаж, який несе та чи інша


лексична одиниця у даному конкретному контексті.

2
ЕТАПИ АНАЛІЗУ ТЕКСТУ У ПРОМИСЛОВИХ СИСТЕМАХ
ОБРОБКИ:

• Морфологічний етап
• Синтаксичний етап
• Семантичний етап (в теоретичних розробках)
• Побудова семантичної інтерпретації слів та конструкцій;
• Встановлення "змістовних" семантичних відносин між елементами тексту.

3
ПРОБЛЕМИ РОЗУМІННЯ ТЕКСТУ В ОБРОБЦІ ПРИРОДНИХ МОВ:

1. Знання системою контексту та проблемної галузі та навчання цієї


системи.
2. Різна форма передачі синтаксису (тобто структури) речення у різних
мовах.
3. Проблема рівнозначності.
4. Наявність у тексті нових для комп'ютера слів, наприклад, неологізмів.
5. Проблема сумісності нової інформації з накопиченими знаннями.
6. Проблема тимчасових протиріч.Проблема еліпсів

4
Системи, спрямовані на отримання знань з текстів природними мовами, а
також на синтез тексту на основі знань називаються лінгвістичними
трансляторами або лінгвістичними процесорами.Подобные системы
могут интегрироваться с экспертными системами;
• Лінгвістичний процесор може бути інтегрований із системою
розпізнавання та (або) синтезу мови;

5
• Системи семантичного аналізу що неспроможні існувати без
морфологічної складової.
• Системи семантичного аналізу що неспроможні існувати без
синтаксичної складової.

6
МОРФОЛОГІЧНА СКЛАДОВА СЕМАНТИЧНОГО АНАЛІЗУ - РІЗНІ
ВИДИ СЛОВНИКІВ СЛОВОФОРМ

Проблема "неповноти" словника. Підходи для вирішення цієї проблеми:


• навчання з учителем : передбачає використання заздалегідь підготовлених словників (як
структурованих наборів даних – найчастіше, таблиць), які описують всі можливі варіанти
використання тієї чи іншої лексичної одиниці у тексті; (Недолік: трудомісткий процес,
тривалий час для аналізу);
• Навчання без вчителя, на основі правил: передбачає статистичний аналіз тексту - і на
основі ймовірності появи тієї чи іншої лексичної одиниці в тому чи іншому контексті
підказують, куди «визначити» її в конкретному випадку. ( Недолік: залежно від
статистичного методу, «правильність» визначення морфологічних ознак варіюється від
50 до 97%. )
• гібридний метод: статистичні методології + словники. Такі алгоритми найкраще
працюють у разі чітко визначеної предметної області даного конкретного набору даних
7

(тобто тексту).
СИНТАКСИЧНА СКЛАДОВА СЕМАНТИЧНОГО АНАЛІЗУ -
СИНТАКСИЧНЕ ДЕРЕВО ПРОПОЗИЦІЇ

• Відсіюється більшість омонімів; Для представлення в пам'яті комп'ютера


значення всіх змістовних одиниць та приведення їх до єдиного, формального
вигляду, зрозумілого комп'ютера, використовується спеціально створена для
цього штучна мова (метамова).
• Реально як семантична метамова в більшості сучасних робіт використовується
не універсальна штучна мова, а якась спрощена і стандартизована підмова
мови зі своїм словником і граматикою.
• Використання онтологій (формальні явні описи термінів предметної галузі та
відносин між ними).

8
ПРИКЛАДИ ОНТОЛОГІЙ

• В даний час актуальними є завдання побудови онтологій за певними


галузями знань.
• Онтології варіюються від великих таксономій, що категоризують веб-
сайти (як на сайті Yahoo!), до категорізацій товарів та їх характеристик
(як на сайті Amazon.com).
• Семантичний аналіз нині рухається у бік формальних граматик.

9
ПОБУДОВИ МЕРЕЖІ ПРИРОДНОЇ ІЄРАРХІЇ ТЕРМІНІВ
(КВАЗІОНТОЛОГІЯ)

• Мережа природної ієрархії термінів виходить з інформаційно-значимих елементах


тексту, опорних словах і словосполученнях;
• Опорні слова та словосполучення для побудови природних ієрархій термінів
вибираються з їхньої дискримінантної («розрізняючої») сили.

10
ДИСКРИМІНАНТНАЯ СИЛА СЛОВА

Для обліку дискримінантної сили слів запроваджено поняття інверсної частоти


появи слова окремих документах масиву. Запропонований метод зважування слів
має позначення – TF IDF, де TF вказує на частоту появи слів у документі, а IDF –
на величину, обернену до кількості документів у масиві, що містять це слово
(трохи пізніше, логарифм, монотонну функцію від цієї величини): wi=tfi * log N/ni
де wi – вага слова ti ,
tfi – частотаслова ti в документі,
n – кількість документів в інформаційному масиві, в який використовується
слово ti ,

N – загальна кількість документів в інформаційному масиві.


11
АЛГОРИТМ ФОРМУВАННЯ МЕРЕЖІ ПРИРОДНИХ ІЄРАРХІЙ
ТЕРМІНІВ

1. Выбирается исходный текстовый корпус.


2. Каждому отдельному слову из текстового корпуса ставится в соответствие оценка его
«дискриминантной силы» (TF IDF).
3. Выполняется то же, что и на предыдущем шаге, только для словосочетаний из двух слов
(биграмм) и из трех слов (триграмм).
4. Для последовательностей терминов и их весовых значений по TF IDF строятся
компактифицированные графы горизонтальной видимости (CHVG) и выполняется
повторное определение весовых значений слов по этому алгоритму.
5. Экспертным методом определяется необходимый объем СЕИТ (число N), после чего
избирается соответствующее количество единичных слов, биграмм и триграмм (всего
N+N+N элементов) с наибольшими весовыми значениями .
6. Из отобранных на предыдущем шаге элементов строятся сети естественных иерархий 12

терминов
На останньому етапі формування СЕІТ здійснюється її відображення
програмними засобами аналізу та візуалізації складних мереж. Рис. 2 —
Вид СЕІТ розміром 20+20+20

13
НА РИС. 3 ПРЕДСТАВЛЕНИЙ ЗАГАЛЬНИЙ ВИГЛЯД МЕРЕЖІ ПРИРОДНОЇ
ІЄРАРХІЇ ТЕРМІНІВ РОЗМІРОМ 200+200+200, ЩО ВІЗУАЛІЗОВАНА ЗАСОБАМИ
СИСТЕМИ GEPHI

14
ЗАГАЛЬНА ПОСЛІДОВНІСТЬ АНАЛІЗУ ТЕКСТУ

Отриманий на вході текст сегментується (поділяється) на речення. Кожна


з пропозицій потім проходить процедуру синтаксичного аналізу –
визначаються члени речення та частини мови, після чого починається
вилучення семантики з кожного слова.
Тут алгоритм може звірятися з правилами, або застосовувати машинне
навчання - а можливо, з'являться ознаки того, й іншого підходу; загалом,
результатом першого кроку буде якийсь висновок синтаксичного
процесора з приводу того, яке значення кожне слово може набувати в
даному випадку.

15
ПОСЛІДОВНІСТЬ АНАЛІЗУ ТЕКСТУ

За результатами попереднього аналізу семантика витягується з усього


пропозиції. При цьому якщо після першого кроку семантика того чи
іншого слова залишається невизначеною (значення не ясно з контексту
всього одного речення), на цьому кроці невизначеність виключається.

16
ПОСЛІДОВНІСТЬ АНАЛІЗУ ТЕКСТУ

На третьому етапі відбувається представлення результату та виведення –


текст набуває форми структурованого набору даних, з яким можна
працювати. Кінцева мета семантичного аналізу досягнута.

17
ОСНОВНІ ЕЛЕМЕНТИ

Відповідно до вже сформованої методології до основних елементів Text


Mining відносяться:класифікація (classification
• )кластеризація (clustering)
• побудова семантичних мережвилучення фактів, понять (feature
extraction)
• сумаризація (summarization)
• тематичне індексування (thematic indexing)
• пошук за ключовими словами (keyword searching)

18
МЕТОДИ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ТЕКСТІВ

• Байєсовський класифікатор
• Латентне розміщення Діріхле
• Нейронні сіті
• Векторні методи
• Латентно-семантичний аналіз
• Дерева рішень
• Еволюційний аналіз та генетичне програмування
19
БАЙЄСОВСЬКИЙ КЛАСИФІКАТОР

Оскільки мета класифікації


— знайти відповідний клас
для даного документа, то в
наївній байєсовській
класифікації завдання полягає
у знаходженні
найімовірнішого класу.

20
ЛАТЕНТНЕ РОЗМІЩЕННЯ ДІРІХЛЕ

Модель, що породжує, пояснює результати


спостережень за допомогою неявних груп
тим, що дозволяє отримати пояснення, чому
деякі частини даних схожі.
Наприклад, якщо спостереженнями є слова,
зібрані в тексти, стверджується, що кожен
текст є сумішшю невеликої кількості тем, і
що поява кожного слова пов'язана з однією з
тем документа.

21
НЕЙРОННІ МЕРЕЖІ

Одна з переваг нейронних мереж полягає в тому, що вони можуть апроксимувати будь-яку
безперервну функцію, і тому не потрібно заздалегідь приймати будь-які гіпотези щодо
моделі і навіть у ряді випадків про те, які змінні дійсно важливі.Істотним недоліком є той
факт, що остаточне рішення залежить від початкових установок мережі та його практично
неможливо інтерпретувати у традиційних аналітичних термінах мережі необхідно проводити
на прикладах, які не брали участь у її навчанні
22
МЕРЕЖА КОХОНЕНА-ГРОССБЕРГА

• Мережа Кохонена-Гроссберга - це двошарова мережа, що


використовується в основному в завданнях класифікації. Мережа Кохонена
навчається без вчителя з урахуванням самоорганізації.
• Перший шар мережі – мережа Кохонена, що навчається для отримання
найкращого представлення векторів навчальної вибірки.
• Другий шар — мережа Гроссберга, який навчається відображати нейрони
шару Кохонена різні класифікаційні рубрики. Шар Гроссберга навчається
"з учителем".
23
МЕРЕЖА КОХОНЕНА-ГРОССБЕРГА

24
ВЕКТОРНІ МЕТОДИ

• Векторні методи використовують


векторну модель подання тексту. Як
правило, для класифікації
використовується скалярний витвір
векторів. Вектор документа послідовно
скалярно перемножується з векторами
категорій і чим більший скалярний твір,
тим більша ймовірність, що документ
потрапить до цієї категорії. Наприклад,
Відстань Хеммінгу.
25
ЛАТЕНТНО-СЕМАНТИЧНИЙ АНАЛІЗ

• Метод латентно-семантичного аналізу


(ЛСА) дозволяє виявляти значення слів
з урахуванням контексту їхнього
використання шляхом обробки великого
обсягу текстів. Модель представлення
тексту, використовувана в латентно-
семантичному аналізі, багато в чому
схожа на сприйняття тексту людиною.
Наприклад, за допомогою цього методу
можна оцінити текст на відповідність
заданій темі.
26
ДЕРЕВА РІШЕНЬ

• Дерева рішень – один із найпростіших методів машинного навчання. Це


цілком прозорий спосіб класифікації спостережень, і після навчання
вони подаються у вигляді послідовності речень if-then (якщось),
організованих у вигляді дерева.
• Маючи дерево рішень, легко зрозуміти, як воно приймає рішення.
Достатньо пройти вниз по дереву, правильно відповідаючи на
запитання, і зрештою відповідь буде отримана. Зворотне трасування від
вузла, в якому відбулася зупинка, до кореня дає обґрунтування
виробленої класифікації.

27
ДЕРЕВА РІШЕНЬ

28
ЕВОЛЮЦІЙНИЙ АНАЛІЗ

• Еволюційний аналіз даних визначає і моделює регулярності та тренди


для об'єктів, чия поведінка змінюється у часі. Незважаючи на те, що тут
можуть застосовуватися розглянуті до цього характеризування та
дискримінація, аналіз асоціацій, класифікація, кластеризація, у даного
виду аналізу є відмінні риси та власні методи, які включають аналіз
часових рядів, аналіз послідовності та періодичності, пошук
близькостей.

29
ГЕНЕТИЧНЕ ПРОГРАМУВАННЯ

• Генетичне програмування це методика


машинного навчання, аналогією якої є
біологічна еволюція. У загальному
випадку все починається з великого
набору популяцій (програм),
згенерованих випадково або написаних
вручну, про які відомо, що це досить
близькі рішення.

30

You might also like