Лекція 18 Семантичний Аналіз Текстів 2022 Бк

ТЕМА 10:
СЕМАНТИЧНИЙ АНАЛІЗ ТЕКСТІВ

ВИЛУЧЕННЯ СЕМАНТИКИ З ТЕКСТІВ
Один з методів і одночасно завдань інтелектуального аналізу

тексту, заснований на тому, що дані, що «зберігаються» у формі
тексту природною мовою, мають невизначеність. Навчити цьому
комп'ютер – головна мета семантичного аналізу.
Семантика – той самий «смисловий» багаж, який несе та чи інша

лексична одиниця у даному конкретному контексті.
2
ЕТАПИ АНАЛІЗУ ТЕКСТУ У ПРОМИСЛОВИХ СИСТЕМАХ
ОБРОБКИ:
• Морфологічний етап
• Синтаксичний етап
• Семантичний етап (в теоретичних розробках)
• Побудова семантичної інтерпретації слів та конструкцій;
• Встановлення "змістовних" семантичних відносин між елементами тексту.
3
ПРОБЛЕМИ РОЗУМІННЯ ТЕКСТУ В ОБРОБЦІ ПРИРОДНИХ МОВ:
1. Знання системою контексту та проблемної галузі та навчання цієї

системи.
2. Різна форма передачі синтаксису (тобто структури) речення у різних
мовах.
3. Проблема рівнозначності.
4. Наявність у тексті нових для комп'ютера слів, наприклад, неологізмів.
5. Проблема сумісності нової інформації з накопиченими знаннями.
6. Проблема тимчасових протиріч.Проблема еліпсів
4
Системи, спрямовані на отримання знань з текстів природними мовами, а
також на синтез тексту на основі знань називаються лінгвістичними
трансляторами або лінгвістичними процесорами.Подобные системы
могут интегрироваться с экспертными системами;
• Лінгвістичний процесор може бути інтегрований із системою
розпізнавання та (або) синтезу мови;
5
• Системи семантичного аналізу що неспроможні існувати без
морфологічної складової.
• Системи семантичного аналізу що неспроможні існувати без
синтаксичної складової.
6
МОРФОЛОГІЧНА СКЛАДОВА СЕМАНТИЧНОГО АНАЛІЗУ - РІЗНІ
ВИДИ СЛОВНИКІВ СЛОВОФОРМ
Проблема "неповноти" словника. Підходи для вирішення цієї проблеми:

• навчання з учителем : передбачає використання заздалегідь підготовлених словників (як
структурованих наборів даних – найчастіше, таблиць), які описують всі можливі варіанти
використання тієї чи іншої лексичної одиниці у тексті; (Недолік: трудомісткий процес,
тривалий час для аналізу);
• Навчання без вчителя, на основі правил: передбачає статистичний аналіз тексту - і на
основі ймовірності появи тієї чи іншої лексичної одиниці в тому чи іншому контексті
підказують, куди «визначити» її в конкретному випадку. ( Недолік: залежно від
статистичного методу, «правильність» визначення морфологічних ознак варіюється від
50 до 97%. )
• гібридний метод: статистичні методології + словники. Такі алгоритми найкраще
працюють у разі чітко визначеної предметної області даного конкретного набору даних
7
(тобто тексту).
СИНТАКСИЧНА СКЛАДОВА СЕМАНТИЧНОГО АНАЛІЗУ -
СИНТАКСИЧНЕ ДЕРЕВО ПРОПОЗИЦІЇ
• Відсіюється більшість омонімів; Для представлення в пам'яті комп'ютера

значення всіх змістовних одиниць та приведення їх до єдиного, формального
вигляду, зрозумілого комп'ютера, використовується спеціально створена для
цього штучна мова (метамова).
• Реально як семантична метамова в більшості сучасних робіт використовується
не універсальна штучна мова, а якась спрощена і стандартизована підмова
мови зі своїм словником і граматикою.
• Використання онтологій (формальні явні описи термінів предметної галузі та
відносин між ними).
8
ПРИКЛАДИ ОНТОЛОГІЙ
• В даний час актуальними є завдання побудови онтологій за певними

галузями знань.
• Онтології варіюються від великих таксономій, що категоризують веб-
сайти (як на сайті Yahoo!), до категорізацій товарів та їх характеристик
(як на сайті Amazon.com).
• Семантичний аналіз нині рухається у бік формальних граматик.
9
ПОБУДОВИ МЕРЕЖІ ПРИРОДНОЇ ІЄРАРХІЇ ТЕРМІНІВ
(КВАЗІОНТОЛОГІЯ)
• Мережа природної ієрархії термінів виходить з інформаційно-значимих елементах

тексту, опорних словах і словосполученнях;
• Опорні слова та словосполучення для побудови природних ієрархій термінів
вибираються з їхньої дискримінантної («розрізняючої») сили.
10
ДИСКРИМІНАНТНАЯ СИЛА СЛОВА
Для обліку дискримінантної сили слів запроваджено поняття інверсної частоти

появи слова окремих документах масиву. Запропонований метод зважування слів
має позначення – TF IDF, де TF вказує на частоту появи слів у документі, а IDF –
на величину, обернену до кількості документів у масиві, що містять це слово
(трохи пізніше, логарифм, монотонну функцію від цієї величини): wi=tfi * log N/ni
де wi – вага слова ti ,
tfi – частотаслова ti в документі,
n – кількість документів в інформаційному масиві, в який використовується
слово ti ,
N – загальна кількість документів в інформаційному масиві.

11
АЛГОРИТМ ФОРМУВАННЯ МЕРЕЖІ ПРИРОДНИХ ІЄРАРХІЙ
ТЕРМІНІВ
1. Выбирается исходный текстовый корпус.

2. Каждому отдельному слову из текстового корпуса ставится в соответствие оценка его
«дискриминантной силы» (TF IDF).
3. Выполняется то же, что и на предыдущем шаге, только для словосочетаний из двух слов
(биграмм) и из трех слов (триграмм).
4. Для последовательностей терминов и их весовых значений по TF IDF строятся
компактифицированные графы горизонтальной видимости (CHVG) и выполняется
повторное определение весовых значений слов по этому алгоритму.
5. Экспертным методом определяется необходимый объем СЕИТ (число N), после чего
избирается соответствующее количество единичных слов, биграмм и триграмм (всего
N+N+N элементов) с наибольшими весовыми значениями .
6. Из отобранных на предыдущем шаге элементов строятся сети естественных иерархий 12
терминов
На останньому етапі формування СЕІТ здійснюється її відображення
програмними засобами аналізу та візуалізації складних мереж. Рис. 2 —
Вид СЕІТ розміром 20+20+20
13
НА РИС. 3 ПРЕДСТАВЛЕНИЙ ЗАГАЛЬНИЙ ВИГЛЯД МЕРЕЖІ ПРИРОДНОЇ
ІЄРАРХІЇ ТЕРМІНІВ РОЗМІРОМ 200+200+200, ЩО ВІЗУАЛІЗОВАНА ЗАСОБАМИ
СИСТЕМИ GEPHI
14
ЗАГАЛЬНА ПОСЛІДОВНІСТЬ АНАЛІЗУ ТЕКСТУ
Отриманий на вході текст сегментується (поділяється) на речення. Кожна

з пропозицій потім проходить процедуру синтаксичного аналізу –
визначаються члени речення та частини мови, після чого починається
вилучення семантики з кожного слова.
Тут алгоритм може звірятися з правилами, або застосовувати машинне
навчання - а можливо, з'являться ознаки того, й іншого підходу; загалом,
результатом першого кроку буде якийсь висновок синтаксичного
процесора з приводу того, яке значення кожне слово може набувати в
даному випадку.
15
ПОСЛІДОВНІСТЬ АНАЛІЗУ ТЕКСТУ
За результатами попереднього аналізу семантика витягується з усього

пропозиції. При цьому якщо після першого кроку семантика того чи
іншого слова залишається невизначеною (значення не ясно з контексту
всього одного речення), на цьому кроці невизначеність виключається.
16
ПОСЛІДОВНІСТЬ АНАЛІЗУ ТЕКСТУ
На третьому етапі відбувається представлення результату та виведення –

текст набуває форми структурованого набору даних, з яким можна
працювати. Кінцева мета семантичного аналізу досягнута.
17
ОСНОВНІ ЕЛЕМЕНТИ
Відповідно до вже сформованої методології до основних елементів Text

Mining відносяться:класифікація (classification
• )кластеризація (clustering)
• побудова семантичних мережвилучення фактів, понять (feature
extraction)
• сумаризація (summarization)
• тематичне індексування (thematic indexing)
• пошук за ключовими словами (keyword searching)
18
МЕТОДИ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ТЕКСТІВ
• Байєсовський класифікатор
• Латентне розміщення Діріхле
• Нейронні сіті
• Векторні методи
• Латентно-семантичний аналіз
• Дерева рішень
• Еволюційний аналіз та генетичне програмування
19
БАЙЄСОВСЬКИЙ КЛАСИФІКАТОР
Оскільки мета класифікації

— знайти відповідний клас
для даного документа, то в
наївній байєсовській
класифікації завдання полягає
у знаходженні
найімовірнішого класу.
20
ЛАТЕНТНЕ РОЗМІЩЕННЯ ДІРІХЛЕ
Модель, що породжує, пояснює результати

спостережень за допомогою неявних груп
тим, що дозволяє отримати пояснення, чому
деякі частини даних схожі.
Наприклад, якщо спостереженнями є слова,
зібрані в тексти, стверджується, що кожен
текст є сумішшю невеликої кількості тем, і
що поява кожного слова пов'язана з однією з
тем документа.
21
НЕЙРОННІ МЕРЕЖІ
Одна з переваг нейронних мереж полягає в тому, що вони можуть апроксимувати будь-яку
безперервну функцію, і тому не потрібно заздалегідь приймати будь-які гіпотези щодо
моделі і навіть у ряді випадків про те, які змінні дійсно важливі.Істотним недоліком є той
факт, що остаточне рішення залежить від початкових установок мережі та його практично
неможливо інтерпретувати у традиційних аналітичних термінах мережі необхідно проводити
на прикладах, які не брали участь у її навчанні
22
МЕРЕЖА КОХОНЕНА-ГРОССБЕРГА
• Мережа Кохонена-Гроссберга - це двошарова мережа, що

використовується в основному в завданнях класифікації. Мережа Кохонена
навчається без вчителя з урахуванням самоорганізації.
• Перший шар мережі – мережа Кохонена, що навчається для отримання
найкращого представлення векторів навчальної вибірки.
• Другий шар — мережа Гроссберга, який навчається відображати нейрони
шару Кохонена різні класифікаційні рубрики. Шар Гроссберга навчається
"з учителем".
23
МЕРЕЖА КОХОНЕНА-ГРОССБЕРГА
24
ВЕКТОРНІ МЕТОДИ
• Векторні методи використовують

векторну модель подання тексту. Як
правило, для класифікації
використовується скалярний витвір
векторів. Вектор документа послідовно
скалярно перемножується з векторами
категорій і чим більший скалярний твір,
тим більша ймовірність, що документ
потрапить до цієї категорії. Наприклад,
Відстань Хеммінгу.
25
ЛАТЕНТНО-СЕМАНТИЧНИЙ АНАЛІЗ
• Метод латентно-семантичного аналізу

(ЛСА) дозволяє виявляти значення слів
з урахуванням контексту їхнього
використання шляхом обробки великого
обсягу текстів. Модель представлення
тексту, використовувана в латентно-
семантичному аналізі, багато в чому
схожа на сприйняття тексту людиною.
Наприклад, за допомогою цього методу
можна оцінити текст на відповідність
заданій темі.
26
ДЕРЕВА РІШЕНЬ
• Дерева рішень – один із найпростіших методів машинного навчання. Це

цілком прозорий спосіб класифікації спостережень, і після навчання
вони подаються у вигляді послідовності речень if-then (якщось),
організованих у вигляді дерева.
• Маючи дерево рішень, легко зрозуміти, як воно приймає рішення.
Достатньо пройти вниз по дереву, правильно відповідаючи на
запитання, і зрештою відповідь буде отримана. Зворотне трасування від
вузла, в якому відбулася зупинка, до кореня дає обґрунтування
виробленої класифікації.
27
ДЕРЕВА РІШЕНЬ
28
ЕВОЛЮЦІЙНИЙ АНАЛІЗ
• Еволюційний аналіз даних визначає і моделює регулярності та тренди

для об'єктів, чия поведінка змінюється у часі. Незважаючи на те, що тут
можуть застосовуватися розглянуті до цього характеризування та
дискримінація, аналіз асоціацій, класифікація, кластеризація, у даного
виду аналізу є відмінні риси та власні методи, які включають аналіз
часових рядів, аналіз послідовності та періодичності, пошук
близькостей.
29
ГЕНЕТИЧНЕ ПРОГРАМУВАННЯ
• Генетичне програмування це методика

машинного навчання, аналогією якої є
біологічна еволюція. У загальному
випадку все починається з великого
набору популяцій (програм),
згенерованих випадково або написаних
вручну, про які відомо, що це досить
близькі рішення.
30

Лекція 18 Семантичний Аналіз Текстів 2022 Бк

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Лекція 18 Семантичний Аналіз Текстів 2022 Бк

Uploaded by

Copyright:

Available Formats

ТЕМА 10:

СЕМАНТИЧНИЙ АНАЛІЗ ТЕКСТІВ

Один з методів і одночасно завдань інтелектуального аналізу

Семантика – той самий «смисловий» багаж, який несе та чи інша

1. Знання системою контексту та проблемної галузі та навчання цієї

Проблема "неповноти" словника. Підходи для вирішення цієї проблеми:

• Відсіюється більшість омонімів; Для представлення в пам'яті комп'ютера

• В даний час актуальними є завдання побудови онтологій за певними

• Мережа природної ієрархії термінів виходить з інформаційно-значимих елементах

Для обліку дискримінантної сили слів запроваджено поняття інверсної частоти

N – загальна кількість документів в інформаційному масиві.

1. Выбирается исходный текстовый корпус.

Отриманий на вході текст сегментується (поділяється) на речення. Кожна

За результатами попереднього аналізу семантика витягується з усього

На третьому етапі відбувається представлення результату та виведення –

Відповідно до вже сформованої методології до основних елементів Text

Оскільки мета класифікації

Модель, що породжує, пояснює результати

• Мережа Кохонена-Гроссберга - це двошарова мережа, що

• Векторні методи використовують

• Метод латентно-семантичного аналізу

• Дерева рішень – один із найпростіших методів машинного навчання. Це

• Еволюційний аналіз даних визначає і моделює регулярності та тренди

• Генетичне програмування це методика

You might also like