4 Прикладні Аспекти Квантитативної Лінгв Ки

You might also like

Download as doc, pdf, or txt
Download as doc, pdf, or txt
You are on page 1of 20

4-Прикладні аспекти статистичної лінгвістики.

1. Проблематика статистичної лінгвістики з теоретичного та прикладного


поглядів.
2. Основні галузі використання структурно-ймовірнісної моделі мови.

Назва статистична лінгвістика є достатньо умовною, хоча


достатньо широко використовується в сучасній науковій літературі.
Ця назва характеризує міждисциплінарний напрямок у прикладних
дослідженнях, у яких основним інструментом вивчення мови
використовуються кількісні чи статистичні методи аналізу. Іноді
статистичну (чи кількісну чи квантитативну лінгвістику)
протиставляють комбінаторній лінгвістиці. В останній домінантну
роль посідає «некількісний» математичний апарат – теорія множин,
математична логіка, теорія алгоритмів тощо.

Розвиток та становлення статистичної лінгвістики як науки


Статистична лінгвістика виокремилася порівняно недавно, однак
кількісні та статистичні методи до мови та мовлення застосовували
тисячі років тому. Ще в античному світі (III ст. до н. є.) для творчості
Гомера олександрійські граматики підраховували слова для
визначення тих, які трапляться всього один раз протягом усього
твору. Це робили, звичайно, вручну, а не автоматично, як тепер.
Середньовіччя (V-XV ст.) відоме особливою увагою до
сакральних текстів, зокрема, Біблії. Із метою узгодження різних
текстів та перекладів (Святого Письма ерудити укладали повні
списки його слів зі всіма випадками їхнього використання у
конкретному тексті.
У XVII ст. з'явилася праця, що аналізує розподіл слів у грецькому
перекладі Нового Заповіту методом, який майже не відрізняється від
сучасного.
У XIX ст. укладають латинські та грецькі словопокажчики, а
також за допомогою до статистичної лінгвістики звертається
стенографія — швидкий дослівний запис усного мовлення за
допомогою системи спеціальних умовних знаків, а також шляхом
скорочення найчастотніших буквосполучень, слів, словосполучень,
виразів. Одним з перших випадків стенографії вважають т.зв.
Тіронські ноти, якими вільновідпущеник Тірон записував промови
римського оратора Ціцерона.
Для вдосконалення системи стенографії первісно був
призначений і частотний словник німецької мови Кедінґа (його
уклали на матеріалі 11 млн. слів 6000 співробітників), виданий у
Берліні 1898 р. А 1916 р. опубліковані "стенографічні гами" Ж. Есту,
в яких встановлено винятково важливу залежність між частотою
слова та його рангом.
Новим поштовхом до розвитку статистичної лінгвістики стало
зростання популярності вивчення іноземних мов у середині XIX-поч.
XX ст. Педагоги-лінгводидакти зрозуміли, що повністю оволодіти
мовою за декілька років при декількох годинах занять на тиждень
неможливо, тому вирішили обмежити словник найбільш частотними
словами. Вирішення цієї проблеми зумовило появу багатьох
словників основної лексики спочатку для англійської, а згодом і для
німецької, французької та інших мов. Р. Елрідж, керівник невеликої
фабрики, за 2 роки опрацював 250 статей загальною довжиною 44 000
слововживань і 1911р. видав "Шість тисяч загальновживаних
англійських слів" для своїх робітників-емігрантів, що вивчають
англійську мову. У 1920 р. Кеністон уперше вказав на те, що
важливість слова пов'язана не лише із його частотністю, а й з
тим, наскільки вживання слова пов'язане із певним колом
текстів, тобто в якому із функційних стилів воно трапляється.
У 1928 р. побачив світ "Німецький частотний словник" (German
frequency Word Book) Морґана, роком пізніше — "Німецький
словник ідіом" (A German Idiom List) Xayxa, у цьому руслі також
працювали науковці Пфеффер та Веґлер. Також з'явився
"Порівняльний частотний словник першої тисячі слів англійської,
французької, німецької та іспанської мов" (Comparative Frequency list
on the First Thousand words in English, French, German and Spanish)
Ітона, де наведено 1000 найчастотніших слів названих чотирьох
європейських мов.
Увійшов в історію англійський мовознавець та педагог Палмер,
що відібрав три тисячі слів, які дають змогу розуміти 95% тексту.
Під час воєн зростає потреба передати інформацію так, щоб її не
міг зрозуміти противник. Тому посилилася увага до криптографії —
науки про зашифровування та розшифрування повідомлень, "ламання
кодів".
Справжній "вибух" статистичних досліджень відбувся з появою
комп'ютерів. Вони уможливили максимальне спрощення механічної
роботи, такої, наприклад, як карткування. Якщо раніше для
обчислення кількості слововживань у тексті їх треба було рахувати
"вручну", то зараз, перевівши текст в електронний вигляд, наприклад,
за допомогою програми MicroSoftWord ці дані можна отримати
автоматично (опція файл/властивості/статистика/ слова). Також
використовують комп'ютерні програми автоматичної лематизації
(зведення словоформ до початкової форми), можливості
автоматичного сортування та пошуку слів, їх частин тощо.
Сьогодні лінгвостатистичні дослідження здійснюють у кожній
країні з добре розвинутим мовознавством: Німеччині, Австрії, США,
Австралії, Чехії, Словаччині, Польщі, Росії тощо. Функціонують
міжнародні товариства та журнали: IQLA (International Quantitative
Linguistics Association), Journal of Quantitative Linguistics, серія
"Quantitative Linguistics".
Суттєвий внесок у розвиток цієї галузі мовознавства зробили
Gabriel Altmann, Reinhard Kohler (Німеччина), Peter Grzybek
(Австрія), Geiza Wimmer (Словаччина), Adam Pawlowski, Jadwiga
Sambor (Польща), Валентина Перебийніс, Наталія Дарчук (Україна),
Юхан Тулдава (Естонія), Раймунд Пиотровский (Росія) та ін.
Лінгвостатистичні дослідження в Україні почалися з 50-х pp.
XX ст. Спочатку вони стосувалися відбору лексичного мінімуму
іноземних мов, згодом сфера їх застосування значно розширилася.
Зокрема, 1963 р. в Інституті мовознавства ім. О. О. Потебні АН УРСР
організовано групу структурно-математичної лінгвістики, яка
започаткувала планомірне статистичне дослідження українських
текстів художнього, науково-технічного та соціально-політичного
функціональних стилів, зокрема, виявлено їхні статистичні
параметри. Результатом цього стилеметричного дослідження стали
зокрема монографії та збірники "Статистичні та структурні лінг-
вістичні моделі" (К., 1966), "Статистичні пераметри стилів" (К.,
1967), Перебийніс В. С. "Кількісні та якісні характеристики фонем
сучасної української літературної мови" (К., 1970), "Структура мови
та статистика мовлення" (К., 1974).
Досягнення наступного проекту — опис сполучуваності
англійських іменників, прикметників та дієслів, у реалізації якого
брали участь викладачі 42 вищих навчальних закладів колишнього
Радянського Союзу — опубліковано в "Довіднику найбільш уживаних
англійських словосполучень" за редакцією В. Перебийніс (М., 1986).
Системні функційні характеристики словозмінної парадигми
англійського дієслова, описані мовознавцями, доступні як в
паперовому ("Методичні рекомендації з вивчення системних і
функціональних характеристик словозмінних форм англійського
дієслова", К., 1993), так і в електронному вигляді ("English
conjugation: System and Functioning". CD-ROM, 2004).
Ще один великий проект, розпочатий ще у 60-х pp. XX ст. —
укладання серії частотних словників: художньої прози, драми, поезії,
публіцистики, наукової прози — триває; зокрема, залучено
лабораторію комп'ютерної лінгвістики Київського національного
університету імені Тараса Шевченка.
Центрами лінгвостатистичних досліджень, окрім названих, також
можна вважати Київський національний лінгвістичний університет,
Чернівецький університет імені Юрія Федьковича, Львівський
національний університет імені Івана Франка, Національний
університет «Львівська політехніка» та ін.

Основні поняття та категорійний апарат статистичної


лінгвістики: вибірка, частота, розподіл, похибка.
У сучасному мовознавстві домінує чітка тенденція: досліджувати
мовний та мовленнєвий матеріал на репрезентативному масиві
текстів.
Однорідний масив (корпус) певних одиниць, які потрібно
обстежити, називають генеральною сукупністю (ГС).
Обсяг і характер генеральної сукупності залежать від завдань
дослідження. Наприклад, якщо досліджують особливості стилю Івана
Франка, генеральна сукупність — усі його твори. Якщо досліджують
українську мову XX ст., генеральна сукупність - усі тексти (мовлені
та писані) XX ст. Межі останньої важко виявити точно, а все усне
мовлення просто неможливо дослідити. У подібних випадках, коли
суцільне обстеження генеральної сукупності неможливе, роблять
вибірку.
Вибірка — це певна кількість матеріалу, на підставі дослідження
якого можна зробити правильні висновки про всю генеральну
сукупність. Основні вимоги до вибірки: репрезентативність та
однорідність.
Щоби бути репрезентативною, вибірка має
1) рівномірно розподілятися по генеральній сукупності та
2) мати достатньо великий обсяг, якого вистачає для правильних
висновків про ГС.
Розрізняють два типи однорідності вибірки: лінгвістична та
статистична.
У межах лінгвістичної однорідності вибірки виділяють:
1) хронологічну (тексти вибірки повинні мати хронологічні
межі);
2) жанрову (тексти вибірки мають бути жанрово обмежені);
3) тематичну (тексти мають бути тематично обмежені).
Статистично однорідною вважають вибірку, в якій досліджувані
одиниці мають статистичну поведінку, яка суттєво між собою не
відрізняється. Якщо середня частота явища (літери, морфеми, слова,
довжини слова, довжини речення і т.ін.) в одній вибірці суттєво не
відрізняється від його частоти в інших вибірках, то ці вибірки
статистично однорідні стосовно цього явища.

За способом організації виділяють такі різновиди вибірок:


1) механічна — організована з урахуванням рівномірності
розподілу досліджуваної одиниці по генеральній сукупності. Всі
тексти генеральної сукупності перенумеровують, а потім, наприклад,
з кожного п'ятого, десятого, двадцятого тексту вибирають відрізок
необхідної довжини.
2) випадкова — організована шляхом випадкового вибору
текстів з генеральної сукупності. В основі такого методу організації
вибірки лежить гіпотеза про те, що досить велика кількість навздогад
відібраних одиниць з генеральної сукупності має адекватно її
представляти. Тож кожна сторінка, розділ чи інша одиниця тексту
генеральної сукупності повинні мати однаковий шанс потрапити до
вибірки. Тому, як правило, випадкова вибірка ґрунтується на таблиці
випадкових чисел.
3) зональна (типова) — організована на основі лінгвістично
однорідної сукупності текстів, тобто зони. Зоною залежно від мети
дослідження вважають прозу, поезію та драму в художній літературі;
твори одного автора або конкретний твір; сукупність слів певної
морфемної структури (наприклад, префіксальних або
одноморфемних) тощо.
Вибірка може бути структурною, тобто складатися із менших
частин, які називають підвибірками, та неструктурною, тобто
суцільною.
Одним з найосновніших понять статистичної лінгвістики є
частота досліджуваної одиниці.
Абсолютна частота — це кількість вживань певної одиниці
(літери, слова, словоформи, словосполучення, речення тощо) в
обстеженому матеріалі.
Відносна частота — відношення абсолютної частоти певної
одиниці у вибірці до обсягу вибірки. Вимірюється у відсотках (%) або
в частках 1 (наприклад, 25% або 0,25). Так, у реченні Говорили око в
око абсолютна частота слова око — 2, а відносна — 2/4 = 0,25 або
25%.
Проте в різних підвибірках частота одиниці звичайно неоднакова.
У таких випадках належить оперувати середньою частотою. Це
відношення суми абсолютних частот певної одиниці у
підвибірках до кількості підвибірок. Наприклад, якщо у трьох
підвибірках, з яких складається вибірка, слово "яскраво" має
абсолютні частоти 4, 6 і 8, то його середня частота у вибірці буде (4 +
6 + 8) / 3 = 6. Якщо середня частота більша за одиницю, то доцільно її
рахувати з точністю до сотих (два знаки після коми), якщо менша за
одиницю, то її треба рахувати до другого знака після коми або до
третього знака, якщо після коми йде нуль.

Частотний словник публіцистики


publicist Код

Всього записів: 3

Слово Частин Абсолютн Поле Поле Поле Поле


а мови а частота 5 6 7 8
ЛЮБОВ К 31 0.1033 0.0249 4.1735 0.7586
ЛЮБОВНИ А 4 0.013 0.006 8.602 0.502
Й 3 6 3 5
ЛЮБОВНО Н 1 0.0033 - - -

Поет: Загальний словник


Всього записів: 6
Слово Частина Абсолютна Середня Середньоквадратичне Коефіціент
мови частота частота відхилення стабільності
любов ім.ж.р.вл. 18 0,06 0,2374868 7
любов ім.ж.р. 336 1,12 1,605906 9
любове ім.ж.р. 19 0,06333333 0,3454305 6
любов- ім.ч.р. 1 0,003333333 0,05763872 0
лелека
любовний ад'єктив 10 0,03333334 0,1795055 6
любов- ім.ж.р. 1 0,003333333 0,05763872 0
німота

Використання кількісних методів під час описування


функціювання мови мало чим відрізняється від використання
аналогічного інструментарію в природничих та гуманітарних науках.
Використання методів вимірювання та підрахунку мовних реалізацій
дає змогу, проте, суттєво модифікувати уявлення про мовну систему
та про можливості її функціювання. У цьому сенсі квантитативна
лінгвістика виявляється важливим чинником, який впливає на
лінгвістичну теорію. Наприклад. у сфері граматики теоретична
лінгвістика, як правило, обмежується констатацією існування в
українській мові системи відмінків. Зі структурного погляду цього,
можливо, й достатньо. Проте поза межами обговорення залишається
вельми суттєва інформація про те, як часто використовуються різні
відмінки, якою є динаміка використання різних відмінків з плином
часу. Такі дослідження дали б змогу виявити тенденції розвитку
відмінкової системи і на цій підставі сформулювати гіпотези про
майбутній стан граматичної системи мови.
Інший приклад. Із системного погляду в російській, англійській
та латинський мові є форма називного відмінка однини особових
займенників. Проте в англійській мові при дієслові ця форма
займенника практично завжди необхідна, у російській мові –
займенник в цих випадках звичайно представлений, а в латині – як
правило, їх нема. Відсутність достовірних кількісних даних про ці
мовні явища робить структурний опис явно недостатнім.
Подібні проблеми виникають й у сфері лексики. Звичайні
тлумачні словники не подають у складі словникової статті інформації
про частоту вживання тієї чи іншої лексеми. Це пов’язано з дуже
великим обсягом роботи, який необхідно виконати, щоб для кожного
слова вказати хоча б які-небудь межі частотності (пор. позначки
маловживане, частотне, високочастотне). Для користувача словника
така інформація може бути дуже важливою, часто вирішальною для
ухвалення рішення про використання слова.
З теоретичного погляду використання статистичних поглядів в
мовознавстві дозволяє доповнити структурну модель мови
ймовірнісним компонентом, тобто створити структурно-ймовірнісну
модель, яка має значний пояснювальний потенціал.
До таких моделей належить, наприклад, «модель життєвого
потенціалу слова», запропонована А.А.Полікарповим (Поликарпов
1988). Проведений ним квантитативний аналіз засвідчив, що в
достатньо значній часовій перспективі є явна тенденція до
збільшення ступеня абстрактності значень у багатозначного слова –
чим пізніше виникає значення, тим воно абстрактніше. Розроблена
кількісна модель дає змогу зробити передбачення про відносний
«вік» різних частин мови, тенденцій розвитку лексичної системи
мови.
Основні галузі використання структурно-ймовірнісної моделі
мови. Лінгвістичне спостереження за функціюванням мови.
Задача лінгвістичного спостереження полягає у виявленні загальних
особливостей функціювання мовної системи в конкретному типі
дискурсу (науковому, політичному дискурсі, текстах засобів масової
інформації. Як предмет лінгвістичного спостереження можуть
виступати такі феномени природної мови, як типи мовних помилок,
сфера іншомовних запозичень, нові слова та значення, нові
(креативні, творчі – не конвенційні) метафори, тематичний розподіл
лексики (наприклад, лексика часових та просторових відношень,
лексика вираження відчуттів та емоцій, спортивна лексика тощо).
Технологія лінгвістичного спостереження ґрунтується на двох
вихідних твердженнях:
по-перше, на регулярності і періодичності аналізованих даних,
і,
по-друге, на достатньо великому обсязі використовуваного
матеріалу, на репрезентативності вибірки даних.
Через це лінгвістичне спостереження неможливе без відповідного
комп’ютерного забезпечення. Використання комп’ютерної технології
дає змогу кількісно оцінювати досліджуваний феномен, виявляючи
його розподіл за часом, за джерелами, авторами тощо.
Інформація про статистичні закономірності функціювання мовної
системи лежить в основі деяких методик аналізу даних,
розроблюваних у політичній лінгвістиці. До них належить, зокрема,
методика контент-аналізу, використовувана для виявлення
структури і стану суспільної свідомості. За допомогою контент-
аналізу з’являється змога за частотою вживання слів реконструювати,
наприклад, ціннісні орієнтації суспільства, виявляти актуальні теми
публічної політики, оцінювати динаміку змін тематики політичних
дискусій тощо.

Комп’ютерне моделювання мови та мовлення. Інша важлива


галузь прикладного використання знань про частоту використання
тих чи інших мовних структур – комп’ютерна лінгвістика. Багато
комп’ютерних програм, пов’язаних із функціюванням мови,
використовують алгоритми, засновані на даних про частотність
уживання фонем, морфем, лексичних одиниць та синтаксичних
конструкцій. Програми автоматичного коректування орфографії
містять словники, як правило, лише найчастотніших слів. Аналогічні
словники використовують у програмах автоматичного розпізнавання
писемного тексту та мовлення (типу Fine Rider). Абсолютну
частотність появи слів (особливо термінологічної лексики)
використовують в системах автоматичного анотування та
реферування. Так, згідно зі статистико-дистрибутивним методом
автоматичного індексування інформативними для певного тексту
вважають нагромадження слів, розташованих достатньо близько одне
від одного, частотність яких перевищує певну порогову величину,
наприклад, середню частотність слів у документі (метод ACSI-Matic).
Дешифрування кодованого тексту. У процесі дешифрування
також можуть використовуватися дані про частотність вживання
графем, морфем і слів, а також про їхнє взаємне розташування. До
цього часу розроблено продуктивні алгоритми дешифрування,
засновані на частотності та дистрибуції елементів кодованого тексту.
Пор. дешифрувальні алгоритми Б.В.Сухотіна; статистико-
комбінаторний метод Н.Д.Андреєва. Близькі до задач дешифрування
формальні процедури «відкриття» морфемного складу неописаної
мови, запропоновані З. Гаррісом.

Авторизація/атрибуція тексту. Проблема авторизації тексту


належить до кола класичних проблем філологічного дослідження.
Часто цю проблему розглядають у межах «кількісної стилістики» -
стилеметрії. Авторизація містить як літературний, так і лінгвальний
складник.
Цю проблему досліджував В.В.Виноградов, однак чинники
атрибуції текстів, які він виокремив, важко було формалізувати.
Тобто різні дослідники, використовуючи ці чинники, могли дійти
різних висновків.
Перспективу об’єктивації експертного знання було знайдено у
використанні кількісних, статистичних методів аналізу текстів.
Піонером в цій галузі став Н.А.Морозов, який опублікував у 1915 р.
працю «Лінгвістичні спектри. Засіб, щоб відрізнити плагіати від
істинних творів того чи іншого відомого автора. Стилеметричний
етюд». Важливо, що у квантитативному аналізі Морозов пропонував
спиратися не на тематично пов’язану лексику – слова, які визначає
специфіка описуваного матеріалу, його предметна і проблемна
орієнтація, - а на службові слова й слова тематично нейтральні.
Справа в тому, що власне особливості вживання службових слів, слів
із загальною семантикою, неприв’язаною до тематики художнього
твору, формують авторський стиль і практично не піддаються
імітації.
Сьогодні розвиток методик авторизації тексту найпродуктивніше
відбувається в межах стилеметрії. Лінгвістичні підстави авторизації
можуть бути різними, але використання кількісних методів аналізу є
неминучим. Однин із перспективних напрямків в цій галузі -
залучення до авторизації текстів теорії розпізнавання образів. За
такого підходу стиль описують як простір параметрів, які можна
виразити кількісно, - середня довжина речення, кількість вкладених
синтаксичних структур, кількість слів у реченні, кількість речень в
абзаці тощо. Далі кожний аналізований текст виражають через
вектор, координати якого задають значеннями вибраних параметрів.
Подібність векторів визначає і подібність стилів (Марусенко 1990,
1996).
Розробляють підходи, засновані на вивченні кількісних
особливостей реалізації синтаксичних структур (Севбо 1981), а також
на виявленні деяких особливостей формальної структури тексту,
пов’язаних з вираженням чужого та авторського мовлення.
Співвідношення чужого мовлення (прямого. змішаного, вкладеного) з
авторським виявляються стилеутворювальним чинником. Цю
характеристику стилю відображено у «формально-пунктуаційному»
методі структуризації тексту, який реалізовано в комп’ютерній
системі DISSKOTE Гринбаум 1996).
======
le même
======

Прикладні аспекти квантитативної лінгвістики

План роботи
1. Проблематика квантитативной лінгвістики з теоретичної та прикладної
точок зору
2. Основні галузі застосування структурно-ймовірнісної моделі мови
3. Авторизація тексту: приклад експертизи

1. Проблематика квантитативной лінгвістики з теоретичної та прикладної


точок зору
Назва «квантитативна лінгвістика» досить умовно, хоча і досить широко
використовується в сучасній науковій літературі. Воно характеризує
міждисциплінарний напрям у прикладних дослідженнях, в якому в якості
основного інструменту вивчення мови та мовлення використовуються кількісні
або статистичні методи аналізу. Іноді квантитативних (або кількісна)
лінгвістика протиставляється комбінаторної лінгвістиці. В останній домінуючу
роль займає «некількісних» математичний апарат теорія множин, математична
логіка, теорія алгоритмів і т.д.
Застосування кількісних методів при описі функціонування мови мало чим
відрізняється від використання аналогічного інструментарію в природничих і
гуманітарних науках. Залучення методів вимірювання та підрахунку мовних
реалізацій дозволяє, проте, істотно модифіковані уявлення про мовну систему
та можливості її функціонування. У цьому відношенні квантитативних
лінгвістика виявляється найважливішим фактором, що впливає на лінгвістичну
теорію. Наприклад, у сфері граматики теоретична лінгвістика, як правило,
обмежується констатацією існування в російській мові системи відмінків. Зі
структурної точки зору цього, бути може, й досить. Тим часом за рамками
обговорення залишається вельми істотна інформація про те, як часто
використовуються різні відмінки, яка динамка використання різних відмінків з
плином часу. Дослідження такого роду дозволило б виявити тенденції розвитку
відмінкової системи і на основі цього навіть сформулювати гіпотези про
майбутній стан граматичної системи російської мови.
Інший приклад. З системної точки зору в російській, англійській і
латинською мовами є форма називного відмінка однини особових займенників.
Проте в англійській мові при дієслові ця форма займенника практично завжди
необхідна, в російській - займенник у цих випадках зазвичай представлено, а в
латині - як правило, відсутня. Відсутність достовірних кількісних даних про ці
мовних явищах робить структурний опис явно недостатнім. Зрозуміло, є і
змішані випадки.
Близькі проблеми виникають і в сфері лексики. Звичайні тлумачні
словники не поміщають в складі словникової статті інформації про частоту
використання тієї чи іншої лексеми. Це пов'язано з дуже великим обсягом
роботи, який треба виконати, щоб для кожного слова вказати хоч якісь рамки
частотності. Для користувача словника така інформація може виявитися дуже
важливою, часто вирішальною для прийняття рішення про використання слова.
Ср, наприклад, високочастотні в публіцистиці ідіоми з голови до ніг / з ніг до
голови (48 входжень на 21 млн слововживань), цілком і повністю (49 входжень
на 21 млн), на всі сто (42 входження на 21 млн), рівним рахунком, ні більше ні
менше (71 входження на 21 млн), ні багато, ні мало (133 входження на 21 млн) і
дуже рідкісні для газетно-журнального стилю висловлювання море розливане
(9 входжень на 21 млн), (і) старий і млад (8 входжень на 21 млн), різні різниці (1
входження на 21 млн)).
З теоретичної точки зору використання статистичних методів у
мовознавстві дозволяє доповнити структурну модель мови імовірнісним
компонентом, тобто створити структурно-імовірнісну модель, що володіє
значним пояснювальним потенціалом. Цю сторону використання кількісних
методів слід вважати додатком статистики в мовознавстві. До моделей такого
роду відноситься, наприклад, «модель життєвого циклу слова», запропонована
А. А. Полікарповим. Проведений ним квантитативних аналіз показав, що в
досить значній часовій перспективі є явна тенденція до збільшення ступеня
абстрактності значень у багатозначного слова - чим пізніше виникає значення,
тим воно більш абстрактно. Розроблена кількісна модель дозволяє робити
цікаві припущення про відносне «віці» різних частин мови, тенденцій розвитку
лексичної системи мови і т.д.
З наведеного прикладу видно, що завдання побудови структурно
ймовірнісної моделі функціонування мови відноситься до теоретичних проблем
лінгвістики і входить в компетенцію теорії мови. У прикладній же області
квантитативних лінгвістика представлена перш за все використанням
фрагментів цієї моделі.
2. Основні галузі застосування структурно-ймовірнісної моделі мови

Лінгвістичний моніторинг функціонування мови. Завдання лінгвістичного


моніторингу полягає у виявленні загальних особливостей функціонування мовної
системи в конкретному типі дискурсу (науковому, політичному дискурсі, текстах
засобів масової інформації і т.д.). Як предмет лінгвістичного моніторингу можуть
виступати такі феномени природної мови, як типи мовних помилок, сфера
іноземних запозичень, нові слова і значення, нові (креативні, творчі - не
конвенціональні) метафори, тематичний розподіл лексики (наприклад, лексика
тимчасових і просторових відносин, лексика вираження почуттів та емоцій,
спортивна лексика і т.д.), особливості використання в текстах тих або інших
граматичних форм, синтаксичних конструкцій. Технологія лінгвістичного
моніторингу грунтується на двох найважливіших передумови: по-перше, на
регулярності і періодичності аналізованих даних, і, по-друге - на досить великому
обсязі притягається матеріалу, на репрезентативності вибірки даних. У силу цього
лінгвістичний моніторинг неможливий без відповідного комп'ютерного
забезпечення. Використання комп'ютерної технології дозволяє давати оцінку
досліджуваного феномену, вишукуючи його розподіл за часом, за джерелами,
авторам і т.д.

Інформація про статистичні закономірності функціонування мовної системи


лежить в основі деяких методик аналізу даних, що розробляються в політичній
лінгвістиці. До них належить, зокрема, методика контентаналіза, використовувана
для виявлення структури та стану суспільної свідомості. За допомогою
контентаналіза з'являється можливість за частотою вживання лексем
реконструювати, наприклад, ціннісні орієнтації суспільства, виявляти актуальні
теми публічної політики, оцінювати динаміку зміни тематики політичних
дискусій, тощо.
Комп'ютерне моделювання мови й мови. Інша важлива область прикладного
використання знань про частоту використання тих чи інших мовних структур -
комп'ютерна лінгвістика. Багато комп'ютерні програми, пов'язані з
функціонуванням мови, використовують алгоритми, що грунтуються на даних про
частоту вживання фонем, морфем, лексичних одиниць і синтаксичних
конструкцій. Наприклад, програми автоматичної корекції орфографії містять
словники, як правило, тільки найбільш частотних лексем. Рідкісні слова
користувач може вводити в свій індивідуальний словник. Аналогічні словники
використовуються в програмах автоматичного розпізнавання письмового тексту й
мови (типу Fine Reader). Абсолютна частота появи лексем (особливо
термінологічної лексики) використовується в системах автоматичного анотування
та реферування. Так, згідно статистико-дистрибутивного методу автоматичного
індексування інформативними для даного тексту вважаються скупчення слів,
розташованих досить близько один від одного, частота яких перевершує деяку
порогову величину, наприклад, середню частоту слів у документі (метод ACSI -
Matic).

Дешифрування кодованого тексту. У процесі дешифрування також можуть


використовуватися дані про частоту вживання графем, морфем і слів, а також їх
взаємне розташування. До теперішнього часу розроблені продуктивні алгоритми
дешифрування, засновані на частоті та дистрибуції елементів кодованого тексту,
порівн. деші-Фровочние алгоритми Б. В. Сухотина, статистико-комбінаторний
метод М. Д. Андрєєва. Близькі до завдань дешифрування формальні процедури
«відкриття» морфемного складу неописаної мови, запропоновані 3. Харрісом.

Авторизація атрибуція тексту. Проблема авторизації тексту належить до


числа класичних проблем філологічного дослідження. Часто вона розглядається в
рамках «кількісної стилістики» - стилеметрії. Авторизація включає як літературну,
так і лінгвістичну складову. В. В. Виноградов у книзі «Проблема авторства та
теорія стилів» сформулював типологію факторів атрибуції тексту. До суб'єктивних
чинників він відносить:

а) суб'єктивно-комерційні;
б) суб'єктивно-кон'юнктурні;

в) суб'єктивно-естетичні;

г) суб'єктивно-психологічні;

д) суб'єктивно-ідеологічні чинники.

Є й об'єктивні чинники:

а) документально-рукописні (археологічні);

б) історичні (біографії, свідчення сучасників);

в) історико-ідеологічні та зіставно-ідеологічні;

г) історико-стилістичні;

д) художньо-стилістичні;

е) мовностилістичні. Проте чисто філологічний напрямок авторизації не


дозволяє побудувати об'єктивні операціональні критерії аналізу та атрибуції
тексту. На жаль, більшість факторів, на які звертає увагу В. В. Виноградов, погано
формалiзуються,. Іншими словами, різні експерти, використовуючи одні й ті ж
фактори, можуть зробити абсолютно різні висновки.

Перспектива об'єктивізації експертного знання була виявлена у


використанні кількісних, статистичних методів аналізу тексту. Піонером у цій
області став Н. А. Морозов, перу якого належить опублікована в 1915 р. робота
«Лінгвістичні спектри. Засіб для відмінності плагіат від істинних творів того чи
іншого відомого автора. Стилеметричних етюд ». Істотно, що в квантитативно
аналізі Морозов пропонував спиратися не на тематично пов'язану лексику слова,
зумовлені специфікою описуваного матеріалу, його предметної і проблемної
орієнтацією, - а на службові слова і слова тематично нейтральні. Справа в тому,
що саме особливості вживання службових слів, лексем із загальною семантикою,
не прив'язаної до тематики художнього твору, формують авторський стиль і
практично не піддаються імітації.
В даний час розвиток методик авторизації тексту найбільш продуктивно
проходить в рамках стилеметрії. Лінгвістичні підстави авторизації можуть бути
різні, але використання кількісних методів аналізу виявляється неминучим. Один
із перспективних напрямів у цій області - залучення до авторизації тексту теорії
розпізнавання образів. При такому підході стиль описується як простір кількісно
виразність параметрів - середня довжина речення, кількість вкладених
синтаксичних структур, кількість слів у реченні, кількість пропозицій в абзаці і
т.д. Далі кожен аналізований текст виражається через вектор, координати якого
задаються значеннями вибраних параметрів. Подібність векторів визначає і
схожість стилів.

Розробляються підходи, засновані на вивченні кількісних особливостей


реалізації синтаксичних структур, а також на виявленні деяких особливостей
формальної структури тексту, пов'язаних з виразом типів чужий і авторській мові.
Співвідношення чужої мови (прямий, змішаної, вкладеної) з авторською також
виявляється стілеобразующим чинником. Ця характеристика стилю відображена в
«формально-пунктуаційно» методі структуризації тексту, який реалізований у
комп'ютерній системі DISSKOTE [Грінбаум 1996]. Нижче розбирається приклад
авторської експертизи тексту, заснований на методиці аналізу квазісінонімічних
лексем.

3. Авторизація тексту: приклад експертизи

Одна з найбільш поширених областей використання знань про статистичні


закономірності мовних явищ - експертиза авторства тексту. Типологічно можна
подати такі базові ситуації експертного аналізу.

A. Множинна невизначеність. Є безліч текстів чи їх фрагментів. Необхідно


встановити, скільком авторам належать тексти, і атрибутувати кожен текст
конкретному автору. Це, зрозуміло, найбільш складний випадок аналізу.

Б. Порівняння за зразком. Є приклад тексту (текстів) деякого автора X.


Необхідно встановити, чи є він і автором деякого іншого тексту (текстів).
B. Конкуренція зразків. Є зразки текстів авторів X, Y, Z ... . Необхідно
встановити, хто з них є автором текстів Т 1, Т 2, ... , Т n

Наведена нижче експертиза вписується в рамки випадку В. Мова йшла про


спірне авторство. Як матеріал для дослідження були отримані тексти наступних
творів: «Слідчий президента», «Смоленська площа», «Божевільні очі», «У гонитві
за невидимим вбивцею», «Незнайомець"; «Шакали»; «Важке рішення».

Тексти були представлені в друкованій та електронній формі (файли у


форматі DOS TEXT). Вибіркове порівняння файлів і сторінок друкованих текстів
творів показало, що вони повністю збігаються з точністю до розмітки гарнітури і
графічних вьщеленій у файлах. При комп'ютерній обробці символи розмітки не
враховувалися.

Вихідна проблема експертизи була сформульована наступним чином.


Автором творів «Божевільні очі», «У гонитві за невидимим вбивцею»,
«Незнайомець" є Е. Плющіхін, а творів «Шакали», «Важке рішення» - В.
Непомнящий. Авторство творів «Слідчий президента», «Смоленська площа» є
предметом спору.

У процесі проведення експертизи необхідно було підготувати відповідь на


наступні питання:

1. Чи є специфічні мовні особливості, що відрізняють твори В. Непомнящего


«Шакали», «Важке рішення» від творів Е. Плющіхіна «Божевільні очі», «У
гонитві за невидимим вбивцею», «Незнайомець", а також від спірної групи
творів - «Слідчий президента »,« Смоленська площа »?
2. Чи є специфічні мовні особливості, характерні одночасно для творів Е.
Плющіхіна «Божевільні очі», «У гонитві за невидимим вбивцею»,
«Незнайомець" і спірною групи творів «Слідчий президента», «Смоленська
площа», але не притаманні творам В. Непомнящего «Шакали» і «Важке
рішення»?
3. Чи можна вважати, що виявлені мовні особливості є істотною рисою
авторських стилів названих письменників і можуть використовуватися при
встановленні авторства художнього тексту?

У дослідженні з експертизи використовувалася методика кількісного аналізу


квазісінонімічних лексем. Сутність методики полягає у виявленні авторських
переваг у виборі з групи квазісінонімов - близьких за значенням слів або стійких
словосполучень (фразеологізмів). У літературознавстві та структурної поетиці
близькі методи залучаються для характеристики стилю письменника та
особливостей його бачення світу. Цікаву інформацію про идиолекте письменника
дає вивчення частотних характеристик службових і модальних слів. Так, частки
хіба і невже по-різному розподілені в романах М. Булгакова «Майстер і
Маргарита» і «Біла гвардія»: хіба значно частіше зустрічається в «Майстрі і
Маргариті», а невже - навпаки. Значення частки хіба передбачає більш активну,
дієву позицію опонента, що ставить під сумнів деякий стан справ. На противагу
хіба частка невже скоріше вказує на те, що деякий стан справ практично
приймається мовцем і він лише дивується, дивується, чому воно має місце.
Враховуючи значення цих частинок, зазначені факти розподілу хіба і невже можна
інтерпретувати як лінгвістичний корелят авторської позиції в зображенні подій і
дій героїв: щось на кшталт пасивного «подиву», «здивування» автора у «Білій
гвардії» і при активному сприйнятті реальності в «Майстрі і Маргариті ».

Такі «сплески» розподілу частот службових і модальних слів


характеризують не тільки окремі тексти художньої прози, а й виявляються
характерологічними для одного письменника, опиняючись поверхневим проявом
його ідеологічної і творчої позиції. Явна нестандартність розподілу частоти деяких
службових слів спостерігається і в творах Ф. М. Достоєвського.

У художніх текстах Достоєвського ми зустрічаємося з абсолютно іншою


ситуацією: на одне вживання щонайменше доводиться 342,5 вживань принаймні
(принаймні - 685 входжень по 35 художніми текстами, щонайменше - 2 входження
по 35 художніми текстами). Всього вживань щонайменше три, але одне з них
припадає на контекст, більш підходящий для принаймні
На противагу щонайменше, принаймні з переконливістю відноситься до слів
Достоєвського. Конкорданси на це словосполучення займають більше двохсот
сторінок тексту.

Можна було б подумати, що в російській мові часів Достоєвського розподіл


між принаймні і щонайменше було саме таким: частота принаймні істотно
перевершувала частоту щонайменше. Однак це не так. Попередній аналіз корпусу
текстів Гоголя (близько трьох мегабайт) показує, що різниця в частотності цих
одиниць не така велика, як у Достоєвського: на 1 вживання щонайменше - 83
вживання принаймні. Досить імовірно, що у сфері публіцистики того часу
відмінність в частоті вживання щонайменше і принаймні було ще меншим і
наближалося до сучасної норми. Тут теж можна бачити корелят авторського
бачення світу, авторського стилю.

За отриманими файлами творів Е. Плющіхіна, В. Непомнящего і спірних


творів (для кожного тексту окремо і споживачем гуртам - спірна група »,« група
творів Плющіхіна »,« група творів Непомнящего ») були складені словники з
зазначенням абсолютної і відносної частоти вживання (загальна кількість
слововживань за творами і по групах див. у додатку до експертизи). Для
комп'ютерної обробки використовувалася програма DIALEX і база даних ACCESS
7 у середовищі Windows.

Зі сфери аналізу були виключені слова з предметним значенням, частота


вживання яких визначається конкретною проблемною областю. Були
проаналізовані групи квазісінонімов для наступних шарів лексичної системи мови:

 прислівники,
 частинки,

 вступні слова і вирази,

 фразеологічні вирази (ідіоми),

 дієслова мовлення,

 сполучники і сполучні слова.


Розглянемо послідовно приклади квазісінонімов з кожної групи лексем.
Прислівники ступеня. Перша проаналізована група - прислівники зі значенням
неповноти якого-небудь властивості, характеристики - ледь й небагато. Ці
прислівники в багатьох контекстах близькі за значенням. Однак стилістичні
переваги авторів виявляються в тенденціях вибору цих слів. Відносна частота
майже і трохи для спірних творів та творів Плющіхіна практично ідентична,
проте вона істотно відрізняється від відносної частоти вживання цих одиниць у
Непомнящего: ледь = 0,007% (спірні), 0,006% (Плющіхін), 0,018% (Непомнящий);
трохи = 0,002 % (спірні), 0,002% (Плющіхін), 0,031% (Непомнящий) (див. табл. 1).

Таблиця 1

Спірні твори Твори Плющіхіна Твори Непомнящего

Абсолют. Відносить. Абсолют. Відносить. Абсолют. Відносить.


частота частота частота частота частота частота
11 +18 =
Ледве 6 +7 = 0,007%
16)
12 +3 +12 0,006% 29 0,018%
Трохи 13 2 +1 = 0,002% = 27 1 +2 0,002% 0,031%
3 +2 = 5 25 +25 =
50

Друга група досліджених прислівників мірою характеризує ступінь)


очікування деякої події. До них відносяться лексеми раптом, раптово,
несподівано. Всі ці прислівники дуже близькі за значенням. Тим самим їх
частотний розподіл може розглядатися як характеристика авторського стилю.
Аналіз показує, що відносні частоти вживання прислівників раптом, раптово і
несподівано в творах «спірною групи» і творів Плющіхіна практично збігаються:
раптом - 0,052% (спірні), 0,05% (Плющіхін); раптово - 0,001% (спірні), 0,000%
(Плющіхін); несподівано - 0,007% (спірні), 0,006% (Плющіхін) (див. табл. 2).
Відносні частоти відповідних прислівників у групі творів Непомнящего істотно
відрізняються від перших двох груп: раптом - 0,065%; раптово - 0,005%;
несподівано - 0,016%.

You might also like