Download as pdf or txt
Download as pdf or txt
You are on page 1of 14

МОНГОЛ УЛСЫН БОЛОВСРОЛ, СОЁЛ, ШИНЖЛЭХ УХААНЫ ЯАМ

МОНГОЛ УЛСЫН ШИНЖЛЭХ УХААН ТЕХНОЛОГИЙН ИХ СУРГУУЛЬ

АЮУШИЙН АЛТАНГЭРЭЛ

МОНГОЛ ХЭЛНИЙ ЯРИА ТАНИЛТЫН СУДАЛГАА

Мэргэжил: F-524301-Мэдээллийн технологи

Докторын (Ph.D)-ын зэрэг горилсон нэг сэдэвт бүтээл

Эрдэм шинжилгээний удирдагч


профессор, доктор (Ph.D) Б.Дамдинсүрэн

Улаанбаатар 2012 он
ГАРЧИГ

УДИРТГАЛ 1
INRODUCTION 4
НЭГДҮГЭЭР БҮЛЭГ. ЯРИАГ АВТОМАТААР ТАНИХ 8
Яриаг автоматаар таних
1.1. Яриа танилтын системийн хэрэглээ 11
1.2. Яриа танилтын товч түүх 12
1.3. Яриа таних асуудлыг томъёолох 14
1.4. Ярианы дохиог параметрчлэх 15
1.4.1. Мел давтамжийн спектрийн коэффициент(MFCC) 17
1.4.1.1. Өсгөлт 18
1.4.1.2. Фреймчлэх 19
1.4.1.3. Цонхны функцээр үржүүлэх 19
1.4.1.4. Фурьегийн хувиргалт 21
1.4.1.5. Шүүр 22
1.4.1.6. Логарифмчлах 26
1.4.1.7. Косинусын хувиргалт 26
1.4.2. Шугаман тааварлалтын арга 28

1.5. Нуугдмал марковын процесс 31


1.5.1. Дискрет хугацаатай төгсгөлөг төлөвт марковын процесс 31
1.5.2. Дискрет хугацаатай төгсгөлөг төлөвт марковын нуугдмал 32
загвар
1.5.2.1. Үнэлгээ 33
1.5.2.1.1. Шууд алгоритм 34
1.5.2.1.2. Урвуу алгоритм 34
1.5.2.2. Танилт 35
1.5.2.2.1. Витерби алгоритм 35
1.5.2.3. Сургалт 37
1.5.3. Онцлог шинжийн векторын тархалт 38

2
ХОЁРДУГААР БҮЛЭГ

Орчин цагийн монгол хэлний авиа зүй 41


2.1. Монгол хэлний авиазүйн судалгаа 42
2.1.1. Өгүүлэхүйн талаас авианы судалгаа 42
2.1.1.1. Монгол хэлний гийгүүлэгч авиа 43
2.1.1.2. Монгол хэлний эгшиг авиа 45
2.1.2. Авианы спектрийн судалгаа 47

ГУРАВДУГААР БҮЛЭГ

Яриа танилт 55
3.1. Монгол хэлний акустик загвар байгуулах 55
3.1.1. Ярианы корпус 56
3.1.1.1. Ярианы сан үүсгэх 58
3.1.1.2. Галиглалт хийх 62
3.1.2. Акустик загвар байгуулах 68
3.1.2.1. Шууд ба урвуу алгоритм 74
3.1.2.2. Гурван авианы загвар 77
3.2. Хэлний загвар байгуулах 78
3.2.1. N- грам хэлний загвар 78
3.2.1.1. Лапласын алгоритм 80
3.2.1.2. Good-Turing алгоритм 80
3.2.1.3. Backoff алгоритм 81
3.3. Туршилт 85

Ерөнхий дүгнэлт 86
Ном зүй 87
Хавсралт 94

3
ЗУРГИЙН ЖАГСААЛТ

Зураг 1.1 Яриа таних системийн блок схем 15


Зураг 1.2 Ярианы дохиог параметрчлэх аргуудын блок схем 16
Зураг 1.3 Кепстрийн коэффициентийг гарган авах дараалал 17
Зураг 1.4 [a] авианы дохио, өсгөгдсөн дохио 18
Зураг 1.5 [a] авианы спектрийн энерги, өсгөгдсөн спектрийн энерги 18
Зураг 1.6 Фреймчлэх процесс 19
Зураг 1.7 Хаммингийн цонхны функцийн график 20
Зураг 1.8 [a] авианы нэг фрейм 21
Зураг 1.9 [a] авианы спектр 22
Зураг 1.10 Чихний дунгийн давтамжийн байрлал 23
Зураг 1.11 Давтамжийн шугаман ба мел хэмжээсийн хамаарал 24
Зураг 1.12 Гурвалжин шүүр 25
Зураг 1.13 MFCC, PLP аргуудын харьцуулалт 28
Зураг 1.14 Давтамжийн шугаман ба барк хэмжээсийн хамаарал 29
Зураг 1.15 Барк шүүр 30
Зураг 1.16 Хүний чихний дууг хүлээн авах чангарлын түвшин 30
Зураг 1.17 Нуугдмал марковын загвар 33
Зураг 1.18 Шууд алгоритмын хэрэгжилт 34
Зураг 1.19 Урвуу алгоритмын хэрэгжилт 35
Зураг 1.20 Битерби алгоритмын хэрэгжилт 36
Зураг 2.1 Монгол хэлний гийгүүлэгч авианы IPA дээрх дүрслэл 45
Зураг 2.2 [a], [e], [i], [o] эгшиг авиануудын спектрограм 48
Зураг 2.3 Эмэгтэй хүнээр хэлэгдсэн эгшиг авиануудын формантын тархалт 49
Зураг 2.4 Эрэгтэй хүнээр хэлэгдсэн эгшиг авиануудын формантын тархалт 51
Зураг 2.5 Эгшиг авиануудын формант 1, формант 2-ийн тархалт 52
Зураг 2.6 Монгол хэлний эгшиг авианы өгүүлэхүүн байрлал 52
Зураг 2.7 [sh] авианы спектрограм 53
Зураг 2.8 Хамрын авианы спектрограм 53
Зураг 2.9 Тэсрэлттэй k авианы спектрограм 54
Зураг 2.10 Тэсрэлттэй t, d авианы спектрограм 54
Зураг 3.1 Ярианы таних системийн урсгалын диаграмм 55

4
Зураг 3.2 Ярианы корпус үүсгэх схем 58
Зураг 3.3 Зүүнээс баруун чиглэлтэй нуугдмал марковын загвар 68
Зураг 3.4 Нуугдмал марковын эхний загварыг байгуулах блок схем 72
Зураг 3.5 Нуугдмал марковын загварыг сайжруулах блок схем 74
Зураг 3.6 Гурван авианы загвар 78
Зураг 3.7 Монгол хэлний яриа таних программын интерфейс 86

5
ХҮСНЭГТИЙН ЖАГСААЛТ

Хүснэгт 1.1 Мел шүүрийн утгууд 25


Хүснэгт 2.1 Монгол хэлний эгшиг авиа 46
Хүснэгт 2.2 Эмэгтэй хүнээр хэлэгдсэн эгшиг авиануудын формантууд 48
Хүснэгт-2.3 Эрэгтэй хүнээр хэлэгдсэн эгшиг авиануудын формантууд 50
Хүснэгт-2.4 Эгшиг авиануудын формантууд 51
Хүснэгт 3.1 Хамгийн их давтагдсан үгийн жагсаалт 59
Хүснэгт 3.2 Англи хэлний авианы SAMPA тэмдэглэгээ 63

Хүснэгт 3.3 Монгол хэлний авианы SAMPA тэмдэглэгээ 64


Хүснэгт 3.4 Монгол хэлний гийгүүлэгч авианы SAMPA тэмдэглэгээ 65
Хүснэгт 3.5 Монгол хэлний зөөлөрсөн гийгүүлэгч авианы SAMPA тэмдэглэгээ 66
Хүснэгт 3.6 Авианы давтамж 66
Хүснэгт 3.7 Үг таних системийн үр дүн 85
Хүснэгт 3.8 Үргэлжилсэн яриа таних системийн үр дүн 85

6
ТОВЧИЛСОН ҮГИЙН ЖАГСААЛТ

LPC Linear Predictive Coefficients


MFCC Mel-Frequency Cepstrum Coefficents
PLP Perceptual Linear Predictive
DFT Discrete Fourier Transform
FFT Fast Fourier Transform
HMM Hidden Markov Model
НМЗ Нуугдмал марковын загвар
ФХХ Фурьеэгийн хурдан хувиргалт

УДИРТГАЛ

7
Яриа таних гэдэг нь хүний ярианы дохиог текст руу хөрвүүлэх процессыг хэлнэ.
Өнөөдөр цөөн тооны голлох хэлүүд тухайлбал англи, япон, франц, хятад, итали, араб
зэрэг хэлүүд дээр яриаг автоматаар таних системүүд хийгдэж тодорхой үр дүнд хүрсэн
боловч ихэнх хэл дээр яриа таних судалгаа хийгдээгүй эсвэл судалгааны шатандаа явж
байна. Монгол хэлний яриа танилтын судалгааны ажил 2005 оноос профессор
Б.Дамдинсүрэнгийн удирдлагаар эрчимтэй хийгдэж эхэлсэн ба 2006 онд “Ярианы
дохиог боловсруулах, яриаг таних техник программ хангамжийн систем” сэдэвт
судалгааны ажил, 2007-2010 онд “PAN localization-2” төслийн хүрээнд их хэмжээний
үгийн сантай монгол хэлний үг таних судалгааны ажлууд хийгдсэн.
Яриа боловсруулалтын судалгааны ажлын гол хэсэг нь яриа таних, ярианы
синтез бөгөөд хэл шинжлэл, дохио боловсруулалт, хиймэл оюун ухаан зэрэг олон
салбартай салшгүй холбоотой байдаг. Яриа танилт, ярианы синтезийн гол ялгаа гэвэл
яриа танилт нь яриаг текст болгох, ярианы синтез нь текстийг яриа болгодог.
1960-аад оны сүүл 1970-аад оны эхээр Baum болон түүний хамтрагчид(Eagon,
Petrie, Soules, Weiss) нуугдмал марковын процессыг онолыг хөгжүүлсэн[1][2]. Түүнд
үндэслэсэн загварыг 1970 онд CMU-д Baker, IBM-д Jelinek нар яриа боловсруулалтанд
анх ашигласан[6][7]. Өнөөдөр яриа танилтанд энэ загварыг өргөн ашиглаж байна. Яриа
танилт нь ярианы дохиог параметрчлэх, загвар үүсгэх, таних гэсэн хэсгүүдтэй бөгөөд
өнөөдөр ярианы дохиог параметрчлэхэд МFCC, LPC, PLP зэрэг аргуудыг голлон
ашиглаж байна. 1960 оны сүүлээр шугаман тааамаглалын коэффициентийн арга (Linear
prediction coefficients (LPC)[9][10][11] танилцуулагдсан. Энэ аргын гол санаа нь
дохионы дискретчлэлийн утгыг өмнөх утгуудын шугаман эвлүүлэг хэлбэрээр
илэрхийлдэг бөгөөд ярианы дохионы үндсэн давтамж, формант, спектр зэрэг
параметрүүдийг үнэлэхэд оршдог. 1970 оны эхээр Oppenheim A.V, R.W.Schafer нар
яриа боловсруулалтанд кепстрийг ашигласан[12]. Davis, S.B, P.Mermelstein нар 1980
онд яриа танилтын дохионы боловсруулалтанд ашиглагдах жигд биш алхамтай
давтамжийн шүүр болон дискрет косинусыг ашигласан мел давтамжийн кепстрийн
коэффициент(MFCC) гэж нэрлэгдэх шинэ аргыг гаргасан[8]. Мел давтамжийн
кепстрийн коэффициент нь ярианы бичлэг шуугиан багатай үед илүү үр дүнд хүргэдэг
байна. 1990 оны эхээр Hynek Hermansky нар Relative-Spectral Perceptual linear prediction
(RASTA-PLP) аргыг танилцуулсан[9].

Судалгааны ажлын зорилго, зорилтууд:

8
Энэ судалгааны ажлаар яриа танилтын онолыг судалж, нуугдмал марковын
загварыг ашиглан монгол хэлний яриа таних систем зохион бүтээх зорилго тавьж,
дараах зорилтуудыг дэвшүүлсэн. Үүнд:
1. Нуугдмал марковын загварыг судалж монгол хэлний яриа танилтанд ашиглах;
2. Монгол хэлний туршилтын корпус байгуулах;
3. Байгуулсан монгол хэлний корпусаас үг болон өгүүлбэрүүдийг сонгон авч
ярианы корпус(ярианы файл, ярианы файл дахь үгүүдийн галигийн файл)
байгуулах;
4. Ярианы корпус болон нуугдмал марковын загварыг ашиглан монгол хэлний
акустик загварыг байгуулах;
5. Монгол хэлний акустик загварыг ашиглан монгол хэлний яриа танилтын систем
зохион бүтээх;
Шинэлэг тал:
1. Нуугдмал марковын загварыг монгол хэлний яриа танилтанд ашигласан.
2. Монгол хэлний ярианы корпус байгуулав.
3. Монгол хэлний акустик загвар бий болгов.
4. Монгол хэлний яриа танилтын систем бүтээв.

Практик ач холбогдол:
Яриа танилтын программ нь цаг хугацааг хэмнэх, хэрэглээг хялбарчлах, ажлыг
хөнгөвчлөх зэрэг давуу талтай.

Хамгаалахаар дэвшүүлж байгаа үр дүн:


• Нуугдмал марковын загварт суурилсан монгол хэлний яриа таних систем
• Монгол хэлний ярианы корпус
• Монгол хэлний яриа танилтанд ашиглах акустик загвар

Судалгааны ажлын товч агуулга:


Энэ диссертацийн ажил удиртгал, гурван бүлэг, дүгнэлт, ном зүй, хавсралтаас бүрдэнэ.
Нэгдүгээр бүлэгт: Яриа танилтын талаарх онол болон ярианы дохиог параметрчлэх
аргууд, яриа танилтанд хамгийн өргөн ашиглаж байгаа нуугдмал марковын загварын
онолын талаар авч үзлээ. Яриа танилтын систем нь акустик ба хэлний гэсэн хоёр

9
загвараас тогтдог. Хэл бүр өөрийн гэсэн онцлог акустик шинж чанартай учраас энэ
онцлогийг агуулсан акустик загварыг байгуулах хэрэгтэй байдаг.
Хоёрдугаар бүлэгт: Энд монгол хэлний авиазүйн талаарх судалгааг орууллаа. Хэл
бүрийн авиазүйн судлал нь тухайн хэлний яриа танихад чухал ач холбогдолтой байдаг.
Гуравдугаар бүлэгт: Энэ бүлэгт ярианы корпус үүсгэх, акустик болон хэлний загвар
байгуулах талаар орууллаа. Ярианы корпус нь дууны файл, дууны файл бүр дэх үгийн
галигийг агуулсан текст файлаас тогтох ба энэ нь ярианы акустик загварыг үүсгэхэд
ашиглагддаг. Иймд дууны файл дахь үгүүдийг зөв галигласнаар авиа бүрийн нуугдмал
марковын загвар үнэн зөв үүсэх боломж бүрдэнэ. Монгол хэлний авиаг “SAMPA”
цагаан толгойн тэмдэглэгээний дагуу англи хэлний “SAMPA” цагаан толгойн
тэмдэглэгээтэй харьцуулж тэмдэглэлээ. “SAMPA” гэдэг нь машинаар унших
боломжтой авиазүйн цагаан толгой.

Үр дүнг хэлэлцүүлсэн байдал:


Судалгааны ажлын үр дүнг ШУТИС-ийн МХТС-ийн эрдмийн зөвлөл, зөвлөх комиссын
хурлаар тус тус хэлэлцүүлсэн болно.
Судалгааны ажлын үр дүнгээр дотоодын эрдэм шинжилгээний хуралд 5 илтгэл, олон
улсын эрдэм шинжилгээний хуралд 4 илтгэл хэлэлцүүлж, дотоодод 5 өгүүлэл
хэвлүүлсэн. Мөн судалгааны үр дүнг олон улсын “PAN localization 2” төслийн тайланд
оруулсан болно.

10
INTRODUCTION

Automatic speech recognition is the process by which a machine converts human


speech signal to text. Automatic speech recognition (ASR) systems have been achieved very
good achievements for a small number of major languages, such as English, Japanese,
French, German, Chinese, Italian, Arabic and etc. But most other languages are resource-
deficient, having no database or only sparse databases. Research in automatic speech
recognition for Mongolian language was started from 2005 by Prof B.Damdinsuren and his
colleagues. In 2006, research work of speech signal processing and software and hardware
for speech recognition was done. In 2007-2010, Large Vocabulary Mongolian Isolated Word
recognition system was developed by “PAN localization” project.
Speech processing has two main categories such as speech recognition and speech
synthesis that involves linguistics, signal processing and artificial intelligence etc. Main
difference of speech recognition and speech synthesis is speech synthesis converts text into
speech whereas speech recognition converts speech to text.
The theory of Hidden Markov models was developed in the late 1960s and early 1970s by
Baum and his colleagues(Baum, 1972; Baum & Petrie, 1966)[1][2]. It was applied to speech
processing in the 1970s by Baker at CMU(Baker 1975), and by Jelinek(1976) and his
colleagues at IBM[6][7]. The HMM is widely used in human speech processing. Speech
recognition system consists of three major steps such as speech parameterization,
construction model and decoding. Mel Frequency Cepstral Coefficients(MFCC), Perceptual
Linear Predictiion Coefficients(PLP), Linear Predictiion Cepstral Coefficients(LPC) are
methods used mostly for speech parameterization. The goal of speech parameterization is to
extract from the audio signal the information about the phonemes. LPC were introduced in
the late 1960s[9][10][11]. The basic idea of LPC model is that a given speech sample can be
approximated as a linear combination of past speech samples and was used especially for
estimating basic speech parameters such as pitch, formants and spectra. In early 1970s
Oppenheim with Schafer and Rabiner introduced and used cepstrum techniques in speech
processing applications [12]. MFCC introduced in 1980 by Davis and Mermelstein. MFCC
method is to give better results when audio recordings are of high quality whereas the PLP
performs better when the quality of audio is poor.
In 1990, Hermansky first introduced a new feature extracrion method called Relative Spectral
Linear Prediction (RASTA-PLP) analysis[9].

11
Goal and objectives of the study
The thesis goal is to develop Mongolian speech recognition system based on Hidden Marcov
Models. Following objectives are proposed to achieve the above goal:
1. to study how to use HMM for speech recognition
2. to develop Mongolian language corpus.
3. to develop speech corpus using chosen vocabulary
4. to develop acoustic model using the speech corpus and HMM
5. to develop Mongolian speech recognition system using the acoustic model

Novelty:
1. Used HMM for Mongolian speech recognition system
2. Developed Mongolian speech corpus.
3. Developed Mongolian speech acoustic model.
4. Developed Mongolian speech recognition system.

Practical applications:
Speech recognition system has following applications:
1. Dictation systems, Computer dictation;
2. Command and Control systems: These are systems that use speech input to perform
3. Telephony systems: ASR systems allow callers to speak commands instead of
pressing buttons to dial a number;
4. Meeting transcription systems;
5. As an assistive technology for disabled people;
6. Computer Aided Instruction systems;
7. Information retrieval systems;
8. Broadcast news transcription systems.
9. Functions and actions. Using utterances like "Open file", the systems will do just that;

Results for validation:


1. Large vocabulary Mongolian speech recognition system based on HMM
2. Mongolian speech corpus
3. Mongolian acoustic model for speech recognition

12
Abstract of scientific research
The thesis consists of three chapters, conclusion, references and appendix.
Chapter1. Theory of recognition system, feature extraction methods and HMM are
discussed. Speech recognition system consists of acoustic model and language model. Every
language has own specific acoustic and linguistic characteristics that require special modeling
techniques. To build a Large Vocabulary Continuous Speech Recognition(LVCSR) system,
high accurate acoustic models and large-scale language models are essential.
Chapter 2 describes about Mongolian phonetics. Every language’s phonetics has mainly role
for speech recognition.
Chapter 3 describes about to create speech corpus, to create acoustic model and language
model. A speech corpus is a database of speech audio files and text transcriptions. In Speech
technology, speech corpora are used, among other things, to create acoustic models. There are
several types speech corpora such as text to speech databases, in-car speech databases,
telephone speech databases, mobile speech databases and desktop speech databases.
SAMPA(Speech Assessment Methods Phonetic Alphabet) is a machine-readable phonetic

alphabet. Experimental results and conclusions are explained in this chapter.

Conclusion
We are developed two types speech corpus. First one is a speech corpus of 6000 unique
words. Most frequent 6000 words are selected from the text corpus developed by National
University of Mongolia. The speech corpus was collected in a quiet room. It contains the
voices of different 37 native male speakers and 43 native female speakers. Each speaker read
500(10 repetitions) utterances. The audio files are collected through two professional
microphones and were stored as 16kHz, 16 bit, one channel, uncompressed. The pure speech
hours are about 100 hours. Last one is a speech corpus called MGL_C1 that was created for
Mongolian continuous speech recognition system. For MGL_C1 4000 unique sentences were
selected from English-Mongolian parallel text corpus. Speech corpus has different parts. It
contains speech files, dictionary, phoneme list and transcription file. Dictionary presents
phonetic representation of each words.
We have used HTK speech recognition toolkit to train and test speech recognition system. A
sampling frequency of 16 kHz, a frame length of 25 ms with a Hamming window, a frame
shift of 10 ms, and 39 dimensional feature parameters comprising 12 MFCC+1E with
delta&delta2 MFCC were used as the feature parameters. We select the monophone and

13
triphone as the recognition unit for Mongolian speech recognition. Three-state context-
independent HMM AMs were used for each phoneme and Gaussian 4 mixture components
per state were considered. We could reach a result about 90% in the isolated speech
recognizer. However, due to the deficiency of the training data, the robust of the system is not
very well. We should solve these problems in the future

14

You might also like