Professional Documents
Culture Documents
Acd35676 PDF
Acd35676 PDF
АЮУШИЙН АЛТАНГЭРЭЛ
Улаанбаатар 2012 он
ГАРЧИГ
УДИРТГАЛ 1
INRODUCTION 4
НЭГДҮГЭЭР БҮЛЭГ. ЯРИАГ АВТОМАТААР ТАНИХ 8
Яриаг автоматаар таних
1.1. Яриа танилтын системийн хэрэглээ 11
1.2. Яриа танилтын товч түүх 12
1.3. Яриа таних асуудлыг томъёолох 14
1.4. Ярианы дохиог параметрчлэх 15
1.4.1. Мел давтамжийн спектрийн коэффициент(MFCC) 17
1.4.1.1. Өсгөлт 18
1.4.1.2. Фреймчлэх 19
1.4.1.3. Цонхны функцээр үржүүлэх 19
1.4.1.4. Фурьегийн хувиргалт 21
1.4.1.5. Шүүр 22
1.4.1.6. Логарифмчлах 26
1.4.1.7. Косинусын хувиргалт 26
1.4.2. Шугаман тааварлалтын арга 28
2
ХОЁРДУГААР БҮЛЭГ
ГУРАВДУГААР БҮЛЭГ
Яриа танилт 55
3.1. Монгол хэлний акустик загвар байгуулах 55
3.1.1. Ярианы корпус 56
3.1.1.1. Ярианы сан үүсгэх 58
3.1.1.2. Галиглалт хийх 62
3.1.2. Акустик загвар байгуулах 68
3.1.2.1. Шууд ба урвуу алгоритм 74
3.1.2.2. Гурван авианы загвар 77
3.2. Хэлний загвар байгуулах 78
3.2.1. N- грам хэлний загвар 78
3.2.1.1. Лапласын алгоритм 80
3.2.1.2. Good-Turing алгоритм 80
3.2.1.3. Backoff алгоритм 81
3.3. Туршилт 85
Ерөнхий дүгнэлт 86
Ном зүй 87
Хавсралт 94
3
ЗУРГИЙН ЖАГСААЛТ
4
Зураг 3.2 Ярианы корпус үүсгэх схем 58
Зураг 3.3 Зүүнээс баруун чиглэлтэй нуугдмал марковын загвар 68
Зураг 3.4 Нуугдмал марковын эхний загварыг байгуулах блок схем 72
Зураг 3.5 Нуугдмал марковын загварыг сайжруулах блок схем 74
Зураг 3.6 Гурван авианы загвар 78
Зураг 3.7 Монгол хэлний яриа таних программын интерфейс 86
5
ХҮСНЭГТИЙН ЖАГСААЛТ
6
ТОВЧИЛСОН ҮГИЙН ЖАГСААЛТ
УДИРТГАЛ
7
Яриа таних гэдэг нь хүний ярианы дохиог текст руу хөрвүүлэх процессыг хэлнэ.
Өнөөдөр цөөн тооны голлох хэлүүд тухайлбал англи, япон, франц, хятад, итали, араб
зэрэг хэлүүд дээр яриаг автоматаар таних системүүд хийгдэж тодорхой үр дүнд хүрсэн
боловч ихэнх хэл дээр яриа таних судалгаа хийгдээгүй эсвэл судалгааны шатандаа явж
байна. Монгол хэлний яриа танилтын судалгааны ажил 2005 оноос профессор
Б.Дамдинсүрэнгийн удирдлагаар эрчимтэй хийгдэж эхэлсэн ба 2006 онд “Ярианы
дохиог боловсруулах, яриаг таних техник программ хангамжийн систем” сэдэвт
судалгааны ажил, 2007-2010 онд “PAN localization-2” төслийн хүрээнд их хэмжээний
үгийн сантай монгол хэлний үг таних судалгааны ажлууд хийгдсэн.
Яриа боловсруулалтын судалгааны ажлын гол хэсэг нь яриа таних, ярианы
синтез бөгөөд хэл шинжлэл, дохио боловсруулалт, хиймэл оюун ухаан зэрэг олон
салбартай салшгүй холбоотой байдаг. Яриа танилт, ярианы синтезийн гол ялгаа гэвэл
яриа танилт нь яриаг текст болгох, ярианы синтез нь текстийг яриа болгодог.
1960-аад оны сүүл 1970-аад оны эхээр Baum болон түүний хамтрагчид(Eagon,
Petrie, Soules, Weiss) нуугдмал марковын процессыг онолыг хөгжүүлсэн[1][2]. Түүнд
үндэслэсэн загварыг 1970 онд CMU-д Baker, IBM-д Jelinek нар яриа боловсруулалтанд
анх ашигласан[6][7]. Өнөөдөр яриа танилтанд энэ загварыг өргөн ашиглаж байна. Яриа
танилт нь ярианы дохиог параметрчлэх, загвар үүсгэх, таних гэсэн хэсгүүдтэй бөгөөд
өнөөдөр ярианы дохиог параметрчлэхэд МFCC, LPC, PLP зэрэг аргуудыг голлон
ашиглаж байна. 1960 оны сүүлээр шугаман тааамаглалын коэффициентийн арга (Linear
prediction coefficients (LPC)[9][10][11] танилцуулагдсан. Энэ аргын гол санаа нь
дохионы дискретчлэлийн утгыг өмнөх утгуудын шугаман эвлүүлэг хэлбэрээр
илэрхийлдэг бөгөөд ярианы дохионы үндсэн давтамж, формант, спектр зэрэг
параметрүүдийг үнэлэхэд оршдог. 1970 оны эхээр Oppenheim A.V, R.W.Schafer нар
яриа боловсруулалтанд кепстрийг ашигласан[12]. Davis, S.B, P.Mermelstein нар 1980
онд яриа танилтын дохионы боловсруулалтанд ашиглагдах жигд биш алхамтай
давтамжийн шүүр болон дискрет косинусыг ашигласан мел давтамжийн кепстрийн
коэффициент(MFCC) гэж нэрлэгдэх шинэ аргыг гаргасан[8]. Мел давтамжийн
кепстрийн коэффициент нь ярианы бичлэг шуугиан багатай үед илүү үр дүнд хүргэдэг
байна. 1990 оны эхээр Hynek Hermansky нар Relative-Spectral Perceptual linear prediction
(RASTA-PLP) аргыг танилцуулсан[9].
8
Энэ судалгааны ажлаар яриа танилтын онолыг судалж, нуугдмал марковын
загварыг ашиглан монгол хэлний яриа таних систем зохион бүтээх зорилго тавьж,
дараах зорилтуудыг дэвшүүлсэн. Үүнд:
1. Нуугдмал марковын загварыг судалж монгол хэлний яриа танилтанд ашиглах;
2. Монгол хэлний туршилтын корпус байгуулах;
3. Байгуулсан монгол хэлний корпусаас үг болон өгүүлбэрүүдийг сонгон авч
ярианы корпус(ярианы файл, ярианы файл дахь үгүүдийн галигийн файл)
байгуулах;
4. Ярианы корпус болон нуугдмал марковын загварыг ашиглан монгол хэлний
акустик загварыг байгуулах;
5. Монгол хэлний акустик загварыг ашиглан монгол хэлний яриа танилтын систем
зохион бүтээх;
Шинэлэг тал:
1. Нуугдмал марковын загварыг монгол хэлний яриа танилтанд ашигласан.
2. Монгол хэлний ярианы корпус байгуулав.
3. Монгол хэлний акустик загвар бий болгов.
4. Монгол хэлний яриа танилтын систем бүтээв.
Практик ач холбогдол:
Яриа танилтын программ нь цаг хугацааг хэмнэх, хэрэглээг хялбарчлах, ажлыг
хөнгөвчлөх зэрэг давуу талтай.
9
загвараас тогтдог. Хэл бүр өөрийн гэсэн онцлог акустик шинж чанартай учраас энэ
онцлогийг агуулсан акустик загварыг байгуулах хэрэгтэй байдаг.
Хоёрдугаар бүлэгт: Энд монгол хэлний авиазүйн талаарх судалгааг орууллаа. Хэл
бүрийн авиазүйн судлал нь тухайн хэлний яриа танихад чухал ач холбогдолтой байдаг.
Гуравдугаар бүлэгт: Энэ бүлэгт ярианы корпус үүсгэх, акустик болон хэлний загвар
байгуулах талаар орууллаа. Ярианы корпус нь дууны файл, дууны файл бүр дэх үгийн
галигийг агуулсан текст файлаас тогтох ба энэ нь ярианы акустик загварыг үүсгэхэд
ашиглагддаг. Иймд дууны файл дахь үгүүдийг зөв галигласнаар авиа бүрийн нуугдмал
марковын загвар үнэн зөв үүсэх боломж бүрдэнэ. Монгол хэлний авиаг “SAMPA”
цагаан толгойн тэмдэглэгээний дагуу англи хэлний “SAMPA” цагаан толгойн
тэмдэглэгээтэй харьцуулж тэмдэглэлээ. “SAMPA” гэдэг нь машинаар унших
боломжтой авиазүйн цагаан толгой.
10
INTRODUCTION
11
Goal and objectives of the study
The thesis goal is to develop Mongolian speech recognition system based on Hidden Marcov
Models. Following objectives are proposed to achieve the above goal:
1. to study how to use HMM for speech recognition
2. to develop Mongolian language corpus.
3. to develop speech corpus using chosen vocabulary
4. to develop acoustic model using the speech corpus and HMM
5. to develop Mongolian speech recognition system using the acoustic model
Novelty:
1. Used HMM for Mongolian speech recognition system
2. Developed Mongolian speech corpus.
3. Developed Mongolian speech acoustic model.
4. Developed Mongolian speech recognition system.
Practical applications:
Speech recognition system has following applications:
1. Dictation systems, Computer dictation;
2. Command and Control systems: These are systems that use speech input to perform
3. Telephony systems: ASR systems allow callers to speak commands instead of
pressing buttons to dial a number;
4. Meeting transcription systems;
5. As an assistive technology for disabled people;
6. Computer Aided Instruction systems;
7. Information retrieval systems;
8. Broadcast news transcription systems.
9. Functions and actions. Using utterances like "Open file", the systems will do just that;
12
Abstract of scientific research
The thesis consists of three chapters, conclusion, references and appendix.
Chapter1. Theory of recognition system, feature extraction methods and HMM are
discussed. Speech recognition system consists of acoustic model and language model. Every
language has own specific acoustic and linguistic characteristics that require special modeling
techniques. To build a Large Vocabulary Continuous Speech Recognition(LVCSR) system,
high accurate acoustic models and large-scale language models are essential.
Chapter 2 describes about Mongolian phonetics. Every language’s phonetics has mainly role
for speech recognition.
Chapter 3 describes about to create speech corpus, to create acoustic model and language
model. A speech corpus is a database of speech audio files and text transcriptions. In Speech
technology, speech corpora are used, among other things, to create acoustic models. There are
several types speech corpora such as text to speech databases, in-car speech databases,
telephone speech databases, mobile speech databases and desktop speech databases.
SAMPA(Speech Assessment Methods Phonetic Alphabet) is a machine-readable phonetic
Conclusion
We are developed two types speech corpus. First one is a speech corpus of 6000 unique
words. Most frequent 6000 words are selected from the text corpus developed by National
University of Mongolia. The speech corpus was collected in a quiet room. It contains the
voices of different 37 native male speakers and 43 native female speakers. Each speaker read
500(10 repetitions) utterances. The audio files are collected through two professional
microphones and were stored as 16kHz, 16 bit, one channel, uncompressed. The pure speech
hours are about 100 hours. Last one is a speech corpus called MGL_C1 that was created for
Mongolian continuous speech recognition system. For MGL_C1 4000 unique sentences were
selected from English-Mongolian parallel text corpus. Speech corpus has different parts. It
contains speech files, dictionary, phoneme list and transcription file. Dictionary presents
phonetic representation of each words.
We have used HTK speech recognition toolkit to train and test speech recognition system. A
sampling frequency of 16 kHz, a frame length of 25 ms with a Hamming window, a frame
shift of 10 ms, and 39 dimensional feature parameters comprising 12 MFCC+1E with
delta&delta2 MFCC were used as the feature parameters. We select the monophone and
13
triphone as the recognition unit for Mongolian speech recognition. Three-state context-
independent HMM AMs were used for each phoneme and Gaussian 4 mixture components
per state were considered. We could reach a result about 90% in the isolated speech
recognizer. However, due to the deficiency of the training data, the robust of the system is not
very well. We should solve these problems in the future
14