Download as pdf or txt
Download as pdf or txt
You are on page 1of 5

DOI :

10.
140
84/j.cnki.cn6
2-11
88/n. 2010.01.018
第31卷总第77期 西 北 民 族 大 学 学 报(自然科学版) Vol.
31‚No.
1
2010 年 3 月 Journal of Northwest University for Nationalities( Natural Science) Sep‚
2010

藏语语音合成语料库的韵律标注规则设计
陈 晨‚陈 琪‚李永宏‚于洪志

(西北民族大学 中国民族信息技术研究院‚甘肃 兰州730030)

[摘 要 ] 韵律标注是藏语语音合成语料库建设的重要环节∙文章参考汉语韵律标注的研究成果‚结合藏语自身的
语音特点以及韵律特征‚进行了面向藏语语音合成语料库的韵律标注研究‚并设计一套包含拉丁转写、声调类型、音节结
构、重音类型以及停顿指数的标注规则‚为藏语语音韵律特征的研究提供了直观的、科学的方法∙
[ 关键词 ] 藏语;韵律标注规则;语音合成
[ 中图分类号 ] T P391;H214 [ 文献标志码 ] A [ 文章编号 ] 1009-2102(2010)01-0024-05

0 引言

目前‚自然度和可懂度是评价合成语音质量的主要指标‚因此‚在语言研究和言语工程中‚韵律标注
已成为非常重要的研究内容和手段∙目前国际上较为流行的韵律标注标准是 T oBI (T ones and Break
Indices)(Silverm an et al.
1992)∙通过它‚初学者可以很快地对语音数据进行韵律的描述∙研究人员不
仅从语音库中可以直接得到带有韵律描述的数据‚并且还可以使用本标准的超集或子集来适应不同的
需求∙该系统发布后‚在其基础上结合各自语言自身的特点‚相继成型了汉语普通话的 C-T oBI、德语
的 GT oBI、日语的 J-T oBI、韩语的 K-T oBI 等韵律标注系统‚标志着语音韵律标注走向成熟∙
目前我国藏语的研究‚主要集中于声学研究‚如胡坦的“ 藏语(拉萨话)声调研究” [1] ‚孔江平的“ 藏
语(拉萨话)声调感知研究” [2] ‚谭克让、孔江平的“藏语元音长短与声调关系的实验研究” [3] 等∙韵律方
面的研究则涉及较少‚如谭克让的“藏语拉萨话声调分类和标法刍议” [4] 一文‚主要对现有的拉萨话声
调的分类作了简要介绍‚并对调号的统一标法提出了宝贵的建议∙这些研究均为藏语的韵律研究奠定
了一个科学的基础∙本文在借鉴汉语韵律研究成果的基础上‚结合藏语自身的语音特点及韵律特征‚制
订了面向藏语语音合成语料库的韵律标注规则∙这一规则的建立‚不仅有利于提高语音合成的自然度、
流畅度和语音识别的准确率‚而且对于藏语语言教学与研究也具有非常重要的指导意义∙

1 韵律标注设计原则

1) 藏语的韵律标注规则应具有开放性‚对于没有把握的标注项目允许不确定性存在∙此外‚随着
人们对藏语韵律特征认识的不断提高‚还可以不断地增加新的标注符号或修订不适用的标注符号.
2) 藏语的韵律标注规则还应具有如下一些特点‚即:全面性‚标注符号尽可能覆盖藏语中最重要的
韵律现象;易学性‚标注的方法和规则要能在短时间内学会;可操作性‚标注符号要尽量简单‚要与语音
的表层形式尽量接近;标注符号的机器可读性等∙
3) 藏语的韵律标注规则应与声音转写文本的词性、句法、语义标注相协调∙例如‚一般情况下‚韵

[ 收稿日期 ] 2010-01-20
[ 基金项目 ] 国家自然科学基金(60773052)
[ 作者简介 ] 陈晨(1985-)‚女‚天津市人‚主要从事实验语音学方面的研究∙

- 24 -
律结构是连续语音中的一个重要的语音现象‚一个话语包含着不同的韵律结构‚它们与句法、语法结构
有着一定的对应关系‚但又不是完全一一对应‚这就要求在进行韵律结构的切分上要充分考虑到句法、
语法结构划分的相应情况∙

2 韵律标注规则的设计

不少学者经过考察注意到‚不同民族的语言‚如果其语音系统的特征有某些共同点‚这些共同点就
有可能成为不同民族语言语音修辞所共同采用的手段依据 [5]∙藏语和汉语同属于汉藏语系‚语音上必
然存在着许多共同的特点和规律:①除个别方言外‚都有声调∙②词或词根多数是单音节的∙③音节结
构都可分析为声母、韵母和声调三部分∙因此‚本文参考汉语韵律标注的研究成果‚同时结合藏语自身
的特点设计了一套面向藏语语音合成语料库的韵律标注规则∙本标注符号系统包括平行的五个层级
(见表1)∙
表1 标注符号说明表
标注层级 标注符号 符号说明 功能
s 句子开始
e 句子结束 将说 话 人 所 说 的 藏 文 字
1 拉丁文转写层
sil 空白段 标记下来
silv 杂音段
1 清声长韵(55)
2 浊声长韵(13) 用于 注 明 实 验 语 流 中 藏
2 声调类型层
3 清声短韵(53) 语音节的调值调类
4 浊声短韵(11)
1 元音(V)
2 辅音+元音(C+V) 用于注明藏语音节的元、
3 音节类型层
3 元音+辅音(V +C) 辅音搭配模式
4 辅音+元音+辅音(C+V +C)
1 轻
用于 注 明 藏 语 语 音 中 的
4 重音类型层 2 中
轻、中和重三种类型
3 重
0 韵律词在韵律短语首

韵律词层 1 韵律词在韵律短语中 用于 注 明 音 节 之 间 结 合

2 韵律词在韵律短语尾 的紧 密 程 度 以 及 不 同 韵
5 指
0 韵律短语在句首 律单 元 在 其 上 一 层 单 位

韵律短语层 1 韵律短语在句中 中所处的位置

2 韵律短语在句尾

该层以藏语音节为最基本的单元‚标记每句话的起始、结束位置、静音段、杂音段以及每个藏语音节
对应的拉丁转写符号∙其中‚杂音段包括各种副语言和非语言学现象(咳嗽、吞咽、不连贯等现象)∙
拉丁转写 [6] 采用基本的26个英文字母‚通过程序实现‚步骤如下:
1) 利用“字丁分解法”确定藏文基字部分∙
2) 对拟要转写的单音节藏文进行声韵母的分离∙
3) 对分离的声、韵母分别进行拉丁文转写∙
4) 对声韵母对应的拉丁字母串进行合并∙
5) 编写 praat 软件脚本‚将拉丁文转写自动导入标注文件中∙
2.
1 声调类型层
藏语最初字音高低的变化‚只是一种伴随特征‚并不具备音位功能∙随着藏语一千多年的发展‚逐
渐发展出声调系统∙现代藏语三大方言中安多方言属于无声调方言‚卫藏方言和康方言属于有声调方
- 25 -
言∙本文以拉萨话为例‚对其声调类型的分类及标注规则进行说明∙由于学者们对声调的发展和声调
与韵母之间的关系认识不同‚先后产生了二分法、三分法、四分法、六分法等不同的分类∙本文综合比较
各家分类的长短‚归纳了拉萨话的调类标注符号规则∙
43‚
根据声调实验的结果证明‚拉萨话有六个调值: 44‚
53‚
12‚
113‚
132∙拉萨话的声调有高低之分‚
43‚
与古声母辅音的清浊有关‚即“清高浊低”∙因此‚ 44和53调为高调;
12‚
113和132调为低调∙拉萨
话的声调也有长短之分‚如44调和113调只出现在长元音韵母里;
43调和12调只出现在短元音韵母
53调和132调只出现在短元音带促声韵尾的韵母里‚因此可分为长调、短调和促声调∙另外‚由于
里‚
促声韵尾在拉萨口语中有逐渐消失的趋势‚且对声调的影响比较小‚因此把促声调与短调合并(调值调
类及名称关系见表2)∙
表2 调值调类对比表
高调(清声) 低调(浊声)
长调 短调 促声调 长调 短调 促声调
实验调值 44 43 53 113 12 132
声调类型 55 53 13 11

因此‚按照声、韵母的搭配‚可将拉萨话的声调最终分为:清声长韵(55)、浊声长韵(13)、清声短韵
(53)和浊声短韵(11)‚分别用“1、
2、3、
4”来标注∙
2.
2 音节类型层
藏语按照语音系统中有无声调、有无清浊声母对立、辅音韵尾的多寡可分卫藏、康、安多三大方
[7]
言 ∙卫藏方言(拉萨话)语音系统中‚声母共28个‚没有复辅音和全浊音(b‚
d‚g 等);元音共8个‚比古
代多了3个‚即ɛ‚
y‚Ø;韵尾共7个∙康方言语音系统中‚声母共44个‚复辅音声母仅存一套带鼻冠音的
二合声母‚如 mba53‘巴塘’‚
ŋgo53‘头’等;元音共8个;韵尾只有一个喉塞音∙安多方言语音系统中‚声
母共39个‚此外还存在复辅音现象‚可分为 NC 型和 hc/ɦc 型两类;元音共6个;韵尾共7个∙表3中对
藏语三大方言的语音系统做了详尽的举例∙

本文根据藏语三大方言的音系对比‚将藏语的音节结构类型分为以下四种:元音(V )‚辅音+元音
(C+V)‚元音+辅音(V+C)‚辅音+元音+辅音(C+V+C)‚分别用“1、
2、3、
4”标注∙
2.
3 重音类型层
目前对于语音语料库的重音标注基本上是基于“音高重音(pitch accent)”的理论∙该理论创始人之
一 Bolinger 认为‚语流中重音首要的声学征兆是高音的突显∙T oBI 标注体系就是利用音高曲线的各种
变化形式对不同层次的韵律边界和不同类型的重音进行标注∙但是这种标注方法并不完全适用于藏
语.
藏语拉萨话的音高曲线上同时还负载了声调、重音和语调等信息‚不能仅以音高曲线的变化模式对

- 26 -
重音进行分类∙因此‚
本文在进行重音标注时‚
主要依据藏语的发音方法发音规则、重音感知的相关因
素.
藏语的语音按照发音方法可分为阴性、
中性和阳性‚
即弱、
中、强的特点[8]∙藏语辅音字母共分为7.
5
组‚每一组字母之间的字音强弱完全不同∙重音感知的相关因素包括音长、音高、音强等参数∙其中‚音
高和音长是重音感知的首要因素‚音强属于伴随特征‚虽然不具有音系学意义‚但对于言语工程中的自
然度来说则是不可或缺的∙此外‚语言知识也对重音感知有显著影响∙
在这一层级中‚分别用“1、
2、3”来标注藏语重音类型中的轻、中、重三种类型∙
2.
4 停顿指数层
Selkirk 提出了一种严格的韵
韵律层级标注是语音合成技术的重点和难点∙关于韵律结构的研究‚
律分层理论‚她认为韵律结构从低到高的分层依次是音步(Foot )、音节(Syllable)、音系词(Phonology
Word)或韵律词(Prosodic Word)、音系短语(Phonology Phrase)或韵律短语(Prosodic Phrase)和语调短语
(Intona-tional Phrase)‚句子的韵律结构和句法结构之间存在系统的映射关系 [9]∙汉语普通话 C-T o-
BI 标注系统的停顿指数层将汉语的韵律层级分为音节、韵律词(prosodic word)、次要韵律短语(minor
prosodic phrase)、主要韵律短语(major prosodic phrase)、语调短语(prosodic group)等5个级别∙台湾郑
秋豫教授还提出了一种 M-T OBI 标注体系‚停顿指数分为6级:退化的音节边界、正常的音节边界、较
小的短语停顿边界、较大的短语停顿边界、呼吸群边界、韵律组边界 [10]∙本文结合了藏语韵律自身的特
点‚
将其韵律结构从低到高依次归纳为:音节、韵律词和韵律短语三个韵律层级单元∙由于音节层在拉
丁文转写层已标注完毕‚因此这里重点介绍韵律词和韵律短语两个层级∙
2.
4.1 韵律词层
该层标记藏语语音中的韵律词边界‚分别用“0、
1、2”表示其在韵律短语中的位置∙由于藏语韵律词
之间的界限是不明确的‚因此标记时可参考一定的特征规则:韵律词大多为语法词‚以及前后带一些虚
词的词(可能对应几个语法词‚也可能小于一个语法词);停顿边界前音节时长普遍长于停顿后音节的时
停顿前、后音节基频(F0)发生程度不同的重置;韵律词之间多存在有声波间断‚是由间断前音节的
长;
时长拉长所致;停顿前音节的音强总是高于后音节的音强∙
2.
4.2 韵律短语层
该层标记句子中较大的停顿间隔出的韵律单位‚分别用“0、
1、2”表示其在语句中的位置∙韵律短语
即音系短语‚是韵律层级结构中假想的一个介于韵律词和语调短语之间的层次∙韵律短语的界定不仅
与语法、词法有关‚而且与语句的长短、结构有关‚甚至还与语义、情感和意向有关‚因此韵律短语的界定
是个相当困难的课题 [11]∙韵律短语间的划分也可遵循一定的特征规则:具有相对稳定的短语语调模
式‚即音阶的下倾及重置;具有相对稳定的短语重音配置模式‚即与句法结构相关的常规重音模式;韵律
短语之间多存在无声波间断‚即听感上能明显感知的无声段∙

3 标注结果

总体而言‚在韵律标注规则的设计上‚我们采用了分层级标注的方法∙标注的内容除拉丁文转写、
音节类型等音段标注信息外‚还包含了基频类型、重音类型、停顿指数等韵律信息∙同时‚用 Praat 软件
进行标注‚为标注内容的可扩展性提供了保证‚系统可以根据需要添加必要的标注信息‚而不用重新设
计整个标注体系∙图1为本系统的一个标注示例∙

4 结束语

在语音工程领域‚专家们正致力于提高连续语音识别的准确率以及语音合成中的自然度问题∙因
此研究自然语音的韵律规则‚并在 T T S 系统中加以模拟‚已提到了日程上∙藏语语音韵律模型的建立
及语音合成的实现‚亟需韵律标注作为前提∙目前‚我们只是对藏语语音韵律标注规则做了初步的研究
和设计‚进行了简单的理论分析和实践尝试∙还需要进一步研究如何提高分析的精度‚减少标注的工作
- 27 -
量等问题‚为藏语语音合成的进一步研究奠定基础∙另外‚还需要建立一种评价的方法‚以便于对不同
的系统进行比较∙

参考文献:

[1] 胡坦.藏语(拉萨话)声调研究 [J ] .民族语文‚


1980‚(1)∙
[2] 孔江平.藏语(拉萨话)声调感知研究 [J ] .民族语文‚
1995‚(3)∙
[3] 谭克让‚孔江平.藏语元音长短与声调关系的实验研究 [J ] .民族语文‚
1991‚(3)∙
[4] 谭克让.藏语拉萨话声调分类和标法刍议 [J ] .民族语文‚
1982‚(3)∙
[5] 戴庆厦.刘菊黄.藏缅语族某些语言的音节搭配律 [J ] .民族语文‚
1988‚(5)∙
[6] 李永宏‚孔江平‚于洪志.藏语文-音自动规则转换及其实现 [J ] .第九届全国人机语音通讯学术会议论文‚清华大学
2008‚(4)∙
学报(EI)‚
[7] 胡坦.藏语研究文论 [ M ] .北京:中国藏学出版社‚
2002∙
[8] 马进武.藏语声韵学创新概要 [J ] .西北民族大学学报(哲学社会科学版)‚
2003‚(3)∙
[9] Selkirk‚E.
Phonology and syntax :
the relation be-t ween sound and structure[ M ] .
Cambridge‚MA:MIT Press‚
1984∙
[10] 赵永贞‚刘挺.汉语文语转换系统中停顿指数的自动标注 [J ] .中文信息学报‚
2004‚(5)∙
[11] 应宏‚蔡莲红.结构助词在韵律短语界定中的作用 [J ] .第四届全国现代语音学学术会议论文集‚金城出版社‚
1999∙

Designing rhythm annotation Rules for Tibetan synthesis corpus

CHEN Chen‚
CHEN Qi‚
LI Yong-hong‚
YU Hong-zhi

(China Minorities Information T echology Institute of Northwest U niversity for Nationalties‚Lanzhou Gansu 730030‚
China)

[Abstract ] T ibetan prosody annotation plays an important role in building T ibetan speech synthesis corpus.
Referring to Chinese prosodic annotation‚
this paper researches prosody annotation with T ibetan characteris-
tics oriented on T ibetan speech synthesis corpus.As a result‚a set of T ibetan Prosody annotation rules are
worked out‚embodying Romanized T ranscription‚T one types‚syllable structure types‚stress types and
break indices.
It provides an intuitive scientific method for investigating prosodic features of T ibetan speech.
[ Key words] T ibetan;rules of rhythm annotation;speech synthesis

- 28 -

You might also like