Professional Documents
Culture Documents
藏语语音合成语料库的韵律标注规则设计_陈晨
藏语语音合成语料库的韵律标注规则设计_陈晨
藏语语音合成语料库的韵律标注规则设计_陈晨
10.
140
84/j.cnki.cn6
2-11
88/n. 2010.01.018
第31卷总第77期 西 北 民 族 大 学 学 报(自然科学版) Vol.
31No.
1
2010 年 3 月 Journal of Northwest University for Nationalities( Natural Science) Sep
2010
藏语语音合成语料库的韵律标注规则设计
陈 晨陈 琪李永宏于洪志
[摘 要 ] 韵律标注是藏语语音合成语料库建设的重要环节∙文章参考汉语韵律标注的研究成果结合藏语自身的
语音特点以及韵律特征进行了面向藏语语音合成语料库的韵律标注研究并设计一套包含拉丁转写、声调类型、音节结
构、重音类型以及停顿指数的标注规则为藏语语音韵律特征的研究提供了直观的、科学的方法∙
[ 关键词 ] 藏语;韵律标注规则;语音合成
[ 中图分类号 ] T P391;H214 [ 文献标志码 ] A [ 文章编号 ] 1009-2102(2010)01-0024-05
0 引言
目前自然度和可懂度是评价合成语音质量的主要指标因此在语言研究和言语工程中韵律标注
已成为非常重要的研究内容和手段∙目前国际上较为流行的韵律标注标准是 T oBI (T ones and Break
Indices)(Silverm an et al.
1992)∙通过它初学者可以很快地对语音数据进行韵律的描述∙研究人员不
仅从语音库中可以直接得到带有韵律描述的数据并且还可以使用本标准的超集或子集来适应不同的
需求∙该系统发布后在其基础上结合各自语言自身的特点相继成型了汉语普通话的 C-T oBI、德语
的 GT oBI、日语的 J-T oBI、韩语的 K-T oBI 等韵律标注系统标志着语音韵律标注走向成熟∙
目前我国藏语的研究主要集中于声学研究如胡坦的“ 藏语(拉萨话)声调研究” [1] 孔江平的“ 藏
语(拉萨话)声调感知研究” [2] 谭克让、孔江平的“藏语元音长短与声调关系的实验研究” [3] 等∙韵律方
面的研究则涉及较少如谭克让的“藏语拉萨话声调分类和标法刍议” [4] 一文主要对现有的拉萨话声
调的分类作了简要介绍并对调号的统一标法提出了宝贵的建议∙这些研究均为藏语的韵律研究奠定
了一个科学的基础∙本文在借鉴汉语韵律研究成果的基础上结合藏语自身的语音特点及韵律特征制
订了面向藏语语音合成语料库的韵律标注规则∙这一规则的建立不仅有利于提高语音合成的自然度、
流畅度和语音识别的准确率而且对于藏语语言教学与研究也具有非常重要的指导意义∙
1 韵律标注设计原则
1) 藏语的韵律标注规则应具有开放性对于没有把握的标注项目允许不确定性存在∙此外随着
人们对藏语韵律特征认识的不断提高还可以不断地增加新的标注符号或修订不适用的标注符号.
2) 藏语的韵律标注规则还应具有如下一些特点即:全面性标注符号尽可能覆盖藏语中最重要的
韵律现象;易学性标注的方法和规则要能在短时间内学会;可操作性标注符号要尽量简单要与语音
的表层形式尽量接近;标注符号的机器可读性等∙
3) 藏语的韵律标注规则应与声音转写文本的词性、句法、语义标注相协调∙例如一般情况下韵
[ 收稿日期 ] 2010-01-20
[ 基金项目 ] 国家自然科学基金(60773052)
[ 作者简介 ] 陈晨(1985-)女天津市人主要从事实验语音学方面的研究∙
- 24 -
律结构是连续语音中的一个重要的语音现象一个话语包含着不同的韵律结构它们与句法、语法结构
有着一定的对应关系但又不是完全一一对应这就要求在进行韵律结构的切分上要充分考虑到句法、
语法结构划分的相应情况∙
2 韵律标注规则的设计
不少学者经过考察注意到不同民族的语言如果其语音系统的特征有某些共同点这些共同点就
有可能成为不同民族语言语音修辞所共同采用的手段依据 [5]∙藏语和汉语同属于汉藏语系语音上必
然存在着许多共同的特点和规律:①除个别方言外都有声调∙②词或词根多数是单音节的∙③音节结
构都可分析为声母、韵母和声调三部分∙因此本文参考汉语韵律标注的研究成果同时结合藏语自身
的特点设计了一套面向藏语语音合成语料库的韵律标注规则∙本标注符号系统包括平行的五个层级
(见表1)∙
表1 标注符号说明表
标注层级 标注符号 符号说明 功能
s 句子开始
e 句子结束 将说 话 人 所 说 的 藏 文 字
1 拉丁文转写层
sil 空白段 标记下来
silv 杂音段
1 清声长韵(55)
2 浊声长韵(13) 用于 注 明 实 验 语 流 中 藏
2 声调类型层
3 清声短韵(53) 语音节的调值调类
4 浊声短韵(11)
1 元音(V)
2 辅音+元音(C+V) 用于注明藏语音节的元、
3 音节类型层
3 元音+辅音(V +C) 辅音搭配模式
4 辅音+元音+辅音(C+V +C)
1 轻
用于 注 明 藏 语 语 音 中 的
4 重音类型层 2 中
轻、中和重三种类型
3 重
0 韵律词在韵律短语首
停
韵律词层 1 韵律词在韵律短语中 用于 注 明 音 节 之 间 结 合
顿
2 韵律词在韵律短语尾 的紧 密 程 度 以 及 不 同 韵
5 指
0 韵律短语在句首 律单 元 在 其 上 一 层 单 位
数
韵律短语层 1 韵律短语在句中 中所处的位置
层
2 韵律短语在句尾
该层以藏语音节为最基本的单元标记每句话的起始、结束位置、静音段、杂音段以及每个藏语音节
对应的拉丁转写符号∙其中杂音段包括各种副语言和非语言学现象(咳嗽、吞咽、不连贯等现象)∙
拉丁转写 [6] 采用基本的26个英文字母通过程序实现步骤如下:
1) 利用“字丁分解法”确定藏文基字部分∙
2) 对拟要转写的单音节藏文进行声韵母的分离∙
3) 对分离的声、韵母分别进行拉丁文转写∙
4) 对声韵母对应的拉丁字母串进行合并∙
5) 编写 praat 软件脚本将拉丁文转写自动导入标注文件中∙
2.
1 声调类型层
藏语最初字音高低的变化只是一种伴随特征并不具备音位功能∙随着藏语一千多年的发展逐
渐发展出声调系统∙现代藏语三大方言中安多方言属于无声调方言卫藏方言和康方言属于有声调方
- 25 -
言∙本文以拉萨话为例对其声调类型的分类及标注规则进行说明∙由于学者们对声调的发展和声调
与韵母之间的关系认识不同先后产生了二分法、三分法、四分法、六分法等不同的分类∙本文综合比较
各家分类的长短归纳了拉萨话的调类标注符号规则∙
43
根据声调实验的结果证明拉萨话有六个调值: 44
53
12
113
132∙拉萨话的声调有高低之分
43
与古声母辅音的清浊有关即“清高浊低”∙因此 44和53调为高调;
12
113和132调为低调∙拉萨
话的声调也有长短之分如44调和113调只出现在长元音韵母里;
43调和12调只出现在短元音韵母
53调和132调只出现在短元音带促声韵尾的韵母里因此可分为长调、短调和促声调∙另外由于
里
促声韵尾在拉萨口语中有逐渐消失的趋势且对声调的影响比较小因此把促声调与短调合并(调值调
类及名称关系见表2)∙
表2 调值调类对比表
高调(清声) 低调(浊声)
长调 短调 促声调 长调 短调 促声调
实验调值 44 43 53 113 12 132
声调类型 55 53 13 11
因此按照声、韵母的搭配可将拉萨话的声调最终分为:清声长韵(55)、浊声长韵(13)、清声短韵
(53)和浊声短韵(11)分别用“1、
2、3、
4”来标注∙
2.
2 音节类型层
藏语按照语音系统中有无声调、有无清浊声母对立、辅音韵尾的多寡可分卫藏、康、安多三大方
[7]
言 ∙卫藏方言(拉萨话)语音系统中声母共28个没有复辅音和全浊音(b
dg 等);元音共8个比古
代多了3个即ɛ
yØ;韵尾共7个∙康方言语音系统中声母共44个复辅音声母仅存一套带鼻冠音的
二合声母如 mba53‘巴塘’
ŋgo53‘头’等;元音共8个;韵尾只有一个喉塞音∙安多方言语音系统中声
母共39个此外还存在复辅音现象可分为 NC 型和 hc/ɦc 型两类;元音共6个;韵尾共7个∙表3中对
藏语三大方言的语音系统做了详尽的举例∙
本文根据藏语三大方言的音系对比将藏语的音节结构类型分为以下四种:元音(V )辅音+元音
(C+V)元音+辅音(V+C)辅音+元音+辅音(C+V+C)分别用“1、
2、3、
4”标注∙
2.
3 重音类型层
目前对于语音语料库的重音标注基本上是基于“音高重音(pitch accent)”的理论∙该理论创始人之
一 Bolinger 认为语流中重音首要的声学征兆是高音的突显∙T oBI 标注体系就是利用音高曲线的各种
变化形式对不同层次的韵律边界和不同类型的重音进行标注∙但是这种标注方法并不完全适用于藏
语.
藏语拉萨话的音高曲线上同时还负载了声调、重音和语调等信息不能仅以音高曲线的变化模式对
- 26 -
重音进行分类∙因此
本文在进行重音标注时
主要依据藏语的发音方法发音规则、重音感知的相关因
素.
藏语的语音按照发音方法可分为阴性、
中性和阳性
即弱、
中、强的特点[8]∙藏语辅音字母共分为7.
5
组每一组字母之间的字音强弱完全不同∙重音感知的相关因素包括音长、音高、音强等参数∙其中音
高和音长是重音感知的首要因素音强属于伴随特征虽然不具有音系学意义但对于言语工程中的自
然度来说则是不可或缺的∙此外语言知识也对重音感知有显著影响∙
在这一层级中分别用“1、
2、3”来标注藏语重音类型中的轻、中、重三种类型∙
2.
4 停顿指数层
Selkirk 提出了一种严格的韵
韵律层级标注是语音合成技术的重点和难点∙关于韵律结构的研究
律分层理论她认为韵律结构从低到高的分层依次是音步(Foot )、音节(Syllable)、音系词(Phonology
Word)或韵律词(Prosodic Word)、音系短语(Phonology Phrase)或韵律短语(Prosodic Phrase)和语调短语
(Intona-tional Phrase)句子的韵律结构和句法结构之间存在系统的映射关系 [9]∙汉语普通话 C-T o-
BI 标注系统的停顿指数层将汉语的韵律层级分为音节、韵律词(prosodic word)、次要韵律短语(minor
prosodic phrase)、主要韵律短语(major prosodic phrase)、语调短语(prosodic group)等5个级别∙台湾郑
秋豫教授还提出了一种 M-T OBI 标注体系停顿指数分为6级:退化的音节边界、正常的音节边界、较
小的短语停顿边界、较大的短语停顿边界、呼吸群边界、韵律组边界 [10]∙本文结合了藏语韵律自身的特
点
将其韵律结构从低到高依次归纳为:音节、韵律词和韵律短语三个韵律层级单元∙由于音节层在拉
丁文转写层已标注完毕因此这里重点介绍韵律词和韵律短语两个层级∙
2.
4.1 韵律词层
该层标记藏语语音中的韵律词边界分别用“0、
1、2”表示其在韵律短语中的位置∙由于藏语韵律词
之间的界限是不明确的因此标记时可参考一定的特征规则:韵律词大多为语法词以及前后带一些虚
词的词(可能对应几个语法词也可能小于一个语法词);停顿边界前音节时长普遍长于停顿后音节的时
停顿前、后音节基频(F0)发生程度不同的重置;韵律词之间多存在有声波间断是由间断前音节的
长;
时长拉长所致;停顿前音节的音强总是高于后音节的音强∙
2.
4.2 韵律短语层
该层标记句子中较大的停顿间隔出的韵律单位分别用“0、
1、2”表示其在语句中的位置∙韵律短语
即音系短语是韵律层级结构中假想的一个介于韵律词和语调短语之间的层次∙韵律短语的界定不仅
与语法、词法有关而且与语句的长短、结构有关甚至还与语义、情感和意向有关因此韵律短语的界定
是个相当困难的课题 [11]∙韵律短语间的划分也可遵循一定的特征规则:具有相对稳定的短语语调模
式即音阶的下倾及重置;具有相对稳定的短语重音配置模式即与句法结构相关的常规重音模式;韵律
短语之间多存在无声波间断即听感上能明显感知的无声段∙
3 标注结果
总体而言在韵律标注规则的设计上我们采用了分层级标注的方法∙标注的内容除拉丁文转写、
音节类型等音段标注信息外还包含了基频类型、重音类型、停顿指数等韵律信息∙同时用 Praat 软件
进行标注为标注内容的可扩展性提供了保证系统可以根据需要添加必要的标注信息而不用重新设
计整个标注体系∙图1为本系统的一个标注示例∙
4 结束语
在语音工程领域专家们正致力于提高连续语音识别的准确率以及语音合成中的自然度问题∙因
此研究自然语音的韵律规则并在 T T S 系统中加以模拟已提到了日程上∙藏语语音韵律模型的建立
及语音合成的实现亟需韵律标注作为前提∙目前我们只是对藏语语音韵律标注规则做了初步的研究
和设计进行了简单的理论分析和实践尝试∙还需要进一步研究如何提高分析的精度减少标注的工作
- 27 -
量等问题为藏语语音合成的进一步研究奠定基础∙另外还需要建立一种评价的方法以便于对不同
的系统进行比较∙
参考文献:
CHEN Chen
CHEN Qi
LI Yong-hong
YU Hong-zhi
(China Minorities Information T echology Institute of Northwest U niversity for NationaltiesLanzhou Gansu 730030
China)
[Abstract ] T ibetan prosody annotation plays an important role in building T ibetan speech synthesis corpus.
Referring to Chinese prosodic annotation
this paper researches prosody annotation with T ibetan characteris-
tics oriented on T ibetan speech synthesis corpus.As a resulta set of T ibetan Prosody annotation rules are
worked outembodying Romanized T ranscriptionT one typessyllable structure typesstress types and
break indices.
It provides an intuitive scientific method for investigating prosodic features of T ibetan speech.
[ Key words] T ibetan;rules of rhythm annotation;speech synthesis
- 28 -