融合先验知识的藏汉神经机器翻译研究周毛先

分类号 TP391 密级公开
UDC 004 学号 20160614001
博士学位论文
论文题目：融合先验知识的藏汉神经机器翻译研究
研究生姓名周毛先
导师姓名（职称）才让加（教授）
申请学位类别工学博士
学科、专业名称计算机科学与技术
研究方向名称藏文信息处理
论文提交日期 2022 年 5 月论文答辩日期 2022 年 5 月 21 日
学位授予单位青海师范大学学位授予日期 2022 年 6 月
答辩委员会主席孙茂松
评阅人
融合先验知识的藏汉神经机器翻译研究
摘要
随着计算机技术在各行各业应用的逐渐普及和深入，全球经济加速一体化以
及不同国家、地区间的交流频繁化，通过人工方式进行翻译不论是从时间上还是
成本上都不再适应当今社会飞速增长的翻译需求现状，人们转而将目光投向机器
翻译方法，这使得机器翻译迎来了一个全新的发展机遇。近几年深度学习方法的
出现使得人工智能快速发展，神经机器翻译(Neural Machine Translation)取代
过去的统计机器翻译方法成为机器翻译的新一代研究方向。神经网络翻译模型获
得高质量翻译结果依赖于大规模的双语训练语料，研究表明，在资源不足的情况
下，神经机器翻译的性能显著下降；而藏文由于数字化资源稀缺，目前只有小规
模的藏汉双语平行语料库来训练翻译模型。对此，本文提出融合先验知识的方法，
能在一定程度上改善藏汉双语语料匮乏引起的问题，提高藏汉机器翻译质量。
本文具体对如何融合以下四种不同类型的先验知识进行了研究，主要研究内
容与创新点如下：
1.融合词向量的藏文句子相似度研究：针对目前关于藏文句子的相似度计算
方法研究较少且现有方法精度较低的问题，本文提出一种融合词向量的藏文句子
相似度计算方法，首先通过 Skip-gram 模型和 CBOW 模型对 500M 大规模藏文单语
语料库训练得到两种藏文词向量，然后据此计算藏文句子向量，最后设计实现了
两种基于表层信息的藏文句子相似度计算方法——基于词向量与欧几里得距离
和基于词向量与 Jaccard 相似度的计算方法——来计算藏文句子的相似度，通过
对比实验表明基于 Skip-gram 词向量与 Jaccard 相似度的藏文句子相似度计算方
法能够得到 85.6%的准确率，优于其他组合方式。
2.融合域外模型的藏汉神经机器翻译领域自适应方法研究：针对目前鲜有高
效训练针对不同领域的藏汉神经机器翻译模型方法的研究，本文提出一种基于混
合微调的藏汉领域自适应方法，首先使用 20 万句对的藏汉通用平行语料库训练
一个藏汉通用翻译模型，然后通过领域自适应方法以此模型作为父模型进行混合
微调，分别利用 5 万句对的藏汉政府公文平行语料库和一万五千句对的藏汉自然
科学平行语料库,在此基础上训练得到政府公文、自然科学两个特定领域的藏汉
机器翻译模型，实验证明在低资源条件下该方法能够在域外模型的基础上快速有
效地训练出域内翻译模型，且整体表现优于域外模型，在各自领域测试集上的
BLEU 值相比通用模型提升到 19.03 和 12.15。
I
3.融合词性特征的藏汉神经机器翻译方法研究：为了在有限的语料基础上利
用更多的外部信息得到最佳的翻译性能，本文通过引入藏文词性特征，即在训练
过程中加入源端藏文词性标注（POS）作为输入特征，在 Transformer 注意力机
制的编码器-解码器体系结构中泛化了编码器的嵌入层，以支持嵌入除词汇特征
外的词性特征信息。通过对比合并、连接两种不同的嵌入方式，实验验证了连接
方法对翻译效果的提升更为明显，BLEU 值提升了 3.99。
4.融合统计方法的藏汉神经机器翻译方法研究：针对藏汉统计机器翻译中词
对齐结果效果较好，而藏汉神经机器翻译模型中的对齐信息与之存在显著差异的
问题，本文提出一种融合统计方法的藏汉神经机器翻译方法，首先使用统计机器
翻译方法生成藏汉平行语料的双向对称词对齐信息，然后在 Transformer 模型训
练过程中使用该词对齐信息监督藏汉神经机器翻译模型的训练过程，使模型达到
更为准确的翻译和对齐效果。实验表明在低资源环境下，该方法使 BLEU 值提升
了 1.7。
综上，本文试图通过引入除常规神经机器翻译所需的双语平行语料库之外的
先验知识，如藏文单语语料库、域外模型、藏文词性标注信息、藏汉词对齐信息，
来解决目前藏汉机器翻译存在的一些问题。实验表明先验知识的融合在一定程度
上能够提高藏汉机器翻译质量。本文也为未来进一步在藏汉机器翻译中更好地引
入更多丰富的先验知识打下基础，对将来相关研究工作有一定的参考价值。
关键词：藏汉机器翻译，先验知识，神经机器翻译，低资源，词向量，统计方法，
词性标注
II
Research on Tibetan-Chinese Neural Machine
Translation Incorporating Prior Knowledge
Abstract
With the gradual popularization and deepening of the application of computer

technology in all walks of life, the accelerated integration of the global economy and
the frequent exchanges between different countries and regions, the translation by
manual way no longer meets the status quo of the rapidly growing demand for
translation in today's society both in terms of time and cost, people turn their attention
to machine translation methods, which brings a new development opportunity for
machine translation. In recent years, the emergence of deep learning methods has led
to the rapid development of artificial intelligence, and Neural Machine Translation has
become a new research direction of Machine Translation instead of statistical
Machine Translation methods. Neural network translation models rely on large-scale
bilingual training corpus to obtain high-quality translation results. Studies have shown
that the performance of neural machine translation (NMT) decreases significantly
under the condition of insufficient resources. Due to the scarcity of digital resources
in Tibetan, there are only small-scale Tibetan and Chinese bilingual parallel corpora to
train translation models. Therefore, this thesis proposes a method of integrating prior
knowledge, which can solve the problems caused by the lack of Tibetan-Chinese
bilingual corpus to a certain extent and improve the quality of Tibetan-Chinese
machine translation.
This thesis specifically studies how to integrate the following four different types
of prior knowledge, and the main research contents and innovations are as follows:
1. Study on Tibetan Sentence Similarity Evaluation Based on Vectorized

Representation Techniques: In view of the problem that there are few researches on
the similarity calculation methods of Tibetan sentences and the accuracy of existing
methods is low, this paper proposes a method of sentence similarity calculation of
Tibetan sentences by integrating word embeddings. Firstly, two Tibetan word
embeddings are obtained by training a 500M Tibetan monollingua corpus through
skpp-gram model and CBOW model. Then, the Tibetan sentence embeddings is
calculated accordingly. Finally, two methods for calculating the similarity of Tibetan
sentences based on surface information are designed and implemented: one is based
III
on the distance between word embeddings and Euclidean and the other is based on the
similarity between word embeddings and Jaccard. Comparative experiments show
that the Tibetan sentence similarity calculation method based on skip-Gram word
embeddings and Jaccard similarity can get 85.6% accuracy, which is better than other
combination methods.
2. Research on Domain Adaptation for Tibetan-Chinese Neural machine

Translation incorporating extraterritorial models: In view of the present few effective
training for different domain Tibetan-Chinese neural machine translation method in
the field of research, this paper proposes a Tibetan-Chinese domain adaption method
based on hybrid fine-tuning, firstly to use 200000 words of Tibetan – Chinese general
parallel corpus training a Tibetan-Chinese general translation model, and then through
the domain adaption method to mixed fine-tuning the parent model, Use 50000 words
of the Tibetan-Chinese government document parallel corpus and fifteen thousand
words of Tibetan-Chinese parallel corpus on the basis of the parent model to train
natural science and the government documents MT, experiments prove that under the
condition of low resources based on the out-domain model, the method can quickly
and effectively training in-domain translation model, Moreover, the overall
performance of the model is better than that of the external model, and the BLEU
values of the test sets in their respective fields are improved to 19.03 and 12.15
compared with the general model.
3. Research on Tibetan-Chinese Neural Machine Translation Based on

Part-of-speech Features: in order to use more external information based on limited
corpus to get the best performance, in this paper, We introduce a Tibetan parts of
speech characteristics, namely in the process of training to join the source side use
Tibetan part-of-speech tagging (POS) as input features by generalization of the
encoder embedded layer in encoder- decoder architecture in Transformer attention
mechanism to support embedding of part-of-speech feature information except lexical
feature. By comparing the two different embedding methods of merge and concat, the
experiment verifies that the concat method improves the translation effect more
obviously, and the BLEU value increases by 3.99.
4. Research on Tibetan-Chinese Neural Machine Translation Combined with

Statistical Methods: The results of word alignment in Tibetan - Chinese statistical
IV
machine translation are better and the alignment information in the Tibetan-Chinese
Neural Machine Translation model is significantly different from it. This paper
proposes a tibetan-Chinese Neural Machine Translation method combining statistical
methods. firstly use statistical machine translation method to generate
Tibetan-Chinese parallel corpora bidirectional symmetric word alignment information,
Then this word alignment information is used in Transformer model training to
supervise the training process of Tibetan-Chinese Neural Machine Translation model,
so that the model can achieve more accurate translation and alignment effect.
Experimental results show that BLEU value can be increased by 1.7 under low
resource environment.
To sum up, this thesis attempts to solve some existing problems in

Tibetan-Chinese machine translation by integrating prior knowledge other than
bilingual parallel corpora required by conventional Neural Machine Translation, such
as Tibetan monolingual corpus, out-domain model, Tibetan part-of-speech tagging
information and Tibetan-Chinese word alignment information. Experiments show that
the integrating of prior knowledge can improve the quality of Tibetan-Chinese
machine translation to a certain extent. This thesis also lays a foundation for further
integrating more abundant priori knowledge into Tibetan-Chinese machine translation
in the future, and has certain reference value for related research in the future.
Key words: Tibetan - Chinese Machine Translation, Prior

Knowledge, Neural Machine Translation, Low resources, Word
Embedding, Statistical methods, POS tagging
V
目录
摘要............................................................................................................................ I
Abstract ................................................................................................................ III

第一章绪论 .............................................................................................................. 1
1.1 研究背景及意义 ............................................................................................... 1
1.2 研究现状 .......................................................................................................... 2
1.2.1 国外研究现状 ............................................................................................ 2
1.2.2 国内研究现状 ............................................................................................ 4
1.3 论文主要研究内容及贡献 ................................................................................. 7
1.4 论文章节结构 ................................................................................................... 9
第二章机器翻译方法概述 ....................................................................................... 11
2.1 引言 ............................................................................................................... 11
2.2 规则机器翻译方法 .......................................................................................... 11
2.3 统计机器翻译方法 .......................................................................................... 13
2.4 神经机器翻译方法 .......................................................................................... 16
2.4.1 语言模型 ................................................................................................. 16
2.4.2 循环神经网络 .......................................................................................... 17
2.4.3 注意力机制 ............................................................................................. 20
第三章融合词向量的藏文句子相似度研究 .............................................................. 24
3.1 引言 ............................................................................................................... 24
3.2 相关理论方法 ................................................................................................. 25
3.2.1 计算机辅助翻译 ...................................................................................... 25
3.2.2 词向量及其语言模型 ............................................................................... 29
3.3 基于词向量的藏文句子相似度算法设计 .......................................................... 31
3.3.1 基于词向量和欧氏距离的藏文句子相似度计算 ........................................ 33
3.3.2 基于词向量和 Jaccard 相似度的藏文句子相似度计算 .............................. 34
3.4 实验分析 ........................................................................................................ 35
3.4.1 藏文词向量模型训练 ............................................................................... 35
3.4.2 藏文句子相似度计算 ............................................................................... 36
3.5 本章小结 ........................................................................................................ 39
第四章融合域外模型的藏汉神经机器翻译领域自适应方法研究 ............................... 40
VI
4.1 引言 ............................................................................................................... 40
4.2 相关理论方法研究 .......................................................................................... 41
4.2.1 迁移学习概述 .......................................................................................... 41
4.2.2 领域自适应 ............................................................................................. 45
4.3 藏汉神经机器翻译领域自适应研究 ................................................................. 46
4.4 实验分析 ........................................................................................................ 48
4.4.1 语料处理 ................................................................................................. 48
4.4.2 实验设计 ................................................................................................. 49
4.4.3 实验结果分析 .......................................................................................... 52
4.4 本章小结 ........................................................................................................ 53
第五章融合词性特征的藏汉神经机器翻译方法研究 ................................................ 54
5.1 引言 ............................................................................................................... 54
5.2 藏语词性特征及其特征嵌入 ............................................................................ 55
5.2.1 藏语词类及其词性标注 ............................................................................ 55
5.2.2 藏文词性特征嵌入 ................................................................................... 58
5.3 实验与分析 .................................................................................................... 60
5.3.1 语料处理 ................................................................................................. 60
5.3.2 实验设计 ................................................................................................. 61
5.3.3 结果分析 ................................................................................................. 63
5.4 本章小结 ........................................................................................................ 63
第六章融合统计方法的藏汉神经机器翻译方法研究 ................................................ 65
6.1 引言 ............................................................................................................... 65
6.2 词对齐 ........................................................................................................... 66
6.2.1 统计机器翻译中的对齐信息..................................................................... 66
6.2.2 神经机器翻译中的对齐信息..................................................................... 71
6.2.3 融合统计方法的藏汉神经机器翻译 .......................................................... 74
6.3 实验分析 ........................................................................................................ 75
6.3.1 基于统计方法的藏汉双向词对齐获取....................................................... 75
6.3.2 藏汉词对齐监督训练 ............................................................................... 78
6.3.3 实验结果与分析 ...................................................................................... 79
6.4 本章小结 ........................................................................................................ 80
第七章总结与展望 .................................................................................................. 81
VII
7.1 总结 ............................................................................................................... 81
7.2 展望 ............................................................................................................... 82
参考文献.................................................................................................................. 84
附录 1 图目录 ......................................................................................................... 93
附录 2 表格目录 ..................................................................................................... 95
攻读博士学位期间的研究成果 .................................................................................. 97
致谢......................................................................................................................... 99
VIII
第一章绪论
1.1 研究背景及意义
根据“民族语：全世界的语言”（Ethnologue: Languages of the World） 1

网站统计，现存已知的人类语言有 7151 种。随着世界文明的发展，语言之间的
无缝沟通和理解变得越来越重要。随着 Internet（因特网技术）的普遍应用，
全球经济一体化的快速进行以及国际间交流合作的日益频繁，传统的人工翻译方
法已经完全不能满足全世界不同组织、个人的翻译需求，因此人们将目光转向机
器翻译(Machine Translation,MT)，研究人员针对机器翻译开展了大量的研究，
使得机器翻译技术研究迎来了新的全盛时期。在人工智能大行其道的今天，是否
能够跨越人类所有语言进行无缝沟通，可以看做是人工智能的终极目标。因此，
机器翻译是当今世界一个重要的研究领域。
机器翻译属于人工智能中自然语言处理（Natural Language Processing,

NLP）领域中的一个分支，它的任务是教会机器实现自动跨语言翻译。机器翻译
[1]
有着悠久的发展历史，从 17 世纪最初的普遍语言的哲学思想到 20 世纪 50 年
代的第一个实用的建议，最引人注目的是文献[2]的一个有影响力的提议，标志着
机器翻译研究的开端，这是第一次提出使用计算机进行翻译的想法，从那时起，
机器翻译开始走入研究者的视线，自此经历了许多大的发展时期，但也遇到了几
个停滞的阶段。在主要经历了规则机器翻译和统计机器翻译这两个主要时代之后，
近年来，神经机器翻译(Neural Machine Translation, NMT)成为一种很有发展
前途的机器翻译方法。
中国是一个多民族国家，藏族作为五十六个少数民族之一，共有七百多万人
口，分布在西藏、四川、青海、甘肃、云南五省区，约占国土面积的 1/4，拥有
自己的语言和文字。藏文作为藏民族文化传承的重要载体, 是在藏区各种科技文
化知识的主要传播工具, 在当今信息化社会中更是一种主要的标识符,因此藏文
具有独特的人类文化价值，并且在广大藏区所发挥了巨大的作用[3]。
新中国成立以来，不同民族、文化之间的交流往来逐渐频繁，不论是推动地
区经济发展，还是加深民族间的沟通理解，语言文字是需要首当其冲解决的交流
障碍。语言交流障碍一方面是制约藏区社会经济发展的重要原因;另一方面,也为
1
https://www.ethnologue.com/
1
青海师范大学博士学位论文
党和国家的政策方针、法律法规在藏区的宣传、贯彻和执行造成了很大的困难。
藏区因其特殊的历史、宗教和地理等方面的原因,在国际、国内受到广泛关注,
因此,藏区和其他地区的语言文字交流障碍亟待解决。为了推动藏区和谐、稳定、
快速的发展，维护国家统一，藏文机器翻译，特别是藏汉机器翻译就具有非常重
要的研究意义和应用价值。
从整体上看，相较于外文和汉文机器翻译，由于藏文和其他语言文字之间的
平行语料库资源的匮乏，相关研究人员较少，致使藏文机器翻译研究相对滞后。
目前藏汉机器翻译相关研究主要集中在统计机器翻译，以及藏汉机器翻译相关基
础性研究工作。目前有关神经网络机器翻译方法在藏文上的研究成果较少。因此
藏汉机器翻译的研究，尤其是藏汉神经机器翻译的研究具有极高的研究价值和发
展空间。
1.2 研究现状
1.2.1 国外研究现状
20 世纪 50-60 年代，在机器翻译研究的初期，尽管研究热度高涨，但当时
机器翻译的主要方法是基于双语词典的逐词直接替换。在 1966 年的 ALPAC 报告
指出机器翻译没有直接或可预测的前景，这使得之后十年的时间机器翻译研究一
度停滞。20 世纪 80 年代， IBM 科学家开始了一项开创性工作——统计机器翻译
方法(Statistical Machine Translation ，SMT)[4]。该研究提出一种基于语料
库的机器翻译方法，该方法需要非常少的语言信息，并且只需要一个平行句对数
据集(句对即不同语言文字间的一组译文)就可以训练机器翻译系统。为了代替人
工构建双语词典，提出一系列算法 IBM model 1-5 以学习单词对齐，自动获取双
语词典。虽然 IBM 的这项工作对统计机器翻译领域产生了巨大的影响，但机器翻
译不能只基于单词进行翻译，还需要联系上下文来生成准确的翻译。因此随后出
现的基于短语的机器翻译模型成为当时统计机器翻译研究的标准，被许多商业翻
译系统采用[5]。
为了评估机器翻译质量，文献[6]2002 年提出一种快速、廉价、独立于语言的
机器翻译评估方法——BLEU(Bilingual Evaluation Understudy，双语评估替补)，
通过计算机器和人类翻译结果之间重叠的单词和短语来评价机器翻译效果。迄今
为止，BLEU 值仍然是最广泛使用的机器翻译评估指标。统计机器翻译存在易忽
略长距离的依赖关系和系统框架复杂化两个缺点，难以创新，统计机器翻译质量
2
已基本饱和。
1986 年深度学习这个概念第一次被 Hinton 提出，这是一种基于数据的机器

学习方法[7]。随着深度学习技术的不断研究，在自然语言处理领域中也得到了广
泛的应用，于是神经机器翻译(Neural Machine Translation, NMT)应运而生。
神经机器翻译是一个单一的大型神经网络(有数百万人工神经元)，能够模拟整个
机器翻译过程[8]。神经机器翻译是目前为止需要最少领域知识的翻译系统，和统
计机器翻译类似，只需要有翻译句子对的平行语料库，但预处理步骤要比统计机
器翻译少得多。2014 年谷歌发表论文提出了一种端到端（end-to-end）的神经
网络模型[9]，适合学习序列到序列的映射关系，消除了统计机器翻译系统中必须
学习多个组件的问题，为神经机器翻译质量超越统计机器翻译打下基础。同年文
献[10]首次将注意力机制引入自然语言处理。为了解决未登录词问题，2016 年文
献[11]提出将生僻词和未知词编码为子词单元序列，即不同的词类可以通过比单词
更小的单位进行翻译。 2017 年， Google 机器翻译团队提出了一种名为
Transformer 的翻译模型,仅仅使用注意力机制进行机器翻译，不再使用之前神
经机器翻译采用的循环神经网络（Recurrent Neural Network，RNN）和卷积神
经网络（Convolutional Neural Network，CNN）等网络结构，取得了很好的效
果[12]。
除去在以上文献中对神经机器翻译模型主要结构的研究之外，在低资源语言
翻译、多语言机器翻译、文档翻译、预训练、语音翻译系统等方面也有许多研究
成果。
在低资源语言翻译研究方面文献[13]提出在不使用任何辅助单语或多语数据
的情况下，优化的 NMT 系统可以在数据量远低于先前宣称的基于短语的统计机器
翻译的情况下取得更好的效果。文献[14]提出镜像生成的 NMT (MGNMT)，它是一个
统一的体系结构，同时集成了源到目标的翻译模型、目标到源的翻译模型和两种
语言模型。翻译模型和语言模型具有相同的潜在语义空间，因此两个翻译方向可
以更有效地从非并行数据中学习。文献[15]利用相似语言重叠来促进在只有单语言
数据的低资源语言和相关高资源语言中的并行数据之间的转换。
多语言机器翻译方面文献[16]提出了一种有效的神经机器翻译(NMT)的前训练
策略，该策略使用了平行语料库，包含了一种轴心语言，即源-轴心语言和轴心-
目标语言，使用三种方法来增加训练前源语、中枢语和目标语之间的关系。
文档翻译方面早期有文献[17]在翻译时，将文档作为一个整体来考虑以帮助解
3
决歧义和不一致的问题，并且提出了一种跨语句的语境感知方法，主要研究了历
史语境信息对神经机器翻译性能的影响；最近文献[18]提出通过整合多个预先训练
的文档上下文信号来适应句子级的序列到序列转换器。
预训练方面引入了一种新的语言表示模型 BERT，BERT 是基于 Transformer

的一种双向编码器表示。不同于之前的语言表示模型，BERT 的目的是通过对所
有层的左右上下文中的共同条件作用，对未标记文本进行深度双向表示的预训练
[19]
。
在语音翻译方面文献[20]提出了一种递归式编码器-解码器深度神经网络结构，
可以直接将一种语言的语音翻译成另一种语言的文本。
在语言解释方面最近文献[21]在一个多语言模型中将翻译语言和原文(即自然)
文本建模为独立的语言，并训练了一个句子级分类器来区分翻译风格和原始目标
文本，并利用这个分类器对训练数据进行标记用于一个 NMT 模型，在测试时产生
更多的自然输出，在充分性和流利性方面获得人类评估分数。
1.2.2 国内研究现状
美国是世界上最初进行机器翻译研究的国家,早在十九世纪五十年代初就在
IBM-701 电子计算机上进行了历史上第一次机器翻译实验。随后苏联和英国也各
自进行了英俄机器翻译和法英机器翻译试验。我国作为历史上第四个开展机器翻
译研究工作的国家，早在 1957 年,中国科学院语言研究所就与计算所合作开展了
俄汉机器翻译的研究[22]。我国机器翻译经历了草创期、停滞期、复苏期和繁荣期
四个时期,与国外机器翻译的发展情况相比我国机器翻译无论是在理论上和方法
上包括设备上都有不小的差距,和同时期的国外机器翻译研究相比稍显滞后。
1987 年我国成功研制了第一个商品化翻译软件“KY- 1”(科译 1 号)英汉翻译系
统（“译星”翻译软件前身）；1992 年中科院计算所研制成功了“IMT/EC863”
英汉机器翻译系统,获国家科技进步一等奖。哈尔滨工业大学、中国科技情报所、
华南工学院等单位也是国内最早进行机器翻译研究的机构。
90 年代以来，计算机技术在国内迅速普及和发展，我国的机器翻译技术逐
渐产业化，各大相关企业相继推出如"译星"和"东方快车"等翻译软件。2005 年
第一届统计机器翻译研讨会在厦门大学召开，后改为全国机器翻译研讨会，至今
已举办十七届。2006 年由厦门大学、计算所、自动化所、哈工大和软件所牵头
开发了开放源代码的的基于短语的统计机器翻译系统“丝路”1.0。2010 年后，
4
互联网技术的兴起造就了一大批国内 IT 公司，也逐渐开展机器翻译研究并推出
自己的机器翻译应用服务，如百度翻译、搜狗翻译、有道翻译等翻译软件逐步上
线。
目前国内机器翻译技术的主要研究机构有中国科学院下属机构包括计算技
术研究所、哈尔滨工业大学、清华大学、北京大学、东北大学、新疆大学、南京
大学等；主要研究规则机器翻译（Rule-Based Machine Translation，RBMT）、
实例机器翻译（Example-Based Machine Translation，EBMT）、统计机器翻译以
及神经机器翻译。由于大规模平行语料库的建立和计算机技术的迅猛发展，统计
机器翻译研究在过去十多年都处于主导地位，而目前神经机器翻译已经成为国内
[23]
机器翻译研究者的主要关注的方法。
800
数据来源：www.cnki.net
700
600
500
发表论文数
400
300
200
100
发表年份
图 1-1 历年中文机器翻译论文发表情况
国内少数民族语机器翻译研究工作也逐步开展，其中以蒙汉、维汉、藏汉机
器翻译研究为主。文献[24]是最早的汉藏机器翻译研究，1994 年在国家 863 计划
的支持下，开始了汉藏科技机器翻译系统的研究工作，实现了一个藏汉机器翻译
原型系统——班智达汉藏公文机器翻译系统，该系统主要采用了当时主流的规则
机器翻译方法。文献[25]从藏文语料库的实际建设需求角度出发，提出了基于语料
库的藏文词类分类和标注方法。文献[26]描述了如何将一个基于隐马尔可夫模型的
汉文分词系统移植成藏文分词系统的过程，该分词系统分词准确率较高，文章同
时研究了如何在此基础上进一步提高准确率。文献[27]研究了藏语分词和基于短语
的藏汉统计机器翻译引擎关键技术。2015 年西藏大学自主研发的“阳光藏汉机
5
器翻译系统”翻译准确率平均达 75%；2018 年由中国民族语文翻译局和东北大学

合作研发了一款藏汉智能翻译系统。
从研究文献数量看，由图 1-1、图 1-2 可知，目前根据知网公开可查的信息，

中文机器翻译方面的文献数量逐年增加，每年都有几百篇新文献；而藏文机器翻
译研究虽然整体也呈现上升趋势，但每年的新发表文献数量最多只有十几篇，与
中文机器翻译之间差距巨大。从整体研究内容上看，目前藏文机器翻译的研究工
作还是相对滞后，大多数关于藏文机器翻译的研究工作围绕统计机器翻译，以及
面向藏文机器翻译的基础研究工作。如藏文统计机器翻译中的短语抽取、基于短
语、基于树到串的藏文机器翻译、混合策略的汉藏机器翻译，以及面向藏文机器
翻译的动词处理研究、短语句法研究、功能组块识别、藏文数词识别与翻译等。
目前有关神经网络机器翻译在藏语上的研究有文献[28]在藏汉平行语料库上
训练了基于注意力的藏汉神经机器翻译模型，并将英汉翻译模型迁移到藏汉神经
[29]
机器翻译以改善藏汉平行语料匮乏的问题；文献在汉藏机器翻译任务中使用了
深度学习技术，通过编码器—解码器结构实现翻译系统。文献[30]实现了基于短语
的统计翻译模型和三类基于主流神经网络构架的藏汉机器翻译基准模型，并对面
向神经网络藏汉机器翻译的分词方法进行了研究分析。文献[31]通过藏汉语言资源
构建、单语语言模型融合、迭代式回译策略、跨语言模型的建模等理论和方法的
研究，为解决目前藏汉机器翻译中资源稀缺、翻译性能不佳等问题提供一个有效
的研究思路和方法。文献[32] 基于 Transformer 模型研究了藏汉机器翻译中的多
注意力机制。文献[33]通过构建高质量汉藏双语平行语料库，研究了了藏文长句分
割、地名识别技术、改进藏文字节对编码等关键技术。
14 数据来源：www.cnki.net
12
10
发表论文数
8
6
4
2
0
2000前
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
发表年份
图 1-2 历年藏文机器翻译论文发表情况
6
1.3 论文主要研究内容及贡献
一直以来，藏汉平行语料的匮乏严重制约着藏汉机器翻译的质量，尤其是目
前藏汉神经机器翻译模型的表现和其他资源丰富的语言对相比差距较大，藏文和
汉文之间的自动翻译还存在着许多问题。首先，由于神经网络翻译模型对平行语
料库的规模有着而严重依赖，对于平行语料匮乏的藏文而言，使用小规模的藏汉
双语平行语料来训练翻译模型，使得神经网络翻译模型只可以学习到少量的特征，
从而无法训练得到最佳的网络参数。其次，在语料规模足够大的情况下，神经网
络翻译模型只需依靠双语平行语料就可以学到足够的语言特征，但是对于小规模
的藏汉平行语料而言，神经网络学习到的词向量能够表达的藏文单词信息量是有
限和不足的。
知藏汉平行语料库
识藏文单语语料库
源藏汉通用语料库藏文句子汉文句子
先
藏文词向量
验
藏汉通用翻译模型藏文词性标注信息藏汉显式对齐信息
知藏文句向量
识
融
藏汉神经机器翻融合词性特征的融合统计方法的
合藏文句子相似
译领域自适应方藏汉神经机器翻藏汉神经机器翻
方度计算方法
法译方法译方法
法
贡藏汉辅助机器藏汉特定领域神
藏汉神经机器翻译
献翻译经机器翻译
图 1-3 论文主要研究内容及贡献
针对以上藏汉神经机器翻译方法存在的问题，本文提出融合先验知识的藏汉
神经机器翻译方法，主要将从藏语单语语料库、藏语词性特征信息、藏汉统计方
法词对齐信息以及域外翻译模型中获得的先验知识引入到藏汉神经机器翻译的
7
训练过程中，从而提高藏汉机器翻译质量。本文主要研究内容如图 1-3 所示，具

体研究内容与创新点如下：
1.融合词向量的藏文句子相似度研究：
介于藏汉神经机器翻译因语料匮乏而使得翻译效果不佳，计算机辅助翻译可
以避开这个障碍为藏汉翻译人员提供帮助。句子的相似度计算是自然语言处理领
域一项基础而核心的研究课题，尤其在计算机辅助翻译中，句子相似度计算对翻
译结果和翻译效果起到决定性作用。在藏汉辅助翻译系统中，通过藏文句子相似
度计算，可以将翻译记忆库中与输入藏文句子最相近的几个句对返回给用户作为
翻译参考。目前关于藏文句子的相似度计算方法研究较少且现有方法精度较低，
本文首先通过 Skip-gram 模型和 CBOW 模型对大规模藏文单语语料库训练得到两
种藏文词向量，然后据此计算藏文句子向量，最后设计实现了两种基于表层信息
的藏文句子相似度计算方法——基于词向量与欧几里得距离和基于词向量与
Jaccard 相似度的计算方法——来计算藏文句子的相似度，实验表明基于
Skip-gram 词向量与 Jaccard 相似度的藏文句子相似度计算方法能够得到 85.6%
的准确率，优于其他组合方式。
2.融合域外模型的藏汉神经机器翻译领域自适应方法研究：
在不同语境下，同一个词语或者句子的意义会发生变化，而通用翻译系统难
以在所有领域保持稳定的性能，因此需要建立特定领域的机器翻译系统。
为了高效训练针对不同领域的藏汉神经机器翻译模型，本文提出一种基于混
合微调的藏汉领域自适应方法，在首先使用 20 万句对的藏汉通用平行语料库训
练一个藏汉通用翻译模型，然后通过领域自适应方法以此模型作为父模型分别进
行混合微调，分别利用 5 万句对的藏汉政府公文平行语料库和一万五千句对的藏
汉自然科学平行语料库在此基础上训练得到政府公文、自然科学两个特定领域的
藏汉机器翻译模型，实验证明该方法能够在域外模型的基础上快速有效地训练出
域内翻译模型，且整体表现优于域外模型，在各自领域测试集上的 BLEU 值相比
通用模型提升到 19.03 和 12.15。
3.融合词性特征的藏汉神经机器翻译方法研究：
为了在有限的语料基础上利用更多的外部信息得到最佳的翻译性能，本文通
过引入藏文词性特征，即在训练过程中加入源端藏文词性标注（POS）作为输入
8
特征，在 Transformer 注意力机制的编码器-解码器体系结构中泛化了编码器的

嵌入层，以支持嵌入除词汇特征外的词性特征的信息。通过对比合并、联结两种
不同的嵌入方式，实验验证了联结方法对翻译效果的提升较为明显，BLEU 值提
升了 3.99。
4.融合统计方法的藏汉神经机器翻译方法研究：神经机器翻译模型中使用的
注意力机制是由对单词对齐的建模需求所驱动的，与传统意义上的词对齐存在显
著差异。统计翻译方法生成的源语言和目标语言之间的词对齐依然是目前对齐效
果最好的。由于词对齐和机器翻译效果紧密相关，且词对齐在机器翻译领域中有
很多应用，本文提出一种融合统计方法的藏汉设计机器翻译方法，首先使用统计
机器翻译中的词对齐工具 giza++生成藏汉平行语料的显式双向词对齐文件，然
后在 Transformer 模型训练过程中作为对齐标签用于监督模型的词对齐，从而指
导训练过程，使模型得到更为准确的翻译和对齐效果。实验表明在低资源环境下，
模型翻译 BLEU 值提高了 1.7。
1.4 论文章节结构
主要分为七个章节，每章主要内容如下：
第一章绪论主要介绍了本文的研究背景和研究意义，总结了国内外机器翻译
研究历史和现状，重点描述了藏汉机器翻译研究历史及现状。介绍了论文的四个
主要研究内容及贡献，最后简要概括了论文整体结构和每一章的主要内容。
第二章机器翻译方法概述部分论述了机器翻译研究中三个重要的研究方法，
包括早期的规则翻译方法和在很长一段时间占据统治地位的统计机器翻译方法，
最后详细叙述了目前机器翻译研究的主流方法，也是本文主要采用的神经机器翻
译方法。
第三章将词向量引入到藏文句子相似度计算中，通过对词向量的叠加得到藏
文句子向量，并在此基础上设计实现了基于词向量与欧几里得距离和基于词向量
与 Jaccard 相似度的两种计算方法来计算藏文句子的相似度，实验表明基于
Skip-gram 词向量与 Jaccard 相似度的藏文句子相似度计算方法能够得到 85.6%
的准确率，优于其他组合方式，有助于提高藏汉辅助机器翻译效果。
第四章通过介绍迁移学习基本理论及自适应方法，提出一种高效训练针对不
同领域的藏汉神经机器翻译模型的方法，通过基于混合微调的领域自适应方法分
9
别利用 5 万句对的藏汉政府公文平行语料库和一万五千句对的藏汉自然科学平
行语料库在此基础上训练得到政府公文、自然科学两个特定领域的藏汉翻译模型，
实验证明该方法在各自领域测试集上的 BLEU 值相比通用模型提升到 19.03 和
12.15。
第五章通过引入藏文词性特征，即在训练过程中加入源端藏文词性标注（POS）
作为输入特征，在 Transformer 注意力机制的编码器-解码器体系结构中泛化了
编码器的嵌入层，以支持嵌入除词汇特征外的词性特征的信息。通过对比合并、
联结两种不同的嵌入方式，实验验证了联结方法对翻译效果的提升较为明显，
BLEU 值提升了 3.99。
第六章使用统计机器翻译中的词对齐工具 giza++生成藏汉平行语料的显式
双向对齐信息，在 Transformer 模型训练过程中作为对齐标签用于监督对齐信息，
指导训练过程，以达到更为准确的翻译和对齐效果。实验表明在低资源环境下，
BLEU 值提升了 1.7。
第七章对全文研究内容进行总结，并对藏文机器翻译研究的未来发展进行展
望。
10
第二章机器翻译方法概述
2.1 引言
随着计算机技术的广泛传播，世界各地的人们比以往任何时候都更紧密地联
系在一起，由于不同地区的人们使用不同的语言文字，这使得无缝沟通和理解的
需求变得至关重要。机器翻译研究属于人工智能领域的一项重要的研究工作，它
让机器学会如何自动将一种语言翻译成另一种语言。目前主流的神经机器翻译方
法只需要最少的语言知识，就可以从平行文本中提取翻译知识。
机器翻译技术主要经历了三个阶段，最初的翻译方法采用双语词典进行替换，
后来添加了人工编写的规则，按照语法对翻译结果进行调序和修改，即基于规则
的机器翻译方法；第二个阶段是基于统计的机器翻译方法。该方法从平行语料库
中获取翻译知识，通过学习得到词典而不用人工构建双语词典。其中基于短语的
统计机器翻译方法表现最佳，广泛应用于许多商业系统中。然而随着统计机器翻
译方法的不断优化，越来越多的附加功能组件使得模型愈加复杂、庞大，越来越
难以创新；同时在翻译句子时容易忽视短语之间的关联。第三个阶段就是目前主
流的神经机器翻译方法。2014 年，越来越多的研究者开始了解深度学习技术，
随着深度学习技术的不断发展，基于深度学习的神经网络机器翻译模型成为机器
翻译的研究热点。
2.2 规则机器翻译方法
早期的机器翻译又称为机械翻译，当时的翻译过程被划分为三个步骤:首先
将源语言文本的结构输入系统，然后将这个文本结构转换为目标语言对应的结构
说明符，最后一步按顺序构造出指定的输出文本。在这个翻译方法的基础上 1957
年美国学者 V. Yingve 在论文 Framework for Syntactic Translation[34]中提出
了一种基于规则的机器翻译方法，如下图 2-1 所示：
11
[34]
图 2-1 规则机器翻译框架
图 2-1 表示该方法假设的一个翻译系统。从左边输入源语言句子，识别程序
R.R 通过源语言语法器 G1 分析源语言句子并确定句子的结构描述说明符 S1,S1
中包含输入的源句子中的所有信息，其中明确说明包含了源句子中隐含的部分语
法信息(如时态、语态等)。由于最初系统进行的是德语和英语之间的翻译，而德
语和英语的结构描述一般不相同,因此系统还编写了一个英语和德语结构描述之
间的等价关系 E,以及一个英德结构转移程序 T.R,T.R 可以根据转换关系 E 将 S1
转换成目标语言句子的结构描述说明符 S2,构造程序 C.R 把 S2 构造成符合目标
语言语法 G2 的目标句子。
通过分析上述规则机器翻译方法，可知一般的规则方法翻译过程可以分为三
步：分析、生成、转换。因此，规则翻译方法也是一种基于转换的机器翻译方法，
法国 Grenoble 机器翻译研究所(GETA)据此方法开了名为 ARIANE 的翻译系统，这
也是历史上具有代表性的规则机器翻译系统。
规则翻译方法主要基于语言学知识，因此对于语言的表达一般较为清晰，描
述也比较准确，很多语言相关的特性可以用语言模型直接、具体、清晰地表示出
来。但是规则翻译方法建立的语言模型具有较差的鲁棒性，一些小的偏差、错误
就会导致整个语言模型无法正常工作，并且导致严重的翻译错误；此外编写的规
则非常抽象，知识颗粒度也较大，很多微细的语言学知识通常无法描述出来，更
重要的是规则方法需要的语言模型不能由机器方法自动生成，需要人工编写双语
词典和规则库，耗费大量的人力。
图 2-2 展示了一个典型的汉藏规则机器翻译流程。在这个翻译过程中，首先
需要人工建立的藏汉双语词典库；其次，由于藏文与汉文的语序不同，简而言之，
藏文是主宾谓结构，而汉文是主谓宾结构，另外藏文有形态变化等特殊语法结构，
因此需要人工编写翻译规则库进行调序、组合，最终生成译文。
12
源句子我们研究问题。
分词
我们研究问题

词典翻译藏汉双语词典库
ང་ཚ�/ཞིབ་འ�ག/གནད་དོན/།
生成译文翻译规则：
S+V+O—>S+X+O+L+V
ང་ཚ�ས་གནད་དོན་ལ་ཞིབ་འ�ག་�ེད།
图 2-2 藏汉规则机器翻译方法
2.3 统计机器翻译方法
最初的统计机器翻译思想来自于 1947 年 Shannon 等人提出的噪声信道模型

[35]
，该方法使用噪声信道模型对统计机器翻译过程进行了描述。其基本思想是，
将源语言设为 x，x 经过噪声信道模型后成为目标语言 y，所以可以认为是源语
言 x 经过某种编码后得到了目标语言 y，那么机器翻译的目标就可以理解为将
目标语言 y 还原成源语言 x。这种统计机器翻译的过程就可以看作是一个编码和
解码的过程，噪声信道模型如图 2-3 所示：
语言模型 t 翻译模型 s 解码器 t’

P(t) P(s|t) ť=argmaxtP(s|t)
图 2-3 统计机器翻译原理——噪声信道模型
以藏汉机器翻译为例，t 代表目标语言句子，如汉文，s 代表源语言句子，

如藏文。Language Model P(t)是汉文语言模型，可以反映汉文句子的质量，
Translation Model P(s|t)则相当于藏汉翻译模型，图中的 Decoder 就是解码器。
统计机器翻译方法就是根据信道模型的输出来搜索概率最大的信道输入，其中搜
索模块可以理解为解码的过程，翻译过程就是寻找最佳翻译结果的过程。
13
我一定要学习物理
平行语料库
我学习。 ང་ཡིས་�ོབ་�ོང་�ེད།
我要学习。 ངས་�ོབ་�ོང་�ེད་དགོས།
机器翻译系统
我学习物理。 ངས་དངོས་�གས་རིག་པ་ལ་�ོབ་�ོང་�ེད།
我一定要学习。 ངས་ངེས་པར་�་�ོབ་�ོང་�ེད་དགོས།
图 2-4 基于语料库的机器翻译方法
统计机器翻译(SMT)主要由数据驱动，以统计模型为基础训练生成翻译结果，
如图 2-4 所示通过分析双语对齐语料库获得参数。由于获取双语词典的成本很高，
基于语料库的机器翻译方法从平行语料库中通过概率自动学习双语词典或翻译
模型，而不是人工构建双语词典。为了实现这一点，IBM 科学家提出了 5 种增加
复杂度的算法，通常称为 IBM 模型 1-5[36]，用于学习单词对齐，即平行语料库
中的源词和目标词之间的映射，如图 2-5 所示。该方法的对齐原理很简单，即两
个不同语言的单词，出现在不同的句子对中的次数越多，这两个词就越有可能彼
此对齐并具有相同的含义。
源句子 ང དགེ་�ན ཡིན །
目标句子我是教师。
图 2-5 基于单词的对齐
IBM 模型 1 学习一个翻译模型就相当于得到一个双语概率词典。首先，它决
定翻译的长度以及如何将源词映射到目标词，然后根据双语词典，为每个目标位
置选择一个对应于对齐后的源词的最佳译文，最后生成译文。之后的几个 IBM
模型都是建立在另一个模型的基础之上，并细化了翻译过程，例如更好地建立重
排序模型、单词在源语言和目标语言之间的位置如何不同等。
统计机器翻译两个重要的步骤是搜索过程和语言建模组件，搜索过程找出一
组翻译候选，然后统计语言模型从这些候选翻译结果中选择出最好的译文。语言
14
建模是语音识别中较早研究的一个重要概念[37]。语言模型(Language Model，LM)
从目标语言的单语文本语料库中学习，并统计哪些词的顺序可能是相互关联的。
当应用到机器翻译时，语言模型会对自然连贯的翻译给予高分，对不好的翻译给
予低分。
虽然 IBM 的一系列工作对统计机器翻译研究产生了巨大的影响，但研究人员
很快意识到，基于单词的机器翻译是不够的，因为单词需要上下文来正确翻译，
比如一些单词在不同的上下文中有两个完全不同的含义。因此，基于短语的机器
[37]
翻译方法成为统计机器翻译事实上的标准方法，直到前几年仍然是许多商业系
统的主导方法。基于短语的机器翻译方法成功的原因很大程度上归功于对齐模板。
对齐模板的思想是首先对对齐进行对称化，获得源词和目标词之间的多对多对齐;
相反，原始的 IBM 模型只产生一对多的对齐[39]。从双向对齐中提取短语对并存储
在一个短语表中，使用不同的分数来评估短语对意义的等价程度，对齐的好坏等，
图 2-6 举例解释基于短语的机器翻译系统如何进行翻译。
源句子 ང དགེ་�ན་ཡིན །
目标句子我是教师。
图 2-6 基于短语的机器翻译
统计机器翻译系统事实上还包含了更多的组件，而不仅仅是两种基本的翻译
模型和语言模型。对于翻译任务来说，有许多有用的知识来源，例如语言模型、
翻译模型、反向翻译模型、重排序模型、长度惩罚等。为了整合所有的特征，统
计机器翻译系统在自然语言处理中使用了对数线性模型[40]。
最后，也有研究人员通过基于树的模型将语法添加到统计机器翻译中[41]，这
些方法确实为一些在句子结构方面有显著差异的语言对带来了翻译质量的提升，
例如汉语和英语。然而，与基于树的模型增加的复杂性(比如需要有好的解析器
和语法注释)相比，这种提升通常是不大明显的。
15
2.4 神经机器翻译方法
神经机器翻译类似于统计机器翻译方法，只需要平行语料库。但在构建翻译
模型之前需要的预处理步骤要少得多。神经机器翻译在概念上是简单的。过程如
下:编码器通过读取给定的源句子来构建一个向量：一个代表句子含义的数字序
列；然后，解码器对句子向量进行处理，生成翻译，如图 2-7 所示。这通常被称
为编码器-解码器体系结构。通过这种方式，神经机器翻译解决了统计机器翻译
中的局部翻译问题，它不做逐段翻译。相反，神经机器翻译在翻译之前会从整个
源句子中收集信息；因此，它可以捕捉语言中的长距离依赖关系，例如主语、动
词和宾语的结构顺序等。
0.7
编 0.5 解
འདི་�འི་རེད། 码 0.9 码这是谁的？
器 1.5 器
0.2
图 2-7 编码器-解码器框架
2.4.1 语言模型
语言建模在机器翻译中扮演着不可或缺的角色，以确保系统产生流畅的翻译。
具体来说，语言模型的工作是指定符号序列(通常是单词)的概率分布，以便判断
一个单词序列是否比另一个更有可能或更流畅。为了实现这一点，语言模型分解
一个单词序列 y = y1，…, ym 的概率为：
p(y) = ∏m
i=1 p(yi |y<i ) (2-1)
在上面的公式中，每一个单独的项 p(yi|y<i)是当前单词 yi 给定之前单词 y<i

的条件概率，也称为上下文。为了对这些条件概率进行建模，传统的 n-gram 语
言模型必须借助马尔可夫假设，只考虑 n 个单词的固定上下文窗口建模
p(yi|yi-n+1,,...,yi-1)。事实上，n-gram 语言模型必须显式地存储和处理一个训练
语料库中出现的所有可能的 n-gram，语料库就会很快变得巨大。因此，尽管在
这个领域有很多研究[42][43]， n-gram 语言模型只能处理大约 4 到 6 个单词的短上
下文。
16
神经语言模型(NLMs)[44][45]使用两个概念解决上述问题:(a)单词的密集分布
表示，鼓励相似单词之间共享统计权重；(b)前馈神经网络允许在测试时更好地
组合看不见的单词序列，而不必显式地存储所有的 n-gram 枚举。这些特性可以
作为一种方法来克服语言建模中的维数诅咒。因此，神经语言模型是紧凑的，并
且可以扩展到更长的上下文。
随后的机器翻译系统[46][47][48]开始采用神经语言模型和传统的 n-gram 语言
模型，并在翻译质量方面获得了相当大的改善。为了使 NLMs 更加强大，最近的
[49][50][51][52]
工作提出利用源词和目标上下文来降低下一个预测词的不确定性。这些
带有 NLM 组件的混合机器翻译系统，虽然优于统计机器翻译系统，但仍然无法捕
获长期依赖关系。更大的问题是，整个机器翻译组件已经很复杂了，不同的组件
需要单独调优，比如翻译模型、语言模型和重新排序模型。现在因为不同的神经
组件被合并到翻译框架中使得模型更加复杂。这种情况激发了神经机器翻译的诞
生，其目标是彻底重新设计整个机器翻译流水线。
2.4.2 循环神经网络
循环神经网络(RNN)[53]是一种功能强大且富有表现力的体系结构，可以处理
[54]
序列数据，并已成功应用于语言建模任务。RNN 接受向量 x1, x2,...,xn 的序列
作为输入并逐个处理。对于每个新的输入 xi, RNN 更新它的记忆以产生一个隐藏
的状态 hi。普通 RNN 将其递归函数定义为：
ht = f(xt , ht−1 ) (2-2)
在上面的公式中，f 是一个抽象函数，在给定当前输入 xt 和之前的隐藏状态

ht−1 的情况下，计算新的隐藏状态。起始状态 h0 通常被设置为 0。下面提供了一
个常用的 f 选项，其中σ是一个非线性函数，如 sigmoid 或 tanh。
hz = σ(wxh x−L + whh ht−1 ) (2-3)
在每个时间步长 t 时，RNN 可以发出一个输出符号 yt，它可以是离散的，也

可以是实值。语言应用通常的情况下是离散的，一组输出类 Y 上的概率分布 p
被推导为:
st = why ht (2-4)
pt = soft max(st ) (2-5)
17
softmax 函数将得分向量 st 转换为概率向量 pt，每个特定元素 y∈ Y 的定义

如下，这里使用 pt(y)和 st(y)来指代向量 pt 和 st 中对应于 y 的元素。
es𝑡𝑡 (y)
pt (y) = ′ (2-6)
Σy′ ∈Y e𝑠𝑠𝑡𝑡 (𝑦𝑦 )
根据上面的公式定义了 RNN 的权重集，它由输入连接 Wxh，循环连接 whh 和输

出连接 why 组成。如图 2-8 所示，这些权重跨时间步共享。RNN 可以捕捉任意长
序列的动态，而无需增加它们的建模能力。相比之下，前馈网络只能在固定长度
段上建模关系。
图 2-8 循环神经网络
循环语言模型作为 RNN 的一种特殊情况，假设输入和输出序列由离散符号

(通常是语言中的单词)组成。另外，输入序列前面有一个特殊的起始符号<s>，
例如，x = {<s>，“I”,“am”, “a”, “student”}。因为语言模型的目标是
预测下一个单词，所以输出序列是输入的一个移位 1 的版本，以标记边界的特殊
符号结束，例如，y = { “I”,“am”, “a”, “student” ， <s>}。正如图
2-9 中所示，在一个时间步中发出的单词被用作下一个时间步的输入
图 2-9 循环语言模型
将 RNN 应用于语言中的句子，或离散符号序列，可以考虑单词的 one-hot

表示，即 xi ∈R|V|，其中 V 为被考虑的词汇。然而，对于大词汇表 V，这种表示
18
方式的选择是有问题的，因为它会产生一个大的权重矩阵 Wxh，而且单词之间没
有相似性的概念。在实践中，单词的低维密集表示或嵌入经常被用来解决这些问
题。
但是前馈神经网络将前面的所有单词都视为历史信息，因此没有足够的能力
对序列的长距离依赖特征建模。因此，当处理非常长的序列时，RNN 经常出现的
两个经典问题是梯度爆炸和消失[55]。梯度爆炸是指随着时间的推移，梯度变得指
数级大，使得学习变得不稳定。另一方面，梯度消失是一个相反的问题，当梯度
以指数形式快速趋向零，就无法捕获序列中的长期依赖关系。
长短期记忆（Long short-term memory, LSTM）是一种改进的 RNN，主要为

了解决前面提到的长距离依赖问题，避免序列较长时训练中会出现的梯度消失和
梯度爆炸。简单来说，就是相比普通的 RNN，LSTM 更擅于处理长序列。长短期记
忆模型 Long Short-Term Memory (LSTM)，是对消失梯度问题最广泛采用的解决
方案之一。LSTM 的关键思想是用线性存储单元来增强 RNN，从而使梯度能够平稳
地流过时间。此外，还有一些门控单元，它们控制 RNN 在每个时间步上重用内存
(忘记门)、接收输入信号(输入门)和提取信息(输出门)的程度。
递归神经网络的一个共性是拥有重复模块链的结构形式。对于一个标准的
RNN 结构，它的重复模块结构其实是比较简单的，例如仅仅是一个单独的 tanh
层。LSTM 中也有类似的链结构，但它的重复模块结构不同。拥有四个神经网络
层，并且相互之间以一种特殊方式相互作用，具体如图 2-10 所示：
图 2-10 长短期记忆模型 Long Short-Term Memory (LSTM)
LSTM 的关键在于图 2-10 顶部的穿过的水平线，用于表示单元状态，如同一

个信息传送带沿着整个链运行，只有一些较小的线性相互作用。信息很容易一成
不变地沿着它流动。LSTM 拥有移除或添加单元状态信息的能力，具体使用名为
“门”的结构进行调节。顾名思义门就是一种通过方式，可以有选择的让某些信
息通过。门的主要结构由 sigmoid 神经网络层和点乘运算组成。其中 sigmoid
19
层输出 0 到 1 之间的值，用于描述每个组件可以允许信息通过的比例。输出为 0
表示 “门”不允许任何信息通过，是关闭的；输出为 1 表示所有信息都可以从
中通过。每一个 LSTM 结构都有三个这样用来保护和控制单元状态的门。
LSTM 中首先要要决定从单元状态中丢弃的信息是哪些。这一步也由一个门
结构决定，把这个门称作遗忘门，同样是一个 sigmoid 层。主要原理是通过观察
图中的 ht-1 和 xt，并针对每一个单元状态 Ct-1 中的信息，输出 0-1 之间的数字表
示有多少信息需要保留。
LSTM 中的第二步决定单元状态中新信息如何保存。这一步由两个部分完成：
第一个部分决定要被更新的值，由一个名为输入门的 sigmoid 层处理；然后有一
个 tanh 层用于创建代表新候选值的向量t，并将其添加到单元状态中，之后的步
骤需要综合这两个值创建单元状态的更新值。接下来更新旧的单元状态 Ct-1 到新
的单元状态 Ct。用旧状态乘以 ft，可以忘记之前决定忘记的东西，然后加上新候
选值t。根据每个状态值的决定更新程度进行缩放。在语言模型中这是实际上删
除关于旧信息并添加新信息的地方。
LSTM 中的最后一步决定要输出的内容。首先基于单元状态，sigmoid 层的
“门”通过运行决定输出哪些单元状态。单元状态会通过 tanh(将值范围设定在
-1 到 1 之间)，并乘以 sigmoid 门的输出，通过这个方式输出决定的部分。对于
语言模型示例，因为它只读入一个主语部分，所以更希望可以输出与动词相关的
信息。例如，它可以输出单数或复数的主语，从而就可以得知动词的形式。
2.4.3 注意力机制
注意力机制的引入是 NMT 体系结构研究的一个里程碑。注意力网络根据查询

和键值计算每个值向量的相关性。这也可以解释为基于内容的寻址方案[56]。形式
上，给定一组 m 个查询向量 Q∈RmXd，一组 n 个关键向量 K∈RnXd 和相关值向量 V ∈RnXd，
注意力网络的计算包括两个步骤。第一步是计算键和值之间的相关性，正式描述
为：
R = score(Q, K) (2-7)
其中 score(·)是一个有几种选择的评分函数。R∈RmXn 是一个矩阵，存储每个
键和值之间的关联得分。下一步是计算输出向量。对于每个查询向量，对应的输
出向量表示为值向量的加权和：
20
Attention(Q, K, V) = softmax(R)·V (2-8)
图 2-11 注意机制中涉及的详细计算
Transformer 是 Google 于 2017 在 Attention is all you need 这篇论

文[12]中提出的新框架，并在实际的试验中证实在机器翻译任务中有超越所有之前
的模型的性能表现。
Transformer 使用的是多头注意力而不是常规注意力。使用多头注意力已被
[57][58]
证明对 Transformer 架构至关重要。Transformer 是第一个完全根据自注意
力来计算模型中输入表示和输出表示的转导模型，而并不使用序列对齐的循环神
经网络或卷积神经网络。
编码器-解码器结构是神经序列转导模型的基本结构[10]。编码器将输入序列
以符号的形式如 (a1,...,an)映射为连续表示的序列 c=(c1,...,cn)。给定一个 c，
然后解码器就可以每次一个元素的生成形如 (b1,...,bm)的输出符号序列。在每
个步骤中的模型都是自回归的[59]，在生成下一个步骤时，之前生成的符号会作为
额外的输入。Transformer 的编码器由 6 个相同层的堆栈组成,在每个子层周围
使用一个残差连接[60]，然后是层规范化[61]。也就是说，LayerNorm(a+Sublayer(a))
作为每个子层的输出，其中 Sublayer(a)是子层本身实现的函数。将 dropout[62]
应用于每个子层的输出，然后将其添加到子层的输入并进行规范化。为了便于连
接，模型中的所有子层以及嵌入层都产生了 dimension dmodel=512 的输出。每个
层有两个子层。第一种是多头自注意力机制，第二种是普通的全连接前馈网络。
Transformer 的解码器也和编码器一样包含 6 个相同层的堆栈。除了每个编码器
层中的两个子层外，解码器还插入了第三个子层，该子层对编码器堆栈的输出执
行多头关注。与编码器类似，在每个子层周围使用残差连接，然后进行层规范化。
注意力机制可以理解为将查询和一组键值对映射到输出，其中查询、键、值
和输出的表达形式是向量。值的加权和计算输出部分，其中通过查询与相应键的
21
兼容性函数计算分配给每个值的权重。这种特别的注意力叫做被称为 Scaled
Dot-Product Attention。输入由维度 dk 的查询、键和维度 dv 的值组成。计算查
询与所有键的点积，每个键除以√dk，并使用 softmax 函数来获取值的权重。
[12]
图 2-12 Transformer 模型架构
在实践中，一组查询的注意函数被打包成一个矩阵 Q，支持同时计算。键和
值也被打包成矩阵 K 和 V。计算输出矩阵为
QkT
Attention(Q, K, V) = softmax � �V (2-9)
�dk
多头注意力机制使得模型能够联合注意不同位置上不同表示子空间的信息。
如果只有一个单头注意力，平均后就会抑制这一点。
MultiHead(Q, K, V) = Concat(head1 , … , headh )w o (2-10)
Q
where head1 = Attention(QWi , KWik , VWiv � (2-11)
22
Q
其中投影是参数矩阵 Wi ∈ Rdmodel xd𝑘𝑘 , WiK ∈ Rdmodel xd𝑘𝑘 , WiV ∈ Rdmodel xd𝑣𝑣 和
W O ∈ Rhdv xd𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 。采用了 8 个平行注意头。对于每一个头使用 dk=dv=dmodel/h=64。
由于每个头的维度减小了，总的计算成本与全维度的单头注意相似。
Transformer 以三种不同的方式使用多头注意力:
1)在编码器-解码器注意层中，查询来自先前的解码器层，记忆键和值来自
编码器的输出。这使得解码器中的任意一个位置都能处理输入序列中的所有位置。
这模仿了序列到序列模型中典型的编码器-解码器注意力机制[63]。
2)编码器包含自注意力层。在自注意力层中，所有的键、值和查询都来自同
一个地方，即编码器中前一层的输出。所述编码器中的每个位置可以处理所述编
码器的前一层中的所有位置。
3)解码器中的自注意力层可以使每个位置都能关注包括该位置在内的和之
前的所有位置。为了保持自回归特性要防止信息在解码器中向左流动。
23
第三章融合词向量的藏文句子相似度研究
3.1 引言
介于藏汉神经机器翻译因语料匮乏而使得机器翻译效果难以达到实用，计算
机辅助翻译可以避开这个障碍为藏汉翻译人员提供辅助。计算句子的相似度是
NLP 领域一项基础和重要的研究课题，尤其在计算机辅助翻译中，句子相似度计
算对翻译结果和翻译效果起到决定性作用[64][65]。在藏汉辅助翻译系统中，通过藏
文句子相似度计算，可以将翻译记忆库中与输入藏文句子最相近的几个句对返回
给用户作为翻译参考。
文本相似度是一个较为复杂的概念，在不同的专业领域中相似度的含义各不
相同，研究人员根据具体应用，采用不同的模型或公式来计算文本相似度，其中
句子间相似度的计算在自然语言处理领域中占有重要的地位[66]，应用于基于实例
的机器翻译、计算机辅助翻译、基于语料库的语言教学、机器问答、语言对比、
自动文摘、信息检索、过滤等研究中, 如何计算句子相似度的是其中的关键[67]。
早在 20 世纪 60 年代国外就开展了对于句子相似度的研究，提出了各种模型和算
法，1969 年，Gerard Salton 和 McGill 提出的向量空间模型 VSM，其基本思想
是通过简化文档，用向量表示特征项的权重分量[68]。国内对于句子相似度的研究
虽然晚于国外，但已将取得的许多成果应用于实际[69][70][71][72]。
藏文信息处理领域中关于藏文文本相似度计算的相关研究非常少，2011 年
文献[65]提出的藏文句子相似度算法的研究，通过散列单词倒排索引以及基于句长
相似度粗选的算法，从语料库中快速筛选出候选句子集，然后采用基于词形和连
续词序列相似度的多策略精选算法计算相似度。实验中选取来自藏文教材的 166
个藏文句子，每类 19-21 个句子共 8 类作为标准集,在标准集中每个句子都有 17-
21 个相似句子,然后分别对八类句子计算相似度，平均准确率为 83.6%，可有效
[73]
衡量两个藏文句子的相似程度。2016 年文献提出了基于分段融合策略的藏文
相似度计算方法，该方法以段落为单位，把文本中的每一个段落近似地看作一个
短文本，通过计算短文本与短文本的相似度，再综合得到长文本与长文本之间的
相似度值，这样就得到了两篇藏文文本的相似度值，其准确率为 76%。2021 年文
献[74]提出了一种融合多特征的藏文句子相似度计算方法。
目前关于藏文句子的相似度计算方法研究较少，并且还鲜有使用深度学习方
法的藏文句子相似度计算研究；另一方面，现有藏语句子相似度计算方法较为复
24
杂且准确率较低，因此本文基于深度学习提出一种藏文句子相似度计算方法，首
先通过 Skip-gram 模型和 CBOW 模型对 500M 大规模藏文单语语料库训练得到两种
藏文词向量,然后据此计算藏文句子向量,最后设计实现了两种基于深度学习的
藏文句子相似度计算方法：基于词向量与欧几里得距离和基于词向量与 Jaccard
相似度的计算方法，来计算藏文句子的相似度,实验表明基于 Skip-gram 词向量
与 Jaccard 相似度的藏文句子相似度计算方法能够得到 85.6%的准确率,优于其
他组合方式。
藏文单语语料库
分词
计算藏文词向量
CBOW 模型 Skip-gram 模型
计算藏文句向量计算藏文句向量
基于欧氏距离的相似度基于 Jaccard 相似度
图 3-1 基于词向量的藏文句子相似度计算方法技术路线
本章技术路线如图 3-1 所示，使用的先验知识为通过藏语单语语料库生成的

藏文词向量信息，进一步计算藏文句子向量后计算相似度。本章提出的基于词向
量的藏文句子相似度计算方法可以适用于藏汉辅助翻译系统，为翻译人员提供最
相似的几个汉文译文做参考。
3.2 相关理论方法
3.2.1 计算机辅助翻译
计算机辅助翻译能够巧妙得避免了语言学上的瓶颈问题，因其实用性和特殊
25
性成为机器翻译界长久以来广为关注的研究热点。该方法基于数据库等技术理论，
将经过准确翻译的源语言句子和目标译文组成的双语平行句对存储到一个翻译
记忆库中。当翻译人员在进行翻译工作时，可以通过辅助翻译系统将待翻译的源
语言句子进行输入并让机器自动进行源句子内容分析和查找，最后把翻译记忆库
中与输入的源句子相似度最高的译文提供给翻译人员，作为翻译参考。
在最理想情况下，输入的待翻译句子能够与翻译记忆库中存储的句子完全匹
配，这种情况可以直接用库中对应的译文作为翻译结果。然而考虑到自然语言的
复杂性和多样性，在一般情况下很难有完全匹配的译文，因此普遍情况下，计算
机辅助翻译系统会计算句子的相似度，将翻译记忆库中与输入的待翻译句子最相
似的前 N 个译文返回给翻译人员进行参考，同时对这 N 个句子按照相似度由高到
低进行排序，便于翻译人员选择。另外一种比较极端的情况是，翻译记忆库中没
有一个句子与待翻译句子相似，即翻译人员输入的句子是全新的，在翻译记忆库
规模比较小的情况下会经常出现。比较好的处理方法是翻译人员进行人工翻译后
[74]
将句对自动存入翻译记忆库。一个藏汉计算机辅助翻译系统工作流程如图 3-2
所示。
藏汉互译句对翻译记忆库
ང་ཚ�ར་�ེ�་�ང་དང་ཐག་ཉེ་བའི་ཅོག་ཙ�་དེ་དགོས། 相似度计算
待翻译句子
候选译文
1. 我们想要那张靠窗的桌子。
2. 我们想要张靠近窗户的桌子，
3. 我们想要张靠近街道的桌子。
4. 我们想要张临街的桌子。
5. ......
图 3-2 藏汉计算机辅助翻译系统工作流程
从整体功能结构而言说相似度计算是整个系统的核心计算部分。相似度计算
26
模块用于在翻译记忆库中对翻译人员输入的源句子进行匹配并进一步为翻译人
员提供翻译参考。其中翻译记忆库作为整个计算机辅助翻译系统的基础组成部分，
主要负责存储和检索经过准确翻译的双语句对，可以把这些句对看做是统计机器
翻译中基于实例的机器翻译方法所使用的翻译实例（examples）。翻译记忆库的
建设基于许多研究工作和多种技术手段，如双语实例库的建设方法、双语语料库
的维护与管理技术、双语对齐技术、翻译记忆库的检索算法研究等，其中翻译记
忆库的建设方法最为关键的因素是翻译记忆库的规模、深度和加工质量[76]。
此外在计算机辅助翻译系统的构建中，是否能高效进行匹配和检索也是高效
利用翻译记忆库的关键因素，这里简单介绍一下匹配检索算法涉及到的关键技术：
1、匹配粒度的设置，也就是匹配翻译记忆库中存储对象的基本单位，如匹
配整个句子还是匹配其他较小的组成单位，比如匹配单词或者单个字符；
2、句子相似度算法的设计，具体包括两方面的含义，考虑到用户的实际使
用体验在匹配过程中既要保证高精度的相似度计算方法，同时还要保证一定的计
算速度；
3、采用的文本颗粒度。
针对上面的第一个问题，通过结合实际情况进行分析可以得出以下结论，即
匹配前需要确定句子的边界，句子越长，匹配到的句子就具有越大的辅助翻译价
值，翻译人员要进行修改进的工作量就会有一定的减少。如果匹配时使用颗粒度
小的文本单位，就有可能产生一连串的问题，比如句子误切块、句子边界模糊以
及影响双语对齐结果，都会对最终匹配到的参考译文造成负面的影响。根据
Sadler 的说法，以后伴随着双语对齐技术的发展，更小单位的文本将成为匹配
[76]
检索选取的基础单位。由此可知，计算机辅助翻译相似度匹配的基本文本单元
应该是句子。
针对第二个问题，从目前的研究结果可知，计算机辅助翻译系统一般会对关
键字进行倒排序索引作为“初筛”。因为通常翻译记忆库包含几百万条甚至更多
的翻译实例对，如果不先做“初筛”处理，那么检索时间是系统根本难以承受的。
并且如果系统中存在多个用户进行并发作业，那么系统负载将会严重过载，也无
法满足翻译人员的实际使用需求。当然倒排索引方法的使用会导致某些情况下一
些句子被漏掉，比如较短的句子或共同出现的关键词很少或者不存在，这种遗漏
通常会导致匹配后翻译结果受到不同程度的影响。但是综合考虑系统整体的翻译
27
准确性和搜索效率，“初筛”和“复查”的组合方式更符合使用中的实际需求。
最后的第三个问题，从目前的句子相似度计算方法来分析是不能够一概而论
的。要根据不同的应用条件和使用场景限制，因地制宜，合理选择最适合的方法。
在实际应用中，较为普遍的方法是选择词汇作为最基本的计算单位，如文献[77]
把所有词汇的形态、同反义词包括词性标注等信息都综合在一起进行考虑进来并
针对每一种信息赋予了相应的权重，最后把这些信息按照权重加权计算最终得到
句子的相似度。除此以外，还有基于句法信息的相似度计算[78]、基于字符串的相
似度计算[79]以及混合方法的相似度计算[80]等。日语句子相似度计算方法中常用基
于字符串的匹配方法，实践证明这种匹配方法表现不俗，因此在基于实例的日文
机器翻译中得到广泛使用；在机器自动问答领域较为适用的方法是基于句法信息
的句子相似度计算方法，主要原因是自动问答领域对于句法层面的结构组成更为
重视，所以该方法取得了不错的表现。
计算机辅助翻译系统因为可以成功避开机器翻译中存在的大部分瓶颈问题，
不从常规的语言学角度考虑去解决机器在语义理解上的问题，而是采用另一种
“迂回”路线，通过利用现有的经过准确翻译的句对提供翻译过程中的辅助。同
时通过不断扩充系统中已有的翻译记忆库，从而形成规模更大的翻译库。计算机
辅助翻译的流程概括一下就是系统将当前输入的待翻译句子，经过前期的预处理
工作和一些中间处理过程，而后将其与系统翻译记忆库中已有的翻译句对计算相
似度，按从高到低的顺序排序并返回前 N 个相似最高的翻译译文，供翻译人员参
考使用。针对不同的匹配度，重新由人工翻译那些完全不匹配的句子，然后把译
文和输入句子一起加入到翻译记忆库中，供后续翻译使用；部分匹配的句子则根
据相似度大小进行排序供翻译人员参考；最理想的情况是句子能够完全匹配，这
种情况下可以直接替换译文作为翻译结果[81]。
计算机辅助翻译的核心实现方法就是结合翻译记忆库和句子的相似度计算
方法实现辅助翻译的功能，最大化利用已有的翻译句对，避免重复翻译，节省翻
译时间。通过提供多个相似的译文使翻译人员综合不同的译文学习不同的表达方
式，可以提高最终的译文质量。计算机辅助翻译系统经过本地化标准协会 LI-SA
的进一步规范，制定了属于交换格式 TBX 和翻译记忆交换格式 TMX 等统一标准
[82]
，这些标准格式能够支持不同的计算机辅助翻译系统共享翻译记忆库，实现翻
译资源的最大化利用，同时也省去一部分整理收集语料库的人力物力，在一定程
度上降低了翻译成本。
藏文辅助机器翻译研究目前有 2011 年文献[83]提出了汉藏辅助翻译藏文预处

28
理用藏文自动分词算法、汉藏句型转换翻译算法、改进通用的编辑距离算法并在
此基础上设计实现了能够进行汉藏双向翻译的汉藏辅助翻译系统。2013 年文献[84]
提出了一种基于短语串实例的机器翻译方法, 利用词语对齐信息来充分挖掘现
有平行语料资源信息，为辅助翻译提供候选译文。
3.2.2 词向量及其语言模型
神经网络在连续的空间中工作。当用于自然语言处理(NLP)任务时，需要在
离散的单词世界和连续的、可微的神经网络世界之间搭建桥梁[68]。在机器学习中，
自然语言首先要进行数学化，深度学习模型中的词向量就是将语言信息中的词进
行数学化的一种方式。一种较为简单的词向量方式为 One-hot representation[85]。
它将词表的大小作为词向量的长度，一个词向量的分量只有一个 1，其余全为 0，
这个分量 1 对应该词在词表中的位置。如表 3-1 所示的词表中，词向量 ཁོར་�ག（环
境） [0,0,1,0,0,……]表示词 ཁོར་�ག 是词表中第三个词。这种词向量的表示容易
受维数灾难的困扰，并且不能很好表达词与词之间的相似性 [86] 。1986 年由
Hinton 提出采用词的 Distributed Representation 来表示词向量，也称之为
Word Representation 或 Word Embedding[87]。嵌入是单词的密集向量表示，通
常为 100-1000 维，它们与整个网络联合训练，从而学习单词的特定特征，并在
空间中对单词进行聚类，使相似的单词具有彼此接近的向量。语言模型神经网络
中的词嵌入未经过训练就能够包含语义和句法信息。
表 3-1 One-hot 词表
词表
1 �ེས་ཐོབ་（天赋）
2 �ིས་འཁོར་（计算机）
3 ཁོར་�ག（环境）
4 �ོབ་�ོང་（学习）
5 དཔེ་ཆ་（书籍）
.......
单词嵌入可以在向量空间中的词汇关系和算术运算之间显示出对应关系。最
著名的例子是:
v(king) − v(man) + v(woman) ≈ v(queen) (3-1)
29
换句话说，将单词 king 和 woman 的向量相加，同时减去单词 man，应该接

近单词 queen 的向量。也可以认为差向量 v(king)-v(queen)和 v(man)-v(woman)
几乎是相同的，用来描述性别关系。这种关系在没有特定训练标准的情况下，自
然地出现在使用无注释单语数据的语言模型的训练中。
2
Word2vec 是 2013 年 Google 开源的一套使用实数值向量来表征词汇的有效
工具。Word2vec 没有使用 One-hot Representation 的很长的词向量，而是使用
了 Distributed Representation 来表示词向量。通过训练语言中的每一个词都
可以映射成一个长度固定的短向量，如藏文单词 ཁོར་�ག 可以表示为以下向量：
[0.414029,0.130032,0.191205,0.163355,0.078749,……]。
word2vec 工具输入文本语料库，输出是单词向量。通过训练文本数据构建
对应的词汇表，接着学到词汇表中单词的词向量表示。训练结束后生成的单词向
量文件可以为许多自然语言处理任务和机器学习任务提供词汇特征。研究学习到
的词表示的一种简单应用方法是为用户指定的单词找到最接近的单词。距离工具
就是为了达到这个目的。如表 3-2，如果输入‘ �ོག་�ད།'（电脑）， distance 将显
示最相似的单词和它们到‘ �ོག་�ད། '的距离，可以看出，词向量能够较为准确的找
到藏文同义词、近义词，能够自动划分不同词性、不同领域、不同意义的藏文词
汇。
表 3-2 词的余弦距离
Word Cosine distance
�ིས་འཁོར་（计算机） 0.679643
མཉེན་ཆས་（软件） 0.669562
�ོག་ལམ་（电路） 0.655946
�ོག་ཆས་（电器） 0.650914
�ོག་�ལ་（电子） 0.640038
Word2vec 工具主要包括 CBOW（continuous bag of word）模型和 Skip-gram

模型，两个模型均由 Mikolov[88]提出，架构示意如图 3-2 所示，CBOW 模型根据连
续的词汇共现来进行建模，通过输入一个单词的上下文预测这个单词；相反的，
Skip-gram 模型则采用“跳过一定字符”的方式进行建模，用某个单词作为输入
从而预测该词的上下文。后者花费的训练时间要比前者更长一些。
2
https://code.google.com/archive/p/word2vec
30
CBOW 模型
输入预测输出
W(t-2)
SUM
W(t-1)
W(t)
W(t+1)
W(t+2)
Skip-gram 模型
输入预测输出
W(t-2)
SUM
W(t-1)
W(t)
W(t+1)
W(t+2)
图 3-3 CBOW 模型与 Skip-gram 模型示意图
3.3 基于词向量的藏文句子相似度算法设计
从计算方法上可以把句子相似度计算分为三大类：
1.基于词的句子相似度计算
这是一种最为直观的计算方法，该方法初期的基本原理是如果两个句子中的
共同出现的词越多，这两个句子的相似度也越大。后来这种方法不仅仅考虑共现
词的数量影响，也会同时考虑句子其他词相关信息，主要包括词频、词性、词序、
词长等信息，基于词的相似度计算方法把句子看成是句子中词的线性序列，不分
析语句的语法结构等深层信息，所以该方法的一个缺陷是考虑不够全面，不能深
入分析句子的语义层面，不能计算出与句子整体结构相似的句子。
2.基于语义的相似度计算
语义是一个句子包含的深层信息，该方法会对语句进行语义层面的深入分析，
主要从句子的深层结构判断两个句子是否相似，在此基础上进行句子的相似度计
31
算。由于基于词的相似度计算方法考虑不够全面，一些研究人员提出了基于语义
词典的句子相似度计算方法，其中语义词典包括 WordNet、HowNet 以及同义词词
林。同义词以及近义词会影响基于词汇共现去衡量句子相似度的准确率，所以基
于语义词典的相似度计算方法不但考虑了词汇共现的相似度，而且考虑了深层语
义信息。语义词典的优势在于能够反映词汇的语义层面的相近信息，既能够体现
两个词的相似关系又可以计算句子级的相似度。该方法的一个前提条件是计算相
似度的语言需要语义词典，而不同于英语、汉语等语言，藏文目前还没有建立一
个公开和成熟的语义词典，因此如果要使用基于语义的相似度计算方法，需要首
先人工建立一个语义词典，这意味着需要增加许多工作量，加大了实现难度。
3.基于编辑距离的相似度计算
编辑距离是指对于两个字符串，从源字符串转换到目标字符串之间所需最少
的编辑次数。编辑操作定义为插入、删除和替换一个字符，每次只能进行一个操
作。该方法采用逐个字符比对来确定编辑距离，基本采用动态规划算法实现。这
种方法存在的一个问题是对于一个句子而言，其有效语义的基本组成单位应该是
单词，因此这种基于字符的计算方法必然会造成非常大的误差。
藏文句子按照结构可以分为单句与复句两大类。藏文作为一种动词居尾的语
言，单句中的动词作为谓语的核心一般放在名词的后面。根据谓语结构和句尾助
词的不同藏文单句又可以分为陈述句和祈使句。单句通过一定关联词组成的句子
称为复句，能够充当复句关联词的有格助词、副词、连词和半虚化关联词，这些
关联词决定了藏文复句的功能结构和分句之间的关系，如转折关系、因果关系等。
因此藏文句子中除了动词、名词、副词之外，其他词类（如下表 3-3 所示的纯连
词）也对句子的含义、结构具有重要的贡献。
表 3-3 部分藏文纯连词及其关联作用
纯连词关联作用
ཅིང་ཞིང་ཤིང 并列关系
�ིར་གཤིས 因果关系
འོན་�ང་མོད 转折关系
ཏེ་�ེ་དེ 连贯关系
......
以往的藏文句子相似度计算方法大多采用基于词的计算方法，基本思想是将
藏文句子去除停用词后简化为特征词的组合，通过赋予特征词不同的权重进一步
32
把句子表示为向量，然后在向量空间计算相似度。因此特征词和停用词的获取是
句子相似度计算的一个关键部分。按照现有方法中藏文句子中特征词的提取主要
通过分词标注后根据词性只选择名词、动词和副词这三个词性的词作为特征词，
统计这些特征词在句子中出现的词频再分配权重，最后计算相似度。
通过分析以上方法，本文提出一种基于词向量的藏文句子相似度计算方法，
通过藏文词向量得到藏文句向量，然后计算句子相似度。采用词向量是因为考虑
到词向量具有以下优点：
1.与人工构建藏文语义词典相比，词向量可以很大程度上代替语义词典，词
向量可以看做是一个可扩展的动态语义词典，能够针对不同领域、规模的语料进
行训练实现灵活扩展，不需要人工建立语义词典或者同义词、近义词词典，而且
其语义范围要远远超过语义词典能够的表示范围。
2.与基于词的相似度计算方法相比，词向量更能全面地体现词的语义相似性。
两个词之间的语义相似度可以用词向量的余弦相似度表现，词向量的相似性关系
在这里发挥了独到的优势。特别是词向量中体现的文本在语境上的相似度，可以
更好的利用翻译记忆库中语义层面和句法层面相近的实例，从而为翻译人员提供
更全面的翻译参考译文。
3.3.1 基于词向量和欧氏距离的藏文句子相似度计算
由于目前还没有看到成熟有效的句向量训练工具来计算藏文句子向量，本文
利用藏文词向量计算出藏文句子向量。对于一个给定的藏文句子 s=s1s2s3,...,sn，
由 n 个藏文词组成，其中每个藏文词 si 对应的词向量为 wi，则藏文句子 s 的句
向量 ws 计算公式为：
1
w𝑠𝑠 = n ∑ni=1 wi (3-2)
公式（3-2）计算出的句向量与以往的藏文句子表示相比可以较好的保留句
子信息，使藏文句子中除名词、动词和副词以外的部分也参与到句子表示中。接
下来利用欧氏距离计算两个藏文句子的相似度。
欧氏度量（euclidean metric）是关于距离的定义，衡量 m 维空间中两点间

的真实距离或向量的自然长度（即一个点到原点的距离）。就其意义而言，欧氏
距离越小，两个藏文句子相似度就越大，反之亦然。
33
n 维欧氏空间是一个点集,它的每个点 X 或向量 x 可以表示为 (x[1]，x[2]，…，

x[n]) ，其中 x[i](i = 1，2，…，n) 是实数，称为 X 的第 i 个坐标。两个点 A =
(a[1]，a[2]，…，a[n]) 和 B = (b[1]，b[2]，…，b[n]) 之间的距离ρ(A，B) 定义为
下面的公式：
ρ(A, B) = �∑(a[i] − b[i])2 , (i = 1,2, … , n) (3-3)
对于待比较相似度的两个藏文句子 sA 和 sB，它们各自的句向量表示为 wA 和
wB,句向量维数为 m，基于欧氏距离的藏文句子相似度计算可以用公式表达为：
𝑚𝑚 2
Dis(sA ⋅ sB ) = �� wA[i] − wB[𝑖𝑖] � (3-4)
i=1
其中Dis(sA ⋅ sB )距离越短，藏文句子 sA 和 sB 的相似度越大；距离越长，相似

度越小。
3.3.2 基于词向量和 Jaccard 相似度的藏文句子相似度计算
同样的，对于一个给定的藏文句子 s=s1s2s3,...,sn，由 n 个藏文词组成，其

中每个藏文词 si 对应的词向量为 wi，则藏文句子 s 的句向量 ws 计算公式为：
1
w𝑠𝑠 = n ∑ni=1 wi (3-5)
接下来藏文句子相似度采用 Jaccard 相似度计算。其定义如下，对集合 A 和 B，

Jaccard 相似度计算如下所示：
Jaccard(A, B) = |AintersectB|/|AunionB| (3-6)
相似度数值在[0, 1]之间取值，当 A=B 的时，相似度为 1。Jaccard 相似度

可以转换成 Jaccard 距离，计算如下所示：
Jaccard distance(A, B) = 1 − Jaccard(A, B) (3-7)
Jaccard 相似度的缺点是元素的取值只能是 0 或者 1，无法利用更多的信息。

由于之前得到的藏文句向量的每一个分量都是实数，这里采用广义 Jaccard 相似
度定义，使元素的取值是任意实数。该相似度又称为 Tanimoto 系数，用 EJ 来表
34
示，计算方法如下所示：
2 2
EJ(A, B) = (A×B)/(║A║ + ║B║ − A×B) (3-8)
其中 A、B 各自表示两个向量，集合中每个元素代表向量的一个维度，在每
个维度上的值在[0, 1]之间，A×B 表示向量乘积，║A║2 表示向量的模，即║A║2 =
�a21 + a22 + a23 + ⋯。
与 3.3.1 中的相似度计算方法不同的是，这里计算的结果是相似度而不是距
离，所以对两个藏文句子求相似度时，EJ(A,B)值越大，相似度越高；EJ(A,B)
值越小，相似度越低，因此，对于待比较相似度的两个藏文句子 sA 和 sB，它们
各自的句向量表示为 wA 和 wB,句向量维数为 m，基于 Jaccard 相似度的藏文句子
相似度计算方法定义如下：
Dis(sA ⋅ sB ) = (𝑤𝑤𝐴𝐴 + 𝑤𝑤𝐵𝐵 )⁄(∥ 𝑤𝑤𝐴𝐴 ∥2 +∥ 𝑤𝑤𝐵𝐵 ∥2 − 𝑤𝑤𝐴𝐴 × 𝑤𝑤𝐵𝐵 ) (3-9)
3.4 实验分析
3.4.1 藏文词向量模型训练
实验采用的语料为包括新闻、教材、政府公文、法律文本、日常用语等不同
领域的大小为 500MB 的藏文单语语料库，共包含 284 万句藏文句子，这些句子已
经过分词，作为词向量训练集。使用词向量训练工具 Word2vec 获取藏文词向量，
为了对比不同词向量模型对相似度计算效果的影响，本文分别采用 CBOW 模型和
Skip-gram 模型训练了两组藏文词向量文件。
训练参数中窗口大小为 5，表示训练过程中考虑当前词的前后各 8 个词。词

向量的维度一般设置在 50 到 200 维之间。虽然维度越高词向量能够表现的词
特征就越丰富，但同时训练时间和之后的相似度计算时间也会增加，因此将藏文
词向量的维数设为较常用的 200 维来进行 word2vec 的训练。采用 Skip-gram
模型训练得到的部分藏文词向量如表 3-4 所示，藏文词数为 98122：
35
表 3-4 训练生成的部分藏文词向量
编号藏文词词向量
98115 ཞའོ་ཕེན་ -0.064197 0.078042 …
98116 �ངས་ག�གས་ 0.193874 0.136975 …
98117 ཐེམ་ད�ང་ -0.124637 -0.052450 …
98118 ཀན་��་ 0.187092 0.226460 …
98119 �འོ་��་�ོང་ 0.167675 0.043621 …
98120 �་བ�ན་གཉིས་ -0.074645 -0.159442 …
98121 ལིག་ཞོང་�ང་ -0.079139 0.003911 …
98122 �ན་མགོན་ -0.160488 0.015949 …
表 3-5 为 Word2vec 采用 skip-gram 模型训练的词汇相似度测试结果，测试

单词为 �ོག་�ད། ，在词表中位于 4401 位，在词表中与其最相似的前 5 个单词及其余
弦距离如表 3-5 所示：
表 3-5 藏文词汇相似度测试结果
Enter word or sentence (EXIT to break): �ོག་�ད་
Word: �ོག་�ད་ Position in vocabulary: 4401
Word Cosine distance

�ིས་འཁོར་（计算机） 0.679643
མཉེན་ཆས་（软件） 0.669562
�ོག་ལམ་（电路） 0.655946
�ོག་ཆས་（电器） 0.650914
�ོག་�ལ་（电子） 0.640038
3.4.2 藏文句子相似度计算
3.4.2.1 实验准备与测试标准
从藏文单语语料库中随机抽取 9700 个藏文句子，其中选 100 句，并为每一

个句子搭配三个相似句，生成 100 组共 400 句语料，表 3-6 所示为其中一组相似
句语料。选取每组相似句中的第一句作为基准句，其他三句作为第一句的相似句，
用于测试。剩下的 9600 句藏文句子构成噪音集，与 400 句相似句进行混合构成
36
大小为 10000 句的测试语料，
表 3-6 一组同义句语料
1 �ོད་ �ི་ �ག་�་ ང་ ལ་ �ིན་ ཞིག
2 �ོད་ �ི་ �ོར་�ག་ ང་ ལ་ �ིན་ ཞིག

3 �ོད་ �ི་ �ོར་མོ་ ང་ ལ་ �ིན་ ཞིག
4 �ོད་ �ི་ �ས་ཚ�ད་ ང་ ལ་ �ིན་ ཞིག
根据之前训练出的两组不同模型的词向量，通过公式 3-2 得到这 10000 句的

两组句向量，如表 3-7 所示：
表 3-7 藏文句向量示例
编
藏文句子句向量
号
1 �ོད་ �ི་ �ོར་�ག་ ང་ ལ་ �ིན་ ཤིག 0.0154332 0.0761587 ...
2 དངོས་མང་བཤམས་�ོན་ཁང་ �ས་ཚ�ད་ � འི་ �ེང་ �ོ་�ག 0.0342237 0.00210533 ...

3 ང་ ལ་ མཚ�ན་ ན་ �ར་ ཆེ་ སོང ་ ། 0.00399822 0.0752314 ...
4 འ�ོ་སོང་ ཕལ་ཆེར་ ད�ད་ཆས་ �ེང་ དང་ མི་ འ� ། 0.0288589 0.0411275 ...
5 ཞེས་པ་ �་�་ �་བ་ གཉིས་ �ང་ ལ་ �ོག་�ལ་ �བ་ �ང་ མ་འ�ལ་བ་ མ་ �བ་པ འོ ། 0.0117009 0.0785455 ...
由于目前没有统一的可用于藏文句子相似度计算的标测试准，针对本次藏文
测试语料，本文设计了相应的测试标准：对于藏文的每一个基准句，存在三句相
似句，所以采用了以下测试方法进行检测：
计算与每一个基准句相似度最高的四个句子中包含该组三句相似句的数量
所占百分比，即以下公式来计算准确率：
Accuracy=每组相似句命中总数/300×100% (3-10)
3.4.2.2 相似度计算
实验采用两种相似度计算方法，其中每一种方法又分别采用两种模型训练的
藏文词向量，即共进行四组实验。部分基准句实验结果如表 3-8、表 3-9 所示：
37
表 3-8 基于词向量和欧几里得距离的相似度计算（skip-gram 模型）
基准句：
基于词向量和欧几里得距离的
编号
�ོད་ �ི་ �ག་�་ ང་ ལ་ �ིན་ ཞིག 相似度计算结果
1 �ོད་ �ི་ �ག་�་ ང་ ལ་ �ིན་ ཞིག 2.25E-07

2 �ོད་ �ི་ �ོར་�ག་ ང་ ལ་ �ིན་ ཞིག 0.0290994
79 ང་ ལ་ �་བ་ འཐེན་�ད་ �ིན་ ཞིག 0.116304
4 �ོད་ �ི་ �ས་ཚ�ད་ ང་ ལ་ �ིན་ ཞིག 0.122168
表 3-8 中基准句编号为 1，其相似句编号为 2,3,4。基于词向量（skip-gram

模型）和欧几里得距离的相似度计算得到的距离最近即相似度最高的四个句子中
命中率为 2/3。
表 3-9 基于词向量的 Jaccard 相似度计算（skip-gram 模型）
基准句：
基于词向量的 Jaccard 相似
编号
�ོད་ �ི་ �ག་�་ ང་ ལ་ �ིན་ ཞིག 度计算结果
1 �ོད་ �ི་ �ག་�་ ང་ ལ་ �ིན་ ཞིག 1.36E+00

2 �ོད་ �ི་ �ོར་�ག་ ང་ ལ་ �ིན་ ཞིག 0.842694
77 ང་ ལ་ �ག་མ་ ཞིག་ �ེར་ རོགས ། 0.841035
4 �ོད་ �ི་ �ས་ཚ�ད་ ང་ ལ་ �ིན་ ཞིག 0.785952
表 3-9 中基准句编号为 1，其相似句编号为 2,3,4。基于词向量（skip-gram

模型）的 Jaccard 相似度计算得到的相似度最高的四个句子中命中率为 2/3。
最终 100 个基准句分别用两种相似度计算方法得到的准确率如表 3-10 所示，

分析实验结果可以看出基于词向量（skip-gram 模型）和 Jaccard 相似度的相似
度计算方法准确率达到 85.6%，比其他三组实验的准确率更高，并且在 15 词以
内的藏文句子中能够得到较理想的结果，其中词数越多的句子相似度的计算准确
率较高。
38
表 3-10 不同方法计算相似度准确率对比
计算方法
基于词向量和欧几里得距基于词向量的
离的相似度计算 Jaccard 相似度计算
词向量模型
Skip-gram 模型 83.3% 85.6%
CBOW 模型 72.6% 60.3%
3.5 本章小结
句子的相似度计算在自然语言处理领域中是一项有意义的基础性研究工作，
是藏汉辅助机器中的核心部分，可以为翻译人员提供与输入句子相似度最高的前
N 个高质量译文。伴随着国内外自然语言处理的发展，相对于外文及汉语句子相
似度计算方法的不断演进，藏文句子相似度计算方法研究却少之又少。本章通过
分析现有藏文句子相似度计算的常用计算方法，提出一种基于词向量的藏文句子
相似度计算方法。运用 Word2vec 工具分别训练了基于 CBOW 模型和 skip-gram
模型的两种藏文句向量；并在此基础上得到藏文句子的向量，设计了基于词向量
的两种藏文句子相似度计算方法（基于词向量和欧几里得距离的相似度计算方法
和基于词向量的 Jaccard 相似度计算方法），描述了相关的计算公式及实验方法。
最后采用不同词向量模型和两种句子相似度计算方法进行了 4 组对比实验。根据
每组实验得出的准确率，其中基于词向量（skip-gram 模型）和 Jaccard 相似度
的计算方法准确率最高，达到 85.6%。
本章设计的藏文句子相似度计算方法适用于藏汉辅助翻译系统的相似度计
算模块。采用此方法实现的藏汉辅助翻译系统不需要人工编写同义词、近义词词
典或其他语义词典，翻译记忆库中除了藏汉翻译句对还需存放其中藏语句子的句
向量，对待翻译的藏文句子首先计算句向量再计算相似度就可以得到参考译文。
39
第四章融合域外模型的藏汉神经机器翻译领域自适
应方法研究
4.1 引言
人类有能力在学习一项新任务时利用以前的经验，可以因此在更短的时间和
更少的努力下学习新技能。事实上，一项新任务与过去的任务相关性越大，人们
学得越快。相比之下，机器学习算法通常通过对孤立数据的随机初始化来学习任
务，而不需要任何先验知识。迁移学习试图通过利用在解决其他任务中获得的知
识来提高在新任务中的表现[89][90][91]。领域自适应问题作为迁移学习的主要研究内
容之一，重点在于解决不同领域中特征空间和类别空间一致，但是特征分布不一
致的问题。
在神经机器翻译中，迁移学习和领域自适应指的是训练数据和测试数据分布
不匹配的情况。在领域自适应的情况下，父模型和子模型操作同一语言对，但在
数据领域上不同。相比之下，迁移学习使用的数据是不同于子模型的语言对。由
于领域自适应的父模型和子模型使用的数据来自同一语言对，因此领域自适应不
需要修改模型体系结构或词汇表，而主要依赖持续的训练过程。领域自适应作为
机器翻译中的关键问题之一，其目标是将模型专门化到更具体的领域。Koehn 和
Knowles 提出同一个词语在不同领域有不同的翻译，而常规系统对此通常表现不
[92]
佳，所以有必要为特定领域开发机器翻译系统。
藏文相比其他语言平行语料稀缺，神经网络翻译模型很难获得高质量翻译结
果，特定领域平行语料库的获取就更为困难。迁移学习能够将学习到的知识应用
到相近任务上，以减少应用任务的训练数据量。文献[93]将资源丰富语言对（英汉）
的翻译模型参数采用迁移学习方法训练藏汉翻译系统，缓解藏汉平行语料数量不
足的问题。
本章主要研究内容和创新点如下：介于目前藏汉机器翻译的领域自适应问题
研究鲜有文献报道，针对如何在有限的语料资源下训练特定领域藏汉机器翻译系
统问题，本文使用资源相对较多的藏汉通用平行语料库（域外数据）训练通用域
外父模型，然后基于迁移学习方法从域外父模型迁移到域内子模型，通过微调方
法训练得到特定领域翻译模型；同时考虑到普通的微调方法会在目标领域上出现
过拟合现象，而在源领域上造成灾难性的遗忘问题，又进一步采用混合微调方法
进行迁移。实验证明该方法能够在藏汉域外模型的基础上快速有效地训练出藏汉
40
域内翻译模型，且整体表现优于域外模型。
藏汉通用语料库
训练
藏汉政府公文语料库藏汉通用翻译模型藏汉自然科学语料库
迁移
迁移
训练训练
藏汉政府公文翻译模型藏汉自然科学翻译模型
图 4-1 藏汉神经机器翻译领域自适应方法技术路线
本章技术路线如图 4-1 所示，使用的先验知识为使用藏汉通用语料库训练的

域外模型参数，通过迁移学习中的领域自适应方法在少量域内藏汉语料库上训练
得到翻译效果较好的藏汉特殊领域翻译模型。
4.2 相关理论方法研究
4.2.1 迁移学习概述
数据挖掘和机器学习领域已经在许多领域中都得到了广泛的应用，其主义思
想是从过去的信息(由训练数据体现)中提取模式来预测未来会出现的结果。传统
的机器学习方法中训练集和测试集的输入特征空间和数据分布都是相同的，如图
4-2 所示。因此如果训练集与测试集的数据分布存在一定差异时，学习到的预测
模型的生成效果就可能会下降。在某些学习场景中，很难获取与测试集的特征空
间和预测数据分布特征相匹配的训练集，其获取代价是非常高的。因此，需要从
相关的资源丰富的源领域训练出的性能较高的学习模型，以解决问题，这就是迁
移学习的研究动机。
41
任务分类
自然语言处理计算机视觉语音处理
机器学习
机器学习
机器学习
模型 A 模型 B 模型 C
图 4-2 传统机器学习模型示意
迁移学习背后的主要思想是将学到的知识从一个模型传递到另一个模型。将
传递参数的第一个模型表示为父模型，将指定的模型表示为子模型。在迁移学习
相关文献中，经常可以发现“教师”与“学生”之类的命名，但这与知识蒸馏[95]
的关系更大，使用父模型(教师模型)来生成示例，而不是直接共享参数。另一个
术语是源和目标任务[96]，这是不适合本文任务的，因为在使用这些术语时，指的
是语言对的源语言和目标语言。在 NMT 迁移学习中，习惯使用“父子”一词[94]，
因此在本章中也会使用这种命名方式。
任务 A 模型 B
机器学习
机器学习
迁移
模型 A 任务 B
图 4-3 迁移学习模型示意
迁移学习的相关定义如下：一个域 D 由两部分定义，一个是特征空间 X，另

一个是边际概率分布 P(X)，其中 X = {x1,...,xn}∈χ。例如，如果机器学习任
42
务是句子分类，将每个句子特征度量作为一个特征，则 xi 是第 i 个句子对应的
第 i 个特征向量(实例)，n 是 X 中特征向量的个数，X 是所有可能的特征向量的
空间，是一个特定的学习样本。对于一个给定的域 D, 任务 T 被定义为两个部分,
一个标签空间 Y,和预测函数 f(·),也就是从特征向量和标签对{xi, yi}，其中 xi∈X，
yi∈Y。句子分类算法中,Y 是标签的集合,包含各种句类：陈述句、疑问句等,yi
取一个陈述句或疑问句的值，f(x)是预测句子 x 的标签值的学习模型。从上面的
定义中，一个域 D = {x, P(x)}和一个任务 T = {Y, f(·) }。DS 被定义为源域数
据，其中 DS = {(xS1, yS1),..., (xSn, ySn)}，其中 xSi∈XS 是 DS 的第 i 个数据实例，
ySi∈YS 是 xSi 对应的类标签。同样的，DT 被定义为目标域数据，其中 DT = {(xT1,
yT1),..., (xTn, yTn)}， xTi∈XT 为 DT 的第 i 个数据实例,和 yTi∈YT 为 xTi 对应的类标
签。此外，源任务记为 TS，目标任务记为 TT，源预测函数记为 fS(·)，目标预测
函数记为 fT(·)。
给定一个源域 DS、相应的源任务 TS、相应的任务 TT 和目标域 DT,迁移学习是

通过使用从 DS 和 TS(其中 DS ≠ DT 或 TS ≠ TT 的)中获得的相关信息提高目标预测
函数 fT(·)的过程。这里定义的单个源域可以扩展到多个源域。根据迁移学习的
定义，由于 DS = {XS,P(XS)}， DT = {XT,P(XT)}， DS ≠ DT 的条件为 XS ≠ XT 和、
或 P(XS) ≠ P(XT)。将 XS ≠ XT 的情况对于迁移学习定义为异构迁移学习。将 XS
= XT 的情况相对于迁移学习定义为同构迁移学习。回到句子分类的例子，异构迁
移学习是指源句子分类与目标句子分类具有不同的语法规则的情况，同构迁移学
习是指源句子分类和目标句子分类的语法规则是相同的。P(XS) ≠ P(XT)的情况
意味着输入空间中的源域和目标域的边际分布是不同的。当输入域的边际分布不
同时，用给定源域训练的学习者在目标域上不会表现得最优[97]。
迁移学习的另一种可能的条件(从上面的定义)是 TS = TT， T = {Y, f(·) }

或者重写为 T = {Y,P(Y|X)}。因此，在迁移学习环境中，有可能 YS ≠ YT 和、
或 P(YS|XS) ≠ P(YT|XT)。当 P(YS|XS) ≠ P(YT|XT)时，表示源域与目标域的条件
概率分布不同。条件分布不匹配的一个例子是，特定的句子在源域和目标域对应
不同的类别倾向结果。YS ≠ YT 的情况是指类空间中的不匹配。这种情况的一个
例子是，源句子分类有一个十种句子类别的标签空间，而目标域定义了五个句子
类别的标签空间。另一种可能导致分类器退化的情况是 P(Ys) ≠ P(YT)，这是由
于源域和目标域之间的标记数据集不平衡造成的。传统机器学习的情况是 DS = DT
且 TS = TT。
在自然语言处理中，文本实例通常被建模为一个词袋，其中一个独特的词表
43
示一个特性。以藏汉机器翻译系统为例，其中源内容包括藏汉法律文书语料库，
目标内容包括藏汉科技文献语料库。法律的和科技领域的藏文词应该在两个领域
中以相似的频率出现。但是，不同领域的专业词汇在各自领域中使用得更频繁，
因为它们与该翻译领域的主题有很强的关系。这被称为频率特征偏差，会导致源
域和目标域之间的边缘分布不同(P(XS) ≠ P(XT))。另一种形式的偏差被称为上
下文特征偏差，这将导致源域和目标域之间的条件分布不同，即 P(YS|XS) ≠
P(YT|XT)。上下文特征偏差的一个例子是一个词在两个领域可能有不同的含义。
一个具体的例子是单词 �ོར་མོ།，在一个领域中它用作名词，而在另一个领域中它用
作动词。上下文特征偏差的另一个例子是在情感分类中，一个词在一个领域具有
积极意义，而在另一个领域具有消极意义。
“�ང་�ང་།”这个词在描述手机时可能有
好的意思，但在描述酒店房间时可能有不好的意思。
迁移学习的效果不一定都是积极的，比如负迁移现象。就迁移学习而言，负
迁移是指从源领域学习到的信息对目标学习产生不利影响。形式上,给定一个源
域 DS,源任务 TS,目标域 DT,目标任务 TT,一个预测模型 fT1(·)只用 DT 训练,和结合
DT 和 DS 迁移学习训练的预测模型 fT2(·),负迁移时 fT1(·)的性能大于 fT2(·)的性能。
负迁移的讨论是为了解决量化源领域和目标领域之间的相关度的需要，以及是否
应该尝试从源领域转移知识。因此，当 fT2(·)的性能大于 fT1(·)时，即发生正转移。
按照机器学习逻辑中数据、特征、模型这三个要素，再加上这三者之外中的
关系模式，可以把迁移学习方法分为以下四类：
1. 基于实例的迁移，通过重用权重的方法，对源域和目标域的样例进行迁
移。简单来说就是根据不同的样本赋予不同的权重，比如说相似的样本，
就给它高权重，这样就完成了迁移，非常简单和直接。
2. 基于特征的迁移，主要方式是进一步变换特征。如果源域和目标域的特
征原来不在一个空间，或者说在原来的空间上不相同，就想办法变换到
同一个空间里面。
3. 基于模型的迁移，主要方法是构建参数共享的模型。由于可以直接迁移
神经网络的结构，因此在神经网络中常用到这个方法。例如神经网络中
最经典的 finetune 就是用来迁移模型参数。
4. 基于关系的迁移，是目前所有方法中用的较少的方法，该方法有些抽象，
主要适用于关系挖掘和关系类比迁移。比如老师给学生上课就可以对应
公司开会，这就是一种关系的迁移。
目前最热门的迁移学习方法就是基于特征还有模型的迁移，包括用这些方法
44
结合基于实例的迁移方法使用。
领域不同领域自适应
任务相同；仅源
归纳迁移学习
领域数据标记
迁语言不同
跨语言学习
移
学
习多任务学习
任务不同；仅目
直推式迁移学习
标领域数据标记
序列迁移学习
图 4-4 迁移学习在自然语言处理中分类
迁移学习提高效果的三种方式为[96]：
1. 当任务相似时，迁移学习训练开始时的初始性能比随机初始化模型的高；
2. 能够缩短达到最大性能所需的时间；
3. 与不进行迁移学习的模型相比，提高了最终的性能水平。
对标记数据不足的任务可以适用迁移学习策略，目前除了少数拥有大规模平
行语料数据资源的语言对(如汉英、英德)，很多语言对都存在语料资源匮乏的问
题，比如藏汉平行语料资源，会使相关任务难以达到理想的结果。由于没有足够
的标记数据，迁移学习的引入将有效缓解这一困难[99]。
4.2.2 领域自适应
目前只有少数语言对能够提供足够规模的高质量的平行语料库，如与英语配
对的语言和一些欧洲语言对的语言。此外，对于每种语言对，特定领域的语料库
的大小和可用领域的数量都是有限的[100]。因此，对于大多数语言对和领域，只
有少数语料库或没有并行语料库可用。众所周知，在资源匮乏的情况下，普通统
计机器翻译方法和神经机器翻译方法对于特定领域的翻译效果都很差[101]。高质
量的特定领域机器翻译系统需求量很大，而通用机器翻译的应用却很有限。此外，
通用翻译系统通常在特定领域表现不佳，因此开发特定领域的翻译系统是很重要
45
的。
利用域外平行语料库和域内单语语料库来提高域内翻译被称为机器翻译的
领域自适应(Domain Adaptation) 。给定一个有标记的源域D𝑠𝑠 = {𝑥𝑥𝑖𝑖 , 𝑦𝑦𝑖𝑖 }𝑛𝑛𝑖𝑖=1 和
[102]
𝑛𝑛+𝑚𝑚
一个无标记的目标域 D𝑡𝑡 = �𝑥𝑥𝑗𝑗 �𝑗𝑗=𝑛𝑛+1 ，假设它们拥有相同的特征空间，即 Xs = Xt，
相同的类别空间，即 Ys = Yt 以及相同的条件概率分布，即 Qs(ys|xs) = Qt(yt|xt)。

但是这两个域的边缘分布不同，即 Ps(xs)≠Pt(xt)。迁移学习的目的是利用有标
记的数据 Ds 去学习一个分类器 f:xt →yt ，预测目标域 Dt 的标签 yt ∈Yt.
神经机器翻译的领域自适应是一个很新的研究领域，已经引起了学术界的广
泛关注。在过去的几年中，NMT 已经成为最流行的机器翻译方法，许多领域自适
应技术被提出和评估[103]。这些研究要么借鉴了以往统计机器翻译研究的思想，
将这些思想应用于非神经网络的研究，要么为非神经网络的研究开发了独特的方
法。
领域自适应的主要研究目标是针对该模型的特定域进行的。众所周知，特定
类型的优化模型(新闻，语音，医学，文学等)在给定域上的神经系统获得的准确
[105]
性更高。具体是指如果训练数据在目标域上无偏差分配时，任务在测试数据
上的表现和在开发集上训练时的表现相当[104]。如果训练数据与目标域不同的时
候，任务性能会随之降低。例如，当训练数据来自生物信息领域且测试域特定于
新闻领域时其翻译性能会不尽人意。领域自适应通常包括专业术语领域和风格自
适应。
一些任务在通常情况下都有对应的大量域外并行语句。只要提供小规模附加
域内数据集就可以训练特定领域的模型，这种方法的主要目的是提高目标域的翻
译性能。通常通过微调对通用模型进行连续训练。微调是领域适应的传统方法。
该方法首先在资源丰富的域外语料库上训练神经机器翻译系统直到收敛，然后在
资源贫乏的域内语料库上对其参数进行优化。通常，对域内并行语料库进行微调。
一旦获得了良好的模型参数，就可以使用这些参数对域內数据进行微调，以获得
更好性能的域内模型。然而传统的微调方法会造成模型在源领域上的性能大幅度
降低，这是由于在小规模域内数据上产生过拟合现象。
4.3 藏汉神经机器翻译领域自适应研究
领域自适应已成功地使用在统计机器翻译和神经机器翻译中，而藏汉神经机
器翻译中还鲜有研究与应用。通常的神经机器翻译域自适应方法首先在平行语料
46
规模大的域外语料库上训练通用翻译父模型。然后在通用翻译父模型的基础上，
使用小规模域内语料库训练，并对通用翻译父模型进行微调。这样就可以将领域
自适应看作是一种从域外父模型到域内特定子模型的迁移学习方法。
传统的域自适应方法是微调，即在域内数据上进一步训练域外模型，也是本
文采用的基线领域自适应方法。这种方法的基本原理是，首先在资源较为丰富的
藏汉通用语料库（域外）上训练一个藏汉神经机器翻译系统直到收敛，然后在资
源贫乏的域内语料库（如藏汉政府公文语料库、藏汉科技语料库）上对其参数进
行微调(如图 4-5 所示)。
（域外）神经机器翻译翻译模型（域外）
藏汉科技语料库
（域内）神经机器翻译翻译模型（域内）
图 4-5 基于微调的藏汉领域自适应方法示意图
然而,微调由于域内数据的规模较小，往往会很快出现过拟合现象。基于这
个原因，采用改进的基于混合微调的领域适应方法，首先在一个域外的藏汉平行
语料库上训练一个藏汉神经机器翻译模型，然后在一个由域内（如藏汉政府公文
语料库、藏汉科技语料库）和域外语料库（藏汉通用语料库）混合而成的平行语
料库上对其进行微调，这种用混合语料库代替域内语料库进行微调可以解决过拟
合问题。
混合微调方法具体流程如图 4-6 所示。首先在域外数据（藏汉通用语料库）

上训练藏汉神经机器翻译模型直到收敛。然后在域内和域外数据的混合上，从第
一步继续训练藏汉神经机器翻译模型，直到收敛。由于域内（如藏汉政府公文语
料库、藏汉科技语料库）和域外语料库（藏汉通用语料库）的规模差距大，直接
混合会使规模较小的领域内语料库在训练过程中影响过小，因此需要对域内语料
库进行过采样，这里通过对域内、域外语料库设置不同的权重达到过采样的目的，
域内数据库权重较高则使训练过程对域内数据的更加关注。
47
（域外）神经机器翻译翻译模型（域外）
混合
藏汉科技语料库
神经机器翻译翻译模型（混合）
（域内）
图 4-6 基于混合微调的藏汉领域自适应方法示意图
在微调方法中，从域外数据获得的词汇表用于域内数据;而对于混合微调方
法，在所有的训练阶段使用从混合域内和域外数据获得的词汇表。对于验证集，
首先使用域外藏汉验证集训练域外藏汉神经机器翻译模型，然后使用域内藏汉开
发集进行微调;采用混合微调方法时，首先使用域外藏汉开发集训练域外藏汉神
经机器翻译模型，然后使用域内藏汉开发集和域外藏汉开发集的混合来进行混合
微调。
在本文中我们通过使用小规模藏汉特殊领域的数据对藏汉通用翻译模型进
行微调和混合微调并对比两种方式的效果，从而建立特殊领域的藏汉神经机器翻
译系统。通常情况下的领域自适应方法中父模型与子模型之间的语料库数量差异
相当大，而藏语本身就属于低资源语言，目前平行语料库的总体规模也只在一百
万句对左右，其中特定领域的平行语料库就更少了。本文中训练通用翻译系统的
域外语料库只有二十万句对，特定领域选择了有五万句对的政府公文语料库与一
万五千句对的自然科学语料库；虽然语料规模小，但是通过实验证明，小规模语
料库之间的混合微调迁移也能够取得不错的效果，值得其他低资源语言尝试。
4.4 实验分析
4.4.1 语料处理
本次实验尝试使用通用翻译模型建立政府公文和自然科学两个特殊领域翻
译系统。选用 200k 的藏汉通用语料库训练父模型，语料主要来源于日常对话、
影视剧、科普讲座等；藏汉政府公文平行语料库 50k；藏汉自然科学平行语料库
15k。
48
语料预处理阶段首先进行分词，藏文分词工具采用实验室自研分词工具，汉
文分词采用开源分词工具 jieba 3。将通用、政府公文和自然科学三个语料库各自
分为训练集、验证集和测试集，验证集设为 5000 个句子，测试集设为 1000 个句
子，示例语料如下表 4-1 所示：
表 4-1 处理后语料示例
领域规模源语言目标语言
通用语料库 200k �ེད་ རང་ ཕ་�ལ་ གང་ནས་ རེད ། 你的家乡在哪里？
政府公文语料库 50k རང་�ལ་ དང་ �ལ་ཁབ་ ཁག་ གི་ མི་དམངས་ བར་ �ི་ �ས་ 加强我国和各国人民
ལོན་ པ་ དང་ མཛའ་མ�ན་ ཡོང་བ ར་ �གས་�ོན་ �ག ། 的了解和友谊，
自然科学语料库 15k གོམས་གཤིས་ འ�ར་བ་ ན་ �ད་འཛ�ན་ �ི་ ཕན་འ�ས་ ཐོན་ 习性的改变能产生遗
�བ ། 传的效果，
4.4.2 实验设计
在本节中，我们将描述实验中使用的框架、语言、数据集和参数。
实验基本框架采用 Transformer，分别训练通用藏汉神经机器翻译系统和两
个特定领域藏汉神经机器翻译系统，训练语料句子长度限制为 50 词以下，采用
了嵌入尺寸为 512 的基本配置，6 个编码器和解码器层，8 个注意头，训练步数
为 100000；在 1 个 gpu 上进行训练。之后在微调与混合微调过程中也保持一样
的参数，其中混合微调方式中将域外语料库的权重设为 3，域内语料库的权重设
为 7。这样设置权重是想要在构建一批（batch）语料时，依次从域内语料库中
采样 7 个示例，从域外语料库中采样 3 个示例，以达到域外语料库规模为域外语
料库 2 倍的效果。
3
https://github.com/fxsjy/jieba
49
表 4-2 训练参数
参数名设置
train_steps 100000
valid_steps 10000
warmup_steps 8000
decoder_type transformer
encoder_type transformer
layers 6
transformer_ff 2048
Heads 8
Optim adam
adam_beta1 0.9
adam_beta2 0.998
max_grad_norm 0.0
batch_size 2048
batch_type tokens
Normalization tokens
Dropout 0.3
label_smoothing 0.1
1)通用翻译模型训练
实验数据为 200k 藏汉通用平行语料库，模型性能如下表 4-3 所示：
表 4-3 通用模型在不同测试集上的表现
测试集 BLEU
通用 13.40
政府公文 3.76
自然科学 1.83
根据上表可知通用模型在政府公文和自然科学领域表现很差，原因在于藏语
口语、日常用语与书面语差别较大，而通用语料库中包含大量口语和日常用语。
2)政府公文翻译模型
在上个实验中训练好的通用模型基础上分别进行微调和混合微调两种领域
自适应方式，域内训练语料为 50k 藏汉政府公文平行语料库继续训练，训练步数
为 100000 步。采用与实验 1 相同的训练参数，最终得到政府公文翻译模型。
50
表 4-4 政府公文翻译模型在不同测试集上的表现
测试集微调 BLEU 混合微调 BLEU

通用 1.75 14.16
政府公文 19.71 19.03
从表 4-4 中显示采用微调的领域自适应方法训练后的政府公文模型在该领
域表现有很大提升；而在通用领域表现大幅度下降，这是因为发生了过拟合，对
域外数据产生遗忘；而经过混合微调方法训练后的翻译模型在藏汉通用测试集和
政府公文测试集上都有较好的表现。
表 4-5 政府公文翻译模型与通用模型在政府公文测试集翻译示例
模型示例 1 示例 2 示例 3
通用模型译文就是老百姓的礼貌，我讲一个问题。把硬币放下，我们要
把他给记下来。
政府公文翻译模型赢得了群众的拥护。我重点谈一个问题，踢开党委来革命。
译文
参考译文是得到群众拥护的。我主要讲一个问题，撇开党委要闹革命，
表 4-5 的翻译结果示例 1 显示藏汉通用翻译模型没有学习到域内词汇“群众”

和“拥护”，而通过领域自适应方法继续训练得到的政府公文翻译模型学到了新
数据中的知识；但是如示例 2 这种接近日常用语的句子通用模型也可以和域内模
型一样翻译出来，示例 3 则完全没有翻译出来。
3)自然科学翻译模型
按照同样的方法在第一个实验中训练好的通用模型基础上进行微调和混合
微调，域内训练语料为 15k 藏汉自然科学平行语料库继续训练，训练步数为
100000 步。采用与实验 1 相同的训练参数，在各个测试集下 BLEU 值如表 4-6 所
示。
51
表 4-6 自然科学翻译模型在不同测试集上表现
测试集微调 BLEU 混合微调 BLEU

通用 0.82 13.97
自然科学 11.43 12.15
同样的，从表 4-6 中显示微调后的自然科学模型在该领域表现有很大提升；

而在通用领域表现大幅度下降。而经过混合微调方法训练后的翻译模型在藏汉通
用测试集和自然科学测试集上都有较好的表现。
表 4-7 自然科学翻译模型与通用模型在自然科学测试集翻译示例
模型示例 1 示例 2 示例 3
通用模型译文或者是它的形式，谁也会大吃一惊，就知道这个程序就知道
了，
自然科学翻译或者它的幼体表现出大概会奇怪，并且这种结果是遗传的。
模型译文来，
参考译文或是它的幼体状态，无论何人都会感到而且这种结果是遗传的。
惊奇；
表 4-7 的翻译结果示例 1 显示通用模型没有学习到域内词汇“幼体”，而通

过领域自适应方法继续训练得到的自然科学翻译模型学到了新数据中的知识；但
是如示例 2 这种接近日常用语的句子通用模型也可以和域内模型一样翻译出来，
示例 3 则完全没有翻译出来。
4.4.3 实验结果分析
从父模型开始微调训练的子模型训练能够更快地收敛；对比翻译结果可以看
出，模型在领域自适应过程中成功学习了领域内翻译知识，然而由于在域内数据
上产生过拟合，导致特定领域模型在通用域上的性能下降，而通过混合微调方法
训练的域内模型在域内、域外测试集都有较好表现，解决了过拟合问题。未来考
虑如何使翻译系统对待翻译句子进行分类，然后根据领域选择不同翻译模型进行
翻译，这样有利于低资源语言充分利用有限的资源提高翻译准确性。
52
4.5 本章小结
本章尝试在小规模语料资源条件下通过领域自适应方法快速训练出特定领
域藏汉翻译系统，常规方法需在大规模的域外并行语料库上训练父模型，由于藏
汉平行语料资源匮乏，本次父模型的训练语料仅为 20 万句对的藏汉通用平行语
料库。在通用模型上进行训练后，分别采用微调和混合微调方式的领域自适应方
法，分别采用 5 万句对的藏汉政府公文平行语料库和 1.5 万句对藏汉自然科学平
行语料库作为域内语料库，最终训练得到两个特定领域翻译模型，BLEU 值都达
到 10 以上，与通用语料库在域内性能相比有很大提升，其中混合微调方式在域
内域外测试集均有良好表现。
53
第五章融合词性特征的藏汉神经机器翻译方法研究
5.1 引言
早期在统计方法使机器翻译取得了巨大进步的时期，为了解决语法缺乏造成
的翻译错误，进一步提高统计翻译系统的效果，研究人员提出向基线系统添加大
量特征的方法，如句法特征[106]，该方法将特征值组合在一个对数线性模型中，
从一个 n-best 列表中选择得分最高的候选翻译，根据 BLEU 评价指标直接优化特
征权重。大量基于句法的统计机器翻译研究证实了语法是一种很有研究前景的翻
译建模方法，统计机器翻译通过整合各种句法知识，极大地提高了翻译水平。
无论是统计翻译方法，还是神经机器翻译方法，都是从原始的、句子对齐的
平行文本进行学习，而很少使用外部语言信息。因此这种学习方法学到的语法相
关信息是有限的，需要以其他方式进行补充学习。Sennrich[11]提出神经机器翻译
模型强大的学习能力不会使语言特征冗余;它们可以很容易地合并在一起，以提
供进一步的性能改进。不同层次的语言注释对神经机器翻译有不同程度的贡献，
一些类型的注释，如词性标注(POS)或句法依赖标签，可以帮助消除歧义。
词性特征是一个句子中每一个单词所表示的语法范畴，主要包括词性或词类
的标注信息，因此词性特征的标注和使用也是自然语言处理中一个基础性的重点
研究内容，也是机器翻译模型中一种非常重要的语法特征。词性特征作为体现一
个词语的形态、句法的重要特征，能够起到消除歧义的作用。在机器翻译过程中，
词性特征常常参与目标单词预测、消除歧义词等任务。
本章主要研究内容和创新点是：神经机器翻译的性能主要依赖大规模的平行
语料库，对于低资源语言来说，尤其是藏汉机器翻译，效果并不理想。考虑到目
前鲜有融合词性特征的藏汉神经机器翻译方法研究，为了在有限规模的藏汉平行
语料基础上利用更多的外部信息，从而得到最佳的翻译性能，本文在藏汉神经机
器翻译系统训练过程中引入了词性特征，将包含句法信息的词性标签作为外部特
征共同参与到训练过程中，使翻译系统在平行语料资源有限的情况下学习到更多
的语言知识，这有助于藏汉神经机器翻译系统区别多义词并消除歧义，进一步提
高翻译质量。通过实验验证了该方法的有效性，可以在一定程度上提高翻译效果，
与基线系统相比，BLEU 值提高 3.99。
54
藏文语料
分词标注
提取词性信息
藏文分词语料藏文语料标注文件
融合
输入端向量
图 5-1 融合藏文词性标注的藏汉神经机器翻译技术路线
本章技术路线如图 5-1 所示，使用的先验知识为通过藏汉平行语料库中的藏

文句子的词性标注信息，通过在训练过程中融合词性特征提高藏汉神经机器翻译
效果。
5.2 藏语词性特征及其特征嵌入
5.2.1 藏语词类及其词性标注
藏文字是一种二维拼音文字，由 30 个辅音字母和 4 个元音字母进行拼接组

合，一个藏文字用音节符“་”分隔为一个音节。藏文字的中心是基字字母，前
后附加前加字、后加字或再后加字，上下叠加上加字、下加字和元音，如图 5-2
所示。
55
元音
后加字
上加字
基字
音节符
前加字
བ�ིགས་
再后加字
下加字
图 5-2 藏文字符拼写结构示例
英、法、德等西方文字的单词之间有自然的空格作为词的分隔标记。而汉文、
藏文等语言文字是由字的连续序列构成，单词之间没有可用于分隔的符号，这使
得词的界定困难。由于目前自然语言处理中各项任务大都以词为基本单位进行处
理，许多前沿的自然语言处理技术都是在词汇层面上使用。因而对藏文来说，首
先出现了文本分词的问题。文献[108]提出并制订了《信息处理用藏语词类标记规
范》，该规范规定了信息处理中藏语词类 17 个大类，21 个一级类和 60 多个二级
词类，给出了相应的词性标注代码。如表 5-1 所示：
表 5-1 信息处理用藏语词类标记集
大类大类标记二级词类
名词 n nn nr ns ng ne na nz no nm nf nt nv nx
数词 m mj mx mg
量词 q qd qg qj ql qc
代词 r rr ry rz rf
动词 v vi vt vj vc vu
形容词 a as ad
状态词 z zt
拟声词 o oo
叹词 e ee
副词 d dc dp dw dx df dl
助词 u us uu ub uq uz ud
位格 l ls lg lt ld lh
56
具格 b bo ba bc by bg
属格 g gi
源格 j jg
cv cl cn cb ci ck cd ca ct cc cf cz cu cg
单纯连词 c
ce cs cm cy cr cj cp cq
复合连词 f fh fg fz fj
词缀 h hz
成语 x xx
语素 i ii
标点符号 w ww
非藏文 o ot
梵文 s sk
文献[109]2014 年提出一种基于判别式的藏文词性标注方法，主要融合了藏语
词语接续和词法特征，系统用感知机拟合训练特征权重，构建了模型库，精确率
达 98.26％，分词标注一体化模式标注精确率达 94.49％，基本达到了词性标注
实用水平。本文中藏文语料的词性标注也采用此系统完成。
歧义是自然语言中普遍存在的一种语言现象，有词汇、句法、语义、语用等
各个层面的歧义，而且造成歧义的因素各不相同；计算机处理自然语言时难免会
[110]
遇到所谓的歧义问题，而且是一个无法避免的问题。藏文中也存在很多一词
多义造成的歧义现象。人们在日常的交流中, 多义词的口译并没有给人们带来太
大的影响, 这可以解释为人们在长期生活工作中积累了大量的头脑中包括语用、
语法、词法、语义等等知识[111]。虽然一词多义使人们的语言文字交流更为便利，
但从机器翻译的角度看，这种歧义现象会带来很多难题。
藏文语中的一词多义现象主要集中在动词、形容词、名词当中，这三类多义
词的不同意义虽然会造成歧义，但是由于其词性都没有发生变化，无法根据词性
加以区分，因此不在本次讨论范围内。在这里主要讨论具有不同词性的多义词，
如下表 5-2 所示：
57
表 5-2 藏文中的一词多义现象示例
藏文多义词词性释义藏文例句汉文译文

动词饱 ཁོས་དེ་རིང་ཟ་མ་ཟོས་ནས་བ�གས། 他今天吃饱饭了。
བ�གས།
名词食物 ཁོས་བ�གས་མང་པོ་ཉོས་སོང་། 他购买了很多食物。
名词钱 �ོར་མོ་�ིན་ནས་དངོས་པོ་ཉོས། 花钱买东西。
�ོར་མོ།
形容词圆形 ད�ིབས་འདི་�ོར་མོ་ཞིག་རེད། 这是圆形的。
以上所述的例子是藏文中多义词造成的伪歧义型句子；当人类处理这些句子
时，能够准确分辨而并不产生歧义，但对于计算机，这些句子就产生了歧义，只
能在机器翻译中通过词性标注加以区分。
5.2.2 藏文词性特征嵌入
文献[116] 中基于采用递归神经网络的注意编码器-解码器网络结构的神经机
器翻译系统，泛化了编码器的嵌入层，以支持除基线词特征外的任意特征的包含。
其中编码器正向状态的方程(对于简单的 RNN 情况)为：
�⃗j = tanh�𝑤𝑤
h �⃗h
��⃗Exj + 𝑈𝑈 �⃗j−1 � (5-1)
其中E ∈ Rm×kx 为词嵌入矩阵，�W

��⃗ ∈ Rn×m �U⃗ ∈ Rn×m 为权值矩阵，其中 m 和 n
分别为词嵌入大小和隐含单位数，Kx 为源语言的词汇量。推广到任意数量的特征
|F|:
�⃗j = tanh�𝑤𝑤 |𝐹𝐹| �⃗h�⃗j−1 �

h ��⃗�∥𝑘𝑘=1 E𝑘𝑘 xjk � + 𝑈𝑈 (5-2)
其中║为向量串联，E𝑘𝑘 ∈ Rm𝑘𝑘×kx 为特征嵌入矩阵， Kk 为第 k 个特征的词汇

量。换句话说，为每个特征查找单独的嵌入向量，然后将它们连接起来。串联向
量的长度与总嵌入大小相匹配，模型的所有其他部分保持不变。
本章采用 Transformer 模型训练藏汉神经机器翻译模型，不同于上述递归神

经网络的注意编码器-解码器网络结构，Transformer 是自注意力体系结构，它
确实在高资源语言对方面显示了更好的结果，但低资源语言对的性能仍存在争议。
因此试图通过探索语法来增强 Transformer。考虑直接提取词性标注信息作为输
入嵌入的一部分。模型以藏文句子作为输入，生成原始的子词嵌入和每个子词的
词性标注嵌入，然后将这两种嵌入结合起来。这种连接的嵌入包含关于藏文词本
58
身及其词性标注信息。最终得到的嵌入结果将作为输入提供给 Transformer 编码
器，如图 5-3 所示：
Transformer Transformer
编码器解码器
融合
POS OUTPUT
Word
Embedding Embedding
Embedding
图 5-3 融合藏文词性标注 Transformer 架构
采用向量形式将额外的藏文词性特征嵌入到原始的模型输入端作为模型输
入。首先以藏文源句作为输入，通过预处理生成原始的藏文词和每个藏文词的词
性标注，然后通过不同的融合方法将这两种嵌入结合起来。这种融合的嵌入包含
关于藏文词及其基于上下文的词性标注信息。
设计了两种词向量与标注向量的融合方式，如图 5-4 所示。一种是合并方式

（SUM）
，即词向量与标注向量维数必须相同且与模型输入向量一致，最后通过直
接相加获得输入向量。这种方法将词本身与词性标注信息在模型训练过程中起到
的的作用同等看待，在一定程度上弱化单词本身的信息量，放大词性标注的影响；
另一种是连接方式（CONCAT），即词向量和标注向量维数灵活设定，不要求相同，
最终输入向量的维数为两者维数之和。这种方法可以调整词本身与词性标注在训
练中所占的比重。
词向量和标注向量的融合方式以及维数比例对模型的翻译效果有直接的影
响，不同融合方式得到的训练结果将在 5.3 节的实验中进行对比；而维数比例的
选择方法无法一一做实验对比，本文根据词性标签的词表大小将 concat 方式的
维数比例设置为 500:12。
59
藏文词向量藏文词性向量编码器端输入向量
SUM 方式 �ོབ་འ�ིང་། nn
M 维向量 M 维向量 M 维向量
CONCAT 方式 �ོབ་འ�ིང་། nn
M 维向量 N 维向量 M+N 维向量
图 5-4 藏文词性标注向量的不同融合方式
最终得到的嵌入结果将作为输入提供给 Transformer 编码器。
5.3 实验与分析
5.3.1 语料处理
本次实验通过将藏文词性标签作为特征输入藏汉神经机器翻译系统。选用
30 万句对的藏汉平行语料库作为训练集，语料主要来源于日常对话、影视剧、
科普讲座等；验证集 2000 句对；测试集 2000 句对。
语料预处理阶段首先进行分词，藏文分词标注工具采用实验室自研分词标注
工具，汉文分词采用开源分词工具 jieba 4。藏文语料处理后如下表 5-3、5-4 所
示：
4
https://github.com/fxsjy/jieba
60
表 5-3 分词标注的藏文句子
分词标注后的藏文句子文件
 (|lq 1998|mj ལོ|tt འི་|gz �་|tt 6|mj ཚ�ས་|tt 1|mj ཉིན|tt )|lq །|lz
 དེང་�ས་|tt འཛམ་�ིང་|nn ཐོག་|ff ཆ་འ�ིན་|nn ལག་�ལ་|nn མཚ�ན་�གས་|nn གཙ�་བོ|nn ར་|nn �ར་པ|vi འི་|gz ཚན་
|nn �ལ་|nn ཉིན་རེ་བཞིན་|dp ཡར་ཐོན་|nv �ང་བ|vi །|lz
 ཚན་|nn �ལ་|nn མཐོ་|ad གསར་|ad �ི་|gz �བ་འ�ས་|nn ཐོན་�ེད་|nv �ས་�གས་|nn དངོས་�་|dx འ�ར་ཚད་|nz
ཇེ་|dc མ�ོགས་|ad �་|gl འ�ོ་བ|vi །|lz
 འགོ་|ff འ�ས་|vt མ་ཐག་|dp པ|hh འི་|gz ཤེས་ཡོན་|nn དཔལ་འ�ོར་|nr ལས་|gj མིའི་རིགས་|nn �ི་|gz དཔལ་འ�ོར་
|nn དང་|cd �ི་ཚ�གས་|nn �ི་|gz འཚ�་བ|nn ར་|nn འ�ར་བ་|vi ཆེན་པོ་|as གསར་པ་|as ཞིག་|mj ཡོང་|vi �བས་|vi
ཡོད་པ་|uc བ�ན་ཡོད|nn །|lz
 ཚན་|nn �ལ་|nn དང་|cd །|lz ཐོན་|vi ལས|gj །|lz དཔལ་འ�ོར་|nr བཅས་|rz �ི་|gz མཐོ་|ad ས་|nn བཙན་ས་|ad
�ོད་|vt ལེན་|vt �ེད་|ux �ིན་|us ཡོད|uc །|lz
表 5-4 提取词性特征文件
词性特征文件
 lq mj tt gz tt mj tt mj tt lq lz
 tt nn ff nn nn nn nn nn vi gz nn nn dp nv vi lz
 nn nn ad ad gz nn nv nn dx nz dc ad gl vi lz
 ff vt dp hh gz nn nr gj nn gz nn cd nn gz nn nn vi as as mj
vi vi uc nn lz
 nn nn cd lz vi gj lz nr rz gz ad nn ad vt vt ux us uc lz
5.3.2 实验设计
在本节中，我们将描述实验中使用的框架、语言、数据集和参数。
实验采用 Transformer 框架，共设计对比三组实验，分别为训练未嵌入词性

标注特征的基线系统和两者不同方式融合的词性嵌入系统，相同的训练参数如下
表所示：
61
表 5-5 共用训练参数
参数名设置
train_steps 200000
valid_steps 10000
warmup_steps 8000
report_every 100
layers 6
transformer_ff 2048
Heads 8
accum_count 8
Optim adam
adam_beta1 0.9
adam_beta2 0.998
decay_method noam
max_grad_norm 0.0
batch_size 2048
batch_type tokens
valid_batch_size 16
Dropout 0.3
label_smoothing 0.1
表 5-6、表 5-7 分别列出不同融合方式在训练过程中不同的参数设置。
表 5-6 连接方式特征嵌入训练参数
参数名设置
feat_merge concat
src_word_vec_size 500
feat_vec_size 12
tgt_word_vec_size 512
share_embeddings false
62
表 5-7 合并方式特征嵌入训练参数
参数名设置
feat_merge sum
word_vec_size 512
share_embeddings true
5.3.3 结果分析
最终训练结果如表 5-8 所示：
表 5-8 词性标签输入前后模型的表现
模型 BLEU
Transformer 25.80
Transformer+POS(concat) 29.79
Transformer+POS(sum) 25.67
根据实验结果可知，以连接方式融合的词性标注信息能够在藏汉神经机器翻
译模型中带来翻译效果的提升，而合并的融合方法反而降低了翻译质量。
分析认为，由于在实验中合并方式的词向量与词性向量的维度设定相同，都
是 512，由于词性信息本身携带的信息量是低于词本身的，导致相加后单词本身
的信息量削弱，词性标注信息量增强，不符合翻译过程中的参考比重，所以 BLEU
值不增反降。在连接的融合方式中，词向量占 500 维，词性标注向量只占 12 维，
通过连接使得在不同维度上提供的语言信息分类、比重明确，最终 BLEU 值提升
了 3.99。
5.4 本章小结
神经机器翻译(NMT)的研究主要利用由对平行句组成的语料库，假设模型可
以通过注意机制自动学习先验语言知识。尽管神经机器翻译(NMT)中的模型具有
一定的隐含学习源句句法信息的能力，然而这些模型仍然不能捕获深层结构细节，
一些研究表明，词性特征具有改进这些模型的潜力[116]。由于神经网络模型首先
将源句子编码为高维向量，然后解码为目标句子，因此很难理解和解释这样一个
过程中所发生的事情[117]。
本文尝试在低资源条件下通过嵌入源语言端词性标签的方法训练藏汉神经
63
机器翻译系统，实验表明，以连接方式嵌入的词性作为一项重要的语法信息，能
够在训练过程中相较基线系统 BLEU 值提高 3.99，表明源句法可以显式地有效地
融入到神经机器翻译中，以提供进一步的改进。为了进一步提高翻译效果，未来
考虑融合更多语言学信息，并尝试以不同方式融合对比效果。
64
第六章融合统计方法的藏汉神经机器翻译方法研究
6.1 引言
目前在机器翻译研究领域建立的任务(如 IWSLT 语音翻译任务)中，神经机器

翻译系统达到了最先进的翻译质量[118]，而在此之前的二十多年间，统计方法一
度在机器翻译领域占据主导位置，是很多商用系统主要采用的翻译方法。在统计
方法中一个重要的概念是词对齐（Word Alignment），用于描述不同语言之间同
义词汇之间的关联，也就是对应关系。IBM 的科研人员于 1993 年提出 IBM 模型
1-5[4]，用于生成双语词对齐结果。词对齐在后续的统计机器翻译系统中成为重
要基础，大部分统计翻译方法首先要进行训练数据的词对齐工作。
作为最新的机器翻译方法，神经机器翻译研究人员在 2014 年将注意力机制

应用于词语的联合翻译和对齐[10]，提出在预测下一个目标词的时候，将源句中与
之相关的部分加入解码输入部分。在此基础上，2017 年谷歌团队提出完全依赖
注意力机制的 Transformer 框架[12]，由于关注上下文单词而不是对齐的源单词，
和统计方法的词对齐有很大区别； Transformer 模型中多层、多头注意机制的
存在，使注意力概率变得复杂。
无论是统计机器翻译还是神经机器翻译，对齐与翻译之间联系紧密，词对齐
质量对神经机器翻译方法的翻译性能影响较大。其次，双语词对齐在机器翻译中
有广泛的应用场景，最基础的是从平行语料库抽取双语词汇表。单词对齐也可以
结合双语词典辅助翻译低频词；同时翻译时通过向用户提供词对齐信息，有助于
帮助用户诊断欠翻译问题[119]。
本章主要研究内容和创新点为：为了提高 Transformer 翻译模型的翻译质量

和对齐效果，本章提出一种融合统计方法的藏汉神经机器翻译方法，首先通过
IBM 模型生成藏汉平行语料词对齐，再用该词对齐信息作为监督模型训练的标签，
通过多任务框架在训练 Transformer 模型产生准确翻译的同时指导 Transformer
中的注意力机制生成更加合理、精确的对齐，进一步提高藏汉神经机器翻译质量。
通过实验证明在相同的训练数据下，融合统计方法的藏汉神经机器翻译方法相比
基线系统的 BLEU 值提升了 1.7。具体技术路线如图 6-1 所示：
65
藏汉平行语料库
分词
GIZA++生成单向词对齐
生成双向词对齐
藏汉词对齐信息
指
导
藏汉翻译模型训练
图 6-1 融合统计方法的藏汉神经机器翻译流程
本章技术路线如图 6-1 所示，使用的先验知识为藏汉平行语料库经过统计方

法生成的藏汉词对齐信息，通过融合词对齐信息提高藏汉神经机器翻译质量。
6.2 词对齐
6.2.1 统计机器翻译中的对齐信息
统计机器翻译(Statistical Machine Translation，简称 SMT)认为自然语

言翻译应该归类于机器学习问题。机器通过“阅读”大量由人工进行翻译的双语
对照翻译样本，统计机器翻译算法就可以自动学习如何翻译。统计机器翻译在不
到 20 年的时间里取得了巨大的进步，围绕统计方法各种新思想也不断被引入[120]。
形式上，统计机器翻译的任务是将源语言中带有词汇 VS 的符号序列转换成带有
词汇 VT 的目标语言中的符号序列。这里可以假设单词是符号，而句子就是序列，
所有数据都要经过统一的预处理过程，因为统计机器翻译系统对语言的差异十分
敏感。通常如果不处理形态变体，英语单词 translate 和 translation 就被系统
理解为不相关的符号。
66
统计方法将源词序列表示为 s1 s2…sJ，以及一系列目标单词 t1t2…tI。翻译

J
系统的目标是为给出的一个输入序列s1 找到在翻译上等效的序列𝑡𝑡1I 。在学习一门
外语的时候通常会练习在双语句子中相互翻译的词之间划线连接。图 6-2 中显示
了一个单词对齐的示例。这说明翻译问题可以分解为若干更小的词级别的翻译问
题。
图 6-2 英法翻译对
对于一个统计机器翻译系统而言，有三个需要解决的问题：
首先需要估计语言模型概率 P(t)：对于一个给定的句子：t1l = t1 t 2 ⋯ t l ，计
算句子概率：P(t1l ) = P(t1 ) × P(t 2 |t1 ) × ⋯ × P(t l |t1 t 2 ⋯ t l−1 )；其次要估计源句子
和目标句子之间的翻译概率 P(s|t)，其中目标句子与源句子中双语词汇的对应
关系的定义就是关键；最后设计最高效的方法使 P(s|t)×P(t)最大。由此可见
词对齐对于统计机器翻译具有重要意义。在形式上，词对齐任务的目标是发现双
J
语句对中源单词对目标单词的对应关系(s1 ，𝑡𝑡1I )，对齐 A 就是这些词对应的集合。
A ⊂[1, I]×[1, J]。如果(i, j)∈ A，则单词 si 与单词 tj 对齐。词对齐模型取
决于如何分解这个问题。
1993 年 IBM 提出了五种 word-based 统计翻译模型 IBM Model 1-5[4]，可以

学习词对齐。对于任何一对句子，IBM 的每个模型都为每一个可能的词对齐赋一
个概率，最终得到的对齐很好地解释了句子对中的每个词的对应关系。一串源语
单词 S 可以以许多不同的方式翻译成一串目标语单词。在统计翻译中认为每一个
目标字符串 T 都是 S 的一种可能的翻译。给每一对字符串(S,T)赋一个数字
Pr(T|S)，即翻译人员在看到 S 时会产生 T 作为译文的概率。进一步认为当一个
以目标语言为母语的人产生一串目标语单词时，他实际上已经构想出了一串源语
言单词并进行了翻译。以藏汉翻译为例，给定一个汉文字符串 t，翻译系统的工
作就是找到以藏语为母语的翻译人员在生成汉文 t 时心中的藏文字符串 s。通过
选择 Pr(T|S)最大的藏文字符串s�来最小化错误率。用 A(S,T)表示藏文句子 S 与
汉文句子 T 之间所有对应的集合，汉文句子的单词数为 i，藏文句子的单词数
67
为 j ，于是藏文句子与汉文句子的单词间有 i×j 种对应关系。由于藏汉单词之

间的对应决定一个对齐，并且不同对应方式应该是 2i×j 的子集，因此，A(S,T)
中共有 2i×j 种对齐。
对一个给定的藏汉双语句对(S|T)，认为所有单词对(sj,ti) 之间都应该存在
着一些对应关系，把描述这些单词间对应关系的模型称为对齐模型(alignment
model)。
可以通过条件概率 p(S,A|T) 获得一个藏汉双语翻译句对(S|T) 的似然率：
P(S|T) = ∑A p(S, A|T) (6-1)
由于有 j 个单词的藏文源句子可以表示为：
𝑗𝑗
S = s1 ≡ s1 s2 ⋯ sj (6-2)
有 i 个单词的汉文目标句子可以表示为：
T = t1i ≡ t1 t 2 ⋯ t i (6-3)
则藏汉之间的对齐序列可以表示为：
𝑗𝑗
A = a1 = a1 a2 ⋯ a𝑗𝑗 (6-4)
其中 am (m=1...j)只能取 0 到 l 之间的整数，假如源语言中的第 m 个词与目

标语言中第 n 个词对齐，那么，am= n，若没有对齐的词与则 am=0。
j−1 j−1 j j−1

p(S, A|T) = p(m|T) ∏m
j=1 p(a j |a1 , s1 , m, T) × p(sj |a1 , s1 , m, T) (6-5)
实际上 p(S,A|T) 能够表达为不同形式的条件概率乘积，式 6-5 只是其中一

种表示方式。以此为基础，IBM 模型 1-5 从数学角度描述了五种不同前提条件下
的翻译模型，分别定义如下，依旧用藏汉翻译举例：
１.IBM 翻译模型 1
在式 6-5 中，由于公式右侧的参数过多，导致不同参数间的相互独立性无法
保证，于是 IBM 的研究人员规定翻译模型一需要遵循以下三个假设：
(1) 假定概率 p(m|T) 与汉文目标句子 T 和藏文源句子长度 m 无关，即ε ≡

68
p(m|T)为一个非常小的常量；
j−1 j−1
(2) 假定p(aj |a1 , s1 , m, T)只依赖汉文目标语言的长度 l，那么，
j−1 j−1 1
p�aj �a1 , s1 , m, T� = l+1 (6-6)
j−1 j−1
(3) 假定p(aj |a1 , s1 , m, T)仅依赖于藏文词 sj 和对齐t aj ，则p(sj |t aj ) ≡
j−1 j−1
p(aj |a1 , s1 , m, T) 是给定对齐汉文词 t aj 的情况下藏文词 sj 的翻译概率
(translation probability)。
于是 IBM 翻译模型一表示如下：
ε
P(S|T) = (l+1)m ∏m l
j=1 ∑i=1 p(sj |t i ) (6-7)
根据模型一，由藏文源句子 s 到汉文目标句子 t 的翻译实现过程：
(1) 根据概率分布给汉文目标句子 t 选取一个长度 m；

(2) 对于每个 j = 1,2,…, m，根据均匀分布原则，从 0,1,…,l 中选一个
值给词对齐 aj；
(3) 对于每个 j = 1,2,…,m，根据概率选一个汉文目标单词 tj。
2.IBM 翻译模型 2
j−1 j−1
与 IBM 翻译模型一相比，除了假定概率p(aj |a1 , s1 , m, T)依赖位置 j、词
对齐关系 aj 和藏文源句子长度 m 以及汉文目标句子长度 l 外，另两个假设模型
一中的假设保持一致。
模型二中引入了一个名为对位概率(alignment probabilities)的概念：
j−1 j−1
a(aj |j, m, l) ≡ P(aj |a1 , s1 , m, T) (6-8)
经过 IBM 翻译模型一中相似的推导，得到模型二的公式：
P(S|T) = ε ∏m l
j=1 ∑i=1 p(sj |t i ) × a(i|j, m, l) (6-9)
当对位概率为常数时，IBM 翻译模型二就简化为为模型一，因此可以把翻译
模型一当做是翻译模型二的一种特殊情况。
根据模型二，由藏文源句子 s 到汉文目标句子 t 的翻译实现过程为：

69
(1) 根据概率分布给汉文目标句子 t 选一个长度 m；

(2) 对于每个 j = 1,2,…,m，根据概率分布 a(aj|j,l,m) 从 0,1,…,l 中选
个值给词对齐 aj；
(3) 对于每个 j = 1,2,…,m，根据概率选一个汉文目标词 tj。
3.IBM 翻译模型 3
在对齐关系随机的情况下，与汉文目标句子中的汉文词 t 对应的藏文源句
子的单词数表示为随机变量，记作Фt，把该变量定义为汉文词 t 的繁衍能力（或
者叫产出率)。实际上，产出率可以理解成汉文目标词和藏文词之间的一对多的
对齐关系。
对于给定一个汉文目标句子 T，T 中的每个汉文词 t 在藏文源句子中都可能

有若干个藏文词和它对齐，如果把藏文源句子中所有汉文词 t 的对齐单词列表称
为 t 的一个片段(tablet)，这个片段可能为空。一个汉文目标句子 T 的所有片
断的集合就是一个随机变量，叫做 T 的片断集(tableau)，记作 R。T 的第 i 个
单词的片段也是随机变量，记作 Ri，所以 T 的第 i 个单词片段中第 k 个藏文词
也是随机变量，记作 Rik。
此外把单词排列π(Π 的一个具体取值，也就是τ中单词的一种排列方式)
和标释集τ(即 R 的一个具体取值)的联合似然率表示为：
φ
  p(τ, π|T) = ∏k=1
0
p�π0k �πk−1 l l l
01 , π1 , τ0 , φ0 , T� (6-10)
假设：
(1) 对于 1 到 l 中的任意一个 i，概率p�φi �φ1i−l , T�只依赖于 ft 和 ti，记作：
n(φ|t i ) ≡ p�φi �φ1i−l , T� (6-11)
(2) 对于所有的 i，概率p�πik �τk−1 k−l l

i1 , τ0 , φ0 , T�只依赖于τik 和 ti，记作：
  p(s|t i ) = p�R ik = s�τk−1 k−l l

i1 , τ0 , φ0 , T� (6-12)
(3) 对于 1 到 l 中的任意一个 i，仅依赖于πik，i， m 和 l。其位置概率记

作：
  d(j|i, m, l) ≡ p(∏ik = j|πk−1 i−1 l l

il , π1 , τ0 , φ0 , T) (6-13)
70
如果τ中每一组词都有个额外词(在对齐时为空)，那么此额外词出现的概率
为 p1。另外，由于 f0+f1+...+fl=m，因此，
p(S|T) =× ∏m
J=1 p(sj |t aj )d(j|i, m, l) (6-14)
其中，∑s p(s|t) = 1 ∑s d(j|i, m, l) = 1 ∑φ n(φ|t) = 1。
4.IBM 翻译模型 4、5
藏文源句子中的一些词通常可以构成短语，很多情况下，这些短语会被当做
一个整体进行翻译，翻译后这个短语在汉文句子里的位置与原来在藏文句子里的
位置可能完全不同。由于模型三不能很好地解释句子中短语作为整体发生移动的
趋势。介于长短语被移动的机会相对较少，模型四通过修改短语的位置概率来尽
可能解决这种问题。又因为在模型四中可能出现一些完全不会存在的对齐，而这
些对齐概率却非零的情况，因此，定义了模型五。模型五尝试通过考虑藏文源句
子中单词间的相对位置来消除这种错误。
除此以外还有一种基于隐马尔可夫模型(HMM)的统计翻译词对齐模型[121]。这
种模型的设计原理是使对齐概率不依赖于绝对位置的差异，而依赖于对齐位置的
差异。
统计方法生成的词对齐已经被证明能对双语语料库执行准确度较高的词语
对齐，目前为止依然是首选词对齐方法[122]。
6.2.2 神经机器翻译中的对齐信息
目前神经机器翻译(NMT)作为主流机器翻译方法能够在大规模的翻译任务中
实现最先进的性能，但神经机器翻译在处理长句子方面仍然具有挑战性。由于当
时的神经机器翻译主要采用 RNN 架构，在预测下一个目标词时只考虑输入的源句
子和之前的输出，使得模型在长句子的表现较差；序列越长，句子前面部分的信
息就越少，虽然有通过改进的 LSTM 模型，但都不能彻底解决问题。解决这类问
题的一种有效方法是通过注意力机制。注意力机制允许模型学习不同模式之间的
[123]
对齐，例如动态控制问题中的图像对象和代理动作，语音识别任务中语音帧
与文本之间的关系[124]，或者图像标题生成任务中图像的视觉特征与其文本描述
之间的关系[125]。在 NMT 领域 Bahdanau 等人首次将这种注意机制应用于词语的联
合翻译和对齐[10]，这种对齐被称为软对齐(soft-alignments)，作为对比，可以
71
认为统计方法中的词对齐是一种硬对齐。注意力机制的引入使得输入序列编码不
再是固定的向量，而是每次从中自动抽取当前预测词对应输入词的上下文信息以
及位置信息等有用的信息。这个模型的解码器把每个条件概率定义为：
p(yi|y1,...,yi−1,x) = g(yi−1,si,ci) (6-15)
其中，si 是在 i 时间的一个 RNN 隐藏状态，由下式计算得：
si =f(si−1,yi−1,ci) (6-16)
如图 6-2 所示，c 是变化的：
Tx
ci = � aij hj (6-17)
j=1
其中，aij 等于：
exp�eij �
aij = Tx (6-18)
�k=1 exp(eik )
其中，eij 就是一个位置 i 的目标语言与位置 j 的源语言之间的对齐分数：
eij = a(si−1,hj) (6-19)
图 6-3 生成第 t 个目标词 yt 的建议模型
17 年谷歌团队提出自注意力机制模型 Transformer[12]，与注意力机制提出后
产生的各种改进、变形相比，具有良好的性能和强大的并行计算能力。
72
编码器由 6 层一样的层组成，每一层有两个子层。第一层是一个多头自注意
力机制，另一层是一个简单的全连接前馈网络。在标准化层之后，这两层各自都
采用一个残差连接，LayerNorm(x+Sulayer(x))作为每一个子层的输出部分, 子
层本身实现的函数表示为 Sublayer(x)。为了优化这些残差裂解，模型中的所有
子层以及嵌入层都生成维度 512 的输出。
同时解码器也是 6 层一样的层组成的，出来 2 个在每个编码器中的子层，第

三个是在编码器输出后面的一个多头自注意力层。与编码器类似，每一个子层标
准化后都用一个残差连接包围。还有一个为了保证序列信息的掩盖层。
注意力：一个注意力函数其实就是把一个 query，一个 key-value 的集合映

射成一个输出，其中 query，key，value，output 都是向量。输出其实是 values
的加权求和，其中分配给每个值的权重通过一个相关函数计算 query 与当前 key
的相关程度。
[12]
图 6-4 缩放点乘积注意力
缩放点乘积注意力如图 6-4 所示，输入由维度为 dk 的 query 和 key 以及维

度为 dv 的 value 组成。用所有 key 计算 query 的点积，然后将每个点积结果除
以根号 dk ，并应用 softmax 函数来获得 value 的权重。多头注意力就是把多个
自注意力连起来，同时，通过减低维度来减少总计算消耗。
Transformer 中的多头注意力包括 3 种不同的使用方式：
1.在编码器-解码器注意层中，查询来自先前的解码器层，记忆键和值来自
编码器的输出。这使得解码器中的任意一个位置都能处理输入序列中的所有位置。
73
这模仿了序列到序列模型中典型的编码器-解码器注意力机制[63]。2.编码器包含
自注意力层。在自注意力层中，所有的键、值和查询都来自同一个地方，即编码
器中前一层的输出。所述编码器中的每个位置可以处理所述编码器的前一层中的
所有位置。3.解码器中的自注意力层可以使每个位置都能关注包括该位置在内的
和之前的所有位置。为了保持自回归特性要防止信息在解码器中向左流动。
6.2.3 融合统计方法的藏汉神经机器翻译
J
在词对齐中，给定一个源语言的藏文句子 f1 = f1,...,fj,...fJ 以及一个目
标语言的汉文翻译e1I = e1,...,ei,...eI，一个对齐 A 被定义为单词位置的笛卡
尔积的子集：
A ⊆ {(j,i):j = 1,...,J;i = 1,...,I} (6-20)
单词对齐任务旨在找到一个离散对齐，表示从藏文单词到汉文句子中相应翻
译的多对多映射。
Transformer 模型是一种编码器-解码器模型，仅依靠注意力来计算源句子
和目标句子的上下文表示。编码器和解码器均由多层组成，每个层都包括一个多
头自注意力层和前馈层。解码器中的层还会在自注意力和前馈层之间施加多头编
码器-解码器注意力。为了保持自回归属性，解码器中的自我注意子层仅关注由
较低层计算的过去字符的表示。指导解码器中的编码器-解码器注意力层。
翻译和对齐任务密切相关。具有注意力的神经机器翻译模型也显示了学习中
间注意力层的对齐。因此，通过利用这两个任务之间的相关性，从给定翻译和给
定对齐进行监督训练的神经模型可以从多任务学习中受益。GIZA ++提供了一种
可靠的方法来计算准确的对齐。如果获得更高的对准精度至关重要，那么多任务
框架也可以利用 GIZA++的对齐来产生更好的对准精度。
词对齐是一项艰巨且昂贵的任务，将 GIZA++生成的藏汉双语词对齐作为标
签来监督 Transformer 对齐头。首先将对齐转换为每个目标字在源字上的概率分
布。令 GI×J 表示一个 0-1 矩阵，如果第 j 个源词与第 i 个目标词对齐，则 Gi,j= 1。
简单地归一化矩阵 G 中至少与一个源词对齐的目标词对应的行，以获得矩阵 Gp。
Transformer 模型网络中不同头和层中的每个目标词，针对源词计算出多个注意
力概率分布。由于研究者观察到倒数第二层的注意力概率最自然地倾向于学习对
齐，因此从倒数第二层中任意选择一个头（随后称为对齐头）并监督其注意力概
74
率分布，使其接近标签的对齐分布（Gp）[126]。令 AI×J 表示由对齐头计算出的注

𝑝𝑝
意力矩阵。对于每个目标词 i，将𝐺𝐺𝑖𝑖 和 Ai 之间的 Kullback-Leibler 散度最小化，
这等效于优化以下交叉熵损失 La：
5
1 p
La (A) = − I ∑I9=1 � Gi,j log�Ai,j � (6-21)
j=1
监督一个头的动机使模型具有灵活性，可以让模型要么使用对齐头计算的表
示形式，或者更多地依赖于其他头计算的表示形式。结合标准的 NLL 翻译损失
Lt 训练模型以使 La 最小化。总损失 L 为：
L=Lt+λLa(A) (6-22)
其中λ是一个超参。通过这种训练方式，使得翻译模型在训练过程中得到更
准确的对齐和翻译结果。
6.3 实验分析
6.3.1 基于统计方法的藏汉双向词对齐获取
本文使用 GIZA++生成藏汉双语词对齐结果，GIZA++ 5实现了 IBM 模型 1~5 以

及 hmm 模型的所有代码，在生成源语言与目标语言之间翻译概率的同时，也产生
相应的副产品——“词对齐”。GIZA++是 GIZA(EGYPTSMT 工具包的一部分)程序的
扩展。
本次实验中使用的藏汉平行语料库规模为训练集 30 万句对，验证集 2000

句对，测试集 2000 句对。为了在 Transformer 模型训练过程中进行词对齐监督，
首先需要对藏汉平行语料库进行词对齐。
GIZA++命令如下：
./plain2snt.out src-train.txt tgt-train.txt

./snt2cooc.out src-train.vcb tgt-train.vcb src-train_tgt-train.snt >
src-train_tgt-train.cooc
./snt2cooc.out tgt-train.vcb src-train.vcb tgt-train_src-train.snt >
tgt-train_src-train.cooc
5
https://www.statmt.org/moses/giza/GIZA++.html
75
./mkcls -psrc-train.txt -Vsrc-train.vcb.classes opt

./mkcls -ptgt-train.txt -Vtgt-train.vcb.classes opt
./GIZA++ -S src-train.vcb -T tgt-train.vcb -C src-train_tgt-train.snt
-CoocurrenceFile src-train_tgt-train.cooc -o s2t -OutputPath s2t
./GIZA++ -S tgt-train.vcb -T src-train.vcb -C tgt-train_src-train.snt
-CoocurrenceFile tgt-train_src-train.cooc -o t2s -OutputPath t2s
GIZA ++只能生成两个藏到汉、汉到藏的单向对齐的文件 A3.final，如表 6-1

所示（s 代表源语言，t 代表目标语言）：
表 6-1 藏到汉、汉到藏的单向对齐的文件示例
藏到汉单向对齐文件示例
# Sentence pair (2) source length 16 target length 14
alignment score : 7.48786e-19

当今世界，以信息技术为主要标志的科技进步日新
月异，
NULL ({ 3 }) དེང་�ས་ ({ 1 }) འཛམ་�ིང་ ({ 2 }) ཐོག་ ({ 4 }) ཆ་འ�ིན་ ({ 5 })
ལག་�ལ་ ({ 6 }) མཚ�ན་�གས་ ({ 9 }) གཙ�་བོ ({ 8 }) ར་ ({ }) �ར་པ ({ 7 }) འི་ ({10 })
ཚན་ �ལ་ ({ 11 }) ཉིན་རེ་བཞིན་ ({ 13 }) ཡར་ཐོན་ ({ 12 }) �ང་བ ({ }) ། ({14})
汉到藏单向对齐文件示例
# Sentence pair (2) source length 14 target length 16
alignment score : 4.01527e-25
དེང་�ས་ འཛམ་�ིང་ ཐོག་ ཆ་འ�ིན་ ལག་�ལ་ མཚ�ན་�གས་ གཙ�་བོ ར་ �ར་པ འི་ ཚན་ �ལ་ ཉིན་རེ་བཞིན་ ཡར་
ཐོན་ �ང་བ །
NULL ({ 8 }) 当今 ({ 1 }) 世界 ({ 2 3 }) ， ({ }) 以 ({ })
信息 ({ 4 }) 技术 ({ 5 }) 为 ({9 }) 主要 ({ 7 }) 标志
({ 6 }) 的 ({10}) 科技 ({ 11 12 }) 进步 ({ 14 15 }) 日新
月异 ({ 13 }) ， ({16})
词对齐要实现两端对称化，需要提取藏到汉、汉到藏的单向对齐的文件中的
对齐信息，提取后如表 6-2 所示：
76
表 6-2 藏到汉、汉到藏的单向对齐提取
藏到汉单向对齐结果提取示例
 1-1 5-2 7-3 9-4 10-5
 1-1 6-3 3-4 4-5 8-6 6-7 5-8 9-9 11-10 13-11 12-12 15-13
 1-1 5-2 7-3 9-4 7-5 4-6 9-7 10-8 11-9 14-10
 4-1 5-2 6-3 8-4 8-5 9-6 10-7 12-8 14-9 21-10 16-11 18-12
19-13 17-14 16-15 24-16
 12-1 1-2 8-3 4-4 8-5 7-6 17-7 12-8 20-9

 0-0 1-1 2-2 8-3 5-5 7-6 8-7 8-8 11-9 10-10 10-11 14-12 16-13
汉到藏单向对齐结果提取示例
 1-1 5-2 7-3 9-4 10-5
 1-1 6-3 3-4 4-5 8-6 6-7 5-8 9-9 11-10 13-11 12-12 15-13
 1-1 5-2 7-3 9-4 7-5 4-6 9-7 10-8 11-9 14-10
 4-1 5-2 6-3 8-4 8-5 9-6 10-7 12-8 14-9 21-10 16-11 18-12
19-13 17-14 16-15 24-16

 12-1 1-2 8-3 4-4 8-5 7-6 17-7 12-8 20-9
 0-0 1-1 2-2 8-3 5-5 7-6 8-7 8-8 11-9 10-10 10-11 14-12 16-13
使用 grow-diag-final-and 方法得到最终的双向对称对齐文件如表 6-3 所示，

藏文在左，中文在右：
表 6-3 藏汉词对齐示例
藏汉对称对齐文件示例
 0-0 1-1 2-1 3-2 4-2 5-2 6-2 7-3 8-2 9-4 10-5
 0-0 1-1 2-1 3-4 4-5 5-8 6-7 7-6 8-6 9-9 10-10 11-10 12-12 13-11 14-12
15-13
 0-1 1-1 2-0 3-1 4-6 5-2 6-5 7-5 8-7 9-7 10-8 11-9 14-10
 0-0 1-0 2-0 3-0 4-1 5-2 6-3 8-4 8-5 9-5 9-6 10-7 11-7 12-8 14-9 16-15
17-14 18-12 19-13 21-10 24-16
 0-2 1-2 4-4 5-4 7-6 8-3 8-5 12-8 14-7 15-8 16-7 17-7 18-8 19-9 20-9
 0-0 1-1 2-2 3-3 5-5 6-5 7-6 8-7 8-8 9-7 10-10 10-11 11-9 14-12 16-13
77
6.3.2 藏汉词对齐监督训练
实验基本框架采用 Transformer 6，分别训练基线系统和使用藏汉词对齐监督

训练的对比系统，采用了嵌入尺寸为 512 的基本配置，6 个编码器和解码器层，
8 个注意头，共享输入和输出嵌入。在 1 个 gpu 上进行训练。
表 6-4 训练参数
参数项设置
train_steps 200000
valid_steps 10000
warmup_steps 8000
report_every 100
layers 6
transformer_ff 2048
Heads 8
Optim adam
adam_beta1 0.9
adam_beta2 0.998
max_grad_norm 0.0
batch_size 2048
batch_type tokens
Dropout 0.3
label_smoothing 0.1
6
https://github.com/pytorch/fairseq
78
训练结果如表 6-5 所示：
表 6-5 模型表现
模型 BLEU
Transformer 25.80
Transformer+GIZA++ 27.5
6.3.3 实验结果与分析
实验证明在低资源环境下，使用额外的语言信息来增强任务目标，利用从统
计机器翻译工具包中获得的词对齐来指导藏汉神经机器翻译的注意机制后，针对
大部分测试语句，模型相比基线系统得到了更好的翻译结果，同时也提供了较为
准确词对齐结果。
表 6-6 翻译结果对比
藏文句子 དངོས་པོ འི་ �ང་གཞི་ ངེས་ཅན་ ཞིག་ ཡོད །

参考译文有一定的物质基础，
示例 1 Transformer 基线模型译文有一定的 <unk> 的吗？
融合统计方法的 Transformer 译文有一定的物质基础，
词对齐 5-0 3-1 0-2 0-3 2-4 6-5
藏文句子 ཡིན་ནའང་ དོ་�ང་ ཆེན་པོ་ �་དགོས་ པ་ འ�ག །
参考译文但是值得严重注意。
示例 2 Transformer 基线模型译文但是十分注意。
融合统计方法的 Transformer 译文但要引起高度注意
词对齐 0-0 5-1 2-2 2-3 1-4
另外，经过词对齐监督的藏汉神经机器翻译模型训练之后，由于得到了更准
确和明确的对称藏汉双语对齐结果，使得待翻译的藏文句子和生成的汉文句子中
的词相互对应，有效减少了未登录词，基线翻译系统和融合统计方法的系统在测
试集上翻译产生的未登录词统计结果如表 6-7 所示：
79
表 6-7 翻译结果中未登录词统计
模型未登录词<unk>数量
Transformer 基线模型译文 892
融合统计方法的 Transformer 译文 87
6.4 本章小结
虽然目前神经机器翻译的翻译精度比统计机器翻译高。但是在与词对齐有关
的任务中，统计方法词对齐模型仍然是首选的解决方案。介于词对齐与翻译质量
密切相关，同时词对齐在许多其他机器翻译方面都有应用，本章提出了一种融合
统计方法的藏汉神经机器翻译方法来训练 Transformer 模型，可以生成更为准确
的翻译和词对齐结果。通过利用统计方法得到的 “硬对齐”在多任务框架中来
优化 Transformer 模型训练过程，得到较好的翻译和对齐结果。实验证明了该方
法提高了藏汉神经机器翻译的翻译质量，BLEU 分数提高了 1.7。
80
第七章总结与展望
7.1 总结
不论是曾经占据主导地位的统计机器翻译方法，还是目前热度最高的神经机
器翻译方法，这些基于语料库的机器翻译方法成为主流以来，翻译质量基本上被
平行语料库规模所限制，使得不同语言文字间的机器翻译表现悬殊非常大。针对
低资源的机器翻译方法研究也一直是全世界许多研究人员努力的方向。在信息化
的今天，许多藏文典籍还未能数字化，藏语与其他语言文字之间的平行语料库更
是稀缺。为了尽可能改善由于语料匮乏而造成的藏汉神经机器翻译质量不佳问题，
本文提出融合先验知识的方法，通过利用以下四种不同的先验知识，分别从机器
翻译的不同方面在一定程度上提高了藏汉机器翻译质量，具体研究内容如下：
1.融合词向量的藏文句子相似度研究：介于藏汉神经机器翻译因语料匮乏而
使得翻译效果不佳，计算机辅助翻译可以避开这个障碍为藏汉翻译人员提供辅助。
句子的相似度计算在自然语言处理领域是一项基础而核心的研究课题，尤其在计
算机辅助翻译中，句子相似度计算对翻译结果和翻译效果起到决定性作用。在藏
汉辅助翻译系统中，通过藏文句子相似度计算，可以将翻译记忆库中与输入藏文
句子最相近的几个句对返回给用户作为翻译参考。目前关于藏文句子的相似度计
算方法研究较少且现有方法精度较低。本文首先通过 Skip-gram 模型和 CBOW 模
型对大规模藏文单语语料库训练得到两种藏文词向量，然后据此计算藏文句子向
量，最后设计实现了两种基于表层信息的藏文句子相似度计算方法——基于词向
量与欧几里得距离和基于词向量与 Jaccard 相似度的计算方法——来计算藏文
句子的相似度，实验表明基于 Skip-gram 词向量与 Jaccard 相似度的藏文句子相
似度计算方法能够得到 85.6%的准确率，优于其他组合方式。
2.融合域外模型的藏汉神经机器翻译领域自适应方法研究：在不同语境下，
同一个词语或者句子的意义会发生变化，而通用翻译系统难以在所有领域保持稳
定的性能，因此需要建立特定领域的机器翻译系统。为了高效训练针对不同领域
的藏汉神经机器翻译模型，本文首先使用 20 万句对的藏汉通用平行语料库训练
一个藏汉通用翻译模型，然后通过领域自适应方法以此模型作为父模型进行混合
微调，分别利用 5 万句对的藏汉政府公文平行语料库和一万五千句对的藏汉自然
科学平行语料库在此基础上训练得到政府公文、自然科学两个特定领域的藏汉翻
译模型，实验证明该方法能够在域外模型的基础上快速有效地训练出域内翻译模
81
型，且整体表现优于域外模型，在各自领域测试集上的 BLEU 值相比通用模型提

升到 19.03 和 12.15。
3.融合词性特征的藏汉神经机器翻译方法研究：为了在有限的语料基础上利
用更多的外部信息得到最佳的翻译性能，本文通过引入藏文词性特征，即在训练
过程中加入源端藏文词性标注（POS）作为输入特征，在 Transformer 注意力机
制的编码器-解码器体系结构中泛化了编码器的嵌入层，以支持嵌入除词汇特征
外的词性特征的信息。通过对比合并、连接两种不同的融合方式，实验验证了连
接方法对翻译效果的提升较为明显，BLEU 值提升了 3.99。
4.融合统计方法的藏汉神经机器翻译方法研究：神经机器翻译模型中使用的
注意力机制是由对单词对齐的建模需求所驱动的，与传统意义上的单词对齐存在
显著差异。统计机器翻译中源语言和目标语言之间的双向对齐在机器翻译中有很
多应用，本文首先使用统计机器翻译中的词对齐工具 giza++生成藏汉平行语料
的显式双向对齐信息，在 Transformer 模型训练过程中作为对齐标签用于监督对
齐信息，指导训练过程，以达到更为准确的翻译和对齐效果。实验表明在低资源
环境下，BLEU 提升了 1.7。
7.2 展望
实验结果表明本文中的四种方法所融合的先验知识均在一定程度上提高了
藏汉神经机器翻译的质量。然而由于个人能力与水平的限制本文的研究依旧存在
以下不足之处，有待改进：
1.本文在计算藏文句向量时主要通过词向量计算，未来的研究将在本文的基
础上，一方面尝试采用不同的相似度计算方法,在不同体裁的文本上进行测试，
另一方面在句向量的相似度计算方法中尝试加入更多语义和语法信息，以进一步
提高准确率。
2.本文尝试在小规模语料资源条件下通过领域自适应方法快速训练出特定
领域藏汉翻译系统，而领域自适应属于迁移学习中的一个研究方法，未来需继续
学习迁移学习中的其他理论方法，尝试跨语言学习等方式来提高藏汉机器翻译质
量。从应用角度出发，未来还应考虑如何使翻译系统对待翻译的藏文句子进行分
类，然后根据领域选择不同的翻译模型进行翻译，这样有利于低资源语言充分利
用有限的资源提高翻译准确性。
82
3.本文在融合词性特征及统计方法使只使用了词性标注信息和词对齐信息，
较为单一，未来应继续研究融合其他语言学知识和统计方法中的其他特征，并改
进和优化融合方法。
4.本文在融合先验知识时限制于单一先验知识的融合，还未研究如何同时融
合多种先验知识，并且本文主要使用的是 Transformer 框架，没有尝试将先验知
识融合到更新型的模型框架中。未来应尝试同时融合多种先验知识以改善藏汉机
器翻译质量，并探索将先验知识融合到其他翻译模型框架中的可能性。
深度学习近年来在人工智能领域掀起新一轮的技术革命，取得了许多突破性
的成就。作为人工智能的一个分支，机器翻译也深受影响，开启了神经机器翻译
的新时代。全世界范围内，平行资源相对丰富的语言对之间，如英语、德语、法
语以及汉语等语言已经能够提供成熟的机器翻译服务。藏文机器翻译研究在几代
人的努力之下发展至今，虽然取得了一定的成果，但仍然面临许多困难。展望未
来，藏文机器翻译有需在以下几个方面进行探索和改变：
1.资源建设方面：目前针对低资源神经机器翻译方面虽然有一些研究，但是
要从根本上使藏文机器翻译达到英语、汉语的水平仍需继续努力建设平行语料资
源。不仅仅是藏汉语料资源，还包括藏语和其他语言之间的平行语料资源，都需
要长年累月、不间断地收集和整理；其次，对于现有的藏文语料要进行校对、标
注等精加工处理，使有限的资源能够最大限度包含更多的信息；
2.人才培养方面：对资源丰富的语言来说，相应的研究人员数量和质量也不
容小觑。从本文第一章中统计的历年机器翻译论文发表数来看，藏文机器翻译相
关的文献数量近几年每年都只有个位数。藏文机器翻译研究人员的匮乏也严重影
响了其发展速度和水平。未来应该更加重视藏文机器翻译方面研究人员的培养和
扶持工作。相信随着研究队伍的扩大，量变引起质变，藏文机器翻译研究会逐渐
迎来新的发展和转变；
3.理论研究方面：目前藏文机器翻译的主要研究在一定程度上依赖英文、汉
文研究进展，很难在基础理论和基本框架上有所创新和突破。作为平行资源匮乏
的语言，在机器翻译领域具有一定的特殊性，是否可以研究一种针对贫语言生物
全新的翻译理论来跳出资源规模的限制，是未来所有藏文机器翻译研究人员可以
考虑的方向。
83
参考文献
[1] Hutchins J. Machine translation: A concise history[J]. Computer aided

translation: Theory and practice, 2007, 13(29-70): 11.
[2] Warren Weaver. 1949. Translation. In William N. Locke and A. Donald Boothe,
editors,Machine Translation of Languages[M], MIT Press, Cambridge, MA, pages
15–23.
[3] 陈玉忠,俞士汶.藏文信息处理技术的研究现状与展望[J].中国藏学,2003(04):97-107.
[4] Brown P F, Della Pietra S A, Della Pietra V J, et al. The mathematics of
statistical machine translation: Parameter estimation[J]. Computational
linguistics, 1993, 19(2): 263-311.
[5] Koehn P, Och F J, Marcu D. Statistical phrase-based translation[R]. University
of Southern California Marina Del Rey Information Sciences Inst, 2003.
[6] Papineni K , Roukos S , Ward T , et al. BLEU: a Method for Automatic Evaluation
of Machine Translation[J]. 2002.
[7] Hinton, Geoffrey E. Learning distributed representations of concepts[C].
Proceedings of the eighth annual conference of the cognitive science society,
1986.1-12.
[8] Kalchbrenner N, Blunsom P. Recurrent continuous translation models[C].
Proceedings of the 2013 conference on empirical methods in natural language
processing. 2013: 1700-1709.
[9] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural
networks[J]. Advances in neural information processing systems, 2014, 27.
[10]Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to
align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.
[11]Sennrich R, Haddow B, Birch A. Neural machine translation of rare words with
subword units[J]. arXiv preprint arXiv:1508.07909, 2015.
[12]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances
in neural information processing systems, 2017, 30.
[13]Sennrich R, Zhang B. Revisiting low-resource neural machine translation: A case
study[J]. arXiv preprint arXiv:1905.11901, 2019.
[14]Zheng Z, Zhou H, Huang S, et al. Mirror-generative neural machine translation[C].
International Conference on Learning Representations. 2019.
[15]Ko W J, El-Kishky A, Renduchintala A, et al. Adapting high-resource NMT models
to translate low-resource related languages without parallel data[J]. arXiv
preprint arXiv:2105.15071, 2021.
[16]Kim Y, Petrov P, Petrushkov P, et al. Pivot-based transfer learning for neural
84
machine translation between non-English languages[J]. arXiv preprint

arXiv:1909.09524, 2019.
[17]Wang L, Tu Z, Way A, et al. Exploiting cross-sentence context for neural machine
translation[J]. arXiv preprint arXiv:1704.04347, 2017.
[18]Donato D, Yu L, Dyer C. Diverse pretrained context encodings improve document
translation[J]. arXiv preprint arXiv:2106.03717, 2021.
[19]Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional
transformers for language understanding[J]. arXiv preprint arXiv:1810.04805,
2018.
[20]Weiss R J, Chorowski J, Jaitly N, et al. Sequence-to-sequence models can directly
translate foreign speech[J]. arXiv preprint arXiv:1703.08581, 2017.
[21]Riley P, Caswell I, Freitag M, et al. Translationese as a Language in"
Multilingual" NMT[J]. arXiv preprint arXiv:1911.03823, 2019.
[22]冯志伟. 我国机器翻译研究工作的发展[J]. 情报学报, 1985, 4(3): 255-264.
[23]刁洪. 国内翻译技术研究综述[J]. 北京第二外国语学院学报, 2017, 39(6): 69-81,
125.
[24]青海师范大学藏文智能信息处理中心：
《实用化汉藏机器翻译系统（验收材料）》
［Z］
，
2000 年。
[25]才让加,吉太加.基于藏语语料库的词类分类方法研究[J].西北民族大学学报(自然科学
版),2005(2):39-42.
[26]史晓东,卢亚军.央金藏文分词系统[J].中文信息学报,2011,25(4):54-56.
[27]群诺,尼玛扎西,完么扎西,等. 基于统计的汉藏机器翻译系统关键技术研究与实现[J].
高原科学研究, 2018, 2(2): 97-104.
[28]李亚超,熊德意,张民,等. 藏汉神经网络机器翻译研究[J]. 中文信息学报, 2017,
31(6): 103-109.
[29]李博涵,刘汇丹,龙从军. 深度学习在汉藏机器翻译中的应用研究[J]. 民族翻译,
2018(3): 51-58.
[30]桑杰端珠 . 稀疏资源条件下的藏汉机器翻译研究 [D]. 青海师范大学 ,2019.
DOI:10.27778/d.cnki.gqhzy.2019.000370.
[31]慈祯嘉措. 贫语言资源条件下的藏汉（汉藏）机器翻译关键技术研究[D].青海师范大
学,2020.DOI:10.27778/d.cnki.gqhzy.2020.000541.
[32]刘赛虎 , 珠杰 . 多注意力机制的藏汉机器翻译方法研究 [J]. 电脑知识与技
术,2021,17(10):4-7.DOI:10.14004/j.cnki.ckt.2021.1017.
[33]头旦才让 . 汉藏神经机器翻译关键技术研究 [D]. 西藏大学 , 2021.
DOI:10.27735/d.cnki.gxzdx.2021.000008.
[34]Yngve V H. A framework for syntactic translation[J]. Readings in machine
translation, 2003: 39-44.
85
[35]Shannon C E , Weaver W , Wiener N . The Mathematical Theory of Communication[M].

1949.
[36]Keselj V. Speech and Language Processing Daniel Jurafsky and James H. Martin
(Stanford University and University of Colorado at Boulder) Pearson Prentice
Hall, 2009, xxxi+ 988 pp; hardbound, ISBN 978-0-13-187321-6 [J]. 2009.
[37]Katz S. Estimation of probabilities from sparse data for the language model
component of a speech recognizer[J]. IEEE transactions on acoustics, speech,
and signal processing, 1987, 35(3): 400-401.
[38]Marcu D, Wong D. A phrase-based, joint probability model for statistical machine
translation[C]. Proceedings of the 2002 Conference on Empirical Methods in
Natural Language Processing (EMNLP 2002). 2002: 133-139.
[39]Och F J, Ney H. A systematic comparison of various statistical alignment
models[J]. Computational linguistics, 2003, 29(1): 19-51.
[40]Och F J, Ney H. Discriminative training and maximum entropy models for
statistical machine translation[C]. Proceedings of the 40th Annual meeting of
the Association for Computational Linguistics. 2002: 295-302.
[41]Chiang D. A hierarchical phrase-based model for statistical machine
translation[C]. Proceedings of the 43rd annual meeting of the association for
computational linguistics (acl’05). 2005: 263-270.
[42]Rosenfeld R. Two decades of statistical language modeling: Where do we go from
here?[J]. Proceedings of the IEEE, 2000, 88(8): 1270-1278.
[43]Heafield K. KenLM: Faster and smaller language model queries[C]. Proceedings
of the sixth workshop on statistical machine translation. 2011: 187-197.
[44]Bengio Y, Ducharme R, Vincent P. A neural probabilistic language model[J].
Advances in Neural Information Processing Systems, 2000, 13.
[45]Mnih A, Teh Y W. A fast and simple algorithm for training neural probabilistic
language models[J]. arXiv preprint arXiv:1206.6426, 2012.
[46]Schwenk H. Continuous space language models[J]. Computer Speech & Language, 2007,
21(3): 492-518.
[47]Vaswani A, Zhao Y, Fossum V, et al. Decoding with large-scale neural language
models improves translation[C]. Proceedings of the 2013 conference on empirical
methods in natural language processing. 2013: 1387-1392.
[48]Luong M T, Kayser M, Manning C D. Deep neural language models for machine
translation[C]. Proceedings of the Nineteenth Conference on Computational
Natural Language Learning. 2015: 305-309
[49]Schwenk H. Continuous space translation models for phrase-based statistical
machine translation[C]. Proceedings of COLING 2012: Posters. 2012: 1071-1080.
[50]Son L H, Allauzen A, Yvon F. Continuous space translation models with neural
86
networks[C]. Conference of the North American Chapter of the Association for

Computational Linguistics: Human Language Technologies. 2012.
[51]Auli M, Galley M, Quirk C, et al. Joint language and translation modeling with
recurrent neural networks[C]. Proc. of EMNLP. 2013.
[52]Devlin J, Zbib R, Huang Z, et al. Fast and robust neural network joint models
for statistical machine translation[C]. proceedings of the 52nd annual meeting
of the Association for Computational Linguistics (Volume 1: Long Papers). 2014:
1370-1380.
[53]Elman J L . Finding Structure in Time[J]. Cognitive Science, 1990,
14(2):179-211.
[54]Mikolov T, Zweig G. Context dependent recurrent neural network language model[C].
2012 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2012: 234-239.
[55]Yoshua Bengio, Patrice Simard, and Paolo Frasconi. 1994. Learning long-term
dependencies with gradient descent is difficult[J]. IEEE Transactions on Neural
Networks 5(2):157–166.
[56]Graves A, Wayne G, Danihelka I. Neural turing machines[J]. arXiv preprint
arXiv:1410.5401, 2014.
[57]Chen M X, Firat O, Bapna A, et al. The best of both worlds: Combining recent
advances in neural machine translation[J]. arXiv preprint arXiv:1804.09849,
2018.
[58]Tang G, Müller M, Rios A, et al. Why self-attention? a targeted evaluation of
neural machine translation architectures[J]. arXiv preprint arXiv:1808.08946,
2018.
[59]Graves A. Generating sequences with recurrent neural networks[J].
arXiv preprint arXiv:1308.0850, 2013.
[60]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C].
Proceedings of the IEEE conference on computer vision and pattern recognition.
2016: 770-778.
[61]Ba J L, Kiros J R, Hinton G E. Layer normalization[J]. arXiv preprint
arXiv:1607.06450, 2016.
[62]Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: a simple way to prevent
neural networks from overfitting[J]. The journal of machine learning research,
2014, 15(1): 1929-1958.
[63]Wu Y, Schuster M, Chen Z, et al. Google's neural machine translation system:
Bridging the gap between human and machine translation[J]. arXiv preprint
arXiv:1609.08144, 2016.
[64]周强. 基于深度学习与主题模型的问句相似度计算[D]. 北京理工大学, 硕士学位论
文,2016.
87
[65]殷耀明, 张东站. 基于关系向量模型的句子相似度计算[J]. 计算机工程与应用, 2014,

50(2):198-203.
[66]李彬,刘挺,秦兵,李生. 基于语义依存的汉语句子相似度计算[J]. 计算机应用研究,
2003(12):15-17.
[67]安见才让．藏语句子相似度算法的研究[J]．中文信息学报, 2011,25(4):2-6.
[68]Salton G and Chris B.Term Weighting Approaches in Automatic Text. Retrieval
Information Processing and Management, 1988, 24{5):513-523.
[69]刘敏. 基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用[D]. 北京理
工大学, 硕士学位论文, 2015.
[70]李峰, 侯加英, 曾荣仁,等. 融合词向量的多特征句子相似度计算方法研究[J]. 计算
机科学与探索, 2017, 11(4):608-618.
[71]严春梅. 向量空间模型与语义理解相结合的论文相似度算法研究[D]. 西南交通大学,
硕士学位论文, 2015.
[72]周舫. 汉语句子相似度计算方法及其应用的研究[D]. 河南大学, 硕士学位论文,
2005.
[73]邬明强．基于分段融合的藏文文本相似度计算方法研究[D]．西北民族大学, 硕士学位
论文, 2016.
[74]陈夕林. 融合多特征的藏文句子相似度计算方法[D].青海师范大学,2021.
[75]黄河燕,陈肇雄.基于多策略的交互式智能辅助翻译平台总体设计[J].计算机研究与发
展, 2004, 41(7): 1266-1272.
[76]陈群秀. 计算机辅助翻译系统漫谈 [C][J]. 中国中文信息学会. 民族语言文字信
息技术研究——第十一届全国民族语言文字信息学术研讨会论文集.中国中文信息学会
民族语言文字信息专委会, 2007.
[77]Sadler V, Vendelmans R. Pilot implementation of a bilingual knowledge bank[C].
Proceedings of the 13th conference on mputational linguistics-Volume 3.
Association for Computational Linguistics, 1990: 449-451.
[78]Nirenburg S, Domashnev C, Grannes D J. Two approaches to matching in
example-based machine translation[C]. Proc. of the 5th International
Conference on Theoretical and Methodological Issues in Machine
Translation (TMI-93). 1993: 47-57.
[79]Sumita E, Tsutsumi Y. A translation aid system using flexible
text retrieval based on syntax-matching[C]. Proceedings of The
Second International Conference on Theoretical and Methodological
Issues in Machine Translation of NaturalLanguages. 1988.
[80]Sato S. CTM: An example-based translation aid system[C]. Proceedings of the 14th
conference on Computational linguistics-Volume 4. Association for
Computational Linguistics, 1992: 1259-1263.
[81]Furuse O, Iida H. Cooperation between transfer and analysis in
88
example-based framework[C]. Proceedings of the 14th conference on Computational

linguistics-Volume 2. Association for Computational Linguistics, 1992:
645-651.
[82]孙吉明.面向专利领域的计算机辅助翻译工具与实现[D].上海：复旦大学，2007.
[83]陈正钊.面向动态海量语料库的实时检索算法研究[D].北京：北京理工大学，2014
[84]官却多杰. 汉藏辅助翻译研究与实现[D].西藏大学,2011.
[85]熊维 , 吴健 , 刘汇丹 , 张立强 . 基于短语串实例的汉藏辅助翻译 [J]. 中文信息学
报,2013,27(03):84-90.
[86]Kusner M J, Sun Y, Kolkin N I, et al. From word embeddings to document
distances[C]. International Conference on International Conference on Machine
Learning. JMLR.org, 2015:957-966.
[87]Le Q, Mikolov T. Distributed representations of sentences and documents[J]. 2014,
4:II-1188.
[88]Hinton G E. Learning distributed representations of concepts[C]. Proceedings
of the eighth annual conference of the cognitive science society. 1986, 1: 12.
[89]Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations
in vector space[EB/OL]. [2015-10-15]. http:. arxiv.org/pdf/1301.3781v3.pdf.
[90]Bahadori M T, Liu Y, Zhang D. A general framework for scalable transductive
transfer learning[J]. Knowledge and information systems, 2014, 38(1): 61-83.
[91]Farajidavar N, Campos T, Kittler J. Transductive transfer machine[C]. Asian
Conference on Computer Vision. Springer, Cham, 2014: 623-639.
[92]Moon S, Carbonell J G. Completely Heterogeneous Transfer Learning with
Attention-What And What Not To Transfer[C]. IJCAI. 2017, 1(1): 1.2.
[93]Philipp Koehn and Rebecca Knowles. Six challenges for neural machine translation.
In Proceedings of the First Workshop on Neural Machine Translation, pages 28–
39, Vancouver, August 2017. Association for Computational Linguistics. URL
http:. www.aclweb.org/anthology/W17-3204. A Survey Of Cross-lingual Word
Embedding Models[J]
[94]李亚超,熊德意,张民,等. 藏汉神经网络机器翻译研究[J]. 中文信息学报, 2017,
31(6): 103-109.
[95]Zoph B , Yuret D , May J , et al. Transfer Learning for Low-Resource Neural Machine
Translation[J]. 2016.
[96]Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[J].
arXiv preprint arXiv:1503.02531, 2015, 2(7).
[97]Torrey L, Shavlik J. Transfer learning[M]. Handbook of research on machine
learning applications and trends: algorithms, methods, and techniques. IGI
global, 2010: 242-264.
[98]Shimodaira H. Improving predictive inference under covariate shift by weighting
89
the log-likelihood function[J]. Journal of statistical planning and inference,

2000, 90(2): 227-244..
[99]文佳胜. 基于机器学习的少数民族语言翻译关键技术研究与实现[D].电子科技大
学,2016.
[100] Philipp Koehn and Rebecca Knowles. Six challenges for neural
machine translation. In Proceedings of the First Workshop on Neural Machine
Translation, pages 28 – 39, Vancouver, August 2017. Association for
Computational Linguistics.
[101] Jianfeng Gao and Min Zhang. Improving language model size
reduction using better pruning criteria. In Proceedings of the 40th Annual
Meeting on Association for Computational Linguistics, pages 176–182.
Association for Computational Linguistics, 2002.
[102] Almut Silja Hildebrand, Matthias Eck, Stephan Vogel, and Alex
Waibel. Adaptation of the translation model for statistical machine
translation based on information retrieval. In Proceedings of EAMT,
volume 2005, pages 133–142, 2005.
[103] Minh-Thang Luong and Christopher D. Manning. Achieving open
vocabulary neural machine translation with hybrid word-character models. In
Proceedings of the 54th Annual Meeting of the Association for
Computational Linguistics (Volume 1: Long Papers), pages 1054–1063,
Berlin, Germany, August 2016. Association for Computational Linguistics.
doi: 10.18653/v1/P16-1100.
[104] Chenhui Chu and Rui Wang. A survey of domain adaptation for neural machine
translation. In Proceedings of the 27th International Conference on
Computational Linguistics, pages 1304 – 1319, Santa Fe, New Mexico,
USA, August 2018. Association for Computational Linguistics.
[105] Markus Freitag and Yaser Al-Onaizan. Fast domain adaptation for neural
machine translation. arXiv preprint arXiv:1612.06897, 2016.
[106] Chenhui Chu, Raj Dabre, and Sadao Kurohashi. An empirical
comparison of domain adaptation methods for neural machine translation. In
Proceedings of the 55th Annual Meeting of the Association for Computational
Linguistics (Volume 2: Short Papers), pages 385–391, Vancouver, Canada, July
2017. Association for Computational Linguistics. doi: 10.18653/v1/P17-2061
[107] 杨驰 & 杨宪泽.(2020).汉英机器翻译兼类词与多义词处理探析. 西南民族大学学
报(自然科学版)(06),619-622. doi:CNKI:SUN:XNMZ.0.2020-06-011.
[108] 才让加.(2011).藏语语料库词类描述方法研究. 计算机工程与应用(04),146-148.
doi:CNKI:11-2127/TP.20110124.1421.038.
[109] 华却才让,刘群 & 赵海兴.(2014).判别式藏语文本词性标注研究. 中文信息学报
(02),56-60. doi:CNKI:SUN:MESS.0.2014-02-009.
90
[110] Och F J, Gildea D, Khudanpur S, et al. A smorgasbord of features for

statistical machine translation[C]. Proceedings of the Human Language
Technology Conference of the North American Chapter of the Association for
Computational Linguistics: HLT-NAACL 2004. 2004: 161-168.
[111] 拉姆措.(2017).面向信息处理的藏文一词多义分析研究(硕士学位论文,西南民族
大学).
[112] Brown, P. F. , Pietra, S. , Pietra, V. , & Mercer, R. L. . (1993). The
mathematics of statistical machine translation: parameter estimation.
Computational Linguistics, 19(2), 263-311.
[113] Marcu, F. . (2003). Statistical phrase-based translation. Proc. HLT-NAACL,
2003.
[114] Chiang, & David. (2007). Hierarchical phrase-based translation.
Computational Linguistics, 33(2), 201-228.
[115] Papineni, K. , Roukos, S. , Ward, T. , & Zhu, W. J. . (2002). BLEU: a
Method for Automatic Evaluation of Machine Translation.
[116] Sennrich, R. , Haddow, B. , & Birch, A. . (2016). Neural Machine
Translation of Rare Words with Subword Units. Proceedings of the 54th Annual
Meeting of the Association for Computational Linguistics (Volume 1: Long
Papers).
[117] Bugliarello, E. , & Okazaki, N. . (2020). Enhancing Machine Translation
with Dependency-Aware Self-Attention. Proceedings of the 58th Annual Meeting
of the Association for Computational Linguistics.
[118] Xing, S. , Padhi, I. , & Knight, K. . (2016). Does String-Based Neural
MT Learn Source Syntax?. Proceedings of the 2016 Conference on Empirical Methods
in Natural Language Processing.
[119] Cettolo M, Girardi C, Federico M. Wit3: Web inventory of transcribed and
translated talks[C]. Conference of european association for machine translation.
2012: 261-268.
[120] Tu Z, Lu Z, Liu Y, et al. Modeling coverage for neural machine translation[J].
arXiv preprint arXiv:1601.04811, 2016.
[121] Lopez A. Statistical machine translation[J]. ACM Computing Surveys (CSUR),
2008, 40(3): 1-49.
[122] Vogel S, Ney H, Tillmann C. HMM-based word alignment in statistical
translation[C]. COLING 1996 Volume 2: The 16th International Conference on
Computational Linguistics. 1996.
[123] 刘洋. 树到串统计翻译模型研究[D]. 中国科学院计算技术研究所.
[124] Mnih V, Heess N, Graves A. Recurrent models of visual attention[J]. Advances
in neural information processing systems, 2014, 27.
91
[125] Chorowski J, Bahdanau D, Cho K, et al. End-to-end continuous speech

recognition using attention-based recurrent NN: First results[J]. arXiv
preprint arXiv:1412.1602, 2014.
[126] Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption
generation with visual attention[C]. International conference on machine
learning. PMLR, 2015: 2048-2057.
[127] Garg S, Peitz S, Nallasamy U, et al. Jointly learning to align and translate
with transformer models[J]. arXiv preprint arXiv:1909.02074, 2019.
92
附录 1 图目录
图 1-1 历年中文机器翻译论文发表情况 ........................................... 5
图 1-2 历年藏文机器翻译论文发表情况 ........................................... 6
图 1-3 论文主要研究内容及贡献 ................................................. 7

[34]
图 2-1 规则机器翻译框架 .................................................... 12
图 2-2 藏汉规则机器翻译方法 .................................................. 13
图 2-3 统计机器翻译原理——噪声信道模型 ...................................... 13
图 2-4 基于语料库的机器翻译方法 .............................................. 14
图 2-5 基于单词的对齐........................................................ 14
图 2-6 基于短语的机器翻译 .................................................... 15
图 2-7 编码器-解码器框架 ..................................................... 16
图 2-8 循环神经网络.......................................................... 18
图 2-9 循环语言模型.......................................................... 18
图 2-10 长短期记忆模型 Long Short-Term Memory (LSTM) ......................... 19
图 2-11 注意机制中涉及的详细计算 ............................................. 21

[12]
图 2-12 Transformer 模型架构 ............................................... 22
图 3-1 基于词向量的藏文句子相似度计算方法技术路线 ............................ 25
图 3-2 藏汉计算机辅助翻译系统工作流程 ........................................ 26
图 3-3 CBOW 模型与 Skip-gram 模型示意图 ....................................... 31
图 4-1 藏汉神经机器翻译领域自适应方法技术路线 ................................ 41
图 4-2 传统机器学习模型示意 .................................................. 42
图 4-3 迁移学习模型示意...................................................... 42
图 4-4 迁移学习在自然语言处理中分类 .......................................... 45
图 4-5 基于微调的藏汉领域自适应方法示意图 .................................... 47
图 4-6 基于混合微调的藏汉领域自适应方法示意图 ................................ 48
图 5-1 融合藏文词性标注的藏汉神经机器翻译技术路线 ............................ 55
图 5-2 藏文字符拼写结构示例 .................................................. 56
图 5-3 融合藏文词性标注 Transformer 架构 ...................................... 59
93
图 5-4 藏文词性标注向量的不同融合方式 ........................................ 60
图 6-1 融合统计方法的藏汉神经机器翻译流程 .................................... 66
图 6-2 英法翻译对............................................................ 67
图 6-3 生成第 t 个目标词 yt 的建议模型 ......................................... 72

[12]
图 6-4 缩放点乘积注意力 .................................................... 73
94
附录 2 表格目录
表 3-1 One-hot 词表 ..................................................................................................................................... 29
表 3-2 词的余弦距离 ..................................................................................................................................... 30
表 3-3 部分藏文纯连词及其关联作用 ..................................................................................................... 32
表 3-4 训练生成的部分藏文词向量 .......................................................................................................... 36
表 3-5 藏文词汇相似度测试结果 .............................................................................................................. 36
表 3-6 一组同义句语料 ................................................................................................................................. 37
表 3-7 藏文句向量示例 ................................................................................................................................. 37
表 3-8 基于词向量和欧几里得距离的相似度计算（skip-gram 模型） ...................................... 38
表 3-9 基于词向量的 Jaccard 相似度计算（skip-gram 模型） .................................................... 38
表 3-10 不同方法计算相似度准确率对比 .............................................................................................. 39
表 4-1 处理后语料示例 ................................................................................................................................. 49
表 4-2 训练参数............................................................................................................................................... 50
表 4-3 通用模型在不同测试集上的表现................................................................................................. 50
表 4-4 政府公文翻译模型在不同测试集上的表现 .............................................................................. 51
表 4-5 政府公文翻译模型与通用模型在政府公文测试集翻译示例 .............................................. 51
表 4-6 自然科学翻译模型在不同测试集上表现 ................................................................................... 52
表 4-7 自然科学翻译模型与通用模型在自然科学测试集翻译示例 ............................................... 52
表 5-1 信息处理用藏语词类标记集 .......................................................................................................... 56
表 5-2 藏文中的一词多义现象示例 .......................................................................................................... 58
表 5-3 分词标注的藏文句子........................................................................................................................ 61
表 5-4 提取词性特征文件 ............................................................................................................................ 61
表 5-5 共用训练参数 ..................................................................................................................................... 62
表 5-6 连接方式特征嵌入训练参数 .......................................................................................................... 62
表 5-7 合并方式特征嵌入训练参数 .......................................................................................................... 63
表 5-8 词性标签输入前后模型的表现 ..................................................................................................... 63
表 6-1 藏到汉、汉到藏的单向对齐的文件示例 ................................................................................... 76
表 6-2 藏到汉、汉到藏的单向对齐提取................................................................................................. 77
95
表 6-3 藏汉词对齐示例 ................................................................................................................................. 77
表 6-4 训练参数............................................................................................................................................... 78
表 6-5 模型表现............................................................................................................................................... 79
表 6-6 翻译结果对比 ..................................................................................................................................... 79
表 6-7 翻译结果中未登录词统计 .............................................................................................................. 80
96
攻读博士学位期间的研究成果
1. 发表的学术论文
[1] Maoxian Z, Jiacuo C, Rangjia C. Tibetan Sentence Similarity Evaluation

Based on Vectorized Representation Techniques[C]. Chinese Lexical
Semantics: 20th Workshop, CLSW 2019, Beijing, China, June 28–30, 2019,
Revised Selected Papers. Springer Nature, 2020, 11831: 466.
[2] Maoxian Zhou, Secha J, Cai R. Domain Adaptation for Tibetan-Chinese
Neural Machine Translation[C]. International Conference on
Algorithms, Computing and Artificial Intelligence（EI）. 2020: 1-5.
[3] Maoxian Zhou, Secha J, Cai R. Research on Tibetan-Chinese Neural
Machine Translation Integrating Syntactic Information[C].
International Conference on Advanced Information Science and System
（EI）. 2021: 1-4.
[4] 慈祯嘉措,桑杰端珠,孙茂松,色差甲,周毛先.融合单语语言模型的藏汉机器
翻译方法研究[J].中文信息学报,2019,33(12):61-66.
[5] 慈祯嘉措,桑杰端珠,孙茂松,周毛先,色差甲.基于迭代式回译策略的藏汉机
器翻译方法研究[J].中文信息学报,2020,34(11):67-73+83.
2. 参加的有关科研项目
[1] 青海省科技厅项目:《农牧业汉藏双语信息化主动服务体系建设》，批准号：
2015-SF-520，参与.
[2] 国家自然科学基金：《基于融合策略的汉藏机器翻译关键技术研究》，批准
号:61662061，参与.
3. 科研成果及奖励
[1] 周毛先,柔特,才让加.《藏文语料乱码过滤软件》，软件著作权，登记号：
2019SR0103230，颁发单位：中华人民共和国国家版权局，颁发日期：2019
年 1 月 29 日.
[2] 柔特,周毛先,三知加才让加.《藏文句子分类软件》，软件著作权，登记号：
2019SR0111603，颁发单位：中华人民共和国国家版权局，颁发日期： 2019
年 1 月 30 日.
97
[3] 青海省科学技术成果证书，
《农牧业汉藏双语信息化主动服务体系建设》，登
记号：9632019Y0037，颁发单位：青海省科学技术厅，发证时间：2019 年 3
月，排名 7/15.
[4] 青海省科学技术成果证书，
《互联网藏语文本信息处理关键技术研究》，登记
号：9632021Y00686, 颁发单位：青海省科学技术厅,发证时间：2021 年 11
月，排名 10/15
[5] 青海省科学成果奖创新驱动奖.藏汉机器翻译关键技术及应用创新团队.颁
发日期：2021.1.颁发单位：中共青海省委,青海省人民政府.周毛先：团队
核心成员之一.
98
致谢
学位论文相关研究工作得到国家自然科学基金《基于融合策略的汉藏机器翻
译关键技术研究》（编号：61662061）支持。
值此学位论文完成之际，向所有帮助、支持我的人们表示衷心的感谢！
在读博的这些年，在生活、学业、事业上经历了许多，获得了成长，也积累
了经验，这将成为我未来人生的宝贵财富。
特别要感谢我的导师才让加教授，在读博期间，导师在科研中给予细心的指
导和全面的支持，让我能够安心学习；在我失去信心的时候一直给予鼓励，让我
恢复信心和动力。每周一次的组会给了大家交流学习的机会，也增进了整个实验
室团队的凝聚力，让我们拥有了良好的学习氛围；导师更是在平日里以身作则，
几乎每天都是最早到实验室。在导师的影响下，大家做好科研时间安排，一起阅
读并分享了大量国内外文献，取得了许多成果。
感谢青海师范大学计算机学院所有领导和老师在读博期间对我的帮助和支
持。感谢实验室的柔特老师、卓玛措老师、慈祯嘉措、桑杰端珠、色差甲、华果
才让、三知加、贡去卓么、张瑞、杨毛加等所有人在学习和生活上给予的帮助和
支持，让我感受到实验室这个大家庭的温暖。
最后要感谢我的家人，感谢我的父母对我学习生活上无微不至的悉心照顾，
感谢妹妹给予的力量，感谢姥姥温暖的陪伴，是你们在背后一直默默的支持，让
我不断走下去。
99

融合先验知识的藏汉神经机器翻译研究 周毛先

Uploaded by

Copyright:

Available Formats

You might also like

融合先验知识的藏汉神经机器翻译研究 周毛先

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

融合先验知识的藏汉神经机器翻译研究 周毛先

Uploaded by

Copyright:

Available Formats

分类号 TP391 密级 公开

UDC 004 学号 20160614001

论文提交日期 2022 年 5 月 论文答辩日期 2022 年 5 月 21 日

学位授予单位 青海师范大学 学位授予日期 2022 年 6 月

With the gradual popularization and deepening of the application of computer

1. Study on Tibetan Sentence Similarity Evaluation Based on Vectorized

2. Research on Domain Adaptation for Tibetan-Chinese Neural machine

3. Research on Tibetan-Chinese Neural Machine Translation Based on

4. Research on Tibetan-Chinese Neural Machine Translation Combined with

To sum up, this thesis attempts to solve some existing problems in

Key words: Tibetan - Chinese Machine Translation, Prior

Abstract ................................................................................................................ III

根据“民族语：全世界的语言”（Ethnologue: Languages of the World） 1

机器翻译属于人工智能中自然语言处理（Natural Language Processing,

1986 年深度学习这个概念第一次被 Hinton 提出，这是一种基于数据的机器

预训练方面引入了一种新的语言表示模型 BERT，BERT 是基于 Transformer

器翻译系统”翻译准确率平均达 75%；2018 年由中国民族语文翻译局和东北大学

从研究文献数量看，由图 1-1、图 1-2 可知，目前根据知网公开可查的信息，

训练过程中，从而提高藏汉机器翻译质量。本文主要研究内容如图 1-3 所示，具

特征，在 Transformer 注意力机制的编码器-解码器体系结构中泛化了编码器的

最初的统计机器翻译思想来自于 1947 年 Shannon 等人提出的噪声信道模型

语言模型 t 翻译模型 s 解码器 t’

以藏汉机器翻译为例，t 代表目标语言句子，如汉文，s 代表源语言句子，

源句子 ང དགེ་�ན ཡིན །

在上面的公式中，每一个单独的项 p(yi|y<i)是当前单词 yi 给定之前单词 y<i

ht = f(xt , ht−1 ) (2-2)

在上面的公式中，f 是一个抽象函数，在给定当前输入 xt 和之前的隐藏状态

hz = σ(wxh x−L + whh ht−1 ) (2-3)

在每个时间步长 t 时，RNN 可以发出一个输出符号 yt，它可以是离散的，也

pt = soft max(st ) (2-5)

softmax 函数将得分向量 st 转换为概率向量 pt，每个特定元素 y∈ Y 的定义

根据上面的公式定义了 RNN 的权重集，它由输入连接 Wxh，循环连接 whh 和输

循环语言模型作为 RNN 的一种特殊情况，假设输入和输出序列由离散符号

将 RNN 应用于语言中的句子，或离散符号序列，可以考虑单词的 one-hot

长短期记忆（Long short-term memory, LSTM）是一种改进的 RNN，主要为

图 2-10 长短期记忆模型 Long Short-Term Memory (LSTM)

LSTM 的关键在于图 2-10 顶部的穿过的水平线，用于表示单元状态，如同一

注意力机制的引入是 NMT 体系结构研究的一个里程碑。注意力网络根据查询

Attention(Q, K, V) = softmax(R)·V (2-8)

Transformer 是 Google 于 2017 在 Attention is all you need 这篇论

MultiHead(Q, K, V) = Concat(head1 , … , headh )w o (2-10)

基于欧氏距离的相似度 基于 Jaccard 相似度

本章技术路线如图 3-1 所示，使用的先验知识为通过藏语单语语料库生成的

藏文辅助机器翻译研究目前有 2011 年文献[83]提出了汉藏辅助翻译藏文预处

v(king) − v(man) + v(woman) ≈ v(queen) (3-1)

换句话说，将单词 king 和 woman 的向量相加，同时减去单词 man，应该接

Word2vec 工具主要包括 CBOW（continuous bag of word）模型和 Skip-gram

图 3-3 CBOW 模型与 Skip-gram 模型示意图

欧氏度量（euclidean metric）是关于距离的定义，衡量 m 维空间中两点间

n 维欧氏空间是一个点集,它的每个点 X 或向量 x 可以表示为 (x[1]，x[2]，…，

ρ(A, B) = �∑(a[i] − b[i])2 , (i = 1,2, … , n) (3-3)

其中Dis(sA ⋅ sB )距离越短，藏文句子 sA 和 sB 的相似度越大；距离越长，相似

3.3.2 基于词向量和 Jaccard 相似度的藏文句子相似度计算

同样的，对于一个给定的藏文句子 s=s1s2s3,...,sn，由 n 个藏文词组成，其

接下来藏文句子相似度采用 Jaccard 相似度计算。其定义如下，对集合 A 和 B，

Jaccard(A, B) = |AintersectB|/|AunionB| (3-6)

相似度数值在[0, 1]之间取值，当 A=B 的时，相似度为 1。Jaccard 相似度

Jaccard distance(A, B) = 1 − Jaccard(A, B) (3-7)

融合先验知识的藏汉神经机器翻译研究周毛先

融合先验知识的藏汉神经机器翻译研究周毛先

融合先验知识的藏汉神经机器翻译研究周毛先

分类号 TP391 密级公开

论文提交日期 2022 年 5 月论文答辩日期 2022 年 5 月 21 日

学位授予单位青海师范大学学位授予日期 2022 年 6 月

基于欧氏距离的相似度基于 Jaccard 相似度

藏汉政府公文语料库藏汉通用翻译模型藏汉自然科学语料库

自然语言处理计算机视觉语音处理

测试集微调 BLEU 混合微调 BLEU

测试集微调 BLEU 混合微调 BLEU

藏文多义词词性释义藏文例句汉文译文

藏文词向量藏文词性向量编码器端输入向量