Professional Documents
Culture Documents
机器翻译研究综述 高璐璐
机器翻译研究综述 高璐璐
机器翻译研究综述 高璐璐
机器翻译研究综述①
摘 要:机器翻译历经几十年的发展变化,从“机械大脑”到基于规则的机器翻译、基
于实例的机器翻译、基于统计的机器翻译和基于深度学习的神经网络机器翻
译,在技术上不断推陈出新,算法上不断优化升级。机器翻译在不同的发展阶
段呈现出不同的特点,厘清机器翻译系统各阶段的技术内涵与特征、发展状
况、优势及局限,反思机器翻译发展面临的机遇与挑战,在机器翻译系统快速
发展的现阶段显得尤为必要。
主题词:机器翻译;技术;挑战
机器翻译作为计算机技术应用历史最悠 出版的《通讯的数学原理》一书中,将思想
久的领域之一,由于涉及多类学科研究,从诞 的交流看作“编码—解码”过程。We a v e r在
生之日起就得到了语言学家、哲学家、心理学 1949年首次提出了使用计算机进行翻译的思
家、科学家、工程师等不同领域学者的关注 想,提出了避免出现“字对字”翻译的四条具
(Cheragui,2012)。在70年的发展历程里, 体原则:语境对词汇意义的影响、语言的逻辑
机器翻译经历了从兴起到高峰,从低迷到打开 性与推理性、翻译过程与解码过程以及语言的
新的研究思路,印证了其较强的行业应用及学 普遍性特点。(同上)在Weaver的启示下,机
术研究价值。 器翻译研究得以兴起并快速发展。麻省理工学
院的博士后研究学者,以色列著名哲学家、语
1 机器翻译发展历史 言学家和数学家Bar-Hillel于1952年组织召开了
第一次机器翻译大会,之后美国的乔治敦大学、
机器翻译的雏形在计算机技术真正诞生前 华盛顿大学、国际商业机器学习(IBM)也积极
就已存在。在20世纪30年代,“机械大脑” 展开有关机器翻译的研究。英国剑桥大学、苏联
通过物理的方式寻找到源语词汇与目标语中该 列宁格勒大学以及法国、日本、中国等国家也
词汇的意义。苏联Smirnov-Trokanskij教授设 相继投入到机器翻译的研究中。
计的“辅助翻译工作场”通过利用类似的机械 早期机器翻译研究得以快速发展一是
化物理原理,首先在词汇层面完成意义翻译, 由于研究领域的新颖与跨学科性,二是出于
作者简介:高璐
然后由人工进行校对并组织成句篇。二战后计 不同国家对机器翻译研究的实际需求。美国
算机的发明使得最初的机械方法得以进一步改 与苏联在经济上的竞争、欧盟成员国之间的 璐,东北大学外国
进。伦敦大学研究人员Andrew Booth通过设 有效合作、日本与中国对发达国家的技术学 语学院副教授,研
计、增加搜索算法,使得之前的机械方法更有 习,都极大地推动了这一时期机器翻译研究 究 方 向 : 翻 译 、
效率。机器翻译研究真正开始于19世纪40年代 的蓬勃发展。 科技哲学、认知
末,始于自然语言处理之父Warren Weaver。 哲学,E-m a i l:
(Poibeau,2017) 1.2 机器翻译发展停滞期(1960—1967) mercury7989@163.
1950年到1960年期间的机器翻译研究主 com。赵雯,暨南
1.1 机器翻译的产生与初步发展(1949— 要针对理论语言学中的句法分析,建立起了多 大学外国语学院教
1960) 种基于句法分析的机器翻译模型。机器翻译的 授,研究方向:应
Warren Weaver将翻译过程看成一种“解 快速发展带动了美国、苏联、欧洲和中国的相 用语言学、科技哲
码”过程。1949年Weaver与Shannon在合作 关研究,中国科学院在这一时期成立了机器翻 学、认知哲学。
97
译研究小组,主要进行中文和俄语的机器翻译 70年代中期,Vauquois将之前应用的翻译系统
研究(Hutchins, 2010)。机器翻译在20世纪 进行了一定程度的改造,来完成更多类型的俄
50年代的蓬勃发展使人们得以有更多机会审视 法文本互译。欧盟由于成员国众多,语言不统
机器翻译技术。20世纪50年代末60年代初, 一,因而也有发展机器翻译的实际需求。欧盟
研究者们发现机器翻译产出的译文质量良莠不 与诞生于美国的第一个商业机器翻译系统开发
齐,难以达到预期要求,因而对机器翻译发展 商Systran合作,进行欧盟成员国语言间的机器
的可行性提出了质疑。1958年,Bar-Hillel列出 自动翻译。
了机器翻译在翻译过程中难以解决的几类语言
基本问题,指出机器翻译系统面临着难以逾越 1.4 机器翻译发展新浪潮(1990至今)
的语义屏障。Bar-Hillel认为,机器翻译最大的 从1990年开始,大量的双语、多语语料
屏障就是语义歧义问题。语言中语义的多样性 应运而生。20世纪80年代末90年代初,IBM研
要求机器翻译必须拥有一套能够充分对语言结 究人员先后对机器翻译的新动态发表论文,详
构与语义问题进行分析的语法、句法系统。而 细论述了传统的基于词典和转换规则的机器翻
当时应用的转换法则与句法分析模型显然不能 译方法和基于平行语料库的实例机器翻译方法
解决各种复杂的语言问题。因此,他建议将自 (同上)。这些研究论文为机器翻译理论的夯
动机器翻译修改为机器辅助翻译,在译前和译 实与拓展、新方法和规则的实践与形成起到了
后阶段为译者提供必要的辅助。(Bar-Hillel, 重要的启示与推动作用。
1958;1959) 芬兰在1990年召开了国际计算语言学大
对机器翻译的质疑直接催生了语言自动 会。辛顿评价为,这次会议开启了基于大规模
处理咨询委员会(The Automatic Language 平行语料库的统计机器翻译时代(H i n t o n e t
Processing Advisory Committee, ALPAC)的 al., 2012)。基于语料库的统计机器翻译通过
建立。ALPAC成立的主要目的就是对机器翻译 在平行文本中词对齐、短语对齐、句子对齐的
发展及资助情况作出评估。1966年,A L PA C 方式自动构造机器翻译模型。近些年,基于
发表的报告指出,机器翻译由于需要建立规则 “深度学习”的神经机器翻译系统产生并快速
算法及模型设置,译文质量的不尽如人意与可 发展。深度学习(deep learning)由Hinton等
观的经济投入显示出产出与投入的明显失衡。 人在2006年提出,现已成为机器学习领域发
A L PA C报告的发表使得机器翻译的主要资助 展最快的主流技术之一。由于深度学习是机器
基本停止,许多机器翻译研究相继停止。辛顿 进行的一种多层次非线性处理,与传统的浅层
认为, ALPAC报告具有一定的片面性与偏见 次线性处理相比,在处理模型分析和分类问题
性。首先,ALPAC由机器翻译研究的资助人召 上更准确,性能更高(H u t c h i n s,2010)。
集,势必更加关注机器翻译的经济效益,而较 模拟神经网络的深度学习技术能够使机器拥
少考虑其学术价值与研究发展的潜力。其次, 有自动学习抽象特征表达的能力,并且能够
A L PA C报告只是集中于研究英俄双语互译, 将学习结果灵活地应用到其他任务中,因而
得出的有关译文质量的结论并不全面。再次, 基于深度学习的机器翻译可以尽可能省去人
ALPAC报告没有更加全面、深入地研究与评估 工调配,而实现由机器自动推断最佳翻译结果
机器翻译背后复杂的哲学、语言学以及计算机 (Poibeau,2017)。
科学问题,因而结论的信用力与有效度有一定
不足。(Hinton et al., 2012)
2 机器翻译类型分析
1.3 机器翻译缓慢发展期(1967 — 1990) 机器翻译得以在二战后兴起、发展,主要
A L PA C报告的发表直接导致了机器翻译 得益于第一批计算机的发明与应用。同时,二
Vol.17 No.6 (General Serial No.98)
的应用投资及技术研究的大范围停滞。与此形 战中密码学的发展及人们对语言研究的关注使
成强烈反差的是,在加拿大、法国、欧盟等国 人们认识到,机器翻译可以被看作一种语言的
家和地区进行的机器翻译研究在具体应用领域 编码用另外一种语言进行解码的过程。Nagata
却表现突出。加拿大于1965年在蒙特利尔成立 等认为,任何翻译所面对的语言问题都可以归
Nov. 2020
了机器翻译研究中心,建立了TAUM机器翻译 结为词汇层面的词义问题与语法层面的结构问
系统,主要从事英法双语的机器翻译研究与实 题(Nagata et al., 2006)。词义问题主要包
践(Poibeau,2017)。法国的机器翻译研究 括一词多义、同形异义、词义模糊、词义歧义
F L C
集中在俄法技术类文本的互译,之后在20世纪 等,结构问题主要包括词形结构、句法结构、
98
中国外语
篇章结构等。此外,语言外问题(语言的情 这些挑战,基于实例的机器翻译通过字符串对
感、语气、背景知识等)也是影响翻译质量的 比、词汇对比、语言标志物对比及句法结构对
重要因素。翻译对于人类而言已然是综合、复 比提高翻译的准确率(同上)。字符串对比是
99
的搜索算法,使得目标语语言模型概率P(T) (杨南,2014)。其中,Nagata等(Nagata
*翻译概率P(S/T)的值最大。基于此公式, et al., 2006)提出了全局短语调序模型概念,
I B M在20世纪80年代后期开始,先后建立了5 将短语的序列关系分为四类:单调邻接关系
个翻译模型(IBM Models 1-5),对机器翻 (Monotone Adjacent, MA)、单调间隔关
译在词汇对齐层面进行算法开发。总体来说, 系(Monotone Gap, MG)、反向邻接关系
IBM通过三个步骤来实现词汇对齐:(1)根据 (Reverse Adjacent, RA)、和反向间隔关系
源语语言句子长度确定目标语语言句子长度; (Reverse Gap, RG)。此模型运用全局短语
(2)在源语语言句子层面与目标语语言句子 调序模型与n-best短语对齐来避免数据稀疏问
层面实现最佳句子对齐;(3)在词汇层面为 题,提高了译文的质量。
每个源语语言词汇找到唯一一个目标语语言词 2.3.3 基于句法统计的机器翻译
汇进行对应。 基于词对齐和短语对齐的机器翻译虽然得
在I B M模型基础上,其他研究者也对词 到了长足发展,但是由于翻译模型的建立并没
汇对齐的统计机器翻译做出了相应的改进。 有过多考虑到语言本身的语法、句法及其他的
Vogel等人基于IBM Model-2提出了对角线制导 复杂的语言综合知识,虽然有较大规模的数据
对齐模型和基于隐马尔可夫模型的对齐模型, 库做支撑,在处理语篇整体信息层面仍然存在
对角线制导对齐模型可以较好地解决小规模语 先天的缺陷。基于句法统计的机器翻译尝试通
料库对翻译结果的影响,基于隐马尔可夫模型 过加入句法分析系统,可以越过相邻的语言单
的对齐模型可以让对齐在总体上更为平滑 (杨 位去匹配更远位置的词或短语,通过利用转换
南,2014)。Toutanova等人对基于隐马尔可 法则和“语法树”原理,尝试从句法结构上进
夫模型的对齐模型也作出了改进,使得对齐准 行对等翻译,从整体层面考虑词或短语的逻辑
确率又有更高的提升 (袁小于,2011)。 依存关系。
2.3.2 基于短语对齐的机器翻译 基于句法统计的机器翻译主要有基于形
基于短语对齐的机器翻译兴起于20世纪90 式化语法的翻译模型和基于语言学语法的翻译
年代,这一方法的出现主要是为了突破基于词 模型。基于形式化语法的翻译模型在处理语言
对齐的机器翻译模型的局限。基于词对齐的翻 结构问题上更有优势,包括对较复杂的语法结
译模型将语言以概率化的计算形式呈现,没有 构的分析和对远距离词或短语重新排序的处理
考虑语境、语义及句法对翻译的影响。1990 等。基于形式化语法的翻译模型不考虑语言学
年以来,机器翻译模型的发展试图融入语言知 知识,也不受语言学知识的限制,由于利用了
识,应运而生了基于短语(词语序列)和基于 形式化语法的特征,使得翻译过程更为层次
句法的机器翻译模型。在基于短语对齐的机器 化、结构化。基于语言学语法的翻译模型兼顾
翻译模型中,“短语”的概念与语言学中的概 了形式化语法与语言学知识。语言学知识在机
念不同,机器翻译模型中的“短语”指的是 器翻译中以语言本身的结构和知识为体现,具
“词序列”(s e g m e n t),一组词序列可以 体包括使用“依存树”形式和“短语结构树”
是语义完整的短语,也可以不是语义完整的 形式对源语语言结构和目标语语言结构进行描
一组序列词。基于短语对齐的翻译模型研究 述。“依存树”更侧重对句子内部词与词之间
主要是关于短语(词序列)的抽取和打分, 关系的描述,更体现了对语义结构的关照;
短语的抽取可以在词对齐的基础上进行,也 “短语树”更侧重对句子各部分及整体结构的
可以根据其他信息抽取词序列对,不需要词 描述,更多体现了对句法结构的关照 (赵红
的对齐。 梅、刘群,2010;冯志伟,2015)。
基于短语对齐的机器翻译模型在最初只
分为两个层次:粗对齐模型和细对齐模型。粗 2.4 基于深度学习的神经机器翻译
Vol.17 No.6 (General Serial No.98)
对齐指源语和目标语首先在句子层面进行短 近几年,随着统计机器翻译的发展,一
语对齐,然后在短语内的词汇层面进行细对 种新的机器学习方式应运而生,由于这种新
齐。由于短语对齐需要更多的数据及模型训 的机器学习方式模拟人脑“多层(分层)学
练,且计算时间更长,所以之后的研究主要集 习”,以类似人脑神经对复杂信息进行“深层
Nov. 2020
中在数据库建设、模型训练、提高计算效率 处理”,因而在处理多层复杂信息方面更具优
和翻译质量等方面,陆续在模板整体框架的 势。基于词、短语、句法的统计机器翻译主要
泛化、模板局部与整体调序、联合概率的计 采用线性模型n-gram进行建模,对语料库中的
F L C
算及双语语块概念等方面进行了改进与研究 线性不可分问题应对不佳。此外,传统的基于
100
中国外语
统计的机器翻译在缺乏足够语料库的语言类型 的技术特点及优缺点明显。基于规则的机器翻
的翻译上和对复杂的语言现象及翻译规则的特 译实现了翻译的机器化,提出了机器翻译最基
例设定上都难有进展,加之较严重的数据稀疏 本的工作原理及运行模式,但由于词典及转换
3 机器翻译技术评析 完全破解的难题。以目前主流的机器翻译技术
神经网络模型为例,由于技术尚未能揭开人脑
纵观机器翻译发展历史,是各发展阶段 的奥秘,即使深度学习模型可以用来处理翻译
101
问题,仍然无人确切知晓这种模型究竟怎样模 人类最高级别认知与智能的行为失去其本质
拟了人脑的运作过程。 特征?从认知论层面上看,人类智能的本质
人类的智能是什么,具有怎样独特的特 是什么?心灵哲学认为,意向性是人类心智
点,在各个领域中,对此的研究与探讨经久不 最本质的特征,也是人工智能迄今无法逾越的
衰。从哲学上来说,人类智能指人类具有的认 语义屏障。目前的机器翻译技术仍然停留在句
知能力,即人类的思考与推理能力。从心理 法阶段,未能实现技术的完全语义化。换言
学上来看,莱斯勒认为,人类智能指人类展 之,人工智能目前仍然无法具有真正的语义
现出的若干种智慧与技能,包括逻辑分析判 性。信息论及数字通信之父香农认为,用于图
断、记忆、推理、具有及能够合理表达情感等 形识别、语言翻译、问题解决等领域的机器,
(Lexcellent,2019)。美国心理学家加德纳 一定是不同于数字计算的机器,这些机器必须
将人类智能描述为,在一定社会及文化环境中 要学会这些特定领域内的图形识别方法、概
具有的主动且有效解决问题、合理作出判断及 念问题、模糊信息辨认以及差异辨析等,这
决策的能力 (Gardner,1993)。加德纳列出 样的机器不会是基于序列运算的数字计算机
了人类智能的8种主要形式:语言能力、听觉判 (Shannon,1956)。
断能力、逻辑数理能力、时空判断能力、动觉
能力、人际交互能力、自我认知能力和认知自
然的能力。此外,人类的分析能力、创造能力、
4 结论
情感能力等,也被认为是重要的人类智能。 机器翻译历经多个发展时期,从最初的
以亚里士多德为代表的哲学观点对于人类 “机械大脑”到现今被称为技术黑盒子的深度
智能中最重要的一项能力的认定即人类形成概 学习神经网络机器翻译模型,见证了人类探索
念、对世界进行概念化的能力。从亚里士多德 求知的不懈努力,印证了人类不断突破自我的
开始到20世纪上半叶,对于人类的这种“概念 非凡潜力。我们同时也应该看到,作为一门跨
化”能力,普遍的哲学观点是,认知概念的形 学科研究,机器翻译虽然在解读人脑、认知、
成需要一定的必要及充分的条件。这种哲学观 语言等方面不断探索与尝试,但由于其涉猎了
点下的认知具有一定意义上的整体性:人类的 人类智能最高级、最深层次的核心问题,势必
思想并非无中生有,而是基于一定的发生条件 面临一系列的难题与挑战。德雷福斯认为,对
的。对此,维特根斯坦认为,常识性概念的形 于人工智能的研究与应用,我们迫切需要一个
成需要基于一定的条件,因为其主要描画了一 界限 (Dreyfus,1994)。目前,机器翻译在
种“类别”或是“典型特征”。在很多哲学家 模型研究与开发、译前源语处理、译后编辑等
看来,人类认知的“概念化”能力是人类智能 方面都在进行积极的探索,并积累了有益的经
的核心。近年来,神经科学家玛格兰姆提出了 验。对机器翻译的哲学反思也正逐渐进入到研
“蓝脑计划”(Blue Brain Project),试图以 究者们的视野。由于机器翻译技术的核心是基
建立超级数据库和更复杂、全面的机械模型来 于统计的,因此建立庞大的数据库对于机器翻
模拟人脑 (Markram,2006)。而“蓝脑计 译来说至关重要。对于缺少足够语料的文本类
划”的质疑者们则认为,该计划中最重要的数 型,如文学类文本、哲学类文本、低资源语种
据与模型并不足以概括、模拟、再现人脑的运 文本,机器翻译可以与人工翻译协同合作,在
作与认知。与人类智能的发生相比,目前的计 提高翻译效率的同时保证译文质量。对于意向
算能力与方法还无法制造出一个通用型的超级 性内容较为明显的艺术类文本,和无法进行译
数据库与机械模型来解决所有的机器理解问题 前编辑及译后处理的口译类翻译任务,机器翻
(Datteri,2019)。 译应该先行研究,再行谨慎应用。
关于机器翻译发展需要思考的问题可以归 虽然机器翻译研究在很多方面仍然处于起
Vol.17 No.6 (General Serial No.98)
结为两大类:经验主义层面问题与认识论层面 步阶段,但从最初的诞生到现今进行的广泛应
问题。首先,从经验主义层面上看,机器对于 用及跨学科研究表明,作为新兴产业,机器翻
环境与外在信息的识别与纳入是依据规则得出 译无论在应用还是在科研领域都享有蓬勃、广
的统计结果,这种计算方式能否体现出人类认 阔的发展前景。
Nov. 2020
知的主动性、目的性和整体连贯性的特点?换
言之,机器翻译技术如何解决算法与计算力不 注释
足的问题?其次,以完全基于统计和形式的 ① 本文系国家社科基金项目“同声传译共时信
F L C
计算完成翻译过程,能否导致翻译这类体现 息处理能力研究”(编号:17BYY067)的
102
中国外语
阶段性成果。 [13] Popovie, M. ChrF: Character N-gram F-score
for automatic MT evaluation[A]. Proceedings
参考文献 of the 10th Workshop on Statistical Machine
103