Download as pdf or txt
Download as pdf or txt
You are on page 1of 14

2023 年 1 1 月 外国语 November 2023

第 46 卷第 6 期 Journal of Foreign Languages Vol.46 No.6


文章编号:1004 - 5139(2023)06 - 0106 - 14 中图分类号:H059 文献标识码:A

基于熵权 TOPSIS 法的机器翻译译文测度

韦晓保1 ,陈 巽2
(1. 华东理工大学 外国语学院,上海 200237;2. 上海图书馆,上海 200030)

摘 要:翻译质量评估在各领域已成为一个热点话题,但是传统的定性分析无法满足多样化的质量评价需求,
因此,有必要筛选不同质量评估指标,建立评估矩阵以满足对译文的全方位考察。 本研究首先选取流畅性、准
确性、逻辑性 3 个一级指标,误译、多译、漏译等 10 个二级指标,词性误译、缩略词误译等 9 个三级指标,把对
词、句、篇章的评估标准融入多维质量评估体系的框架,从而构建出一个更为细化、更有层次的翻译质量评价
模型。 在此基础上,研究以信息传达类文本 Kyiv 为例,通过分析数据间的原始特征,采用熵权法,计算出指标
权重,进而运用优劣距离法得出主流神经网络机器翻译的排名。 未来的机器翻译可根据译者的实时反馈和需
求进行系统优化,在汲取语言学、认知科学、自然语言处理等的最新理论和研究成果基础上,更好地实现人机
交互。
关键词:多维质量指标;机器翻译;翻译质量评估;熵权 TOPSIS 法

Machine Translation Quality Assessment Based


on Entropy Weight TOPSIS Method

WEI Xiaobao1 , CHEN Xun2


(1. School of Foreign Languages, East China University of Science and Technology,
Shanghai 200237, China; 2. Shanghai Library, Shanghai 200030, China)

Abstract∶ Translation quality assessment has become a hot topic in various fields, but the traditional qualitative
analysis cannot meet the needs of diversified translation criteria. Therefore, it is necessary to screen different quality
assessment indicators and establish an evaluated model to meet the comprehensive requirements. Three first⁃level
indicators: fluency, accuracy, logicality, ten second⁃level indicators such as mistranslation, over⁃translation, and
missing translation, and nine third⁃level indicators such as mistranslations in parts of speech and acronyms are
selected to integrate the assessment criteria of words, sentences, and discourses into the framework of a multi⁃
dimensional quality metrics ( MQM) , so as to build a more detailed and hierarchical translation quality assessment
model. Based on the original features of the data, the entropy weight method is adopted to calculate the index weight,
and the TOPSIS method is adopted to calculate the ranking of the mainstream neural network machine translation.
Machine translation can optimize their systems based on the real⁃time feedback of post⁃editing. Human⁃computer
interaction can be achieved by integrating the latest theories and research findings of linguistics, cognitive science,
and natural language processing.
Key words∶ multidimensional quality metrics; machine translation; translation quality assessment; entropy weight
TOPSIS method

106
1. 引言
翻译译文质量评估已在众多领域成为一个热点话题( House 2015) ,但对译文质量的可信度与
可行性的研究还很少( Angelelli 2009; Campbell & Hale 2003; Eyckmans & Anckaert 2017) 。 因此,有
学者建议通过加强多学科融合探究质量评估新模式,如通过构建质量评估矩阵进行译文质量评
估。 当前,由 德 国 人 工 智 能 研 究 所 研 发 的 多 维 质 量 评 估 矩 阵 ( multidimensional quality metrics,
MQM) 在业内得到了广泛认可( Mateo 2014; Mateo, Martínez & Guijarro 2017) 。 该模型在整合了已
有译文评估模型如 LISA QA Model、SAE J2450 等的基础上,构建了一个更为全面、多层次化、可定
制的译文质量评估模型( Lommel et al. 2015) ( 见图 1) 。 其理念是:在兼顾读者需求的同时,积极融
合多元评估标准,以检测翻译译文的准确性与流畅性( Koby & Melby 2013: 178) 。 多维度指标体系
实则是开发人员对机器翻译中可能存在的错误进行的归类,因此具有以下四方面特征:1) 灵活的
错误类型目录,可供研究人员自由灵活地选择和分析译本的问题类型;2) 根据已有的研究方法进
行错误分类,并对之进行归纳、总结;3) 对需要细致展开的问题进一步分类,不需要细致展开的问
题则单独归为一类;4) 个性化选取指标,根据文本的类型以及分析的具体需要选择相应的指标
( Moorkens et al. 2018) 。

图1 多维指标体系质量评估模型( ( Lommel et al. 2015)

近年来,以语言学理论为基础,对译文质量开展定量和定性研究已成为趋势,其中,定量研究
通常是在错误分析理论的指导下,通过构建多维指标体系( 司显柱 2007) 和误差计数来评判译文的
质量( Hutchins & Somers 1992) 。 一般来说,基于错误分析理论生成翻译质量量化指标的方法有两
种: 1) 误差—尺度转换法( Mateo 2014; Williams 2004) ;2) 错误惩罚法( Turner, Lai & Huang 2010) 。
上述两种方法都是通过错误计数来实现的。 在 MQM 模型中,翻译质量评分公式为:TQ = 100⁃AP⁃
FP⁃VP。 其中,AP 代表准确性( Accuracy) 维度下的罚分,FP 代表流畅性( Fluency) 维度下的罚分,
VP 代表真实性( Verity) 维度下的罚分,而罚分公式延续了 LISA QA 模型中的罚分公式,即 P =
( Issues minor ∗1 + 5∗Issues major + 10∗Issues critical ) / Word count∗100。 译文罚分公式包含着轻微问
题、主要问题和严重问题,其中轻微问题的权重为“1” 、主要问题的权重为“5” ,严重问题的权重为
“10” 。
综上,虽然错误分析法属于一种较为客观的计分方法,但是关于权重的配分问题,以及如何把
错误类型准确地分为“ 轻微” “ 主要” “ 严重” 这三类,还存在较大的主观性( Melis & Albir 2001) ,因
此,本文将基于数据之间的特征,使用一种更为客观的方法对神经网络机器翻译系统进行译文评
判。

107
2. 指标体系的构建
2. 1 译文测度
James(2013) 从词汇、句子等层面对机器翻译的错误类型进行了归类。 多维指标评估模型则从
准确性、流利性、真实性等维度对翻译错误类型进行了划分,同时,每个维度下又涵盖了多个子维
度,如准确性维度下的问题包括误增、误译、漏译等,流利性维度下的问题包括语法错误、语域不当、
无法识别等( Doherty et al. 2018: 125) 。 我们知道,机器翻译的输入与解码按照一定的算法进行,因
而机器翻译也会因算法固定而产生一些共性的词汇、句法错误。 其中,词汇错误包含术语误译、连
词误译、不译等;句法错误包含词序错误、主被动语态转换错误等( 邹申 2011;李梅、朱锡明 2013) 。
Brew & Thompson(1994) 指出对译文的质量评估要从语言和识别度两个方面展开,其中,语言方面
主要是对词汇准确度、句子结构合法性、语义连贯性等进行评价;识别度方面主要考察的是译文的
可理解度、忠实度、连贯性、有用性、读取速度与译文的可接受性。
综上可知,以往研究对译文的质量评估主要集中在词汇和句法层面,较少涉及语篇层面。 为
此,本研究拟同时考察词汇、句子及语篇层面的错误,并结合现有的研究进行指标细化,进而建构
一个适用于信息传达类文本翻译的评价体系。
( 一) 准确性
在 MQM 模型中,译文准确性是指将源语言转换成目标语的精确程度。 准确性方面的错误包
括误译、不译、漏译、多译等。 其中,未译是指本应翻译的信息没被翻译;漏译是指译文中缺少源语
言中存在的信息;多译是指目标语包括了源语言中不存在的信息;误译是指目标语不能准确表达
源语言。 此外,还有学者对误译进行了细分,具体包括术语误译、关系词误译、一般词误译、词性误
译、缩略词误译等( Comelles, Arranz & Castellon 2017; 罗季美、李梅 2012; 李梅、朱锡明 2013) 。 王
青和马萧(2022) 从词汇、句子、语用、语义四个方面对译文质量进行了考察,其中,搭配不当是词汇
层面关注的重点,这也是机器翻译中最常出现的问题。
综上,本文将准确性维度下的问题分为误译、不译、漏译、多译、搭配不当,其中,误译又细分为
术语、关系词、一般词、词性、缩略词的误译( 见下页图 2) 。
( 二) 流畅性
在 MQM 模型中,流畅性方面的问题多与文章形式或信息表达有关,从而影响了文章的可读
性。 形式方面的错误有文本风格错误、语言风格错误。 信息表达方面的错误有一致性错误、拼写错
误、语法句法错误、无法识别等。 其中,一致性错误是指文章中有前后不一致的信息;无法识别错误
是指那些会极大 影 响 流 畅 性 却 不 能 定 义 的 错 误; 语 法 问 题 是 指 非 拼 写、 排 版 的 语 法、 句 法 问 题
( Lommel et al. 2015) 。 其中,句法问题在相关文献中又被细分为时态语态错误、成分缺失、断句错
误、语序错误等( Comelles, Arranz & Castellon 2017;Stymne & Ahrenberg 2012;罗季美 2014;李梅、朱
锡明 2013) 。 本文考察的对象为信息传达类文本,因此,信息表达方面的问题是本文关注的重点。
连贯是语义上的问题 ( van Dijk 1977 ) ,主要由以 下 三 要 素 组 成:连 接 ( connectedness) 、一 致
(consistancy) 和关联( relevance) ( Reinhart 1980) 。 其中,“ 连接” 是指句与句之间在语义、语法层面
有形式上的联系,其中,“ 语义连接” 问题指的是句间有同指,但缺少语义连接词的情况。 “ 一致” 是
指句子所表达的命题前后没有矛盾。 “ 关联” 指的是上下文之间存在语义逻辑上的关联。 可见,
van Dijk 定义的语义连贯性包含了 MQM 模型中的一致性维度,但比后者阐述得更为详细。 因此,
在本文构建的多维指标体系中,用“ 语义不连贯” 替代 MQM 模型中的“ 不一致” 。
综上,本文将流畅性维度下的问题归纳为语义不连贯、句法错误及其他无法识别错误。 其中,

108
句法又细分为时态语态错误、成分缺失、断句及语序错误( 见下页图 2) 。
( 三) 逻辑性
James(2013) 指出,翻译的错误可能发生在本体、文本、语篇三个层面。 本体错误是指拼写、书
写上的错误,文本错误是指词汇、句法上的错误,语篇错误是指句与句之间的相互关系和顺序错
误。 英语注重形合,注重句子与句子、句子内部的连接( 马绪光 2010) ,英语信息排列紧密,在英汉
互译时,机器翻译往往不能厘清其中的逻辑关系,从而导致句与句之间、句内关系之间的混乱。 例
如,在英译汉中,机器翻译往往难以识别“ 他” “ 她” “ 它” 的具体指代,从而导致逻辑表达混乱。 特
别指出的是,指代问题的解决对自然语言处理有着重要的意义( 许敏、王能忠、马彦华 1999) 。
综上,本文将逻辑性维度下的问题细化为:指代不清和关系混乱( 见图 2) 。

图2 译文质量评估多维度指标体系

3. 机器翻译指标权重确定及测度
3. 1 错误累计
本文选取信息传达类文本 Kyiv 中的第 1 ~ 22 章( 共计 289 句 22 个标题) ,导入 DEEPL、谷歌、
有道、百度、腾讯 5 大主流神经网络机器翻译网站。 根据本文构建的多维度指标体系,对 5 个版本
的机器翻译结果进行逐句错误统计,统计结果如表 1 所示:

表1 机器翻译错误累计表

DEEPL 谷歌 有道 百度 腾讯

词性误译 10 15 11 10 9

术语误译 27 24 29 29 27

缩略词误译 2 3 3 3 3

关系词误译 17 16 12 11 10

一般词误译 38 41 33 38 32

搭配不当 31 26 23 21 26

109
( 续上页)

DEEPL 谷歌 有道 百度 腾讯

漏译 1 0 2 3 1

多译 13 14 12 13 17

不译 40 83 67 28 57

语义不连贯 13 16 10 15 13

时态语态错误 15 17 11 13 10

成分缺失 6 6 5 5 5

断句错误 2 5 4 3 5

语序错误 4 6 8 9 3

无法识别 6 9 7 10 9

指代不清 11 11 9 11 10

关系混乱 9 11 6 9 7

3. 2 基于熵权法的指标权重确定
( 一) 熵权法原理
信息论的创始者 Shannon(1948) 率先把“ 熵” 的概念引入信息论中,并进而提出了“ 信息熵” 的
概念。 在信息论中,“ 熵” 是对不确定性系统的一种度量。 信息量越大,不确定性就越小,熵也就越
小;反之,信息量越小,不确定性就越大,熵也越大( 周艳、蒲筱哥 2014) 。 基于熵的特性,可以通过
计算熵值来判断某个指标的离散程度。 根据指标离散程度及提供的信息量大小,信息熵还可用于
评价相应指标的重要程度,即权重。 具体而言,指标的离散程度越大,其在综合评价中的影响就越
大,权重也就越大;反之,指标的离散程度越小,其在综合评价中的影响就越小,权重也就越小。 因
此,可根据评价对象各指标的离散程度, 利用信息熵计算出各评价指标的权重,进而为多指标综合
评价提供依据。
( 二) 基于熵权法的权重确定步骤
步骤一:构建指标水平矩阵。 若有 m 个待测评个体( m = 1,2,...,m) ,n 个评价指标( n = 1,
2,...,n) ,则构建初始指标水平矩阵如下:

步骤二:初始指标水平矩阵数据的标准化处理。 根据指标类别,利用极差法标准化初始指标
矩阵。
收益型指标原始数值标准化公式如下:

(3 - 1)
成本型指标原始数值标准化公式如下:

(3 - 2)

110
步骤三:计算指标比重值 p ij :

(3 - 3)
步骤四:计算指标熵值 Ei。

(3 - 4)
步骤五:计算各指标的熵值 (3 - 5)
( 三) 基于熵权法的数据计算
以多维指标体系下译文错误数量指标( 成本型) 为例,计算权重过程如下所示:

将成本型指标数据代入公式(3 - 2) ,便可得到各样本数据库指标的标准化指标值,如 A11 =


(15 - 10) / (15 - 9) = 0. 833。 以此类推,可以得到初始矩阵的标准化值,其中标准化的作用是为了
让同一指标下的数据消除量纲的影响,把负向指标正向化进行收益的计算。
将标准化指标矩阵中的各指标标准化值代入公式(3 - 3) ,得到第 i 个机器翻译中第 j 个指标
的特征比重值 P ij , ,如 P11 = 0. 094,其他结果如表 2 所示:

表2 机器翻译指标的比重值

DEEPL 谷歌 有道 百度 腾讯

词性误译 0. 094 0. 000 0. 062 0. 077 0. 099

术语误译 0. 045 0. 250 0. 000 0. 000 0. 040

缩略词误译 0. 113 0. 000 0. 000 0. 000 0. 000

关系词误译 0. 000 0. 036 0. 066 0. 079 0. 099

一般词误译 0. 038 0. 000 0. 082 0. 031 0. 099

搭配不当 0. 000 0. 125 0. 074 0. 093 0. 050

111
( 续上页)

DEEPL 谷歌 有道 百度 腾讯

漏译 0. 075 0. 250 0. 031 0. 000 0. 066

多译 0. 091 0. 150 0. 093 0. 074 0. 000

不译 0. 088 0. 000 0. 027 0. 093 0. 047

不连贯 0. 057 0. 000 0. 093 0. 015 0. 050

时态语态 0. 032 0. 000 0. 079 0. 053 0. 099

成分缺失 0. 000 0. 000 0. 093 0. 093 0. 099

断句 0. 113 0. 000 0. 031 0. 062 0. 000

语序 0. 094 0. 125 0. 015 0. 000 0. 099

无法识别 0. 113 0. 063 0. 069 0. 000 0. 025

指代不清 0. 000 0. 000 0. 093 0. 000 0. 050

关系混乱 0. 045 0. 000 0. 093 0. 037 0. 079

将 P ij 值代入公式(3 - 4) 得到各平台数据资源的建设指标的熵值,如词性误译,以此类推,可
计算出其余 16 个指标的熵值。 17 个指标熵值分别为:0. 510,0. 382,0. 153,0. 453,0. 414,0. 511,
0. 515,0. 569,0. 420,0. 370, 0. 433 ,0. 416,0. 327,0. 482,0. 433,0. 229,0. 425。
将熵值 Ei 代 入 公 式 ( 3 - 5 ) 计 算 机 器 翻 译 多 维 度 指 标 权 重, 如: 词 性 误 译 的 权 重 为
,计算所有指标权重值,结果如表 3 所示:

表3 机器翻译多维度指标体系的权重值

一级指标 二级指标 三级指标 权重

词性误译 0. 049

术语误译 0. 062
误译
缩略词误译 0. 085
0. 310
一般词语误译 0. 055
准确性
关系词误译 0. 059
0. 510
漏译 漏译 0. 049

多译 多译 0. 043

不译 不译 0. 058

搭配不当 搭配不当 0. 049

112
( 续上页)

一级指标 二级指标 三级指标 权重

时态语态 0. 057

句法 成分缺失 0. 059

0. 236 断句错误 0. 068


流畅性
0. 356 语序错误 0. 052

无法识别 无法识别 0. 057

语义不连贯 语义不连贯 0. 063

逻辑性 指代不清 指代不清 0. 077

0. 135 关系混乱 关系混乱 0. 058

3. 3 TOPSIS 模型翻译机器译文质量测度
( 一) TOPSIS 模型原理
TOPSIS( Technique for Order Preference by Similarity to an Ideal Solution) 是一种逼近于理想解的
技术,属于多目标决策方法( Hwang & Yoon 1981) 。 其原理是设置一个最优解和最劣解,以它们为
原始坐标计算评价对象到它们的相对距离,若评价对象最靠近最优解同时又最远离最劣解,则为
最满意解。 它能同时对多个对象进行评价,确定各对象所属的级别,方便对象间的比较,结果分辨
率较高,评价较为客观。
( 二) 确定指标排名的步骤
步骤一:构建加权规范化矩阵。
V = V ij = ( W i A ij ) mn ,( i = 1,2,3,.... m,j = 1,2,3,...n) (3 - 6)
其中 W i 为各指标权重( W1,W2,......) ,A ij 为标准指标矩阵。
步骤二:设置最优解即每个指标中的最大值( V j+ ) 和最劣解即每个指标中的最小值( V j- ) 。

(3 - 7)

(3 - 8)
步骤三:计算各指标的欧式空间距离。

(3 - 9)

(3 - 10)
步骤四:计算机器翻译各指标的相对接近度。

(3 - 11)
( 三) 基于 TOPSIS 模型的数据计算
将标准化矩阵中 a ij 的值与权重 w j 相乘,得到加权规范化矩阵,如 V11 = W1 A11 = 0. 041,其他结
果如( 下页) 表 4 所示:

113
表4 机器翻译的指标矩阵
DEEPL 谷歌 有道 百度 腾讯

词性误译 0. 041 0. 000 0. 033 0. 041 0. 049

术语误译 0. 025 0. 062 0. 000 0. 000 0. 025

缩略词误译 0. 085 0. 000 0. 000 0. 000 0. 000

关系词误译 0. 000 0. 008 0. 039 0. 047 0. 055

一般词误译 0. 020 0. 000 0. 052 0. 020 0. 059

搭配不当 0. 000 0. 025 0. 039 0. 049 0. 025

漏译 0. 032 0. 049 0. 016 0. 000 0. 032

多译 0. 035 0. 026 0. 043 0. 035 0. 000

不译 0. 046 0. 000 0. 017 0. 058 0. 028

语义不连贯 0. 032 0. 000 0. 063 0. 011 0. 032

时态语态 0. 016 0. 000 0. 049 0. 033 0. 057

成分缺失 0. 000 0. 000 0. 059 0. 059 0. 059

断句错误 0. 068 0. 000 0. 023 0. 045 0. 000

语序错误 0. 043 0. 026 0. 009 0. 000 0. 052

无法识别 0. 057 0. 014 0. 043 0. 000 0. 014

指代不清 0. 000 0. 000 0. 077 0. 000 0. 039

关系混乱 0. 023 0. 000 0. 058 0. 023 0. 046

利用公式(3 - 7)及(3 - 8)设置最优解及最劣解,如 V1+ = { max1 V1j } = 0. 049,V1- = { min1 V1j } = 0,


以此类推,可以计算出所有指标的最优解及最劣解。
利用公式(3 - 9) 及(3 - 10) 计算各个机器翻译对应指标下的欧式空间距离( 以下计算以一级

指标:准确 性 为 例) , 准 确 性 下 的 三 级 指 标 共 9 个, 所 以 n = 9, ,

,所有平台所有指标下的欧式空间距离结果如表 5 所示:

表5 机器翻译准确性欧式空间距离

平台 D+ D-

DEEPL 0. 094 0. 120

谷歌 0. 140 0. 087

有道 0. 120 0. 096

百度 0. 123 0. 106

腾讯 0. 110 0. 109

114
利用公式(3 - 11) 计算各指标的相对接近度,如 C11 = 100∗0. 119 / ( . 094 + . 119) = 55. 813,
按照同样的计算方法,得出其他三个一级指标的相对接近度并排名,如表 6 所示。

4. 结果分析
4. 1 权重分析
根据本文构建的译文质量评估多维指标体系,通过运用熵权法对各个指标的具体权重进行比
较发现,译文的准确性维度权重为 0. 510,流畅性维度权重为 0. 356,逻辑性维度权重为 0. 135,可
见,对译文质量评价影响最大的是准确性与流畅性,即译文在词汇和句法上的表现很大程度上决
定了其质量,且对于机器翻译来说,译文的准确性在重要性方面可能要略高于流畅性。

表6 机器翻译测评指标欧式空间距离及评分排名
维度 平台 D+ D- 评分 排名

DEEPL 0. 094 0. 120 55. 928 1

谷歌 0. 140 0. 087 38. 423 5

准确性 有道 0. 120 0. 096 44. 376 4

百度 0. 123 0. 106 46. 293 3

腾讯 0. 110 0. 109 49. 749 2

DEEPL 0. 079 0. 105 57. 112 2

谷歌 0. 134 0. 030 18. 102 5

流畅性 有道 0. 064 0. 111 63. 311 1

百度 0. 099 0. 082 45. 339 4

腾讯 0. 086 0. 103 54. 486 3

DEEPL 0. 085 0. 023 21. 379 3

谷歌 0. 096 0. 000 0. 000 5

逻辑性 有道 0. 000 0. 096 100. 000 1

百度 0. 085 0. 023 21. 379 3

腾讯 0. 040 0. 060 60. 213 2

DEEPL 0. 168 0. 165 49. 436 3

谷歌 0. 240 0. 092 27. 770 5

综合排名 有道 0. 137 0. 202 59. 597 1

百度 0. 188 0. 152 44. 753 4

腾讯 0. 149 0. 184 55. 317 2

具体来说,在准确性维度方面,误译占 0. 310、不译占 0. 058、搭配不当与漏译都占 0. 049、多译


占 0. 043。 可见,各类词汇的误译占了其中 60% 的权值比重,说明词义的传达在很大程度上影响着
译文的准确性。 其中,一般词误译主要体现在一词多义上,这可能与机器翻译常常不能准确识别
一词多义而经常会出错有关。 词性的转化则多体现在英语中以“ ed” “ ly” 结尾的词上,由于机器翻

115
译不能识别其属性,导致英译汉时由于没有适时转换词性而影响了译文的准确性。 术语误译和不
译在准确性维度方面所占权重较大,且出错频次较高,主要表现在专有名词的不译、错译上。 在信
息类文本的翻译中,逐次校对术语的翻译以及查证工作复杂且繁琐,因此有必要针对不同类型的
文本,建立相应的语料库( Bowker 2001) ,以提高译文的质量和译者的工作效率。
在流畅性维度方面,句法层面的问题权值比重占流畅性的 66% ,说明句法上出现的问题极大
影响着流畅性。 因此,对模型的算法进行优化时,应注意:1) 句法转换问题。 在信息类文本中,英
语多用被动句和无灵主语,而汉语则多用主动句和有灵主语,因此,在算法优化时应注意语态的转
换和主语的调整。 然而,就目前最优算法下的神经网络机器翻译而言还做不到此类转换。 2) 成分
缺失问题。 在英语信息类文本中,it 开头的形式主语句出现频率较高,而目前的机器翻译模型还做
不到自动添加 it 形式主语。 3) 语序调整问题。 在翻译英语的多个名词修饰语时,机器翻译还无法
做到对修饰语的语序进行重新排列。 尽管相较于传统机器翻译,神经网络机器翻译已开始尝试调
换语序来提高翻译的流畅性,但由于英、汉句法构成不同,生硬地调换语序通常会造成句义传达不
清晰,进而影响译文的流畅性。
逻辑性维度方面的问题虽只占 0. 135,但也不容忽视。 其中,指代问题占 0. 077,指标比重在 17
个三级指标中排名第 2,说明语篇层面指代是否清晰是衡量机器翻译译文质量的一个重要指标。
通过对本研究选取的 5 个版本的机器翻译译文的分析发现,目前机器翻译还不能准确翻译篇章中
代词( 如 it) 指代的内容。 此外,关系混乱的权重也高于平均值,主要表现为当英语句子呈树状层层
展开时,机器翻译往往难以厘清其中的逻辑关系,从而会打乱句子或篇章的逻辑关系。
4. 2 相对接近度分析
基于图 2 的译文质量评估多维度指标体系和 4. 1 节的权重分析,我们对 5 个版本的机器翻译
译文质量进行了综合排序,由高到低依次为:有道、腾讯、DEEPL、百度、谷歌。 其中,有道为第一梯
队;腾讯和 DEEPL 为第二梯队①;百度和谷歌为第三梯队。 通过比较 5 个版本机器翻译译文在不同
维度上的表现可知,有道翻译的译文更为流畅、更富逻辑性,同时也能很好地贴合语境、理解句义。
但不足的是,有道翻译在准确性维度上排第四,说明其在字词的处理上还有待加强。 对此,未来的
一个改进方案是,可针对不同文本类型,添加大规模语料库,以帮助其更好地实现术语的匹配。
DEEPL 在准确性维度上排名第一,说明相对于其他机器翻译,DEEPL 能够更准确地传达词义,但不
足的是,其对篇章的理解还有所欠缺。 腾讯翻译在三个维度上的表现比较平均,其中,在准确性和
逻辑性维度上排名均为第二,在流畅性维度上排名第三,说明其能较好完成词汇、句子、语篇的翻
译。 百度翻译在准确性和逻辑性维度上的排名都为第三、流畅性维度上排名第四;谷歌翻译在三
个维度上的排名均为第五。 可见,百度和谷歌翻译在词、句、篇章的理解上都还有待进一步完善。
总之,未来的神经网络机器翻译可学习借鉴有道翻译在句法、篇章处理方面的优势和 DEEPL
在词汇处理方面的经验,不断优化其算法,进而为人工翻译和译后编辑模式提供经验和指导。 综
合以上机器翻译的表现,我们认为未来的神经网络机器翻译可充分利用现有的技术优势,通过大
量的语料训练其模型,并针对不同类型的文本,添加大量该文本类型下的术语库、语料库、知识库
来优化和增强其翻译系统。

5. 结语
本文基于错误分析理论,构建了译文评价多维指标体系,人工分析并统计了机器译文中的错

① 两者的总评分相近。

116
误类型和错误数量,通过运用熵权法完成了对译文质量评估矩阵的权重计算。 结果发现,译文的
流畅性与准确性所占权重较大,说明对译文的评估大致可从词句方面展开;逻辑性维度权重虽然
不高,但所属指标下的两个子维度的权重都较高,这表明如果能从篇章层面对机器翻译的逻辑问
题( 尤其是指代问题) 进行优化,那么该机器翻译的译文在逻辑性维度上的评分会得到很大提升。
机器翻译质量测评应根据不同的文本类型采用不同的测量方法( Slype 1979: 41) 。 相对而言,
机器翻译更适用于信息类文本翻译( 胡开宝 2016; Hutchins & Somers 1992) 。 为此,本文基于信息
传达类文本,对神经网络机器翻译的汉译文进行了质量评估。 目前,对译文质量测评主要分为自
动测评和人工测评两种。 自动化测评由于主要依靠计算文本匹配率来完成对译文的测评,因而略
显僵化,无法实现对译文全方位的考察( Culy & Riehemann 2003: 72) 。 人工测评模式则大多基于
问卷调查下的人工打分实现对译文质量的评估( ALPAC 1996) 。 尽管人工评价能较高质量地完成
评估任务,但其因过于依赖评判人员的翻译素养及评判标准,因而存在较大的主观性( Koehn 2009:
219) 。 有鉴于此,我们建议,在未来的译文质量测评方面,有必要将自动评价和人工评价进行有机
结合,尽可能地体现评价的客观性、可靠性,从而实现对译文质量的客观、准确评估。
随着人工智能的不断发展而引发的关于“ 机器翻译能否取代人工翻译” 的争论未来还将会持
续。 然而,需指出的是,机器翻译和人工翻译之间不是非此即彼的关系,而是互补的关系( Melby
2015: 10) 。 其中,机器翻译加人工译后编辑或许是一种很好的模式,可在一定程度上提高翻译效
率( 崔启亮 2014) 。 本文统计了当下 5 大主流神经网络机器翻译的出错频数,利用 TOPSIS 模型分
析了各机器翻译在准确性、流畅性、逻辑性方面的相对及综合排名,从定量的角度分析了各机器翻
译在处理信息类文本英译汉过程中的优劣之处,结论进一步验证了译文评价多维指标体系的可行
性。 本研究给予未来机器翻译的启示是:译者可根据文本类型选择不同的机器翻译,进而为译后
编辑缩减时间成本;同时,机器翻译模型也可根据人工编辑的实时反馈进一步优化,在汲取语言
学、认知科学、自然语言处理等的最新理论和研究成果基础上,不断更新迭代,进而更好地实现人
机交互。

参考文献:
[1] Automatic Language Processing Advisory Committee (ALPAC). Languages and Machines: Computers in Translation
and Linguistics[M]. Washington, D. C: National Academy of Sciences, 1966.
[2] Angelelli, C. V. Using a rubric to assess translation ability: Defining the construct[ C] / / Angelelli, C. V. &
H. E. Jacobson. Testing and Assessment in Translation and Interpreting Studies. John Benjamins, 2009.
[3] Bowker, L. Towards a methodology for a corpus⁃based approach to translation evaluation[ J] . Meta, 2001, 46
(2) : 345 - 364.
[4] Brew, C. & H. S. Thompson. Automatic evaluation of computer generated text: A progress report on the
TEXTEVAL project[ C] / / Human Language Technology: Proceedings of a Workshop Held at Plainsboro. New
Jerey, March 8 - 11, 1994.
[5] Campbell, S. & S. Hale. Translation and interpreting assessment in the context of educational measurement[ C] / /
Anderman, G. & M. Rogers. Translation Today: Trends and Perspectives. Clevedon: Multilingual Matters,
2003.
[6] Comelles, E., Arranz, V. & I. Castellon. Guiding automatic MT evaluation by means of linguistic features[ J] .
Digital Scholarship in the Humanities, 2017, 32 (4) : 761 - 778.
[7] Culy, C. & S. Z. Riehemann. The limits of N⁃gram translation evaluation metrics [ C] / / Macklovitch, E.
Proceedings of MT Summit IX. Louisiana: New Orleans, 2003.

117
[8] Doherty, S., Moorkens, J., Gaspari, F. & S. Castilho. On education and training in Translation Quality
Assessment[ C] / / Moorkens, J., Castilho, S., Gaspari, F. & S. Doherty. Translation Quality Assessment.
Machine Translation: Technologies and Applications. Springer, Cham. https: / / doi. org / 10. 1007 / 978 - 3 - 319 -
91241 - 7_5, 2018.
[9] Eyckmans, J. & P. Anckaert. Item⁃based assessment of translation competence: Chimera of objectivity versus
prospect of reliable measurement [ J] . Linguistica Antverpiensia, New Series: Themes in Translation Studies,
2017, 16: 40 - 56.
[10] James, C. Errors in Language Learning and Use: Exploring Error Analysis[ M] . New York: Routledge, 2013.
[11] House, J. Translation Quality Assessment: Past and Present[ M] . New York: Routledge, 2015.
[12] Hutchins, W. J. & H. L. Somers. An Introduction to Machine Translation[ M] . London: Academic Press, 1992.
[13] Hwang, C. L. & K. P. Yoon. Multiple Attribute Decision Making: Methods and Applications[ M] . Spring⁃Verlag,
1981.
[14] Koby, G. S. & A. K. Melby. Certification and Job Task Analysis ( JTA) : Establishing validity of Translator
Certification Examinations [ J] . The International Journal of Translation and Interpreting Research, 2013, 5
(1) : 174 - 210.
[15] Koehn, P. Statistical Machine Translation[ M] . Cambridge: Cambridge University Press, 2009.
[16] Lommel, A., Burchardt, A., Melby, A. K., Uszkoreit, H., Görög, A., Gladkoff, S. & L. Glazychev.
Multidimensional Quality Metrics ( MQM) Definition[ Z] . http: / / www. qt21. eu / mqm⁃definition / definition -
2015 - 12 - 30. html ( downloaded 3 / 11 / 2022)
[17] Mateo, R. M. A deeper look into metrics for translation quality assessment ( TQA ) : A case study [ J ] .
Miscelanea, 2014, 49: 73 - 93.
[18] Mateo, E. M., Martínez, S. M. & A. J. M. Guijarro. The modular assessment pack: A new approach to
translation quality assessment at the directorate general for translation[ J] . Perspectives, 2017, 25 (1) : 18 -
48.
[19] Melis, N. M. & A. H. Albir. Assessment in translation studies: Research needs. Meta, 2001, 46 (2) : 272 –
287.
[20] Melby, A. K. QT21: A new era for translators and the computer [ C] / / Proceedings of the 37th Conference
Translating and the Computer. England: London, 2015.
[21] Moorkens, J., Castilho, S., Gaspari, F. & S. Doherty. Translation Quality Assessment: From Principle to
Practice[ M] . Cham: Springer International Publishing, 2018.
[22] Reinhart, T. Conditions for text coherence[ J] . Poetics Today, 1980, 1: 161 - 180.
[23] Shannon, C. E. A mathematical theory of communication [ J] . The Bell System Technical Journal, 1948, 27
(4) : 623 - 656.
[24] Slype, G. Critical Study of Methods for Evaluating the Quality of Machine Translation. Prepared for the
Commission of the European Communities[ M] . Brussels: Bureau Marcel, 1979.
[25 ] Stymne, S. & L. Ahrenberg. On the practice of error analysis for machine translation evaluation [ C ] / /
Calzolari, N., Choukri, K. & T. Declerck. Proceedings of the 8th International Conference on Language
Resources and Evaluation ( LREC 2012) . Istanbul: European Language Resources Association ( ELRA) , 2012.
[26] Turner, B., Lai, M. & N. Huang. Error deduction and descriptors⁃A comparison of two methods of translation
test assessment[ J] . Translation & Interpreting, 2010, 2 (1) : 11 - 13.
[27] Van Dijk, T. Text and Context[ M] . London: Longman, 1977.
[28] Williams, M. Translation Quality Assessment: An Argumentation⁃centred Approach[ M] . Ottawa: University of
Ottawa Press, 2004.

118
[29] 崔启亮. 论机器翻译的译后编辑[ J] . 中国翻译,2014,35(6) :68 - 73.
[30] 胡开宝,李翼. 机器翻译特征及其与人工翻译关系的研究[ J] . 中国翻译,2016,37(5) :10 - 14.
[31] 李梅,朱锡明. 译后编辑自动化的英汉机器翻译新探索[ J] . 中国翻译,2013,34(4) :83 - 87.
[32] 罗季美. 机器翻译句法错误分析[ J] . 同济大学学报( 社会科学版) ,2014,25(1) :111 - 118.
[33] 罗季美,李梅. 机器翻译译文错误分析[ J] . 中国翻译,2012,33(5) :84 - 89.
[34] 马绪光. “ 形合” 、“ 意合” 与英汉翻译的句法策略[ J] . 上海师范大学学报( 哲学社会科学版) ,2010,39
(1) :112 - 117.
[35] 司显柱. 功能语言学与翻译研究:翻译质量评估模式建构[ M] . 北京:北京大学出版社,2007.
[36] 王青,马萧. 问题意识视域下的机器翻译质量评估方法研究[ J] . 湖南社会科学,2020,(6) :144 - 151.
[37] 许敏,王能忠,马彦华. 汉语中指代问题的研究及讨论[ J] . 西南师范大学学报( 自然科学版) ,1999,24
(6) :633 - 637.
[38] 周艳,蒲筱哥. 熵权 TOPSIS 模型在数据库绩效评价中的应用研究[ J] . 图书情报工作,2014,58(8) :36 -
41.
[39] 邹申. 英语专业写作教学语料库建设与研究[ M] . 上海:复旦大学出版社,2011.

基金项目:国家社会科学基金一般项目“ 维吾尔族儿童汉语早期阅读能力发展追踪及预测模型构建研究”
(20BYY089)

收稿日期: 2022 - 07 - 09
作者简介: 韦晓保(1980 - ) ,男,江苏南京人,博士,教授。 研究方向:二语习得、心理语言学、神经语言学、
自然语言处理。
陈 巽(1995 - ) ,女,江苏无锡人,硕士。 研究方向:翻译学、自然语言处理。

■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■

《 认知类型学视野下汉英表量结构的对比研究》

作者:李勇忠 著
出版时间:2023 年 6 月
定价:47. 00 元
出版社:上海外语教育出版社

量词是跨语言研究的热点之一。 本书以量词所在的表量结构为研究对象,
从认知类型学的角度考察汉英表量结构的异同,在认知语言学和语言类型学的
优势互补中揭示语言类型与认知思维的关联,旨在挖掘学科间的共通之处,推动
认知类型学学科体系的建立。 本书对于汉英语教学、汉英互译实践、跨文化交际
乃至人工智能中的分词处理等都有一定的参考价值。

119

You might also like