Professional Documents
Culture Documents
文本蕴含关系识别与知识获取研究进展及展望 郭茂盛
文本蕴含关系识别与知识获取研究进展及展望 郭茂盛
l.40 No.4
2017 年 4 月 CHINESE
JOURNAL OF COMPUTERS Apr.2017
文本蕴含关系识别与知识获取研究进展及展望
郭茂盛 张 宇 刘 挺
(哈尔滨工业大学计算机科学与技术学院社会计算与信息检索研究中心 哈尔滨 150001)
摘 要 文本蕴含关系是广泛分布于自然语言文本中的单向推理关系,文本蕴含相 关 研 究 是 自 然 语 言 处 理 领 域 的
一项基础性研究,它可以辅助其他自然语言处理任务的进行,并且具有丰富的应 用 场 景 .文 中 首 先 界 定 了 文 本 蕴 含
研究的范畴 .作为一种二元关系,文本蕴含有 3 个基本研究任务———关系识 别、知 识 获 取 和 蕴 含 对 生 成 .其 中,关 系
识别有两个核心问题———语义表示与推理机制;知 识 获 取 也 有 两 个 核 心 问 题———知 识 表 示 与 知 识 来 源;蕴 含 对 生
成研究进展比较缓慢,文中细致地分析了其内因和外 因 .文 中 围 绕 语 义 表 示 与 推 理 机 制 这 两 个 核 心 问 题 梳 理 了 关
系识别的研究进展,围绕知识表示与知识来源梳理了 知 识 获 取 的 研 究 进 展,并 指 出 了 各 类 方 法 的 可 取 之 处 与 不 足
之处 .文本蕴含研究的进展离不开相关国际评测,文中也对这些国际评测和数据 集 进 行 了 归 纳 总 结 .大 数 据 时 代 的
到来和深度学习理论的不断发展,为文本蕴含相关研 究 提 供 了 丰 富 的 知 识 来 源 和 有 力 的 研 究 工 具 ,同 时 也 带 来 了
许多崭新的研究课题 .文中立足当前研究形势,展望了未来研究方向,并从理论上探讨了其可行性 .
关键词 文本蕴含;知识获取;自然语言理解;自然语言处理;人工智能
中图法分类号 TP18 DOI号 10.
11897/SP.
J.1016.
2017.
00889
Re
sea
rch
Advanc
esand
Prospe
ct o
f Reco
gnizing
Tex
tua
l En
tai
lmen
t
and Knowledge
Acquis
iti
on
GUO
Mao-Sheng ZHANG
Yu LIU
Ting
(
Res
ear
ch
Cen
ter
fo So
r c
ial
Compu
ting
and
Info
rma
tion
Ret
ri l,Schoo
eva l of
Compu
ter
Sci
enc
e and
Techno
logy,
Har
bin
Ins
tit
ute
of
Techno
logy,Har
bin 150001)
Ab
str
act Tex
tua
l en
tai t,a
lmen s a
dir
ect
iona
l s
eman
tic
re
ason
ing
rel
aton,i
i s wi
del
y d
ist
ribu
ted
i na
n tura
l l
anguage t
exts.Res
ear
ch on
tex
tua l
ent
ailment
isa
fundament
als
tudyi
n the
f
iel
d of
natur
all
anguage pr
oces
sing.With
var
ious appl
ica
tions,it
is hel
pful
to
other
natur
al language
proc
essi
ng ta
sks.Th i
s paper c
lari
fies
the scope of text
ual enta
ilment
at
fi
rst.As a bi
na r
y
re
lat
ionshi ,
p t ex
tua
l ent
ailment has thr
ee basic r
es e
arch t
a ,
sks that
i ,
s recogn
izi
ng textual
enta
ilment,knowledgea
cqui
sit
ion and gene
rat
i en
ng ta
ilmentpa
i
rs.The rea
re
two key probl
ems
i r
n ecogn
izi
ng textua
l ent
ailment, tha
t is,semant
ic r
e
pre
senta
tion an
d r
eason
ing m e
c han
ism.
The
rea
re
al
sotwo
key
prob
lems
in
knowl
edge
acqu
isi
tion,t
hat
is,knowl
edge
repr
esen
tat
ion
and
knowl
edge
sou
rce.Th
is
pape
r make
s a
det
ail
ed
ana
lys
is
ont
he
in
ter
nal
and
ext
erna
lf
ac
tor
s l
ead
ing
to
t
hes
low pr
oce
ss o
f r
ese
arch on gene
rat
ing en
tai
lmen
t pa
irs.Th
is
pape
r f
ocus
es on
the
se key
pr
obl
ems
whi
leexpound
ing
met
hods
of
re
cogn
izi
ngt
ex
tua
l en
tai
lmen
t and
knowl
edge
acqu
isi
tion.
Th
is
pape
r po
int
s ou
t t
he
pros
and
cons
of
ea
ch
met
hod
then.The
deve
lopmen
t o
f r
ese
arch
on
t
ext
ual
en
tai
lmen
t i
s i
nsepa
rab
le
wit
h i
nte
rna
tiona
l eva
lua
tion
exe
rci
ses.Th
is
pape
r summa
riz
es
t
he
dat
ase
tsf
rom
the
seeva
lua
tion
exe
rci
ses.The
ar
riva
l o
f t
he
bi da
g t
a e
raand
the
deve
lopmen
t
收稿日期:
2016-04-21;在线出版日期:
2016-10-11.本课题得到国家自 然 科 学 基 金( 61472107)、国 家“八 六 三”高 技 术 研 究 发 展
61472105,
2015AA015407)资 助 .郭 茂 盛,男,
计划项目 基 金 ( 1991 年 生,博 士 研 究 生,中 国 计 算 机 学 会 (
CCF)会 员,主 要 研 究 方 向 为 文 本 蕴 含 .
E-ma
il:ms
guo@i
r.h
it. cn.张 宇,男,
edu. 1972 年生,博士,教授,硕士生导 师,中 国 计 算 机 学 会 (
CCF)会 员,主 要 研 究 领 域 为 个 性 化 信
息检索、问答 .刘 挺(通信作者),男, 1972 年生,博士,教授,博士生 导 师,中 国 计 算 机 学 会(
CCF)会 员,主 要 研 究 领 域 为 社 会 计 算、信 息
检索、自然语言处理 .
E-ma
il:t
liu@i
r.h
it.
edu.
cn.
890 计 算 机 学 报 2017 年
o
f de
epl
ea
rni
ngt
heo
r br
y i
ng
a new
rich
sour
ce
ofknowl
edge
and
powe
rfu
l t
oos,a
l s we
lla
s
nove
l
r
ese
arch
top
ics.The
fu
tur
e r
ese
arch d
ire
cti
ons
ae po
r int
ed ou
t and
the
ir f
eas
ibi
li
ty i
s a
lso
d
iscus
sed
unde
r t
hecur
ren
t r
ese
arch
sit
uat
ion.
Keywords tex
tualen
tai
lmen t;knowledgea
cqu
isi
tion;na
tur
all
anguage
unde
rst
and
ing;na
tur
al
l
anguage pr
ocessi ;
ng a r
tif
ici
al i
nte
lli
gence
在多 文 档 文 摘 任 务 中,候 选 文 摘 中 句 子 间 的 蕴
1 引 言 含关系一 定 程 度 上 指 示 了 它 们 之 间 的 语 义 包 含 关
系,因此可以使用文本蕴含技术来辅助精简文本 [7].
1 文本蕴含的研究背景
1. 在机 器 翻 译 评 价 领 域,文 本 蕴 含 技 术 也 有 一 席
随 着 自 然 语 言 处 理 (Na
tur
al Language Pr
o- 之地 .在理想情况下,正确的机器译文应当和人工标
c
ess
i NLP)领域研 究 的 不 断 深 入,如 何 让 机 器 能
ng, 注的标准答案具有 相 同 的 语 义,因 而 双 方 彼 此 可 由
够真正地理解自然 语 言,而 不 是 仅 仅 简 单 地 处 理 语 对方文本推理得出,所 以 可 以 利 用 机 器 译 文 和 标 准
句的表层信息,渐渐成为了许多学者面临的问题 .实 译文的互相蕴含程度来对机器翻译系统的性能进行
现对文本深层次理 解,是 自 然 语 言 处 理 研 究 最 主 要 Padó 等人 8 据此建立了基于文本蕴含 技 术 的
评估 . []
也是最重要的目的 之 一 .如 果 将 其 比 作 是 自 然 语 言 机器翻译自动评价系统 .
处理研究领域的一 顶 皇 冠 的 话,那 么 基 于 自 然 语 言 类似地,在学生作业评分任务 [9]中,学生的作答
的语义推理无疑是 这 顶 皇 冠 上 最 璀 璨 的 一 颗 明 珠 . 与标准答案之间的蕴含关系也可以指示学生答案的
因为在获取了文本 的 语 义 后,一 旦 获 得 了 它 们 之 间 完善程度 .Ni
elen 等 人 10 据 此 利 用 文 本 蕴 含 技 术
s
[ ]
的推理关系,这些文本便不再互相孤立,而是彼此联 建立了一套学生作业评分系统 .
系起来,构成一张语义推理网络,从而促使机器能够 在句法分析结果评价领域中文本蕴含技术也有
真正理解并应用文本的语义信息 . 用武之地 .由于错误 的 句 法 分 析 结 果 会 导 致 蕴 含 关
文本 间 的 推 理 关 系,又 称 为 文 本 蕴 含 关 系 [
1]
系判定失败,因此可 以 使 用 基 于 句 法 特 征 的 文 本 蕴
(
Tex
tua
l En
tai t,下 一 节 将 给 出 详 细 定 义 ),作
lmen 含识别系统对其进行反向评价 [11].
为一种基本的文本 间 语 义 联 系,广 泛 存 在 于 自 然 语 同时,在人们的日常生活中,近年来出现了不少
言文本中 .很多自然 语 言 处 理 任 务 或 多 或 少 地 都 需 所谓的“个人 智 能 助 理”,例 如 Appl
e nc.的 S
I i
ri语
要面对包含蕴含关 系 的 文 本,如 果 有 一 种 技 术 能 够 音助手,Mi
croso
ft的小娜( Cor
tana)个 人 助 理 等 .她
识别其中的蕴含关 系,那 这 种 技 术 就 能 够 为 这 些 任 们能够聆听并“理解”用 户 的 一 些 简 单 命 令,帮 助 用
务提供助力 .因此,文本蕴含相关研究是自然语言处 户处理一些日常生 活 的 简 单 任 务,从 而 提 高 了 用 户
理领域的一项基础性工作 . 的工作效率,也 增 加 了 这 些 智 能 设 备 的 可 玩 性 .但
例如,在 问 答 系 统 中,若 提 问 “谁 是 网 易 公 司 的 是,当前的个人智能 助 理 并 不 能 很 好 地 处 理 用 户 的
创始人?”,而语料 库 中 恰 恰 有 诸 如 “丁 磊 于 1997 年 复杂需求,也不能在 回 答 用 户 问 题 时 有 效 地 举 一 反
5 月创立了 网 易 公 司 .”这 样 的 句 子,如 果 问 答 系 统 三 .其技术瓶颈在于 当 前 技 术 不 能 有 效 地 理 解 用 户
能够由此 推 理 得 出 “丁 磊 是 网 易 公 司 的 创 始 人 ”的 的语义并进行推理,这 与 目 前 文 本 蕴 含 相 关 技 术 尚
话,就可以直接对 这 样 的 问 题 进 行 作 答 .事 实 上,问 未达到成熟商用的水平有关 .因此,研究文本蕴含相
题与候选答案、候选 答 案 与 支 持 文 档 之 间 一 般 都 存 关技术是日常生活应用的迫切需要 .
在推理蕴含关系 .有些问答系统 [
便利用文本蕴含
2-5]
文本蕴含相关研究的终极目标就是提供一个一
技术来生成候选答 案,或 对 用 其 他 方 法 生 成 的 候 选 般意义上基于文本的推理引擎来支撑其他语义相关
答案进行筛选排序 .实验 [
5]
表明,应用文本蕴含技术 的自然语言处理任务以及日常应用 .
能够把回答正确率提高 20% 左右 . 2 文本蕴含的研究范畴
1.
在关 系 抽 取 领 域 中,
Romano 等 人
[
使用文本
6]
1.
2.1 文本蕴含关系的定义
蕴含技术扩展了抽 取 所 用 的 模 板,极 大 地 丰 富 了 目 文本蕴含的概 念 由 Dagan 等 人 [1]于 2004 年 首
标关系的表现形式,从而提升了抽取的召回率 . 次提出,其定义如下 .
4期 郭茂盛等:文本蕴含关系识别与知识获取研究进展及展望 891
一对可能构成某二 元 关 系 的 文 本 对,要 求 机 器 对 其
系统性的辨析 .
关系是否成立给出判定;所谓“抽取”,就是要求机器
T4:斑马是食草动物 . 能够自动地从大量自然语言文本中把构成该二元关
T5:野马是食草动物 . 系的成对文本片段抽取出来;所谓“生成”,是指给出
另外,文 本 蕴 含 的 研 究 范 畴 要 和 文 本 相 似 一个文本片段,要求 机 器 能 够 生 成 与 之 构 成 该 二 元
(
Tex
t S
imi
lar
ity)有关 研 究 进 行 区 分 .文 本 相 似,指 关系的另外一方 .由此可见,“识别”是研究二元关系
的是一对文本包含的相似的语义 .比如, T4-T5 这对 的第 1 步,其目的是 为 了 “培 养”机 器 对 这 种 二 元 关
文本,其语义是相似的,都表示了某种动物对于更大 系的认知鉴别能力;“抽取”则是第 2 步,目的是利用
范畴的归属关系;同时,如果使用编辑距离或其他相 机器对该二元关系 的 鉴 别 能 力,从 自 然 语 言 文 本 中
892 计 算 机 学 报 2017 年
De
tec
ti
[ ]
on)23 . 关系也离不开相关 蕴 含 知 识 的 积 累,尤 其 是 基 于 逻
识别文本蕴含关系本质上是一种基于语义进行 辑演算或转换的方 法,其 性 能 直 接 依 赖 于 可 应 用 的
推 理 的 过 程 .因 此,其 中 有 两 个 核 心 问 题 需 要 考 蕴含知识 .
虑———语义表示和推 理 机 制 .这 是 一 对 相 辅 相 成 而 广义 地 讲,所 谓 蕴 含 知 识 就 是 对 于 识 别 文 本 蕴
又互相矛盾的问题 .一方面,在识别文本蕴含关系的 含关系 有 用 的 知 识 .狭 义 地 讲,蕴 含 知 识 是 由 LHS
过程中,语义的表示 形 式 是 为 方 便 推 理 机 制 的 执 行 (
Lef
t-hand
Side)和 RHS(
Righ
t-hand
Side)两 部 分
而设计的,反过来,推理机制也能一定程度上弥补文 组成 的 蕴 含 规 则,即 “LHSRHS”.例 如,若 已 知
本对 T-H 的语义 表 示 上 的 鸿 沟,因 此,二 者 相 互 配 “苹果 水果”,就可 以 得 出 “他 吃 了 一 个 苹 果 . 他
合,缺一不可;另一 方 面,语 义 建 模 的 鲁 棒 性 和 推 理 吃了一个水果 .”;若已知“
X 购买了 YX 拥有 Y”,
机制的严 谨 性 却 是 一 对 不 可 兼 得 的 矛 盾 .自 然 语 言 就可以得出“我买了一台电脑 . 我拥有一台电脑 .”
处理技术中有一系列语言分析( Language
Anal
yss)
i 下面给出文本蕴含知识获取任务的定义:
工具,诸 如 分 词 (Wo
rd Segmenta
tion)、词 性 标 注 定义 3. 给定一个 文 本 集 合 S,要 求 机 器 对 其
(
POS Taggng)、句法分析(
i Pa
rsng)、语义角色标注
i 中构成文本 蕴 含 关 系 的 文 本 片 段 以 “
LHSRHS”
(
Seman
tic
Role
Labe
ling)、形式化逻辑表示( Fo
rma
l 的形式 抽 取 出 来,该 任 务 称 为 文 本 蕴 含 知 识 获 取
Log
ic
Repr
esen
tat
ion)等 .在 这 个 序 列 中,自 前 至 后 (
Tex
tua
l En
tai
lmen
t Knowl
edge
Acqu
isi
tion).
各个语言分析工具 对 文 本 语 义 的 刻 画 越 来 越 精 确: 文本蕴含知识获取研究中也有两个核心问题需
分词仅仅是把文本 按 单 词 进 行 切 割,词 性 标 注 在 此 要考虑———知识表示和知识来源 .
基础上增加了词性信息……形式化逻辑表示已经把 知识 的 表 示 形 式 是 为 了 方 便 应 用 而 设 计 的,蕴
语义表示成为精确 的 数 学 逻 辑 了 .越 严 谨 的 推 理 机 含知识根据是否含 有 变 量 可 以 划 分 为 两 类:单 词 及
制对语义表示的精确性要求就越高,例如,若能把文 短语 级 别 的 蕴 含 知 识 (不 含 有 变 量,如 “苹 果 水
本对 T-H 用形式逻辑表示成为两个命题,就可以借 果”)和模板级别的 蕴 含 知 识 (含 有 变 量,如 “
X 购买
用数学上严谨完备 的 机 器 证 明 工 具 进 行 推 理;但 如 了 YX 拥有 Y”).事实上,蕴含知识的应用场景往
果仅用单词或词性 来 对 语 义 建 模,就 只 能 应 用 单 词 往是特定的,很少有放之四海而皆准的蕴含知识 .例
重叠度、相似度或其他简易的启发式方法进行“模糊 如,“
acqu
ire”作为及物动词既有“购买”的意思,也有
推理”了 .事实上,在 上 述 序 列 中 自 前 至 后 语 言 分 析 “学习”的意思,蕴含知识“ X
acqu
ire
YX
pur
cha
se
的难度在不断增加,同 时 靠 后 的 语 言 分 析 工 具 也 依 Y”在 “AT&T
acqu
ire(收 购 )T-Mob
ile AT&T
4期 郭茂盛等:文本蕴含关系识别与知识获取研究进展及展望 893
purchas
e T-Mobi
le”的上下文中成立,但在“ Chi
ldren 84 ≈0.
0. 5 就可以认为其正确性难以保 证 .因
4<0.
acqui
re(习 得 )
ski
llsCh
ild
r pur
en cha
sesk
i
lls”的 此,在研究文本蕴含对生成问题时,在推理广度和深
场景下中并不成立,因 此 如 何 对 蕴 含 知 识 的 应 用 场 度上都要进行有效剪枝 .
景进行建模是知识表示问题中需要考虑的地方 . 外因:一方面,蕴含对的生成需要依赖蕴含识别
蕴含知识的潜在来源有很多,例如词典、百科、新 技术所提供的推理机制和知识获取技术所积累的知
闻语料、
普通互联网文本等等.按照是否有专家参与构 识库,但是当前关系 识 别 和 知 识 获 取 的 研 究 尚 不 够
建可以把知识源分为人工构建的资源和大规模语料两 成熟,推理机制不够鲁棒,知识库中的推理规则的完
类,
前者小而精,后者广而粗,针对不同的知识来源需 备性和实用性也有所欠缺 .另一方面,由于推理的发
要设计不同的知识获取方法.图 2 展示了文本蕴含知 散性,文本蕴含对的生成技术缺少广泛的应用场景 .
识获取的两个核心问题,
2.2节将从围绕这两个问题对 目前已有学者 [25]在对话系统领域进行了尝试 .
当前蕴含知识获取研究取得的进展进行梳理. 1.
3.4 识别、获取与生成的关系
作为 文 本 蕴 含 研 究 领 域 的 3 个 基 本 问 题,文 本
蕴含的关系识别、知 识 获 取 与 蕴 含 对 生 成 3 项 研 究
彼此联系,相辅相 成,构 成 了 一 个 紧 密 结 合 的 整 体,
其关系如图 3 所示 .
图 2 文本蕴含知识获取的核心问题
图 3 文本蕴含的基本问题及其关系
1.
3.3 文本蕴含对的生成
文本蕴含关系识别研究是文本蕴含有关研究的
定义 4. 给 定 一 个 文 本 片 段 T 和 蕴 含 知 识 库
基石,培养了机器的对蕴含的识别能力,“输出”了推
D,要求机器根据 D 生成能够被 T 蕴含的文本 片 段
理机制;而文本蕴含 知 识 的 获 取 需 要 识 别 技 术 对 自
H,使 TH 成立,该任务称为文本蕴含对的生成 .
然语言文本中的蕴 含 知 识 进 行 识 别,进 而 输 出 蕴 含
从定 义 4 可 以 看 出,文 本 蕴 含 对 的 生 成 任 务 实
知识库;同时,蕴含知识库对某些基于转换或演算的
D)对 给 定
际上是在模拟人类根据自身 掌 握 的 知 识(
识别研究提供了便 利;而 文 本 蕴 含 对 的 生 成 则 需 要
线索 (
T)进 行 推 理 的 过 程 .目 前 文 本 蕴 含 领 域 的 研
推理机制和蕴含知识库共同为其提供动力 .
究主要集中在文本蕴含的关系识别和知识获取两个
4 章节安排
1.
任务上,对文本蕴含对的生成方面研究较少 [24-26].其
本节中的 1.
1 节对文本蕴含的研究背景、应用场
原因大致有以下几个方面 .
景、
研究目的进行了阐述;
1.2 节给出文本蕴含的定义,
内因:一方 面,H 的 候 选 项 个 数 随 推 理 步 数 的
与其它文本间关系的区别与联系,界定其研究范畴;
增加呈指数级增长:假设蕴含知识库中的每个 LHS
3节指出文本蕴含研究的 3 个基本问题———关系识
1.
平均对应 3 个 不 同 的 RHS,那 么 经 过 一 步 推 理 可
别、
知识获取和蕴含对的生成:
1. 1 节指出关系识别
3.
能产生3 个一级候选项( RHS1 , RHS3),由于
RHS2 ,
的两个核心问题———语义表示与推理机制,并给出他
蕴 含 关 系 的 传 递 性,则 可 能 产 生 9 个 二 级 候 选
们的制约关系;1.
3.2 节指出知识获取的两个核心问
(
RHS11 , RHS33 )……3N 个 N 级 候 选 项 .
RHS12 ,…,
题———知识表示与知识来源; 1.
3.3节指出目前蕴含对
另一方面,推理的可 靠 性 随 推 理 步 数 的 增 加 迅 速 降
生成相关研究进展缓慢的内因和外因;最后,
1. 4节
3.
低:假设知识库中的 每 个 推 理 规 则 的 平 均 可 靠 度 为
讨论识别、
获取与生成的关系.
8,当 可 靠 度 低 于 0.
0. 5 时 认 为 推 理 不 可 靠,那 么 由
第2 节 对 文 本 蕴 含 的 研 究 进 展 进 行 归 纳 梳 理.
于 错 误 的 级 联 效 应,经 过 四 次 推 理,其 可 靠 度 为
894 计 算 机 学 报 2017 年
首先,关系的识别研究是文本蕴含相关研究的基石; Mehdad 等人 14 进 一 步 丰 富 了 编 辑 距 离 算 法,
[ ]
1 节将围绕 推 理 机 制 对 其 研 究 脉 络 进 行 梳 理,详
2. 首先提出了基于句 法 树 的 相 似 度 计 算 模 型,其 编 辑
细介绍各种机制的 基 本 思 想、演 化 关 系 及 其 可 取 与 操作定义在 T 和 H 的句法树节点上,但其基本操作
不足之处;其次,文本蕴含关系的识别离不开对蕴含 较为简单 .
Helman 等 人 13 则 在 Mehdad 等 人 的 基
i
[ ]
知识的积累;
2.2节将围绕知识表示和知识来源这 础上定义了更加复 杂 的 句 法 树 编 辑 操 作,包 括 对 子
两个核心问题来讨 论 怎 样 挖 掘 蕴 含 知 识,并 指 出 不 节点、父 节 点、兄 弟 子 树 的 增 加、改 动、删 除 等 操 作,
同知识获取方法的优缺点;最后,文本蕴含相关研究 最终不仅提高了文 本 蕴 含 关 系 的 识 别 率、也 在 复 述
的蓬勃 发 展 离 不 开 近 年 来 频 繁 举 办 的 国 际 评 测; 和问答系 统 的 答 案 选 择 等 任 务 上 都 取 得 了 不 错 的
3 节将简要介绍其中影响较大 的 几 个 国 际 评 测 和
2. 成绩 .
一些常用的数据集,并 给 出 相 应 的 评 价 指 标 和 当 前 任函 等 人 [35] 提 出 了 一 种 基 于 话 题 相 似 性 的
的最好成绩 . RTE 方法 .该方法认为存在蕴含关系的文本应当具
经过 多 年 的 发 展,文 本 蕴 含 相 关 研 究 取 得 了 一 有 相 似 或 相 同 话 题 .该 方 法 利 用 知 识 话 题 模 型
定的进展,但尚未完全达到成熟实用的水平 .大数据 (
Knowledge-Ba
sed Top
ic l)来 计 算 语 义 相 似
Mode
时代的到来和近期深度学习理论与实践的发展为文 度,并以此为依据判定蕴含关系 .
Sakh 等人 36 首次
i
[ ]
本蕴含研究领域同 时 带 来 了 机 遇 与 挑 战 .第 3 节 将 将机器翻译中用于评价系统译文和标准译文近似程
立足当前研究现状,结 合 未 来 发 展 形 势 并 对 文 本 蕴 度的指标当作 T-H 对的相似度量 .
含的发展前景进行展望 . 这些 基 于 相 似 度 的 方 法 实 现 比 较 简 单,同 时 方
便设计各种相似度量,但是这种方法强行假设“相似
2 研究现状分析 即蕴含”,导致大量语义相似但并非构成文本蕴含关
系的实例被错误识别,例如 T4-T5.
1 蕴含关系的识别方法
2. 基于相似度的识别方法的一般形式化表示如下:
文本蕴含关系的识别研究是文本蕴含相关研究
烄1,若 ∑wis
imi(
T,H )>θ
的基石,本节将对其研究脉络进行梳理,介绍不同方 F(
T,H )= 烅 i ,
法的基本思想、演化关系及其可取与不足之处 . 烆0, 否则
2.
1.1 基于相似度的文本蕴含关系识别方法 其中:函 数 F (
T,H )是 蕴 含 关 系 的 判 定 函 数,若
构成蕴含关系的 T-H 对往往比较相似,如前例 F( H )=1,则 判 定 TH,若 F(
T, T,H )=0,则 判
中的 T1-H1.因此,有 人 提 出 可 以 利 用 T-H 对 的 相 定 T θ 为阈值,取值为正;
/ H; simi(
T,H )是某种相
似程度来判断其是 否 构 成 蕴 含 关 系 .这 就 是 基 于 相 wi为其权重 .
似度量,
似度的文本蕴含关系识别方法的基本思想 . 2.
1.2 基于对齐的文本蕴含关系识别方法
这类 方 法 比 较 直 观,在 RTE 研 究 领 域 的 早 期 在基 于 相 似 度 的 识 别 方 法 基 础 上,演 化 出 了 基
曾经一度是主流方法,但随着研究的不断深入,现在 于对齐的识别方法 .这 类 方 法 并 不 是 直 接 使 用 相 似
多把相似度作为判别模型的一个特征 [
27-30]
. 度来判断蕴含关系,而是先把 T 和 H 中相似的部分
J
ijkoun 等人 首先提 出 了 基 于 词 袋 模 型 (
[
16]
Bag 找出来进行对齐,然 后 把 对 齐 的 方 式 和 程 度 作 为 判
o
f Words)的文本蕴含关系识别方法 .他的具体做法 断是否构成蕴含的依据 .
e等人 23 首次把对齐和判断蕴含 分
[ ]
是首先把句子分词,通过词频对单词进行赋权,然后 De
Marne
ff
计算 L
in- 相 似 度 31 和 Wo
[ ]
t32 相 似 度,并 以 此
rdNe
[ ]
成了两个步骤,并人工标注了部分对齐数据,然后应
为依据判断蕴含关系 . 用机器学习方法学 习 对 齐 参 数,实 现 了 自 动 对 齐 辅
Adams
[
15]
在J
ijkoun 的 词 袋 模 型 基 础 上,创 造 助识别蕴含关系的方法 .
ene37 提出了 非 监 督 的 自 动 化 映 射 方 法 .他
[ ]
性 地 提 出 了 一 种 新 的 相 似 度 量 .该 方 法 利 用 从 I
ft
WordNet32 中 抽 取 出 的 词 链 来 连 接 T 和 H,并 计
[ ]
首 先 使 用 DIRT[38]、Wo
rdNe
[ ]
t32 、Ve
rbOc
e
[ ]
an39 、
算 两 者 之 间 的 编 辑 距 离 ,最 终 结 合 其 他 特 征 使 用 Wi
kiped
ia 等外部知识库把 H 中的单词向 T 中的对
决 策 树 识 别 蕴 含 关 系 .类 似 地 ,张 鹏 等 人 [
33]
利用 应部分做映射,计算局 部 对 齐 程 度 (
Loc
al
Fit
nes),
s
Fr
ameNe
t
[
34]
中连接 T-H 的框架路径以及框架元素 归一化后换算成为全 局 对 其 程 度 (
Globa
l F
itne
ss).
相似度来判断蕴含关系 . 如果存在多种映射 方 式,优 先 选 择 全 局 对 齐 程 度 最
4期 郭茂盛等:文本蕴含关系识别与知识获取研究进展及展望 895
理规则 .而 Ra
ina等人 17 也引入了代价(
[ ]
t)机制 .
Cos 列作为特征,通过决策树来判定蕴含关系 .
基于逻辑演算的方法把数学界机器证明领域成 S
tern 等人 51 在 Ba
[ ]
r-Ha im 等 人 的 工 作 47 基 础
[ ]
N
H;映射 C: → {
0,1}是 分 类 器,分 类 为 TH 时 自然语言 处 理 领 域,对 句 子 进 行 建 模 .Yi
n 等 人 73
[ ]
Go
llr等人 66 所 提 出 .
e
[ ]
r 等 人 67 首 先 将 递 归
Soche
[ ]
提出基于 LSTM 的 句 子 模 型 .具 体 地,按 照 从 左 到
神经网 络 应 用 到 句 法 分 析 领 域 .其 后,Soche r等 右的顺序,依次将句子中的每个词送入 LSTM 神经
人 [68]与 I
rsoy 等 人 69 又 将 递 归 神 经 网 络 用 于 情 感
[ ]
网络,输 入 完 毕 后,用 LSTM 的 最 终 状 态 输 出 来 表
分析领域 .与 RTE 任务 类 似,情 感 分 析 也 是 一 个 文 示这个句子 .
Bowman 等人 78 首次将 LSTM 句子模
[ ]
而判定蕴含关系成立,否则将其判定为冲突或中性关 1)借用数学上成熟的“机器 (
( 1)由 于 文 本 到 逻 辑 命 题
证明”思想,具有一定的 的转换鲁棒性不 足,导
系 .通过对 mLSTM 的输入门 (
inpu
t ga
te)的分析发 逻辑演算 理论基础; 致容错性较差;
2)能够解决诸如数量蕴含等 (
( 2)背景知识缺乏导致推理
现,重要的实词(
con
ten
t rds)会被 mLSTM 重视,
wo 其他方法难以判断的问题 . 链条中断, 召回率低.
而停用 词 往 往 被 忽 视 .mLSTM 的 机 制 符 合 人 类 直 1)保留了基于逻辑演算方法
( 方法性能严 重 依 赖 转 换 规
的合理内核; 则:不 完 善 的 规 则 导 致 召
觉,设计的比较巧妙 . 转换
2)不要求转换为逻辑式,一
( 回率 低,错 误 的 规 则 导 致
Cheng 等人 从人类的阅读习惯中获得灵感,提
[
82]
定程度上提高了鲁棒性 . 识别准确率低 .
出了LSTMN( Long
Sho
rt-Te
rm
Memo
ry-Ne
two
rks) 混合模型
1)方法不够直观;
融合了多 种 推 理 机 制 的 特 征,(
综合性强,从而适用性较广 2)需要较多的训练语料
(
模型 来 识 别 蕴 含 关 系 .与 传 统 LSTM 模 型 相 比,
1)连 续 化 向 量 表 示,克 服 了
(
LSTMN 使用记 忆 带 (memo ry ape)而 不 是 记 忆 槽
t 特征稀疏问题;
深度 2)神经网络能一定程度上模
( 1)模型参数众多;
(
(Memor Ce
y l)来 记 忆 以 往 的 状 态 (
l sta
te)和 输 出
神经 拟了人脑的思维机制; 2)学习收敛速度慢;
(
(ou
t t),解决了之 前 LSTM 类 方 法 记 忆 压 缩 导 致
pu 网络 3)识别准确率高;
( 3)需要大量的训练语料 .
(
2)鲁棒性强;
(
信息损失的问题 .并且该模型在 LSTM 内部添加了
3)领域可移植性好 .
(
一个 At
tent
ion 层 来 实 现 序 列 内 部 的 参 照 .实 验 表
明,内 部 Atten
tion 层 能 够 捕 获 句 内 依 存 关 系 . 2 蕴含知识的获取方法
2.
对于双序 列 建 模 问 题, Cheng 等 人 设 计 了 Sha
llow 文本蕴含关系识别研究离不开相关蕴含知识的
At
ten
tion
Fus
ion 和 De
ep
Att
ent
ion
Fus
ion 两种参 积累 .尤其是基于逻辑演算或转换的方法,其性能直
4期 郭茂盛等:文本蕴含关系识别与知识获取研究进展及展望 899
接依赖于可应用的蕴含知识 .由 1.
3.2 节可知,知识 有学者提出了从大规模语料中获取文本蕴含知识的
来源与知识表示是蕴含知识获取研究的两个核心问 方法 .
题 .其中,蕴含知识来源可以分为人工构建的资源和 1)单词及短语级别的蕴含知识获取
(
大规模语料两种;蕴 含 知 识 按 照 表 示 方 式 不 同 可 划 Har
ris90 提出了 “分布假设”的思想,即具有相
[ ]
分为两类———单词及短语级别的蕴含知识和模板级 似上下文的单词或 短 语 的 语 义 是 相 似 的 .而 语 义 相
别的蕴含知识 .下面 将 围 绕 这 两 个 核 心 问 题 对 蕴 含 似的单词或短语往往具有蕴含关系 .
知识获取方法进行介绍 . L
in91 基于分 布 假 设 思 想 提 出 了 L
[ ]
in-相 似 度,
2.
2.1 从手工构建的资源中获取蕴含知识的方法 并用它在 大 规 模 语 料 中 获 取 单 词 及 短 语 级 蕴 含 知
(1)单词及短语级别的蕴含知识获取 识.
Lin-相 似 度 的 特 点 是,如 果 两 个 词 W-V 的 上 下
人工 构 建 的 资 源 主 要 有 词 典 和 百 科 两 类 .词 典 文重 合 率 较 高,这 两 个 词 的 L
in-相 似 度 也 会 比 较
中的词项一般由单 词 及 其 释 义 构 成 .而 单 词 的 释 义 高 .如果某 两 个 词 W-V 的 L
in-相 似 度 超 过 某 个 阈
中,有可能含有该单词的同义词、上位词等蕴含知识 . 值,就认为它们之间存在蕴含关系 .该方法从语料中
Wo
rdNe
t 释 义 精 炼、形 式 规 范,是 在 RTE
[
32]
获取了大量的单词 及 短 语 级 蕴 含 知 识,但 其 中 难 免
系统 中 广 泛 用 到 的 机 读 词 典 (Ma
chi
ne Re
adab
le 有一些噪声 .一些上 下 文 相 似 却 不 具 备 蕴 含 关 系 的
an 等人 首先尝试将 Wo 反义 词,如 “
good-bad”,会 混 在 所 获 取 的 蕴 含 知 识
[
83]
Di
cti
ona
ry).Mo
ldov rdNe
t
中单 词 释 义 转 化 成 为 逻 辑 表 达 式 .Kouy
lekov 等 中 .此外,该方法没有给出两个词之间的蕴含方向 .
人 [
利 用 Wo
84]
rdNe
t
[
中 词 汇 的 同 义 词、上 下 位 词
32]
对此,
Gef
fet等人 92 提 出 了 一 种 确 定 单 词 间 蕴
[ ]
等关系获取 单 词 及 短 语 级 的 蕴 含 知 识 .
Paz
i a等
enz 含 方 向 的 方 法 .其 基 本 思 想 是,对 给 定 的 两 个 词
人 [
利 用 Wo
85]
t 中 单 词 间 关 系、Ve
rdNe rbNe
t
[
86]
中 W-V,如果在所有 V 的上下文中都可以把 V 替换成
动词间框架关 系 以 及 Wo t与 Ve
rdNe t的 映 射
rbNe 为 W ,就 认 为 W 比 V 的 适 用 范 围 更 广,从 而 认 为
关系来获取蕴含知识 . WV.此外, Zanz
oto 等 人 93 提 出 了 基 于 “选 择 偏
t
[ ]
维基百科等在线百科是的蕴含知识的另一大来 好(
sel
ect
iona
l pre
fer e)”的 动 词 间 蕴 含 方 向 判
enc
源.
Kouy
lekov 等 人 87 用 基 于 LSA 的 词 汇 相 似 度
[ ]
定方法 .所谓选择偏好是指动词的语义角色类型,语
方法从维基百科中 获 取 单 词 及 短 语 级 蕴 含 知 识;此 义角色类型较多的 动 词 蕴 含 语 义 角 色 较 少 的 动 词 .
外,百科数据的结构性较强,有些结构暗示了蕴含关 Kot
lerman 等 人 94 进 而 提 出 了 有 方 向 的 相 似 度
[ ]
系,例如,在维基百科的标题中有很多用于解释的括 (Di
rect
iona
l S
imi
l ar
it Me
y a e)来确定蕴含方向 .
sur
号结构“W(
V)”,这 种 结 构 其 实 暗 示 着 WV 这 一 2)模板级别的蕴含知识获取
(
蕴含关系,如 由 “
The
Sien(Mus
r icl)”可 得 出 “
a The L
in 等人 38 沿用 分 布 假 设 思 想,又 提 出 了 一 种
[ ]
ch 等 人 88 手 工 总 结 了 维 基 模板级蕴含 知 识 获 取 方 法 DIRT.对 于 一 个 模 板 来
[ ]
S
iren Mus
icl”.
a Shna
r
百科中类似的蕴含 模 式,然 后 通 过 模 式 匹 配 的 方 法 说,例如“
X Y”,可以 把 它 的 上 下 文 定 义 为 所 有
buy
获取单词及短语级蕴含知识 . 可以填充槽 X 和 Y 的单词集合 .两模板的相似度可
2)模板级别的蕴含知识获取 以用槽 X 的 Ln-相似度 91 与槽 Y 的 Ln- 相似度的
[ ]
( i i
t34 是一个按 照 语 义 框 架 进 行 组 织 的 几何平均值表示 .和基于分布假设的单词及短语级蕴
[ ]
Fr
ameNe
英语词典资源 .其中的每个框架对应一种事件类型, 含知识获取方法类似, DIRT 获取的知识中经常包含
包括属于该框 架 的 谓 词、论 元 以 及 例 句 .Aha
ron 等 构成 反 义 的 模 板 对,如 “X so
l s Y”-“X wo
ve rsens
人 [89]提出了一种利 用 Fr t框 架 间 关 系 从 中 例
amNe Y”.另外,该 方 法 没 有 给 出 蕴 含 方 向 .但 实 际 上,该
句中获取蕴含模板(如 cur
e XX
re r)的方法 .
cove 方法所获取到的模板对 中,只 有 大 约 20% ~25% 是
由于人工构建的知识库覆盖了比较重要的词汇 双向蕴含的复述模板对 [95],而大量 其 它 模 板 对 只 存
关系,并且结构性较强,因此从其中获取到的蕴含知 在单向蕴含关系,如 果 在 应 用 模 板 时 不 加 以 区 分 会
识的准确率较高 .但是知识库中词汇相对固定,导致 对系统带来不确定性 .
该类方法所获取的蕴含知识规模比较受限 . Szpek
tor 等 人 96 从 另 一 个 角 度 提 出 了 基 于
[ ]
2.
2.2 从大规模语料中获取蕴含知识的方法 boo
tst
rapp
ing 的 TEASE 方 法 .该 方 法 可 以 根 据 人
除了 词 典 等 人 工 构 建 的 资 源,大 规 模 新 闻 语 料 工提供的种子模板 迭 代 地 从 语 料 中 获 取 蕴 含 知 识 .
或 Web 检索结果中同样包含丰富的蕴含知识,因此 具体地,首先用种子 模 板 在 搜 索 引 擎 中 检 索 得 到 一
900 计 算 机 学 报 2017 年
1)语料 结 构 性 差,获 取
( 其中:#pai
rs 是 T-H 对 的 总 数; ︵i 是 系 统 对 第i 个
y
的知识准确率低;
1)具 有 相 似 上 下 文 (
( 2)新 闻 语 料 表 达 方 式 T-H 对的关系 判 定 标 签,yi 是 其 正 确 答 案; 1[·]是
大规模
基于 的短语/模板往往 单一,获 取 的 知 识 覆 指示函数,当其参数为真时值为 1,否则为 0.
新闻语料;
分布 具有蕴含关系; 盖度低;
Web
假设
检索结果
2)方法简单;
( 3)Web 检 索 结 果 的 规
( RTE-1~ RTE-3 的 语 料 可 从 PASCAL 的 网
3)语料易收集 .
( 范性和 一 致 性 差,导
致蕴 含 规 则 的 应 用 站 ① 上获取; RTE-4~RTE-7 的语料可从 TAC 的网
性能较低 .
站 ② 上获取 .经 过 历 届 的 RTE 评 测,识 别 文 本 蕴 含
基于 大规模
大规模 语 料 库 中 表 述 需 要 较 多 的 人 工 干 预
Boot- 语料库;
方式的 多 样 性 使 获 取 (需人 工 制 定 种 子 模 板、
s
trap- Web
的蕴含模板规模较大 过滤规则) ① h
ttp:
//pa
sca
lli
n.ec
s.soton.a
c.uk/
ping 检索结果
② h
ttp:
//www. n
is gov/
t. ta /da
c t/
aindex.
html
4期 郭茂盛等:文本蕴含关系识别与知识获取研究进展及展望 901
(
Forward En
tai
lment,简记为 F)、
T 与 H 双向蕴含 术评价句法分析结果 . l-2012、
SemEva SemEva
l-2013
(
Bi-d
ire
cti
onal
Enta
i t,简记为 B)、
lmen T 与 H 矛盾 举办了两届CLTE( Cross-L
ingu
al T
extua
l Enta
i t)
lmen
on,简记为C)、
T与 H独立( 评测 ,要求 识 别 来 自 不 同 语 言 的 文 本 对 T-H
[
121-122]
(
Con
trad
ict
i Inde e,
pendenc
简记为 I). 是否构成蕴含关系 .
CLTE 评测要求对 T-H 间关系
RITE 任务的 评 价 指 标 是 Ac
curacy,其 与 经 典 进行四 元 分 类:前 向 蕴 含、后 向 蕴 含、双 向 蕴 含、非
的 RTE任务相同,详见2.
3.1节 .表 4中列举了 RITE 蕴含 . l-2013 增 设 SRA (
SemEva Studen
t Re
spons
e
任务中与中文相关 的 常 用 数 据 集,并 介 绍 了 其 语 料 Ana
lys
is)评测 9 ,
[]
SRA 评测要求参测系统对学生的
规模、平衡性、最佳成绩等信息 . 作业进行打分 .由于学生的作业与标准答案之间的蕴
2.
3.5 SemEval相关评测 含关系 可 以 指 示 学 生 答 案 的 完 善 程 度,因 此 这 届
SemEva (
l Seman
tic
Eva
lua
tion)是 一 个 致 力 于 SRA 评测又被 SemEv l称为 RTE-8 评测 .
a SemEval-
促 进 各 类 语 义 分 析 方 法 发 展 的 研 讨 会 .SemEva
l 的
2014 ta
sk
1
[
123]
所衍生的S (
ICK Sen
tenc
esI
nvo
lvi
ng
的前 身 是 Sens l(Wo
eva rd Sense Dis
amb i
guati
on Compo
sit
ion
al
Knowl
e e)语料库 ① ,包含了约 10000
dg
Eva
lua
tion),该评 测 前 期 主 要 关 注 词 义 消 歧 任 务, 个有三元蕴 含 标 注 (蕴 含、冲 突、中 性 )的 英 语 T-H
后来逐渐 加 入 其 他 语 义 分 析 任 务 并 改 为 按 年 度 举 对,为近 期 识 别 文 本 蕴 含 研 究 提 供 了 标 准 评 测 语
办.
2010 年起开 始 引 入 有 关 文 本 蕴 含 的 评 测 任 务 . 料 [124],表4 介绍了其语料规模、平衡性、最佳成绩等
SemEva-2010 举办了 PETE(
l Par
ser
Eva
lua
tion
usi
ng 信息 .
SICK 语料库的评价指标是 Ac
curacy,与 经 典
s)评测 ,要求利用文本蕴含技 的 RTE 任务相同,详见 2. 1节.
[11]
Text
ual Enta
ilmen
t 3.
表 4 常用数据集对比
数据集 发布 数据集规模(
T-H 对数量) 最好成绩
语言 T-H 对关系 类别分布
名称 时间 训练集/开发集 测试集 Ac
curacy 推理机制
RTE-1 英语 2004 567 800 蕴含 + 非蕴含 50%∶50% 519[19
0. ]
逻辑演算
RTE-2 英语 2005 800 800 蕴含 + 非蕴含 50%∶50% 6262[15]
0. 相似度
RTE-3 英语 2006 800 800 蕴含 + 非蕴含 50%∶50% 670[107]
0. 相似度
RTE-4 英语 2008 未发布 [106] 1000 蕴含 + 中性 + 冲突 50%∶35%∶15% 614[125]
0. 混合模型
RTE-5 英语 2009 600 600 蕴含 + 中性 + 冲突 50%∶35%∶15% 6833[126]
0. 对齐
RITE-2-
汉语(简体) 2012 814 781 蕴含 + 非蕴含 950∶645 0.
7465 [
127] 对齐
CS-BC
RITE-2-
汉语(简体) 2012 814 781 B+F+C+I
304∶646∶252∶393 6108[127]
0. 对齐
CS-MC
RITE-2-
汉语(繁体) 2012 1321 881 蕴含 + 非蕴含 1195∶1007 6776[128]
0. 混合模型
CT-BC
RITE-2-
汉语(繁体) 2012 1321 881 B+F+C+I
413∶872∶368∶549 5664[129]
0. 混合模型
CT-MC
S
ICK 英语 2014 4934 4906 蕴含 + 中性 + 冲突 2821∶5595∶1424 769[70]
0. RNTN
2.
3.6 SNLI语料 ① SICK 语 料 库 获 取 地 址 ht
tp:
//c
lic.
cimec.
uni
tn.i/c
t ompo-
[ ] se/s
s ick.
html.
I(
SNL S
tan
for
d Na
tur
al
Language
In
fer e)78
enc ② SNL I语料 库 获 取 地 址 h t
tp:
//nl
p.stan
for
d.edu/pro
jec
ts/
是斯坦福 大 学 自 然 语 言 处 理 研 究 小 组 所 发 布 的 用 snl
i/.
③ 除蕴含、 冲突、中性外, SNLI语料中还存在少量没有 标 签 的
于评测 识 别 文 本 蕴 含 关 系 方 法 的 语 料 库 ② .该 语 样本 .
4期 郭茂盛等:文本蕴含关系识别与知识获取研究进展及展望 903
评价指标是 Ac
curacy,与经典的 RTE 任务相同,详 富多样的文本蕴含 知 识,那 么 将 很 大 程 度 上 解 决 当
见 2.
3.1节. 前基于逻辑演算或 转 换 的 RTE 方 法 中 由 于 背 景 知
2.
3.7 常用数据集对比与当前最好成绩 识缺乏而导致推理 链 条 中 断 的 问 题,进 而 提 高 这 类
本节 通 过 表 格 的 形 式 在 数 据 集 规 模、类 别 分 布 方法的鲁棒性 .此外,神 经 网 络 类 RTE 方 法 模 型 复
等维度上对文本蕴含关系识别研究中常用的中英文 杂、参数众多,导致 所 需 要 的 训 练 集 规 模 非 常 大,而
数据集进行了对比,并 且 给 出 了 在 每 个 数 据 集 上 取 这些海量文本便成为了潜在的训练语料 .因此,大数
得的 最 好 成 绩 和 对 应 的 推 理 机 制 .其 中 SNLI数 据 据所带来的海量自然语言文本是能促进文本蕴含有
集语料规模大、类别分布平衡,是目前最优标准测试 关研究的宝藏 .
集,表 5 对其上展开的最新研究进展进行了总结 . 那么,如 何 利 用 大 数 据 来 获 取 更 多 的 蕴 含 知 识
关于 数 据 集 规 模,早 期 发 布 的 RTE 系 列 英 文 以及潜在训练语料 将 是 1 个 值 得 研 究 的 课 题 .笔 者
语料 和 RITE 系 列 中 文 语 料 中 T-H 对 的 数 量 一 般 认为至少可以从以下 3 个出发点着手:
都在 2000 对 以 下,规 模 比 较 有 限;而 近 期 发 布 的 1)文本自身的弱标注线索
(
ICK 和 SNLI 语 料,其 中 的 T-H 对 数 量 在 10
S 000 除人 工 构 建 的 资 源 之 外,自 然 语 言 文 本 大 多 是
对以上 . 非结构化的,并且没 有 显 式 地 标 注 出 其 中 的 蕴 含 关
由表 4 可知,在小数据集上,人工构建特征的经 系,但是文本自身仍 然 存 在 一 些 指 示 蕴 含 关 系 的 线
典方法,例如基于相似、对齐或逻辑演算的推理机制 索,例如:
所取得的效果比较 好;而 在 大 数 据 集 上 基 于 深 度 神 关联词“那么”、“因 此”有 可 能 连 接 了 一 些 存 在
经网 络 的 识 别 方 法 取 得 的 成 绩 较 好 .由 2.
1.6节的 蕴含关系的文本;
讨论可知,神经网络类方法能够自动学习 T 和 H 的 文本 所 提 及 事 件 发 生 时 间 的 先 后,也 有 可 能 指
表示向量,不需要人工构建特征,但是对训练样本的 示了蕴含关系;
数量有比较高的要求,这里再次印证了这一点 . 句式“X 是一种 Y”或“
X,一种 Y”,可能暗 示 X
由表 5 可 知,神 经 网 络 类 模 型 需 要 学 习 的 参 数 蕴含 Y……
量巨大,几乎都在 百 万 级,但 由 于 训 练 样 本 充 足,其 以往 数 据 规 模 较 小,导 致 这 些 弱 标 注 线 索 分 布
识别性能已经超过了经典的混合模型 . 比较稀疏,能匹配的蕴含现象非常有限,从而导致这
些线索价值较低 .但 是 大 数 据 时 代 带 来 了 海 量 的 自
3 未来研究展望 然语言文本,使得即 使 一 些 之 前 认 为 分 布 比 较 稀 疏
的弱标注线索仍然 会 对 应 大 量 的 实 例,因 此 可 以 通
经过 众 多 学 者 多 年 来 的 不 断 耕 耘,在 文 本 蕴 含 过在海量自然语言文本中检索弱标注线索的方法获
关系的识别和蕴含知识的获取两个领域涌现了不少 取丰富多样的蕴含知识和潜在训练语料 .
思路迥异但行之有 效 的 方 法 .大 数 据 时 代 的 到 来 以 2)文本载体的弱结构信息
(
及近期深度学习研 究 的 蓬 勃 发 展,为 文 本 蕴 含 研 究 尽管 海 量 自 然 语 言 文 本 是 非 结 构 化 的,但 是 文
带来了丰富的知识 来 源 和 有 力 的 科 研 工 具 .可 以 预 本的载体或多或少会具有一些结构性信息,例如:
见,如何有效地利用 这 些 便 利 促 进 文 本 蕴 含 研 究 将 新闻或电子邮件至少有标题和正文两部分组
成为未来的研究热点 .本节立足当前研究形势,提出 成,而标题一般是正文的凝练概括,一般是可以由正
了几个未 来 研 究 方 向 以 及 一 些 理 论 上 可 行 的 研 究 文推理得出的 .这种 弱 结 构 信 息 就 指 示 了 两 个 文 本
思路 . 片段———标题和正文———之间的蕴含关系;
1 大数据带来的机遇与挑战
3. Twi
ttr中 的 Ha
e Tag 一 般 会 按 照 话 题 事 件
sh
随着“大数据”时 代 的 到 来,人 们 所 积 累 的 自 然 进行组织,而 描 述 这 些 话 题 的 Twe
ets是 带 有 时 间
语言文本越来越多,这 给 文 本 蕴 含 相 关 研 究 带 来 诸 信息的,而 时 间 上 的 先 后 性 有 可 能 就 暗 示 了 两 个
多机遇与挑战 . Twe
ets之间的蕴含关系……
3.
1.1 丰富的知识来源和潜在训练语料 因此,可 以 利 用 文 本 载 体 的 弱 结 构 信 息 来 获 取
文本蕴含关系广泛存在于海量的自然语言文本 蕴含知识和潜在训练语料 .
中,其表现形式的多 样 性 超 过 了 所 有 以 往 人 工 构 建 3)蕴含关系的传递性
(
的知识库或语料 .如 果 能 有 效 地 表 示 并 提 取 这 些 丰 若 OP,
PQ,那 么 OQ.这 就 是 蕴 含 关 系
904 计 算 机 学 报 2017 年
总之,大 数 据 的 规 模 效 应 是 一 根 非 常 有 用 的 杠 神经网络解决文本蕴含问题是水到渠成的 .
杆,可以把诸如弱标注信息、弱结构信息以及蕴含关 目前 在 文 本 蕴 含 知 识 获 取 领 域 还 没 有 基 于 深
4 结 论 [
4] I
ft A,G
ene nsa A-L, Mo
c ruz M A,e
t a
l.Enhanc
ing a
que
ston answe
i ring s
yst
em wi
th ex
t t
ual
en
tai
lmen
t o
fr
ma
chi
ner
ead
ing eva
lua
tion//Pr
oce
edi
ngs o
f t
he Con
fer
enc
e
文本蕴含关系是广泛分布于自然语言文本中的
and
Labs
oft
he
Eva
lua
tion
Foum (On
r line
Work
ing
Not
es/
单向推理关系,文本 蕴 含 可 以 辅 助 其 他 自 然 语 言 处
/Wo
Labs rkshop).Rome,I
tay,2012:1-12
l
理任务的进行,并且具有丰富的应用场景,因此文本 [
5] Ha
rabag
i S,Hi
u ckl
A.Me
thods
fo
r us
ing
tex
tua
l en
tai
lmen
t
蕴含相关 研 究 是 自 然 语 言 处 理 领 域 的 一 项 基 础 性 i
n open-doma
in
que
sti answe
on ring//Pr
oce
edi
ngs
oft
he
21s
t
研究 . I
nte
rna
tiona
l Con
fer
enc
e on Compu
tat
iona
l L
ingu
ist
ics
and
t
he44t
h Annua
l Me
eti
ng
oft
he
Ass
oci
ati
onf
or
Compu
tat
iona
l
本文 首 先 界 定 了 文 本 蕴 含 研 究 的 范 畴 .作 为 一
L
ingu
ist
ics. As
soc
iat
ion
fo
r Compu
tat
iona
l L
ingu
ist
ics,
种二元关系,文 本 蕴 含 有 3 个 基 本 研 究 任 务———关
Sydney,Aus
tra
lia,2006:905-912
系识别、知识获取 和 蕴 含 对 生 成 .其 中,关 系 识 别 有 [
6] Romano
L,Kouy
l M,Szpek
ekov tor
I,e
t a
l.I
nve
sti
gat
ing
a
两个核心问题,即语义表示与推理机制;知识获取也 gene
ri pa
c r
aphr
ase-ba
sed
app
roa
chf
or
re
lat
ion
ext
rac
tion//
有两个核心问题,即知识表示与知识来源;蕴含对生 Pr
oce
edi
ngs
oft
he
Con
fer
enc
e o
f t
he
Eur
ope
an
Chap
ter
of
the
As
soc
iat
i f
on o
r Compu
tat
iona
l L
ingu
ist
ics.Tr
eno,I
t tay,
l
成研究进展缓慢有其内因和外因 .
2006:409-416
本文围绕语义表示与推理机制这两个核心问题
[
7] Ha
rabag
i S,Hi
u ck A,La
l cat
usu
F.Sa
tis
fyi
ngi
nf
orma
tion
梳理了关系识别的 研 究 进 展,围 绕 知 识 表 示 与 知 识 ne
ed wi
s t
h mu
lti-do
cumen
t s
umma
rie
s.I
nfo
rma
tion
Pro
ces
sing&
来源梳理了知识获 取 的 研 究 进 展,并 指 出 了 各 类 方 t,2007,43(
Managemen 6):1619-1642
法的可取之处与不 足 之 处 .文 本 蕴 含 研 究 的 进 展 离 [
8] PadóS,Ce
r D,Ga
lle
y M,
eta
l.Me
asu
ring
mach
ine
tr
ans
lat
ion
qua
li
t a
y ss
eman
tic
equ
iva
l e:A
enc met
ric
bas
ed
on
ent
ailmen
t
不开相关国际评测,本 文 也 对 这 些 国 际 评 测 和 数 据
f
eat
ure
s.Ma
chi
ne
Trans
lat
ion,2009,23(
2-3):181-193
集进行了归纳总结 .
[
9] Dz
ikov
ska
M O,Ni
els
en
R D,Br C,e
ew t a
l.SemEva
l-2013
大数据时代的到来和深度学习理论的不断发 t
a 7:The
sk jo
int
st
uden
t r
espons
e ana
lys
isand
8th
rec
ogn
izi
ng
展,为文本蕴含相关 研 究 提 供 了 丰 富 的 知 识 来 源 和 t
ext
ual
en
tai
lmen
t cha
ll //Pr
enge oce
edi
ngs o
f t
he 1s
t J
oin
t
有力的研究工具,同 时 也 带 来 了 许 多 崭 新 的 研 究 课 Con
fer
enc
e on
Lex
ica
l and
Compu
tat
iona
l Seman
tic
s.At
lan
ta,
USA,2013:263-274
题 .本文立足当前 研 究 形 势,展 望 了 未 来 研 究 方 向,
[
10] Ni
els
en
R D,Wa
r W,Ma
d rti
n J
H.Re
cogn
izi
ng
ent
ailmen
t i
n
并从理论上探讨了其可行性 .
i
nte
ll
igen
t t
uto
ring
sys
tems.Na
tur
al
Language
Eng
ine
erng,
i
2009,15(
4):479-501
致 谢 《计算机学报》编辑部和各位审稿老师提出 [
11] Yur
e D,Han
t A,Tur
gut
Z.Semeva
l-2010t
a 12:Pa
sk rse
r
了宝贵意见,在此表示感谢! eva
lua
ti us
on i
ngt
ex
tua
l en
tai
lmen
ts//Pr
oce
edi
ngs
oft
he
5t
h
I
nte
rna
tiona
l Wo
rkshop on Seman
tic Eva
lua
tion.Upps
ala,
Sweden,2010:51-56
参 考 文 献
[
12] And
rou
tsopou
los
I,Ma
laka
sio
tis
P.A
sur
ve o
y fpa
r
aph
ras
ing
and
tex
tua
l en
tai
lmen
t me
thods.J
our
nal
of
Art
if
ici
alI
nt
ell
i-
[
1] Dagan
I, Gl
ickman O. Pr
obab
ili
sti
c t
ext
ual
en
tai t:
lmen genc
e Re
sea
rch,2010,38(
1):135-187
Gene
ric
app
lie
d mode
ling
ofl
anguage
var
iab
il
ity//Pr
oce
edi
ngs [
13] He
i M,Smi
lman th N A.Tr
eeed
i
t mode
lsf
or
re
cogn
izi
ng
o
f t
he PASCAL Wo
rkshop on Le
arn
ing Me
thods
fo
r Tex
t t
ext
ual
en
tai
lmen
ts,pa
raph
ras
es,and
answe
rst
o
que
sti //
ons
Unde
rst
and
ing
and
Min
ing.Gr
enob
le,Fr e,2004:26-29
anc Pr
oce
edi
ngs o
f t
he 2010 Annua
l Con
fer
enc
e o
f t
he No
rth
[
2] Wang ng,Zheng De-Quan, Wang Xi
Bao-Xi ao-Xue,e
t a
l. Ame
ric
an Chap
ter
of
the As
soc
iat
ion
fo
r Compu
tat
iona
l
Mu
lti
ple-cho
ic qu
e e
sti
on
answe
ring
bas
ed
ont
ex
tua
l e
nta
ilme
nt. L
ingu
ist
ics:Human Language
Techno
log
ies.Lo
s Ange
les,
Ac
ta
Sci
ent
iar
um
Nat
ura
lium
Uni
ver
sit
ati
s Pek
inens
is,2016, USA,2010:1011-1019
52(
1):134-140(
in
Chi
nee)
s [
14] Mehdad
M,Ma
tte
o N,
El C,
ena e
t l.EDITS:An
a open
sou
rce
(王宝鑫,郑德权,王晓雪等 .基于文本蕴含的选择类问题解 f
ramewo
rk f
or r
ecogn
izi
ng t
ext
ual
en
tai
lmen
t//Pr
oce
edi
ngs
答技术研 究 .北 京 大 学 学 报 (自 然 科 学 版 ),2016,52(
1): o
f t
he
Tex
t Ana
lys
is
Con
fer
enc
e.Ga
ithe
r g,USA,2009:
sbur
134-140) 169-178
906 计 算 机 学 报 2017 年
[
15] Adams
R.Tex
tua
l en
tai
lmen
t t
hrough
ext
ende
d l
exi
cal
ov
erl
ap [
28] Sheng
Ya-Qi,Zhang
Han,Lv
Chen,J
i Dong-Hong.Tex
tua
l
//Pr
oce
edi
ngs
oft
he
2nd
PASCAL
Cha
llenge
s Wo
rkshop
on en
tai
lmen
t r
ecogn
iti
on
bas
ed
on
mixe
d t
opi
c mode
l.Compu
ting
Re
cogn
isi
ng
Tex
tua
l En
tai
lmen
t.Ven
ice,I
tay,2006:128-
l Eng
ine
erng,2015,41(
i 5):180-184(
in
Chi
nee)
s
133 (盛雅琦,张晗,吕晨,姬东鸿 .基于混合主题模型的文 本 蕴
[
16] J
ij V,de
koun Rike
j M.Re
cogn
izi
ngt
ex
tua
l en
tai
lmen
t us
ing 涵识别 .计算机工程,2015,41(
5):180-184)
l
exi
cal
simi
lar
ity//Pr
oce
edi
ngs
oft
he
1s
t PASCAL
Cha
llenge [
29] Zhao
Hong-Yan,L
i Peng,L
u i Ru,Wang
Zhi-Qi
ang.Re
cog-
Wo
rkshop.Sou
thamp
ton,UK,2005:73-76 n
izi
ngt
ex
tua
l en
tai
lmen
t ba
sed
on
mul
ti-f
eat
ure
s.J
our
nal
of
[
17] Ra
i R,Ng
na A Y,Mann
ing
C D.Robus
t t
ext
ual
in
fer
enc
e Ch
ine
seI
nf
orma
tion
Pro
ces
sing,2014,28(
2):109-115(
in
v
ial
ea
rni
ng
and
abdu
cti
ver
ea
son
i //Pr
ng oce
edi
ngs
oft
he
Nat
ion
al Ch
ine
se)
Con
fer e on Ar
enc tif
ici
al I
nte
ll
i e(AAAI).P
genc itt gh,
sbur (赵红燕,刘鹏,李茹,王 智 强 .多 特 征 文 本 蕴 涵 识 别 研 究 .
USA,2005:1099-1105 中文信息学报,2014,28(
2):109-115)
[
18] Mo
l D,C
dovan la C,Ha
rk rabag
i S,e
u t l.Cogex:A
a log
ic [
30] Huang W-J, L
iu C-L.Exp
lor
ing
lex
icl,s
a ynt
act
ic,and
r
pove
r f
or que
sti
on answe
ring//Pr
oce
edi
ngs o
f t
he 2003 s
eman
tic
fe
atur
esf
or
Chi
nes
e t
ext
ual
en
tai
lmen
t i
n NTCIR
Con
fer
enc
e o
f t
he
Nor
th
Ame
ric
an
Chap
ter
of
the
Ass
oci
ati
on RITE
eva
lua
tion
ta
sks.a
rXi
v r
pep
rin
t a v:1504.
rXi 02150,
f
or
Compu
tat
ion
al
Lingu
ist
ics
on
Human
Language
Techno
logy. 2015
Edmon
ton,Canada,2003:87-93 [
31] L
in
D.Ex
tra
cti
ng
col
loc
ati
ons
fr
om
tex
t c
orpo
ra//Pr
oce
edi
ngs
[
19] Akhma
tova E. Tex
tua
l en
tai
lmen
t r
eso
lut
ion v
ia a
tomi
c o
f t
he1s
t
Wor
kshop
on
Compu
tat
ion
al
Termi
nol
ogy.Mon
tre
al,
r
popo
sit
i //Pr
ons oce
edi
ngs
oft
he
PASCAL
Cha
lle
nge
s Wo
rks
hop Canada,1998:57-63
on Re
cogn
isi
ng Tex
tua
l En
tai
lmen
t.Sou
thamp
ton, UK, [
32] Mi
lle
r G A. Wo
r t: A l
dNe exi
cal
da
taba
se f
or Eng
lish.
2005:61-64 Commun
ica
tions
oft
ACM,1995,38(
he 11):39-41
[
20] Baye
r S,Bur
ger
J,Fe
rr L,e
o t l.MITRE’
a s submi
ssi
ons
to [
33] Zhang
Peng,L
i Guo-Chen,L
i Ru,e
t a
l.Re
cogn
ize
tex
t
t EU pa
he sca
l RTE cha
ll //Pr
enge oce
edi
ngs o
f t
he Pa
tte
rn en
tai
lmen
t ba
sed
on
FrameNe
t r
ela
tions.J
our
nal
of
Chi
nes
e
Ana
lys
is,S
tat
ist
ica
l Mode
ll
ing,and
Compu
tat
iona
l Le
arn
ing I
nfo
rma
ti Pr
on o
ces
sing,2012,26(
2):46-50(
in
Chi
nss)
e
(
PASCAL)Cha
llenge
s Wo
rkshop on Re
cogn
isi
ng Tex
tua
l (张鹏,李国臣,李茹等 .基于 Fr t框 架 关 系 的 文 本 蕴
ameNe
En
tai
lmen
t.Sou
thamp
ton,UK,2005:44 含识别 .中文信息学报,2012,26(
2):46-50)
[
21] Bo
s J.I
s t
her
e l
pac
e f
orl
og
ici
n
rec
ogn
izi
ngt
ex
tua
l en
tai t?
lmen [
34] Bake
r F,F
C illmo
re
C J,Lowe
J
B.The
berke
ley
FrameNe
t
L
ingu
ist
icI
ssue
s i
n Language
Techno
logy,2013,9(
3):1-18 r
poe
jc//Pr
t oce
edi
ngs o
f t
he 36
th Annua
l Me
eti
ng o
f t
he
[
22] Roy
S,Vi
eia T,Ro
r th D.Re
ason
ing abou
t quan
tit
ie i
s n As
soc
iat
ion
fo
r Compu
tat
iona
l L
ingu
ist
ics
and
17t
h I
nte
rna-
na
tur
all
anguage.Tr
ans
act
ions
oft
he
Ass
oci
ati
onf
or
Compu- t
iona
l Con
fer
enc
e on Compu
tat
iona
l L
ingu
ist
ics-Vo
lume
1.
t
ati
ona
l L
ingu
ist
ics,2015,3:1-13 Mon
tre
al,Canada,1998:86-90
[
23] De Ma
rne
ffe M-C,Ra
ffe
rty A N, Mann
ing C D.F
ind
ing [
35] Ren
Han,Sheng
Ya-Qi,Feng
Wen-He,e
t a
l.Re
cogn
izi
ng
c
ont
rad
ict
i i
ons n
tex
t//Pr
oce
edi
ngs o
f he ACL: HLT,
t t
ext
ual
en
tai
lmen
t ba
sed
on
knowl
edge
top
ic
mode
ls.J
our
nal
As
soc
iat
ion
fo
r Compu
tat
iona
l L
ingu
ist
ics.Co
lumbus,USA, o
f Ch
ine
seI
nf
orma
tion
Pro
ces
sing,2015,29(
6):119-126(
in
2008:1039-1047 Ch
ine
se)
[
24] Nevě
ilovZ.Pa
raphr
ase
and
tex
tua
l en
tai
lmen
t gene
rat
ion// (任函,盛雅琦,冯文贺等 .基于知识话题模型的文本蕴涵识
Pr
oce
edi
ngs
oft
he
In
ter
nat
iona
l Con
fer
enc
e on t,Spe
Tex ech, 别 .中文信息学报,2015,29(
6):119-126)
and
Dia
l no,Cz
ogue.Br ech
Repub
lic,2014:293-300 [
36] Sa
i T,Na
kh ska
r K,Gi
S riC,e
t a
l.Tex
tua
l en
tai
lmen
t us
ing
[
25] J
ia gene
J.The rat
ion
oft
ex
tua
l en
tai
lmen
t wi
th
NLML
in
an d
iff
eren
t s
imi
lar
it me
y t
ric
s//Pr
oce
edi
ngs
oft
he
In
ter
nat
iona
l
i
nte
ll
igen
t d
ial
ogue
sys
tem f
or l
anguage
le
arn
i IEC//
ng CS Con
fer
enc
e on
In
tel
li
gen
t Tex
t Pr
oce
ssi
ng
and
Compu
tat
iona
l.
Pr
oce
edi
ngs
oft
he
IEEE
Int
erna
tiona
l Con
fer
enc
e on
Nat
ura
l Ca
rio,Egyp
t,2015:491-501
Pr
Language o
ces
sing
and
Knowl
edge
Eng
ine
eri
ng.
Pis
caaway,
t [
37] I
ftene
A.UAIC
Par
tic
ipa
tion
a RTE4//Pr
t oce
edi
ngs
oft
he
USA,2008:194-201 1s
t Tex
t Ana
lys
is Con
fer
enc
e.Ga
ithe
r g,USA,2008:
sbur
[
26] Ko
le V,Ro
snyk ckt
s l T,Ri
che ede
l S.Gene
rat
ing na
tur
al 1-10
l
anguage
in
fer
enc
e cha
ins.a
rXi
v r
pep
rin
t a v:1606.
rXi 01404, [
38] L
i D,Pan
n tel
P.DIRT@ SBT@ d
isc
ove
r o
y fi
nf
erenc
e r
ule
s
2016 f
r t
om ex
t//Pr
oce
edi
ngs o
f t
he 7
th ACM S
IGKDD I
nte
rna-
[
27] Zhang
Z,Yao
D,Chen
S,e
t a
l.Ch
ine
set
ex
tua
l en
tai
lmen
t t
iona
l Con
fer
enc
e on
Knowl
edge
Dis
cove
r and
y Dat
a Mi
ning.
r
ecogn
iti
on
bas
ed
on
syn
tac
tic
tr
eec
li
ppng//Pr
i oce
edi
ngs
of Fr
San anc
iso,USA,2001:323-328
c
t
he 13
th Ch
ina Na
tiona
l Con
fer
enc
e on Compu
tat
iona
l [
39] Chk
lov
sk T,Pan
i tel
P.Ve
rbOc
ean:Mi
ning
the
Web
fo
r f
ine-
L
ingu
ist
ics
and
the
2nd
In
ter
nat
iona
l Sympo
sium
on
Nat
ura
l r
gai
ned
seman
tic
ver
b r
ela
ti //Pr
ons oce
edi
ngs
oft
he
Con
fer
enc
e
Language Pr
oce
ssi
ng Ba
sed on Na
tur
all
y Anno
tat
ed B
ig on Emp
iri
cal Me
thods
in Na
tur
al Language Pr
oce
ssi
ng.
Da
ta.Wuhan,Ch
ina,2014:83-94 Ba
rce
lona,Spa
in,2004:33-40
4期 郭茂盛等:文本蕴含关系识别与知识获取研究进展及展望 907
[
40] Ma
cCa
rt B,Ga
ney lley M, Mann
ing C D.A phr
ase-ba
sed [
54] Dong
Zhen-Dong,Dong
Qiang,Hao
Chang-L
ing.The
ore
tic
al
a
lignmen
t mode
l f
or
nat
ura
l l
anguage
in
fer
enc
e//Pr
oce
edi
ngs f
ind
ing
s o
f HowNe
t.J
our
nal
of
Chi
nes
e I
nfo
rma
tion
Pro
ces
sing,
o
f t
he
Con
fer
enc
e on
Emp
iri
cal
Met
hods
in
Nat
ura
l Language 2007,21(
4):3-9(
in
Chi
nee)
s
Pr
oce
ssi
ng.Wa
iki
ki,USA,2008:802-811 (董振东,董强,郝长 伶 .知 网 的 理 论 发 现 .中 文 信 息 学 报,
[
41] Ba
s R,Kuma
ak r Na r S,Pakr
ska ay P,e
t a
l.Re
cogn
izi
ng 2007,21(
4):3-9)
t
ext
ual
en
tai
lmen
t by s
oft
dependenc
y t
ree ma
tch
ing. [
55] J
i T,We
u-Le i Z.Wo
rds
simi
lar
it a
y lgo
rit
hm
bas
ed
ont
ongy
ici
Compu
tac
ion
Y S
ist s,2015,19(
ema 4):6257-6259 c
il
in i
n s
eman
tic web adap
tive
le
arn
ing s
yst
em.J
our
nal
of
[
42] Su
ltan
M A,Be
tha
r S,Sumne
d r T.Fe
atur
e-r
ich
two-s
tage J
il
i Un
n i
ver
siy(
t I
nfo
rma
tion
Sci
enc
e Ed
iton),2010,6(
i 10):
l
ogi
sti
c r
egr
ess
ion
fo
r mono
lingua
l a
lignmen
t//Pr
oce
edi
ngs
of 602-608
t Con
he fer
enc
e on Emp
iri
cal Me
thods
in Na
tur
al Language [
56] L
i Yan.Mu
lti-Fe
atu
res
Bas
ed
Tex
tua
l En
tai
lmen
t Re
cogn
iti
on
Pr
oce
ssi
ng.L
isbon,Po
rt l,2015:949-959
uga i
n Ch
ine
se [M.
S.d
iss
ert
aton].Wuh
i an
Uni
ver
sit
y o
f S
cie
nce
[
43] Noh
T-G,PadóS,Shwa
rt V,e
z t a
l.Mu
lti
-leve
l a
lignmen
ts Te
and chno
logy,Wuhan,2013(
in
Chi
nee)
s
a
s an ex
tens
ibl
e r
epr
esen
tat
ion
bas
isf
or
tex
tua
l en
tai
lmen
t (李妍 .基于多特 征 的 中 文 文 本 蕴 涵 识 别 方 法 [硕 士 学 位 论
a
lgo
rit //Pr
hms oce
edi
ngs
oft
he
Jo
int
Con
fer
enc
e on
Lex
ica
l 文].武汉科技大学,武汉,2013)
Compu
and tat
iona
l Seman
tic r,USA,2015:193
s.Denve [
57] L
i M,Guo
u Y,Ni
e L.Re
cogn
izi
ng
ent
ailmen
t i
n Ch
ine
se
[
44] Hobbs
R,S
J ticke
l M, Ma
rti
n P,e
t a
l.I
nte
rpr
eta
tion a
s t
exs wi
t th f
eat
ure
comb
ina
tion//Pr
oce
edi
ngs o
f t
he 2015
abduc
tion//Pr
oce
edi
ngs o
f t
he 26
th Annua
l Me
eti
ng on I
nte
rna
tiona
l Con
fer
enc
e on As
ian Language Pr
oce
ssi
ng
As
soc
iat
ion
fo
r Compu
tat
iona
l L
ingu
ist
ics. S
tr g,
oudsbur (
IALP).Suzhou,Ch
ina,2015:82-85
USA,1988:95-103 [
58] L
i Mao-Fu,L
u i Yan,J
i Dong-Hong.Even
t s
eman
tic
fe
atur
e
[
45] To
ledo A.Seman
tic mode
ling o
f t
ext
ual
en
tai t:Pr
lmen oof- ba
sed Ch
ine
se t
ext
ual
en
tai
lmen
t r
ecogn
iti
on.J
our
nal
of
ba
sed
anno
tat
ion
in
a c
ompo
sit
iona
l f
ramewo
rk.Ne
the
rlands: Ch
ine
seI
nf
orma
tion
Pro
ces
sing,2013,27(
5):129-136(
in
LOT,2015 Ch
ine
se)
[
46] Ba
r-Ha R,Be
im ran
t J,Dagan
I,e
t a
l.Ef
fic
ien
t s
eman
tic (刘茂福,李妍,姬东鸿 .基于事件语义特征的中文文本蕴含
de
duc
tion
and
app
rox
ima
te
mat
chi
ng
ove
r c
ompa
ctpa
r
sef
or
est
s 识别 .中文信息学报,2013,27(
5):129-136)
//Pr
oce
edi
ngs
oft
he
Tex
t Ana
lys
is
Con
fer
enc
e.Ga
ithe
rsbu
rg, [
59] L
i M,Zhang
u L,Hu
H,e
t a
l.A
cla
ssi
fic
ati
on
mode
l f
or
USA,2008:
1-10 s
eman
ti en
c tai
lmen
t r
ecogn
iti
on wi
th f
eat
ure
comb
ina
tion.
[
47] Ba
r-Ha R,Dagan
im I,Gr
een
tal
I,e
t a
l.Seman
tic
in
fer
enc
e Neur
ocompu
ting,2016,208:127-135
a
t t
he l
exi
cal-s
ynt
act
ic l
eve
l//Pr
oce
edi
ngs o
f t
he Na
tiona
l [
60] Ren
Han, Wan J
ing, Wu Hong-Mi
ao,Feng Wen-He.A
Con
fer
enc
e on Ar
tif
ici
al I
nte
ll
igenc
e.Vanc r,Canada,
ouve c
o-t
rai
ning
bas
ed
app
roa
cht
or
ec
ogn
izi
ngt
ex
tua
l en
tai
lmen
t.
2007:871-876 J
our
nal
of Ch
ine
se I
nfo
rma
tion Pr
oce
ssng,2014,28(
i 6):
[
48] L
i E,Kouy
en lekov
M.Seman
tic
par
sing
fo
r t
ext
ual
en
tai
lmen
t 114-119(
in
Chi
nee)
s
//Pr
oce
edi
ngs o
f t
he I
nte
rna
tiona
l Con
fer
enc
e on Pa
rsi
ng (任函,万菁,吴泓缈,冯文贺 .基于协同训练的文本蕴 含 识
Te
chno
log
ies.B
ilbao,Spa
in,2015:40 别 .中文信息学报,2014,28(
6):114-119)
[
49] Ma
cCa
rtney B, Mann
ing C D.Na
tur
al l
ogi
c and na
tur
al 61] Zhang
[ Z,Yao
D,Pang
Y,e
t a
l.Ch
ine
set
ex
tua
l en
tai
lmen
t
l
anguage
in
fer
enc
e.Compu
ting
Mean
ing,2014,4:129-147 r
ecogn
iti
on
enhanc
ed
wit
h wo
rd
embedd
ing//Pr
oce
edi
ngs
of
[
50] Ma
cCa
rtney B, Mann
ing C D. Na
tur
al l
ogi
c f
or t
ext
ual t
he 14
th Ch
ina Na
tiona
l Con
fer
enc
e on Compu
tat
iona
l
i
nfe
renc
e//Pr
oce
edi
ngs
oft
he
ACL-PASCAL Wo
rkshop on L
ingu
ist
ic zhou,Ch
s.Guang ina,2015:89-100
Tex
tua
l En
tai
lmen
t and
Par
aphr
asi
ng.S
tr g,USA,
oudsbur [
62] Smo
lensky
P.I
nfo
rma
tion
Pro
ces
sing
in
Dynami
cal
Sys
tems:
2007:193-200 Founda
tions
of Ha
rmony Theo
ry.Cambr
idge,USA: MIT
[
51] S
ter
n A,
Daa
gnI.A
con
fid
enc
e mo
del
fo
r s
ynt
act
ica
lly-mo
tiva
ted Pr
ess,1986:194-281
en
tai
lmen
t r
poo
fs//Pr
oce
edi
ngs o
f he
t t
8h n
Ite
rna
tiona
l [
63] Hi
nton
G E,Sa
lakhu
tdi
nov
R R.Re
duc
ing
the
dimens
iona
li
ty
Con
fer e on “Re
enc cen
t Advanc
es n Na
i tur
al Language o
f da
ta wi
th
neur
alne
two
rks.Sc
i e,2006,313(
enc 5786):
Pr
oce
ssng”.Hi
i ssr,Bu
a lga
ria,2011:455-462 504-507
[
52] Ti R,Mi
an Y,Takuya
yao M.Log
ica
li
nf
erenc
e on
dependenc
y- [
64] Hi
nt G E,Sa
on lakhu
tdi
nov R R.Rep
lic
ated s
oftmax:An
ba
sed
compo
sit
iona
l s
eman
tic
s//Pr
oce
edi
ngs
oft
he
Con
fer
enc
e und
ire
ct t
ed op
ic mode
l//Pr
oce
edi
ngs o
f t
he Con
fer
enc
e on
o
f t
he
Ass
oci
ati
onf
or
Compu
tat
iona
l L
ingu
ist
ics.Ba
ltimo
re, Neu
ral
In
forma
tion
Pro
ces
sing
Sys
tems.Vanc
ouv
er,Canada,
Ma
ryand,2014:79-89
l 2009:1607-1614
[
53] Sha N,Sha
rma rma R,B
iswa
s K K.Re
cogn
izi
ng t
ext
ual [
65] Lyu
C,Lu
Y,J
i D,e
t a
l.De
epl
ea
rni
ngf
or
tex
tua
l en
tai
lmen
t
en
tai
lmen
t us
ing
dependenc
y ana
lys
isand
mach
ine
le
arn
ing// r
ecogn
iton//Pr
i oce
edi
ngs
oft
he
2015IEEE
27t
h I
nte
rna
tiona
l
Pr
oce
edi
ngs o
f t
he NAACL-HLT 2015 S
tuden
t Re
sea
rch Con
fer
enc
e on Too
ls wi
th Ar
tif
ici
al I
nte
ll
i e(
genc ICTAI).
rkshop (
Wo SRW).Denve
r,USA,2015:147 Vi
etr
i su
l Ma
re,I
tay,2015:154-161
l
908 计 算 机 学 报 2017 年
[
66] Go
lle
r C,Kuch
ler A.Le
arn
ing
ta
sk-dependen
t d
ist
ribu
ted [
83] Mo
ldovan
D I,Rus
V.Log
icf
orm
trans
forma
tion
of
Wor
d-
r
epr
esen
tat
ions by ba
ckp
ropaga
tion
thr
ough s
truc
tur
e// Ne
t and
it
s app
lic
abi
li
tyt
que
o sti
on
answe
ring//Pr
oce
edi
ngs
Pr
oce
edi
ngs
oft
he
IEEE
Int
erna
tiona
l Con
fer
enc
e on
Neur
al o
f t
he39
t
h Annua
l Me
eti
ng
on
Ass
oci
ati
onf
or
Compu
tat
iona
l
Ne
two
rks.Wa
shi
ngon,USA,1996:347-352
t L
ingu
ist
ics.Tou
l e,Fr
ous e,2001:402-409
anc
[
67] So
che
r R,L
in
C C,Mann
i C,e
ng t a
l.Pa
rsi
ng
nat
ura
l s
cene
s [
84] Kouy
l M,Magn
ekov ini
B.Bu
ild
ing
a l
arge-s
cal
e r
epo
sit
ory
and na
tur
al anguage wi
l th r
ecur
sive neur
al ne
two //
rks o
f t
ext
ual
en
tai
lmen
t r
ule
s//Pr
oce
edi
ngs
oft
he
5t
h I
nte
rna-
Pr
oce
edi
ngs
oft
he
28
thI
nt
erna
tiona
l Con
fer
enc
e on
Mach
ine t
iona
l Con
fer
enc
e on Language Re
sour
ces
and Eva
lua
tion.
Le
arn
ing (
ICML-11).Be
llevue,USA,2011:129-136 Genoa,I
tay,2006:2347-2440
l
[
68] So
che
r R,Pe
rel
ygi
n A,Wu
J Y,e
t a
l.Re
cur
siv
e de
ep
mode
ls [
85] Pa
zi a M T,Penna
enz cch
iot
ti M,Zanz
ott
o F M. Mi
xing
f
ors
eman
tic
compo
sit
iona
lit
y ove
r a
sen
timen
t t
reebank// Wo
r t,Ve
dNe rbNe
t and
propbank
fo
r s
tudy
ing
ver
b r
ela
tions
Pr
oce
edi
ngs o
f t
he Con
fer
enc
e on Emp
iri
cal Me
thods
in //Pr
oce
edi
ngs o
f he
t t
5h n
Ite
rna
tiona
l Con
fer
enc
e on
Na
tur
al Language Pr
oce
ssng (EMNLP).Se
i att
le, USA, Re
Language s
our
ces
and Eva
lua
tion.Genoa,I
tay,2006:
l
2013:1631-1642 1372-1377
[
69] I
rsoy O, Ca
rdi
e C. De
ep r
ecur
sive neur
al ne
two
rks
fo
r [
86] Schu
ler
K K.Ve
r t:A
bNe Broad-Cove
rage,Comp
rehens
ive
c
ompo
sit
iona
li
tyi
nl
anguage.Adv
anc
esi
n
Neu
ral
In
forma
tion Ve
rb
Lex
icon[
Ph.
D.d
iss
ert
aton].Un
i ive
rsi
t o
y f
Penn
syl
van
ia,
Pro
ces
sing
Sys
tems,2014,3:2096-2104 Ph
ilade
lph
ia,2005
[
70] Bowman S R,Pots C, Mann
t ing C D.Re
cur
sive neur
al [
87] Kouy
l M,Mehdad
ekov Y,Neg
ri
M.Mi
ning
Wik
iped
iaf
or
ne
two c
rks an
le
arn
log
ica
l s
eman
tic
s.a v:1406.
rXi 1827, l
arge-s
cal
e r
epo
sit
ori
es
ofc
on
tex
t-s
ens
iti
veen
t
ailmen
t r
ule
s
2014 //Pr
oce
edi
ngs
oft
he
In
ter
nat
iona
l Con
fer
enc
e on Language
[
71] Ka
lchb
renne
r N,Gr
efens
tet
t E,B
e luns
om
P.A
convo
lut
iona
l Re
sou
rce
s and
Eva
lua
tion.Va
lle
tta,Ma
lta,2010:3550-3553
neu
ral
ne
two
rkf
or
mode
ll
ing
sen
tenc
es.a
rXi
v r
pep
rin
t a v:
rXi [
88] Shna
r E,Ba
ch r L,Dagan
ak I.Ex
tra
cti
ngl
ex
ica
l r
efe
renc
e
2188,2014
1404. r
ule
s f
rom
Wik
iped
ia//Pr
oce
edi
ngs
oft
he
Jo
int
Con
fer
enc
e o
f
[
72] Kim
Y.Convo
lut
iona
l neur
alne
two
rks
fo
r s
ent
enc
e c
las
sif
i- t
he47t
h Annua
l Me
eti
ng
oft
he
ACL
and
the
4t
h I
nte
rna
tiona
l
c
ati
on.a
rXi
v r
pep
rin
t a v:1408.
rXi 5882,2014 J
oit Con
n fer
enc
e on Na
tur
al Language Pr
oce
ssi
ng o
f t
he
[
73] Yi
n W,Schü
tze H,Xi
ang B,e
t l.ABCNN:At
a ten
tion- AFNLP.S
tr g,USA,2009:450-458
oudsbur
ba
sed c
onvo
lut
iona
l neur
al ne
two
rk f
or mode
ling s
ent
enc
e [
89] Aha
r R B,Szpek
on to I,Dagan
r I.Gene
rat
ing en
tai
lmen
t
pa
irs.a v:1512.
rXi 05193,2015 r
ule
s f
rom
FrameNe
t//Pr
oce
edi
ngs
oft
he
48
th
Annu
al
Mee
ting
[
74] Mou
L,Ru
i M,L
i G,e
t a
l.Re
cogn
izi
ng en
tai
lmen
t and o
f t
he
Ass
oci
ati
onf
or
Compu
tat
iona
l L
ingu
ist
ics.Upps
ala,
c
ont
rad
ict
ion
byt
re
e-ba
sed
convo
lut
ion.a v:1512.
rXi 08422, Sweden,2010:241-246
2015 [
90] Ha
rri
s Z
S.Di
str
ibu
tiona
l s
truc
tur
e.Wo
rd,1954,10(
2-3):
[
75] Mou
L,Men
R,L
i G,e
t a
l.Na
tur
all
anguage
in
fer
enc
e by 146-162
t
reeba
sed
convo
lut
ion
and
heur
ist
ic
mat
chng//Pr
i oce
edi
ngs
of [
91] L
in
D.Au
toma
tic
re
tri
eva
l and
clus
ter
ing
ofs
imi
lar
wor
ds//
t
he54t
h Annua
l Me
eti
ng
oft
he
Ass
oci
ati
onf
or
Compu
tat
iona
l Pr
oce
edi
ngs
oft
he
36
th
Annua
l Me
eti
ng
oft
he
Ass
oci
ati
on
L
ingu
ist
ics.Be
rln,Ge
i rmany,2016:130-136 f
or
Compu
tat
ion
al
Lingu
ist
ics
and
17t
h I
nte
rna
tion
al
Con
fer
enc
e
[
76] Ho
chr
eit
er S,Schmi
dhube
r J.Long sho
rt-t
erm memo
ry. Compu
on tat
iona
l L
ingu
ist
ics-Vo
lume
2.Mon
tre
al,Canada,
Neur
al
Compu
tat
ion,1997,9(
8):1735-1780 1998:768-774
[
77] Sunde
rme
ye M,Sch
r lüt
e R,Ne
r y H.LSTM
neu
ral
ne
two
rks [
92] Ge
ffe
t M,Dagan
I.The
dis
tri
but
iona
l i
ncl
usi
on
hypo
the
ses
f
orl
anguage
mode
ling.I
nte
rspe
ech,2012,31:601-608 l
and ex
ica
l en
tai
lmen
t//Pr
oce
edi
ngs o
f t
he 43r
d Annua
l
[
78] Bowman
S R,Ange
l G,Po
i tt C,e
s t a
l.A
lar
geanno
tat
ed Me
eti
ng
on
Ass
oci
ati
onf
or
Compu
tat
iona
l L
ingu
ist
ics.Ann
c
orpus
fo
r l
ear
ning
nat
ura
l l
anguage
in
fer
enc
e//Pr
oce
edi
ngs Ar
bor,USA,2005:107-114
o
f t
he 2015 Con
fer
enc
e on Emp
iri
cal Me
thods
in Na
tur
al [
93] Zanz
ott
o M,Penna
F cch
iot
t M,Pa
i zienz
a M
T.Di
scove
ring
Language
Pro
ces
sing.L
isbon,Po
rt l,2015:632-642
uga a
symme
tri
c en
tai
lmen
t r
ela
tions be
twe
en ve
rbs us
ing s
ele
c-
[
79] Ro
ckt
sc
he T,Gr
l efe
nst
ett
e E,He
rma
nn
K M,e
t a
l.Re
ason
ing t
iona
l r
pef
erenc
es//Pr
oce
edi
ngs o
f t
he 21s
t I
nte
rna
tiona
l
abou
t En
tai
lmen
t wi
th
Neu
ral
Att
ent
ion.a v:1509.
rXi 06664, Con
fer
enc
e on
Compu
tat
iona
l L
ingu
ist
ics
and
the
44t
h Annua
l
2015 Me
eti o
ng f t
he As
soc
iat
ion
fo
r Compu
tat
iona
l L
ingu
ist
ics.
[
80] L
i Y,Sun C,L
u in L,e
t a
l.Le
arn
ing na
tur
al l
anguage Sydney,Aus
tra
lia,2006:849-856
i
nfe
renc
e us
ing
bid
ire
cti
ona
l LSTM
mode
l and
inne
r-a
tten
tion. [
94] Ko
tle L,Dagan
rman I,Szpek
tor
I,e
t a
l.Di
rec
tiona
l d
ist
ri-
a
rXi
v r
pep
rin
t a v:1605.
rXi 09090,2016 bu
tiona
l s
imi
lar
it f
y o
r l
exi
cal
in
fer
enc
e.Na
tur
al Language
[
81] Wang
S,J
iang
J.Le
arn
ing
nat
ura
l l
anguage
in
fer
enc
e wi
th Eng
ine
erng,2010,16(
i 4):359-389
LSTM.a
rXi
v r
pep
rin
t a v:1512.
rXi 08849,2015 [
95] Szpek
tor
I,Shna
r E,Dagan
ch I.I
nst
anc
e-ba
sed
eva
lua
tion
[
82] Cheng J,Dong L,Lapa
ta M.Long sho
rt-t
erm memo
ry- o
f en
tai
lmen
t r
ule
ac
qui
sit
ion//Pr
oce
edi
ngs
oft
he
45t
h Annua
l
n
etwo
rks
fo
r ma
chi
ner
ea
ding.
arX
iv
pre
pri
nta
rX
iv: 06733,
1601. Me
eti
ng
of t
he As
soc
iat
ion
fo
r Compu
tat
iona
l L
ingu
ist
ics.
2016 ague,Cz
Pr ech
Repub
lic,2007:456-463
4期 郭茂盛等:文本蕴含关系识别与知识获取研究进展及展望 909
[
96] Szpek
tor
I,Tanev
H,Dagan
D,e
t a
l.Sc
ali
ng
web-ba
sed [
109] Dagan
I,Gl
i O,Magn
ckman ini
B.The
PASCAL
rec
ogn
isi
ng
a
cqu
isi
tion o
f en
tai
lmen
t e
rla
ti //Pr
ons oce
edi
ngs o
f he
t t
ext
ual
en
tai
lmen
t cha
llenge.Ma
chi
ne
Lea
rni
ng
Cha
ll s,
enge
Con
fer
enc
e on Emp
iri
cal Me
thods
in Na
tur
al Language 2006,3944:177-190
Pr
oce
ssi
ng.Ba
rce
lona,Spa
in,2004:41-48 [
110] Rod
rigo,Pea
s A,Ve
rde
jo
F.Ove
rvi
ew
oft
he
answe
r
[
97] Rav
ichand
r D,Hovy E.Le
an arn
ing sur
fac
e t
ex pa
t tte
rns v
ali
dat
ion
exe
rci
se2008//Pr
oce
edi
ngs
oft
he
Wor
kshop
oft
he
f
ora que
sti
on answe
ring s
ysem//Pr
t oce
edi
ngs o
f t
he 40t
h Cr
oss-Language
Eva
lua
tion
For
um
for
Eur
ope
an
Language
s.
Annua
l Me
eti
ng
on
Ass
oci
ati
onf
or
Compu
tat
iona
l L
ingu
ist
ics. rhus,Denma
Aa rk,2009:296-313
S
tr g,USA,2002:41-47
oudsbur [
111] Pea
s A,Rod
rigo ,Ve
rde
jo
F.Ove
rvi
ew
oft
he
answe
r
[
98] Kl
oet
zer
J,To
ris K,Ha
awa shimo
t C,e
o t a
l.La
rge-s
cal
e v
ali
dat
ion
exe
rci
se2007//Pr
oce
edi
ngs
oft
he
Wor
kshop
oft
he
a
cqu
isi
ti o
on fen
t
ailmen
t pa
tte
rn
pai
r by
s exp
loi
ting
tr
ans
it
ivi
ty Cr
oss-Language
Eva
lua
tion
For
um
for
Eur
ope
an
Language
s.
//Pr
oce
edi
ngs
oft
he
2015Con
fer
enc
e on
Emp
iri
cal
Met
hods Budape
st,Hunga
ry,2008:237-248
i
n Na
tur
al
Language
Pro
ces
sing.L
isbon,Po
rt l,2015:
uga [
112] Pena
s A,Rod
ri A,Sama
go V,e
t a
l.Ov
erv
iew
oft
he
answe
r
1649-1655 va
lida
tion
exe
rci
se 2006//Pr
oce
edi
ngs o
f t
he Wo
rkshop o
f
[
99] Bhaga
t R,Pan
tel
P,Hovy
E H,e
t l.LEDIR:An
a unsupe
r- t
he Cr
oss-Language Eva
lua
tion Fo
rum.Al
ican
te,Spa
in,
v
ised
algo
rit
hm
for
le
arn
ing
dir
ect
iona
lit
y o
f i
nfe
renc
e r
ule
s 2007:257-257
//Pr
oce
edi
ngs o
f t
he 2007 J
oin
t Con
fer
enc
e on Emp
iri
cal [
113] Pak
r P,Ge
ay l A,Bandyopadhyay
bukh S.Answe
r v
ali
dat
ion
Me
thod
s i
n Na
tur
al
Language
Pro
ces
sing
and
Compu
tat
iona
l us
ing
tex
tua
l en
tai
lmen
t//Pr
oce
edi
ngs
oft
he
Con
fer
enc
e on
Na
tur
al
Language
Lea
rni ague,Cz
ng.Pr ech
Repub
lic,2007: Compu
tat
iona
l L
ingu
ist
ics
and
In
tel
ligen
t Tex
t Pr
oce
ssi
ng.
161-170 Tokyo,J
apan,2011:353-364
[
100] Sé
aghdha D O. La
ten
t a
vri
abl
e mode
ls o
f e
sle
cti
ona
l [
114] Wang R, Neumann G.DFKI-LT a
t AVE 2007: Us
ing
r
pef
erenc
e//Pr
oce
edi
ngs
oft
he
48t
h Annua
l Me
eti
ng o
f t
he r
ecogn
izi
ng t
ext
ual
en
tai
lmen
t o
fr answe
r va
lida
tion//
As
soc
iat
ion
fo
r Compu
tat
iona
l L
ingu
ist
ics.Upp
saa,Swe
l den, Pr
oce
edi
ngs o
f he Wo
t rkshop o
f he Cr
t oss-Language
2010:435-444 Eva
lua
tion Fo
rum f
or Eur
ope
an Language
s. Budape
st,
[
101] Di G,Lapa
nu ta
M.Top
ic
mode
lsf
or
mean
ing
simi
lar
ity
in Hunga
ry,2007:1-6
c
ont
ex//Pr
t oce
edi
ngs
of t
he 23r
d I
nte
rna
tiona
l Con
fer
enc
e [
115] Pea
s A,Hovy
E,Fo
rne
r P,e
t a 2011-2013:
l.QA4MRE
on
Compu
tat
iona
l L
ingu
ist
ics:Po
ste
rs.S
tr g,USA,
oudsbur Ov
erv
iew
ofque
sti
on
answe
ring
fo
r ma
chi
ner
ead
ing
eva
lua
tion
2010:250-258 //Pr
oce
edi
ngs
of t
he 4
th I
nte
rna
tiona
l Con
fer
enc
e o
f t
he
[
102] Me
l O,Be
amud ran
t J,Dagan
I,e
t a
l.A
two
leve
l mode
l f
or CLEF
Ini
tia
tive.Va
lenc
ia,Spa
in,2013:303-320
c
ont
ext
sens
iti
vei
nf
erenc
e r
ule
s//Pr
oce
edi
ngs
oft
he
Annua
l [
116] C
la P,Ha
rk rri
s P,Yao
on X.An
ent
ailmen
t-ba
sed
app
roa
ch
Me
eti o
ng ft
he
Ass
oci
ati
onf
or Compu
tat
iona
l L
ingu
ist
ics. t
o t
he
QA4MRE
cha
ll //Pr
enge oce
edi
ngs
oft
he
Con
fer
enc
e
So
fia,Bu
lga
ria,2013:1331-1340 Labs
and oft
he
Eva
lua
tion.Rome,I
tay,2012:1-15
l
[
103] Ben
tivog
liL,C
la P,Dagan
rk I,e
t a
l.The
seven
th
pas
cal [
117] Pakr P,Bha
ay ska
r P,Bane
rje
e S,e
t a
l.A
hybr
id
que
sti
on
r
ecogn
izi
ngt
ex
tua
l en
tai
lmen
t cha
ll //Pr
enge oce
edi
ngs
oft
he answe
ring
sys
tem
bas
ed
oni
nf
orma
tion
ret
rieva
l and
answe
r
Tex
t Ana
lys
is
Con
fer
enc
e.Ga
ithe
r g,USA,2011:1-16
sbur va
lida
tion//Pr
oce
edi
ngs
oft
he
Con
fer
enc
e and
Labs
oft
he
[
104] Ben
tivog
liL,C
la P,Dagan
rk I,e
t a
l.The
si
xth
PASCAL Eva
lua
tion.Ams
tedam,Ne
r the
rlands,2011:1-16
r
ecogn
izi
ngt
ex
tua
l en
tai
lmen
t cha
ll //Pr
enge oce
edi
ngs
oft
he [
118] Sh H,Kanayama
ima H,Le
e C-W,e
t a
l.Ov
erv
iew
ofn
tc
ir-9
Tex
t Ana
lys
is
Con
fer
enc
e.Ga
ithe
r g,USA,2010:1-18
sbur r
ite:Re
cogn
izi
ngi
nf
erenc
e i
n t
ex//Pr
t oce
edi
ngs
oft
he
9t
h
[
105] Ben
tivog
liL,Dagan
I,Dang
H T,e
t a
l.The
fi
fth
PASCAL NI
I Te
st Co
lle
cti
on f
or I
nfo
rma
tion Re
tri
eva
l Wo
rkshop.
r
ecogn
izi
ngt
ex
tua
l en
tai
lmen
t cha
ll //Pr
enge oce
edi
ngs
oft
he Tokyo,J
apan,2011:291-301
Tex
t Ana
lys
is
Con
fer
enc
e.Ga
ithe
r g,USA,2009:1-15
sbur [
119] Wa
t Y,Mi
anabe Y,Mi
yao zuno
J,e
t a
l.Ove
rvi
ew
oft
he
[
106] Gi
amp
icc
ol D,Dang
o H T,Magn
ini
B,e
t a
l.The
four
th r
ecogn
izi
ng i
nfe
renc
e i
n t
ext (RITE-2) a
t NTCIR-10//
pa
sca
l r
ecogn
izi
ngt
ex
tua
l en
tai
lmen
t cha
ll //Pr
enge oce
edi
ngs Pr
oce
edi
ngs
oft
he
10
th
NII
Tes
t Co
lle
cti
onf
or
In
forma
tion
o
f t
he1s
t
Tex
t Ana
lys
is
Con
fer
enc
e.Ga
ithe
r g,USA,
sbur Re
tri
eva
l rkshop.Tokyo,J
Wo apan,2013:385-404
2008:1-11 [
120] Ma
tsuyo
shi
S,Mi Y,Sh
yao iba
t T,e
a t a
l.Ove
rvi
ew
oft
he
[
107] Gi
amp
icc
ol D,Magn
o ini
B,Dagan
I,e
t a
l.The
th
ir pa
d s
cal NTCIR-11 Re
cogn
izi
ng I
nfe
renc
e i
n TEx
t and Va
lida
tion
r
ecogn
izi
ng t
ext
ual
en
tai
lmen
t cha
ll //Pr
enge oce
edi
ngs o
f (RITE-VAL)t
ask//Pr
oce
edi
ngs o
f t
he 10
th NI
I Te
st
t
he
ACL-PASCAL Wo
rkshop on Tex
tua
l En
tai
lmen
t and Co
lle
cti
on f
or I
nfo
rma
tion Re
tri
eva rkshop. Tokyo,
l Wo
Pa
raphr
asi ague,Cz
ng.Pr ech
Repub
lic,2007:1-9 apan,2014:223-232
J
[
108] Ba
r-Ha R,Dagan
im I,Do
l B,e
an t a
l.The
se
cond
pas
cal [
121] Ne
gr M,Ma
i rch
ett
i A,Me
hda
d Y,
eta
l.
Seme
val-2013T
as 8:
k
r
ecogn
isi
ngt
ex
tua
l en
tai
lmen
t cha
ll //Pr
enge oce
edi
ngs
oft
he Cr
oss-l
ingua
l t
ext
ual
en
tai
lmen
t f
orc
on
ten
t s
ynch
ron
iza
tion//
PASCAL
2nd Cha
llenge
s Wo
rkshop
on
Rec
ogn
isi
ng
Tex
tua
l Pr
oce
edi
ngs o
f t
he I
nte
rna
tiona
l Wo
rkshop on Seman
tic
En
tai
lmen
t.Ven
ice,I
tay,2006:1-9
l Eva
lua
tion.At
lan
ta,USA,2013:25-33
910 计 算 机 学 报 2017 年
[
122] Ne
gr M,Ma
i rch
ett
i A,Me
hda
d Y,
eta
l.
Seme
val-2012t
as 8:
k Ac
ces
s Te
cho
log
ies.Tokyo,J
apan,2013:474-478
Cr
oss-l
ingua
l t
ext
ual
en
tai
lmen
t f
orc
on
ten
t s
ynchr
oni
zat
ion [
128] Sh
i C-W,L
h i C,Le
u e C-W,e
t a
l.IASL
RITE
sys
tem
at
//Pr
oce
edi
ngs
oft
he
Fir
stJ
oi
nt
Con
fer
enc
e on
Lex
ica
l and NTCIR-10//Pr
oce
edi
ngs
oft
he
10
th
NTCIR
Eva
lua
tion
of
Compu
tat
iona
l Seman
tic
s-Vo
l 1: Pr
ume oce
edi
ngs o
f t
he I
nfo
rma
tion Ac
ces
s Te
cho
log
ies. Tokyo, J
apan, 2013:
Ma
in Con
fer
enc
e and
the Sha
r sk,and Vo
ed Ta l 2:
ume 425-429
Pr
oce
edi
ngs
oft
he
6t
h I
nte
rna
tiona
l Wo
rkshop
on
Seman
tic [
129] L
i C-J,Tu
n Y-C.The
des
cri
pti
on
oft
he
NTOU
RITE
sys
tem
Eva
lua
tion.Mon
tre
al,Canada,2012:399-407 i
n NTCIR-10//Pr
oce
edi
ngs
oft
he
10
th
NTCIR
Eva
lua
tion
[
123] Ma
rel
l M,Ben
i tivog
li L,Ba
r i M,e
on t a
l.Semeva
l-2014 o
f I
nfo
rma
tion Ac
ces
s Te
cho
log
ies.Tokyo,J
apan,2013:
t
a 1:Eva
sk lua
tion
ofc
ompo
sit
iona
l d
ist
ribu
tiona
l s
eman
tic 495-498
mode
ls
onf
ul
l s
ent
enc
est
hr
ough
seman
tic
re
lat
edne
ssand
[
130] Bowman
S R,Gau
thi
erJ,Ra
stog
i A,e
t a
l.A
fas
t un
ifi
ed
t
ext
ual
en
tai
lmen
t//Pr
oce
edi
ngs
oft
he
In
ter
nat
iona
l Wo
rk- mode
l f
or
par
sing
and
sen
tenc
e unde
rst
and
ing.a
rXi
v r
pep
rin
t
shop
on
Seman
tic
Eva
lua
tion.Dub
lin,Ai
rland,2014:1-8 a v:1603.
rXi 06021,2016
[
124] Ma
rel
l M,Men
i ini
S,Ba
ron
i M,e
t a
l.A
SICK
cur
e f
ort
he [
131] S K,Z
imonyan iss
erman
A.Ve
r de
y ep
convo
lut
iona
l ne
two
rks
eva
lua
ti o
on fc
ompo
sit
iona
l d
ist
ribu
tiona
l s
eman
tic
mode
ls// f
or l
arge-s
cal
e image
re
cogn
iti
on.a
rXi
v p
rep
rin
t a v:
rXi
Pr
oce
edi
ngs o
f he Ni
t nth
In
ter
nat
iona
l Con
fer
enc
e on 1556,2014
1409.
Language Re
sour
ces
and Eva
lua
tion.Reyk
jav
ik,I
ceand,
l [
132] Hi
nt G,Deng
on L,Yu
D,e
t a
l.De
ep
neur
alne
two
rks
fo
r
2014:216-223 a
cous
tic
mode
ling
in
spe
ech
rec
ogn
iton:The
i sha
red
views
of
[
125] Wang
R,Neumann
G.An
div
ide-and-c
onque
r s
tra
tegy
fo
r f
our
re
sea
rch g
roups.IEEE S
igna
l Pr
oce
ssi
ng Maga
zine,
r
ecogn
izi
ng t
ext
ual
en
tai
lmen
t//Pr
oce
edi
ngs o
f t
he Tex
t 2012,29(
6):82-97
Ana
lys
i Con
s fer
enc
e.Ga
ithe
r g,USA,2008:1-7
sbur [
133] Ba
lki
r E,Ka
rts
akl
i D,Sad
s rzadeh
M.Sen
tenc
e en
tai
lmen
t
[
126] I
fte
n A,Mo
e ruz
M-A.Ua
ic
par
tic
ipa
tion
a RTE5//Pr
t oce
edi
ngs i
n c
ompo
sit
iona
l d
ist
ribu
tiona
l s
eman
tic
s.a
rXi
v p
rep
rin
t
o
f t
he Tex
t Ana
lys
is Con
fer
enc
e. Ga
ithe
r g, USA,
sbur a v:1512.
rXi 04419,2015
2009:1-10 [
134] Pa
rikh
A P,T
cks
tr O,Da
m s D,e
t a
l.A
dec
ompo
sab
le
[
127] Wang
X,Zhao
H,Lu
B-L.BCMI-NLP
labe
led-a
lignmen
t- a
tten
ti mode
on lf
or
nat
ura
ll
anguage
i
Inf
erenc
e.a
rXi
v r
pep
rin
t
ba
sed en
tai
lmen
t s
yst
em f
or NTCIR-10 RITE-2 t
ask// a v:1606.
rXi 01933,2016
Pr
oce
edi
ngs
oft
he
10
th
NTCIR
Eva
lua
tion
ofI
nf
orma
tion
GUO Ma eng, bo
o-Sh rn n 1991,
i Yu,bo
ZHANG rn i
n 1972,Ph.
D.,p
rof
ess
or, M.
S.
Ph.
D.c
and
ida
te.Hi
s r
ese
arch
in
ter
est
s supe
rvi
sor.Hi
s r
ese
arch
in
ter
est
s i
ncl que
ude sti
on
answe
ring
f
ocus
ont
ex
tua
l en
tai
lmen
t. and
per
sona
liz
edi
nf
orma
tion
ret
rie
val.
LIU Tng,bo
i rn
i n 1972,Ph. D.,p r
ofessor,Ph.D.
supe
rviso
r.His
re
search i
ntere
sts
inc
lude
soci
alc
omput
ing,
i
nfo
rma
tion
ret
rie
val
and
nat
ura
l l
anguage
pro
ces
sing.
Ba
ckg
round
Re
sea
rch
ont
ex
tua
l en
tai
lmen
t i
s a
fundamen
tal
st
udy
in en
tai
lmen
t and
knowl
edge
ac
qui
sit
ion,a
cco
rdi
ngt
o
pre
vious
t
hef
ie
ld
ofna
t
ura
l l
anguage
pro
ces
sing.I
t ha
s a
var
iet
y o
f he
ldi
nt
erna
tiona
l e
val
uat
ion
wor
kshops.The
fu
tur
e r
ese
arch
app
lic
atons,such
i asr
el
ati
on
ret
rie
val,que
sti
on
answe
ring, d
ire
cti
ons
and
new
cha
llenge
s a
rea
ls
o e
labo
rat
ed
unde
r t
he
mu
lti-do
cumen
t summa
riz
ati
on and ma
chi
ne r
tans
lat
ion. cu
rren
t r
ese
arch
sit
uat
ion.
Many
the
ori
es,mode
ls and me
thods o
f r
ecogn
izi
ng t
ext
ual I
n r
ecen
t ye
ars,t
heau
t
hor
s'g
roup
has
fo
cus
ed
ont
he
en
tai
lmen
t and
knowl
edge
ac
qui
sit
ion
have
been
propo
sed
and r
ela
ted
re
sea
rche
s wi
tht
ex
tua
l en
tai t,su
lmen ch
asr
ec
ogn
izi
ng
ex
tens
ive
l s
y tud
ied.Al
though
many
ach
ievemen
ts
have
been t
ext
ual
en
tai
lme
nt,a
lignme
ntf
or
te
xtu
ale
nt
ailme
nt,knowl
edg
e
made
in
the
sea
re
as,new
prob
lems
ar
e c
ont
inua
lly
propo
sed a
cqu
isi
tion,i
nfo
rma
tion
ret
rie
val
and
que
sti
on
answe
ring.
and
new cha
llenge
s eme
rge.Espe
cia
lly,t
he a
rri
val
of
bi
g Th
is
wor
k i
s suppo
rted
byt
he
Nat
iona
l Na
tur
alSc
i
enc
e
da
tae
ra
and
the
deve
lopmen
t o
f de
epl
ea
rni
ngt
he
or b
y ri
ng Founda
tion
of Ch
ina (No
s.61472105,61472107),and
the
new oppo
rtun
iti
es and cha
llenge
s f
or r
ese
arch on
tex
tua
l Na
tiona
l Hi
gh Te
chno
logy Re
sea
rch and De
vel
opmen
t
en
tai
lmen
t.Th
is
pape
r c
lar
ifi
est
he
sc
ope
oft
ex
tua
l en
tai
l- Pr
ogam (
r 863Pr
ogam)o
r f Ch
ina ( 2015AA015407).
No.
t,g
men ive
s a
comp
rehens
ive
su
rvey on r
ecogn
izi
ng t
ext
ual