Professional Documents
Culture Documents
基于深度学习的抽取式摘要研究综述_田萱
基于深度学习的抽取式摘要研究综述_田萱
《计算机科学与探索》网络首发论文
题目: 基于深度学习的抽取式摘要研究综述
作者: 田萱,李嘉梁,孟晓欢
网络首发日期: 2024-07-15
引用格式: 田萱,李嘉梁,孟晓欢.基于深度学习的抽取式摘要研究综述[J/OL].计算机
科学与探索. https://link.cnki.net/urlid/11.5602.tp.20240710.1948.002
网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定;学术研究成果具有创新性、科学性和先进性,符合编
辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、
出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性,录用定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,
只可基于编辑规范进行少量文字的修改。
出版确认:纸质期刊编辑部通过与《中国学术期刊(光盘版)》电子杂志社有限公司签约,在《中国
学术期刊(网络版)
》出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊(网络版)
》是国家新闻出
版广电总局批准的网络连续型出版物(ISSN 2096-4188,CN 11-6037/Z),所以签约期刊的网络版上网络首
发论文视为正式出版。
网络首发时间:2024-07-15 12:09:32
网络首发地址:https://link.cnki.net/urlid/11.5602.tp.20240710.1948.002
基于深度学习的抽取式摘要研究综述
田萱 1,2+,李嘉梁 1,孟晓欢 1,2
1. 北京林业大学 信息学院,北京 100083
2. 国家林业草原林业智能信息处理工程技术研究中心,北京 100083
+ 通信作者 E-mail:tianxuan@bjfu.edu.cn
摘 要 自动文本摘要是自然语言处理的热门研究方向,主要实现方法分为抽取式和生成式两类。抽取式摘
要直接采用源文档中的文字内容,相比生成式摘要具有更高的语法正确性和事实正确性,在政策解读、官方文
件总结、法律和医药等要求较为严谨的领域具有广泛应用前景。近几年基于深度学习的抽取式摘要研究受到广
泛关注。主要梳理了近几年基于深度学习的抽取式摘要技术研究进展;针对抽取式摘要的两个关键步骤——文
本单元编码和摘要抽取分别来梳理分析相关研究工作。首先根据模型框架不同,将文本单元编码方法分为层级
序列编码、基于图神经网络的编码、融合式编码和基于预训练的编码等四类介绍;然后根据摘要抽取阶段抽取
粒度的不同,将摘要抽取方法分为文本单元级抽取和摘要级抽取两类分析。并介绍了抽取式摘要任务常用公共
数据集和性能评估指标。最后,预测并分析总结了该领域未来可能的研究方向及相应的发展趋势。
关键词:深度学习;抽取式摘要;文本单元编码;摘要抽取
文献标志码 A 中图分类号 TP18
Abstract: Automatic text summarization(ATS) is a popular research direction in natural language processing, and its
main implementation methods are divided into two categories: extractive and abstractive. Extractive summarization
directly uses the text content in the source document, and compared with abstractive summarization, it has higher
grammatical and factual correctness. It has broad prospects for extractive summarization in domains such as policy
interpretation, offical document summarization, legal and medicine industry etc. In recent years, extractive
summarization based on deep learning has received extensive attention. This article mainly reviews the research
progress of extractive summarization technology based on deep learning in recent years, and analyzes the relevant
research work for the two key steps of extractive summarization: text unit encoding and summary extraction. Firstly,
according to the different model frameworks, text unit encoding methods are divided into four categories:
hierarchical sequential encoding, encoding based on graph neural networks, fusion encoding, and pre-training-based
encoding. Then, according to the different granularity of summary extraction in the summary extraction stage,
summary extraction methods are divided into two categories: text unit-level extraction and summary-level extraction.
The paper also introduces commonly used public datasets and performance evaluation indicators for extractive
summarization tasks. Finally, the future possible research directions and corresponding development trends in this
基金项目:国家重点研发计划基本项目(2018YFC1603305, 2018YFC1603302)。
This work is supported by the National Key Research and Development Program of China (2018YFC1603305, 2018YFC1603302).
2 Journal of Frontiers of Computer Science and Technology
field are predicted and summarized.
Key words: deep learning; extractive summarization; text unit encoding; summary extraction
随着深度学习技术的发展,使用神经网络提取文 表征:将不同粒度文本单元映射到同一连续向量空间
本单元特征逐渐成为 NLP 领域及抽取式 ATS 的主流 中,表示为低维、稠密的实值向量,实现了对复杂语
图2 基于深度学习的抽取式摘要一般流程
Fig.2 Pipeline of deep learning-based extractive summarization
同或不同的神经网络模型串联组成,常使用循环神 量取平均值作为文档全局特征,二者共同作为摘要
经网络、卷积神经网络、注意力机制、迭代编码及 抽取阶段的上下文。
其组合等。如何整合词汇、短语等小粒度文本单元
特征以获得句子、段落等大粒度文本单元表示是层
级序列编码的关键焦点。
循环神经网络 RNN 及其变体模型 LSTM(Long-
short Term Memory)和 GRU(Gated Recurrent Unit,
GRU)常用于提取文本单元时序特征,一些研究将其
堆叠起来实现多级文本单元的层级序列编码。如针
对单文档摘要的 SummaRuNNer 模型[19],堆叠两层
双向 GRU 分别对词汇和句子编码,将词汇级 GRU
隐状态拼接和平均池化作为句子级 GRU 的输入,
并以同样的方式获得文档表示,有效捕获了大粒度
文本单元的时序特征。NEUSUM(Neural Extractive
Document Summarization) 模 型 [18]
则 在
SummaRuNNer 基础上精简了由词汇表示得到句子
初始表示的过程。图 3 修改自文献 [18] ,展示了
图 4 NN-SE 模型结构
NEUSUM 的编码器结构。其只拼接前向传播和后向
传播的最后一个 GRU 隐状态,简化了计算,获得 Fig.4 Structure of NN-SE model
文本单元编
代表模型 解决问题 优势 局限性
码方式
SummaRuNNer[19] 通过堆叠 LSTM、GRU 等 RNN 网络, 容易出现梯度爆炸或消失问
基于 RNN 系 提取文本单元序列特
有效提取文本序列中的顺序关系和 题;无法并行计算,训练速度
列的方法 NEUSUM[18] 征
句法语义信息 较慢
基于 CNN 系 NN-SE [1] 提取文本单元局部特 通过多个卷积层和池化层实现文本 受卷积核大小限制难以捕捉
列的方法 HER [20] 征 序列不同层次特征的提取 长距关系
AES[21]
基于注意力 区分小粒度文本单元 有针对性地提取文本单元特征,提升
MGSum[22] 难以处理长文本
机制 的语义重要性 可解释性
[23]
CRHASum
ITS[25] 通过 GRU、记忆网络等实现文本单
单次编码对文本的理
迭代编码 Hybrid MemNet[26] 元特征的重复提取,以更新文本单元 降低了训练速度
解不充分
表示,提升文本内容理解程度
图 6 DISCOBERT 模型结构
Fig. 6 Structure of DISCOBERT model
图构成,包含四种类型的边:顺序、包含、相同、相 间的连贯特征和句内独特特征,提出了一种新颖的句
子-词语二步图编码方法,将一个描述句间连贯性的
似,节点信息由低级别子图依次向高级别子图传递。
GCN(GCNinter)与一个句内独特性的 GCN(GCNintra)
该模型通过多层图网络实现了句子重要性和冗余性
进行拼接编码,用于后续的句子排名及摘要生成任
测量,在三个公开数据集上的效果超过了 BERTSUM
务,获得了一定抽取准确率提升。
等 基 线 。 Liu 等 [40]
提 出 模 型 HETFORMER
Kwon 等 [43] 提 出 一 种 基 于 嵌 套 树 (Nested
(Heterogeneous Transformer)用于长文档抽取式 ATS,
Tree-based)的模型 NeRoBERTa,构建句法树和 RST
文档图包含 token、实体、句子三类节点以及五种类
篇章树分别捕获句内和句间关系。该方法在捕捉句子
型的边:token-token、token-句子、句子-token、句子
中关键词时能够考虑与其他句子的文本连贯性,因而
-句子、实体-实体,并利用多粒度稀疏注意力机制
特 别 有 利 于 提 升 摘 要 连 贯 性 。 Guan 等 [44] 提 出
(Multi-granularity Sparse Attentions)捕获不同关系。
FS3(Frame Semantic-enhanced Sentence Modeling
同时该文针对多层 GNN 参数量巨大,计算效率偏低
For Extractive Summarization)模型,利用语义框架建
的问题,提出通过稀疏掩码实现图中边的构建,从而
模句内和句间关系。引入伯克利的 FrameNet 语义知
减少了参数量降低了内存需求,提升了模型训练效
识库[45],将句子视为一些列语义场景构建文档图,共
率。
包括句子、框架、框架元素三类节点。将框架节点与
另外一些工作构建包含词级和句子级节点的混
其所包含的框架元素节点相连,句子节点与句子包含
8 Journal of Frontiers of Computer Science and Technology
Graph-based 实现对节点上下
篇章语 句子-句子 篇章关系 GCN
Neural MDS [36]
文关系的建模;节
义图
DISCOBERT [38]
EDU-EDU 篇章关系 GCN 点类型较为单一
实体-词汇、实体/词汇-句子、
HAHSum[39] 顺序/包含、相同/相似 GAT
实体-实体、句子-句子
Token-token、token-句子、句子 多级稀疏注意力
HETFORMER[40] 主题关系/篇章关系
-token、句子-句子、实体-实体 机制 对节点的多种关
混合语 句法关系/自然连接/余弦 系建模,更有效地
Multi-GraS[41] 词汇-词汇、句子-句子 Multi-GCN
义图 相似度 提取节点特征;数
词汇-词汇、 据集构建较复杂
NeRoBERTa[43] 句法关系/篇章关系 GAT
句子-句子
句子-句子、句子-框架、框架- 结合层次注意力
FS3[44] 语义框架
框架元素 机制的 GCN
图 8 BERT(左)和 BERTSUM(右)模型对比
Fig. 8 Comparison of the original BERT model (left) and BERTSUM (right)
图 9 SIDENET 模型结构[62]
Fig.9 Model structure of SIDENET
Abdi 等[63]针对面向观点的多文档摘要将情感极 往往较为有效,同时该方法一定程度上提升了模型的
性作为先验知识编码到词嵌入中,以缓解预训练词嵌 可解释性。但此类方法额外的特征提取步骤往往导致
入忽视情感极性问题,避免了将上下文相似但极性相 更高的数据构建成本。表 4 对比了融合编码方法的特
反的两个词映射为相似向量。具体而言,该文首先构 点。
建一个包含了来自情感词典的词汇先验情感极性的 2.5 小结
二维二进制向量,然后将其与词嵌入拼接,最后整合
文本单元编码阶段的关键在于对文本单元的重
了情感极性的词嵌入被输入到 RNN-LSTM 层,得到
要性建模,DL 模型将能够判断文本单元摘要价值的
句子表示。模型在 DUC2001 数据集上的 ROUGE 分
信息向量化,作为文本单元表示用于摘要抽取。本节
数超过了 PriorSum 等基线。
介绍了四种编码方法,这些方法可以相互叠加,以实
总之,融合式编码显式地在抽取式 ATS 模型中
现多方面提取文本单元特征。
融入先验知识,借助自然语言处理技术可从源文档本
身提取语言学知识,对于特定领域文本融合专业知识
表 4 融合式编码方法对比
Table 4 Comparison of Fusion-Based Encoding Methods
融合的先验知识 模型名称 优势 局限性
利用自然语言处理工具从源文档提取语
文档独立特征 HNet[56] 有时需人工提取特征
言学或统计学特征,较为通用
DPP-BERT-Comb[57]
提供更多上下文信息,有助于提升摘要 需借助额外的自然语言处理
实体或主题 SENECA[58]
连贯性和准确性 工具
DeepSumm[59]
12 Journal of Frontiers of Computer Science and Technology
STDS[61]
利用文档主体外的信息提升摘要抽取性
辅助信息 SIDENET[62] 普适性较差
能
基于情感词典在词嵌入中融合情感极 情感词典难以识别新词汇,
情感极性 RDLS[63]
性,从而获得文本单元的倾向性 需不断保持更新
子作为摘要。模型提升了对输出摘要风格调控效果, 的文本单元缺乏内部依赖性;然而在当前评价指标下
同时在 CNN/DM 数据集上取得了与基线算法相近的 非自回归方法未表现出更差的性能。事实上,在个人
ROUGE 分数。 叙事摘要、工作场所会议摘要以及医学期刊文章摘要
总之,非自回归方法通常按照原文顺序抽取文本 领域中,非自回归方法的性能与自回归方法类似甚至
单元,与自回归方法相比缺乏目标侧信息引导,抽取 更好[69]。表 5 对比总结了两类摘要抽取方法特点。
表 5 自回归和非自回归摘要抽取方法对比
Table 5 Comparison of autoregressive and non-autoregressive extraction methods
方法类别 代表文献 模型名称 抽取模块结构 句子评分依据 优势 局限性
Zhou et al. [18]
NEUSUM GRU 摘要状态 容易造成
动态计算已
Jadhav and Rajan [65]
SWAP-NET 指针网络 摘要状态、软开关 误差累
抽取部分摘
积,无法
要状态向量,
自回归抽取 摘要状态、句子对 并行计
作为抽取参
Zhu et al.[66] AES-Rep 求和并正则化 源文档主旨表达 算,降低
照,提供了目
程度 了训练效
标侧依赖;
率
线性回归模型+Trigram 句子重要性、摘要
Liu et al.[54] / 缺乏目标
Top-k Blocking 冗余性
独立对句子 侧信息引
策略 句子丰富性、显著
非自回归 Nallapati et al. [19]
/ 线性回归模型 评分,可并行 导,序列
性、新颖性、位置
抽取 计算,训练效 标注易产
多层双向
序列 句子位置、重要 率较高 生位置偏
Liu et al.[68] / LSTM+Transformer+控
标注 性、多样性 差
制码
图 10 文献[5]模型架构
Fig.10 Model structure of Literature[5]
Cao 等 [72]
针对多文档摘要提出模型 TCSum,利 型带来更多监督信号,同时提升了文本单元编码和摘
用文本分类任务提高模型性能,根据分类结果产生不 要抽取效果;这种方法的缺陷在于不合理的辅助任务
同风格的摘要。TCSum 在 DUC 和 TAC 数据集上的 或辅助网络结构反而会降低模型性能,以及此类模型
ROUGE 分数超过了基于人工特征的基线模型。 将消耗更多计算资源。表 6 从应用领域和辅助任务等
总之,基于多任务学习的抽取给抽取式 ATS 模 角度总结了基于多任务学习的摘要抽取方法。
表 6 基于多任务学习的摘要抽取方法对比
Table 6 Comparison of multi-task learning based extraction methods
代表文献 应用领域 辅助任务 优势 局限性
增强文本单元表示 辅助任务不能同步优化时模型
Isonuma et al.[70] 财务报告摘要 文档分类
性能较差
缓解数据标签不足问题 仅考虑两种修辞角色;无法自
Agarwal et al.[4] 法律判决摘要 修辞角色标记
动扩展到长文本
文本分类、文本生成、结合 实现无标签摘要抽取 抽取句子含义相似
Zhuang et al.[5] 对话摘要
动态注意力的文本生成
社区问答中的 缓解标签数据缺失问题 存在数据不平衡问题
Machida et al.[71] 问答
问题摘要
多文档新闻摘 缓解标签数据缺失问题;生成 摘要抽取性能提升有限
Cao et al.[72] 文本分类
要 不同风格摘要
励。句子被当作一个二值隐变量,根据已抽取的句子 经连贯性模型捕捉跨句语义和句法连贯性模式。
推测当前句子是否该纳入摘要中。类似地,Dong 等 [75]
CNN/DM 数据集上的实验结果表明,RNES 相比其它
也提出一种摘要模型 BanditSum,将抽取式 ATS 视为 现有方法能够更好平衡摘要连贯性和句子重要性,提
一个上下文赌博机(contextual bandit)问题,为源文档 升了摘要抽取质量。Arumae 和 Liu[77]引入问答对优化
每个句子计算一个 0 到 1 之间的 affinity 值,据此量 模型参数,提出模型 QASumm,认为好的摘要能够
化在目标摘要中纳入该句子的倾向性。该方法防止了 充分、流畅地回答问题。设计的奖励函数包括问题回
文中较早出现句子更有优势的问题,当有摘要价值的 答能力、充分性、流畅性和摘要长度四个部分,实验
句子出现较晚时,模型能相比其它基线取得了更好的 结果表明 QASumm 相比基线模型达到了更高的问答
效果。Luo 等 在模型 HER 中同样采用基于上下文
[20]
准确率。
赌博机的智能体提升摘要抽取的灵活性,并提出了一 综上所述,基于强化学习的抽取通过求解最佳句
种结束抽取过程的终止机制。该终止机制依据剩余 子抽取策略实现摘要级抽取,抽取过程参考奖励机制
affinity 之间的差异和剩余句子 affinity 的大小来决定 而非目标摘要。该方法可将 ROUGE 分数等评估指标
是 否 停 止 选 择 。 该 模 型 在 CNN/DM 数 据 集 上 的 作为训练目标,避免了抽取式 ATS 训练目标与评估
ROUGE 分数超过了 REFRESH、BanditSum 等其它基 指标不符问题。然而多样性的奖励往往依赖于额外的
于强化学习的基线算法。除了 ROUGE 分数,强化学 奖励模块,从而牺牲了训练效率。表 7 从奖励策略和
习也可实现从其他方面优化摘要质量。模型 RNES [76]
问题目标两个角度总结对比了基于强化学习的摘要
通过连贯性奖励优化句子抽取顺序,模型采用一个神 抽取方法。
表 7 基于强化学习的摘要抽取方法对比
Table 7 Comparison of reinforcement learning based extraction methods
代表文献 模型名称 奖励方式 解决问题 局限性
Narayan et 模型训练目标与评估
REFRESH ROUGE 分数 摘要冗余度较高
al. [73] 指标不匹配
Zhang et 所选句目标摘要句子相似度、
LATENT 句子标签不准确 与压缩模型结合时性能较差
al.[74] ROUGE 分数
Dong et
BanditSum 所选句与摘要句的匹配度 句子抽取位置偏差 只能抽取固定数量句子
al.[75]
Luo et al.[20] HER 候选摘要与目标摘要的相关度 抽取终止机制 依赖目标摘要计算奖励
连贯性目标和 ROUGE 分数不一致,可能降
Wu et al.[76] RNES 候选摘要连贯性、ROUGE 分数 提升摘要连贯性
低模型 ROUGE 分数
Arumae et 候选摘要问题回答能力、充分性、
/ 句子标签缺乏 需要人工构建问答对
al. [77] 流畅性和长度
避免了位置偏差。但忽略了摘要句间衔接关系的研 一部分用以重写摘要,并通过策略梯度优化抽取器参
究,难以保证摘要连贯性。 数。基于注意力机制的方法则一般将抽取器的抽取概
(2)抽取-压缩 率用于调控生成器的生成概率。Hsu 等[86]使用两级注
抽取-压缩方法通过剪除候选摘要中的部分文本 意力机制连接抽取器和生成器,其中句子级注意力用
单元片段,实现对摘要的凝练。通常需要人工设定压 于调控词级注意力,从而降低注意力较低的句子中词
缩规则或在模型中添加一个压缩模块。Xu 等[81]提出 的生成概率;并专门引入一个不一致损失函数惩罚两
一种联合抽取和句法压缩的单文档摘要模型,设计了 级注意力之间的不一致。Gehrmann 等[87]将词汇作为
一系列压缩选项,如删除应用性名词短语、某些介词 选择单元,设计了一种自底向上的注意力机制,抽取
短语等内容。抽取模块选择一组句子后,句法压缩模 器计算源文档中每个 token 的选择概率,用于调整生
块依赖压缩选项来决定是否删除其部分内容,并在最 成器复制源文档词汇的概率,以防止生成器复制过长
后对压缩的句子进行打分。这种人工指定规则的压缩
的文本片段。实验结果显示该方法有助于提升模型压
方式灵活性较差,难以推广到新领域。Desai 等[82]提
缩摘要文本的能力。此外,Bao 等[88]提出一种分组对
出由一个预训练 Transformer 模型根据合理性和显著
齐的重写方式,认为将抽取的摘要作为生成器的唯一
性来决定压缩标准,以确保剩余内容的语法性和摘要
输入会失去重要的背景知识,因此将源文档作为生成
的价值性。Mendes 等 [83] 提出模型 EXCONSUMM
器的输入,用组标签为源文档中被抽取的句子建立索
(Extractive And Compressive Neural Summarization),
引,引导生成器重写每条抽取的句子。该方法在
在摘要抽取阶段采用一个词状态 LSTM 判断候选摘
要中词汇的必要性,以删除摘要句中不必要的词汇, CNN/DM 数据集上相比其他抽取-重写方法取得了更
一个压缩模块以删除摘要中的冗余信息,使摘要更加 势,特别有助于提升模型的总体性能。但由于抽取器
简明扼要。其局限性在于,基于规则的压缩由于灵活 和生成器通常需要单独训练,需要采用特定方法将两
性较差往往缺乏扩展性;基于神经网络的压缩在模型 部分连接起来,防止两部分的分离。该方法的局限性
中引入额外参数,因而加大了计算需求。 在于抽取的目标是高召回率,忽略了准确率,因而对
(3)抽取-重写 生成文本的可控性较弱;在重写步骤,由于生成器对
方法用于改进第一阶段的抽取过程,以提升摘要抽取 综上所述,两阶段抽取方法通过对候选摘要内文
17
和摘要级抽取两类。文本单元级抽取旨在选出分数最 数 据 集 , 包 括 单 文 档 数 据 集 CNN/DM(CNN/Daily
其中 ROUGE-1 和 ROUGE-2
(n-grams)确定摘要质量。
统抽取式摘要方法,如基于图排序的方法如
分别测量一元和二元的重叠度,ROUGE-L 测量两文
TextRank[102]、LexRank 等;另一类是基于深度学习的
本之间最长的共同子序列重叠度。
抽取式摘要方法,如基于预训练的方法 BERTSUM、
因为 ROUGE 以生成摘要相对目标摘要的词级匹
HIBERT 和 基 于 强 化 学 习 的 方 法 REFRESH 、
配为唯一评价标准,对摘要质量的评估不够全面,还
传统抽取式 无监督算法,根据
ATS 方法 TextRank [19] [20] [22] [33] [34] [37] 加权图中的特征向
EMNLP’ 2004 N/A
基于图排序的 [39] 量中心性计算句子
传统基线方法 重要性
[19] [20] [22] [33] [34] [37] 基于图的无监督方
LexRank JAIR’ 2004 N/A
[39] 法
基于 CNN 和 RNN https://github. com/
NN-SE [19] [20] [25] [20] [33] [70]
ACL’2016
的抽取式摘要模型 yoonkim/lstm-char-cnn.
基于层级序列 基于 RNN 的抽取
[19] [25] [20] [39] [44] [37]
SummaRuN
编码的基线方 式摘要模型,融合 AAAI’ 2017 N/A
[68] [70] [71] [78]
Ner
基于深度学 法 浅层语义特征
习的抽取式 联合打分和选择的
NEUSUM [33] [37] [73] [80]
EMNLP’ 2018 N/A
ATS 方法 抽取式摘要模型
[20] [25] [33] [37] [39] [71] 使用强化学习优化 NAACL-HLT’ https://github. com/
REFRESH
基于强化学习 [76] ROUGE 指标 2018 shashiongithub/Refresh
的基线方法 将抽取式摘要作为
BanditSum [20] [33] [37] [78]
EMNLP’ 2018 N/A
上下文赌博机问题
基于 BERT 的抽取 https://github. com/
BERTSUM [31] [40] [43] [44] [39] [81]
EMNLP’ 2019
式摘要模型 nlpyang/PreSumm
基于预训练的
基于 Transformer
基线方法
HIBERT [34] [40] 的单文档抽取式摘 ACL’2019 N/A
要模型
多样性摘要评估指标是未来研究的一个重要方向。 来研究方向之一。
(3)低资源语言场景下抽取式 ATS 研究 (6)专业领域抽取式 ATS 研究
基于深度学习的抽取式 ATS 研究往往需要大规 近年来,抽取式 ATS 在专业领域的应用受到越
模数据集训练,现实场景中公共数据集往往因为通用 来越多的关注。通常认为抽取式 ATS 相比生成式 ATS
性不足而导致训练数据匮乏,低资源抽取式 ATS 因 更适合于对事实一致性要求很高的实际应用,如政
此成为研究热点。当前已有应对方法包括预训练模 治、法律、生物医药等领域。法律领域的一个主要挑
型、多任务学习等。Jia 等 首先在数据集 CNN/DM
[50]
战是文本的冗余,因为法律文件往往包含几个语义上
上对模型实施预训练,再直接将模型用于低资源小语 类似的句子。Agarwal 等[4]提出基于最大边界相关算
种数据集的摘要抽取,模型在零样本条件下表现出较 法(Maximal Marginal Relevance, MMR)的摘要抽取方
强的泛化能力。Zhuang 等[5]通过多任务学习将抽取式 法,在迭代地抽取分数最高句子的同时平衡候选句子
摘要作为监督学习的副产品,从而避免了对大规模标 与案件文本和已抽取句子的相似度。生物医药领域的
注数据的需求。此外,在生成式 ATS 领域还有研究 主要挑战则在于如何提取专业词汇特征,Xie 等[115]
者提出数据增强 [108]、元学习[109]、孪生网络[110]等方 改进了预训练语言模型的微调方法,将循证医学中的
法应对低资源场景。 细粒度领域知识融合到一个知识适配器中,为摘要抽
(4)可解释性抽取式 ATS 研究 取提供背景信息。Deroy 等[116]首次将集成算法应用于
在深度学习抽取式文本摘要研究领域,通过引入 法律案件判决文档的摘要抽取,提出了基于投票、基
外部知识能够更有效指导和约束摘要抽取,提升摘要 于排名和基于图的集成方法,证明了智能集成多种方
抽取可解释性。Zhao 等[111]提出将文本内容与社会和 法的抽取摘要算法有助于更好地总结法律案件判决。
语义关系融合以改进表示,并在摘要选择阶段将摘要
与所有方面的相似性纳入评分,以关注抽取式 ATS 参考文献
不同语义方面的可解释性。Vo 等 通过使用元学习,
[112] [1] CHENG J, LAPATA M. Neural summarization by extracting
[6] Hou L W, Hu P, Cao W L. Automatic Chinese abstractive Nevada, United States: NIPS, 2013. 3111-3119
summarization with topical keywords fusion[J]. Acta [17] PENNINGTON J, SOCHER R, MANNING C D. Glove:
Automatica Sinica, 2019, 45(3): 530-539 Global vectors for word representation[C]// Proceedings of the
侯丽微, 胡珀, 曹雯琳. 主题关键词信息融合的中文生成式 2014 Conference on Empirical Methods in Natural Language
自动摘要研究[J]. 自动化学报, 2019, 45(3): 530-539 Processing. Stroudsburg: ACL, 2014. 1532-1543
[7] SHI L, RUAN X M, WEI R B, Cheng-Ying. Abstractive [18] ZHOU Q, YANG N, WEI F , et al. Neural document
Summarization Based on Sequence to Sequence Models: A summarization by jointly learning to score and select
Review[J]. Journal of the China Society for Scientific and sentences[C]// Proceedings of the 56th Annual Meeting of the
Technical Information, 2019, 38(10): 1102-1116 ACL. Stroudsburg: ACL, 2018. 654-663
石磊, 阮选敏, 魏瑞斌,等. 基于序列到序列模型的生成式 [19] NALLAPATI R, ZHAI F, ZHOU B. SummaRuNNer: A
文本摘要研究综述[J]. 情报学报, 2019, 38(10): 1102-1116 recurrent neural network based sequence model for extractive
[8] LI J P, ZHANG C, CHEN X J,et al. Survey on Automatic Text
summarization of documents[C]//Proceedings of the
Summarization[J]. Journal of Computer Research and
Thirty-First AAAI Conference on Artificial Intelligence.
Development, 2021, 58(1): 1-21
Menlo Park: AAAI, 2017. 3075-3081
李金鹏, 张闯, 陈小军, 等. 自动文本摘要研究综述[J]. 计
[20] LUO L, AO X, SONG Y,et al. Reading like her: Human
算机研究与发展, 2021, 58(1): 1-21
reading inspired extractive summarization[C]// Proceedings of
[9] HOU S L, HUANG X K, FEI C, et al. A survey of text
the 2019 Conference on Empirical Methods in Natural
summarization approaches based on deep learning[J]. Comput.
Language Processing. Stroudsburg: ACL, 2019. 3031-3041
Sci. Technol., 2021, 36(3): 633-663
[21] FENG C, CAI F, CHEN H,et al. Attentive encoder-based
[10] YADAV A K, RANVIJAY, YADAV R S, et al.. State-of-the-art
extractive text summarization[C]//Proceedings of the 27th
approach to extractive text summarization: A comprehensive
ACM International Conference on Information and
review.[J] Multimedia Tools and Applications: 2023, 82(19):
Knowledge Management. New York, USA: ACM, 2018.
29135-29197
1499-1502
[11] EDMUNDSON H P. New Methods in Automatic Extracting[J].
[22] JIN H, WANG T, WAN X. Multi-granularity interaction
Journal of the Acm, 1969, 16(2): 264-285
network for extractive and abstractive multi-document
[12] ERKAN G, RADEV D R. LexRank: graph-based Lexical
summarization[C]// Proceedings of the 58th Annual Meeting
Centrality as Salience in Text Summarization[J]. J. Artif. Intell.
of the ACL. Stroudsburg: ACL, 2020. 6244-6254
Res., 2004, 22:457-479
[23] DIAO Y, LIN H, YANG L, et al. Crhasum: extractive text
[13] Gong Y, Liu X. Generic text summarization using relevance
summarization with contextualized-representation hierar-
measure and latent semantic analysis[C]// Proceedings of the
chical-attention summarization network[J]. Neural Computing
24th Annual International ACM SIGIR Conference on
& Applications: 2020, 32(15): 11491-11503
Research and Development in Information Retrieval, New
[24] CAO Z, WEI F, LI S, et al. Learning summary prior
York, USA: ACM, 2001. 19-25
representation for extractive summarization[C]// Proceedings
[14] YIN W, PEI Y. Optimizing sentence modeling and selection
of the Twenty-Ninth AAAI Conference on Artificial
for document summarization[C]//Proceedings of the Twenty-
Intelligence. Menlo Park: AAAI, 2015. 2153-2159
Fourth International Joint Conference on Artificial Intelligence.
[25] CHEN X, GAO S, TAO C , et al. Iterative document
Menlo Park: AAAI, 2015. 1383-1389
representation learning towards summarization with
[15] CAO Z, WEI F, DONG L,et al. Ranking with recursive neural
polishing[C]// Proceedings of the 2018 Conference on
networks and its application to multi-document
Empirical Methods in Natural Language Processing.
summarization[C]// Proceedings of the Twenty-Ninth AAAI
Stroudsburg: ACL, 2018. 4088-4097
Conference on Artificial Intelligence. Austin, Texas, USA:
[26] SINGH A, GUPTA M, VARMA V. Hybrid MemNet for
AAAI, 2015. 2153-2159
extractive summarization[C]// Proceedings of the 2017 ACM
[16] MIKOLOV T, SUTSKEVER I, CHEN K,et al. Distributed
on Conference on Information and Knowledge Management.
representations of words and phrases and their
New York, USA: ACM, 2017. 2303-2306
compositionality[C]// Proceedings of Advances in Neural
Information Processing Systems 26: 27th Annual Conference [27] SUKHBAATAR S, SZLAM A, WESTON J,et al. End-to-end
on Neural Information Processing Systems 2013. Lake Tahoe, memory networks[C]// Proceedings of the Advances in Neural
24 Journal of Frontiers of Computer Science and Technology
Information Processing Systems 28: Annual Conference on Annual Meeting of the ACL. Stroudsburg: ACL, 2020.
[29] VELICKOVIC P, CUCURULL G, CASANOVA A, et al. summarization with hierarchical attentive heterogeneous graph
Graph attention networks[C]// ICLR. 6th International network[C]// Proceedings of the 2020 Conference on
Conference on Learning Representations, Vancouver, Canada, Empirical Methods in Natural Language Processing.
April 30 - May 3, 2018. OpenReview.net, 2018 Stroudsburg: ACL, 2020. 3622-3631
[30] ANTOGNINI D, FALTINGS B. Learning to create sentence [40] LIU Y, ZHANG J, WAN Y , et al. HETFORMER:
semantic relation graphs for multi-document summarization. Heterogeneous transformer with sparse attention for long-text
[C]//Empirical Methods in Natural Language Processing, 2019, extractive summarization[C]// Proceedings of the 2021
abs/1909.12231 Conference on Empirical Methods in Natural Language
[31] YASUNAGA M, KASAI J, ZHANG R,et al. ScisummNet: A Processing. Stroudsburg: ACL, 2021. 146-154
large annotated corpus and content-impact models for [41] JING B, YOU Z, YANG T, et al. Multiplex graph neural
scientific paper summarization with citation networks[C]// network for extractive text summarization[C]// Proceedings of
Proceedings of the Thirty-Third AAAI Conference on the 2021 Conference on Empirical Methods in Natural
Artificial Intelligence. Menlo Park: AAAI, 2019. 7386-7393 Language Processing. Stroudsburg: ACL, 2021. 133-139
[32] JAIDKA K, CHANDRASEKARAN M K, RUSTAGI S,et al. [42] MAO Q, ZHAO S, LI J, et al. Bipartite graph pre-training for
Overview of the CL-SciSumm 2016 shared task[C]// unsupervised extractive summarization with graph
Proceedings of the Joint Workshop on Bibliometric-enhanced convolutional auto-encoders.[C]// Findings of the Association
Information Retrieval and Natural Language Processing for for Computational Linguistics: EMNLP 2023. 4929-4941
Digital Libraries co-located with the Joint Conference on [43] KWON J, KOBAYASHI N, KAMIGAITO H, et al.
Digital Libraries. NJ: BIRNDL, 2016. 93-102 Considering nested tree structure in sentence extractive
[33] WANG D, LIU P, ZHENG Y,et al. Heterogeneous graph summarization with pre-trained transformer[C]// Proceedings
neural networks for extractive document summarization[C]// of the 2021 Conference on Empirical Methods in Natural
Proceedings of the 58th Annual Meeting of the ACL. Language Processing. Stroudsburg: ACL, 2021. 4039-4044
Stroudsburg: ACL, 2020. 6209-6219 [44] GUAN Y, GUO S, LI R,et al. Frame semantic-enhanced
[34] MAO Q, ZHU H, LIU J,et al. MuchSUM: Multi-channel sentence modeling for sentence-level extractive text
graph neural network for extractive summarization[C]// summarization[C]//Proceedings of the 2021 Conference on
Proceedings of the 45th International ACM SIGIR Conference Empirical Methods in Natural Language Processing.
Research and Development in Information Retrieval. New Stroudsburg: ACL, 2021: 4045-4052
York, USA: ACM, 2022. 2617-2622 [45] BAKER C F, FILLMORE C J, LOWE J B. The Berkeley
[35] CHRISTENSEN J, MAUSAM, SODERLAND S, et al. framenet project[C]// Proceedings of the 36th Annual Meeting
Towards coherent multi-document summarization[C]// of the ACL and 17th International Conference on
Proceedings of the Human Language Technologies: Computational Linguistics. Stroudsburg: ACL, 1998: 86-90
Conference of the North American Chapter of the Association [46] DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of
of Computational Linguistics. Atlanta, Georgia, USA: The deep bidirectional transformers for language understanding[C].
Association for Computational Linguistics, 2013. 1163-1173 NAACL-HLT 2019: Proceedings of 2019 Conference of the
[36] YASUNAGA M, ZHANG R, MEELU K,et al. Graph-based North American Chapter of the Association for Computational
neural multi-document summarization[C]// Proceedings of the Linguistics: Human Language Technologies. Minneapolis,
21st Conference on Computational Natural Language Learning. June 2-7, 2019. Stroudsburg: ACL, 2019,1: 4171-4186
Stroudsburg: ACL, 2017. 452¬462 [47] ZHANG X X, WEI F R, ZHOU M. HIBERT: Document Level
[37] XU J, GAN Z, CHENG Y,et al. Discourse-aware neural Pre-training of Hierarchical Bidirectional Transformers for
extractive text summarization[C]// Proceedings of the 58th
25
Document Summarization[C]// Proceedings of the 57th Deepsumm: Exploiting topic models and sequence to sequence
Conference of the ACL. Stroudsburg: ACL, 2019: 5059-5069 networks for extractive text summarization[J]. Expert Syst.
[48] WANG H, WANG X, XIONG W, et al. Self-supervised Appl., 2023, 211: 118442
learning for contextualized extractive summarization[C]// [60] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet
Proceedings of the 57th Conference of the ACL. Stroudsburg: allocation[J]. J. Mach. Learn. Res., 2003, 3:993-1022
ACL, 2019: 2221-2227 [61] ZHENG X, SUN A, LI J, et al. Subtopic-driven
[49] XU S, ZHANG X, WU Y,et al. Unsupervised extractive multi-document summarization[C]//Proceedings of the 2019
summarization by pre-training hierarchical transformers[C]// Conference on Empirical Methods in Natural Language
Proceedings of Findings of the Association for Computational Processing. Stroudsburg: ACL, 2019: 3151-3160
Linguistics: EMNLP. Stroudsburg: ACL, 2020: 1784-1795 [62] NARAYAN S, PAPASARANTOPOULOS N, LAPATA M,et
[50] JIA R, ZHANG X, CAO Y,et al. Neural label search for al. Neural extractive summarization with side information[J].
田萱(1976-),女,山东济宁人,博士,副教
授,CCF 高级会员,主要研究方向为智能信息处
理,文本挖掘等。
TIAN Xuan, born in 1976, Ph. D., Associate
Professor, senior member of CCF. Her research
interests include intelligent information processing,
text mining, machine learning, etc.
李嘉梁(2003-),男,本科生,主要研究方向
为智能信息处理,深度学习等。
LI Jialiang, born in 2003, B.E. candidate. His
research interests include intelligent information
processing, deep learning, etc.
孟晓欢(1996-),女,硕士生,CCF 学生会员,
主要研究方向为智能信息处理,机器学习等。
MENG Xiaohuan, born in 1996, M.S. candidate.
Her research interests include artificial intelligence
and machine learning, etc.