基于深度学习的抽取式摘要研究综述_田萱

计算机科学与探索
Journal of Frontiers of Computer Science and Technology

ISSN 1673-9418,CN 11-5602/TP
《计算机科学与探索》网络首发论文
题目：基于深度学习的抽取式摘要研究综述
作者：田萱，李嘉梁，孟晓欢
网络首发日期： 2024-07-15
引用格式：田萱，李嘉梁，孟晓欢．基于深度学习的抽取式摘要研究综述[J/OL]．计算机
科学与探索. https://link.cnki.net/urlid/11.5602.tp.20240710.1948.002
网络首发：在编辑部工作流程中，稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定，且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式（包括网络呈现版式）排版后的稿件，可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定；学术研究成果具有创新性、科学性和先进性，符合编
辑部对刊文的录用要求，不存在学术不端行为及其他侵权行为；稿件内容应基本符合国家有关书刊编辑、
出版的技术标准，正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性，录用定稿一经发布，不得修改论文题目、作者、机构名称和学术内容，
只可基于编辑规范进行少量文字的修改。
出版确认：纸质期刊编辑部通过与《中国学术期刊（光盘版）》电子杂志社有限公司签约，在《中国
学术期刊（网络版）
》出版传播平台上创办与纸质期刊内容一致的网络版，以单篇或整期出版形式，在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊（网络版）
》是国家新闻出
版广电总局批准的网络连续型出版物（ISSN 2096-4188，CN 11-6037/Z），所以签约期刊的网络版上网络首
发论文视为正式出版。
网络首发时间：2024-07-15 12:09:32
网络首发地址：https://link.cnki.net/urlid/11.5602.tp.20240710.1948.002
基于深度学习的抽取式摘要研究综述
田萱 1,2+，李嘉梁 1，孟晓欢 1,2
1. 北京林业大学信息学院,北京 100083
2. 国家林业草原林业智能信息处理工程技术研究中心，北京 100083
+ 通信作者 E-mail:tianxuan@bjfu.edu.cn
摘要自动文本摘要是自然语言处理的热门研究方向，主要实现方法分为抽取式和生成式两类。抽取式摘
要直接采用源文档中的文字内容，相比生成式摘要具有更高的语法正确性和事实正确性，在政策解读、官方文
件总结、法律和医药等要求较为严谨的领域具有广泛应用前景。近几年基于深度学习的抽取式摘要研究受到广
泛关注。主要梳理了近几年基于深度学习的抽取式摘要技术研究进展；针对抽取式摘要的两个关键步骤——文
本单元编码和摘要抽取分别来梳理分析相关研究工作。首先根据模型框架不同，将文本单元编码方法分为层级
序列编码、基于图神经网络的编码、融合式编码和基于预训练的编码等四类介绍；然后根据摘要抽取阶段抽取
粒度的不同，将摘要抽取方法分为文本单元级抽取和摘要级抽取两类分析。并介绍了抽取式摘要任务常用公共
数据集和性能评估指标。最后，预测并分析总结了该领域未来可能的研究方向及相应的发展趋势。
关键词：深度学习；抽取式摘要；文本单元编码；摘要抽取
文献标志码 A 中图分类号 TP18
A Survey of Deep Learning-Based Extractive Summarization

TIAN Xuan1,2+, LI Jialiang1, MENG Xiaohuan1,2
1. School of Information Science and Technology, Beijing Forestry University, Beijing 100083, China
2. Engineering Research Center for Forestry-oriented Intelligent Information Processing of National Forestry and
Grassland Administration, Beijing 100083, China
Abstract: Automatic text summarization(ATS) is a popular research direction in natural language processing, and its
main implementation methods are divided into two categories: extractive and abstractive. Extractive summarization
directly uses the text content in the source document, and compared with abstractive summarization, it has higher
grammatical and factual correctness. It has broad prospects for extractive summarization in domains such as policy
interpretation, offical document summarization, legal and medicine industry etc. In recent years, extractive
summarization based on deep learning has received extensive attention. This article mainly reviews the research
progress of extractive summarization technology based on deep learning in recent years, and analyzes the relevant
research work for the two key steps of extractive summarization: text unit encoding and summary extraction. Firstly,
according to the different model frameworks, text unit encoding methods are divided into four categories:
hierarchical sequential encoding, encoding based on graph neural networks, fusion encoding, and pre-training-based
encoding. Then, according to the different granularity of summary extraction in the summary extraction stage,
summary extraction methods are divided into two categories: text unit-level extraction and summary-level extraction.
The paper also introduces commonly used public datasets and performance evaluation indicators for extractive
summarization tasks. Finally, the future possible research directions and corresponding development trends in this
基金项目：国家重点研发计划基本项目(2018YFC1603305, 2018YFC1603302)。
This work is supported by the National Key Research and Development Program of China (2018YFC1603305, 2018YFC1603302).
2 Journal of Frontiers of Computer Science and Technology
field are predicted and summarized.
Key words: deep learning; extractive summarization; text unit encoding; summary extraction
面对着互联网上爆炸式增长的海量文本，从中筛 Computational Linguistics)、NAACL(Conference of the

选出有价值内容对于用户来说是一项耗时耗力的任 North American Chapter of the Association for
务。自动文本摘要(Automatic Text Summarization, ATS) Computational Linguistics) 、 EMNLP(Conference on
是自然语言处理的重要任务之一，通过对输入文本的 Empirical Methods in Natural Language Processing)，和
分析处理，输出其压缩版本并保留原始文本中心内 AAAI(AAAI Conference on Artificial Intelligence)等的
容，帮助用户快速把握文本关键信息。当前，ATS 技广泛关注。目前也已有多篇基于深度学习的ATS研究
[7-9]
术作为下游任务已被广泛应用于各领域，如网络新闻综述，但大多集中在生成式ATS领域，缺乏对基于
[10]
摘要[1]、社交网站信息提取[2]、书籍等长篇文档摘要深度学习抽取式ATS研究的全面系统分析。因此，
、法律文件摘要、商务会议或客户服务对话总结
[3] [4] [5]
本文主要对近年来基于深度学习的抽取式ATS相关研
等。究工作进行全面梳理与综述。
当前 ATS 研究从实现方式角度可分为两类：抽取当前基于深度学习的抽取式 ATS 的创新工作主
式(extractive)摘要和生成式(abstractive)摘要，抽取式要集中在文本单元编码和摘要抽取两个关键步骤，本
摘要直接抽取原文中的重要词语、句子或段落等文本文也将对涉及的算法分别从这两方面展开介绍。具体
单元组成摘要；而生成式摘要则需在对文本进行更 [6]
分类如图 1 所示，后续将详细介绍和分析这些方法。
高层次语义理解后，应用自然语言生成算法生成更凝本文其余部分内容安排如下：第 1 节描述该领域
练简洁的摘要。的早期研究和相关背景。第 2 和 3 节分别对文本单元
虽然随着大语言模型（Large Langurage Model，编码和摘要抽取方法进行归纳和总结。第 4 节介绍该
LLM）技术发展，生成式摘要备受关注，但在一些诸领域常用数据集及评估指标，并对比主要模型性能。
如政策解读、官方文件总结、法律和医药等领域，抽第 5 节讨论该领域的研究现状并对未来的发展方向进
取式摘要仍具有不可替代的作用。抽取式摘要直接从行展望。
原文复制，可以避免生成式摘要出现陌生词汇和短语
的情况，减少语法和事实错误，实现更高准确性，对
1 早期研究和相关背景介绍
政治、法律、医药等对摘要准确性要求较高的领域尤抽取式摘要将 ATS 看作二元分类问题，判断源文
为重要，例如，在法律领域，法律文件如判决书、合档中的文本单元是否属于摘要内容。即给定包含 n 个
同、法规等，对语言精确性具有极高要求；任何自行文本单元{s1, …, sn}的源文档 D，从中选择 m(m<n)
生成的新表述都可能影响法律条款的解释和适用。抽个文本单元组成摘要 S。其中文本单元可以是各种级
取式摘要有助于确保法律文本的严谨性和合法性，避别的文本片段，如词汇、短语、句子和段落等。
免因生成式摘要的技术失误引入未被认可的法律概抽取式 ATS 的核心问题是如何选择最能代表全
念或表述，从而保障了法律文书表达的一致性和可靠文内容的文本单元，对此首先需要提取文本单元特
性。总之，抽取式摘要的内容直接源自原文，为用户征，再判断其是否包含源文档关键内容并对其分类。
提供了明确的原文参考，便于验证和追溯信息来源，传统抽取式 ATS 一般以句子为选择单元，通常分为句
增强了文档的透明度。这对于建立公众信任、维护司
子打分和句子选择两个步骤。句子打分方法包括基于
法公正或是进行科学研究时，都是不可或缺的，尤其
特征 [11] 、基于图排序 [12] 、基于潜在语义分析(Latent
是在那些对准确性和权威性要求极高的专业领域，其
Semantic Analysis, LSA)[13]等。这些方法大都依赖人工
价值和不可替代性尤为突出。
提取句子特征，如句子所在位置、是否含有专有名词、
最近几年，随着深度学习(Deep Learning, DL)的
线索词等，通过估计这些语言学或统计学等较为浅层
发展和应用，基于深度学习的抽取式ATS已成为当前
特征的重要程度给句子打分，难以挖掘文本的深层语
研究热点，受到计算语言学和人工智能相关领域国际
义。
会议如 ACL(Meeting of the Association for
3
随着深度学习技术的发展，使用神经网络提取文表征：将不同粒度文本单元映射到同一连续向量空间
本单元特征逐渐成为 NLP 领域及抽取式 ATS 的主流中，表示为低维、稠密的实值向量，实现了对复杂语
方法。深度学习技术使用神经网络自动对源文档进行义关系的建模, 显著提升了摘要抽取质量。

图1 基于深度学习的抽取式摘要方法分类
Fig.1 Taxonomy of deep learning based extractive summarization
早期的深度学习方法仍将抽取式 ATS 视为两个模型或其变体的组合，其一般流程如图 2 所示：首
分离的步骤，两个步骤的处理模型分别进行优
[14, 15]
先对源文档进行预处理，划分成文本单元；然后用
化，导致摘要抽取效果难以用于优化文本单元表征。神经网络模型对文本单元编码，提取其抽象特征。
随着深度学习的进一步发展，端到端的抽取式 ATS 最后在摘要抽取阶段，设计抽取策略选择文本单元
模型成为研究主体，同一模型分两阶段完成摘要抽组成摘要。下面本文从文本单元编码和摘要抽取方
取，通过反向传播算法更新所有神经网络参数，使法两阶段对当前基于深度学习的抽取式 ATS 研究进
得摘要抽取成为一个无需人工干预的完整过程。行梳理，对各类方法和技术分别进行归纳总结。
端到端的抽取式 ATS 模型通常为基础神经网络
图2 基于深度学习的抽取式摘要一般流程
Fig.2 Pipeline of deep learning-based extractive summarization
2 文本单元编码阶段汇一般直接利用预训练词向量如 Word2Vec[16] 、

GloVe[17]等，而句子和段落等更高级别的文本单元
基于深度学习的抽取式 ATS 研究中，编码阶段通常以层次化的编码方式来捕获低级别文本单元特
的核心是把文本单元的关键语义信息编码为向量表征以获得其向量表示。还有一些工作额外计算源文
示，用于后续的摘要抽取。词汇、短语、句子和段档向量表示[18]，以便为摘要抽取提供全局信息。
落等各级别的文本单元编码方式有所不同：其中词
本文按照编码器网络设计策略的不同将文本单
元编码方式划分为 4 类，分别是层级序列编码、基通过卷积神经网络 CNN 提取文本单元不同层

于图神经网络的编码、融合式编码和基于预训练的次的特征也在抽取式 ATS 研究中被广泛采用。如
编码。其中前两类主要关注利用 DL 模型提取源文 Cheng 和 Lapata[1]提出模型 NN-SE，结构如图 4 所
档本身特征，而后两者则注重通过引入先验知识来示，将 Word2Vec 预训练词向量拼接后输入 CNN 层
提升摘要抽取效果。提取同一句子的多角度特征，再将得到的不同句向
2.1 层级序列编码量相加实现特征整合，最后输入一层 RNN 进一步

编码句子的时序信息。该模型在 DUC2002 数据集
利用 DL 模型实现对句子、段落的等大粒度文
上的 ROUGE-L 分数超过了传统方法基线。Luo 等[20]
本单元建模是抽取式 ATS 文本单元编码阶段的核心
提出模型 HER (Human-being-reading Inspired
问题，层级序列编码将大粒度文本单元视为小粒度
Extractive Summarization)，将双向 LSTM 编码的句
文本单元的序列，通过从小到大逐级编码的方式实
现对不同粒度文本单元建模。编码器往往由多个相向量输入 CNN 层提取段落局部特征，并将各句向
同或不同的神经网络模型串联组成，常使用循环神量取平均值作为文档全局特征，二者共同作为摘要
经网络、卷积神经网络、注意力机制、迭代编码及抽取阶段的上下文。
其组合等。如何整合词汇、短语等小粒度文本单元
特征以获得句子、段落等大粒度文本单元表示是层
级序列编码的关键焦点。
循环神经网络 RNN 及其变体模型 LSTM(Long-
short Term Memory)和 GRU(Gated Recurrent Unit，
GRU)常用于提取文本单元时序特征，一些研究将其
堆叠起来实现多级文本单元的层级序列编码。如针
对单文档摘要的 SummaRuNNer 模型[19]，堆叠两层
双向 GRU 分别对词汇和句子编码，将词汇级 GRU
隐状态拼接和平均池化作为句子级 GRU 的输入，
并以同样的方式获得文档表示，有效捕获了大粒度
文本单元的时序特征。NEUSUM(Neural Extractive
Document Summarization) 模型 [18]
则在
SummaRuNNer 基础上精简了由词汇表示得到句子
初始表示的过程。图 3 修改自文献 [18] ，展示了
图 4 NN-SE 模型结构
NEUSUM 的编码器结构。其只拼接前向传播和后向
传播的最后一个 GRU 隐状态，简化了计算，获得 Fig.4 Structure of NN-SE model
了 ROUGE-F1 分数的提升。对小粒度文本单元拼接或平均池化以获得大粒

度文本单元初始表示的方式忽略了对每个文本单元
语义重要性程度的区分。基于注意力机制的编码通
过给小粒度文本单元分配注意力权重体现其不同单
元的重要性。Feng 等[21]提出单文档抽取式 ATS 模
型 AES(Attentive Encoder-based Summarization)，在
RNN 编码器的基础上，结合自注意力机制计算所有
句向量的注意力加权和建模句子间关系，与每个句
向量拼接实现在句子表示中融入句子间关系。模型
在公开数据集上获得了较高的 ROUGE 分数。针对
多文档摘要，Jin 等 [22] 提出多粒度互动网络模型
图 3 NEUSUM 模型编码器概览 MGSum(Multi-granularity Interaction Network)，通过
Fig.3 Overview of encoder of the NEUSUM model 自注意力和交叉注意力机制分别捕捉相同和不同粒
5
度文本单元的语义关系。如图 5 所示，采用一个多迭代编码是一种在文档编码过程中多次更新文

粒度编码器读取多篇输入文档，学习词汇、句子和本单元表示以提升编码质量的编码方式，它模仿了
文档的向量表示，最后利用融合门(Fusion Gates)集现实中人类通过多次阅读理解和总结文本内容的过
成来自不同注意力机制的实现。类似地，模型程。例如，模型 ITS(Iterative Text Summarization)[25]
CRHASum[23](Contextualized-representation 提出通过基于 GRU 的“选读模块”和“迭代单元”
Hierarchical-Attention Summarization)也针对多文档交替更新句子和文档表示。选读模块依据当前句子
摘要应用一种层次注意力机制捕捉句子词级和句级和文档向量的关系更新句子向量；最后当所有句子
上下文关系。最后的摘要抽取结果在 DUC2004 数都更新完成后，将选读模块的最终隐藏状态和当前
据集上的分数超过了 LexRank 、PriorSum
[12]
等基
[24]
文档表示一起作为输入送到迭代单元实现文档表示
线。更新。Singh 等[26]提出 Hybrid MemNet 模型，提出
一种记忆网络[27]结合 CNN-BiLSTM 的文档编码器
结构，通过多层记忆网络的堆叠捕获句子重要性和
冗余度，进而实现文档表示的更新。该模型在
DUC2002 单文档摘要数据集上相比未使用记忆网
络的基础模型有了进一步性能提升。
层级序列编码将源文档视为分层的序列，通过
逐级提取特征的方式实现文本单元编码，能够很好
捕捉到源文档局部和整体语义。然而文本中不仅存
在序列结构，还存在如句法树、语义关系图等拓扑
结构，层级序列编码器无法直接对这些结构进行建
图 5 多粒度编码器概览
模。表 1 总结对比了抽取式 ATS 研究中文本单元层
Fig. 5 Overview of Multi-granularity Encoder
级序列编码的常见方法。
表 1 层级序列文本单元编码方法对比
Table 1 Comparison of Hierarchical Encoding methods
文本单元编
代表模型解决问题优势局限性
码方式
SummaRuNNer[19] 通过堆叠 LSTM、GRU 等 RNN 网络，容易出现梯度爆炸或消失问
基于 RNN 系提取文本单元序列特
有效提取文本序列中的顺序关系和题；无法并行计算，训练速度
列的方法 NEUSUM[18] 征
句法语义信息较慢
基于 CNN 系 NN-SE [1] 提取文本单元局部特通过多个卷积层和池化层实现文本受卷积核大小限制难以捕捉
列的方法 HER [20] 征序列不同层次特征的提取长距关系
AES[21]
基于注意力区分小粒度文本单元有针对性地提取文本单元特征，提升
MGSum[22] 难以处理长文本
机制的语义重要性可解释性
[23]
CRHASum
ITS[25] 通过 GRU、记忆网络等实现文本单
单次编码对文本的理
迭代编码 Hybrid MemNet[26] 元特征的重复提取，以更新文本单元降低了训练速度
解不充分
表示，提升文本内容理解程度
2.2 基于图神经网络的编码编码。GNN 是一类善于处理非欧几里得空间数据的

神经网络，已广泛应用于自然语言处理的多个领域。
为了在抽取式 ATS 中更好建模源文档中的句法
其中图卷积网络[28](Graph Convolutional Network，
树、语义关系图等多种结构，研究者也常采用图神
GCN)和图注意力网络[29](Graph Attention Network,
经网络(Graph Neural Networks，GNN)实现文本单元
GAT) 由于其较高的计算效率常用于抽取式 ATS 研再通过人工规则实现边消除以改善稀疏度。此类方

究。基于图神经网络的编码一般将文本单元作为节法虽实现较为简单，但缺乏对节点间深层语义关系
点，通过 GNN 网络聚合邻居节点学习节点表示，的考虑。
最后通过节点分类的方式实现摘要抽取。其关键在 2.2.2 篇章语义图
于文档图的结构设计，一方面全连接图无法有效利基于浅层语义图的抽取式 ATS 模型根据节点间
用文本单元间的语义结构，另一方面稀疏图无法捕的浅层语义关系建模，往往忽略了节点之间逻辑、
获足够的语义信息。根据编码过程中文档图建模关句法等篇章关系。篇章语义图基于文档的篇章结构
系的不同，本文将相关研究分为浅层语义图、篇章和节点之间的上下文关系构建文档图，更有助于提
语义图和混合语义图三类分别介绍。高编码质量，提升摘要抽取效果。
2.2.1 浅层语义图
早期文献 [35]
曾提出一种近似篇章图
基于浅层语义图的抽取式 ATS 研究延续了传统
(Approximate Discourse Graph, ADG)用于抽取式
基于图排序的思想，往往利用语义相似度或词袋模 ATS，ADG 涵盖了句子间事件参照、实体引用等篇
型构建文档图并采用 GNN 更新节点表示。例如，章关系。在其基础之上，Yasunaga 等[36]提出一种个
多文档摘要模型 SemSentSum 以句子为节点，句
[30]
性化篇章图(Personalized Discourse Graph, PDG)捕
子间的余弦相似度作为边，捕获句子的跨文档关系；获句子关系。PDG 基于节点中的句子位置、句子长
将句子的 LSTM 隐状态作为节点初始表示，使用度、句子中专有名词数量等浅层特征对 ADG 图上
GCN 更新节点表示。同时模型消除了权重低于阈值节点间的关系进行建模。将这一系列浅层特征的加
的边，以保证文档图合适的稀疏度。与之类似，权和定义为句子个性化分数，在此基础上采用 GCN
Yasunaga 等面向学术论文摘要提出 ScisummNet
[31]
捕获句子的高级特征。模型采用 GRU 初始化节点
模型，将论文的摘要句和引文句子作为节点，句子特征。和基于余弦相似度、ADG 的文档图相比，PDG
间的余弦相似度作为边构建文档图，采用 GCN 更估计句子重要性时更专于表示句子之间的叙述和逻
新结点表示。CL-SciSumm 数据集上的实验结果
[32]
辑关系。此外，Xu 等[37]提出一种篇章感知的抽取
表明该模型结果比原文摘要和传统基于引文的摘要式 ATS 模型 DISCOBERT, 基于 RST (Rhetorical
更全面。Wang 等采用二部图对词汇-句子二者之
[33] Structure Theory)[38]篇章解析树构建文档图，将基础
间的关系建模，提出模型 HSG(Hetersumgraph)，采篇章单元(Elementary Discourse Unit，EDU)作为节
用 TF-IDF(Term frequency-inverse document 点。模型结构如图 6 所示，首先 BERT 编码器获取
frequency, TF-IDF)定义词-句之间边的权重;采用 token 表示后，然后由自注意 Span 特征提取器
CNN 和 BiLSTM 初始化节点表示并用 GAT 更新表 (Self-attentive Span Extractor, SpanExt)学习 EDU 表
示。HSG 具有很强的扩展性，在其中加入文档节点示，最后通过基于 GCN 的堆叠篇章图编码器捕获
即可转化为面向多文档的摘要模型。Mao 等 [34]在长距依赖。CNN/DM 和 NYT 数据集上的实验结果
HSG 图结构的基础上设计了一种多通道图卷积网表明 DISCOBERT 模型性能超过了其它基于 BERT
络 MuchSum(Multi-channel Graph Convolutional 的基线模型，且更细粒度的 EDU 级别抽取有效减

少了摘要中的冗余。
Network)，引入了三种图通道，分别进行图卷积操
总之，基于篇章语义图的文本单元编码在
作以学习节点的文本特征、中心度特征和位置特征，
ADG、RST 等已有篇章关系图的基础上构建文档
并将每个通道学习到的句子表示融合来进行摘要抽
图，相比浅层语义图更有利于捕获文本单元丰富的
取。该模型相比 HSG 能更好捕获句子关系，因而获
上下文关系和长距关系，提升摘要抽取效果。然而
得了更好的摘要抽取质量。
篇章关系图往往只包含单一节点类型，导致模型无
总之，浅层语义图大多在全连接图的基础上设
法提取不同层次文本单元特征。
计，采用相似度等浅层语义关系定义节点间边权重，
7
图 6 DISCOBERT 模型结构
Fig. 6 Structure of DISCOBERT model
2.2.3 混合语义图合文档图，分别对句内和句间关系建模。Jing 等[41]

文档中一对文本单元之间存在多种关系，如句子提出 Multi-Gras(Multiplex Graph Summarization )模
间的语义相似度、自然连接关系等；句内词汇也存在型，如图 7 所示，对于词汇节点，根据依存分析构建
语义、句法关系等不同关系。混合语义图综合考虑了句法图；对于句子节点，将含有同一关键词的句子相
节点间的浅层语义关系和篇章关系，能够更充分地挖连以构建自然连接图。同时基于余弦相似度分别构建
掘不同类型节点间不同关系隐含的结构信息。Jia 等[39] 词汇和句子节点的语义图。该文同时提出一种改进的
提出一种混合命名实体、词汇、句子的异质图 Multi-GCN 网络，通过内部和外部两种“跳跃连接”
HAHSum (Hierarchical Attentive Heterogeneous Graph (Skip connection)学习节点表示。CNN/DM 上的消融
for Text Summarization)，通过分层的子图结构对源文实验表明同时考虑多种文本单元关系时模型性能好
档建模。HAHSum 由词级、词句级、句子级三层子于仅考虑单一关系。文献[42]在预训练阶段为聚合句
图构成，包含四种类型的边：顺序、包含、相同、相间的连贯特征和句内独特特征，提出了一种新颖的句
子-词语二步图编码方法，将一个描述句间连贯性的
似，节点信息由低级别子图依次向高级别子图传递。
GCN（GCNinter）与一个句内独特性的 GCN（GCNintra）
该模型通过多层图网络实现了句子重要性和冗余性
进行拼接编码，用于后续的句子排名及摘要生成任
测量，在三个公开数据集上的效果超过了 BERTSUM
务，获得了一定抽取准确率提升。
等基线。 Liu 等 [40]
提出模型 HETFORMER
Kwon 等 [43] 提出一种基于嵌套树 (Nested
(Heterogeneous Transformer)用于长文档抽取式 ATS，
Tree-based)的模型 NeRoBERTa，构建句法树和 RST
文档图包含 token、实体、句子三类节点以及五种类
篇章树分别捕获句内和句间关系。该方法在捕捉句子
型的边：token-token、token-句子、句子-token、句子
中关键词时能够考虑与其他句子的文本连贯性，因而
-句子、实体-实体，并利用多粒度稀疏注意力机制
特别有利于提升摘要连贯性。 Guan 等 [44] 提出
(Multi-granularity Sparse Attentions)捕获不同关系。
FS3(Frame Semantic-enhanced Sentence Modeling
同时该文针对多层 GNN 参数量巨大，计算效率偏低
For Extractive Summarization)模型，利用语义框架建
的问题，提出通过稀疏掩码实现图中边的构建，从而
模句内和句间关系。引入伯克利的 FrameNet 语义知
减少了参数量降低了内存需求，提升了模型训练效
识库[45]，将句子视为一些列语义场景构建文档图，共
率。
包括句子、框架、框架元素三类节点。将框架节点与
另外一些工作构建包含词级和句子级节点的混
其所包含的框架元素节点相连，句子节点与句子包含
的框架节点相连，最后根据框架-框架关系将不同句 GCN 更新结点表示。模型通过引入外部语义丰富了

子相连。采用 BERT 对源文档和语义框架编码，用句子向量表示。
(a) Multi-Gras 文档图结构 (b) 句子编码过程 (c) Multi-GCN 结构
(a) Structure of the document graph of Multi-Gras (b) Process of the sentence encoding (c) Structure of Multi-GCN
图 7 Multi-Gras 模型及 Multi-GCN 网络结构[41]

Fig. 7 Structure of Multi-Gras model and the proposed Multi-GCN
混合语义图能够更好捕获文本单元内部和外部档中任意一对文本单元的关系。多文档摘要中，基于
语义关系，有助于提升摘要准确性和连贯性；但同时 GNN 的编码很容易捕获文本单元的跨文档关系。其
由于其包含多种语义关系，数据集构建相对较复杂。缺陷在于采用多层 GCN 编码容易出现过平滑
抽取式 ATS 任务中，GNN 非常有利于提取文本 (Over-Smoothing)问题：随着邻居节点信息的不断聚
单元丰富的上下文特征，文档图节点、关系的建模方合，节点表示逐渐趋同，导致难以区分。表 2 对比总
式是基于 GNN 的编码方法关键焦点。单文档摘要中，结了基于 GNN 的编码方法。
GNN 的优势在于能够不受距离和粒度的限制捕获文
表 2 基于图神经网络的编码方法对比
Table 2 Comparison of graph Neural Network-Based Encoding
文档图代表模型节点关系关系类型节点聚合机制优势/局限性
SemSentSum [30] 句子-句子余弦相似度 GCN 实现较为简单；受
浅层语 ScisummNet [31] 句子-句子余弦相似度 GCN 限于文档图结构
义图 HSG [33] 词汇-句子 TF-IDF GAT 难以实现节点间
MuchSum [34] 词汇-句子 TF-IDF/中心度/相对位置 GCN 深层语义挖掘
Graph-based 实现对节点上下
篇章语句子-句子篇章关系 GCN
Neural MDS [36]
文关系的建模；节
义图
DISCOBERT [38]
EDU-EDU 篇章关系 GCN 点类型较为单一
实体-词汇、实体/词汇-句子、
HAHSum[39] 顺序/包含、相同/相似 GAT
实体-实体、句子-句子
Token-token、token-句子、句子多级稀疏注意力
HETFORMER[40] 主题关系/篇章关系
-token、句子-句子、实体-实体机制对节点的多种关
混合语句法关系/自然连接/余弦系建模，更有效地
Multi-GraS[41] 词汇-词汇、句子-句子 Multi-GCN
义图相似度提取节点特征；数
词汇-词汇、据集构建较复杂
NeRoBERTa[43] 句法关系/篇章关系 GAT
句子-句子
句子-句子、句子-框架、框架- 结合层次注意力
FS3[44] 语义框架
框架元素机制的 GCN
2.3 基于预训练的编码 BERT[46](Bidirectional Encoder Representations from

Transformers) 预训练语言模型及其变体作为文本
层级序列编码和基于图神经网络的编码提取
单元编码器。它采用 Transformer 架构，在预训练
的文本单元特征往往仅来自于源文档本身。基于预
过程中根据双向上下文预测句子被遮盖单词，将其
训练的编码利用迁移学习思想在文本单元表示中
恢复为完整句子。预训练语言模型在抽取式 ATS
融合更多通用知识，实现了文本单元表示的增强。
中有两种应用方式：基于特征和基于微调[46]。基于
自然语言处理中的预训练是一种自监督表示学习，
特征的方式直接从预训练模型中提取固定的文本
预训练语言模型在大规模无标签文本上学习通用
单元表示；基于微调的方式通过联合微调预训练模
上下文语言表征，再应用到下游任务，以实现知识
型的所有参数来训练抽取式摘要任务。
迁移。当前抽取式 ATS 研究大多采用
9
在基于特征的应用方式中，研究者提出了多种内容选择句子。该模型在 CNN/DM 和 NYT 数据集

面向抽取式 ATS 的预训练编码器结构和相应的预上与其他对句子位置建模的自监督模型相比取得
训练任务。Zhang 等提出模 HIBERT(Hierachical
[47]
了更好效果。Jia 等[50]面向零样本跨语言摘要问题
Bidirectional Encoder Representations From 提出模型 NLSSum (Neural Label Search For
Transformers)，通过预测源文档被遮盖的句子来预 Summarization)，其编码器结构基于多语种预训练
训练层次化 Transformer 编码器，获得句子预训练模型 XLM-R[51] (Cross-lingual language
表示，在一定程度上提升了摘要抽取性能。Wang model-RoBERTa)，并且预训练过程中采用词汇替
等将 LSTM 和自注意力模块分别用于编码句子
[48]
换、机器翻译两种方法实现了数据增强，使英文的
和文档，提出遮盖 (mask)、替换 (replace)和交换文本表示与其它语言保持一致，从而在零样本条件
(switch)三种句子级别自监督预训练任务用于抽取下获得其它语言的文本单元表示。CNN/DM 数据集
式 ATS，以在句子表示中融合文档级上下文信息。上进行预训练后在跨语言数据集 MLSUM [52]
和
CNN/DM 数据集上的实验结果表明三种预训练任 WikiLingua [53]
上的 ROUGE 分数超过了其它跨语言
务均能提高基础模型的 ROUGE 分数，而其中交换基线模型。
方法效果最好。Xu 等[49]提出模 STAS(Sentence-level 基于微调的应用方式直接利用预训练好的
Transformer Based Attentive Summarization)，采用层 BERT 编码器，通过下游抽取式摘要任务对其微调。
次化 Transformer 编码器，设计了两种预训练任务： Liu 和 Lapata[54]提出 BERT 的变体模型 BERTSUM，
预测被遮盖句子、复原被打乱句子顺序，以减少模首次将 BERT 应用于抽取式 ATS 领域。图 8 对比
型在抽取摘要时对句子位置信息的依赖，从而基于了原始 BERT 和 BERTSUM 模型，BERTSUM 在每
图 8 BERT(左)和 BERTSUM(右)模型对比
Fig. 8 Comparison of the original BERT model (left) and BERTSUM (right)
个句子前附加“[CLS]”标记聚合该句子所包含的似度。该模型在 CNN/DM 和 NYT 数据集上的性能

词汇信息，并将其向量表示作为句子表示输入摘要超过了一些无监督的基线模型。
判断层进行摘要抽取。基于预训练的文本单元编码利用上下文语言
Zheng 和 Lapata [55]
提出无监督模型表征的丰富语义提升了摘要准确性和可读性；同时
PACSUM(Position-Augmented Centrality Based 加快了模型训练过程。然而，预训练语言模型一般
Summarization)，将 BERT 模型作为句子编码器用无法处理较长文本，导致文本长度超过阈值部分的
于传统基于图排序的方法中，以负采样方式对模型信息损失。表 3 对比总结了基于预训练编码的抽取
进行微调后，将获得的句子表示用于计算句子间相式 ATS 模型。
表 3 基于预训练的编码方法对比
Table 3 Comparison of Pre-training-Based Encoding Methods
应用方式代表文献模型名称预训练任务优势局限性
Zhang et al.[47] HIBERT 遮盖固定的文本单

Wang et al. [48]
/ 遮盖、替换、交换通过预训练捕获了元表示可能难
基于特征 Xu et al. [49]
STAS 遮盖、复原句子顺序文档级上下文；提升以适应下游多
了模型训练效率样的抽取式
Jia et al. [50] NLSSum 词汇替换、机器翻译
ATS 数据集
Liu and Lapata[54] BERTSUM / 通过微调降低了训
微调策略不当
练集规模的需求；使
反而会降低抽
基于微调预训练文本单元表
Zheng and Lapata[55] PACSUM / 取式 ATS 模型
示更好适应抽取式
性能
ATS 数据集
2.4 融合式编码本单元表示与浅层特征结合能更有效识别句子的摘

要价值。
对于某些类型的文本，有时源文档本身的一些内
实体和主题信息也可作为先验知识融入到模型
容需要在摘要抽取时特别关注，仅利用通用知识不能
中。文本中的实体携带了上下文信息，对摘要连贯性
满足需求。因此很多抽取式 ATS 研究将一些先验知
有着关键作用。Sharma 等[58]提取源文档实体，通过
识融入到模型中以提升 ATS 模型的表达能力，即采
将实体提及及其上下文与人类摘要对齐学习识别重
用融合式编码。先验知识通常借助自然语言处理技术
要内容。使用 CNN 对实体提及编码，获得实体向量
从源文档提取，包括词频、句子长度等统计学知识或
表示以辅助摘要抽取。模型在 CNN/Daily Mail 数据
文档的实体、主题等特定领域知识。这些外部先验知
集上的 ROUGE-1 分数超过了已有先进算法。Joshi
识通过 DL 模型编码后，可用于优化文本单元表示或
等提出 DeepSumm[59]，利用主题向量捕获文档的长距
辅助摘要抽取过程。
语义信息，以提升摘要文本的质量和准确性。该文使
早期的 ATS 研究认为，文本单元是否具有摘要
用概率主题模型 LDA[60]计算每个词汇的主题分布，
价值取决于其自身的统计学或语言学特征，例如用具
输入一层双向 LSTM 获得句子主题向量，用于在摘要
体术语表达的句子相比于口语化描述往往更具有摘
抽取阶段通过该向量评估句子的全局语义以衡量其
要句特征；该类特征与文本单元所在文档无关，因此
重要性。在多文档摘要中，针对某一主题下的文档集
称之为“文档独立特征”。Cao 等[24]首次尝试将句子
可能涵盖多个子主题的情况，Zheng 等[61]提出子主题
位置、句中术语平均频率、句中词汇集平均频率与
驱动的抽取式摘要模型 STDS(SubTopic-Driven
CNN 学习到的句子向量表示拼接，提出模型
Summarization)，利用子主题反映文档之间的关联性。
PriorSum。实验结果验证了融合文档独立特征能使模
该文使用双向 RNN 提取句子、文档和潜在子主题的
型更准确估计句子重要性，提升摘要抽取准确性。受
向量表示，再将句子分配给不同的子主题，以实现软
其启发，Singh 等[56]针对多文档抽取式摘要任务提出
聚类。模型在 DUC2004 数据集上相比其他基线取得
HNet(Heterogeneous net)模型，提取文档语言学特征
了最高的 ROUGE-1 Recall 分数。
与神经网络编码的句子向量表示进行拼接。其在文献
对于单文档摘要，除了关注文档主体信息，文档
基础上添加了句中词汇的平均 IDF 值除以句子长
[24]
的辅助信息(side-information)，如标题、图片说明等
度、句中词的最大 IDF 分数特征，从而更好地将句子
也有助于提升摘要抽取质量，Narayan 等[62]提出模型
重要性融入编码阶段。Cho 等 [57]
将行列式点过程
SIDENET，对文档标题、图片说明和文档第一条句子
(Determinantal Point Processes，DPP)方法与深度神经
三种辅助信息编码，并通过注意力机制引导句子抽
网络结合，根据句子的突出度(prominence)和排斥度
取。其结构如图 9 所示，实验结果证实融合标题信息
(pairwise repulsion)选择可能性最高的句子以期获得
能最大程度提高摘要抽取性能。
更好的文本单元表示和摘要抽取效果。结果表明将文
11
图 9 SIDENET 模型结构[62]
Fig.9 Model structure of SIDENET
Abdi 等[63]针对面向观点的多文档摘要将情感极往往较为有效，同时该方法一定程度上提升了模型的
性作为先验知识编码到词嵌入中，以缓解预训练词嵌可解释性。但此类方法额外的特征提取步骤往往导致
入忽视情感极性问题，避免了将上下文相似但极性相更高的数据构建成本。表 4 对比了融合编码方法的特
反的两个词映射为相似向量。具体而言，该文首先构点。
建一个包含了来自情感词典的词汇先验情感极性的 2.5 小结
二维二进制向量，然后将其与词嵌入拼接，最后整合
文本单元编码阶段的关键在于对文本单元的重
了情感极性的词嵌入被输入到 RNN-LSTM 层，得到
要性建模，DL 模型将能够判断文本单元摘要价值的
句子表示。模型在 DUC2001 数据集上的 ROUGE 分
信息向量化，作为文本单元表示用于摘要抽取。本节
数超过了 PriorSum 等基线。
介绍了四种编码方法，这些方法可以相互叠加，以实
总之，融合式编码显式地在抽取式 ATS 模型中
现多方面提取文本单元特征。
融入先验知识，借助自然语言处理技术可从源文档本
身提取语言学知识，对于特定领域文本融合专业知识
表 4 融合式编码方法对比
Table 4 Comparison of Fusion-Based Encoding Methods
融合的先验知识模型名称优势局限性
利用自然语言处理工具从源文档提取语
文档独立特征 HNet[56] 有时需人工提取特征
言学或统计学特征，较为通用
DPP-BERT-Comb[57]
提供更多上下文信息，有助于提升摘要需借助额外的自然语言处理
实体或主题 SENECA[58]
连贯性和准确性工具
DeepSumm[59]
STDS[61]
利用文档主体外的信息提升摘要抽取性
辅助信息 SIDENET[62] 普适性较差
能
基于情感词典在词嵌入中融合情感极情感词典难以识别新词汇，
情感极性 RDLS[63]
性，从而获得文本单元的倾向性需不断保持更新
3 摘要抽取阶段 Words From Alternating Pointer Networks)，交替抽取

关键词和重点句子。采用两级指针网络 (Pointer
摘要抽取阶段中，DL 模型旨在识别出包含源文
Network)对关键词和句子的互动建模，通过一个“软
档最重要内容的文本单元，并在考虑可读性的同时把
开关”控制抽取粒度。模型在 CNN/DM 数据集上的
这些文本单元按照某种顺序抽取出来。如何实现合理
实验表现超过了 SummaRuNNer。Zhu 等[66]为减少摘
的文本单元抽取顺序，即提升摘要连贯性是该阶段的
要状态表示的噪声提出模型 AES-Rep(Auto-regressive
研究重点之一。本节按照抽取粒度不同，将现有摘要
Extractive Summarization with Replacement)，采用一
抽取阶段方法分为文本单元级和摘要级两类，并对每
种替换定位模块比较已抽取句子和后续句子对源文
种抽取方法按照训练策略进一步细分，分别进行分析
档主旨的表达程度，使得有缺陷句子被后续句子替
总结。
换。
3.1 文本单元级抽取总之，自回归抽取将已抽取摘要状态作为剩余文
文本单元级抽取中 DL 模型主要依据其向量表示本单元的评分标准之一，提供了目标侧依赖，然而这
中蕴含的语义语法和上下文等来对文本单元的重要种迭代抽取方式容易造成误差累积，当先前的抽取结
程度评分，选择分数最高的文本单元组成摘要。文本果并不准确时，不断累积的误差会降低抽取准确率。
单元级抽取研究大部分以句子为抽取单位。抽取过程且抽取过程中无法并行计算，降低了训练效率。
中依据已抽取句子进行下一次抽取的方法称为自回 3.1.2 非自回归抽取
归方法(Autoregressive)，反之则称为非自回归方法为避免自回归方法迭代抽取易造成误差累积的
(Non-autoregressive)。在此基础上还有基于多任务学问题，非自回归方法采用对句子独立评分的方式，并
习(Multi-task learning)的方法。文本单元级抽取在抽行地一次性抽取摘要句。Top-k 策略是当前研究普遍
取式 ATS 任务中被广泛应用。该类方法面临的误差采用的一种非自回归方法，将摘要抽取过程视为句子
累积、位置偏差等问题仍具有较大的研究空间。排序任务，用一个分类器给所有文本单元打分，一次
3.1.1 自回归抽取性抽取分数最高的前 k 个句子。为更好提升摘要可读
自回归抽取源于文本生成任务中的自回归解码，性，Liu 和 Lapata[54]将判断冗余性的 Trigram Blocking
在抽取式 ATS 任务中能够根据已抽取句子判断源文策略[67]应用于非自回归抽取过程中，若候选句子与已
档中剩余句子的重要程度。自回归抽取基于乘积规则选句子存在连续三个词汇重叠则不会被选中，有效减
假设：一个词的生成概率可以分解为已生成词条件概少了摘要中的冗余词汇。
率分布的单向乘积[64]。在抽取式 ATS 中，自回归方还有一些研究采用序列标注的方法对源文档中
法则转化为计算文本单元抽取概率，通常采用 RNN 的句子逐一分类，并使用不同的评分条件以提升抽取
序列模型对摘要状态建模，维护一个摘要状态表示；效果。例如 Nallapati 等[19]采用 GRU 作为序列分类器
采用多层感知机或注意力机制给剩余句子评分。Zhou 的基本构件，根据句子内容是否丰富、在源文档中显
等 [18] 首次将自回归方法应用于抽取式 ATS，采用著性、对已输出部分摘要的新颖性以及其位置特征等
GRU 记忆已抽取的部分摘要，并通过多层感知机依决定其是否被抽取。由于标注过程具有顺序性，文本
据已抽取的句子和剩余句子的重要性程度对剩余句开头的句子首先暴露在模型中，因此更有可能被抽
子评分，选取最高分句子加入到摘要中。该方法相比取，导致位置偏差问题。对此 Liu 等[68]提出通过“控
NN-SE 基线算法在 CNN/DM 数据集上取得了更高的制码”(control codes)指定源文本中句子的位置、重要
预测精度。鉴于抽取的摘要通常也包含重要关键词，性和多样性。预先计算的控制码向量作为条件信号与
Jadhav 和 Rajan[65]提出 SWAP-NET (Sentences And 句子向量拼接，再对其评分，选择分数最高的三条句
13
子作为摘要。模型提升了对输出摘要风格调控效果，的文本单元缺乏内部依赖性；然而在当前评价指标下
同时在 CNN/DM 数据集上取得了与基线算法相近的非自回归方法未表现出更差的性能。事实上，在个人
ROUGE 分数。叙事摘要、工作场所会议摘要以及医学期刊文章摘要
总之，非自回归方法通常按照原文顺序抽取文本领域中，非自回归方法的性能与自回归方法类似甚至
单元，与自回归方法相比缺乏目标侧信息引导，抽取更好[69]。表 5 对比总结了两类摘要抽取方法特点。
表 5 自回归和非自回归摘要抽取方法对比
Table 5 Comparison of autoregressive and non-autoregressive extraction methods
方法类别代表文献模型名称抽取模块结构句子评分依据优势局限性
Zhou et al. [18]
NEUSUM GRU 摘要状态容易造成
动态计算已
Jadhav and Rajan [65]
SWAP-NET 指针网络摘要状态、软开关误差累
抽取部分摘
积，无法
要状态向量，
自回归抽取摘要状态、句子对并行计
作为抽取参
Zhu et al.[66] AES-Rep 求和并正则化源文档主旨表达算，降低
照，提供了目
程度了训练效
标侧依赖；
率
线性回归模型+Trigram 句子重要性、摘要
Liu et al.[54] / 缺乏目标
Top-k Blocking 冗余性
独立对句子侧信息引
策略句子丰富性、显著
非自回归 Nallapati et al. [19]
/ 线性回归模型评分，可并行导，序列
性、新颖性、位置
抽取计算，训练效标注易产
多层双向
序列句子位置、重要率较高生位置偏
Liu et al.[68] / LSTM+Transformer+控
标注性、多样性差
制码
3.1.3 基于多任务学习的抽取题。Zhuang 等[5]利用文本类别、标题等间接信息设计

自回归和非自回归抽取的摘要抽取方法多适用出三种附加任务——文本分类、文本生成(Seq2seq)
于新闻摘要等非专业领域，而针对专业领域抽取式以及结合动态注意力的文本生成任务(Seq2seq+Att)
ATS 任务，基于多任务学习的抽取往往更具有优势。来辅助摘要抽取。如图 10 所示，基于层次注意力的
该方法在抽取式 ATS 模型中添加辅助网络，学习主编码器用于获取句子表示，并将句子注意力权重作为
任务和其它辅助任务的共享文本表示，从而利用辅助分数，将各附加任务中句子的注意力权重相加，最后
任务训练信号中的特定领域知识提升模型对专业领选择权重最高的句子组成摘要。亚马逊客户服务对话
域文本的摘要抽取能力。Isonuma 等首次在多任务
[70]
数据集上的实验结果验证了随着对话长度增长，
学习框架下融合句子抽取和文档分类任务来解决财 Seq2seq+Att 表现出更好的摘要抽取性能。Machida
务报告摘要问题。该方法通过多任务交互获得了更好等 [71]针对社区问答中的问题摘要将问答任务作为附
的句子表示，摘要抽取效果具有较为明显提升。与之加任务，利用问答对缓解标签数据缺失问题。提出的
类似，Agarwal 等针对法律判决摘要将修辞角色标
[4]
模型包括基于序列标注结构的句子抽取模块
记任务(Rhetorical Role Labeling)作为辅助任务，在抽 (Sentence Extraction Model, SEM)和基于 Seq2Seq 结
取摘要的同时对源文档中案件事实、最终判决等内容构的问答模块(Answer Generation Model, AGM)，二者
进行标记，提升了摘要抽取效果。共享句子编码器对问题句编码。训练阶段问答模块输
由于利用了目标摘要外的其它信息，多任务学习出正确的回答，测试阶段使用注意力权重计算句子重
也可用于缓解抽取式 ATS 训练数据目标摘要缺失问要性分数。
图 10 文献[5]模型架构
Fig.10 Model structure of Literature[5]
Cao 等 [72]
针对多文档摘要提出模型 TCSum，利型带来更多监督信号，同时提升了文本单元编码和摘
用文本分类任务提高模型性能，根据分类结果产生不要抽取效果；这种方法的缺陷在于不合理的辅助任务
同风格的摘要。TCSum 在 DUC 和 TAC 数据集上的或辅助网络结构反而会降低模型性能，以及此类模型
ROUGE 分数超过了基于人工特征的基线模型。将消耗更多计算资源。表 6 从应用领域和辅助任务等
总之，基于多任务学习的抽取给抽取式 ATS 模角度总结了基于多任务学习的摘要抽取方法。
表 6 基于多任务学习的摘要抽取方法对比
Table 6 Comparison of multi-task learning based extraction methods
代表文献应用领域辅助任务优势局限性
增强文本单元表示辅助任务不能同步优化时模型
Isonuma et al.[70] 财务报告摘要文档分类
性能较差
缓解数据标签不足问题仅考虑两种修辞角色；无法自
Agarwal et al.[4] 法律判决摘要修辞角色标记
动扩展到长文本
文本分类、文本生成、结合实现无标签摘要抽取抽取句子含义相似
Zhuang et al.[5] 对话摘要
动态注意力的文本生成
社区问答中的缓解标签数据缺失问题存在数据不平衡问题
Machida et al.[71] 问答
问题摘要
多文档新闻摘缓解标签数据缺失问题；生成摘要抽取性能提升有限
Cao et al.[72] 文本分类
要不同风格摘要
3.2 摘要级抽取 (agent)通过策略梯度算法(policy gradient)学习最佳句

子抽取策略，可直接优化 ROUGE 评估指标，避免了
摘要级抽取从源文档直接抽取候选摘要，无需构
模型训练目标与评估指标不匹配问题。Narayan 等[73]
建句子标签。相比于文本单元级抽取，摘要级抽取更
提出模型 REFRESH(Reinforcement Learning-based
多考虑输出摘要的整体效果。当前相关研究大都面向
Extractive Summarization)，将交叉熵损失与策略梯度
单文档摘要抽取领域，按照训练策略可分为强化学
奖励相结合，使模型能够通过全局优化 ROUGE 评价
习、两阶段抽取两类。
指标学习句子排序。Zhang 等[74]提出模型 LATENT，
3.2.1 基于强化学习的抽取
实现了另一种摘要级优化方法：在源文档中为目标摘
基于强化学习(reinforcement learning, RL)的抽取
要的每个句子找到一个相似度最高的候选句，然后将
将摘要抽取视为序列决策问题，强化学习智能体
候选句与摘要句的 ROUGE 分数作为强化学习的奖
15
励。句子被当作一个二值隐变量，根据已抽取的句子经连贯性模型捕捉跨句语义和句法连贯性模式。
推测当前句子是否该纳入摘要中。类似地，Dong 等 [75]
CNN/DM 数据集上的实验结果表明，RNES 相比其它
也提出一种摘要模型 BanditSum，将抽取式 ATS 视为现有方法能够更好平衡摘要连贯性和句子重要性，提
一个上下文赌博机(contextual bandit)问题，为源文档升了摘要抽取质量。Arumae 和 Liu[77]引入问答对优化
每个句子计算一个 0 到 1 之间的 affinity 值，据此量模型参数，提出模型 QASumm，认为好的摘要能够
化在目标摘要中纳入该句子的倾向性。该方法防止了充分、流畅地回答问题。设计的奖励函数包括问题回
文中较早出现句子更有优势的问题，当有摘要价值的答能力、充分性、流畅性和摘要长度四个部分，实验
句子出现较晚时，模型能相比其它基线取得了更好的结果表明 QASumm 相比基线模型达到了更高的问答
效果。Luo 等在模型 HER 中同样采用基于上下文
[20]
准确率。
赌博机的智能体提升摘要抽取的灵活性，并提出了一综上所述，基于强化学习的抽取通过求解最佳句
种结束抽取过程的终止机制。该终止机制依据剩余子抽取策略实现摘要级抽取，抽取过程参考奖励机制
affinity 之间的差异和剩余句子 affinity 的大小来决定而非目标摘要。该方法可将 ROUGE 分数等评估指标
是否停止选择。该模型在 CNN/DM 数据集上的作为训练目标，避免了抽取式 ATS 训练目标与评估
ROUGE 分数超过了 REFRESH、BanditSum 等其它基指标不符问题。然而多样性的奖励往往依赖于额外的
于强化学习的基线算法。除了 ROUGE 分数，强化学奖励模块，从而牺牲了训练效率。表 7 从奖励策略和
习也可实现从其他方面优化摘要质量。模型 RNES [76]
问题目标两个角度总结对比了基于强化学习的摘要
通过连贯性奖励优化句子抽取顺序，模型采用一个神抽取方法。
表 7 基于强化学习的摘要抽取方法对比
Table 7 Comparison of reinforcement learning based extraction methods
代表文献模型名称奖励方式解决问题局限性
Narayan et 模型训练目标与评估
REFRESH ROUGE 分数摘要冗余度较高
al. [73] 指标不匹配
Zhang et 所选句目标摘要句子相似度、
LATENT 句子标签不准确与压缩模型结合时性能较差
al.[74] ROUGE 分数
Dong et
BanditSum 所选句与摘要句的匹配度句子抽取位置偏差只能抽取固定数量句子
al.[75]
Luo et al.[20] HER 候选摘要与目标摘要的相关度抽取终止机制依赖目标摘要计算奖励
连贯性目标和 ROUGE 分数不一致，可能降
Wu et al.[76] RNES 候选摘要连贯性、ROUGE 分数提升摘要连贯性
低模型 ROUGE 分数
Arumae et 候选摘要问题回答能力、充分性、
/ 句子标签缺乏需要人工构建问答对
al. [77] 流畅性和长度
3.2.2 两阶段抽取 P(D|S)作为候选摘要分数，其中 S 为候选摘要，D 为

和基于强化学习的方法不同，两阶段抽取方法通源文档，通道概率即为 S 还原为 D 的概率。模型使
过抽取-匹配(extractive-match)，抽取-压缩(extractive- 用对比学习的训练策略，构建候选摘要的正负样本
compressive)或抽取-重写(extractive-rewrite)对所 S1 和 S2，通过最大化 P(D|S1)和 P(D|S2)的差值训练
抽取摘要内文本单元进行选择或调整，使输出的摘要模型。DeepChannel 在 CNN/DM 数据集上的 ROUGE
更加简洁准确。分数超过了 SummaRuNNer 等基线。为了避免正负样
(1)抽取-匹配本难以构建的问题，Zhong 等[79]提出一种抽取-匹配
抽取-匹配方法将抽取式摘要任务看作语义空间模型 MATCHSUM，抽取语义空间中与源文档距离最
中的文本匹配问题，通过计算源文档和候选摘要的语近的候选摘要。该模型使用 Siamese-BERT 对源文档
义相似度实现摘要抽取，提升摘要的准确性。 Shi D 和候选摘要 C 的语义嵌入进行匹配。Siamese-BERT
等提出模型 DeepChannel，采用一种“通道概率”
[78]
由两个权重相同的 BERT 构成，分别输出源文档 D 和
候选摘要 C 的语义嵌入，并包含一个余弦相似度层，的简洁性和可读性。模型包含抽取器和生成器两部
用于计算 D 和 C 在语义空间中的距离。实验结果表分，两部分的连接可采用基于强化学习、基于注意力
明，该模型在 CNN/DM、PubMed 等六个基准数据集机制的方法等。例如，为了让模型学习何时结束抽取，
上取得了最高 ROUGE 分数。然而 MATCHSUM 倾向 Chen 和 Bansal[84]采用强化学习策略并设置了一种与
于更长的候选摘要，因为它们与源文档重叠部分更句向量维度相同的终止向量，以此作为模型抽取的终
多。对此 Gong 等[80]提出模型 SeburSum，根据候选
止奖励。消融实验结果表明该训练策略显著提升了模
摘要之间的语义相似度选择摘要。采用一种基于集合
型在 CNN/DM 数据集上的表现。Xiao 等[85]提出模型
的摘要排序策略，认为最佳候选摘要应与其互斥集语
HYSUM，采用“层级强化学习”训练连接两个步骤。
义距离最近。该方法充分利用了不同候选摘要间的信
并提出“复制或重写”机制，令生成器学习根据冗余
息，同时由于仅将目标摘要和候选摘要作为训练数
程度决定是否改写句子，从而使改写过程更有针对
据，训练速度相比 MATCHSUM 提升将近 10 倍。
性。基于强化学习的方法以抽取器为强化学习中的单
总之，抽取-匹配方法由于直接匹配候选摘要与
源文档语义，提升了摘要整体语义准确性，同时有效智能体，以 ROUGE 分数为奖励，生成器作为环境的
避免了位置偏差。但忽略了摘要句间衔接关系的研一部分用以重写摘要，并通过策略梯度优化抽取器参
究，难以保证摘要连贯性。数。基于注意力机制的方法则一般将抽取器的抽取概
(2)抽取-压缩率用于调控生成器的生成概率。Hsu 等[86]使用两级注
抽取-压缩方法通过剪除候选摘要中的部分文本意力机制连接抽取器和生成器，其中句子级注意力用
单元片段，实现对摘要的凝练。通常需要人工设定压于调控词级注意力，从而降低注意力较低的句子中词
缩规则或在模型中添加一个压缩模块。Xu 等[81]提出的生成概率；并专门引入一个不一致损失函数惩罚两
一种联合抽取和句法压缩的单文档摘要模型，设计了级注意力之间的不一致。Gehrmann 等[87]将词汇作为
一系列压缩选项，如删除应用性名词短语、某些介词选择单元，设计了一种自底向上的注意力机制，抽取
短语等内容。抽取模块选择一组句子后，句法压缩模器计算源文档中每个 token 的选择概率，用于调整生
块依赖压缩选项来决定是否删除其部分内容，并在最成器复制源文档词汇的概率，以防止生成器复制过长
后对压缩的句子进行打分。这种人工指定规则的压缩
的文本片段。实验结果显示该方法有助于提升模型压
方式灵活性较差，难以推广到新领域。Desai 等[82]提
缩摘要文本的能力。此外，Bao 等[88]提出一种分组对
出由一个预训练 Transformer 模型根据合理性和显著
齐的重写方式，认为将抽取的摘要作为生成器的唯一
性来决定压缩标准，以确保剩余内容的语法性和摘要
输入会失去重要的背景知识，因此将源文档作为生成
的价值性。Mendes 等 [83] 提出模型 EXCONSUMM
器的输入，用组标签为源文档中被抽取的句子建立索
(Extractive And Compressive Neural Summarization)，
引，引导生成器重写每条抽取的句子。该方法在
在摘要抽取阶段采用一个词状态 LSTM 判断候选摘
要中词汇的必要性，以删除摘要句中不必要的词汇， CNN/DM 数据集上相比其他抽取-重写方法取得了更
实现摘要压缩。高的 ROUGE 分数。
总之，抽取-压缩方法在抽取式 ATS 模型中添加抽取-重写方法结合了抽取式和生成式 ATS 的优
一个压缩模块以删除摘要中的冗余信息，使摘要更加势，特别有助于提升模型的总体性能。但由于抽取器
简明扼要。其局限性在于，基于规则的压缩由于灵活和生成器通常需要单独训练，需要采用特定方法将两
性较差往往缺乏扩展性；基于神经网络的压缩在模型部分连接起来，防止两部分的分离。该方法的局限性
中引入额外参数，因而加大了计算需求。在于抽取的目标是高召回率，忽略了准确率，因而对
(3)抽取-重写生成文本的可控性较弱；在重写步骤，由于生成器对
抽取-重写方法结合了抽取式和生成式 ATS，一所选的句子不加以区分，重点内容可能会因为压缩而
般分为抽取摘要和重写摘要两个阶段，生成式 ATS 丢失。
方法用于改进第一阶段的抽取过程，以提升摘要抽取综上所述，两阶段抽取方法通过对候选摘要内文
17
本单元进行选择或调整，使输出的摘要更加简洁准对摘要质量提升往往效果显著。表 8 对比总结了现有

确。对候选摘要的二次加工虽然降低了训练效率，但两阶段摘要抽取方法。
表 8 两阶段摘要抽取方法对比
Table 8 Comparison of two-stage extraction methods
方法类别代表文献模型名称实现方法优势局限性
选择“通道概率”最大的
Shi et al.[78] DeepChannel 候选摘要与源文
候选摘要
档或其它候选摘
选择与源文档语义相似难以保证摘要连
抽取-匹配 Zhong et al.[79] MATCHSUM 要的语义匹配，提
度最大摘要贯性
升了摘要整体语
选择与其互斥集语义距
Gong et al.[80] SeburSum 义准确性；
离最近的候选摘要
Xu et al.[81] / 设置压缩规则通过删除抽取句
难以实现领域扩
Desai et al.[82] 合理性和显著性子部分片段提升
抽取-压缩 / 展；加大了计算需
摘要抽取灵活性
Mendes et al.[83] 对摘要状态动态建模求
EXCONSUMM 和摘要的简洁性
Chen et al.[84] / 终止奖励
层级强化学习、复制或重综合抽取式和生
Xiao et al.[85] / 两部分连接难度
写机制成式摘要方法的
抽取-重写较大；摘要可能丢
Hsu et al.[86] / 两级注意力机制优势，降低摘要冗
失关键内容
Gehrmann et al.[87] / 自底向上的注意力机制余度
Bao et al.[88] / 分组对齐
3.3 小结 4.1 常用数据集与评估指标
摘要抽取阶段的主要方法包括文本单元级抽取目前针对抽取式 ATS 任务已有多个公开的英文
和摘要级抽取两类。文本单元级抽取旨在选出分数最数据集，包括单文档数据集 CNN/DM(CNN/Daily
高的文本单元，缺乏对生成摘要的整体考虑，容易造 Mail)、NYT(New York Times)；多文档摘要数据集如
成冗余、不连贯等问题；摘要级抽取主要从摘要级别 Multi-News、DUC2003、DUC2004 等。此外还有学

优化模型参数，考虑生成摘要的抽象程度、与源文档术论文数据集 SciSumm，面向观点摘要的 Yelp 数据
的相似度等，通常能够取得更好的效果。
集等等。常用中文 ATS 公共数据集包括 LCSTS(Large
4 方法分析对比
Scale Chinese Short Text Summarization Dataset)、
本节首先介绍基于深度学习的抽取式 ATS 常用
NLPCC(CCF Conference On Natural Language
数据集与评估指标，之后总结常用基线算法，最后对
Processing & Chinese Computing, NLPCC)等[89, 90]。相
部分模型在公共数据集上的性能表现进行分析对比，
数据均取自相应文献。关数据集信息总结如表 9 所示。
表 9 常用抽取式 ATS 数据集

Table 9 Commonly used datasets of extractive ATS
数据集创建时间作者样本量数据源源文档类型
CNN/DM(CNN/Daily Mail) 2015 Hermann et al. [91]
, 312K CNN newspaper 英文单文档
[92]
Nallapati et al. (93K) The Daily
Mail newspaper
(219K)
2007-2015
NYT(New York Times) 2008 Evan S[93] 110,540 New York Times 英文单文档
Multi-News 2019 Alexander et al. [94]
56,216 http://newser.com 英文多文档
DUC(Document Understanding 2001-2007 http://duc.nist.gov/ 500 (DUC-2004) New York Times 英文多文档
Conference) Associated Press
Wire(DUC-2004)
Newsroom 2018 Grusky [95]
1.3M 通过社交媒体和英文单文档
搜索引擎元数据
收集
SciSumm 2019 Yasunaga et al. [31]
1K ACL Anthology 英文多文档
Network (AAN)
引用次数最多的
1000 篇论文
Yelp 2019 Chu and Liu [96]
1,297,880 Yelp 网站用户评英文多文档
论
LCSTS(Large Scale Chinese 2015 Hu et al. [97]
2.4M Weibo.com 中文单文档
Short Text Summarization
Dataset)
NLPCC(CCF Conference On 2015、2017、2018 中国计算机学会 50K 头条新闻、财经中文单文档
Natural Language Processing & (CCF) (NLPCC2017) 网等中文新闻网
Chinese Computing, NLPCC) 站
近 20 年来，ROUGE(recall-oriented understudy for 一种辅助。
gisting evaluation)[98]一直是大多数抽取式 ATS 论文中 4.2 常用基线算法
采用的自动评估指标，它通过计算重叠单元数量抽取式 ATS 的基线算法可分为两类，一类是传
其中 ROUGE-1 和 ROUGE-2
(n-grams)确定摘要质量。
统抽取式摘要方法，如基于图排序的方法如
分别测量一元和二元的重叠度，ROUGE-L 测量两文
TextRank[102]、LexRank 等；另一类是基于深度学习的
本之间最长的共同子序列重叠度。
抽取式摘要方法，如基于预训练的方法 BERTSUM、
因为 ROUGE 以生成摘要相对目标摘要的词级匹
HIBERT 和基于强化学习的方法 REFRESH 、
配为唯一评价标准，对摘要质量的评估不够全面，还
有研究者提出了其它评估指标，包括 BScore BanditSum 等。表 10 展示了抽取式 ATS 的常用基线
(BERTScore)[99] 、 MScore(MoverScore)[100] 、 SMS 算法。
(Sentence Mover Similarity)[101]等。但当前几乎所有的
工作都利用 ROUGE 进行评价，其他评估指标仅作为
表 10 抽取式 ATS 常用基线算法

Table 10 Commonly used extractive ATS baselines
19
分类基线算法引用论文说明发表会议/期刊代码链接
[19] [18] [1] [25] [20] [34]
[31] [43] [44] [39] [70] [71] 选择源文档的前三

/ Lead-3 N/A N/A
[72] [74] [75] [76] [77] [79] 条句子
[80] [81]
传统抽取式无监督算法，根据
ATS 方法 TextRank [19] [20] [22] [33] [34] [37] 加权图中的特征向
EMNLP’ 2004 N/A
基于图排序的 [39] 量中心性计算句子
传统基线方法重要性
[19] [20] [22] [33] [34] [37] 基于图的无监督方
LexRank JAIR’ 2004 N/A
[39] 法
基于 CNN 和 RNN https://github. com/
NN-SE [19] [20] [25] [20] [33] [70]
ACL’2016
的抽取式摘要模型 yoonkim/lstm-char-cnn.
基于层级序列基于 RNN 的抽取
[19] [25] [20] [39] [44] [37]
SummaRuN
编码的基线方式摘要模型，融合 AAAI’ 2017 N/A
[68] [70] [71] [78]
Ner
基于深度学法浅层语义特征
习的抽取式联合打分和选择的
NEUSUM [33] [37] [73] [80]
EMNLP’ 2018 N/A
ATS 方法抽取式摘要模型
[20] [25] [33] [37] [39] [71] 使用强化学习优化 NAACL-HLT’ https://github. com/
REFRESH
基于强化学习 [76] ROUGE 指标 2018 shashiongithub/Refresh
的基线方法将抽取式摘要作为
BanditSum [20] [33] [37] [78]
EMNLP’ 2018 N/A
上下文赌博机问题
基于 BERT 的抽取 https://github. com/
BERTSUM [31] [40] [43] [44] [39] [81]
EMNLP’ 2019
式摘要模型 nlpyang/PreSumm
基于预训练的
基于 Transformer
基线方法
HIBERT [34] [40] 的单文档抽取式摘 ACL’2019 N/A
要模型
4.3 抽取式 ATS 模型性能对比
本节主要在常用数据集 CNN/DM 上对比基于深能。在摘要抽取阶段改进的模型中，基于抽取-匹配

度学习的抽取式 ATS 模型性能，表 10 和表 11 分别展的模型大都具有较高的性能，其中模型 SeburSum 采
示了各个模型在单文档(CNN/DM)和多文档摘要数据用一种基于集合的摘要排序策略，性能超过了采用候
集上的 ROUGE 分数。选摘要与源文档匹配的 DeepChannel 和 MatchSum。
表 11 根据模型的骨干网络和主要思想进行分类，基于强化学习的方法中 HER 与 BanditSum 均采用了
在文本单元编码阶段改进的各方法中，结合图神经网基于上下文赌博机的抽取策略，但 BanditSum 抽取固
络编码的模型性能总体较高，其中模型 FS3 通过引入定数量句子，HER 则构建了更加灵活的终止机制，
外部语义库，增强了文档图的语义知识，取得了最高使 ROUGE 分数相比 BanditSum 分别提升了 0.8，0.2
的 ROUGE 分数。基于层级序列编码的模型整体上性和 0.3。基于抽取-压缩方法的模型中，CUPS 结合预
能较低，其中模型 HER 通过迭代编码和强化学习训训练编码以及基于合理性和显著性的压缩策略使模
练策略获得了相对较高的 ROUGE 分数。基于预训练型的 ROUGE 分数超过了 EXCONSUMM 和 JECS，
编码的方法中，采用有监督微调的模型具有更好的性基于抽取 - 重写方法的模型中 BERT-Ext+Context
Rewriter 通过将 BERT 作为抽取器使模型取得了最高 ROUGE 分数。

表 11 抽取式 ATS 模型在 CNN/DM 数据集上的 ROUGE 分数对比
Table 11 Comparison of ROUGE score of extractive ATS models on CNN/DM dataset
模型类别模型名称模型特点 R-1 R-2 R-L
SummaRuNNer[19] 层级序列编码→非自回归抽取 39. 60 16. 20 35. 30
基于 RNN
Neusum[18] 层级序列编码→自回归抽取 41. 59 19. 01 37. 98
基于 RNN+CNN NN-SE[1] 层级序列编码→自回归抽取 41. 13 18. 59 37. 40
HSG+TriBlk[33] 图神经网络编码→非自回归抽取 42. 95 19. 76 39. 23
MuchSUM[34] 图神经网络编码→非自回归抽取 43. 85 20. 93 40. 72
DISCOBERT w. GR & GC [37] 预训练编码+图神经网络编码→非自回归抽取 43. 77 20. 85 40. 67
HAHSumLarge [39] 预训练编码+图神经网络编码→非自回归抽取 44. 68 21. 30 40. 75
基于图神经网络
HETFORMER [40] 图神经网络编码+融合式编码→非自回归抽取 44. 55 20. 82 40. 37
Multi-GraS [41] 图神经网络编码→非自回归抽取 43. 16 20. 14 39. 49
NeRoBERTa [43] 预训练编码+图神经网络编码→非自回归抽取 43. 86 20. 64 40. 20
FS 3[44] 图神经网络编码+融合式编码→非自回归抽取 44. 72 21. 38 40. 87
HIBERT*m [47] 预训练编码→非自回归抽取 42. 37 19. 95 38. 83
STAS [49] 预训练编码→图排序 40. 90 18. 02 37. 21
基于预训练 BertSumLarge [54] 预训练编码→非自回归抽取 43. 85 21. 30 40. 75
PacSum(BERT) [55] 预训练编码→图排序 40. 70 17. 80 36. 90
DeepSumm [59] 融合式编码→非自回归抽取 43.30 19.00 38.90
基于指针网络 SWAP-NET [65] 层级序列编码→自回归抽取 41. 60 18. 30 37. 70
REFRESH [73] 层级序列编码→基于强化学习的抽取 40. 00 18. 20 36. 60
RNES [76] 层级序列编码→基于强化学习的抽取 41. 25 18. 87 37. 75
基于强化学习
BanditSum [75] 层级序列编码→基于强化学习的抽取 41. 50 18. 70 37. 60
HER [20] 层级序列编码→基于强化学习的抽取 42. 30 18. 90 37. 90
DeepChannel [78] 层级序列编码→抽取-匹配 40. 68 17. 77 37. 62
MatchSum [79] 预训练编码→抽取-匹配 44. 41 20. 86 40. 55
SeburSum [80] 预训练编码→抽取-匹配 45. 49 22. 36 41. 67
EXCONSUMM [83] 层级序列编码→抽取-压缩 40. 90 18. 00 37. 40
CUPS [82] 预训练编码→抽取-压缩 44. 02 20. 57 40. 38
基于两阶段抽取 JECS [81] 层级序列编码→抽取-压缩 41. 70 18. 50 37. 90
rnn-ext + abs + RL + rerank [84] 层级序列编码→抽取-重写 40. 88 17. 80 38. 54
HYSUM [85] 层级序列编码→抽取-重写 42. 92 19. 43 39. 35
end2end w/ inconsistency loss [86] 层级序列编码→抽取-重写 40. 68 17. 97 37. 13
Bottom-UP [87] 层级序列编码→抽取-重写 41. 22 18. 68 38. 34
BERT-Ext+ContextRewriter [88] 预训练编码→抽取-重写 43. 52 20. 57 40. 56
针对多文档摘要任务的研究工作目前大都集编码器，导致效果不及 HNet。对于 Multi-News 数

中在文本单元编码阶段的改进上。HNet(T)通过结据集，HETFORMER 结合多种文本单元编码方法
合层级序列编码与融合式编码在 DUC2004 数据集提升了编码质量，取得了最高 ROUGE 分数。模型
上达到了最高 ROUGE 分数。PriorSum 和 HNet 均 MatchSum 由于其特殊的抽取-匹配策略取得了较
采用了融合式编码，但 PriorSum 仅使用 CNN 作为高的 ROUGE 分数。
表 12 抽取式 ATS 模型在多文档数据集上的 ROUGE 分数对比
21
Table 12 Comparison of ROUGE score of extractive ATS models on multi-document dataset

DUC2004 Multi-News
模型名称模型特点
R-1 R-2 R-1 R-2 R-L
PriorSum [24] 融合式编码→非自回归抽取 38. 91 10. 07
HNet(T) [56] 层级序列编码+融合式编码→非自回归抽取 40. 34 11. 29
MGSum [22] 层级序列编码→自回归抽取 44. 75 15. 75 19. 30
CRHASum [23] 层级序列编码→非自回归抽取 38. 84 9. 89
HIBERT [47] 预训练编码→非自回归抽取 44. 32 15. 11 29. 26
SemSentSum [30] 图神经网络编码→非自回归抽取 39. 12 9. 59
Graph-based Neural MDS: PDG [36] 图神经网络编码→非自回归抽取 38. 23 9. 48
HETFORMER[40] 图神经网络编码+融合式编码+预训练编码 46. 21 17. 49 42. 43
→非自回归抽取
HDSG[33] 图神经网络编码→非自回归抽取 46. 05 16. 35 42. 08
TCSum [72] 层级序列编码→基于多任务学习的抽取 38. 27 9. 66
MatchSum [79] 预训练编码→抽取-匹配 46. 20 16. 51 41. 89
5 总结与展望达，实现通过摘要抽取 LLM 辅助生成式模型的可控

生成。将抽取式摘要和生成式摘要方法相结合进行联
本文阐述了基于深度学习的抽取式 ATS 相关研
合训练，可以很好解决语言不准确性问题，从而更高
究背景和研究进展，分别从文本单元编码和摘要抽取
质量完成 ATS 任务。
两个阶段对各类技术方法进行了分析对比和公开数
(2)抽取式 ATS 多样性评估指标研究
据集上的性能测试。总结目前该领域所面临的挑战和
现实中人类对摘要质量的评估较为主观，很难定
发展趋势，提出未来工作可能的研究方向：
义一个好摘要的标准实现自动评估。当前的评估指标
(1)生成式语言模型增强的抽取式 ATS 研究
主要以生成摘要与人工摘要的相近程度作为标准，例
随着 LLM 技术发展，如何在现实生成式模型蓬
如应用最广泛的 ROUGE 评估指标主要通过召回率评
勃发展背景下增强抽取式 ATS 研究成为一个值得研
估生成摘要质量。当生成摘要采用了与目标摘要意义
究的方向。文献 [103] 提出一种新颖的摘要抽取模型
相似的不同表达时，ROUGE 评估效果并不理想。
DiffuSum，通过生成式模型直接生成所需摘要句子的
METEOR[106]是机器翻译领域常用的评估指标，近来
表意，并基于该句子表意匹配文本进行句子抽取，较
被引入自动摘要领域。METEOR 基于 unigram 精度和
好提升了抽取式 ATS 实现效果。文献 [104] 基于
召回率构建调和平均值，并通过 WordNet[107]等外部
ChatGPT 提出一种提取-生成通道显著提高了摘要抽
知识源扩充了同义词库，且考虑了单词的词形，实现
取效果，为 ChatGPT 辅助特定摘要抽取任务提供了
了不精确匹配，相比 ROUGE 可信度更高。另外也有
一种解决途径。文献[105]针对聊天会话领域的摘要生
研究从文本相似度角度对生成摘要进行评价，如
成，提出一种大语言模型辅助的抽取式 ATS 框架。
BERTScore[99]是一种面向文本生成的自动评估指标，
该框架下，LLM 首先为会话生成一个摘要伪标签，
适用于基于 BERT 的抽取式 ATS 模型，计算生成摘
然后利用该伪标签辅助微调进一步的摘要抽取，实现
要中每个 token 与目标摘要每个 token 之间的相似度
通过 LLM 引导外部数据辅助的摘要抽取。目前生成
分数。
式语言模型增强的抽取式 ATS 研究逐渐衍生出两种
尽管摘要评估指标方面的研究已有所进展，现有
基本研究范式。第一种是生成-抽取范式：通过生成
的自动评估指标依然只是基于文本间的浅层关系进
式模型先生成所需摘要句子的表意或摘要伪标签，然
行评估，仍缺乏针对摘要连贯性、一致性等方面的评
后利用这些标签辅助或微调进一步的摘要抽取，实现
估指标。完善的评估指标不仅有利于形成对生成摘要
通过 LLM 引导外部数据辅助的摘要抽取。第二种是
的客观评价，而且能够直接影响文本单元标签的构建
抽取-生成范式：基于抽取式 ATS 先抽取关键术语，
规则，进而影响模型的训练效果。因此，更有意义的
再利用生成式模型在术语准确的基础上进行精炼表
多样性摘要评估指标是未来研究的一个重要方向。来研究方向之一。
(3)低资源语言场景下抽取式 ATS 研究 (6)专业领域抽取式 ATS 研究
基于深度学习的抽取式 ATS 研究往往需要大规近年来，抽取式 ATS 在专业领域的应用受到越
模数据集训练，现实场景中公共数据集往往因为通用来越多的关注。通常认为抽取式 ATS 相比生成式 ATS
性不足而导致训练数据匮乏，低资源抽取式 ATS 因更适合于对事实一致性要求很高的实际应用，如政
此成为研究热点。当前已有应对方法包括预训练模治、法律、生物医药等领域。法律领域的一个主要挑
型、多任务学习等。Jia 等首先在数据集 CNN/DM
[50]
战是文本的冗余，因为法律文件往往包含几个语义上
上对模型实施预训练，再直接将模型用于低资源小语类似的句子。Agarwal 等[4]提出基于最大边界相关算
种数据集的摘要抽取，模型在零样本条件下表现出较法(Maximal Marginal Relevance, MMR)的摘要抽取方
强的泛化能力。Zhuang 等[5]通过多任务学习将抽取式法，在迭代地抽取分数最高句子的同时平衡候选句子
摘要作为监督学习的副产品，从而避免了对大规模标与案件文本和已抽取句子的相似度。生物医药领域的
注数据的需求。此外，在生成式 ATS 领域还有研究主要挑战则在于如何提取专业词汇特征，Xie 等[115]
者提出数据增强 [108]、元学习[109]、孪生网络[110]等方改进了预训练语言模型的微调方法，将循证医学中的
法应对低资源场景。细粒度领域知识融合到一个知识适配器中，为摘要抽
(4)可解释性抽取式 ATS 研究取提供背景信息。Deroy 等[116]首次将集成算法应用于
在深度学习抽取式文本摘要研究领域，通过引入法律案件判决文档的摘要抽取，提出了基于投票、基
外部知识能够更有效指导和约束摘要抽取，提升摘要于排名和基于图的集成方法，证明了智能集成多种方
抽取可解释性。Zhao 等[111]提出将文本内容与社会和法的抽取摘要算法有助于更好地总结法律案件判决。
语义关系融合以改进表示，并在摘要选择阶段将摘要
与所有方面的相似性纳入评分，以关注抽取式 ATS 参考文献
不同语义方面的可解释性。Vo 等通过使用元学习，
[112] [1] CHENG J, LAPATA M. Neural summarization by extracting
使模型能够获得关于一般文本摘要和基于主题的摘 sentences and words[C]// Proceedings of the 54th Annual

Meeting of the ACL. Stroudsburg: ACL, 2016. 484–494
要知识，从而使其能够适应特定目标主题，增强可解
[2] KUMAR N, REDDY M. Factual instance tweet
释性抽取式 ATS 效果。Zhang 等[113]提出了一种基于
summarization and opinion analysis of sport competition[C]//
对比学习的可解释抽取式摘要框架 DCDSum，将摘要
ICSCSP: Proceedings of Soft Computing and Signal
任务视为句子排序问题，并利用对比学习模型的距离 Processing, 2018. Singapore: Springer, 2019, 2:153-162
度量来模拟评估句子排序，以增强目标函数和评估指 [3] COHAN A, DERNONCOURT F, KIM D S, et al. A
标间不一致的解释性。 discourse-aware attention model for abstractive summarization
(5)基于强化学习的抽取式 ATS 研究 of long documents[C]// EMNLP-IJCNLP. Proceedings of the
2019 Conference on Empirical Methods in Natural Language
目前，抽取式 ATS 模型的训练一般是通过有监
Processing and the 9th International Joint Conference on
督学习方式，采用交叉熵损失函数计算模型预测文本
Natural Language Processing, Hong Kong, China, November
单元标签与目标文本单元标签的相似程度。这种训练
3-7, 2019. Stroudsburg: ACL, 2019: 615-621
策略存在一定缺陷，如以启发式规则人工构建的文本
[4] AGARWAL A, XU S, GRABMAIR M. Extractive
单元标签可能并不准确、交叉熵损失函数与 ROUGE
summarization of legal decisions using multi-task learning and
评估指标不匹配等。当前已有研究利用强化学习使模
maximal marginal relevance[C]// Proceedings of Findings of
型直接优化 ROUGE 评估指标[17][61-65]，为了多方面优
the Association for Computational Linguistics: EMNLP.
化摘要抽取质量，如何设计新的奖励函数是未来工作
Stroudsburg: ACL, 2022: 1857-1872
的研究重点之一。同时当前针对多文档摘要的研究较
[5] ZHUANG Y, LU Y, WANG S. Weakly supervised extractive
少，Mao 等[114]将强化学习用于训练集成最大边际相
summarization with attention[C]// Proceedings of the 22nd
关的多文档摘要模型，以减少摘要冗余。将强化学习
Annual Meeting of the Special Interest Group on Discourse
训练策略用于提升多文档抽取式 ATS 模型性能是未
and Dialogue, Stroudsburg: ACL, 2021: 520-529
23
[6] Hou L W, Hu P, Cao W L. Automatic Chinese abstractive Nevada, United States: NIPS, 2013. 3111-3119
summarization with topical keywords fusion[J]. Acta [17] PENNINGTON J, SOCHER R, MANNING C D. Glove:
Automatica Sinica, 2019, 45(3): 530-539 Global vectors for word representation[C]// Proceedings of the
侯丽微, 胡珀, 曹雯琳. 主题关键词信息融合的中文生成式 2014 Conference on Empirical Methods in Natural Language
自动摘要研究[J]. 自动化学报, 2019, 45(3): 530-539 Processing. Stroudsburg: ACL, 2014. 1532-1543
[7] SHI L, RUAN X M, WEI R B, Cheng-Ying. Abstractive [18] ZHOU Q, YANG N, WEI F ， et al. Neural document
Summarization Based on Sequence to Sequence Models: A summarization by jointly learning to score and select
Review[J]. Journal of the China Society for Scientific and sentences[C]// Proceedings of the 56th Annual Meeting of the
Technical Information, 2019, 38(10): 1102-1116 ACL. Stroudsburg: ACL, 2018. 654-663
石磊, 阮选敏, 魏瑞斌，等. 基于序列到序列模型的生成式 [19] NALLAPATI R, ZHAI F, ZHOU B. SummaRuNNer: A
文本摘要研究综述[J]. 情报学报, 2019, 38(10): 1102-1116 recurrent neural network based sequence model for extractive
[8] LI J P, ZHANG C, CHEN X J，et al. Survey on Automatic Text
summarization of documents[C]//Proceedings of the
Summarization[J]. Journal of Computer Research and
Thirty-First AAAI Conference on Artificial Intelligence.
Development, 2021, 58(1): 1-21
Menlo Park: AAAI, 2017. 3075-3081
李金鹏, 张闯, 陈小军, 等. 自动文本摘要研究综述[J]. 计
[20] LUO L, AO X, SONG Y，et al. Reading like her: Human
算机研究与发展, 2021, 58(1): 1-21
reading inspired extractive summarization[C]// Proceedings of
[9] HOU S L, HUANG X K, FEI C, et al. A survey of text
the 2019 Conference on Empirical Methods in Natural
summarization approaches based on deep learning[J]. Comput.
Language Processing. Stroudsburg: ACL, 2019. 3031-3041
Sci. Technol., 2021, 36(3): 633-663
[21] FENG C, CAI F, CHEN H，et al. Attentive encoder-based
[10] YADAV A K, RANVIJAY, YADAV R S, et al.. State-of-the-art
extractive text summarization[C]//Proceedings of the 27th
approach to extractive text summarization: A comprehensive
ACM International Conference on Information and
review.[J] Multimedia Tools and Applications: 2023, 82(19):
Knowledge Management. New York, USA: ACM, 2018.
29135-29197
1499-1502
[11] EDMUNDSON H P. New Methods in Automatic Extracting[J].
[22] JIN H, WANG T, WAN X. Multi-granularity interaction
Journal of the Acm, 1969, 16(2): 264-285
network for extractive and abstractive multi-document
[12] ERKAN G, RADEV D R. LexRank: graph-based Lexical
summarization[C]// Proceedings of the 58th Annual Meeting
Centrality as Salience in Text Summarization[J]. J. Artif. Intell.
of the ACL. Stroudsburg: ACL, 2020. 6244-6254
Res., 2004, 22:457-479
[23] DIAO Y, LIN H, YANG L, et al. Crhasum: extractive text
[13] Gong Y, Liu X. Generic text summarization using relevance
summarization with contextualized-representation hierar-
measure and latent semantic analysis[C]// Proceedings of the
chical-attention summarization network[J]. Neural Computing
24th Annual International ACM SIGIR Conference on
& Applications: 2020, 32(15): 11491-11503
Research and Development in Information Retrieval, New
[24] CAO Z, WEI F, LI S, et al. Learning summary prior
York, USA: ACM, 2001. 19-25
representation for extractive summarization[C]// Proceedings
[14] YIN W, PEI Y. Optimizing sentence modeling and selection
of the Twenty-Ninth AAAI Conference on Artificial
for document summarization[C]//Proceedings of the Twenty-
Intelligence. Menlo Park: AAAI, 2015. 2153-2159
Fourth International Joint Conference on Artificial Intelligence.
[25] CHEN X, GAO S, TAO C ， et al. Iterative document
Menlo Park: AAAI, 2015. 1383-1389
representation learning towards summarization with
[15] CAO Z, WEI F, DONG L，et al. Ranking with recursive neural
polishing[C]// Proceedings of the 2018 Conference on
networks and its application to multi-document
Empirical Methods in Natural Language Processing.
summarization[C]// Proceedings of the Twenty-Ninth AAAI
Stroudsburg: ACL, 2018. 4088-4097
Conference on Artificial Intelligence. Austin, Texas, USA:
[26] SINGH A, GUPTA M, VARMA V. Hybrid MemNet for
AAAI, 2015. 2153-2159
extractive summarization[C]// Proceedings of the 2017 ACM
[16] MIKOLOV T, SUTSKEVER I, CHEN K，et al. Distributed
on Conference on Information and Knowledge Management.
representations of words and phrases and their
New York, USA: ACM, 2017. 2303-2306
compositionality[C]// Proceedings of Advances in Neural
Information Processing Systems 26: 27th Annual Conference [27] SUKHBAATAR S, SZLAM A, WESTON J，et al. End-to-end
on Neural Information Processing Systems 2013. Lake Tahoe, memory networks[C]// Proceedings of the Advances in Neural
Information Processing Systems 28: Annual Conference on Annual Meeting of the ACL. Stroudsburg: ACL, 2020.
Neural Information Processing Systems. Montreal, Quebec, 5021-5031

[38] MANN W, THOMPSON S. Rethorical structure theory:
Canada: NIPS, 2015. 2440-2448
toward a functional theory of text organization.[J]// Text -
[28] KIPF T N, WELLING M. Semi-supervised classification with
Interdisciplinary Journal for the Study of Discourse, 1988,
graph convolutional networks[C]//ICLR. The International
8(3):243-281
Conference on Learning Representations, 2017, Toulon,
France, April 24-26, 2017. OpenReview.net, 2017 [39] JIA R, CAO Y, TANG H ， et al. Neural extractive
[29] VELICKOVIC P, CUCURULL G, CASANOVA A, et al. summarization with hierarchical attentive heterogeneous graph
Graph attention networks[C]// ICLR. 6th International network[C]// Proceedings of the 2020 Conference on
Conference on Learning Representations, Vancouver, Canada, Empirical Methods in Natural Language Processing.
April 30 - May 3, 2018. OpenReview.net, 2018 Stroudsburg: ACL, 2020. 3622-3631
[30] ANTOGNINI D, FALTINGS B. Learning to create sentence [40] LIU Y, ZHANG J, WAN Y ， et al. HETFORMER:
semantic relation graphs for multi-document summarization. Heterogeneous transformer with sparse attention for long-text
[C]//Empirical Methods in Natural Language Processing, 2019, extractive summarization[C]// Proceedings of the 2021
abs/1909.12231 Conference on Empirical Methods in Natural Language
[31] YASUNAGA M, KASAI J, ZHANG R，et al. ScisummNet: A Processing. Stroudsburg: ACL, 2021. 146-154
large annotated corpus and content-impact models for [41] JING B, YOU Z, YANG T, et al. Multiplex graph neural
scientific paper summarization with citation networks[C]// network for extractive text summarization[C]// Proceedings of
Proceedings of the Thirty-Third AAAI Conference on the 2021 Conference on Empirical Methods in Natural
Artificial Intelligence. Menlo Park: AAAI, 2019. 7386-7393 Language Processing. Stroudsburg: ACL, 2021. 133-139
[32] JAIDKA K, CHANDRASEKARAN M K, RUSTAGI S，et al. [42] MAO Q, ZHAO S, LI J, et al. Bipartite graph pre-training for
Overview of the CL-SciSumm 2016 shared task[C]// unsupervised extractive summarization with graph
Proceedings of the Joint Workshop on Bibliometric-enhanced convolutional auto-encoders.[C]// Findings of the Association
Information Retrieval and Natural Language Processing for for Computational Linguistics: EMNLP 2023. 4929-4941
Digital Libraries co-located with the Joint Conference on [43] KWON J, KOBAYASHI N, KAMIGAITO H, et al.
Digital Libraries. NJ: BIRNDL, 2016. 93-102 Considering nested tree structure in sentence extractive
[33] WANG D, LIU P, ZHENG Y，et al. Heterogeneous graph summarization with pre-trained transformer[C]// Proceedings
neural networks for extractive document summarization[C]// of the 2021 Conference on Empirical Methods in Natural
Proceedings of the 58th Annual Meeting of the ACL. Language Processing. Stroudsburg: ACL, 2021. 4039-4044
Stroudsburg: ACL, 2020. 6209-6219 [44] GUAN Y, GUO S, LI R，et al. Frame semantic-enhanced
[34] MAO Q, ZHU H, LIU J，et al. MuchSUM: Multi-channel sentence modeling for sentence-level extractive text
graph neural network for extractive summarization[C]// summarization[C]//Proceedings of the 2021 Conference on
Proceedings of the 45th International ACM SIGIR Conference Empirical Methods in Natural Language Processing.
Research and Development in Information Retrieval. New Stroudsburg: ACL, 2021: 4045-4052
York, USA: ACM, 2022. 2617-2622 [45] BAKER C F, FILLMORE C J, LOWE J B. The Berkeley
[35] CHRISTENSEN J, MAUSAM, SODERLAND S, et al. framenet project[C]// Proceedings of the 36th Annual Meeting
Towards coherent multi-document summarization[C]// of the ACL and 17th International Conference on
Proceedings of the Human Language Technologies: Computational Linguistics. Stroudsburg: ACL, 1998: 86-90
Conference of the North American Chapter of the Association [46] DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of
of Computational Linguistics. Atlanta, Georgia, USA: The deep bidirectional transformers for language understanding[C].
Association for Computational Linguistics, 2013. 1163-1173 NAACL-HLT 2019: Proceedings of 2019 Conference of the
[36] YASUNAGA M, ZHANG R, MEELU K，et al. Graph-based North American Chapter of the Association for Computational
neural multi-document summarization[C]// Proceedings of the Linguistics: Human Language Technologies. Minneapolis,
21st Conference on Computational Natural Language Learning. June 2-7, 2019. Stroudsburg: ACL, 2019,1: 4171-4186
Stroudsburg: ACL, 2017. 452¬462 [47] ZHANG X X, WEI F R, ZHOU M. HIBERT: Document Level
[37] XU J, GAN Z, CHENG Y，et al. Discourse-aware neural Pre-training of Hierarchical Bidirectional Transformers for
extractive text summarization[C]// Proceedings of the 58th
25
Document Summarization[C]// Proceedings of the 57th Deepsumm: Exploiting topic models and sequence to sequence
Conference of the ACL. Stroudsburg: ACL, 2019: 5059-5069 networks for extractive text summarization[J]. Expert Syst.
[48] WANG H, WANG X, XIONG W, et al. Self-supervised Appl., 2023, 211: 118442
learning for contextualized extractive summarization[C]// [60] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet
Proceedings of the 57th Conference of the ACL. Stroudsburg: allocation[J]. J. Mach. Learn. Res., 2003, 3:993-1022
ACL, 2019: 2221-2227 [61] ZHENG X, SUN A, LI J, et al. Subtopic-driven
[49] XU S, ZHANG X, WU Y，et al. Unsupervised extractive multi-document summarization[C]//Proceedings of the 2019
summarization by pre-training hierarchical transformers[C]// Conference on Empirical Methods in Natural Language
Proceedings of Findings of the Association for Computational Processing. Stroudsburg: ACL, 2019: 3151-3160
Linguistics: EMNLP. Stroudsburg: ACL, 2020: 1784-1795 [62] NARAYAN S, PAPASARANTOPOULOS N, LAPATA M，et
[50] JIA R, ZHANG X, CAO Y，et al. Neural label search for al. Neural extractive summarization with side information[J].
zero-shot multi-lingual extractive summarization[C]// Pro- CoRR, abs/1704.04530. 2017

[63] ABDI A, HASAN S, SHAMSUDDIN S M，et al. A hybrid
ceedings of the 60th Annual Meeting of the ACL. Stroudsburg:
deep learning architecture for opinion-oriented multi-
ACL 2022: 561-570
document summarization based on multi-feature fusion[J].
[51] CONNEAU A, KHANDELWAL K, GOYAL N ， et al.
Knowledge-Based Systems, 2021, 213: 106658
Unsupervised cross-lingual representation learning at
[64] YANG Z, DAI Z, YANG Y ， et al. Xlnet: Generalized
scale[C]//Proceedings of the 58th Annual Meeting of the ACL.
autoregressive pretraining for language understanding[C]//
Proceedings of 32nd Annual Conference on Neural
[52] SCIALOM T, DRAY P A, LAMPRIER S，et al. Mlsum: The
Information Processing Systems. Bangkok: MIT Press, 2019:
multilingual summarization corpus[C]// Proceedings of the
5754-5764
2020 Conference on Empirical Methods in Natural Language
[65] JADHAV A, RAJAN V. Extractive summarization with
Processing. Stroudsburg: ACL, 2020: 8051-8067
swap-net: Sentences and words from alternating pointer
[53] LADHAK F, DURMUS E, CARDIE C，et al. Wikilingua: A
networks[C]//Proceedings of the 56th Annual Meeting of the
new benchmark dataset for cross-lingual abstractive sum-
ACL. Stroudsburg: ACL, 2018: 142-151
marization[C]//Proceedings of Findings of the ACL: EMNLP.
[66] ZHU T, HUA W, QU J，et al. Auto-regressive extractive
summarization with replacement[C]//World Wide Web, 2022,
[54] LIU Y, LAPATA M. Text summarization with pretrained
1-24
encoders[C]//Proceedings of the 2019 Conference on Em-
[67] PAULUS R, XIONG C, SOCHER R. A deep reinforced model
pirical Methods in Natural Language Processing. Stroudsburg:
for abstractive summarization[C]//Proceedings of the 6th
ACL, 2019: 3728-3738
International Conference on Learning Representations.
[55] ZHENG H, LAPATA M. Sentence centrality revisited for
OpenReview.net, 2017: 1-13
unsupervised summarization[C]// Proceedings of the 57th
[68] LIU Z, SHI K, CHEN N F. Conditional neural generation
Conference of the ACL. Stroudsburg: ACL, 2019: 6236-6247
using sub-aspect functions for extractive news summariza-
[56] SINGH A K, GUPTA M, VARMA V. Unity in diversity:
tion[C]// Proceedings of the Findings of the ACL. Stroudsburg:
Learning distributed heterogeneous sentence representation for
ACL, 2020: 1453-1463
extractive summarization[C]//Proceedings of the Thirty-
[69] KEDZIE C, MCKEOWN K, III H. Content selection in deep
Second AAAI Conference on Artificial Intelligence. Menlo
learning models of summarization[C]//Proceedings of the 2018
Park: AAAI, 2018: 5473-5480
Conference on Empirical Methods in Natural Language
[57] CHO S, LI C, YU D，et al. Multi-document summarization
Processing. Stroudsburg: ACL, 2018: 1818-1828
with determinantal point processes and contextualized
[70] ISONUMA M, FUJINO T, MORI J, et al. Extractive
representations[C]//Proceedings of the 2nd Workshop on New
Frontiers in Summarization. Stroudsburg: ACL, 2019: 98-103 summarization using multi-task learning with document
[58] SHARMA E, HUANG L, HU Z, et al. An entity-driven classification[C]//Proceedings of the 2017 Conference on

framework for abstractive summarization[C]//Proceedings of Empirical Methods in Natural Language Processing.
the 2019 Conference on Empirical Methods in Natural Stroudsburg: ACL, 2017: 2101-2110
Language Processing. Stroudsburg: ACL, 2019: 3278-3289 [71] MACHIDA K, ISHIGAKI T, KOBAYASHI H, et al.
[59] JOSHI A, FIDALGO E, ALEGRE E. Fernández-Robles L.
Semi-supervised extractive question summarization using 2020 Conference on Empirical Methods in Natural Language
question-answer pairs[C]//Proceedings of 42nd European Processing. Stroudsburg: ACL, 2020: 6259-6274
Conference on IR Research. Berlin: Springer, 2020: 255-264 [83] MENDES A, NARAYAN S, MIRANDA S, et al. Jointly
[72] CAO Z, LI W, LI S, et al. Improving multi-document extracting and compressing documents with summary state
summarization via text classification[C]// Proceedings of the representations[C]// Proceedings of the 2019 Conference of
Thirty-First AAAI Conference on Artificial Intelligence. the North American Chapter of the ACL: Human Language
Menlo Park: AAAI, 2017: 3053-3059 Technologies. Stroudsburg: ACL, 2019: 3955-3966
[73] NARAYAN S, COHEN S B, LAPATA M. Ranking sentences [84] CHEN Y C, BANSAL M. Fast abstractive summarization with
for extractive summarization with reinforcement learning[C]// reinforce-selected sentence rewriting[C]//Proceedings of the
Proceedings of the 2018 Conference of the North American 56th Annual Meeting of the ACL. Stroudsburg: ACL, 2018:
Chapter of the ACL: Human Language Technologies. 675-686
Stroudsburg: ACL, 2018: 1747-1759 [85] XIAO L, WANG L, HE H，et al. Copy or rewrite: Hybrid
[74] ZHANG X, LAPATA M, WEI F，et al. Neural latent extractive summarization with hierarchical reinforcement learning[C]//
document summarization[C]// Proceedings of the 2018 Proceedings of The Thirty-Fourth AAAI Conference on
Conference on Empirical Methods in Natural Language Artificial Intelligence. Menlo Park: AAAI, 2020: 9306-9313
Processing. Stroudsburg: ACL, 2018: 779-784 [86] HSU W T, LIN C K, LEE M Y，et al. A unified model for
[75] DONG Y, SHEN Y, CRAWFORD E ， et al. Banditsum: extractive and abstractive summarization using inconsistency
Extractive summarization as a contextual bandit[C]//Pro- loss[C]// Proceedings of the 56th Annual Meeting of the ACL.
ceedings of the 2018 Conference on Empirical Methods in Stroudsburg: ACL, 2018: 132-141
Natural Language Processing. Stroudsburg: ACL, 2018: [87] GEHRMANN S, DENG Y, RUSH A M. Bottom-up abstractive
3739-3748 summarization[C]// Proceedings of the 2018 Conference on
[76] WU Y, HU B. Learning to extract coherent summary via deep Empirical Methods in Natural Language Processing.
reinforcement learning[C]//Proceedings of the Thirty-Second Stroudsburg: ACL, 2018: 4098-4109
AAAI Conference on Artificial Intelligence. Menlo Park: [88] BAO G, ZHANG Y. Contextualized rewriting for text
AAAI, 2018: 5602-5609 summarization[C]// Proceedings of the Thirty-Fifth AAAI
[77] ARUMAE K, LIU F. Reinforced extractive summarization Conference on Artificial Intelligence. Menlo Park: AAAI,
with question-focused rewards[C]// Proceedings of the 56th 2021: 12544-12553
Annual Meeting of the ACL. Stroudsburg: ACL, 2018: [89] MA C, ZHANG W E, GUO M, et al. Multi-document
105-111 summarization via deep learning techniques: A survey[J].
[78] SHI J, LIANG C, HOU L，et al. Deepchannel: Salience ACM Computing Surveys, 2023, 55(5): 102:1--102:37
estimation by contrastive learning for extractive document [90] HOU S L, ZHANG S H, FEI C Q. A Survey to Text
summarization[C]//Proceedings of The Thirty-Third AAAI Summarization: Popular Datasets and Method[J]. JOURNAL
Conference on Artificial Intelligence. Menlo Park: AAAI, OF CHINESE INFORMATION PROESSING, 2019, 33(5):
2019: 6999-7006 1-16
[79] ZHONG M, LIU P, CHEN Y，et al. Extractive summarization 侯圣峦, 张书涵, 费超群. 文本摘要常用数据集和方法研究
as text matching[C]//Proceedings of the 58th Annual Meeting 综述, 中文信息学报, 2019, 33(5): 1-16
of the ACL. Stroudsburg: ACL, 2020: 6197-6208 [91] HERMANN K M, KOCISKÝ T, GREFENSTETTE E, et al.
[80] GONG S, ZHENFANG Z, QI J，et al. Sebursum: A novel Teaching machines to read and comprehend[C]//Advances in
set-based summary ranking strategy for summary-level Neural Information Processing Systems 28: Annual
extractive summarization[J]. The Journal of Supercomputing, Conference on Neural Information Processing Systems,
2023, 1-29 Montreal, Canada , December 7-12, 2015. NIPS, 2015, 1693-
[81] XU J, DURRETT G. Neural extractive text summarization 1701
with syntactic compression[C]// Proceedings of the 2019 [92] NALLAPATI R, ZHOU B, SANTOS C, et al. Abstractive text
Conference on Empirical Methods in Natural Language summarization using sequence-to-sequence RNNs and
Processing. Stroudsburg: ACL, 2019: 3290-3301 beyond[C]//CoNLL 2016. Proceedings of the 20th SIGNLL
[82] DESAI S, XU J, DURRETT G. Compressive summarization Conference on Computational Natural Language Learning,
with plausibility and salience modeling[C]//Proceedings of the Berlin, Germany, August 11-12, 2016. Stroudsburg: ACL,
27
2016, 280-290 chatgpt for faithful summary generation[C]//Findings of the

[93] EVAN S. The New York Times annotated corpus[J]. Linguistic Association for Computational Linguistics: EMNLP 2023.
Data Consortium, Philadelphia, 2008, 6(12):e26752. 3270-3278
[94] FABBRI A R, LI I, SHE T, et al. Multi-news: A large-scale [105] MISHRA N, SAHU G, CALIXTO I, ABU-HANNA A, Laradji
multi-document summarization dataset and abstractive I H, Llm aided semi-supervision for efficient extractive dialog
hierarchical model[C]// Proceedings of the 57th Conference of summarization.[C] Findings of the Association for Com-
the Association for Computational Linguistics, Florence, Italy, putational Linguistics: EMNLP 2023. 10002-10009
July 28- August 2, 2019. Stroudsburg: ACL, 2019: 1074-1084 [106] DENKOWSKI M J, LAVIE A. Meteor universal: Language
[95] FONSECA M D, ISHIKAWA E, NETO B M, et al. Tool for specific translation evaluation for any target language[C]//
semantic annotation of business processes in a newsroom[C]// Proceedings of the Ninth Workshop on Statistical Machine
Proceedings of the XI Seminar on Ontology Research in Brazil Translation. Stroudsburg: ACL, 2014: 376-380
and Doctoral and Masters Consortium on Ontologies, Paulo, [107] MILLER G. Wordnet: A lexical database for English[J].
Brazil, October 1st-3rd, 2018. CEUR-WS.org, 2018: 239-244 Communications of the ACM, New York, USA: ACM, 1995,
[96] CHU E, LIU P J. Meansum: A neural model for unsupervised 38(11): 39-41
multi-document abstractive summarization[C]//ICML. Pro- [108] PARIDA S, MOTLÍCEK P. Abstract text summarization: A
ceedings of the 36th International Conference on Machine low resource challenge[C]//Proceedings of the 2019 Con-
Learning, Long Beach, USA, 9-15 June 2019. PMLR, 2019: ference on Empirical Methods in Natural Language Processing,
1223-1232 Stroudsburg: ACL, 2019: 5993-5997
[97] HU B, CHEN Q, ZHU F. Lcsts: A large scale chinese short [109] CHEN Y, SHUAI H. Meta-transfer learning for low-resource
text summarization dataset[C]//Proceedings of the 2015 abstractive summarization[C]//Proceedings of the Thirty-Fifth
Conference on Empirical Methods in Natural Language AAAI Conference on Artificial Intelligence, Menlo Park:
Processing. 1967-1972 AAAI, 2021: 12692-12700
[98] LIN C Y. Rouge: A package for automatic evaluation of [110] JIE R, MENG X, JIANG X, et al: Unsupervised extractive
summaries[C]//Proceedings of the Workshop on Text summarization with learnable length control strategies[C]//
Summarization Branches. Stroudsburg: ACL, 2004: 74-81 AAAI 2024: 18372-18380
[99] ZHANG T, KISHORE V, WU F, et al. BERTScore: Evaluating [111] ZHAO T, HE R, Xu J, et al: MultiSum: a multi-facet Approach
text generation with BERT[C]//Proceedings of the 8th for extractive social summarization utilizing semantic and
International Conference on Learning Representations. sociological relationships[C]// AAAI 2024: 19661-19669
Stroudsburg: ACL, 2020: 1-43 [112] VO S, VO T, LE B: Interpretable extractive text
[100] ZHAO W, PEYRARD M, LIU F, et al. MoverScore: Text summarization with meta-learning and bi-lstm: a study of meta
generation evaluating with contextualized embeddings and learning and explainability techniques.[J] Expert Systems with
earth mover distance[C]//Proceedings of the 2019 Conference Applications: 2024, 245: 123045
on Empirical Methods in Natural Language Processing. [113] ZHANG J, LU L, ZHANG L, et al: DCDSum: An
Stroudsburg: ACL, 2019: 563-578 interpretable extractive summarization framework based on
[101] CLARK E, CELIKYILMAZ A, SMITH N A. Sentence contrastive learning method.[J] Engineering Applications of
mover's similarity: Automatic evaluation for multi-sentence Artificial Intelligence: 2024, 133: 108148
texts[C]// Proceedings of the 57th Conference of the ACL. [114] MAO Y, QU Y, XIE Y, et al. Multi-document summarization
Stroudsburg: ACL, 2019: 2748-2760 with maximal marginal relevance-guided reinforcement
[102] MIHALCEA R, TARAU P. Textrank: Bringing order into learning[C]//Proceedings of the 2020 Conference on Empirical
text[C]. In: Proceedings of the 2004 Conference on Methods in Natural Language Processing (EMNLP):2020,
Empirical Methods in Natural Language Processing. 1737-1751
Stroudsburg: ACL, 2004: 404-411 [115] XIE Q, BISHOP J, TIWARI P, et al. Pre-trained language
[103] ZHANG H, LIU X, ZHANG J, Diffusum: generation models with domain knowledge for biomedical extractive
enhanced extractive summarization with diffusion.[C] summarization.[J] Knowledge-Based Systems: 2022, 252:
Findings of the Association for Computational Linguistics: 10946
ACL 2023. 13089-13100 [116] DEROY A, GHOSH K, GHOSH S: Ensemble methods for
[104] ZHANG H, LIU X, ZHANG J, Extractive summarization via improving extractive summarization of legal case judge-
ments[J]. Artificial Intelligence and Law: 2024, 32: 231-289
田萱（1976－），女，山东济宁人，博士，副教
授，CCF 高级会员，主要研究方向为智能信息处
理，文本挖掘等。
TIAN Xuan, born in 1976, Ph. D., Associate
Professor, senior member of CCF. Her research
interests include intelligent information processing,
text mining, machine learning, etc.
李嘉梁（2003－），男，本科生，主要研究方向
为智能信息处理，深度学习等。
LI Jialiang, born in 2003, B.E. candidate. His
research interests include intelligent information
processing, deep learning, etc.
孟晓欢（1996－），女，硕士生，CCF 学生会员，
主要研究方向为智能信息处理，机器学习等。
MENG Xiaohuan, born in 1996, M.S. candidate.
Her research interests include artificial intelligence
and machine learning, etc.

基于深度学习的抽取式摘要研究综述_田萱

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于深度学习的抽取式摘要研究综述_田萱

Uploaded by

Copyright:

Available Formats

计算机科学与探索

Journal of Frontiers of Computer Science and Technology

A Survey of Deep Learning-Based Extractive Summarization

面对着互联网上爆炸式增长的海量文本，从中筛 Computational Linguistics)、NAACL(Conference of the

方法。深度学习技术使用神经网络自动对源文档进行 义关系的建模, 显著提升了摘要抽取质量。

2 文本单元编码阶段 汇一般直接利用预训练词向量如 Word2Vec[16] 、

元编码方式划分为 4 类，分别是层级序列编码、基 通过卷积神经网络 CNN 提取文本单元不同层

2.1 层级序列编码 量相加实现特征整合，最后输入一层 RNN 进一步

了 ROUGE-F1 分数的提升。 对小粒度文本单元拼接或平均池化以获得大粒

度文本单元的语义关系。如图 5 所示，采用一个多 迭代编码是一种在文档编码过程中多次更新文

2.2 基于图神经网络的编码 编码。GNN 是一类善于处理非欧几里得空间数据的

GAT) 由于其较高的计算效率常用于抽取式 ATS 研 再通过人工规则实现边消除以改善稀疏度。此类方

示。HSG 具有很强的扩展性，在其中加入文档节点 示，最后通过基于 GCN 的堆叠篇章图编码器捕获

即可转化为面向多文档的摘要模型。Mao 等 [34]在 长距依赖。CNN/DM 和 NYT 数据集上的实验结果

HSG 图结构的基础上设计了一种多通道图卷积网 表明 DISCOBERT 模型性能超过了其它基于 BERT

络 MuchSum(Multi-channel Graph Convolutional 的基线模型，且更细粒度的 EDU 级别抽取有效减

2.2.3 混合语义图 合文档图，分别对句内和句间关系建模。Jing 等[41]

档建模。HAHSum 由词级、词句级、句子级三层子 于仅考虑单一关系。文献[42]在预训练阶段为聚合句

的框架节点相连，最后根据框架-框架关系将不同句 GCN 更新结点表示。模型通过引入外部语义丰富了

图 7 Multi-Gras 模型及 Multi-GCN 网络结构[41]

2.3 基于预训练的编码 BERT[46](Bidirectional Encoder Representations from

在基于特征的应用方式中，研究者提出了多种 内容选择句子。该模型在 CNN/DM 和 NYT 数据集

个句子前附加“[CLS]”标记聚合该句子所包含的 似度。该模型在 CNN/DM 和 NYT 数据集上的性能

Zhang et al.[47] HIBERT 遮盖 固定的文本单

2.4 融合式编码 本单元表示与浅层特征结合能更有效识别句子的摘

3 摘要抽取阶段 Words From Alternating Pointer Networks)，交替抽取

3.1.3 基于多任务学习的抽取 题。Zhuang 等[5]利用文本类别、标题等间接信息设计

3.2 摘要级抽取 (agent)通过策略梯度算法(policy gradient)学习最佳句

3.2.2 两阶段抽取 P(D|S)作为候选摘要分数，其中 S 为候选摘要，D 为

实现摘要压缩。 高的 ROUGE 分数。

总之，抽取-压缩方法在抽取式 ATS 模型中添加 抽取-重写方法结合了抽取式和生成式 ATS 的优

抽取-重写方法结合了抽取式和生成式 ATS，一 所选的句子不加以区分，重点内容可能会因为压缩而

般分为抽取摘要和重写摘要两个阶段，生成式 ATS 丢失。

本单元进行选择或调整，使输出的摘要更加简洁准 对摘要质量提升往往效果显著。表 8 对比总结了现有

Bao et al.[88] / 分组对齐

3.3 小结 4.1 常用数据集与评估指标

摘要抽取阶段的主要方法包括文本单元级抽取 目前针对抽取式 ATS 任务已有多个公开的英文

高的文本单元，缺乏对生成摘要的整体考虑，容易造 Mail)、NYT(New York Times)；多文档摘要数据集如

成冗余、不连贯等问题；摘要级抽取主要从摘要级别 Multi-News、DUC2003、DUC2004 等。此外还有学

数据均取自相应文献。 关数据集信息总结如表 9 所示。

表 9 常用抽取式 ATS 数据集

近 20 年来，ROUGE(recall-oriented understudy for 一种辅助。

gisting evaluation)[98]一直是大多数抽取式 ATS 论文中 4.2 常用基线算法

采用的自动评估指标，它通过计算重叠单元数量 抽取式 ATS 的基线算法可分为两类，一类是传

有 研 究 者 提 出 了 其 它 评 估 指 标 ， 包 括 BScore BanditSum 等。表 10 展示了抽取式 ATS 的常用基线

(BERTScore)[99] 、 MScore(MoverScore)[100] 、 SMS 算法。

(Sentence Mover Similarity)[101]等。但当前几乎所有的

工作都利用 ROUGE 进行评价，其他评估指标仅作为

表 10 抽取式 ATS 常用基线算法

[31] [43] [44] [39] [70] [71] 选择源文档的前三

4.3 抽取式 ATS 模型性能对比

本节主要在常用数据集 CNN/DM 上对比基于深 能。在摘要抽取阶段改进的模型中，基于抽取-匹配

Rewriter 通过将 BERT 作为抽取器使模型取得了最高 ROUGE 分数。

针对多文档摘要任务的研究工作目前大都集 编码器，导致效果不及 HNet。对于 Multi-News 数

Table 12 Comparison of ROUGE score of extractive ATS models on multi-document dataset

5 总结与展望 达，实现通过摘要抽取 LLM 辅助生成式模型的可控

使模型能够获得关于一般文本摘要和基于主题的摘 sentences and words[C]// Proceedings of the 54th Annual

Neural Information Processing Systems. Montreal, Quebec, 5021-5031

zero-shot multi-lingual extractive summarization[C]// Pro- CoRR, abs/1704.04530. 2017

[58] SHARMA E, HUANG L, HU Z, et al. An entity-driven classification[C]//Proceedings of the 2017 Conference on

2016, 280-290 chatgpt for faithful summary generation[C]//Findings of the

You might also like

方法。深度学习技术使用神经网络自动对源文档进行义关系的建模, 显著提升了摘要抽取质量。

2 文本单元编码阶段汇一般直接利用预训练词向量如 Word2Vec[16] 、

元编码方式划分为 4 类，分别是层级序列编码、基通过卷积神经网络 CNN 提取文本单元不同层

2.1 层级序列编码量相加实现特征整合，最后输入一层 RNN 进一步

了 ROUGE-F1 分数的提升。对小粒度文本单元拼接或平均池化以获得大粒

度文本单元的语义关系。如图 5 所示，采用一个多迭代编码是一种在文档编码过程中多次更新文

2.2 基于图神经网络的编码编码。GNN 是一类善于处理非欧几里得空间数据的

GAT) 由于其较高的计算效率常用于抽取式 ATS 研再通过人工规则实现边消除以改善稀疏度。此类方

示。HSG 具有很强的扩展性，在其中加入文档节点示，最后通过基于 GCN 的堆叠篇章图编码器捕获

即可转化为面向多文档的摘要模型。Mao 等 [34]在长距依赖。CNN/DM 和 NYT 数据集上的实验结果

HSG 图结构的基础上设计了一种多通道图卷积网表明 DISCOBERT 模型性能超过了其它基于 BERT

2.2.3 混合语义图合文档图，分别对句内和句间关系建模。Jing 等[41]

档建模。HAHSum 由词级、词句级、句子级三层子于仅考虑单一关系。文献[42]在预训练阶段为聚合句

在基于特征的应用方式中，研究者提出了多种内容选择句子。该模型在 CNN/DM 和 NYT 数据集

个句子前附加“[CLS]”标记聚合该句子所包含的似度。该模型在 CNN/DM 和 NYT 数据集上的性能

Zhang et al.[47] HIBERT 遮盖固定的文本单

2.4 融合式编码本单元表示与浅层特征结合能更有效识别句子的摘

3.1.3 基于多任务学习的抽取题。Zhuang 等[5]利用文本类别、标题等间接信息设计

实现摘要压缩。高的 ROUGE 分数。

总之，抽取-压缩方法在抽取式 ATS 模型中添加抽取-重写方法结合了抽取式和生成式 ATS 的优

抽取-重写方法结合了抽取式和生成式 ATS，一所选的句子不加以区分，重点内容可能会因为压缩而

本单元进行选择或调整，使输出的摘要更加简洁准对摘要质量提升往往效果显著。表 8 对比总结了现有

摘要抽取阶段的主要方法包括文本单元级抽取目前针对抽取式 ATS 任务已有多个公开的英文

数据均取自相应文献。关数据集信息总结如表 9 所示。

采用的自动评估指标，它通过计算重叠单元数量抽取式 ATS 的基线算法可分为两类，一类是传

有研究者提出了其它评估指标，包括 BScore BanditSum 等。表 10 展示了抽取式 ATS 的常用基线

本节主要在常用数据集 CNN/DM 上对比基于深能。在摘要抽取阶段改进的模型中，基于抽取-匹配

针对多文档摘要任务的研究工作目前大都集编码器，导致效果不及 HNet。对于 Multi-News 数

5 总结与展望达，实现通过摘要抽取 LLM 辅助生成式模型的可控