面向司法案件的实体关系与事件关系抽取方法陈永琪

中图分类号：TP391 单位代号：10280
密级：公开学号：19721554
硕士学位论文
SHANGHAI UNIVERSITY
MASTER’S DISSERTATION
题面向司法案件的实体关系
目与事件关系抽取方法
作者陈永琪
学科专业计算机应用技术
导师魏晓
完成日期 2022 年 3 月
上海大学硕士学位论文
姓名：陈永琪学号：19721554
论文题目：面向司法案件的实体关系与事件关系抽取方法
上海大学
本论文经答辩委员会全体委员审查，
确认符合上海大学硕士学位论文质量要求。
答辩委员会签名：
主任：
委员：
导师：
答辩日期：2022 年 4 月 12 日
I
姓名：陈永琪学号：19721554
论文题目：面向司法案件的实体关系与事件关系抽取方法
原创性声明
本人声明：所呈交的论文是本人在导师指导下进行的研究工
作。除了文中特别加以标注和致谢的地方外，论文中不包含其他人
已发表或撰写过的研究成果。参与同一工作的其他同志对本研究
所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
签名：日期： 2022.4.12
本论文使用授权说明
本人完全了解上海大学有关保留、使用学位论文的规定，即：
学校有权保留论文及送交论文复印件，允许论文被查阅和借阅；学
校可以公布论文的全部或部分内容。
（保密的论文在解密后应遵守此规定）
签名：导师签名：日期： 2022.4.12
III
上海大学工学硕士学位论文
面向司法案件的实体
关系与事件关系抽取方法
姓名：陈永琪
导师：魏晓
学科专业：计算机应用技术
上海大学计算机工程与科学学院
2022 年 3 月
V
A Dissertation Submitted to Shanghai University for the

Degree of Master in Engineering
Entity Relation and Event

Relation Extraction Method
For Judicial Cases
MA Candidate：Yongqi Chen
Supervisor：Xiao Wei
Major：Computer Application
School of Computer Engineering and Science

Shanghai University
March, 2022
摘要
司法智能是目前人工智能应用领域的研究热点和难点之一。案件分析和
理解是案件审理的基础，其核心是案件实体关系和事件关系抽取技术。在实
践中，由于司法案件情节和关系的复杂性，司法案件实体关系和事件关系抽
取还存在诸多困难，例如：实体分布离散导致的远距离实体关系抽取困难，
因果指示词缺乏导致的隐式事件因果关系抽取困难，干扰信息导致的关系识
别精度降低等问题，需要针对司法领域的特点深入研究案件实体关系和事件
关系抽取方法。
本文重点解决司法案件关系抽取的三个关键问题：1）如何构建案件实体
远距离关联特征，对司法案件远距离实体关系进行抽取，同时减少错误和重
复关系三元组的产生，提高案件实体关系识别的准确率。2）如何充分挖掘案
件文本语义特征，对事件隐式因果关系进行抽取，并对顺序时序和同步时序
关系进行区分，提高案件中事件关系识别的准确率。3）如何在保证不缺失案
件背景语义的条件下，削弱干扰语句的语义信息，提升案件实体关系和事件
关系的准确率。针对以上三个问题，本文主要研究以下三个内容：
1) 基于远距离依赖特征和指称聚合的司法案件实体关系抽取方法。为
了解决司法案件远距离实体关系抽取困难、实体指称组合爆炸的问题，本文
通过对司法案件文本进行依存句法分析，并添加自反依赖，利用图神经网络
对改进后的依存关系编码进行多轮传播以获取实体远距离依赖特征。同时，
分别构建头实体表示空间和尾实体表示空间对指称进行实体聚合表示，减少
重复和无效实体关系三元组的产生，从而提升实体关系抽取的准确率和召回
率。
2) 融合上下文和多尺度局部特征的案件事件时序因果关系联合抽取方
法。为了解决事件隐式因果关系抽取困难，以及顺序时序和同步时序关系难
以区分的问题，本文使用双向 GRU 和多尺度卷积神经网络分别获取司法案
件文本上下文语义特征和不同粒度的局部语义特征，并将上述特征进行融合，
V
得到更为丰富的案件文本语义表示。针对因果关系和时序关系抽取分别构建
各自的关系编码器和解码器，利用三种不同的共享参数策略实现因果特征和
时序特征之间的交互，通过时序关系和因果关系的关联为彼此正确识别提供
额外语义信息。
3) 基于干扰信息语义弱化的案件实体关系和事件关系抽取方法。为了
削弱司法案件中实体关系与事件关系干扰语句的语义信息，降低干扰信息对
关系抽取的影响，本文分析了司法案件文本中实体、事件分布与干扰信息的
关联，通过计算实体、事件的概率分布，初步降低干扰语句的语义权重。同
时利用句子级注意力机制进一步获取干扰语句与关系特征的低关联权重值，
降低模型对干扰信息语义学习的能力，而提升模型对关系特征的获取能力，
从而提升实体关系和事件关系识别的准确率。
本文构建了司法案件数据集，对提出的三个方法进行了实验评价，结果
显示本文方法在各评价指标上均优于对比方法。同时，本文开发了一个司法
案件实体关系和事件关系抽取原型系统，进一步检验了所提出方法的有效性。
关键词：实体关系抽取，事件关系抽取，干扰语义弱化，司法智能
VI
ABSTRACT
Judicial intelligence is one of the research hotspots and difficulties in the
application field of artificial intelligence. Case analysis and understanding is the
basis of case trial, and its core is the extraction technology of case entity relation
and event relation. In practice, due to the complexity of the plot and relation of
judicial cases, there are still many difficulties in extracting the entity relation and
event relation of judicial cases, such as the difficulty in extracting the long-distance
entity relation caused by the discrete distribution of entities, the difficulty in
extracting the implicit event causality caused by the lack of causal indicators, and
the reduction of relation recognition accuracy caused by interference information,
According to the characteristics of the judicial field, we need to deeply study the
extraction methods of case entity relation and event relation.
This paper focuses on solving three key problems of judicial case relation
extraction: 1) How to construct the long-distance correlation feature of case entities,
extract the long-distance entity relation of judicial cases, reduce the generation of
error and repeated relation triples, and improve the accuracy of case entity relation
identification. 2) How to fully mine the semantic features of case text, extract the
implicit causal relation of events, and distinguish the sequential and synchronous
temporal relation, so as to improve the accuracy of event relation recognition in
cases. 3) How to weaken the semantic information of interfering sentences and
further improve the accuracy of case entity relation and event relation under the
condition of ensuring that there is no lack of case background semantics. Aiming at
the above three problems, this paper mainly studies the following three contents:
1) Entity relation extraction method in judicial cases based on remote
dependence feature and allegation aggregation. In order to solve the problems of
difficult extraction of long-distance entity relation and explosion of entity reference
combination in judicial cases, this paper analyzes the dependency syntax of judicial
case text, and adds reflexive dependency, and uses Graph Neural Network to spread
the improved dependency code for multiple rounds to obtain the characteristics of
long-distance entity dependency. At the same time, the head entity representation
VII
space and tail entity representation space are constructed respectively to aggregate
the mentions, so as to reduce the generation of repeated and invalid entity relation
triples, so as to improve the accuracy and recall of entity relation extraction.
2) A joint extraction method of temporal causality of case events integrating
context and multi-scale local features. In order to solve the problem that it is
difficult to extract the implicit causal relation of events and to distinguish the
sequential temporal relation from the synchronous temporal relation, this paper uses
Bi-GRU and Multi-scale Convolution Neural Network to obtain the context
semantic features and local semantic features of different granularity of judicial
case text respectively, and fuses the above features to obtain a richer semantic
representation of case text. For causal relation and temporal relation extraction,
build their respective relation encoders and decoders respectively, and use three
different shared parameter strategies to realize the interaction between causal
features and temporal features, and provide additional semantic information for
correct identification of each other through the association of temporal relation and
causal relation.
3) Case entity relation and event relation extraction method based on
semantic weakening of interference information. In order to weaken the semantic
information of the interference statement between entity relation and event relation
in judicial cases and reduce the impact of interference information on relation
extraction, this paper analyzes the correlation between entity, event distribution and
interference information in judicial case text, and preliminarily reduces the
semantic weight of interference statement by calculating the probability distribution
of entity and event. At the same time, the sentence level Attention Mechanism is
used to further obtain the low correlation weight value of interfering sentences and
relation features, reduce the ability of the model to learn the semantics of interfering
information, and improve the ability of the model to obtain relation features, so as
to improve the accuracy of entity relation and event relation recognition.
This paper constructs a judicial case data set and makes an experimental
evaluation of the three methods proposed in this paper. The results show that this
method is better than the comparison method in each evaluation index. At the same
VIII
time, a prototype system of entity relation and event relation extraction in judicial
cases is developed to further test the effectiveness of the proposed method.
Keywords: Entity Relation Extraction, Event Relation Extraction, Interference
Semantic Weakening, Judicial Intelligence
IX
目录
第一章绪论.................................................................................................................. 1
1.1 研究背景........................................................................................................................... 1
1.2 研究问题........................................................................................................................... 2
1.3 研究内容........................................................................................................................... 4
1.4 创新点与意义 ................................................................................................................... 6
1.5 论文的组织结构 ............................................................................................................... 7
第二章国内外研究现状.............................................................................................. 9
2.1 实体关系抽取国内外研究现状 ....................................................................................... 9
2.1.1 基于规则的实体关系抽取................................................................................... 9
2.1.2 基于统计机器学习的实体关系抽取 ................................................................. 10
2.1.3 基于深度学习的实体关系抽取......................................................................... 11
2.2 事件关系抽取国内外研究现状 ..................................................................................... 12
2.2.1 事件因果关系抽取............................................................................................. 13
2.2.2 事件时序关系抽取............................................................................................. 14
2.3 司法领域关系抽取国内外研究现状 ............................................................................. 15
第三章基于远距离依赖特征和指称聚合的司法案件实体关系抽取方法............ 17
3.1 问题提出......................................................................................................................... 17
3.2 司法案件实体、关系种类定义 ..................................................................................... 18
3.3 基于远距离依赖特征和指称聚合的司法案件实体关系抽取模型 ............................. 19
3.3.1 基于 BERT 的司法案件文本编码表示 ............................................................. 20
3.3.2 司法案件全局序列特征和远距离依赖特征构建 ............................................. 22
3.3.3 基于条件随机场的司法案件实体指称识别 ..................................................... 25
3.3.4 基于远距离依赖特征和指称聚合的司法案件实体关系抽取 ......................... 27
3.4 实验结果与分析 ............................................................................................................. 28
3.4.1 数据集描述 ........................................................................................................ 28
3.4.2 评价方法 ............................................................................................................ 30
3.4.3 实验结果分析 .................................................................................................... 31
3.5 本章小结......................................................................................................................... 33
第四章融合上下文和多尺度局部特征的案件事件时序因果关系联合抽取方法 34
4.1 问题提出......................................................................................................................... 34
X
4.2 面向司法文本的事件关系种类划分 ............................................................................. 34

4.3 融合上下文和多尺度局部特征的案件事件时序因果关系联合抽取模型 ................. 36
4.3.1 司法案件上下文和多尺度局部语义特征获取 ................................................. 36
4.3.2 司法案件时序、因果关系编码与解码 ............................................................. 40
4.3.3 融合上下文和多尺度局部特征的案件事件时序因果关系联合抽取 ............. 41
4.3.4 司法案件事件时序、因果关系联合抽取模型训练 ......................................... 46
4.4 实验结果与分析 ............................................................................................................. 46
4.4.1 数据集标注 ........................................................................................................ 46
4.4.2 实验设置 ............................................................................................................ 47
4.4.3 实验结果与分析................................................................................................. 48
4.5 本章小结......................................................................................................................... 49
第五章基于干扰信息语义弱化的案件实体关系和事件关系抽取方法................ 51
5.1 问题提出......................................................................................................................... 51
5.2 问题分析......................................................................................................................... 52
5.3 基于干扰信息语义弱化的案件实体关系抽取方法 ..................................................... 53
5.3.1 基于实体分布的语义权重计算方法 ................................................................. 54
5.3.2 融合注意力机制的司法案件实体关系抽取 ..................................................... 56
5.4 基于干扰信息语义弱化的案件事件关系抽取方法 ..................................................... 59
5.5 实验结果与分析 ............................................................................................................. 62
5.5.1 案件实体关系抽取实验结果与分析 .................................................................. 62
5.5.2 案件事件关系抽取实验结果与分析 ................................................................. 63
5.6 本章小结......................................................................................................................... 64
第六章面向司法案件的实体关系与事件关系抽取原型系统................................ 65
6.1 应用背景......................................................................................................................... 65
6.2 系统模块设计................................................................................................................. 65
6.3 原型系统及其相关功能介绍......................................................................................... 67
6.4 本章小结......................................................................................................................... 71
第七章总结与展望.................................................................................................... 72
7.1 结论................................................................................................................................. 72
7.2 展望 ................................................................................................................................ 74
参考文献...................................................................................................................... 75
作者在攻读硕士学位期间公开发表的论文.............................................................. 82
XI
作者在攻读硕士学位期间所参与的项目.................................................................. 83
致谢...................................................................................................................... 84
XII
第一章绪论
1.1 研究背景
2017 年 7 月国务院印发《新一代人工智能发展规划》大力推动前沿人工智
能技术在法律领域的创新应用[1]，利用人工智能技术辅助司法案件审理成为当
前司法智能领域的研究热点。各种司法智能应用系统的出现能够在一定程度上提
升案件判罚的公平性和客观性，对进一步提升我国法制化水平具有重要意义。
不论是对案件审理人员，还是对案件智能审理程序来说，对案件进行精准和
全面的分析都是保证案件审理公平性和客观性的基础。案件分析需要对各种涉案
人物、物品及其关系、事件发展过程及其关系、作案动机等进行梳理，进而分析
案件蕴含的各种关系，提升案件分析的准确度和全面性，为案件智能判罚提供支
撑[2]。例如，在一个涉黑案件中，被告人“李某”首先使用砍刀将“王某”砍伤，
随后“王某”利用购买的仿制手枪将“李某”射伤，虽然两者都构成了故意伤害
罪，但是由于两人使用不同的凶器，王某还触犯了非法买卖、持有枪支罪，因此
会获得更重的判罚结果。该案情涉及到李某、王某等人物实体，砍刀、仿制手枪
等涉案物品实体，李某砍伤王某、王某射伤李某等事件，必须准确获取到各实体
之间的关系、各事件之间的时序、因果关系，才能实现案件精准和全面分析。因
此，基于案件描述文本的案件实体关系和事件关系抽取是案件分析和理解的关键
技术。
在目前的司法智能实践中，对复杂司法案件的实体关系和事件关系抽取还存
在诸多挑战：1）案件文本中实体分布比较离散，具有关系的实体可能分布在不
同的句子中，如图 1.1 中“许先生”和“许某”是父子关系，但在文本中两个实
体的位置却相隔甚远，造成模型难以对远距离实体间的依赖特征进行建模，进而
对该类实体关系难以准确抽取到。2）在案件文本中缺乏事件间的显式因果关系
指示词，如图 1.1 中事件“借钱炒股被拒”与事件“杀害”之间存在一定的因果
关系，然而文本中却没有明显的因果连接词表明两个事件之间存在因果关系，造
1
成模型难以学习到事件间的隐式因果语义特征，导致模型无法准确识别司法案件
中事件间隐式因果关系。3）案件文本中存在部分干扰信息，如图 1.1 中所示，这
些干扰语句中不存在任何关系语义描述。而模型在学习关系语义特征的同时，会
混入部分干扰语句的语义信息，导致模型对关系识别的精度下降。由于司法案件
文本描述具有以上特点，现有实体关系和事件关系抽取模型和方法在复杂案件分
析时，其精度和召回率还不能满足案件分析准确度和全面性的实际需求。
图 1.1 司法案件示例——“许某某故意杀人案”
针对以上问题，本文重点研究司法案件文本远距离实体关系、事件时序因果
关系联合抽取方法以及关系干扰信息语义弱化方法，提升司法案件实体关系、事
件关系抽取的准确率，为各类法律智能应用提供支持：
1) 司法案件理解：通过对司法案件进行实体关系和事件关系抽取，实现案
件的精准和全面分析，获得案件关键判罚信息及其指向，从而依据罪犯的不同犯
罪情节进行更合理、精确的量刑，有利于实现司法公平公正。
2) 司法案件知识图谱构建：通过对司法案件进行实体关系和事件关系抽取，
并构建司法案件知识图谱，可以从全局掌握案情发展过程及人物关系，对侦办人
员理清案件线索、快速侦破案件具有指导意义。
1.2 研究问题
与通用领域实体关系抽取和事件关系抽取任务不同，复杂司法案件文本中蕴
含的实体关系和事件关系知识更为复杂，抽取更加困难，本文主要围绕以下问题
进行研究：
1) 如何解决司法案件远距离实体关系抽取困难、实体指称组合爆炸的问题？
2
案件文本中实体分布离散，存在关系的实体可能分布在不同的句子中，具体
表现为实体在文本中间隔较远。而通用领域实体关系抽取方法主要针对句内的实
体关系抽取[3][4]，即两个实体在文本中间隔较近或位于同一句话中。这些方法
对句内和近距离实体关系特征具有较好的识别能力，但是对于司法案件中的跨句
和远距离实体，由于其难以获取远距离实体间的关系依赖特征，导致了司法案件
涉案人物、物品等实体的关系抽取精度和召回率较低。
另一方面，司法案件文本中存在大量的涉案人物、物品等实体，尤其是一些
复杂司法案件，其中蕴含的涉案人物和物品更多。通用领域实体关系抽取方法在
识别实体后，会对所有实体进行两两组合[5]，进而识别实体间关系。该方法会使
得许多原本不存在关系的实体也进行了组合，不仅增加了模型的计算量，还会产
生错误的实体关系。并且司法案件中的人物实体往往存在多个指称词、指代词，
例如“蔡丽丽（应为蔡丽莉，后更名为蔡懿）”，表示同一实体的不同指称之间的
两两组合不仅会增加计算量，还会产生大量重复实体关系。因此，文本将重点解
决司法文本中远距离实体关系抽取困难、实体指称组合爆炸的问题。
2) 如何解决事件隐式因果关系抽取困难，以及顺序时序和同步时序关系难
以区分的问题？
司法案件中事件间的因果关系对掌握案情原由、作案动机具有重要意义。而
现有事件因果关系识别方法主要集中在显式因果关系抽取[6][7]，缺乏对隐式因
果关系的抽取[8]。并且司法案件文本中事件间的因果关系不明确，缺乏显式因果
关系指示词，导致事件因果语义信息朦胧隐晦，模型难以学习到因果关系特征，
给司法案件中隐式因果关系的识别带来了困难。
案件中的事件时序关系[9][10]可以分为顺序时序和同步时序关系，正确识别
案件中的事件顺序时序和同步时序可以为案情发展的推演分析等提供支撑。现有
的时序关系抽取方法主要依据事件间的最短依存路径或事件在文中出现的先后
顺序构建完整事件链，再对事件链进行优化实现顺序时序和同步时序的区分。由
于案件文本中事件发生顺序与其在文本中的顺序存在较大差异，使得现有研究方
法难以实现对事件链优化，导致顺序时序和同步时序难以区分。
3) 如何削弱司法案件中实体关系与事件关系干扰语句的语义信息？
司法案件文本描述往往表现为长文本，其中存在部分并未包含实体关系和事
3
件关系描述的语句，这些句子可称为干扰信息。干扰信息的存在会使得模型在学
习实体关系和事件关系特征的同时，也会学习到较多的干扰信息语义特征，从而
导致司法案件实体关系和事件关系识别准确率下降。当干扰信息出现在具有关系
的两个实体或事件之间时，使得模型学习的关系特征中混入干扰信息语义的情况
更为严重，严重影响关系识别性能。因此，本文将重点研究如何削弱干扰语句的
语义信息，从而提升司法案件实体关系和事件关系抽取的性能。
1.3 研究内容
针对 1.2 节中分析的司法案件实体关系与事件关系抽取中存在的三个主要问
题，本文重点研究以下内容：
1) 基于远距离依赖特征和指称聚合的司法案件实体关系抽取方法
为了实现对案件的完整语义理解，必须充分获取案件中的句内和跨句实体关
系。而获取跨句或远距离实体关系关键在于如何为远距离实体建立关联特征。由
于司法案件文本是序列数据，现有针对序列数据的特征获取的研究中，其主要瓶
颈在于无法准确对远距离实体间的关联特征进行建模表示，导致模型缺乏对远距
离实体关系的识别能力。
为了获取司法案件远距离实体关系，同时消除重复和无效的三元组关系，本
文在第三章提出了基于远距离依赖特征和指称聚合的司法案件实体关系抽取方
法，该模型首先通过对司法案件文本进行句法分析，初步获取句内、句间的依存
句法特征，并构建依存句法图，然后通过在图神经网络上传播改进后的依存句法
特征，可以获取实体间的较强的远距离依赖特征，并通过两个实体表示空间将指
称表示转换为实体表示，从而实现司法案件文本中远距离实体关系的抽取。实验
结果表明，本文提出的抽取模型可以有效获取跨句实体的远距离关系特征，并且
可以减少重复三元组的产生，具有更高的准确率和召回率。
2) 融合上下文和多尺度局部特征的案件事件时序因果关系联合抽取方法
案件文本中存在隐式因果关系的事件之间蕴含一定的隐性因果语义特征，同
时文本中针对时序的表述主要存在两种形式：****年**月**日、**时**分等具体
时间表示；凌晨、傍晚等抽象时间表述，如何充分挖掘文本中不同类型、粒度的
4
语义特征，对隐式因果关系识别和顺序、同步时序的区分具有重要意义。
为了充分挖掘案件中隐式因果关系，同时对案件中事件的时序和同步关系进
行区分，本文在第四章提出了融合上下文和多尺度局部特征的案件事件时序因果
关系联合抽取模型。首先，分别通过 Bi-GRU 和多尺度卷积神经网络获取司法案
件文本的上下文序列语义特征和多尺度局部语义特征，其中多尺度卷积神经网络
通过不同卷积核大小，获取文本不同粒度的局部语义特征，然后将上下文序列语
义特征和多尺度局部语义特征进行融合，充分获取司法案件文本中丰富的语义信
息。然后，分别构建因果关系、时序关系的编码器和解码器，对案件自身语义特
征中隐含的因果特征和时序特征进行放大。为了保证因果关系和时序关系的正确
识别，考虑到“有因才有果”，即因果之间存在一定的顺序时序，本文利用三种
不同的共享参数策略实现时序特征和因果特征的关联，使得时序、因果关系可以
为彼此的准确预测提供额外的语义特征。实验结果表明，本文提出的融合上下文
和多尺度局部特征的案件事件时序因果关系联合抽取模型能够有效解决司法案
件文本隐性因果关系识别难的问题，并且在顺序时序和同步时序的识别上也有较
好的表现。
3) 基于干扰信息语义弱化的案件实体关系和事件关系抽取方法
当案件文本含有干扰信息时，若直接将干扰信息从案件文本中删除，虽然可
以使得模型完全集中在关系特征的学习上，但是由于干扰信息中也存在案件的背
景语义信息，将其删除则会造成背景语义信息的缺失，使得模型对案件语义的表
征出现断层，从而影响关系识别。因此，需要对干扰信息制定合理的语义削弱方
案，在不缺失语义信息的条件下尽可能削弱干扰信息的语义特征。
为了保证模型关系识别的精度，同时避免干扰信息对关系识别的影响，本文
在第五章提出了基于干扰信息语义弱化的案件实体关系和事件关系抽取方法，通
过分析实体和事件在司法案件文本中分布与干扰信息的关联，计算实体、事件在
案件中每句话的概率分布，从而降低干扰信息的语义权重。为了使模型更加注重
对关系特征的学习，本文利用句子级注意力机制进一步获取干扰语句与关系特征
的低关联权重值，使模型对干扰信息语义的学习能力下降，而尽可能地学习关系
特征，从而提升关系识别的正确率。实验结果表明，本文提出的基于干扰信息语
义弱化的案件实体关系和事件关系抽取方法可以有效减弱干扰语句的语义特征，
5
有效提升了模型对司法案件实体关系和事件关系的识别能力。
1.4 创新点与意义
本文主要完成面向司法案件的实体关系与事件关系抽取方法研究，具体创新
点包括以下三点：
1) 针对远距离实体关系抽取困难、实体指称组合爆炸的问题，提出了一种
基于远距离依赖特征和指称聚合的司法案件实体关系抽取方法。
该方法通过对司法案件文本进行依存句法分析，并添加自反依赖，利用图神
经网络对改进后的依存关系编码进行多轮传播以获取实体远距离依赖特征。同时，
分别构建头实体表示空间和尾实体表示空间对指称进行实体聚合表示，减少重复
和无效实体关系三元组的产生，从而提升实体关系抽取的准确率和召回率。
2) 针对事件隐式因果关系抽取困难、顺序时序和同步时序难以区分的问题，
提出了一种融合上下文和多尺度局部特征的案件事件时序因果关系联合抽取方
法。
该方法使用 Bi-GRU 和多尺度卷积神经网络分别获取司法案件文本上下文
语义特征和不同粒度的局部语义特征，并将上述特征进行融合，得到更为丰富的
案件文本语义表示。针对因果关系和时序关系抽取分别构建各自的关系编码器和
解码器，利用三种不同的共享参数策略实现因果特征和时序特征之间的交互，通
过时序关系和因果关系的关联为彼此正确识别提供额外语义信息。
3) 针对干扰信息造成关系抽取精度下降的问题，提出了一种基于干扰信息
语义弱化的案件实体关系和事件关系抽取方法。
该方法分析司法案件文本中实体、事件分布与干扰信息的关联，通过计算实
体、事件的概率分布，初步降低干扰语句的语义权重。同时利用句子级注意力机
制进一步获取干扰语句与关系特征的低关联权重值，降低模型对干扰信息语义学
习的能力，而提升模型对关系特征的获取能力，从而提升实体关系和事件关系识
别的准确率。
本文的研究意义如下：
本文针对司法案件文本的特点，实现了司法案件实体关系和事件关系的准确
6
抽取，经过实验验证具有较好的精度和泛化能力。本文的方法可应用于司法领域
诸多具体任务中，如案件理解、罪名识别、司法案件知识图谱构建等，能够为司
法智能应用提供支撑，促进司法公平公正。
1.5 论文的组织结构
本文的组织结构如图 1.2 所示，各章节的简要介绍如下：
图 1.2 论文组织结构
第一章讨论了面向司法案件的实体关系与事件关系抽取问题的研究背景，阐
述了本文研究司法案件实体关系和事件关系抽取问题的意义。在研究背景的基础
上提出三个研究问题以及对应的研究内容，最后对本文的创新点进行总结。
第二章分析实体关系抽取、事件关系抽取和司法领域关系抽取的国内外研究
现状，其中实体关系抽取主要分为基于规则的实体关系抽取、基于统计机器学习
的实体关系抽取和基于深度学习的实体关系抽取，事件关系抽取根据关系类型的
不同可以分为事件时序关系抽取和事件因果关系抽取，最后对现有方法分别进行
了总结分析。
第三章提出了基于远距离依赖特征和指称聚合的司法案件实体关系抽取方
法。通过对司法案件文本进行句法分析，利用图神经网络传播实体间依存特征，
以获取远距离实体依赖特征。然后构建两个独立的实体映射空间分别进行头实体
和尾实体的聚合表示，在实体关系预测时将聚合后的头实体和尾实体输入到分类
7
器中实现司法案件实体关系抽取，并通过实验验证了提出方法的有效性。
第四章提出了融合上下文和多尺度局部特征的案件事件时序因果关系联合
抽取方法。利用循环神经网络获取司法案件的上下文语义特征，同时构建多尺度
卷积神经网络，获取司法案件不同粒度的局部语义特征。通过分析事件时序关系
和因果关系之间的关联性，利用三种不同的参数共享策略实现司法案件事件因果、
时序关系的抽取，并通过实验验证了提出方法的有效性。
第五章提出了基于干扰信息语义弱化的案件实体关系和事件关系抽取方法。
通过分析案件文本中实体、事件分布与干扰信息的关联，利用实体和事件的概率
分布降低干扰语句的语义权重。在关系预测时，利用注意力机制进一步降低模型
对干扰语句的关注度，从而减低干扰语句的语义特征，提升实体关系和事件关系
抽取的准确率，并通过实验验证了提出方法的有效性。
第六章将本文的研究内容进行实际应用，开发了面向司法案件的实体关系和
事件关系抽取原型系统，根据用户输入的司法案件描述，完成对案件的实体关系
和事件关系抽取，并构建案件知识图谱，进一步验证了本文研究方法在实际应用
中的有效性。
第七章对本文进行总结，并对未来工作进行展望。
8
第二章国内外研究现状
2.1 实体关系抽取国内外研究现状
实体关系抽取方法主要可以分为三类：基于规则的实体关系抽取方法、基于
统计机器学习的实体关系抽取方法以及基于深度学习的实体关系抽取方法。
2.1.1 基于规则的实体关系抽取
基于规则的实体关系抽取方法通过人工构建规则的方式对非结构化文本进
行实体关系抽取，这种方法往往需要依赖相关领域专家的知识和经验，通过对数
据进行深入观察和分析，尽可能全面、准确地设计规则模板。Hearst 等人[15]首
先开辟了利用模式匹配抽取语义关系的思路，通过使用如“X such as Y”、“X or
other Y”和“Y including X”等模式从文本中抽取上下位关系。但是构造关系模
式的过程耗时耗力，且人为穷举出所有可能的关系模式极为困难。Wang 等人[16]
提出了一种自动学习同义词关系模式的方法，首先通过启发式规则从 WordNet 中
获取同义关系种子，然后在种子模式的基础上构建多种泛化的同义关系模式，从
而提高同义关系抽取的召回率。Aone 等人[17]基于规则库构建了一个大型的信息
抽取系统 REES，该系统利用关系本体库和事件本体库，从大规模的文本数据中
成功提取出了 100 多种关系，是首个实现对多种关系进行抽取的规则系统。与之
类似的还有 Cunningham 等人[18]提出的 GATE 框架，在该框架上可以通过分析
文本编写相应的抽取规则来构建面向特定领域的信息抽取系统。Yu[19]利用人工
定义模板、基于无监督学习的分布表示、基于种子的半监督学习和基于 SVM 的
有监督算法四种方法，从生物学文本中抽取蛋白质和基因之间的关系。Sheth[20]
提出一个自动的模式构造方法来抽取动词同义词，将多个模式抽取的结果集合起
来以最大化提升关系识别的召回率。Snow[21]提出了一种自动发现上下位关系的
方法，首先依靠人工定义模式匹配上下位实体。然后将句子解析成依存树，从中
抽取依存特征，依靠抽取的依存特征训练上下位关系分类器。Humphreys 等人[22]
9
只使用完全正确的规则用于分析，因此具有很高的准确率，但是召回率却很低，
并且由于语义模糊的规则的缺乏，导致许多实体关系都不能被成功识别。
基于规则的实体关系抽取方法实现简单，依赖于词法分析、句法分析以及人
工构造的规则模板，在实际使用过程中，其优点包括：1）有较高的准确率；2）
通常适用于特定领域的关系抽取；3）容易在小规模的数据集上实现，构造简单。
同时，基于规则的实体关系抽取方法也存在以下缺点：1）召回率低；2）这些规
则很难迁移到其他领域；3）在构建规则的过程中，需要对所有可能的关系规则
进行穷举，会耗费大量的人工成本；4）需要经常对规则库进行维护更新。
2.1.2 基于统计机器学习的实体关系抽取
基于统计机器学习的实体关系抽取方法可以分为基于特征向量的实体关系
抽取方法和基于核函数的实体关系抽取方法。基于特征向量的实体关系抽取方法
通常从文本中提取词法、句法和语义等特征信息并将其用于分类器的训练。
Kambhatla[23]通过提取多种词法和句法特征[11]，并使用最大熵模型训练关系分
类器，最终在 ACE2004 标准数据集上测试模型关系分类性能，其模型的 F1 指标
达到了 52.8%。Zhou 等人[24]在 Kambhatla 基础上加入了更多的特征，其中包括
词法特征、句法特征以及从 WordNet 词汇库中提取的语义特征等，特征的不断丰
富有效地提升了关系抽取的效果。Sun 等人[25]还添加了实体序列特征、实体间
序列特征和实体间断句特征以及长效术语关联特征，进一步提升关系识别准确率。
Miao 等人[26]引入了词特征、分词特征、句法特征来发现关系特征，并使用条件
随机场对特征做出评价。Zelenko 等人[27]首次将核函数应用于关系抽取任务，提
出了一种基于自然文本的浅层解析树核函数，并引入高效算法用于核函数的计算，
同时结合支持向量机和投票感知机（Voted Perceptron）算法实现了两大类语义关
系的抽取。Zhang 等人[28]采用卷积核解析树构建句法结构信息模型，以此实现
实体关系抽取。受到将核函数应用于文本分析的启发，Mooney 等人[29]设计了
一种基于序列的核函数，并将其成功应用到实体关系抽取任务。
基于统计机器学习的实体关系抽取方法依靠特征工程对文本进行建模表示，
并学习其中的关系特征。其中，基于特征向量的实体关系抽取方法具有如下优点：
10
1）计算复杂度相对较低；2）对特征建模实现简单。同时，该方法存在如下缺点：
1）需要启发式地设计和挖掘高质量的特征，过分依赖高质量特征的识别能力；
2）难以获得最优的特征子集。而基于核函数的实体关系抽取方法相较于基于特
征向量的方法而言，具有以下优点：1）不需要定义特征集合；2）使用方法简单
有效，灵活性高。同时，该方法具有以下缺点：1）由于引入了核函数，使得计
算复杂度变高；2）召回率低；3）难以实现领域的迁移。
2.1.3 基于深度学习的实体关系抽取
基于深度学习的实体关系抽取方法可以通过神经网络直接对原始数据提取
特征并训练分类模型，同时也可以加入传统的人工特征辅助模型自动进行特征学
习。Liu 等人[30]首先将卷积神经网络用于关系抽取，使用词向量和 WordNet 特
征作为输入训练关系抽取模型。Socher 等人[31]使用递归神经网络设置句法树节
点向量，学习命题逻辑算子含义，以此得到不同长度的句子向量化表示。Zeng 等
人[32]通过卷积神经网络来减少预先标注处理，利用词语和句子的层次特征进行
关系抽取。Nguyen 等人[33]在 Zeng 研究基础上引入位置向量和多尺寸卷积核，
证实了实体关系抽取中可以采用多尺寸卷积提升模型特征识别能力。Santos 等人
[34]在不改变卷积神经网络结构的基础上，使用逐对排序算法代替简单交叉熵函
数，增强了关系表示在语义相近的关系之间的区分度，增强了关系抽取的准确率。
Ye 等人[35]从关系类别之间的语义连接角度对关系抽取任务进行建模，并修改损
失函数，在英文数据集上的实验结果验证了该方法的有效性。Xu 等人[36]通过对
实体之间最短依存路径上的文本片段进行卷积，提取到了噪音更少、鲁棒性更强
的关系表示，并提出负采样策略对实体关系的表示进行优化。Zeng 等人[37]尝试
利用中介实体构建目标实体对的跨句子关系推理路径，从而能够利用只包含一个
实体的句子中蕴含的关系语义。
Lin 等人[38]采用分段卷积神经网络（Piecewise Convolutional Neural Network，
PCNN），将句子的特征矩阵分成三段池化，并添加注意力机制，建立句子级的选
择性注意力机制减轻错误标签问题，F 值比多示例学习提高 5%。Cai 等人[39]提
出了双向递归卷积神经网络(BRCNN)模型，该模型基于最短依赖路径(shortest
11
path dependence，SDP)实现，并在 2010 年语义评测大赛的 Task8 数据集上取得

实体关系抽取 F 值 0.863 的成绩。Ebrahimi 等人[40]以实体间最短依存路径作为
特征，使用递归神经网络（Recursive Neural Network）进行关系抽取。Zhang 等
人[41]加入了相对位置向量并使用双向长短时记忆网络来完成关系抽取，并取得
了不错的实体关系分类效果。
基于深度学习的实体关系抽取方法通过各种神经网络自动学习文本序列数
据的内在语义特征，避免了很多繁琐的特征构建过程，并且传统的特征也能够以
简单的方式加入到模型当中进一步提升模型的性能。在实际应用中，该方法具有
以下优点：1）无需复杂的特征工程，利用神经网络自动学习文本内的语义特征；
2）方便迁移，只需重新训练神经网络参数即可实现领域的迁移。同时，该方法
存在以下缺点：1）训练网络需要大规模的训练集和测试集，人工构建训练集、
测试集的成本太高；2）神经网络搭建过程繁琐，需要为神经网络各层定义单元
数。
现有实体关系抽取研究主要针对句子级的实体关系抽取任务，没有考虑跨句
或远距离实体关系。而在实际应用中，尤其是面向复杂司法案件，具有关系的案
件实体对并不在同一句话中，案件实体往往会分布在不用的语句中，若使用句子
级的实体关系抽取方法，虽然可以对句内案件实体关系进行抽取，但同时会缺失
跨句案件实体之间的关系，导致案件实体关系不全，从而对案情的理解和分析产
生偏差。同时，由于司法案件中存在大量的涉案人物、物品实体，直接将案件实
体进行两两组合会导致错误和重复关系三元组的产生。因此，需要进一步研究司
法案件实体关系抽取方法，对司法案件描述文本中的远距离实体关系进行抽取，
同时减少错误和重复关系三元组的产生，实现对司法案件的准确理解。
2.2 事件关系抽取国内外研究现状
由于事件关系较为复杂，现有事件关系抽取研究主要集中在事件因果关系和
时序关系抽取。其中事件因果关系抽取主要挖掘有序事件对之间的因果关系，事
件时序关系抽取主要对事件之间的顺序时序和同步时序关系进行区分。
12
2.2.1 事件因果关系抽取
针对事件因果关系的研究，早期主要使用基于模板匹配的方法。Kaplan 等人
[42]使用手工编织规则来建立领域知识库，并利用知识推理技术来对事件间的因
果关系进行识别。Khoo 等人[43]结合语言提示词（Cue Phrase）和模式匹配，在
医学领域提取出了针对英文语料的因果关系语言模式规则，并取得了不错的事件
因果识别效果。Bethard[44][45]同时对事件时序和因果关系进行标注，并将人工
标注的时序关系辅助因果关系分类器进行事件间的因果关系抽取。
Mostafazade[46]提出了一个事件语义标注模型 CaTeRS，为事件时序关系和因果
关系的联合抽取提供了标注工具。Mirza[47]结合事件因果关系的预测结果对时序
关系进行辅助判断，以实现事件时序和因果关系的关联。黄一龙[48]通过整数线
性规划来构建事件时序、因果关系联合推理模型，并对事件时序、因果关系进行
约束，实现对事件关系抽取结果的优化。Ning[49]利用时序和因果关系之间存在
的约束条件和语言学规则，将事件时序、因果关系联合识别任务转化为整数线性
规划问题，并运用深度学习技术解决因果关系抽取中存在的问题。田生伟等人[50]
将 Bi-LSTM(Bi-directional Long Short-Term Memory, Bi-LSTM)引入到事件因果关
系的识别中，充分结合语义特征推理上下文因果关系；闻畅等人[51]搭建了双向
长短时记忆神经网络模型并引入注意力机制突出关键因果词汇在文本中的重要
程度，以此实现对事件因果关系特征的挖掘。
Zhao S 等人[52]提出使用限制性隐藏朴素贝叶斯模型来提取文本中的因果关
系，该方法不仅利用了文本语境特征、句法特征、位置特征，还使用了因果关系
指示词中的新特征，该特征可以由包含因果连接词的句子计算树核相似度得到。
该方法还可以实现因果指示词之间特征交互，同时也避免了隐藏朴素贝叶斯模型
在处理关联范畴与句子句法结构之间交互时导致的过拟合问题。
Do Q 等人[53]基于分布相似度和语篇连接词，提出了一种最小监督方法来
识别事件间的因果关系，分布相似度有助于确定因果关系，而语篇连接词及其在
语境中唤起的特定语篇关系可以为事件间因果关系的识别提供额外语义信息。该
方法在全局推理的过程中，将语篇事件关系预测和分布相似度方法结合，为事件
因果关系的识别提供了一种新的解决思路。
13
Riccomagno E 等人[54]提出了链式事件图模型，该模型是一种离散的贝叶斯
网络模型，提供了一个灵活和高扩展性的框架。该模型可用于因果假设含义的表
示和分析，并通过基础网络中产生的因果关联交互计算来强化模型因果推理能力。
Acharya S 等人[55]提出了一种增量因果网络模型，通过学习时间优先关系来辅
助推断因果关系，该模型通过采用一种名为 Incremental Hill-Climbing Monte Carlo
的增量贝叶斯网络来推断因果依赖关系。此外，作者还提出了一个两层因果网络，
该网络不需要先验知识就可以实现事件流的因果分析。
Kruengkrai C 等人[56]提出一种基于多列卷积神经网络（MCNN）的事件因
果关系识别方法。该方法根据文本中的信息和部分因果特征来确定一对事件是否
存在因果关系，通过将神经网络结构与背景先验知识相结合，提高了事件因果关
系识别的准确率。付剑锋等人[57]针对传统事件因果关系抽取方法只能抽取显式
因果关系的缺点，提出了一种基于层叠条件随机场模型的事件因果关系抽取方法。
该方法将事件因果关系抽取问题转化为对事件序列的标注问题，采用层叠条件随
机场对事件间的因果关系进行标注，其中第一层条件随机场模型用于标注事件在
因果关系中的语义角色，并将标注结果传递给第二层条件随机场模型，从而完成
对事件间因果关系的识别。
2.2.2 事件时序关系抽取
早期的事件时序关系研究工作更加注重文本自身蕴含的各种语义特征。
Marcu 等人[58]将单词进行有序配对，并将其作为时序关系的一种特征，以此来
实现对时序关系的发现。随着 TimeML（Time Markup Language）标注体系的建
立、发展以及 TimeBank 等时序语料库的出现，更多的研究人员开始针对
TimeBank 等高质量时序语料库进行事件时序关系抽取。 Mani 等人 [59] 在
TimeBank 标注语料的基础上利用事件属性构造特征向量，其中包括事件类型、
体态、形态、极性、时态等，并使用最大熵分类器进行时序关系识别。Chambers
等人[60]在 Mani[61]的基础上，进一步结合词性、句法树结构等语义特征，并从
WordNet 中提取词汇和形态学特征，从而使特征空间得到极大扩展，有利于分类
器充分学习事件间时序特征。
14
近些年来，基于图模型的全局优化方法被广泛应用到事件抽取及事件时序关
系识别等多个任务中。Chambers 等人[62]在分类器的结果上使用整数线性规划的
方法提升了在英文时序关系语料上的实验性能。Li 等人[63]挖掘由中文事件语义
衍生出的多种文档级别的约束条件，并使用整数线性规划方法对分类器结果进行
全局优化，显著提升了中文文本中事件时序关系的识别性能。Do 等人[64]提出了
一种基于联合推理的事件时间线框架，即把文章中出现的事件按其出现的先后顺
序构成一条完整的事件链，再使用整数线性规划模型去优化该事件链，并且在模
型中加入了事件的同指关系信息，进一步提升了模型对时序关系的识别能力。
Cheng[65]根据 Xu 等人[66]在实体关系抽取任务上的研究工作，将事件描述
词之间的最短依存路径作为模型输入，构造了一种基于 RNNs 的神经网络模型，
在没有使用任何显性特征和外部知识的情况下，具有良好的时序识别性能。类似
地，Meng 等人[67]通过使用基于 LSTM 的网络结构，利用句法依赖关系去识别
文本中的多种时序关系，也取得了较好的识别性能。Choubey 等人[68]通过采用
顺序学习能力良好的双通道 LSTM 去学习两个事件词上下文的句法和语义表示，
提出一种序列模型用于事件时序关系识别。
现有事件因果关系抽取方法主要集中在显式因果关系抽取，而司法案件中事
件间缺乏显式因果关系指示词，导致模型无法准确获取事件间的因果语义特征，
无法对司法案件中的隐式因果关系进行识别。针对事件时序关系的识别，现有研
究主要通过事件间的依存路径或事件在文中出现的先后顺序构建事件链，然后通
过全局推理、整数线性规划等方法对该事件链进行优化，从而实现对事件顺序、
同步时序的区分。然而司法案件中事件发生顺序与其在文中的顺序存在较大差异，
使得现有研究方法难以对事件链的优化，导致模型无法准确区分司法案件中的事
件顺序、同步时序关系。因此，需要对司法案件中事件隐式因果关系识别、顺序、
同步关系区分进行研究，为案情发展演变、作案原由分析提供支持。
2.3 司法领域关系抽取国内外研究现状
针对司法领域的关系抽取，目前的研究主要针对法律文本实体关系抽取。高
丹等人[84]提出了一种基于卷积神经网络和改进核函数的多实体关系抽取方法
15
—KMCNN（Multi-Entity Convolutional Neural Network Based on Kernel），针对大

规模历史法律文书中的人物关系，通过构建短语有效子树，采用基于改进核函数
的方法来计算短语有效子树的相似度，并运用卷积神经网络对多对实体关系进行
识别。李攀峰等人[85]利用基于模板匹配的关系抽取，并结合模糊逻辑机制，提
出了一种适用于涉案财务关系抽取方法，并且为了充分考虑涉案财务知识库的实
际需求，在传统三元组的基础上还增加了二元属性，将三元组扩充为五元组关系
模型，从不同的维度设计了三个抽取模板，借助模糊逻辑对抽取的结果进行评判，
从而得到效果较优的五元组关系。陈彦光等人[86]将司法文本中三元组关系抽取
过程看作两阶段流水线结构，利用预训练的基于 Transformer 的双向编码器表示
模型进行命名实体识别，再将识别的结果应用到关系抽取阶段，从而实现对非结
构化刑事判决书文本的信息提取。徐家豫[87]根据选定法条的法律术语，构建法
律术语词典，将词典领域知识融入到法律实体识别模型中，通过 BERT 和双向长
短期记忆神经网络获取法律文本上下文信息，最后通过 CRF 作为分类模型对关
系进行识别。王宁等人[88]基于法院判决文书提出了基于 StanfordNLP 关系抽取
机制的法律知识图谱构建方法，选用伪卡盗刷类案件作为检验文本来验证模型关
系识别性能。商少帅[89]利用双向 GRU 网络和注意力机制进行法律文本中的关
系抽取，通过双向 GRU 网络充分获取法律文本中上下文信息，而注意力机制的
引入则会自动赋予句子中单词不同的权重，来代替传统的把句子中不同单词和不
同实体之间的距离作为特征的方法，使输入维度降低了 2 倍句子长度，不仅可以
减少计算量，而且可以更好地学习法律文本中的语义特征。
总的来说，目前针对司法领域的关系抽取都集中在法律文本中的实体关系抽
取，针对特定的法律条文或司法文书，获取其中的三元组关系。现有司法领域实
体关系抽取存在以下缺点：1）都是句子级别的实体关系抽取，在面对司法文书
中的跨句实体关系或远距离实体关系时，这些方法并不能很好的获取其中的关系，
从而导致对案件理解产生偏差；2）由于司法案件文书中涉及大量的人物实体，
同一人物实体会有不同的别称或指代，直接将识别的人物实体两两组合后输入到
关系抽取模型中，不仅造成模型计算量的增加，还会产生错误和重复关系三元组。
16
第三章基于远距离依赖特征和指称聚合的司法案件
实体关系抽取方法
3.1 问题提出
司法案件文本中含有许多涉案人物、物品等实体，使得司法案件文本中也蕴
含较多的实体关系。例如对于如图 3.1 所示的案件文本描述，其中涉及的人物实
体包括：黄勇青、蒙仲明、曾某某、覃某；物品实体包括：白色五菱面包车、刀、
二轮摩托车、海洛因；关系三元组包括：<黄勇青，合作，蒙仲明>、<黄勇青，
驾驶，白色五菱面包车>、<黄勇青，使用，刀>、<黄勇青，伤害，曾某某>……。
图 3.1 司法案件示例
目前大部分实体关系抽取方法，首先会对该案件文本进行分句，然后分别抽
取每个句子中的案件实体关系，这样会导致部分跨句实体关系无法抽取，例如<
黄勇青，伤害，曾某某>、<黄勇青，贩卖，海洛因>、<蒙仲明，贩卖，海洛因>。
究其原因，是因为通用领域实体关系抽取方法无法对案件文本中的跨句或远距离
实体进行建模，无法获取到远距离实体依赖特征，导致模型无法识别案件中远距
离实体关系。因此，需要对司法案件实体依赖进行更充分的建模表示，以获取案
件实体远距离依赖特征。
另外，案件文本中存在多个表示相同案件实体的指称，上述案件文本第一句
话中“黄勇青”出现了两次，“蒙仲明”也出现了两次，若使用通用领域实体关
系抽取方法，首先会识别该句中的案件实体指称，然后将指称进行两两组合，这
样不仅会导致关系三元组<黄勇青，合作，蒙仲明>的重复抽取，也产生部分不必
17
要的三元组：<黄勇青，同名，黄勇青>、<蒙仲明，同名，蒙仲明>。出现这种现
象的原因在于通用领域实体关系抽取方法没有对同一实体的不同指称进行聚合，
导致大量冗余三元组的产生。
因此，本章将重点研究以下两个问题：1）如何构建远距离依赖特征，对司
法案件跨句和远距离实体关系进行抽取；2）如何对表示同一实体的指称进行聚
合，减少错误和重复关系三元组的产生。
3.2 司法案件实体、关系种类定义
对司法案件进行实体关系抽取，首先需要对司法案件中涉及的案件实体类别
和关系种类进行分析、定义。在本文中，本文通过对中国裁判文书网上的公开数
据进行下载、分析、整理，选择了 4 类犯罪频率较高的刑事案件：危险驾驶罪、
故意伤害罪、故意杀人罪、走私、贩卖、运输、制造毒品罪，并基于不同的罪名
对其中涉及的实体和关系进行分类，将实体主要分为了 4 类：人物、肇事车辆、
凶器、毒品，如表 3.1 所示。
表 3.1 司法案件实体种类
实体种类实体示例
人物张某、李某霞、儿子、父亲、外甥
肇事车辆小型客车、大货车、拖拉机、摩托车
凶器水果刀、菜刀、棍子、铁锹、木头
毒品海洛因、摇头丸、冰毒、可卡因
由于司法案件中实体关系复杂，不同案件实体间具有不同的关系种类，若将
案件文本中所有案件实体关系进行表示，会导致实体关系图谱过于繁琐，不仅无
法为司法从业人员提供便利，反而会增加他们阅读、处理案件的工作量。因此，
本章通过分析不同罪名量刑的标准，主要针对法律条款中量刑相关实体对司法案
件进行实体关系抽取，以便将抽取的三元组与相关法律条款进行对应，从而支撑
量刑预测、司法问答等法律智能应用。
根据上述定义的司法案件实体种类，本章主要抽取人物-人物关系、人物-肇
事车辆关系、人物-凶器关系、人物-毒品关系，如下表 3.2 所示。
18
表 3.2 司法案件实体关系种类定义
实体关系种类实体关系名称关系案例
女婿、女儿、蔡清源只好向在香港工作的的女婿吕国伟和女儿
夫妻…… 蔡丽丽（应为蔡丽莉，后更名为蔡懿）
人物-人物
蔡清源只好向在香港工作的的女婿吕国伟和女儿
同名
蔡丽丽（应为蔡丽莉，后更名为蔡懿）
被告人张廷玉酒后无证驾驶皖Ｓ×××××号小型普通客
人物-肇事车辆驾驶
车与杨青松（车载杨一涵）驾驶的电动车发生碰撞
许先生于 7 月 5 日凌晨在家中趁来女士熟睡之际
人物-凶器使用
用枕头蒙头方式将其杀害
吸毒、贩卖、白雪电话联系广东省揭阳籍毒贩“阿仙”购买
人物-毒品
制造、运输甲基苯丙胺
3.3 基于远距离依赖特征和指称聚合的司法案件实体关系
抽取模型
本章针对 3.1 节所述的问题，提出了基于远距离依赖特征和指称聚合的司法

案件实体关系抽取模型，整体架构如图 3.2 所示。首先从词自身语义嵌入、词所
属句子的语义嵌入、相对位置语义嵌入三个不同角度对司法案件中的词进行编码，
并利用 BERT 预训练语言模型[69]对案件文本进行初始语义向量表示。在司法案
件语义特征获取模块，本文利用 Bi-GRU 网络[70]获取司法案件文本的全局序列
语义特征，并利用语法分析工具获取案件文本的句法依赖，生成句法依赖矩阵，
随后将案件文本的初始向量表示和改进后的句法依赖矩阵作为图神经网络
（Graph Neural Network，GNN）[71][72]的输入，经过图神经网络的依存特征传
播，学习案件文本中远距离实体间的依赖特征。在实体指称识别部分，本文利用
线性层得到初始实体指称标签得分，为了获取实体指称标签之间的约束条件，通
过条件随机场（Conditional Random Field，CRF）[73]对初始指称标签得分进行优
化，得到较为准确的实体指称标签。在案件实体关系抽取部分，本文将案件实体
指称识别结果分别映射到头实体表示空间和尾实体表示空间，实现相似案件实体
指称的聚合，然后通过前馈神经网络（FeedForword Neural Network，FFNN）[74]
19
完成案件实体关系的分类。
图 3.2 基于远距离依赖特征和指称聚合的司法案件实体关系抽取模型整体架构
3.3.1 基于 BERT 的司法案件文本编码表示
对于司法案件描述文本，首先需要将其转化为向量表示，并获取案件文本初
始语义特征。为了充分获取司法案件中词蕴含的语义信息，本文综合考虑了词自
身嵌入表示、词所属句子的嵌入表示、相对位置的嵌入表示三种不同的嵌入信息。
其中词自身嵌入表示重点关注司法案件中词本身的语义信息，词所属句子的嵌入
表示重点关注词所属句子的语义信息，可以获取周围其他词的语义信息，相对位
置的嵌入表示重点关注词在整个司法案件文本中的位置语义，有利于区分不同句
子中的同一案件实体。通过综合三种不同的词嵌入信息，使得案件文本向量化表
征可以包含更多的语义信息。
𝑊𝑜𝑟𝑑𝑒𝑚𝑏 = [𝑇𝑜𝑘𝑒𝑛𝑒𝑚𝑏 ; 𝑆𝑒𝑔𝑒𝑚𝑏 ; 𝑃𝑜𝑠𝑒𝑚𝑏 ] (3.1)
其中𝑇𝑜𝑘𝑒𝑛𝑒𝑚𝑏 表示词自身语义嵌入表示，𝑆𝑒𝑔𝑒𝑚𝑏 表示词所属句子的嵌入表
示，𝑃𝑜𝑠𝑒𝑚𝑏 表示相对位置的嵌入表示。
对于案件中词自身语义嵌入表示，本文使用词袋模型（Bag-of-words，BOW）
获取。词袋模型将司法案件文本序列仅看成是词汇的集合，将案件文本中的每个
20
词看成是独立的个体，不会考虑案件文本中词序、语法等信息，即不会与其他词
进行关联，因此可以充分获取词自身的语义表示。对于案件中词所属句子的嵌入
表示，本文使用 Word2Vec 模型[75]获取。Word2Vec 模型基于滑动窗口实现，可
以对案件文本中词语周围上下文的语义信息进行获取。对于相对位置语义嵌入，
本文直接根据词在案件文本中的位置进行编码表示。
图 3.3 Transformer 编码器[80]
得到案件文本中三种不同的词表征信息后，本文利用 BERT 预训练语言模型

[69]获取司法案件文本的初始语义表示。BERT 的实现基于 Transformer 双向编码
器[77]，如图 3.3 所示，可以并行处理司法案件文本序列中的每个词或符号，并
利用自注意力（Self-Attention）机制将案件文本上下文中不同间隔的词进行结合，
使得句子中的每个词都会注意到其他词，即同时考虑词所在句子左右两边词的语
义信息，对每个词在当前案件描述上下文中的语义理解更加准确，能够更加高效
地捕获案件文本中词语间的依赖，克服了传统编码方法语义表征不足的问题。
由于 BERT 模型需要在案件文本每个句子后添加“[SEP]”标签，用于对案
件文本中的句子进行区分。因此首先需要对司法文本进行预处理，在司法文本每
个句子的结尾处添加“[SEP]”标签，如图 3.4 所示。
21
图 3.4 案件描述文本预处理
将案件文本的词嵌入表示𝑊𝑜𝑟𝑑𝑒𝑚𝑏 作为 BERT 的输入，最终获取司法案件文

本的初始语义表示𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔。
𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔 = 𝐵𝐸𝑅𝑇(𝑊𝑜𝑟𝑑𝑒𝑚𝑏 ) (3.2)
3.3.2 司法案件全局序列特征和远距离依赖特征构建
在获取案件描述的初始语义表示后，为了更加充分的获取案件描述中丰富的
语义特征，同时构建远距离依赖特征，本文分别利用双向 GRU 网络和加权图神
经网络对案件描述中的语义特征进一步挖掘，为后续案件实体识别和关系分类提
供足够的语义支持。
（1）基于双向 GRU 网络的司法案件全局序列语义特征获取
图 3.5 GRU 网络结构[70]
对于案件描述的全局序列语义特征获取，本文使用双向 GRU 网络[70]分别

提取案件描述的前向序列语义和后向序列语义，并将其拼接得到全局序列语义。
GRU 网络是本质上是长短期记忆网络（Long Short-Term Memory，Bi-LSTM[78]）
的一种变体，其网络结构如图 3.5 所示。GRU 把 LSTM 中的遗忘门和输入门用
更新门来代替，并把细胞状态和隐藏状态进行合并，相较于传统循环神经网络，
可以有效避免梯度消失和梯度爆炸问题，而且由于其网络结构比 LSTM 更为简
22
单，因此其具有更优良的计算效率。
将司法案件文本的初始语义表示𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔作为双向 GRU 网络的输入，在
序列步长为𝑡时，隐藏状态ℎ𝑡 可以通过当前时刻的输入𝑥𝑡 和上一步𝑡 − 1时的隐藏
状态更新得到ℎ𝑡−1，具体计算方式为：
𝑧𝑡 = 𝜎(𝑊𝑧 ∙ [ℎ𝑡−1 , 𝑥𝑡 ]) (3.3)
𝑟𝑡 = 𝜎(𝑊𝑟 ∙ [ℎ𝑡−1 , 𝑥𝑡 ]) (3.4)
ℎ̃𝑡 = tanh(𝑊 ∙ [𝑟𝑡 ∗ ℎ𝑡−1 , 𝑥𝑡 ]) (3.5)
ℎ𝑡 = (1 − 𝑧𝑡 ) ∗ ℎ𝑡−1 + 𝑧𝑡 ∗ ℎ̃𝑡 (3.6)
其中ℎ𝑡−1为案件文本中第𝑡 − 1个词语的隐藏状态，𝑥𝑡 为案件文本中第𝑡个词语
对应的初始语义向量表示，ℎ𝑡 为案件文本中第𝑡个词语的隐藏状态， 𝜎为 sigmoid
激活函数。𝑧𝑡 为更新门，𝑟𝑡 为重置门，𝑊𝑧 与𝑊𝑟 分别是两个门计算的权重。对于更
新门，当其值越大时，表示当前保留的案件文本语义信息越多，同时上一序列步
保留的案件文本语义信息越少。对于重置门来说，当其取值越小，代表要抛弃上
一序列步的案件文本语义信息越多，而更多保留当前案件文本语义信息的输入。
双向 GRU 网络由两个不同方向 GRU 组成，分别从前向和后向学习司法案
件文本的前向和后向序列语义特征，再将前向和后向序列语义特征进行拼接，从
而完成对司法案件全局序列特征的构建，具体计算方式为：
⃗⃗⃗⃗
ℎ𝑛 = ⃗⃗⃗⃗⃗⃗⃗⃗⃗
𝐺𝑅𝑈(ℎ ⃗⃗⃗⃗⃗⃗⃗⃗⃗
𝑛−1 , 𝑥𝑛 , 𝜃𝐺𝑅𝑈 ) (3.7)
⃖⃗⃗⃗⃗
ℎ𝑛 = 𝐺𝑅𝑈 ⃖⃗⃗⃗⃗⃗⃗⃗⃗⃗
⃖⃗⃗⃗⃗⃗⃗⃗⃗⃗(ℎ 𝑛−1 , 𝑥𝑛 , 𝜃𝐺𝑅𝑈 ) (3.8)
ℎ𝑛 = ⃗⃗⃗⃗
ℎ𝑛 ⨁ℎ⃖⃗⃗⃗⃗
𝑛 (3.9)
⃗⃗⃗⃗𝑛 和ℎ
其中ℎ ⃖⃗⃗⃗⃗
𝑛 分别代表前向和后向 GRU 在序列步长为 n 时的隐藏层语义表
示，𝜃𝐺𝑅𝑈 为 GRU 的网络参数，𝑥𝑛 表示司法案件文本中第 n 个词的初始化语义表

示。
（2）基于加权图神经网络的远距离依赖语义特征获取
获取实体间远距离依赖特征对识别司法案件跨句和远距离实体关系具有关
键作用。目前针对文本序列数据的依赖特征获取研究中，其主要瓶颈在于无法准
确对远距离实体间的关联特征进行建模表示。本文首先利用句法分析工具对司法
案件文本进行句法分析，构建句法依存树，并将其进一步转化为依存图。不同于
传统依存编码方式，本文为词之间不同的依存关系赋予不同的编码，并添加了词
23
的自反依存关联。为了解决依存编码差异较大而导致对案件实体关系语义特征学
习出现偏差的问题，对上述构建的依存矩阵进行归一化。然后将案件描述初始语
义表示和改进后的依存矩阵输入到图神经网络，经过多轮传播以获取远距离实体
间的依赖语义特征。
图神经网络[12]最早由 Franco 提出，通过图的形式，可以为司法案件文本中
远距离实体建立有效的强依赖关联，从而很好的学习远距离实体依赖语义特征。
由于图神经网络是建立在图论基础上的，因此首先需要将司法案件描述文本的序
列结构转换为图结构。本文通过句法分析工具对司法案件描述文本进行句法依存
分析，获取案件描述中词之间的句法依存关联，如图 3.6 所示。
图 3.6 句法依存分析示例（只展示了部分依存关系）
由于图神经网络在依存关联传播过程中并没有充分考虑传播中心词自身的
语义特征，会导致中心词结点自身语义特征的缺失。因此，本文为案件文本中的
所有词都添加了自反依存关联，即词结点与结点自身建立关联边，如图 3.6 中自
反边所示。词结点在图神经网络传播过程中，由于自反依存关联边的添加，使得
中心结点的邻居结点集合中也包含了中心结点自身，从而解决词语在依赖关系传
播过程中丢失掉自身语义信息的问题。
案件描述文本经过句法依存分析并添加自反依存关联后，可以构建句法依存
矩阵𝐴，从而实现案件描述文本从序列结构到图结构的转换。在多层图神经网络
中，结点隐藏状态的传播需同时依赖邻居结点与相邻边的特征信息，如下式 3.10
所示。
ℎ𝑢𝑙 = 𝜎( ∑ (𝐴ℎ𝑣𝑙 𝑊 𝑙 + 𝑏 𝑙 )) (3.10)

𝑣∈𝑁(𝑢)
24
其中ℎ𝑢𝑙 表示词𝑢在第𝑙层的隐藏层特征，𝑁(𝑢)表示与𝑢相邻的邻居结点集
合, 𝜎(⋅)表示激活函数，𝐴表示句法依存矩阵，𝑊 𝑙 ，𝑏 𝑙 分别表示第𝑙层的权重和偏
置，为可学习的图神经网络参数。
本文将司法案件描述的初始语义编码和依存矩阵输入到图神经网络中，将司
法案件文本中的词与图神经网络中的结点对应，将依存矩阵中的值作为图中不同
词结点间边的权值。词之间的依存关联通过在图神经网络上传播，可以获取司法
案件中每个词在图感知中的语义特征，即每个词的语义表示中都包含了其与司法
案件中依存词的关联特征。通过迭代的方式更新司法案件文本中所有词的语义信
息。在 t+1 时刻，司法案件中词 v 的隐藏状态可由下式计算得到：
ℎ𝑣𝑡+1 = 𝑓(𝑥𝑣 , 𝑥𝑐 𝑜[𝑣], ℎ𝑛𝑡 𝑒[𝑣], 𝑥𝑛 𝑒[𝑣]) (3.11)
其中𝑓(⋅)代表局部转移函数，即词结点语义特征的状态更新函数，𝑥𝑐 𝑜[𝑣]表
示与词结点 v 相邻的依存边的语义特征，𝑥𝑛 𝑒[𝑣]表示与词结点 v 相邻的邻居结点
的语义特征，ℎ𝑛𝑡 𝑒[𝑣]表示与 v 相邻的邻居词结点在 t 时刻的语义表示。
在对司法案件描述文本进行句法分析时，词之间具有不同的依存关系，而不
同的依存关系具有不同的编码，由于依存关系的编码之间往往差距较大，每经过
一层图神经网络的传播，结点的特征尺度会被过度放大，这不利于后续对司法案
件实体关系特征的挖掘。因此，本文将式 3.10 进行进一步优化，即对句法依存矩
阵进行归一化处理，使得句法依存矩阵𝐴中的依存关系编码不至于过大，从而更
好的对司法案件实体关系特征进行挖掘，如下式 3.12 所示，其中𝐷 −1/2 为归一化
矩阵。
ℎ𝑢𝑙 = 𝜎( ∑ (𝐷−1/2 𝐴𝐷−1/2 ℎ𝑣𝑙 𝑊 𝑙 + 𝑏 𝑙 )) (3.12)

𝑣∈𝑁(𝑢)
通过多层加权图神经网络，可以使得司法案件中词之间的依存语义特征传播
的更远，从而有效获取远距离实体间的依存语义特征，为司法案件描述文本远距
离实体关系抽取提供语义支持。
3.3.3 基于条件随机场的司法案件实体指称识别
上一节 3.3.2 中，分别利用双向 GRU 网络和加权图神经网络获取司法案件

描述文本的全局序列语义特征和远距离依赖语义特征。针对司法案件实体指称识
25
别任务，只需要考虑司法案件文本中词左右两边的语义特征即可，不需要远距离
依赖语义特征。因此，本节只使用全局序列语义特征实现司法案件中实体指称的
识别，首先通过一个线性层对全局序列语义特征进行解码，得到司法案件描述文
本中每个词的初始实体指称标签得分，然后再利用条件随机场对实体指称标签进
行约束，最终得到更为精确的案件实体指称标签。
以司法案件文本全局序列语义特征ℎ𝑛 作为线性层的输入，经过一次线性层解
码后，得到案件文本中每个词的初始实体指称标签得分。
𝑃𝑛 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑊 𝑙𝑖𝑛𝑒𝑎𝑟 ℎ𝑛 + 𝑏 𝑙𝑖𝑛𝑒𝑎𝑟 ) (3.13)
其中𝑃𝑛 表示词 n 的初始实体指称标签得分，𝑊 𝑙𝑖𝑛𝑒𝑎𝑟 和 𝑏 𝑙𝑖𝑛𝑒𝑎𝑟 分别为线性层
的权重和偏置，为可学习参数，𝑠𝑜𝑓𝑡𝑚𝑎𝑥(⋅)为激活函数。
经过线性层得到的初始实体指称标签得分充分使用了司法案件描述文本的
全局序列语义特征，但是却忽略了案件实体指称标签自身存在的约束规则，例如
某个字的标签若为“I-毒品”，则该字的前一个字应该为“B-毒品”或“I-毒品”，
而不能是其他的案件实体种类，如“B-人物”或“I-人物”。因此，需要获取实体
指称标签之间自身的约束规则，以得到更精确的案件实体识别结果。
针对案件实体指称标签间约束规则的获取，本文利用条件随机场对初始实体
指称标签得分与真实标签进行关联学习，获取案件实体标签间的状态转移分数。
条件随机场（Conditional Random Field，CRF）[73]是一种条件概率分布模型，在
给定一组随机变量的条件下，可以预测另一组随机变量的条件概率分布，常用于
序列标注任务。将司法案件中每个词的初始实体指称标签得分𝑃𝑛 输入到条件随机
场中可以进一步学习司法案件实体指称标签之间存在的约束规则，即案件实体标
签转移矩阵 T。通过融合案件实体指称标签约束规则，可得到更精确的案件实体
指称标签预测序列𝑦，随后计算司法案件描述文本𝑇𝑒𝑥𝑡的实体指称标签预测序列
𝑦的得分𝑠𝑐𝑜𝑟𝑒(𝑇𝑒𝑥𝑡, 𝑦)。
𝑛 𝑛
𝑠𝑐𝑜𝑟𝑒(𝑇𝑒𝑥𝑡, 𝑦) = ∑ 𝑇𝑦𝑖 ,𝑦𝑖+1 + ∑ 𝑃𝑖,𝑦𝑖 (3.14)

𝑖=0 𝑖=1
其中 y 表示案件文本 Text 预测的案件实体指称标签序列,𝑇𝑦𝑖 ,𝑦𝑖+1 表示案件实
体标签𝑦𝑖 与标签𝑦𝑖+1的转移概率，𝑃𝑖,𝑦𝑖 表示案件文本中第𝑖个字初始实体指称标签
为𝑦𝑖 的概率。最后选择得分最高的案件实体指称标签序列作为最终的案件实体指
26
称识别结果。
3.3.4 基于远距离依赖特征和指称聚合的司法案件实体关系抽取
通用领域的串行式实体关系抽取方法[37][38]会将上一步识别的案件实体指
称进行两两组合，导致错误和重复关系三元组的产生，从而导致案件实体关系抽
取精度下降。因此，本节首先对识别的案件实体指称进行聚合，利用两个独立的
映射空间：头实体表示空间和尾实体表示空间，分别对司法案件文本中的实体指
称进行聚合表示，再对聚合后的案件实体进行组合并判断案件实体间的关系，如
图 3.7 所示。
图 3.7 基于远距离依赖特征和指称聚合的司法案件实体关系抽取方法
由于司法案件实体关系种类与案件实体指称标签信息具有一定的关联性，如
“贩毒”、
“吸毒”关系只会存在与人物与毒品实体之间，而与车辆实体、凶器实
体无关。因此，本节在进行司法案件实体关系抽取时，融合了案件实体指称标签
信息，即将案件实体指称标签特征与远距离依赖语义特征进行拼接，如下式 3.15
所示。
ℎ𝑢𝑙+1 = [ℎ𝑢𝑙+1 ; 𝑃𝑢 ] (3.15)
其中ℎ𝑢𝑙+1为图神经网络输出的司法案件远距离依赖语义特征，𝑃𝑢 表示案件实
体指称标签特征。本文将融合后的词的语义表示分别映射到两个不同的映射空间：
头实体表示空间和尾实体表示空间，将案件实体指称表示进行聚合，生成案件头
实体和尾实体表示。头实体和尾实体表示空间都由一个带激活函数的前馈神经网
27
络构成：
𝑥𝑢ℎ𝑒𝑎𝑑 = 𝜎(𝑊ℎ𝑒𝑎𝑑 ℎ𝑢𝑙+1 + 𝑏ℎ𝑒𝑎𝑑 ) (3.16)
𝑥𝑢𝑡𝑎𝑖𝑙 = 𝜎(𝑊𝑡𝑎𝑖𝑙 ℎ𝑢𝑙+1 + 𝑏𝑡𝑎𝑖𝑙 ) (3.17)
其中𝜎(⋅)表示激活函数。𝑊ℎ𝑒𝑎𝑑 ，𝑏ℎ𝑒𝑎𝑑 和𝑊𝑡𝑎𝑖𝑙 ，𝑏𝑡𝑎𝑖𝑙 分别是两个前馈神经网
络的权重和偏置，𝑥𝑢ℎ𝑒𝑎𝑑 和𝑥𝑢𝑡𝑎𝑖𝑙 表示司法案件中第𝑢个词的头实体表示和尾实体表
示。然后将头实体和尾实体进行组合，通过案件实体关系分类器判断实体间关系，
从而得到司法案件中的实体关系三元组：
𝑠𝑐𝑜𝑟𝑒(𝑒 ℎ𝑒𝑎𝑑 , 𝑒 𝑡𝑎𝑖𝑙 ) = 𝑙𝑜𝑔 ∑ (𝑊𝑟𝑒𝑙 [𝑥𝑖ℎ𝑒𝑎𝑑 ; 𝑥𝑗𝑡𝑎𝑖𝑙 ] + 𝑏𝑟𝑒𝑙 ) (3.18)

𝑖∈𝐸 ℎ𝑒𝑎𝑑 ,𝑗∈𝐸 𝑡𝑎𝑖𝑙
其中𝐸 ℎ𝑒𝑎𝑑 和𝐸 𝑡𝑎𝑖𝑙 分别表示案件实体𝑒 ℎ𝑒𝑎𝑑 和𝑒 𝑡𝑎𝑖𝑙 的指称集合，𝑊𝑟𝑒𝑙 和𝑏𝑟𝑒𝑙 分别

为案件实体关系分类器的权重和偏置参数。
3.4 实验结果与分析
3.4.1 数据集描述
本文主要针对危险驾驶、交通肇事、故意伤害、故意杀人、过失致人死亡、
走私、贩卖、运输、制造毒品等罪对中国裁判文书网上的判决书进行下载整理。
由于本章主要对判决书中的案件描述进行实体和关系抽取，通过分析判决书的行
文格式，可以发现案发经过描述主要法院查明部分。因此，首先对司法判决文书
进行结构化拆分，获取其中的法院查明描述。本文整理文书中的描述格式，总结
法院查明部分的正则匹配表达式，如下表 3.3 所示，并利用这些正则表达式对司
法文书进行结构化拆分，并选取了法院查明部分字符长度大于 200 的案例作为数
据集。
为了验证提出方法的有效性，本文对获取的案件描述文本进行司法案件实体
和关系的人工标注。对于司法案件实体标注，本文采用 BIO 标注法，BIO 标注将
案件文本中的每个字标注为“B-X”、
“I-X”、
“O”，其中，“B-X”表示该字所在的
案件文本片段属于 X 实体类型，且此字在该案件实体的开头位置，“I-X”表示此
字所在的案件文本片段属于 X 类型且此字位于该案件实体的中间位置，“O”表示
28
该字不属于任何案件实体类型。而“X”表示不同的案件实体类型，具体表示如表
3.4 所示。
表 3.3 案发经过抽取正则表达式
判决文书组成正则表达式
检察院[起诉]?指控[，|：]?(.*?)(?=上述事实)
公诉机关[起诉]?指控[，|：]?(.*?)(?=上述事实)
检察院[起诉]?指控[，|：]?(.*?)(?=经审理查明)
法院查明描述
公诉机关[起诉]?指控[，|：]?(.*?)(?=经审理查明)
指控事实.*(?=指控罪名)
[公诉机关指控|检察院指控].*?公诉机关认为.*?(?=\\n)
表 3.4 案件实体标注及其含义
案件实体标注标注含义
B-PER 人物实体起始位置
I-PER 人物实体中间位置
B- CAR 车辆实体起始位
I- CAR 车辆实体中间位置
B- WEA 凶器实体起始位置
I- WEA 凶器实体中间位置
B- NAR 毒品实体起始位置
I- NAR 毒品实体中间位置
具体的，以句子“被告人李曙光驾驶车牌号为浙 AE8342 小型轿车”为例，

其案件实体标注结果如下表所示：
表 3.5 案件实体标注示例
被告人李曙光驾驶车牌
O O O B-PER I-PER I-PER O O O O
号为浙 A E 8 3 4 2 小
O O O O O O O O O B- CAR
型轿车
I- CAR I- CAR I- CAR
对于司法案件的实体关系标注，本文将数据转换为 JSON 格式，采用如图 3.8

所示方式进行标注。
29
图 3.8 案件实体关系标注示例
3.4.2 评价方法
对于司法案件实体关系抽取任务，本文采用准确率、召回率、F1 三个评价指
标来衡量所提模型对案件实体关系抽取的性能。评价指标是基于混淆矩阵定义的，
其中混淆矩阵如表 3.6 所示。
表 3.6 混淆矩阵定义
预测值
Positive Negative
TP：预测值为正， FN：预测值为负，
Positive
真实值也为正真实值为正
真实值
FP：预测值为正， TN：预测值为负，
Negative
真实值为负真实值也为负
基于上述混淆矩阵，精确率、召回率、F1 可定义为：
定义 3.1：精确率（Precision），又称准确率，模型预测结果正确的样例数占
模型预测出结果的所有样例数的比例，用于衡量模型识别的准确性能，具体计算
公式为：
𝑇𝑃
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = (3.19)
𝑇𝑃 + 𝐹𝑃
定义 3.2：召回率（Recall），又称查全率，模型预测结果正确的样例数占原
始所有样例数据的比例，用于衡量模型预测结果的完整性能，具体计算公式为：
𝑇𝑃
𝑅𝑒𝑐𝑎𝑙𝑙 = (3.20)
𝑇𝑃 + 𝐹𝑁
定义 3.3：F1 值（H-mean 值），被定义为模型精确率和召回率的调和平均，
30
用于综合衡量模型整体性能，具体计算公式为：
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ⋅ 𝑅𝑒𝑐𝑎𝑙𝑙
𝐹1 = 2 ⋅ (3.21)
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙
3.4.3 实验结果分析
（1）对比模型和消融实验模型
将数据集划分为训练集和测试集，并利用上述三个评价指标对司法案件实体
关系抽取模型进行评估，并且为了验证本章提出模型的有效性，选取了另外 2 个
对比模型进行对比实验：
Bi-LSTM+LSTM：Zheng 等人[79]将实体关系抽取任务当成一个序列标注任
务，采用“B/I-关系种类-1/2”的标注模式，其中“B”或“I”表示该字在实体中
的位置，“1”或“2”表示该字属于头实体还是尾实体。该模型首先利用双向长
短期记忆神经网络对文本进行语义编码，获取序列语义特征，然后通过一个带偏
置的单向长短期记忆神经网络对关系进行解码，得到预测的标签序列，最后根据
就近原则将相邻的两个具有相同关系种类的实体进行组合构成关系三元组。
GNN：Fu 等人[80]使用图结构对文本进行建模表示，首先利用 Word2Vec 获
取文本的初始语义编码，然后通过对文本进行句法依存分析构建文本表示图，并
利用图神经网络对其进行建模表示，随后通过实体解码器得到进行实体识别，再
对识别出的实体重新构建图结构，同样使用图神经网络学习实体间的关联特征，
获取实体关系语义特征，最后通过关系分类器获取实体关系。
为了突出本章提出模型每层网络的必要性，还构建了 2 个模型作为消融实
验，并与对比实验一起进行分析比较，下面对用于消融实验的模型进行介绍：
Bi-GRU+CRF：该模型也将实体关系抽取任务作为序列标注任务，仅利用双
向 GRU 网络获取司法案件文本的全局序列语义特征，并通过条件随机场进一步
获取案件标签间的约束规则，最终得到司法案件文本的关系标签序列。
Bi-GRU+GNN+CRF：该模型也分别使用双向 GRU 网络和图神经网络获取
文本的全局序列语义特征和远距离依赖语义特征，在案件实体指称识别部分也通
过条件随机场获取标签间约束规则，但是在案件实体关系预测部分没有将实体指
称进行聚合表示，而是直接两两组合进行关系分类。
31
为消除模型的超参数对实验结果的影响，本文所使用的网络模型参数设置如
下：
1) 模型中所有参数采用标准差为 N(0, 0.01)的正态分布进行参数初始化；
2) 双向 GRU 网络层数为 2，其隐藏层的维度为 256；
3) 双向长短期记忆神经网络的网络层数为 2，其隐藏层的维度为 256；
4) 图神经网络的网络层数为 2，其隐藏层的维度为 256；
5) 网络训练 batch 大小为 32，时间反向传播算法（BPTT）的学习率 lr 为
0.001，网络层之间的丢弃率 dropout 为 0.5；
6) 模型训练采用 Adam 优化器进行优化。
（2）实验结果
表 3.7 展示了本章提出模型与对比模型、消融实验模型的实验结果，从表中
实验数据可以看出，本文提出的基于远距离依赖特征和指称聚合的司法案件实体
关系抽取模型在司法案件实体关系抽取任务上取得了较优的性能。
表 3.7 司法案件实体关系抽取实验结果
Model Precision Recall F1
Bi-LSTM+LSTM 0.775 0.761 0.768
GNN 0.393 0.389 0.391
Bi-GRU+CRF 0.772 0.765 0.768
Bi-GRU+GNN+CRF 0.779 0.762 0.770
Our model 0.782 0.793 0.787
通过与 Bi-LSTM+LSTM 模型实验结果进行对比，可以发现使用了条件随机
场的模型具有相对更优的表现，原因在于未使用条件随机场的模型仅仅考虑了案
件文本的全局序列语义特征，而没有对案件实体标签进行约束，导致结果标签序
列中会出现诸如“B-贩毒-1 I-贩毒-2”的错误标注片段。通过与 GNN 模型实验结
果进行对比，可以发现由于 GNN 模型只获取了案件文本远距离依赖语义特征，
但缺乏案件文本全局序列语义特征，导致模型无法学习案件文本词左右两边的序
列语义特征，从而使得模型预测性能下降。通过与 Bi-GRU+CRF 模型实验结果
进行对比，可以发现仅使用双向 GRU 网络和条件随机场可以很好的对司法案件
短距离和句内实体关系进行抽取，而对于远距离实体关系，由于缺乏远距离依赖
语义特征，导致无法准确对司法案件中的远距离实体关系进行分类。通过与 Bi-
GRU+GNN+CRF 模型的实验结果比较，可以发现本章所提模型的召回率与其相
32
比有一定提升，原因在于本章使用了两个独立的实体映射空间，将司法案件实体
指称表示分别映射到头实体和尾实体表示空间，对实体指称进行了聚合，减少了
错误和重复关系三元组的产生，在一定程度上提升了召回率。
3.5 本章小结
本章针对司法案件远距离实体关系抽取困难、案件实体指称组合爆炸的问题，
提出了一种基于远距离依赖特征和指称聚合的司法案件实体关系抽取方法。首先
从词自身语义嵌入、词所属句子的语义嵌入、相对位置语义嵌入三个不同角度对
司法案件中的词进行编码，充分获取词的语义信息，并利用 BERT 对案件文本进
行初始语义向量表示。在司法案件语义特征获取模块，本文利用 Bi-GRU 网络获
取司法案件文本的全局序列语义特征，并利用语法分析工具获取案件文本的句法
依赖，生成句法依赖矩阵，随后将案件文本的初始向量表示和改进后的句法依赖
矩阵作为图神经网络的输入，经过图神经网络的依存特征传播，学习案件文本中
远距离实体间的依赖特征。在实体指称识别部分，本文利用线性层得到初始实体
指称标签得分，为了获取实体指称标签之间的约束条件，通过条件随机场对初始
指称标签得分进行优化，得到较为准确的实体指称标签。在案件实体关系抽取部
分，本文将案件实体指称识别结果分别映射到头实体表示空间和尾实体表示空间，
实现相似案件实体指称的聚合，然后通过前馈神经网络完成案件实体关系的分类。
最后，通过对比实验和消融实验验证本章所提模型的性能，实验结果验证了本章
所提方法的有效性，在准确率、召回率和 F1 值三个评价指标上均有提升。
33
第四章融合上下文和多尺度局部特征的案件事件时
序因果关系联合抽取方法
4.1 问题提出
司法案件描述文本中存在事件、事件关系知识，其中最为核心的为事件间的
因果关系和时序关系。获取司法案件中的事件因果关系对掌握案情原由、作案动
机具有重要意义，而事件顺序时序和同步时序关系可以为案情发展推演分析等提
供支撑。但司法案件描述文本中事件关系错综复杂，并且事件关系特征隐晦，这
导致对司法案件事件因果、时序关系抽取将面临以下两个问题：
（1）事件隐式因果关系抽取困难
针对事件因果关系抽取，现有研究主要针对显式因果关系抽取[53]，即文中
往往存在较为明显的因果关系指示词，例如“导致”，“造成”，“因此”，“由于”
等词，可以通过构建因果规则库，并利用模型学习文本中的因果关系特征，从而
识别文本中的显式因果关系。而司法案件文本中事件间的因果关系不明确，缺乏
显式因果关系指示词，导致模型难以挖掘事件间的因果关系特征，进而导致无法
识别司法案件中的隐式因果关系。
（2）事件顺序、同步时序关系难以区分
针对事件时序关系抽取，现有研究主要依据事件间的最短依存路径或事件在
文中出现的先后顺序构建完整事件链，再利用全局推理、整数线性规划等方法对
事件链进行调整优化，从而实现对事件顺序、同步时序关系的区分。然而案件文
本中事件发生顺序与其在文本中的顺序存在较大差异，使得现有研究方法难以实
现对事件链的优化，导致模型难以对案件中事件时序、因果关系进行区分。
4.2 面向司法文本的事件关系种类划分
对司法案件中事件时序、因果关系进行抽取，首先需要对案件中事件关系进
行划分。总的来说，可以将事件关系分为时序关系和因果关系两大类。对于司法
34
案件中事件间的时序关系，根据事件发生的时间先后可以进一步分为：顺序时序
和同步时序，考虑顺序时序的方向性，又可以进一步将其细分为“BEFORE”关
系和“AFTER”关系，如图 4.1 所示，若第一次“争吵”事件作为头事件，第二
次“争吵”事件作为尾事件，此时两个“争吵”事件的时序关系应为“BEFORE”，
若相反，则两个“争吵”事件的时序关系应为“AFTER”。
图 4.1 事件时序关系示例
类似的，对于司法案件中事件间的因果关系，根据因果关系的方向性也可以
“CAUSE-EFFECT”和“EFFECT - CAUSE”，其中“CAUSE - EFFECT”
细分为两种：
关系表示原因在前，结果在后，而“EFFECT - CAUSE”则表示结果在前，原因
在后，如图 4.2 所示，若“拳打脚踢”作为头事件，
“受伤”作为尾事件，则两个
事件间的因果关系应为“CAUSE - EFFECT”，若相反，则两个事件间的因果关系
为“EFFECT - CAUSE”。
图 4.2 事件因果关系示例
综上，可以对司法案件中事件关系进行如下分类，如下表 4.1 所示，司法案

件中任意一个事件对的关系都可以用下表中的一种关系进行标注，司法案件事件
时序、因果关系抽取的目的是对司法案件中涉及的有序事件对进行关系分类。
35
表 4.1 司法案件事件关系划分
事件关系粗分类事件关系细分类事件关系标签
BEFORE
顺序时序关系
时序关系 AFTER
同步时序关系 MEANWHILE
原因-结果 CAUSE-EFFECT
因果关系
结果-原因 EFFECT - CAUSE
其他关系其他 OTHER
4.3 融合上下文和多尺度局部特征的案件事件时序因果关
系联合抽取模型
本章针对 4.1 节所述的问题，提出了一种融合上下文和多尺度局部特征的案

件事件时序因果关系联合抽取模型，整体架构如图 4.3 所示。首先，利用 BERT
获取司法案件描述文本的初始语义表示，这一部分与 3.3.1 节相同，本章不再详
细叙述。然后，分别通过 Bi-GRU 和多尺度卷积神经网络获取司法案件文本的上
下文语义特征和多尺度局部语义特征，其中多尺度卷积神经网络通过设置不同的
卷积核大小，获取不同粒度的案件文本局部语义特征，随后将司法案件上下文语
息。基于融合后的语义信息，分别构建事件因果关系、时序关系的编码器和解码
器，对案件自身语义特征中隐含的因果特征和时序特征进行放大，并通过三种不
同的共享参数策略实现因果特征和时序特征的关联，使时序、因果关系可以为彼
此的精准识别提供额外的语义信息。最终利用事件关系分类器实现对司法案件事
件时序、因果关系的识别。
4.3.1 司法案件上下文和多尺度局部语义特征获取
案件文本中存在隐式因果关系的事件之间虽然没有明显的因果指示词，但是
在文中会蕴含一定的隐性因果语义特征。并且案件文本中针对时序的表述主要存
在两种形式：****年**月**日，**时**分等具体时间表述；凌晨、下午、傍晚等
36
抽象时间表述，如何充分挖掘文本中不同类型、粒度的语义特征，对司法案件中
事件隐式因果关系识别和顺序、同步时序的区分具有重要意义。
图 4.3 融合上下文和多尺度局部特征的案件事件时序因果关系联合抽取模型
（1）案件文本上下文语义特征获取
针对案件文本上下文语义特征获取，本节使用 Bi-GRU 对司法案件描述文本
进行特征提取，分别经过前向和后向的 GRU 网络，获取司法案件经过描述文本
的上下文语义特征。GRU 网络语义状态更新的具体计算方式为：
𝑧𝑡 = 𝜎(𝑊𝑧 ∙ [ℎ𝑡−1 , 𝑥𝑡 ]) (4.1)
𝑟𝑡 = 𝜎(𝑊𝑟 ∙ [ℎ𝑡−1 , 𝑥𝑡 ]) (4.2)
ℎ̃𝑡 = tanh(𝑊 ∙ [𝑟𝑡 ∗ ℎ𝑡−1 , 𝑥𝑡 ]) (4.3)
ℎ𝑡 = (1 − 𝑧𝑡 ) ∗ ℎ𝑡−1 + 𝑧𝑡 ∗ ℎ̃𝑡 (4.4)
其中ℎ𝑡−1 为案件文本中第𝑡 − 1词的上下文语义信息，𝑥𝑡 为案件文本中第𝑡个
词的初始语义表示，ℎ𝑡 为案件文本中第𝑡个词的上下文语义信息，𝜎为激活函数。
𝑧𝑡 为更新门，𝑟𝑡 为重置门，𝑊𝑧 与𝑊𝑟 分别是两个门计算的权重。对于更新门，当其
37
值越大时，表示当前保留案件文本上下文语义信息越多，同时前一序列步保留案
件文本上下文语义信息越少。对于重置门来说，当其取值越小，表示要抛弃前一
序列步案件上下文语义信息越多，而更多保留当前输入词的语义特征。
将司法案件文本初始编码𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔作为 Bi-GRU 网络的输入，Bi-GRU 网
络由两个不同方向的 GRU 组成，分别从前向和后向学习司法案件文本的上下文
语义特征：
⃗⃗⃗⃗
ℎ𝑛 = 𝐺𝑅𝑈 ⃗⃗⃗⃗⃗⃗⃗⃗⃗
⃗⃗⃗⃗⃗⃗⃗⃗⃗ (ℎ 𝑛−1 , 𝑥𝑛 , 𝜃𝐺𝑅𝑈 ) (4.5)
⃖⃗⃗⃗⃗
ℎ𝑛 = 𝐺𝑅𝑈 ⃖⃗⃗⃗⃗⃗⃗⃗⃗⃗
⃖⃗⃗⃗⃗⃗⃗⃗⃗⃗(ℎ 𝑛−1 , 𝑥𝑛 , 𝜃𝐺𝑅𝑈 ) (4.6)
ℎ𝑛 = ⃗⃗⃗⃗
ℎ𝑛 ⨁ℎ⃖⃗⃗⃗⃗
𝑛 (4.7)
⃗⃗⃗⃗𝑛 和ℎ
其中ℎ ⃖⃗⃗⃗⃗
𝑛 分别代表前向和后向 GRU 在序列步长为 n 时的隐藏层语义表
示，𝜃𝐺𝑅𝑈 为 GRU 的网络参数，𝑥𝑛 表示司法案件文本中第 n 个词的初始化语义表

示。
（2）案件文本多尺度局部语义特征获取
图 4.4 基于多尺度卷积神经网络的案件文本多尺度局部特征获取
传统卷积神经网络（Convolutional Neural Network，CNN）[30]是一种基于生

物视野局部感受野而建立的神经网络，应用在图像领域上时可以很好的对图像上
的局部特征进行捕捉。当其应用在自然语言处理任务上时，对文本序列的局部语
义特征也有较好的表征能力。而只使用单个卷积核对司法案件文本进行处理，只
能获取司法案件中部分局部语义特征，不能充分挖掘司法案件文本中丰富的语义
38
特征，从而导致一些关键语义特征的缺失，其中也包括了隐性因果关系特征和时
序特征。
为了充分挖掘司法案件文本中不同粒度的局部语义特征，本节通过构建多尺
度卷积神经网络（Multiscale Convolutional Neural Network，MCNN）[13]，并设
置不同的卷积核大小，多尺度卷积神经网络特征学习机制如图 4.4 所示。
给定司法案件描述文本𝑇𝑒𝑥𝑡，经过 BERT 模型获取案件文本初始语义表示
𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔，并将其作为多尺度卷积神经网络的输入。首先对多尺度卷积神经网
络的卷积核集合𝐾进行定义，如下式 4.8 所示，其中𝑘𝑖 表示不同的卷积核，𝑛表示
卷积核数量。
𝐾 = {𝑘1 , 𝑘2 , 𝑘3 , … , 𝑘𝑛 } (4.8)
将司法案件文本的初始语义表示输入到卷积核𝑘𝑖 进行卷积操作，可得到案件
文本中词的局部特征𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑙𝑜𝑐𝑎𝑙_𝑖 ，如下式 4.9 所示。
𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑙𝑜𝑐𝑎𝑙_𝑖 = 𝜎(𝑊𝑖 𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔𝑡:𝑡+𝑗−1 + 𝑏𝑖 ) (4.9)
其中𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔𝑡:𝑡+𝑗−1为输入字向量的嵌入表示，𝑗为卷积核𝑘𝑖 的窗口大小，
𝑊𝑖 和𝑏𝑖 分别为多尺度卷积神经网络中不同卷积核大小对应卷积层的权重和偏置，
为可学习参数，𝜎(⋅)为激活函数。
利用上式 4.9 使卷积核集合中的所有卷积核作用于司法案件的初始语义表示，
可得到司法案件中的词不同粒度的局部语义特征𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑙𝑜𝑐𝑎𝑙 ，如下式 4.10 所示。
𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑙𝑜𝑐𝑎𝑙 = {𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑙𝑜𝑐𝑎𝑙1 , 𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑙𝑜𝑐𝑎𝑙2 , … , 𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑙𝑜𝑐𝑎𝑙𝑛 } (4.10)
由于𝑛个不同的卷积核即可形成𝑛个不同粒度的案件文本局部语义特征，若
直接将这𝑛个局部语义特征进行拼接，会造成词的局部语义特征维度过高。因此，
本节通过对局部语义特征𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑙𝑜𝑐𝑎𝑙 进行最大池化（Max Polling）操作，在保留
司法案件文本不同粒度局部语义特征的同时降低其维度，如下式 4.11 所示。
𝑚𝑎𝑥𝑙𝑜𝑐𝑎𝑙 = 𝑀𝑎𝑥𝑃𝑜𝑜𝑙𝑖𝑛𝑔(𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑙𝑜𝑐𝑎𝑙 ) (4.11)
对案件文本中词向量不同粒度的局部特征𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑙𝑜𝑐𝑎𝑙1 进行最大池化操作，
并经过全连接层以固定其输出的维度，最终获取中心词向量的多尺度局部语义特
征表示，如下式 4.12 所示。
𝐹𝑙𝑜𝑐𝑎𝑙 = {𝑚𝑎𝑥𝑙𝑜𝑐𝑎𝑙1 , 𝑚𝑎𝑥𝑙𝑜𝑐𝑎𝑙2 , … , 𝑚𝑎𝑥𝑙𝑜𝑐𝑎𝑙𝑛 } (4.12)
重复上述中心词向量的卷积过程，利用卷积集合𝐾扫描整个司法案件文本序
39
列获得整个司法案件描述文本的多尺度局部语义特征，如下式 4.13 所示。

𝐹𝑒𝑎𝑡𝑢𝑟𝑒𝑙𝑜𝑐𝑎𝑙 = {𝐹𝑙𝑜𝑐𝑎𝑙1 , 𝐹𝑙𝑜𝑐𝑎𝑙2 , 𝐹𝑙𝑜𝑐𝑎𝑙3 , … , 𝐹𝑙𝑜𝑐𝑎𝑙𝑛 } (4.13)
4.3.2 司法案件时序、因果关系编码与解码
在 4.3.1 节中只是在获取司法案件描述文本自身丰富的语义特征，并没有对
事件时序、因果语义特征进行充分挖掘。因此，本文分别构建案件事件因果关系
和时序关系的编码器和解码器，其中事件关系编码器用于学习司法案件中事件时
序、因果关系的语义特征表示，事件关系解码器用于将学习到的事件关系语义特
征表示与事件关系编码进行对应。
（1）案件事件关系编码器
本文利用 Bi-LSTM 作为司法案件事件时序、因果关系语义特征编码器，这
是由于 LSTM 主要被用于学习长期依赖问题，可以很好地对司法案件文本中的
依赖关系进行建模表示，并且由于 LSTM 引入了记忆单元，可以对司法案件文本
中的依赖特征进行自动更新和选择性忘记。LSTM 体系结构与标准 RNN 一样，
在每个序列步上，其输出都由𝑅 𝑑 中的一组门根据上一序列步的事件关系语义信
息ℎ𝑡−1 和当前序列步的输入𝑥𝑡 来控制：忘记门为𝑓𝑡 ，输入门𝑖𝑡 以及输出门𝑜𝑡 。
LSTM 通过使用这些门共同决定如何更新当前事件关系语义存储单元𝑐𝑡 和当前的
事件关系语义信息ℎ𝑡 。本文用𝑑表示 LSTM 中的所有事件关系语义记忆单元的维
度，对于 LSTM 单元，在 t 时刻其关系语义信息的更新过程如下式 4.14-4.19 所
示：
𝑓𝑡 = 𝜎(𝑊𝑓 ∙ [ℎ𝑡−1 , 𝑥𝑡 ] + 𝑏𝑓 ) (4.14)
𝑖𝑡 = 𝜎(𝑊𝑖 ∙ [ℎ𝑡−1 , 𝑥𝑡 ] + 𝑏𝑖 ) (4.15)
𝐶̃𝑡 = tanh(𝑊𝐶 ∙ [ℎ𝑡−1 , 𝑥𝑡 ] + 𝑏𝐶 ) (4.16)
𝐶𝑡 = 𝑓𝑡 ∗ 𝐶𝑡−1 + 𝑖𝑡 ∗ 𝐶̃𝑡 (4.17)
𝑜𝑡 = 𝜎(𝑊𝑜 ∙ [ℎ𝑡−1 , 𝑥𝑡 ] + 𝑏𝑜 ) (4.18)
ℎ𝑡 = 𝑜𝑡 ∗ tanh(𝐶𝑡 ) (4.19)
其中，ℎ𝑡−1 为上一时刻的事件关系语义隐藏层状态，𝑥𝑡 为当前时刻的输入，
𝑓𝑡 为遗忘门的值，𝑖𝑡 为输入门的值，𝐶𝑡 通过遗忘门与输入门对前一时刻事件关系
语义与当前的输入进行计算，得到当前时刻事件关系语义隐藏层状态。𝑜𝑡 为输出
40
门，计算当前时刻事件关系语义的输出比例，ℎ𝑡 为最终输出的事件关系语义特征。
对 4.3.1 节中获取的案件上下文和多尺度局部语义特征进行融合，并将其输
入到 Bi-LSTM 网络中，获取案件文本中事件时序或因果关系特征，具体计算方
式为：
⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗
𝑟𝑒𝑙_ℎ𝑛 = ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗
𝐿𝑆𝑇𝑀(𝑟𝑒𝑙_ℎ 𝑛−1 , [ℎ𝑛 ; 𝐹𝑙𝑜𝑐𝑎𝑙 ], 𝜃𝐿𝑆𝑇𝑀 ) (4.20)
⃖⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗
𝑟𝑒𝑙_ℎ ⃖⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ ⃖⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗
𝑛 = 𝐿𝑆𝑇𝑀(𝑟𝑒𝑙_ℎ𝑛−1 , [ℎ𝑛 ; 𝐹𝑙𝑜𝑐𝑎𝑙 ], 𝜃𝐿𝑆𝑇𝑀 ) (4.21)
𝑟𝑒𝑙_ℎ𝑛 = ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗
𝑟𝑒𝑙_ℎ𝑛 ⨁𝑟𝑒𝑙_ℎ ⃖⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗
𝑛 (4.22)
⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗𝑛 和𝑟𝑒𝑙_ℎ
其中𝑟𝑒𝑙_ℎ ⃖⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗
𝑛 分别代表前向和后向 LSTM 在 n 时刻的案件文本中事件
关系语义的隐藏层表示，𝜃𝐿𝑆𝑇𝑀 为 LSTM 的网络参数，[ℎ𝑛 ; 𝐹𝑙𝑜𝑐𝑎𝑙 ]表示对案件文本

的上下文语义特征和多尺度局部语义特征进行拼接融合。
（2）案件事件关系解码器
本节构建的解码器用于将学习到的案件事件关系语义特征𝑟𝑒𝑙_ℎ𝑛 转换成事
件关系的隐层表示𝑟𝑒𝑙，可简单用下式 4.23 表示。
𝑟𝑒𝑙 = 𝐷𝑒𝑐𝑜𝑑𝑒𝑟(𝑟𝑒𝑙ℎ 𝑛 ) (4.23)
在许多序列到序列（Sequence-to-Sequence）的自然语言处理任务中，例如序
列标注任务，原序列经过编码器或特征提取器后，可以获得原序列的中间隐藏层
表示，解码器的主要功能则是对中间隐藏层表示转换成对应的目标标注序列。而
司法案件事件关系识别任务不需要对案件文本中每个词进行标注，只需要输出一
个案件事件关系标签的概率得分。本文利用一个全连接层（Fully Connected Layer）
作为司法案件事件关系解码器，如下公式 4.24 所示，将编码器学习的事件关系
语义特征映射到司法案件样本事件关系标签表示空间，从而与案件事件关系标签
建立关联。
𝑟𝑒𝑙 = 𝜎(𝑊𝑟𝑒𝑙ℎ 𝑛 + 𝑏) (4.24)
其中𝑊和𝑏分别为全连接层的权重和偏置，为可学习参数，𝜎(⋅)为激活函数。
4.3.3 融合上下文和多尺度局部特征的案件事件时序因果关系联合抽取
目前大多数事件关系抽取研究工作都在独立研究事件因果关系抽取和时序
关系抽取，并没有考虑两者之间的关联性。本文将充分考虑时序关系和因果关系
41
之间的关联，并提出案件事件时序、因果关系联合抽取方法。
司法案件中事件间的时序、因果关系往往存在一定的关联，例如存在“因果”
关系的事件对肯定存在“顺序”时序关系，因为依据遵循事件发展过程规律，往
往是先有“因”才有“果”，例如下图 4.5 案例所示，
“责备”、
“污蔑”事件与“拿
起”（茶木棒）之间首先具备顺序时序关系，随后进一步分析发现两个事件之间
还存在因果关系，即“因为蔡某责备并污蔑了吴运桂，吴运桂才拿起茶木棒并打
了蔡某”。由此可见，具备因果关系的事件必定也存在一定的顺序时序关系，若
两个事件不存在顺序时序，则其一定也不存在因果关系。同样的，若两个事件存
在因果关系，则其一定不会是同步时序关系。基于上述分析，因果关系与时序关
系在一定程度上存在关联性，时序、因果关系的这种关联可为彼此的精确识别提
供额外的语义信息。本节提出了三种不同的共享参数策略，实现司法案件中事件
因果关系和时序关系的关联，并进行联合训练、学习，实现司法案件中事件时序、
因果关系的联合抽取。
图 4.5 司法案件中事件时序、因果关系抽取示例
在关系联合抽取领域，最先提出的是实体关系的联合抽取，例如 Zheng 等人
[79]利用共享神经网络隐藏层表示的方法来进行联合学习，对于编码后的隐藏层
向量，使用一个 LSTM 进行实体关系识别，而在关系预测时，需要根据命名实体
识别的结果对实体进行配对，然后对两实体间的文本序列使用一个 CNN 网络进
行关系分类。该方法通过底层模型的参数共享，在训练时两个任务都会通过后向
传播算法来更新共享参数，将命名实体识别和关系分类两个子任务进行关联，实
现了两者的联合学习与训练。
42
本文基于上述思想，对司法案件事件时序、因果关系进行联合抽取。将时序
关系抽取和因果关系抽取作为两个子任务𝑡𝑎𝑠𝑘𝑡𝑖𝑚𝑒 、𝑡𝑎𝑠𝑘𝑐𝑎𝑢𝑠𝑒 ，两个子任务之间
不存在先后顺序，而是同时进行。针对两个子任务之间的交互，本文选择了三种
不同的参数共享策略：1）共享编码层；2）共享解码层；3）共享编码层与解码
层。
（1）基于共享编码层的案件事件时序因果关系联合抽取
图 4.6 展示了基于共享编码层的案件事件时序因果关系联合抽取模型架构。
图 4.6 基于共享编码层的案件事件时序因果关系联合抽取模型
首先，案件中事件时序关系抽取任务和因果关系抽取任务分别利用各自的事
件关系编码器对案件文本自身语义特征进行处理，获取各自的事件关系语义特征，
如下式 4.25、4.26 所示：
𝑟𝑒𝑙𝑡𝑖𝑚𝑒 = 𝐸𝑛𝑐𝑜𝑑𝑒𝑟𝑡𝑖𝑚𝑒 ([ℎ𝑛 ; 𝐹𝑙𝑜𝑐𝑎𝑙 ]) (4.25)
𝑟𝑒𝑙𝑐𝑎𝑢𝑠𝑒 = 𝐸𝑛𝑐𝑜𝑑𝑒𝑟𝑐𝑎𝑢𝑠𝑒 ([ℎ𝑛 ; 𝐹𝑙𝑜𝑐𝑎𝑙 ]) (4.26)
其中事件关系编码器即为 4.3.2 小节中介绍的 Bi-LSTM 编码器，ℎ𝑛 为司法案
件上下文语义特征，𝐹𝑙𝑜𝑐𝑎𝑙 为司法案件多尺度局部语义特征。
然后，两个子任务分别共享自己的案件事件关系编码层状态，并与自己的编
码层状态进行拼接，生成联合关系语义特征，如下式 4.27、4.28 所示。
′
𝑟𝑒𝑙𝑡𝑖𝑚𝑒 = 𝑟𝑒𝑙𝑡𝑖𝑚𝑒 ⨁𝑟𝑒𝑙𝑐𝑎𝑢𝑠𝑒 (4.27)
43
′ (4.28)
𝑟𝑒𝑙𝑐𝑎𝑢𝑠𝑒 = 𝑟𝑒𝑙𝑐𝑎𝑢𝑠𝑒 ⨁𝑟𝑒𝑙𝑡𝑖𝑚𝑒
最后，利用各自的事件关系解码器对案件事件联合关系语义特征进行解码，
得到解码后的案件事件关系表示，如下式 4.29、4.30 所示。
′
𝑑𝑡𝑖𝑚𝑒 = 𝐷𝑒𝑐𝑜𝑑𝑒𝑟𝑡𝑖𝑚𝑒 (𝑟𝑒𝑙𝑡𝑖𝑚𝑒 ) (4.29)
′
𝑑𝑐𝑎𝑢𝑠𝑒 = 𝐷𝑒𝑐𝑜𝑑𝑒𝑟𝑐𝑎𝑢𝑠𝑒 (𝑟𝑒𝑙𝑐𝑎𝑢𝑠𝑒 ) (4.30)
（2）基于共享解码层的案件事件时序因果关系联合抽取
图 4.7 展示了基于共享解码层的案件事件时序因果关系联合抽取模型架构。
图 4.7 基于共享解码层的案件事件时序因果关系联合抽取模型
同样，分别利用事件时序关系编码器和因果关系编码器对案件文本自身语义
特征进行处理，获取各自的案件事件关系语义特征𝑟𝑒𝑙𝑡𝑖𝑚𝑒 和𝑟𝑒𝑙𝑐𝑎𝑢𝑠𝑒 ，如上式 4.25、
4.26 所示。
在解码时，案件事件时序关系和因果关系分别利用各自的事件关系解码器进
行解码，如下式 4.31、4.32 所示。
𝑑𝑡𝑖𝑚𝑒 = 𝐷𝑒𝑐𝑜𝑑𝑒𝑟𝑡𝑖𝑚𝑒 (𝑟𝑒𝑙𝑡𝑖𝑚𝑒 ) (4.31)
𝑑𝑐𝑎𝑢𝑠𝑒 = 𝐷𝑒𝑐𝑜𝑑𝑒𝑟𝑐𝑎𝑢𝑠𝑒 (𝑟𝑒𝑙𝑐𝑎𝑢𝑠 ) (4.32)
然后，两个子任务分别共享自己的解码层状态，并与自己的解码层状态进行
拼接，如下式 4.33、4.34 所示。
44
′
𝑑𝑡𝑖𝑚𝑒 = 𝑑𝑡𝑖𝑚𝑒 ⨁𝑑𝑐𝑎𝑢𝑠𝑒 (4.33)
′ (4.34)
𝑑𝑐𝑎𝑢𝑠𝑒 = 𝑑𝑐𝑎𝑢𝑠𝑒 ⨁𝑑𝑡𝑖𝑚𝑒
在最后进行司法案件事件关系分类时，利用全连接层对拼接后的解码层状态
进行事件关系的预测，如下式 4.35、4.36 所示。
′
𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑡𝑖𝑚𝑒 = 𝜎(𝑊𝑡𝑖𝑚𝑒 𝑑𝑡𝑖𝑚𝑒 + 𝑏𝑡𝑖𝑚𝑒 ) (4.35)
′
𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑐𝑎𝑢𝑠𝑒 = 𝜎(𝑊𝑐𝑎𝑢𝑠𝑒 𝑑𝑐𝑎𝑢𝑠𝑒 + 𝑏𝑐𝑎𝑢𝑠𝑒 ) (4.36)
其中𝑊𝑡𝑖𝑚𝑒 、𝑏𝑡𝑖𝑚𝑒 和𝑊𝑐𝑎𝑢𝑠𝑒 、𝑏𝑐𝑎𝑢𝑠𝑒 分别为两个子任务全连接层的权重和偏置，
𝜎(⋅)为激活函数。
（3）基于共享编码与解码层的案件事件时序因果联合抽取
图 4.8 展示了基于共享编码与解码层的案件事件时序因果关系联合抽取模型
架构。
图 4.8 基于共享编码与解码层的案件事件时序因果关系联合抽取模型
在经过各自事件关系编码器后，获取到各自事件关系语义特征表示𝑟𝑒𝑙𝑡𝑖𝑚𝑒 、
𝑟𝑒𝑙𝑐𝑎𝑢𝑠𝑒 后，两个子任务分别共享各自编码层状态，并进行拼接，生成联合关系语
′ ′
义表示𝑟𝑒𝑙𝑡𝑖𝑚𝑒 、𝑟𝑒𝑙𝑐𝑎𝑢𝑠𝑒 ，如上式 4.27、4.28 所示。
然后，利用各自的事件关系解码器进行解码，得到解码后的事件关系隐藏层
表示𝑑𝑡𝑖𝑚𝑒 和𝑑𝑐𝑎𝑢𝑠𝑒 。随后，两个子任务再共享自己的解码层状态，并与自己的解
45
码层状态进行拼接，如上式 4.33、4.34 所示。

同样地，在进行司法案件事件关系分类时，利用全连接层对拼接后的解码层
状态进行事件关系的预测，如上式 4.35、4.36 所示。
4.3.4 司法案件事件时序、因果关系联合抽取模型训练
为了训练司法案件事件时序、因果关系联合抽取模型的参数，本节将时序、
因果关系预测的损失函数进行组合，得到联合损失函数，如下式 4.37 所示。
𝑇 𝑇
𝑖 𝑖 𝑖 𝑖
𝑙𝑗𝑜𝑖𝑛𝑡 = −𝜆 ∑ log 𝑝(𝑦𝑡𝑖𝑚𝑒 |𝑥𝑡𝑖𝑚𝑒 ) − (1 − 𝜆) ∑ log 𝑝(𝑦𝑐𝑎𝑢𝑠𝑒 |𝑥𝑐𝑎𝑢𝑠𝑒 ) (4.37)
𝑖=1 𝑖=1
𝑖 𝑖
其中(𝑦𝑡𝑖𝑚𝑒 |𝑥𝑡𝑖𝑚𝑒 )表示司法案件事件关系抽取训练样本中第𝑖个样本对应的
𝑖 𝑖
时序关系类型标签，(𝑦𝑐𝑎𝑢𝑠𝑒 |𝑥𝑐𝑎𝑢𝑠𝑒 )表示司法案件事件关系抽取训练样本中第𝑖个
样本对应的因果关系类型标签。𝑇表示司法案件样本个数。𝜆是权重参数，用于平
衡时序关系抽取和因果关系抽取之间的损失平衡。
4.4.1 数据集标注
同样对对中国裁判文书网上的判决书进行结构化拆分，获取其中的法院查明
描述，并将其根据句子进行进一步切分，对句子中存在时序或因果关系的事件对
进行标注，具体标注格式如图 4.9 所示，该案例可标注出如下 7 条数据，其中时
序关系 5 条，因果关系 2 条。
46
图 4.9 司法案件事件时序、因果关系标注示例
该案例标注数据中，
“sent”字段表示案件经过描述文本，由于本章抽取的事
件时序和因果关系都存在方向性，因此需要对其中的头事件和尾事件进行标注，
其中“<e1>”和“</e1>”中间的字符表示头事件，
“<e2>”和“</e2>”中间的字
符表示尾事件。
“rel”字段中描述的头事件和尾事件之间的关系标签。
4.4.2 实验设置
在本章提出的融合上下文和多尺度局部特征的案件事件时序因果关系联合
抽取模型中，所有超参数设置如下：
1) 初始向量化表示阶段，设置 BERT 预训练语言模型输出的词向量维度为
762。
2) 利用 Bi-GRU 获取司法案件文本上下文语义特征阶段，设置 Bi-GRU 网
络的层数为 2，其维度为 512。
3) 利用多尺度卷积神经网络获取司法案件文本的多粒度局部语义特征阶段，
设置卷积集合 K 为：
𝐾 = {5,10,15,20} (4.38)
4) 在案件事件时序、因果关系特征编码阶段，设置 Bi-LSTM 网络的层数为
2，其维度为 512。
5) 在案件事件时序、因果关系特征解码阶段，设置全连接层的网络层数为
1，其维度为 256。
6) 在事件时序、因果关系预测阶段，设置全连接层的网络层数为 1，其维度
为案件事件关系标签总数 7。
7) 在所有使用激活函数的部分，除最后一步事件关系预测部分使用
𝑠𝑜𝑓𝑡𝑚𝑎𝑥激活函数外，其余部分均使用𝑅𝑒𝑙𝑢激活函数。
8) 模型中所有参数采用标准差为𝑁(0,0.01)的正态分布采用进行参数初始
化；训练时的 batch 大小为 16，利用反向传播算法（Backpropagation algorithm，
BP 算法）进行学习，通过 Adam 优化器进行优化训练，lr 设置为 0.0001，𝜆权重
平衡设置为 0.5。
47
4.4.3 实验结果与分析
（1）对比模型
为了验证本章所提模型的有效性，选取了 3 个对比模型进行比较：
CNN+Bi-GRU+CRF：郑巧夺等人[81]提出了基于双层 CNN-BiGRU-CRF 的
事件因果关系抽取模型，将事件关系抽取视为序列标注任务。该方法分别利用
CNN 和 Bi-GRU 获取文本的局部语义特征和上下文特征，并将其进行融合，然
后利用 CRF 获取事件关系标签间的依赖规则，确定最终预测标签序列，完成对
事件因果关系的识别。
Self-Attention+Bi-LSTM：Zhang 等人[67]提出了结合自注意力机制和神经网
络的事件时序关系识别模型，以事件句的最短依存路径序列作为模型的输入，首
先使用非线性子层（CNN 或 RNN）对模型的输入进行初步语义编码，然后利用
自注意力网络层来捕获非线性层输出中的全局信息，最后用一个𝑠𝑜𝑓𝑡𝑚𝑎𝑥层对事
件时序关系进行分类。
联合抽取方法：张义杰等人[82]提出了基于神经网络的事件时序与因果关系
联合抽取模型，该方法以依存路径序列作为模型的输入，将事件时序关系抽取作
为主任务，将事件因果关系抽取作为辅助任务，通过参数共享的方式实现因果关
系对时序关系的关联，最后分别利用关系分类器对时序和因果关系进行分类。
此外，由于本文在案件事件关系联合抽取阶段提出了三种不同的参数共享策
略，即共享编码层（Encoder Sharing），共享解码层（Decoder Sharing），共享编码
与解码层（Both Sharing），因此，本章对三种不同参数共享策略也进行了实验。
（2）实验结果
针对司法案件中事件时序、因果关系抽取任务，依旧使用准确率、召回率、
F1 对模型性能进行评价，准确率、召回率、F1 定义及计算方式见 3.4.2 小节。
表 4.2 展示了对比模型与三种基于参数共享策略的模型的实验结果。从表中
数据可以看出，与对比模型相比，本章所提的融合上下文和多尺度局部特征的案
件事件时序因果联合抽取模型在各项评价指标上均有提升。通过对比三种基于共
享参数模型的实验数据可以发现，基于共享编码和解码层的模型性能相对更优，
而仅共享编码层的模型性能相对较弱。
48
表 4.2 司法案件时序、因果关系联合抽取实验结果
CNN+Bi-GRU+CRF 0.521 0.438 0.476
Self-Attention+Bi-LSTM 0.493 0.469 0.481
Joint Method 0.628 0.542 0.582
Encoder Sharing 0.631 0.549 0.587
Decoder Sharing 0.649 0.548 0.594
Both Sharing 0.675 0.581 0.624
通过与两种事件单关系抽取模型（即表中 CNN+Bi-GRU+CRF 模型和 Self-
Attention+Bi-LSTM 模型）的比较发现，本文所提的融合上下文和多尺度局部特
征的案件事件时序因果关系联合抽取模型考虑了事件时序、因果关系间的关联，
将事件时序特征与事件因果特征进行融合，学习到了关联特征，使得模型在隐性
因果关系识别和顺序、同步时序区分任务上表现更佳。而与联合抽取模型（即表
中 Joint Method）比较发现，虽然该方法也考虑了事件时序和因果关系间的关联，
但是在前面特征构建阶段，并没有很好的对司法案件文本自身语义特征进行建模
表示，从而导致司法案件文本部分语义特征的缺失，因此该模型的性能相对较差。
通过本文所提三种基于参数共享模型的实验结果比较发现，共享编码和解码层的
策略由于综合考虑了案件事件关系语义特征在编码阶段和解码阶段的不同语义
信息，并都进行了事件关系特征融合，因此可以很好的将案件事件时序关系和因
果关系进行关联，起到辅助预测的作用。
4.5 本章小结
本章针对司法案件文本中事件隐式因果关系抽取困难，以及顺序时序和同步
时序关系难以区分的问题，提出了一种融合上下文和多尺度局部特征的案件事件
时序因果关系联合抽取模型。首先，分别通过 Bi-GRU 和多尺度卷积神经网络获
取司法案件文本的上下文序列语义特征和多尺度局部语义特征，其中多尺度卷积
神经网络通过不同卷积核大小，获取文本不同粒度的局部语义特征，然后将上下
文序列语义特征和多尺度局部语义特征进行融合，充分获取司法案件文本中丰富
的语义信息。然后，分别构建因果关系、时序关系的编码器和解码器，对案件自
身语义特征中隐含的因果特征和时序特征进行放大。为了保证因果关系和时序关
系的正确识别，考虑到“有因才有果”，即因果之间存在一定的顺序时序，本文
49
利用三种不同的共享参数策略实现时序特征和因果特征的关联，使得时序、因果
关系可以为彼此的准确预测提供额外的语义特征。最后，通过对比实验验证本章
所提模型的性能，实验结果验证了本章所提方法的有效性，在主要评价指标上均
优于对比模型。
50
第五章基于干扰信息语义弱化的案件实体关系和事
件关系抽取方法
5.1 问题提出
司法案件文本描述通常表现为长文本，其中的法院查明部分主要讲述了公诉
机关或检察院指控的事实，即案件发生经过描述。司法案件文书中的案件经过描
述信息详细的描述了案件发生的时间、地点、人物、事件等要素，其中也包含了
部分干扰信息。
干扰信息是指会对司法案件中实体关系抽取任务和事件关系抽取任务产生
负面影响的语句。干扰信息并不是指司法案件文本中完全无用的信息，司法案件
文本中的语句都有其存在价值，只是针对实体关系抽取和事件关系抽取任务，这
些干扰信息的存在会使得案件实体间关系特征和事件间关系特征变得模糊，因此
将其称为干扰信息，例如部分司法案件描述文本中存在部分语句既不存在案件实
体以及案件实体关系信息，也不存在案件事件关系信息。此类语句的存在会导致
案件实体关系抽取模型和案件事件关系抽取模型学习到干扰信息的语义特征，从
而增加了模型对案件实体关系和事件关系语义特征的识别难度，最终影响案件实
体关系和事件关系抽取精度。
图 5.1 为一个司法案例——许某某故意杀人案，其中蕴含了“来女士”、
“许
先生”等人物实体，“女儿”、“儿子”、“小女儿”等实体指代词，还有“结婚”、
“拒绝”、
“大吵”等事件。从该案例可分析出“许先生”作案动机有两点：其中
一点是“将房子作为儿子婚房被拒”，另外一点是“借钱炒股被拒”。对于中间绿
色部分文字描述，只是交代了案件发生的背景信息，并不存在任何案件实体关系
和事件关系信息，这类信息即为司法案件文本描述中的干扰信息。从案件文本中
分析可知，
“许先生”和“许某”是“父子关系”，由于干扰信息自身携带一定的
语义特征，导致模型在学习案件关系特征的同时也会学习到干扰信息的语义特征，
从而影响模型对“父子”关系的抽取。
51
图 5.1 含有干扰信息的司法案件示例
5.2 问题分析
针对上述司法案件中存在的干扰信息，为使其不影响关系抽取，最简单的解
决思路应当是直接从原始司法案件文本中删除该部分干扰信息，还是以图 5.1 所
示案件为例，删除后的文本描述如图 5.2 所示，删除后的案件描述中不包含该干
扰信息，模型也就不会学习到该部分语义信息，使得模型可以更为集中地学习案
件描述文本中的关系特征。虽然直接删除干扰信息的方法可以使模型将全部注意
力放在司法案件文本实体关系和事件关系语义特征的学习上，但是这种方法会造
成语义信息的缺失，直接删除后的案件描述虽然确实只包含了案件实体、实体关
系、事件关系，但是也表现出案件发生过程缺乏背景的支撑，丢失了部分语义信
息，导致模型学习的语义特征不连贯，也使得模型对案件实体关系和事件关系的
预测产生较大偏差。
通过上述分析，本章不采用直接删除干扰信息的方式降低其影响，而是提出
一种基于语义弱化的方式对干扰信息进行处理，即在保留干扰信息的语义特征的
基础上，通过一定的方式削弱干扰信息的语义特征。这样既不会导致案件背景语
义信息的缺失，还能起到弱化干扰信息语义的作用，使其仅仅为案件描述提供背
景语义支撑，而不会过多地干扰司法案件中实体关系抽取模型和事件时序、因果
关系联合抽取模型对关系语义特征的学习，减少干扰信息语义对司法案件中实体
关系和事件时序、因果关系联合抽取的影响，从而进一步提升模型对关系的抽取
性能。
52
图 5.2 删除司法案件中的干扰信息
5.3 基于干扰信息语义弱化的案件实体关系抽取方法
本章针对 5.1 节中所述的问题，提出了一种基于干扰信息语义弱化的案件实

体关系抽取方法，整体框架如图 5.3 所示。首先通过对案件文本进行分析，发现
“干扰信息中具有实体分布相对较少的特点”，并提出了基于实体分布的语义权
重计算方法，计算案件实体在文本中的概率分布，初步降低干扰信息的语义权重。
为了使模型更加注重对案件实体关系特征的学习，本文利用注意力机制进一步获
取干扰语句与实体关系特征的低关联权重，通过为干扰信息赋予较低的语义权重，
削弱其语义特征，使得案件实体关系抽取模型更加关注案件实体关系语义特征的
学习，从而进一步提升案件实体关系抽取的性能。
53
图 5.3 基于干扰信息语义弱化的案件实体关系抽取模型整体框架
5.3.1 基于实体分布的语义权重计算方法
司法案件文本描述中存在大量实体和实体关系，通过分析司法案件中实体及
关系的分布，可以发现“相较于非干扰信息，司法案件文本描述干扰信息中蕴含
的案件实体及关系较少”。依据这一发现，本节提出了基于实体分布的语义权重
计算方法，通过计算案件实体在案件文本中每个句子中的分布，为不同的句子分
配不同的语义权重，从而初步削弱干扰信息的语义表达，使案件实体关系抽取模
型更加注重对案件实体关系特征的学习。
首先对案件文本描述根据句子进行划分，如图 5.4 所示。句子划分的标准是
以句号、分号、问号、感叹号等标点符号为切分符，如下式 5.1 所示。
𝑇𝑒𝑥𝑡 = {𝑆1 , 𝑆2 , … , 𝑆𝑛 } (5.1)
54
图 5.4 案件文本句子切分
针对切分后的案件描述语句，统计每句话中所含案件实体的数量，得到每句
话的案件实体数量序列，如下式 5.2 所示，其中𝑁𝑖 表示案件文本描述第𝑖句话中案
件实体的数量。
𝑁𝑢𝑚𝑏𝑒𝑟_𝑒𝑛𝑡𝑖𝑡𝑦 = {𝑁1 , 𝑁2 , … , 𝑁𝑛 } (5.2)
基于案件实体数量序列，本文利用公式 5.3 得到司法案件文本描述每句话中
的案件实体分布。
𝑁𝑖
𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑛𝑡𝑖𝑡𝑦𝑖 = (5.3)
∑𝑛𝑗=1 𝑁𝑗
其中𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑛𝑡𝑖𝑡𝑦𝑖 表示司法案件文本描述第𝑖句话中案件实体分布，𝑛
表示司法案件文本描述中句子的总数量。
通过上述分析可知，若某句话中案件实体分布值𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑛𝑡𝑖𝑡𝑦𝑖 较大，
即意味着该句话中蕴含的案件实体较多，其案件实体关系语义特征也就比较丰富；
相反，若某句话中案件实体分布值𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑛𝑡𝑖𝑡𝑦𝑖 较小，则说明该句子中蕴
含案件实体较少，其案件实体关系语义特征较为匮乏。但是存在一种极端情况，
即若某句话中不存在任何案件实体，那么该句子的案件实体分布值为 0，若以 0
直接作为案件文本句子语义特征的权重会导致该句的语义信息完全丢失，从而导
致语义特征不连贯，影响案件实体关系抽取性能。因此，针对这种特殊情况，本
节对所有计算出的实际案件实体分布值为 0 的句子进行重新赋值。具体的，将这
些句子的案件实体分布值按如下式 5.4 进行重新赋值。
1 1
𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑛𝑡𝑖𝑡𝑦𝑖 = × , 𝑖 ∈ 𝑄_𝑒𝑛𝑡𝑖𝑡𝑦(𝑧𝑒𝑟𝑜) (5.4)
∑𝑛𝑗=1 𝑁𝑗 2
其中𝑛表示司法案件文本描述中句子的总数量，𝑄_𝑒𝑛𝑡𝑖𝑡𝑦(𝑧𝑒𝑟𝑜)表示由实际
案件实体分布值为 0 的句子构成的集合。该式的含义为：若某个句子的实际案件
55
实体分布值为 0，则将其的案件实体分布值重新赋值为单个案件实体占司法案件
文本描述中所有案件实体比例的一半。若案件文本中某个句子的案件实体分布值
为单个案件实体与总案件实体数量的比值，则意味着该句子中存在一个案件实体，
而对那些实际案件实体分布值为 0 的句子而言，对其赋值为单个案件实体与总案
件实体数量的二分之一，则意味着该句子不存在案件实体（因为是半个案件实体），
但是又保留了该句的语义信息，避免了赋值为 0 而造成的语义信息缺失问题。
基于上述计算得到的每个句子的案件实体分布，将司法案件文本中每个句子
的初始语义编码表示𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔与该句子的案件实体分布进行点乘运算，得到
加权后的句子初始语义编码表示，如下式 5.5 所示。
𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔𝑤𝑒𝑖𝑔ℎ𝑡𝑒𝑑 𝑠 = 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑛𝑡𝑖𝑡𝑦𝑠𝑖 ∙ 𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔𝑠𝑖 (5.5)
𝑖
其中𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑛𝑡𝑖𝑡𝑦𝑠𝑖 表示司法案件文本中第 𝑖 个句子的实体分布，
𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔𝑠𝑖 表示司法案件文本中第𝑖个句子经过 BERT 预训练语言模型后的初
始语义编码表示。
经过加权后的句子初始语义编码表示由于融合了案件实体分布，当句子中含
有的案件实体较多时，表示其中蕴含的案件实体关系特征越丰富，因此句子的加
权初始语义编码越大。而当句子中含有的案件实体较少时，表示其中蕴含的案件
实体关系特征越匮乏，所以句子的加权初始语义编码越小。而当句子中不存在案
件实体时，即该句子为干扰信息时，由于本文对案件实体分布为 0 的句子进行了
重新赋值，在经过加权语义编码表示后，干扰信息所在句子的语义表示会变得更
小，从而使模型降低了对干扰信息的关注度。
5.3.2 融合注意力机制的司法案件实体关系抽取
为了进一步削弱干扰信息的语义，本节利用句子级注意力机制获取干扰语句
与案件实体关系特征的低关联权重。注意力机制[14][83]是人类视觉的一种大脑
信号处理机制，人类视觉通过快速全局扫描图像，获得重点关注的目标区域，即
注意焦点，获取到该区域后会对该区域投入更多的注意力资源，以获取该目标区
域更多的细节信息，并对其他无用信息进行抑制。其工作原理是将案件文本数据
作为 Source，将案件文本中的构成元素想象成是由一系列的<Key,Value>数据对
56
构成，如图 5.5 所示。此时给定 Target 中的某个元素 Query，通过计算 Query 和

各个 Key 的相似性或者相关性，得到每个 Key 对应 Value 的权重系数，然后对
Value 进行加权求和，即可得到最终的注意力权重数值，如下式 5.6 所示。
𝐿𝑥
𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝑄𝑢𝑒𝑟𝑦, 𝑆𝑜𝑢𝑟𝑐𝑒) = ∑ 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝑄𝑢𝑒𝑟𝑦, 𝐾𝑒𝑦𝑖 ) ∗ 𝑉𝑎𝑙𝑢𝑒𝑖 (5.6)
𝑖=1
图 5.5 注意力机制[14]
其中𝐿𝑥 表示案件文本句子的数量。注意力机制的计算过程可以抽象为两个步
骤：首先，根据案件文本中句子的语义表示和案件实体关系编码计算语义权重，
即计算它们之间的相似性或相关性，并进行归一化处理；其次，根据语义权重系
数对案件中句子的语义表示进行加权求和。而根据案件文本中句子的语义表示
𝑄𝑢𝑒𝑟𝑦和案件实体关系编码𝐾𝑒𝑦𝑖 计算两者相似性或相关性存在三种不同的方法：
点积、余弦相似度和神经网络方法，它们的计算公式分别如下式 5.7、5.8、5.9 所
示：
𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝑄𝑢𝑒𝑟𝑦, 𝐾𝑒𝑦𝑖 ) = 𝑄𝑢𝑒𝑟𝑦 ∗ 𝐾𝑒𝑦𝑖 (5.7)
𝑄𝑢𝑒𝑟𝑦 ∗ 𝐾𝑒𝑦𝑖
𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝑄𝑢𝑒𝑟𝑦, 𝐾𝑒𝑦𝑖 ) = (5.8)
||𝑄𝑢𝑒𝑟𝑦|| ∗ ||𝐾𝑒𝑦𝑖 ||
𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝑄𝑢𝑒𝑟𝑦, 𝐾𝑒𝑦𝑖 ) = 𝑀𝐿𝑃(𝑄𝑢𝑒𝑟𝑦 ∗ 𝐾𝑒𝑦𝑖 ) (5.9)
然后将得到的语义权重用 Softmax 函数进行归一化处理，得到案件中所有句
子的语义权重，并且它们的和为 1，以突出重要元素的权重，具体计算公式如下
式 5.10 所示：
𝑒 𝑆𝑖𝑚𝑖
𝛼𝑖 = 𝑆𝑜𝑓𝑡𝑚𝑎𝑥(𝑆𝑖𝑚𝑖 ) = (5.10)
∑𝐿𝑗=1
𝑥
𝑒 𝑆𝑖𝑚𝑖
得到的𝛼𝑖 就是对应于𝑉𝑎𝑙𝑢𝑒𝑖 的权重系数，最后可以用加权求和得到 Attention

值，具体计算公式如下式 5.11 所示：
57
𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝑄𝑢𝑒𝑟𝑦, 𝑆𝑜𝑢𝑐𝑒) = ∑ 𝛼𝑖 ∗ 𝑉𝑎𝑙𝑢𝑒𝑖 (5.11)

𝑖=1
由于在司法案件中，干扰信息的存在往往以句子为单位。因此，本文使用句
子级别的注意力机制。基于句子级别的注意力机制，本文可以通过为司法案件文
本中的不同段落或句子赋予不同的注意力权重，对包含有重要信息或案件实体关
系的段落、句子赋予相对更高的注意力权重，而对那些属于干扰信息的语句则赋
予较低的注意力权重，以此使模型更多的注重司法案件文本中的案件实体关系语
义特征，提升模型整体的性能。
针对司法案件文本实体关系抽取，每个句子的注意力权重具体计算公式如下
式 5.12 所示：
𝑒𝑥𝑝(𝑒𝑖 )
𝛼𝑖 = (5.12)
∑𝑘 𝑒𝑥𝑝(𝑒𝑖 )
其中，𝑒𝑖 被称为能量函数，即上文提到的相似度𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦。通过该函数，可
以对司法案件中的每个句子和案件实体关系特征的关联程度进行打分。𝑒𝑖 越高表
示句子与案件实体关系特征的关联程度越大。而针对相似度𝑒𝑖 的计算，本节选择
使用神经网络的方法，通过双线性函数计算𝑒𝑖 ，如下式 5.13 所示：
𝑇
𝑒𝑖 = 𝑞𝑒𝑛𝑡𝑖𝑡𝑦 𝐴ℎ𝑠𝑖 (5.13)
其中，𝐴是加权对角矩阵，𝑞𝑒𝑛𝑡𝑖𝑡𝑦 是注意力机制中案件实体关系语义特征向
𝑇
量，𝑞𝑒𝑛𝑡𝑖𝑡𝑦 则是注意力机制中案件实体关系语义特征向量的转置，ℎ𝑠𝑖 是案件文本
中句子𝑠𝑖 的隐藏层表示。
基于上述注意力权重计算方法，可以得到司法案件中每个句子的注意力权重，
对司法案件文本描述所有句子进行加权求和，得到司法案件文本的整体语义表示，
如下式 5.14 所示。
ℎ𝑡𝑒𝑥 = 𝛼𝑖 ∗ ℎ𝑠𝑖 (5.14)
在对司法案件实体关系进行预测时，将头实体、尾实体与司法案件文本的整
体语义表示进行拼接，再通过案件实体关系分类器对头、尾实体间的关系进行分
类，如下式 5.15 所示。
𝑠𝑐𝑜𝑟𝑒(𝑒 ℎ𝑒𝑎𝑑 , 𝑒 𝑡𝑎𝑖𝑙 ) = 𝑙𝑜𝑔 ∑ (𝑊𝑟𝑒𝑙 [𝑥𝑖ℎ𝑒𝑎𝑑 ; 𝑥𝑗𝑡𝑎𝑖𝑙 ; ℎ𝑡𝑒𝑥𝑡 ] + 𝑏𝑟𝑒𝑙 ) (5.15)
𝑖∈𝐸 ℎ𝑒𝑎𝑑 ,𝑗∈𝐸 𝑡𝑎𝑖𝑙
58
其中𝐸 ℎ𝑒𝑎𝑑 和𝐸 𝑡𝑎𝑖𝑙 分别表示案件实体𝑒 ℎ𝑒𝑎𝑑 和𝑒 𝑡𝑎𝑖𝑙 的指称集合，𝑊𝑟𝑒𝑙 和𝑏𝑟𝑒𝑙 分别

为案件实体关系分类器的权重和偏置参数。
5.4 基于干扰信息语义弱化的案件事件关系抽取方法
图 5.6 基于干扰信息语义弱化的案件事件关系抽取模型整体框架
与司法案件实体关系抽取类似，本章提出了一种基于干扰信息语义弱化的案
件事件关系抽取方法，整体框架如图 5.6 所示。通过对司法案件文本描述进行分
析，发现干扰信息中具有事件分布相对较少的特点，提出基于事件分布的语义权
重计算方法，并利用句子级注意力机制进一步为司法案件文本描述的句子赋予不
同的注意力权重，并将该注意力权重融入到事件时序、因果关系联合抽取模型中，
通过为干扰信息赋予较低的语义权重，削弱其语义特征，使得模型更加关注事件
关系语义特征的获取，从而提升司法案件事件时序、因果关系抽取的整体性能。
首先对司法案件文本描述根据句子进行划分，划分的标准同样是以句号、分
号、问号、感叹号等标点符号为切分符，对司法案件文本描述进行划分，如下式
5.16 所示。
59
𝑇𝑒𝑥𝑡 = {𝑆1 , 𝑆2 , … , 𝑆𝑛 } (5.16)

然后统计每句话中所含事件的数量，得到每句话的事件数量序列，如下式
5.17 所示，其中𝑁𝑖 表示司法案件文本描述第𝑖句话中事件的数量。
𝑁𝑢𝑚𝑏𝑒𝑟_𝑒𝑣𝑒𝑛𝑡 = {𝑁1 , 𝑁2 , … , 𝑁𝑛 } (5.17)
基于事件数量序列，本文利用公式 5.18 得到司法案件文本描述每句话中的
事件分布，其中𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑣𝑒𝑛𝑡𝑖 表示司法案件文本描述第𝑖句话中事件的分布，
𝑛表示司法案件文本描述中句子的总数量。
𝑁𝑖
𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑣𝑒𝑛𝑡𝑖 = 𝑛 (5.18)
∑𝑗=1 𝑁𝑗
通过上述分析可知，若司法案件文本某句话中的事件分布值
𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑣𝑒𝑛𝑡𝑖 较大，即意味着该句话中蕴含的事件较多，事件间关系语义
特征也就比较丰富；相反，若案件文本某句话中事件分布值𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑣𝑒𝑛𝑡𝑖
较小，则说明该句子中蕴含事件较少，其事件关系语义特征较为匮乏。同样地，
若某句话中不存在任何事件，那么该句子的事件分布值为 0，若以此作为句子语
义特征的权重会导致该句的语义信息完全丢失，从而导致语义特征不连贯，影响
事件关系抽取性能。因此，本文对所有计算出的实际事件分布值为 0 的句子赋予
新的语义权重，将这些句子的事件分布值按如下式 5.19 进行赋值。
1 1
𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑣𝑒𝑛𝑡𝑖 = × , 𝑖 ∈ 𝑄_𝑒𝑣𝑒𝑛𝑡(𝑧𝑒𝑟𝑜) (5.19)
∑𝑛𝑗=1 𝑁𝑗 2
其中𝑛表示司法案件文本描述中句子的总数量，𝑄_𝑒𝑣𝑒𝑛𝑡(𝑧𝑒𝑟𝑜)表示由实际分
布值为 0 的句子构成的集合。该式的含义为：若某个句子的实际事件分布值为 0，
则将其的事件分布值重新赋值为单个事件与司法案件文本描述所有事件的比值
的一半。若某个句子的事件分布值为单个事件与总事件数量的比值，则意味着该
句子中存在一个事件，而对那些实际事件分布值为 0 的句子而言，对其赋值为单
个事件与总事件数量的比值的二分之一，则意味着该句子不存在事件（因为是半
个事件），但是又保留了该句的语义信息，避免了赋值为 0 而造成的语义信息缺
失问题。
基于上述计算得到的每个句子的事件分布，将司法案件文本中每个句子的初
始语义编码表示𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔与该句子的事件分布进行点乘运算，得到加权后的
60
句子初始语义编码表示，如下式 5.20 所示。

𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔𝑤𝑒𝑖𝑔ℎ𝑡𝑒𝑑 𝑠 = 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑣𝑒𝑛𝑡𝑠𝑖 ∙ 𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔𝑠𝑖 (5.20)
𝑖
其中 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑣𝑒𝑛𝑡𝑠𝑖 表示司法案件文本中第 𝑖 个句子的事件分布，
𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔𝑠𝑖 表示司法案件文本中第𝑖个句子经过 BERT 预训练语言模型后的初
始语义编码表示。
经过加权后的句子初始语义编码表示由于融合了事件分布，当句子中含有的
事件较多时，表示其中蕴含的事件时序、因果关系特征越丰富，因此句子的加权
初始语义编码越大。而当句子中含有的事件较少时，表示其中蕴含的事件时序、
因果关系特征越匮乏，所以句子的加权初始语义编码越小。而当句子中不存在事
件时，即该句子为干扰信息，由于本文对事件分布为 0 的句子进行了重新赋值，
在经过加权语义编码表示后，干扰信息所在句子的语义表示会变得更小，从而使
模型降低了对干扰信息的关注度。
而针对司法案件文本事件时序、因果关系抽取，每个句子的注意力权重具体
计算公式如下式 5.21 所示：
𝑒𝑥𝑝(𝑒𝑖 )
𝛼𝑖 = (5.21)
∑𝑘 𝑒𝑥𝑝(𝑒𝑖 )
其中，𝑒𝑖 被称为能量函数，即上文提到的相似度𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦。通过该函数，可
以对司法案件中的每个句子和事件时序、因果关系特征的匹配程度进行打分。𝑒𝑖
越高表示句子与事件时序、因果关系特征的关联程度越大。而针对相似度𝑒𝑖 的计
算，本文选择使用神经网络的方法，通过双线性函数计算𝑒𝑖 ，如下式 5.22 所示：
𝑇 (5.22)
𝑒𝑖 = 𝑞𝑒𝑣𝑒𝑛𝑡 𝐴ℎ𝑠𝑖
其中，𝐴是加权对角矩阵，𝑞𝑒𝑣𝑒𝑛𝑡 是注意力机制中事件时序、因果关系语义特
𝑇
征向量，𝑞𝑒𝑣𝑒𝑛𝑡 则是注意力机制中事件时序、因果关系语义特征向量的转置，ℎ𝑠𝑖
是句子𝑠𝑖 的隐藏层表示。
基于上述注意力权重计算方法，可以得到司法案件中每个句子的注意力权重，
对司法案件文本描述所有句子进行加权求和，得到司法案件文本的整体语义表示，
如下式 5.23 所示。
ℎ𝑡𝑒𝑥𝑡 = 𝛼𝑖 ∗ ℎ𝑠𝑖 (5.23)
在对司法案件中时序、因果关系进行预测时，分别将时序关系解码器的隐藏
61
层向量ℎ𝑡𝑖𝑚𝑒 和因果关系解码器的隐藏层向量ℎ𝑐𝑎𝑢𝑠𝑒 与司法案件整体语义表示进

行拼接，再分别由事件时序关系分类器和事件因果关系分类器进行关系预测，如
下式 5.24、5.25 所示。
𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑡𝑖𝑚𝑒 = 𝜎(𝑊𝑡𝑖𝑚𝑒 [ℎ𝑡𝑖𝑚𝑒 ; ℎ𝑡𝑒𝑥𝑡 ] + 𝑏𝑡𝑖𝑚𝑒 ) (5.24)
𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑐𝑎𝑢𝑠𝑒 = 𝜎(𝑊𝑐𝑎𝑢𝑠𝑒 [ℎ𝑐𝑎𝑢𝑠𝑒 ; ℎ𝑡𝑒𝑥𝑡 ] + 𝑏𝑐𝑎𝑢𝑠𝑒 ) (5.25)
其中𝑊𝑡𝑖𝑚𝑒 、𝑏𝑡𝑖𝑚𝑒 和𝑊𝑐𝑎𝑢𝑠𝑒 、𝑏𝑐𝑎𝑢𝑠𝑒 分别为两个子任务全连接层的权重和偏置，
𝜎(⋅)为激活函数。
5.5.1 案件实体关系抽取实验结果与分析
针对案件实体关系抽取实验，本节同样使用第三章中的数据集，并使用准确
率、召回率、F1 作为评价指标来衡量改进后的模型对司法案件实体关系抽取的
性能，具体计算方式见公式 3.19-3.21，并且使用同样的对比实验和消融实验，实
验结果如下表 5.1 所示。
表 5.1 案件实体关系抽取实验结果
Bi-LSTM+LSTM 0.775 0.761 0.768
GNN 0.393 0.389 0.391
Bi-GRU+CRF 0.772 0.765 0.768
Bi-GRU+GNN+CRF 0.779 0.762 0.770
Our model（第三章） 0.782 0.793 0.787
Our model（本章） 0.809 0.789 0.799
通过与对比实验和消融实验的结果比较，可以发现经过案件实体分布值计算，
并在司法案件实体关系预测中利用句子级注意力机制可以有效提升司法案件实
体关系抽取的准确率。通过为案件实体分布值大的司法案件描述句子分配较高的
语义权重，使其得到模型更多的注意力权重，从而可以更精确的挖掘司法案件中
存在的案件实体关系三元组，降低司法案件描述中干扰信息对案件实体关系抽取
的影响。然而通过比较弱化干扰信息语义后的模型与其他模型的召回率，可以发
现相比基线模型和消融实验模型，优化后的模型依旧有一定程度的提升。但是相
比第三章提出的基于远距离依赖特征和指称聚合的司法案件实体关系抽取模型
62
而言，召回率有一定程度的下降，这是由于在使用案件实体分布值时，由于为案
件实体分布较少的句子分配了较低的语义权重，因此导致该部分语句的语义特征
被削弱，导致在案件关系预测时可能无法抽取出该部分语句的案件实体关系，即
查全率会有所降低。
5.5.2 案件事件关系抽取实验结果与分析
（1）实验设置
针对案件事件关系抽取实验，本节使用 4.4.1 中描述的方法对数据集进行处
理，并同样使用准确率、召回率、F1 对模型性能进行评价，对比模型同样选用
4.4.3 中的模型。
在基于干扰信息语义弱化的案件事件关系抽取模型中，所有参数设置如下：
1) BERT 预训练语言模型输出的词向量维度为 762。
2) Bi-GRU 网络的层数为 2，维度为 512。
3) 多尺度卷积神经网络中，卷积集合 K 为：
𝐾 = {5,10,15,20} (5.26)
4) Bi-LSTM 网络的层数为 2，维度为 512。
5) 在案件事件关系特征解码阶段，全连接层的网络层数为 1，维度为 256。
6) 在案件事件关系预测阶段，全连接层的网络层数为 1，维度为关系标签
总数 7。
7) 在所有使用激活函数的部分，除最后一步案件事件关系预测部分使用
𝑠𝑜𝑓𝑡𝑚𝑎𝑥激活函数外，其余部分均使用𝑅𝑒𝑙𝑢激活函数。
8) 模型中所有参数采用标准差为𝑁(0,0.01)的正态分布采用进行参数初始
化；训练时的 batch 大小为 16，利用反向传播算法（Backpropagation algorithm，
BP 算法）进行学习，通过 Adam 优化器进行优化训练，lr 设置为 0.0001，𝜆权重
平衡设置为 0.5。
（2）实验结果
案件事件关系抽取实验结果如下表 5.2 所示。通过与对比模型的实验结果比
较，可以发现基于干扰信息语义弱化的案件事件关系抽取模型无论是准确率还是
63
召回率都有较大程度的提升。而通过与第四章提出的方法进行对比，虽然提升幅
度不大，但是使用了事件分布值，利用注意力机制为事件分布较多的语句给与更
高的注意力权重，而为事件分布较少的语句赋予较低的注意力权重，使模型更充
分学习事件间关系的关联特征，从而提升司法案件中事件间时序、因果关系识别
的准确率。并且相较于共享编码层策略和共享解码层策略，共享编码与解码层的
策略由于同时考虑了事件关系语义特征在编码阶段和解码阶段的不同语义信息，
并都进行了特征融合，因此具有更高的准确率和召回率。
表 5.2 案件事件关系抽取实验结果
CNN+Bi-GRU+CRF 0.521 0.438 0.476
Self-Attention+Bi-LSTM 0.493 0.469 0.481
Joint Method 0.628 0.542 0.582
Encoder Sharing（第四章） 0.631 0.549 0.587
Decoder Sharing（第四章） 0.649 0.548 0.594
Both Sharing（第四章） 0.675 0.581 0.624
Encoder Sharing（本章） 0.645 0.551 0.594
Decoder Sharing（本章） 0.651 0.558 0.601
Both Sharing（本章） 0.686 0.591 0.635
5.6 本章小结
本章针对司法案件中干扰信息语义信息造成案件实体关系和事件关系抽取
精度下降的问题，提出了基于干扰信息语义弱化的案件实体关系和事件关系抽取
方法。采用一种语义弱化的方式对干扰信息进行语义弱化，即通过案件实体、事
件的概率分布和句子级注意力机制在保留干扰信息的语义特征的基础上，削弱干
扰信息的语义特征。首先通过计算司法案件中的案件实体、事件分布值，在对文
本完成初始语义编码后依据案件实体和事件的概率分布为不同的句子赋予相应
的语义权重，然后利用句子级注意力机制进一步降低干扰语句的权重，以弱化这
些语句的语义特征，从而降低干扰信息对案件实体关系和事件关系抽取的影响，
提升案件实体关系抽取和事件关系抽取的准确率。最后，通过实验验证本章所提
模型的性能，实验结果表明本章所提方法相较于未弱化干扰信息语义的案件实体
关系和事件关系抽取模型，可以有效提升模型实体关系和事件关系识别的准确率。
64
第六章面向司法案件的实体关系与事件关系
抽取原型系统
6.1 应用背景
随着司法信息的公开化，海量司法数据中蕴含的案例信息和法律知识成为了
司法业务中的重要资源。然而，由于司法数据多以非结构化自然语言的形式记录
信息，需要利用文本挖掘技术对司法文本进行处理，充分挖掘其中的实体和关系
知识，帮助司法从业者快速掌握案情，理清案件发展过程以及犯罪分子的作案动
机，为后续的犯罪量刑、审理辩护等法律智能应用提供知识支撑。因此，本章将
前面章节提出的基于远距离依赖特征和指称聚合的司法案件实体关系抽取方法、
融合上下文和多尺度局部特征的案件事件时序因果关系联合抽取方法和基于干
扰信息语义弱化的案件实体关系和事件关系抽取方法应用到面向司法案件的实
体关系与事件关系抽取原型系统中，并构建案件实体关系图谱和事件关系图谱，
来帮助司法从业者快速阅读案件文本，掌握其中的人物关系，案件发展脉络以及
动机分析。
该系统以一审判决书中的法院查明文本描述数据为基础，根据第三章所提模
型从司法案件文本中抽取人物、车辆、凶器、毒品实体间的关系，根据第四章所
提模型从司法案件文本中获取事件间的时序和因果关系，根据第五章所提模型对
司法案件中的实体关系和事件关系进一步抽取，实现对司法案件实体关系和事件
关系的补充和校对，并构建司法案件实体关系图谱和事件关系图谱，帮助司法从
业者快速掌握案情，理清案件发展过程以及犯罪分子的作案动机，并为后续智能
量刑、审理辩护等提供知识支撑。
6.2 系统模块设计
基于面向司法领域的实体关系和事件关系挖掘方法研究，本文结合系统开发
流程，给出系统的整体框架图，如图 6.1 所示。
65
图 6.1 面向司法案件的实体关系与事件关系抽取原型系统框架图
在图 6.1 中，整个系统的构建主要分为四层：应用层（与用户的交互和关系
图谱可视化展示）、存储层（存储输入的司法案例文本和关系抽取三元组结果）、
数据处理层（对司法案例文本进行预处理以及对抽取结果进行合并）和知识获取
层（案件中实体关系抽取、事件关系抽取、基于干扰信息语义弱化的案件实体关
系和事件关系抽取）。下面对这四层进行介绍：
（1）应用层
应用层是整个应用系统的最上层，该层通过可视化界面与用户进行交互。在
输入阶段，用户通过应用层将司法案件文本输入到输入框中；在展示阶段，应用
层将系统处理、抽取的实体关系三元组和事件关系三元组进行可视化展示，并生
成实体关系图谱和事件关系图谱。
（2）存储层
存储层主要将用户输入的司法案件文本以及将模型抽取的实体关系和事件
关系三元组保存到数据库中。
（3）数据处理层
66
数据处理层有两个功能：其一是对用户输入的司法案例文本进行预处理，用
户输入的案例文本可能是判决书全文，针对关系抽取任务而言只需要其中的法院
查明的案件描述部分，因此，需要对判决书全文进行处理获取其中的法院查明描
述。其二是对第三章所提模型抽取的案件实体关系和第五章提出的基于干扰信息
语义弱化的司法案件实体关系抽取模型抽取出的案件实体关系、第四章所提模型
抽取的案件事件关系和第五章提出的基于干扰信息语义弱化的案件事件关系抽
取模型抽取的案件事件关系进行合并，实现对案件实体关系和事件关系抽取结果
的统一表示。
（4）知识获取层
知识获取层是应用系统的核心层，其中包括了本文第三章提出的基于远距离
依赖特征和指称聚合的司法案件实体关系抽取模型、第四章提出的融合上下文和
多尺度局部特征的案件事件时序因果关系联合抽取模型和第五章提出的基于干
扰信息语义弱化的案件实体关系和事件关系抽取模型，负责从输入的司法案件文
本中抽取案件实体关系和事件关系。
6.3 原型系统及其相关功能介绍
基于 6.2 节对应用原型系统模块的设计，本文开发了一套用户交互可视化系
统，从而帮助司法从业者快速掌握案件中人物、特定涉案物品间关系，理清事件
发展过程及因果关联。下面将依次介绍案件中实体关系抽取子模块功能和事件关
系抽取子模块功能。
图 6.2 展示了司法案件中实体关系抽取子模块中的文本输入页面，在该页面
主要完成以下功能：1）将用户输入的司法案件文本存储到数据库；2）判断输入
司法案件文本中是否含有“法院查明”字段，若存在该字段，则利用表 3.3 中正
则表达式获取“法院查明”字段，若不存在则返回错误信息。
67
图 6.2 司法案件实体关系抽取子模块—文本输入
图 6.3 展示了司法案件中实体关系抽取子模块中的抽取结果展示，主要完成
以下功能：1）分别利用第三章提出的司法案件实体关系抽取模型和第五章提出
的基于干扰信息语义弱化的司法案件实体关系抽取模型抽取“法院查明”字段中
的实体关系；2）对上述两个模型抽取的实体关系三元组进行合并；3）对抽取结
果使用了两种不同形式的展示：结构化文本形式和知识图谱形式。其中“结构化
知识”框中是抽取结果的结构化文本形式，以“头实体：”、
“尾实体：”
、“关系：”
的形式进行组织；而“实体知识图谱”框中是抽取结果的知识图谱形式，将抽取
出的实体关系对以图谱的形式进行组织。
图 6.3 司法案件实体关系抽取子模块—抽取结果展示
68
除此之外，考虑到模型始终会存在一定的误差，本文在系统设计时还提供了
人工校验功能，如图 6.4 所示。针对模型抽取错误的关系，用户可以人为对抽取
的实体和关系分别进行修改，提交修改后会依据用户修改的关系三元组对结果进
行更新，从而实现人工校对。
图 6.4 司法案件实体关系抽取子模块—人工校验
图 6.5 司法案件事件时序、因果关系抽取子模块—文本输入
图 6.5 展示了司法案件中事件关系抽取子模块中的文本输入页面，在该页面
也主要完成两个功能：1）将用户输入的司法案件文本存储到数据库中；2）获取
其中的“法院查明”字段。
图 6.6 展示了司法案件中事件时序、因果关系抽取子模块中的抽取结果，主
69
要完成以下功能：1）分别利用第四章提出的司法案件事件时序、因果关系抽取
模型和第五章提出的基于干扰信息语义弱化的事件时序、因果关系联合抽取模型
抽取“法院查明”字段中的事件时序、因果关系；2）对上述两个模型抽取的事
件关系三元组进行合并；3）同样对抽取结果使用了两种不同形式的展示：结构
化文本形式和知识图谱形式。其中“结构化知识”框中是抽取结果的结构化文本
形式，以“头事件：”、“尾事件：”、“关系：”的形式进行组织；而“实体知识图
谱”框中是抽取结果的知识图谱形式，将抽取出的事件关系对以图谱的形式进行
组织。
图 6.6 司法案件事件时序、因果关系抽取子模块—抽取结果展示
同样地，针对事件时序、因果关系抽取，也设置了人工校验功能，如图 6.7
中“结构化知识（人工校验后）”框中所示。
70
图 6.7 司法案件事件时序、因果关系抽取子模块—人工校验
6.4 本章小结
本章将面向司法领域的司法案件中实体关系和事件关系挖掘方法研究应用
到实际场景中，主要介绍了面向司法案件的实体关系与事件关系抽取原型系统的
整体框架及其组成：应用层、存储层、数据处理层和知识获取层，其中应用层主
要负责与用户的交互以及可视化展示。存储层主要负责存储用户输入的案例文本
以及模型抽取的实体关系和事件关系结果。数据处理层则对用户输入的司法案件
文本进行预处理，获取其中“法院查明”字段，并对抽取结果进行合并。知识获
取层主要包括了第三、四、五章提出的模型，对案例文本中的实体关系和事件关
系进行抽取。通过对本文开发的原型系统进行效果展示，验证了本文所提出的模
型在实际生产中的可行性和实用性。
71
第七章总结与展望
7.1 结论
“法律智能”是我国司法领域发展的一个大方向，依托人工智能技术来辅助
司法从业人员完成各项审理业务。随着司法信息公开化的加强，海量司法数据中
蕴含的案例信息和法律知识成为了司法业务中的重要资源。然而，由于司法数据
多由自然语言记录信息，难以直接进行理解并获取知识。因此，面向司法领域的
案件实体关系和事件关系抽取对“法律智能”研究具有重要意义，可以提升司法
人员的工作效率，并为案件理解、司法问答、案件智能判罚等提供支撑。
不同于开放领域的实体关系和事件关系抽取任务，司法文本中案件实体关系
和事件关系更为隐晦和复杂，使得对其进行案件实体关系和事件关系抽取更具挑
战性。案件文本中实体分布比较离散，具有关系的实体可能分布在不同的句子中，
造成模型难以对远距离实体间的依赖特征进行建模，进而难以识别远距离实体关
系。案件文本中缺乏显式因果关系指示词，造成模型难以学习到事件间的隐式因
果语义特征，导致模型无法准确识别司法案件中事件间隐式因果关系。案件文本
中存在部分干扰信息，使得模型在学习关系语义特征的同时，会混入部分干扰语
句的语义信息，导致模型对关系识别的精度下降。为了满足司法领域对于案件实
体关系和事件关系识别的高标准要求，提升关系识别准确率，面临以下三个问题：
1）如何构建案件实体远距离关联特征，对司法案件远距离实体关系进行抽取，
同时减少错误和重复关系三元组的产生，提高案件实体关系识别的准确率。2）
如何充分挖掘案件文本语义特征，对事件隐式因果关系进行抽取，并对顺序时序
和同步时序关系进行区分，提高案件中事件关系识别的准确率。3）如何在保证
不缺失案件背景语义的条件下，削弱干扰语句的语义信息，进一步提升案件实体
关系和事件关系的准确率。针对这三个研究问题，本文对面向司法案件的实体关
系和事件关系抽取方法及其应用进行了研究，本文的总结如下：
1) 本文在第三章提出了基于远距离依赖特征和指称聚合的司法案件实体关
系抽取方法。首先通过对司法案件文本进行句法分析，初步获取句内、句间的依
72
存句法特征，并构建依存句法图，然后通过在图神经网络上传播改进后的依存句
法特征，可以获取实体间的较强的远距离依赖特征，并通过两个实体表示空间将
指称表示转换为实体表示，从而实现司法案件文本中远距离实体关系的抽取。实
验结果表明，本文提出的抽取模型可以有效获取跨句实体的远距离关系特征，并
且可以减少重复三元组的产生，具有更高的准确率和召回率。
2) 本文在第四章提出了融合上下文和多尺度局部特征的案件事件时序因果
关系联合抽取模型。首先，分别通过 Bi-GRU 和多尺度卷积神经网络获取司法案
件文本的上下文序列语义特征和多尺度局部语义特征，其中多尺度卷积神经网络
通过不同卷积核大小，获取文本不同粒度的局部语义特征，然后将上下文序列语
息。然后，分别构建因果关系、时序关系的编码器和解码器，对案件自身语义特
征中隐含的因果特征和时序特征进行放大。为了保证因果关系和时序关系的正确
识别，考虑到“有因才有果”，即因果之间存在一定的顺序时序，本文利用三种
不同的共享参数策略实现时序特征和因果特征的关联，使得时序、因果关系可以
为彼此的准确预测提供额外的语义特征。实验结果表明，本文提出的融合上下文
和多尺度局部特征的案件事件时序因果关系联合抽取模型能够有效解决司法案
件文本隐性因果关系识别难的问题，并且在顺序时序和同步时序的识别上也有较
好的表现。
3) 本文在第五章提出了基于干扰信息语义弱化的案件实体关系和事件关系
抽取方法，通过分析实体和事件在司法案件文本中分布与干扰信息的关联，计算
实体、事件在案件中每句话的概率分布，从而降低干扰信息的语义权重。为了使
模型更加注重对关系特征的学习，本文利用句子级注意力机制进一步获取干扰语
句与关系特征的低关联权重值，使模型对干扰信息语义的学习能力下降，而尽可
能地学习关系特征，从而提升关系识别的正确率。实验结果表明，本文提出的基
于干扰信息语义弱化的案件实体关系和事件关系抽取方法可以有效减弱干扰语
句的语义特征，有效提升了模型对司法案件实体关系和事件关系的识别能力。
4) 本文在第六章基于以上三章的研究成果，开发了面向司法案件的实体关
系与事件关系抽取原型系统，从司法领域的实际需求出发，验证本文研究的合理
性和有效性。
73
7.2 展望
本文针对司法领域，提出面向司法案件的实体关系和事件关系抽取方法。通
过实验分析验证，本文的方法取得了一定的效果，但在某些方面仍存在一些值得
改进和深入研究的工作：
一是在面向司法案件远距离实体关系抽取任务上，本文提出基于远距离依赖
特征和指称聚合的司法案件实体关系抽取模型，在图神经网络上传播句法依存关
联，并结合全局序列语义特征，实现远距离依赖特征获取，但是随着距离的进一
步加大，图神经网络上传播的语义特征也会有所减弱，导致更远距离的实体关系
难以获取。因此，下一步可以研究如何避免图神经网络上传播语义特征的弱化，
或是通过语义增强方法进一步增强远距离语义依赖特征。
二是在面向司法案件事件时序、因果关系联合抽取任务上，本文提出融合上
下文特征和多尺度局部特征的事件时序、因果关系联合抽取模型，虽然在联合抽
取中具有显著的提升，但是针对复杂司法案件中存在的一因多果、多因一果等关
系无法进行准确区分。因此，下一步可以研究如何利用领域专家知识挖掘复杂司
法案件中蕴含的更为丰富的因果关系，生成更为全面的案情动机网络。
三是在构建司法领域数据集时，无论是司法案件实体关系抽取还是事件时序、
因果关系抽取，都需要耗费大量的人工成本，并且会受到罪名的限制。因此，下
一步可以研究借助远程监督的思想减少人工标注量，或者是利用元学习等方法实
现模型的迁移学习。
74
参考文献
[1] 张诗曼 , 姚天冲 . 管窥人工智能换脸技术的法律风险与防范 [J]. 法制与社
会,2020(19):4-7.DOI:10.19387/j.cnki.1009-0592.2020.07.002.
[2] 项威. 事件知识图谱构建技术与应用综述[J].计算机与现代化,2020(01):10-16.
[3] Qin Y, Yang W, Wang K, et al. Entity Relation Extraction Based on Entity Indicators[J].
Symmetry, 2021, 13(4): 539.
[4] Fei H, Zhang Y, Ren Y, et al. A span-graph neural model for overlapping entity relation
extraction in biomedical texts[J]. Bioinformatics, 2021, 37(11): 1581-1589.
[5] Wang X, Yang R, Feng Y, et al. A Military Named Entity Relation Extraction Approach
Based on Deep Learning[C]. Proceedings of the 2018 International Conference on
Algorithms, Computing and Artificial Intelligence. 2018: 1-6.
[6] Li Z, Li Q, Zou X, et al. Causality extraction based on self-attentive BiLSTM-CRF with
transferred embeddings[J]. Neurocomputing, 2021, 423: 207-219.
[7] Zhao S, Liu T, Zhao S, et al. Event causality extraction based on connectives analysis[J].
Neurocomputing, 2016, 173: 1943-1950.
[8] Pichl L, Kaizoji T. Computational intelligence methods for data mining of causality extent
in the time series[J]. International Journal of Computational Science and Engineering,
2018, 16(4): 411-418.
[9] 王俊,史存会,张瑾,俞晓明,刘悦,程学旗. 融合上下文信息的篇章级事件时序关系抽
取方法[J]. 计算机研究与发展,2021,58(11):2475-2484.
[10] 张义杰,李培峰,朱巧明.基于自注意力机制的事件时序关系分类方法[J].计算机科
学,2019,46(8):244-248.
[11] Deng C, Lai G, Deng H. Improving word vector model with part-of-speech and
dependency grammar information[J]. CAAI Transactions on Intelligence Technology,
2020, 5(4): 276-282.
[12] Zhao K, Huang L, Song R, et al. A Sequential Graph Neural Network for Short Text
Classification[J]. Algorithms, 2021, 14(12): 352.
[13] Wang Y, Ning D, Feng S. A novel capsule network based on wide convolution and multi-
scale convolution for fault diagnosis[J]. Applied Sciences, 2020, 10(10): 3659.
[14] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural
information processing systems, 2017, 30.
[15] Hearst M A. Automatic Acquisition of Hyponyms from Large Text Corpora[C].
Proceedings of the 14th Conference on Computational Linguistics-Volume 2.Association
for Computational Linguistics, 1992: 539-545
[16] Wang W, Thomas C, Sheth A, et al. Pattern-based Synonym and Antonym Extraction[C].
75
Proceedings of the 48th Annual Southeast Regional Conference. 2010: 1- 4.

[17] Aone C, Ramos-Santacruz M. REES: a large-scale relation and event extraction
system[C]. Proceedings of the sixth conference on Applied natural language processing,
2000: 76-83.
[18] Cunningham H, Maynard D, Bontcheva K, et al. GATE: an architecture for development
of robust HLT application[C]. Proceedings of the 40th annual meeting on association for
computational linguistics, 2002: 168-175.
[19] Yu H, Agichtein E. Extracting Synonymous Gene and Protein Terms from Biological
Literature[J]. Bioinformatics, 2003, 19(1): 340-349.
[20] Sheth, Amit, et al. Pattern-based Synonym and Antonym Extraction[C]. Proceedings of
the 48th Annual Southeast Regional Conference, Oxford, MS, USA, 2010:64
[21] Snow R, Jurafsky D, Ng A Y. Learning Syntactic Patterns for Automatic Hypernym
Discovery[C]. Advances in Neural Information Processing Systems. 2005: 1297-1304.
[22] Humphreys K, Gaizauskas R, Azzam S, Huyck C, Mitchell B, Cunningham H, Wilks Y.
University of Sheffield: Description of the LaSIE-II system as used for MUC-7[C]. In
Seventh Message Understanding Conference (MUC-7): Proceedings of a Conference
Held in Fairfax, Virginia, April 29-May 1, 1998 1998.
[23] Kambhatla N. Combining lexical, syntactic, and semantic features with maximum entropy
models for extracting relations[C]. Proceedings of the ACL 2004 on Interactive poster and
demonstration sessions, 2004: 22-es.
[24] Guodong Z, Jian S, Jie Z, et al. Exploring various knowledge in relation extraction[C].
Proceedings of the 43rd annual meeting on association for computational linguistics, 2005.
[25] Xia S, Lehong D. Feature-based Approach to Chinese Term Relation Extraction[C]. In
2009 International Conference on Signal Processing Systems 2009 May 15 (pp. 410-414).
IEEE.
[26] Miao Q, Zhang S, Zhang B, Yu H. Extracting and visualizing semantic relationships from
Chinese biomedica text[C]. Proceedings of the 26th Pacific Asia Conference on Language,
Information, and Computation 2012 (pp. 99-107).
[27] Zelenko D, Aone C, Richardella A. Kernel Methods for Relation Extraction[C].
Proceedings of the 2002 Conference on Empirical Methods in Natural Language
Processing (EMNLP 2002), 2002: 71-78.
[28] Zhan Min, Zhang Jie, Su Jian. Exploring syntactic feature for relation extraction using a
convolution tree kernel[C]. Pro of Main Conference on Human Language Technology
Conference of the North American Chapter of the Association of Computational
Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2006:288-295.
[29] Mooney R J, Bunescu R C. Subsequence kernels for relation extraction[C]. Advances in
neural information processing systems, 2006: 171-178.
76
[30] Liu C, Sun W, Chao W, et al. Convolution neural network for relation extraction[C].
International Conference on Advanced Data Mining and Applications, 2013: 231-242.
[31] Socher R, Huval B, Manning C D, et al. Semantic compositionality through recursive
matrix-vector spaces[C]. Proceedings of Joint Conference on Empirical Methods in
Natural Language Processing and Computational Natural Language Learning.
Stroudsburg, PA: Association for Computational Linguistics, 2012: 1201-1211.
[32] Zeng Daojian, Liu Kang, Lai Siwei, et al. Relation classification via convolutional deep
neural network[C]. Proceedings the 25th International Conference on Computational
Linguistics. 2014: 2335-2344.
[33] Nguyen T H, Grishman R. Relation extraction: perspective from convolutional neural
networks[C]. Proceedings of the 1st Workshop on Vector Spac Modeling for Natural
Language Processing. 2015: 39-48.
[34] dos Santos C, Xiang B, Zhou B. Classifying Relations by Ranking with Convolutional
Neural Networks[C]. Proceedings of the 53rd Annual Meeting of the Association for
Computational Linguistics and the 7th International Joint Conference on Natural
Language Processing (Volume 1: Long Papers). 2015: 626-634.
[35] Ye H, Chao W, Luo Z, et al. Jointly Extracting Relations with Class Ties via Effective
Deep Ranking[C]. Proceedings of the 55th Annual Meeting of the Association for
Computational Linguistics (Volume 1: Long Papers). 2017: 1810-1820.
[36] Xu K, Feng Y, Huang S, et al. Semantic Relation Classification via Convolutional Neural
Networks with Simple Negative Sampling[C]. Proceedings of the 2015 Conference on
Empirical Methods in Natural Language Processing. 2015: 536-540.
[37] Zeng W, Lin Y, Liu Z, et al. Incorporating Relation Paths in Neural Relation Extraction[C].
Proceedings of the 2017 Conference on Empirical Methods in Natural Language
Processing. 2017: 1768-1777.
[38] Lin Yankai, Shen Shiqi, Liu Zhiyuan, et al. Neural relation extraction with selective
attention over instances[C]. Proceedings of the 54th Annual Meeting of the Association
for Computational Linguistics. 2016: 2124-2133.
[39] Cai Rui, Zhang Xiaodong, Wang Houfeng. Bidirectional recurrent convolutional neural
network for relation classification[C]. Proceedings of the 54th Annual Meeting of the
Association for Computational Linguistics. 2016: 756-765.
[40] Ebrahimi J, Dou D. Chain based RNN for relation classification[C]. Proceedings of the
2015 Conference of the North American Chapter of the Association for Computational
Linguistics: Human Language Technologies, 2015: 1244-1249.
[41] Zhang S, Zheng D, Hu X, et al. Bidirectional Long Short-Term Memory Networks for
Relation Classification[C]. Proceedings of the 29th Pacific Asia Conference on Language,
Information and Computation, 2015: 73-78.
77
[42] Kaplan R M, Berry-Rogghe G. Knowledge-Based Acquisition of Causalityships in Text

[J]. Knowledge Acquisition,1991,3(3):317-337.
[43] Khoo, C.S.G, Kornf ilt, J, ect. A utomatic information from newspaper text without
extraction of cause-effect knowledge-based inferencing[J]. Literary and Linguistic
Computing, 1998,13(4):177-186.
[44] Bethard S, Corvey W, Klingenstein S, et al. Building a Corpus of Temporal-Causal
Structure[C]. Proceedings of the 6th International Conference on Language Resources and
Evaluation. Marrakech, Morocco: European Language Resources Association, 2008: 908-
915.
[45] Bethard S, Martin J H. Learning semantic links from a corpus of parallel temporal and
causal relations[C]. Proceedings of ACL-08: HLT, Short Papers (Companion Volume).
Columbus, Ohio, USA: Association for Computational Linguistics, 2008: 177-180.
[46] Mostafazadeh N, Grealish A, Chambers N, et al. CaTeRS: Causal and Temporal Relation
Scheme for Semantic Annotation of Event Structures[C]. Proceedings of the 4th
Workshop on Events: Definition, Detection, Coreference, and Representation. San Diego,
California: Association for Computational Linguistics, 2016: 51-61.
[47] Mirza P, Tonelli S. CATENA: CAusal and TEmporal relation extraction from NAtural
language texts[C]. Proceedings of COLING 2016, the 26th International Conference on
Computational Linguistics: Technical Papers. Osaka, Japan: Association for
Computational Linguistics, 2016: 64-75.
[48] 黄一龙，李培峰，朱巧明. 事件因果与时序关系识别的联合推理模型[J].计算机科学，
2018,45(6):204-207+234.
[49] Ning Q, Feng Z, Wu H, et al. Joint Reasoning for Temporal and Causal Relations[C].
Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics
(Long Papers), Melbourne, Australia: Association for Computational Linguistics,
2018:2278-2288.
[50] 田生伟，周兴发，禹龙，等.基于双向 LSTM 的维吾尔语事件因果关系抽取[J]. 电子
与信息学报，2018,40(1):200-208.
[51] 闻畅，刘宇，顾进广.基于注意力机制的双向长短时记忆网络模型突发事件演化关
系抽取[fJl. 计算机应用，2019,39(6):1646-1651.
[52] S. Zhao, T. Liu, S. Zhao, et al. Event causality extraction based on connectives analysis[J].
Neurocomputing, 2016, 173: 1943-1950.
[53] Q. X. Do, Y. S. Chan, D. Roth. Minimally supervised event causality identification[C].
Association for Computational Linguistics, Portland, 2011: 294-303.
[54] E. Riccomagno, J. Q. Smith. The causal manipulation of chain event graphs[J]. arXiv
preprint arXiv:0709.3380, 2007.
78
[55] S. Acharya, B. S. Lee. Incremental causal network construction over event streams[J].
Information Sciences, 2014, 261: 32-51.
[56] C. Kruengkrai, K. Torisawa, C. Hashimoto, et al. Improving event causality recognition
with multiple background knowledge sources using multi-column convolutional neural
networks[C]. Thirty-First AAAI Conference on Artificial Intelligence, San Francisco,
2017, 48-75.
[57] 付剑锋,刘宗田,刘炜,等.基于层叠条件随机场的事件因果关系抽取[J].模式识别与人
工智能,2011,24(4):567-573.
[58] Daniel Marcu and Abdessamad Echihabi. An unsupervised approach to recognizing
discourse relations[C]. Proceedings of the 40th Annual Meeting of the Association for
Computational Linguistic, 2002: 368-375.
[59] Inderjeet Mani, Marc Verhagen, Ben Wellner, et al. Machine Learning of Temporal
Relations[C]. Proceedings of the 21 st International Conference on Computational
Linguistics and 44th Annual Meeting of the ACL, 2006: 753-760.
[60] Nathanael Chambers, Shan Wang, and Dan Jurafsky. Classifying Temporal Relations
between Events[C]. Proceedings of the ACL 2007 Demo and Poster Sessions, 2007:173-
176.
[61] Inderjeet Mani, Ben Wellner, Marc Verhagen, et al. Three Approaches to Learning
TLINKS in TimeML[R]. Computer Science Department, 2007.
[62] Nathanael Chambers and Dan Jurafsky. Jointly Combining Implicit Constraints Improves
Temporal Ordering[C]. Proceedings of the 2008 Conference on Empirical Methods in
Natural Language Processing, 2008: 698-706.
[63] Peifeng Li, Qiaoming Zhu, Guodong Zhou, et al. Global Inference to Chinese Temporal
Relation Extraction[C]. Proceedings of COLING 2016, the 26th International Conference
on Computational Linguistics: Technical Papers, 2016: 1451-1460.
[64] Quang Xuan Do, Wei Lu, and Dan Roth. Joint Inference for Event Timeline
Construction[C]. Proceedings of the 2012 Joint Conference on Empirical Methods in
Natural Language Processing and Computational Natural Language Learning, 2012:677-
687.
[65] Yan Xu, Ran Jia, Lili Mou, et al. Improved Relation Classification by Deep Recurrent
Neural Networks with Data Augmentation[C]. Proceedings of COLING 2016, the 26th
International Conference on Computational Linguistics: Technical Papers, 2016:1461-
1470.
[66] Fei Cheng and Yusuke Miyao. Classifying Temporal Relations by Bidirectional LSTM
over Dependency Paths[C]. Proceedings of the 55th Annual Meeting of the Association
for Computational Linguistics (Short Papers), 2017: 1-6.
[67] Yuanliang Meng, Anna Rumshisky, and Alexey Romanov.Temporal Information
79
Extraction for Question Answering Using Syntactic Dependencies in an LSTM-based

Architecture[C]. Proceedings of the 2017 Conference on Empirical Methods in Natural
Language Processing, 2017: 887-896.
[68] Prafulla Kumar Choubey and Ruihong Huang. A Sequential Model for Classifying
Temporal Relations between Intra-Sentence Events[C]. Proceedings of the 2017
Conference on Empirical Methods in Natural Language Processing, 2017: 1796-1802.
[69] Cho K, Van Merriënboer B, Gulcehre C, et al. Learning Phrase Representations Using
RNN Encoder–Decoder for Statistical Machine Translation[C]. Proceedings of the 2014
Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014:
1724-1734.
[70] Chung J, Gulcehre C, Cho K H, et al. Empirical evaluation of gated recurrent neural
networks on sequence modeling[J]. arXiv preprint arXiv:1412.3555, 2014.
[71] Marcheggiani D, Titov I. Encoding sentences with graph convolutional networks for
semantic role labeling[J]. arXiv preprint arXiv:1703.04826, 2017.
[72] Schlichtkrull M, Kipf T N, Bloem P, et al. Modeling relational data with graph
convolutional networks[C]. European semantic web conference. Springer, Cham, 2018:
593-607.
[73] Lafferty J , Mccallum A , Pereira F . Conditional Random Fields: Probabilistic Models for
Segmenting and Labeling Sequence Data[C]. Proceedings 18th International Conf. on
Machine Learning. 2001.
[74] Li B, Zhuang X. Multiscale computation on feedforward neural network and recurrent
neural network[J]. Frontiers of Structural and Civil Engineering, 2020, 14(6): 1285-1298.
[75] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases
and their Compositionality[J]. ArXiv: Computation and Language, 2013: 3111-3119.
[76] Ling W, Dyer C, Black A W, et al. Two/Too Simple Adaptations of Word2vec for Syntax
Problems[C]. Proceedings of the 2015 Conference of the North American Chapter of the
Association for Computational Linguistics: Human Language Technologies, 2015: 1299-
1304.
[77] Devlin J, Chang M W, Lee K, et al. Bert: Pre-Training of Deep Bidirectional Transformers
for Language Understanding[C]. Proceedings of the 2019 Conference of the North
American Chapter of the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long and Short Papers). 2019: 4171-4186.
[78] Pearlmutter B A. Learning state space trajectories in recurrent neural networks[J]. Neural
Computation, 1989, 1(2): 263-269.
[79] Zheng S , F Wang, Bao H , et al. Joint Extraction of Entities and Relations Based on a
Novel Tagging Scheme[C]. Proceedings of the 55th Annual Meeting of the Association
for Computational Linguistics (Volume 1: Long Papers). 2017.
80
[80] Fu T J, Li P H, Ma W Y. Graphrel: Modeling text as relational graphs for joint entity and
relation extraction[C]. Proceedings of the 57th Annual Meeting of the Association for
Computational Linguistics. 2019: 1409-1418.
[81] 郑巧夺,吴贞东,邹俊颖.基于双层 CNN-BiGRU-CRF 的事件因果关系抽取[J].计算机
工程,2021,47(05):58-64+72.DOI:10.19678/j.issn.1000-3428.0057361.
[82] 张义杰.基于神经网络的事件时序关系识别方法研究[D].苏州大学.
[83] 王文冠 , 沈建冰 , 贾云得 . 视觉注意力检测综述 [J]. 软件学报 ,2019,30(02):416-
439.DOI:10.13328/j.cnki.jos.005636.
[84] 高丹,彭敦陆,刘丛.海量法律文书中基于 CNN 的实体关系抽取技术[J].小型微型计算
机系统,2018,39(05):1021-1026.
[85] 李攀锋,林锋,蒋宗神.基于多模板模糊竞争的涉案财物关系抽取方法[J].四川大学学
报:自然科学版,2021,58(4):7.
[86] 陈彦光,王雷,孙媛媛.面向法律文本的三元组抽取模型[J].计算机工程,2021,47(5):8.
[87] 徐家豫 . 面向民法的法律文本知识挖掘 [D]. 哈尔滨工业大学 ,2021.
DOI:10.27061/d.cnki.ghgdu.2021.003020.
[88] 王宁,刘玮,兰剑.基于法院判决文书的法律知识图谱构建和补全[J].郑州大学学报:理
学版,2021,53(3):7.
[89] 商少帅.面向法律文本的知识要素间关系抽取技术研究与实现[D].哈尔滨工业大
学,2020.DOI:10.27061/d.cnki.ghgdu.2020.002258.
81
作者在攻读硕士学位期间公开发表的论文
[1] Wei Xiao, Yongqi Chen. Joint Extraction of Long-distance Entity Relation by Aggregating
Local and Semantic Dependent Features[J]. Wireless Communications and Mobile
Computing.
82
作者在攻读硕士学位期间所参与的项目
[1] 企业攻关重点项目，项目名称：智能辅助办案系统研发；执行期限：2018.05-2021.04；
83
致谢
近三年的研究生学习时光转瞬即逝，转眼间研究生生活已近尾声，记得初进
校时的我宛若一张白纸，对领域知识知之甚少。研究生就读期间虽然充满困难与
挑战，但在老师与同学们的帮助下，渐渐对研究的领域有了一点浅显的认知，并
且即将完成学业，且收获满满。
首先，承蒙导师魏晓老师对我学术上的亲切关怀和精心指导，为我提供了良
好的学习环境，使我从中获益匪浅。魏老师对学生认真负责，虽然有繁忙的工作，
但仍然抽他宝贵的时间给予我学术上的指导和帮助，即时关注我的科研进展。魏
老师严谨的科研态度、勤勉的工作作风永远是我学习的榜样。在此，谨向魏老师
致以深深的敬意和由衷的感谢。
其次，我要感谢实验室的同门与师兄、师姐、师弟、师妹们。研究生的生活
是忙碌而富有挑战的。无论在学术还是生活中，他们总能在我需要帮助时伸出援
手，大家相互鼓励，相互探讨学术问题，一起攻克技术难关，共同应对各种困难。
最后，还要感谢父母对我含辛茹苦的抚养，正是他们的支持与鼓励，我才能
顺、平稳的走完这一段艰辛的求学之路，是他们在我的生活上给予我很大的支持，
在我遇到困难与挫折时给予我安慰与鼓励，你们是我学术道路上前进的动力。最
后的最后，当然忘不了陪着我一路走过七年的思思、树文、栋栋、周念、争争、
展展。虽然我们彼此都在不同的地方，但是有你们的陪伴，真好！也祝愿你们都
顺利毕业，各自在属于自己的领域或岗位上闪闪发光！
84

面向司法案件的实体关系与事件关系抽取方法 陈永琪

Uploaded by

Copyright:

Available Formats

You might also like

面向司法案件的实体关系与事件关系抽取方法 陈永琪

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

面向司法案件的实体关系与事件关系抽取方法 陈永琪

Uploaded by

Copyright:

Available Formats

中图分类号：TP391 单位代号：10280

A Dissertation Submitted to Shanghai University for the

Entity Relation and Event

School of Computer Engineering and Science

4.2 面向司法文本的事件关系种类划分 ............................................................................. 34

本文的组织结构如图 1.2 所示，各章节的简要介绍如下：

path dependence，SDP)实现，并在 2010 年语义评测大赛的 Task8 数据集上取得

—KMCNN（Multi-Entity Convolutional Neural Network Based on Kernel），针对大

本章针对 3.1 节所述的问题，提出了基于远距离依赖特征和指称聚合的司法

3.3.1 基于 BERT 的司法案件文本编码表示

图 3.3 Transformer 编码器[80]

得到案件文本中三种不同的词表征信息后，本文利用 BERT 预训练语言模型

将案件文本的词嵌入表示𝑊𝑜𝑟𝑑𝑒𝑚𝑏 作为 BERT 的输入，最终获取司法案件文

图 3.5 GRU 网络结构[70]

对于案件描述的全局序列语义特征获取，本文使用双向 GRU 网络[70]分别

示，𝜃𝐺𝑅𝑈 为 GRU 的网络参数，𝑥𝑛 表示司法案件文本中第 n 个词的初始化语义表

ℎ𝑢𝑙 = 𝜎( ∑ (𝐴ℎ𝑣𝑙 𝑊 𝑙 + 𝑏 𝑙 )) (3.10)

ℎ𝑢𝑙 = 𝜎( ∑ (𝐷−1/2 𝐴𝐷−1/2 ℎ𝑣𝑙 𝑊 𝑙 + 𝑏 𝑙 )) (3.12)

上一节 3.3.2 中，分别利用双向 GRU 网络和加权图神经网络获取司法案件

𝑠𝑐𝑜𝑟𝑒(𝑇𝑒𝑥𝑡, 𝑦) = ∑ 𝑇𝑦𝑖 ,𝑦𝑖+1 + ∑ 𝑃𝑖,𝑦𝑖 (3.14)

其中 y 表示案件文本 Text 预测的案件实体指称标签序列,𝑇𝑦𝑖 ,𝑦𝑖+1 表示案件实

体标签𝑦𝑖 与标签𝑦𝑖+1的转移概率，𝑃𝑖,𝑦𝑖 表示案件文本中第𝑖个字初始实体指称标签

𝑠𝑐𝑜𝑟𝑒(𝑒 ℎ𝑒𝑎𝑑 , 𝑒 𝑡𝑎𝑖𝑙 ) = 𝑙𝑜𝑔 ∑ (𝑊𝑟𝑒𝑙 [𝑥𝑖ℎ𝑒𝑎𝑑 ; 𝑥𝑗𝑡𝑎𝑖𝑙 ] + 𝑏𝑟𝑒𝑙 ) (3.18)

其中𝐸 ℎ𝑒𝑎𝑑 和𝐸 𝑡𝑎𝑖𝑙 分别表示案件实体𝑒 ℎ𝑒𝑎𝑑 和𝑒 𝑡𝑎𝑖𝑙 的指称集合，𝑊𝑟𝑒𝑙 和𝑏𝑟𝑒𝑙 分别

具体的，以句子“被告人李曙光驾驶车牌号为浙 AE8342 小型轿车”为例，

对于司法案件的实体关系标注，本文将数据转换为 JSON 格式，采用如图 3.8

综上，可以对司法案件中事件关系进行如下分类，如下表 4.1 所示，司法案

本章针对 4.1 节所述的问题，提出了一种融合上下文和多尺度局部特征的案

示，𝜃𝐺𝑅𝑈 为 GRU 的网络参数，𝑥𝑛 表示司法案件文本中第 n 个词的初始化语义表

传统卷积神经网络（Convolutional Neural Network，CNN）[30]是一种基于生

列获得整个司法案件描述文本的多尺度局部语义特征，如下式 4.13 所示。

关系语义的隐藏层表示，𝜃𝐿𝑆𝑇𝑀 为 LSTM 的网络参数，[ℎ𝑛 ; 𝐹𝑙𝑜𝑐𝑎𝑙 ]表示对案件文本

码层状态进行拼接，如上式 4.33、4.34 所示。

本章针对 5.1 节中所述的问题，提出了一种基于干扰信息语义弱化的案件实

其 中𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑛𝑡𝑖𝑡𝑦𝑠𝑖 表示司法案件文本中第 𝑖 个句子的实体分布，

𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔𝑠𝑖 表示司法案件文本中第𝑖个句子经过 BERT 预训练语言模型后的初

构成，如图 5.5 所示。此时给定 Target 中的某个元素 Query，通过计算 Query 和

得到的𝛼𝑖 就是对应于𝑉𝑎𝑙𝑢𝑒𝑖 的权重系数，最后可以用加权求和得到 Attention

𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝑄𝑢𝑒𝑟𝑦, 𝑆𝑜𝑢𝑐𝑒) = ∑ 𝛼𝑖 ∗ 𝑉𝑎𝑙𝑢𝑒𝑖 (5.11)

其中𝐸 ℎ𝑒𝑎𝑑 和𝐸 𝑡𝑎𝑖𝑙 分别表示案件实体𝑒 ℎ𝑒𝑎𝑑 和𝑒 𝑡𝑎𝑖𝑙 的指称集合，𝑊𝑟𝑒𝑙 和𝑏𝑟𝑒𝑙 分别

𝑇𝑒𝑥𝑡 = {𝑆1 , 𝑆2 , … , 𝑆𝑛 } (5.16)

句子初始语义编码表示，如下式 5.20 所示。

其 中 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑣𝑒𝑛𝑡𝑠𝑖 表示 司法 案件 文 本中第 𝑖 个 句子 的事 件 分布，

𝐸𝑚𝑏𝑒𝑑𝑑𝑖𝑛𝑔𝑠𝑖 表示司法案件文本中第𝑖个句子经过 BERT 预训练语言模型后的初

层向量ℎ𝑡𝑖𝑚𝑒 和因果关系解码器的隐藏层向量ℎ𝑐𝑎𝑢𝑠𝑒 与司法案件整体语义表示进

Proceedings of the 48th Annual Southeast Regional Conference. 2010: 1- 4.

[42] Kaplan R M, Berry-Rogghe G. Knowledge-Based Acquisition of Causalityships in Text

Extraction for Question Answering Using Syntactic Dependencies in an LSTM-based

You might also like

面向司法案件的实体关系与事件关系抽取方法陈永琪

面向司法案件的实体关系与事件关系抽取方法陈永琪

面向司法案件的实体关系与事件关系抽取方法陈永琪

其中𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑛𝑡𝑖𝑡𝑦𝑠𝑖 表示司法案件文本中第 𝑖 个句子的实体分布，

其中 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑜𝑛_𝑒𝑣𝑒𝑛𝑡𝑠𝑖 表示司法案件文本中第 𝑖 个句子的事件分布，