基于事理图谱的辅助判案技术的研究与实现郭佳

密级 保密期限
： 

：
观ｉｆｆＡｆ


硕士学位论文


题目：基于事理图谱的辅助判案技术的研究与实现


学 号：

２０１８１１０７３１



姓 名：
 誣佳 


专 业  计算机科学与技术
： 

导师：

吴斌 


学 院：计算机学院（国家示范性软件学院 

）
２０２１年３月３ 

日
中国 ■
北京


密级 保密期限
： 

：
ｔｆ＿會大聲
ｒ 

硕士学位论文




典
题目：基于事理图谱的辅助判案技术的研究与实现


学 号：

２０１８１１０７３１ 


姓名：
 郭佳 


专业  计算机科学与技术
： 

导师：
 ｇａ 


学院：计筧机学院（国家示范性软件学院）
２０２１年３月３ 

日
Ｃｏｎｄｉｆｅｎｔｉａｌｉｔ
ｙ ｌｅｖｅｌ： Ｃｏｎｆｉｄｅｎｔｉａｌｉｔｙ  ｐｅｒｉｏｄ 

：
Ｂｅｕｉｎｇ  Ｕｎｖｅｒｓｔｙ  ｏｆ
ｉ
 ｉ
Ｐｏｓｔｓ  ａｎｄ


Ｔｅｌｅｃｏｍｍｕｎｃａｔｏｎｓ

 ｉｉ
Ｔｈｅｓｉｓ  ｆｏｒＭａｓｔｅｒＤｅｇｒｅｅ

  
Ｔｏｐｉｃ  Ｒｅｓｅａｒｃｈａｎｄ
： Ｉｍｐｌｅｍｅｎｔａｔｉｏｎ ｏｆ  Ａｕｘｉｌｉａｒｙ


Ｊｕｄｇｍｅｎｔ Ｔｅｃｈｎｏｌｏｇｙ ｂａｓｅｄ ｏｎ  ＥｖｅｎｔＧｒａｐｈｓ


ＳｔｕｄｅｎｔＩＤ  ：

２０１８１１０７３１ 


Ｃａｎｄｉｄａｔｅ  ：

Ｊｉａ Ｇｕｏ 


Ｓｕｂｊｅｃｔ ：  Ｃｏｍｐｕｔｅｒ  Ｓｃｉｅｎｃｅ  ａｎｄ  Ｔｅｃｈｎｏｌｏｇｙ


Ｓｕｐｅｒｖｉｓｏｒ  ：

ＢｉｎＷｕ 


Ｉｎｓｔｉｔｕｔｅ ： Ｓｃｈｏｏｌ ｏｆ  Ｃｏｍｐｕｔｅｒ  Ｓｃｉｅｎｃｅ（Ｎａｔｉｏｎａｌ



Ｐｉｌｏｔ  Ｓｏｆｔｗａｒｅ  Ｅｎｇｉｎｅｅｒｉｎｇ  Ｓｃｈｏｏｌ）



Ｍａｒ．  ３ｒｄ，２０２１


独创性（或创新性）声明


本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究


成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不


包含其他人已经发表或撰写过的研宄成果也不包含为获得北京邮电大学或其他
， 

教育机构的学位或证书而使用过的材料与我同工作的同志对本研究所做的任


一
何贡献均己在论文中作了明确的说明并表示了谢意 

．
申请学位论文与瑪料若有不实之处本人承担切相关责任
一
，


。
本人签名：
亦名 日期：
與中，／ 

屈
关于论文使用授权的说明


本人完全了解并同意北京邮电大学有关保留、使用学位论文的规定，即： 


北
京邮电大学拥有以下关于学位论文的无偿使用权，具体包括：学校有权保留并向


国家有关部门或机构送交学位论文，有权允许学位论文被查阅和借阅；学校可以


公布学位论文的全部或部分内容有权允许采用影印缩印或其它复制手段保存
，、 

、
汇编学位论文，
将学位论文的全部或部分内容编入有关数据库进行检索。（保密


的学位论文在解密后遵守此规定 

）
本人签名：
為孤 日期：ｙ〇ｙ＼
＾ｒ  ｂｌ Ｅ？


导师签名： Ｈ  日期：ｓ．


Ｗ
基于事理图谱的辅助判案技术的研究与实现


摘 

要
随着人工智能技术的发展，各个领域都利用人工智能提高了自 

动
“ ”
化水平和效率。
司法领域也不例外，我国积极推进智慧法院建设 

，
致力于用科技手段提高司法机关办案水平进步确保司法的公平性


一
和效率，同时也为人民群众普法用法提供帮助。因此，研究人工智能



在司法领域的应用具有重要的社会价值本课题的研宄内容主要包括

 。
三部分 

：
１、基于预训练模型提取特征的混合深度罪名预测模型。受益于


预训练模型新颖的模型架构，训练方式和海量语料支持，预训练模型


在自然语言处理任务上获得了优异的结果因此本课题使用多种预训

 ，
练模型对法律判决书文本进行特征提取，提取到的特征输入基于



ＣＮＮ以及ＬＳＴＭ的分类模型中对判决书进行罪名预测。本课题将预


训练模型提取的特征和传统模型提取的特征做对比，基于预训练模型


的特征明显超过传统模型 

。
２、基于刑事判决书的事理图谱构建和刑期预测模型。
传统知识


图谱大多关注实体的属性和关系知识，而忽视了事件之间的演化规律 

，
事理图谱弥补了这
一
点，事理图谱中的节点为事件，边为事件之间的


演化关系。本课题通过对判决书的文本进行预处理，事件抽取，事件


关系抽取完成了事理图谱的构建通过计算节点之间相似度的方法完

 。
成刑期预测 

。
３、基于事理图谱的辅助判决方案生成系统。在本课题提出的两



个模型的基础上使用实现个可视化系统接收案情描述作


一
，ＰｙＱｔ，
为输入，输出包含罪名和刑期预测的辅助判决方案结果，给司法人员


和人民群众提供法律辅助 

。
关键词：预训练模型事理图谱辅助判案罪名预测刑期预测




１
ＲＥＳＥＡＲＣＨＡＮＤ  ＩＭＰＬＥＭＥＮＴＡＴＩＯＮＯＦＡＵＸＩＬＩＡＲＹ

  
ＪＵＤＧＭＥＮＴ  ＴＥＣＨＮＯＬＯＧＹ  ＢＡＳＥＤ  ＯＮ  ＥＶＥＮＴ  ＧＲＡＰＨＳ


Ａｂｓｔｒａｃｔ


Ａｓ ｔｈｅｄｅｖｅｌｏｐｍｅｎｔ  ｏｆ ＡＩ  ｔｅｃｈｎｏｌｏｇｙ， ｈｉ
ｇｈｅｒ  ｅｆｆｉｃｉｅｎｃｙ  ａｎｄ


＂
ａｕｔｏｍａｔｉｏｎ  ｌｅｖｅｌ  ａｒｅ  ａｃｈｉｅｖｅｄ  ｉｎ  ｖａｒｉｏｕｓ  ｆｉｅｌｄｓ  Ｆｏｒ  ｊｕｄｉｃｉａｌ  ａｒｅａ  ．
，
Ｔｈｅ


＂
Ｓｍａｒｔ  Ｃｏｕｒｔｓ  ｉｓ  ｂｅｎｇｅｎｅｒｇｅｔ
ｉｉｃａｌｌ
ｙ  ｄｅｖｅｌｏｐｅｄ ｉｎ  Ｃｈｉｎａ， ａｉｍｉｎｇ  ｔｏ


ｉｍｐｒｏｖｅ  ｔｈｅ  ａｂｉｌｉｔｉｅｓ  ｏｆ  ｃａｓｅ  ｈａｎｄｌｉｎｇ  ｆｏｒ  ｊｕｄｉｃｉａｌ  ｏｒｇａｎｓ  ｏｆ  Ｃｈｉｎｅｓｅ


＂＂
ｇｏｖｅｒｎｍｅｎ
ｔ  ．Ａｄｄｉｔｉｏｎａｌｌ
ｙ，  Ｔｈｅ  Ｓｍａｒｔ  Ｃｏｕｒｔｓ  ｃａｎ  ｆｕｒｔｈｅｒ  ｅｎｓｕｒｅ
ｊ
ｕｄｉｃｉａｌ
ｎｅｓｓ  ａｎｄ  ｅｆｆｉｃｉｅｎｃｙ  ａｓ  ｗｅｌｌ  ａｓ
ｆａｉｒ

ｎ
ｐｏｐｕａｒｉｚｉｇ  ｔｈｅ  ｌ
ｌａｗ  ｔｏ  ｔｈｅ
ｐ
ｕｂｌｃｉ．  Ｔｈａｔ
ｉｓｔｈｅｉｍ
ｐｏｒ
ｔａｎｔ  ｖａｌｕｅｓ  ｔｈａｔ  ｓｔｕｄｉｅｓ  ｏｎ  ａ
ｐｐｌｉ
ｃａｔｉｏｎ  ｏｆ  ＡＩ  ｉｎ  ｔｈｅ  ｊｕｄｉｃｉａｌ
ａｒｅａ．  Ｔｈｉｓ  ａｒｔｉｃｌｅｍａｉｎｌ
ｙ  ｉｎｃｌｕｄｅｓ  ｔｈｅ  ｆｏｌｌｏｗｉｎｇ  ｔｈｒｅｅ  ｐａｒｔｓ 

：
１．  Ｈｙｂｒｉｄ  ｄｅｅｐ  ｌｅａｒｎｉｎ
ｇｍｏｄｅｌ ｂａｓｅｄｏｎ ｐｒｅ
－
ｔｒａｉｎｅｄ ｍｏｄｅｌ 

．
Ｐｒｅｔｒａｉｎｉｎｇ ｍｏｄｅ ｇｅｔｓｅｘｃｅｅｎｔ
 ｐｅｒｆｏｒｍａｎｃｅ  ｏｎ ｎａｔｕｒａ  ａｎ
ｇｕａｇｅ


－
ｌｌｌｌｌ
ｔａｓｋｓ  ｂｅｎｅｆｉｔｉｎｒｔｓ  ｏｆｎｏｖｅｌ  ｍｏｄｅｌ  ａｒｃｈｉｔｅｃｔｕｒｅ
ｐｒｏｃｅｓｓｎｇ ｇ  ｆｒｏｍ  ｔｈｅ  ｓｕｐｐｏ
ｉ 


，
ｔｒａｉｎｉｎｇ  ｍｅｔｈｏｄｓ  ａｎｄ  ｍａｓｓｉｖｅ ｃｏｒｐｕｓ  Ｔｈｅｒｅｆｏｒｅ  ｖａｒｉｅｔｙ  ｏｆ  ｐｒｅ．
，
－
ｔｒａｉｎｉｎ


ｇ
ｍｏｄｅｌｓ  ａｒｅ  ｕｓｅｄ  ｏｎ  ｆｅａｔｕｒｅ  ｅｘｔｒａｃｔｉｏｎ  ｏｎ  ｌｅｇａｌ  ｊｕｄｇｍｅｎｔ  ｔｅｘｔｓ  Ｃｈａｒｇｅ

 ．
ｗｉｌｌ  ｂｅ  ｐｒｅｄｉｃｔｅｄ  ａｆｔｅｒ  ｉｎｐｕｔｔｉｎｇ  ｔｈｅｓｅ  ｆｅａｔｕｒｅｓ  ｉｎｔｏ  ｃｌａｓｓｉｆｃａｔｉｏｎ  ｍｏｄｅｌｓ

 ｉ
ｂａｓｅｄ  ｏｎ  ＣＮＮ  ａｎｄ  ＬＳＴＭ  Ｔｈｉｓ  ｍｏｄｅｌ  ｉｓ  ｓｕｐｅｒｉｏｒ  ｔｏ  ｔｈｅ  ｔｒａｄｉｔｉｏｎａｌ
．
ｍｏｄｅｌ 

．
２  Ｔｈｅｐｒｅｄｃｔｉｏｎ ｍｏｄｅｌｏｆｓｏｎ  ｔｅｒｍ  ｂａｓｅｄ  ｏｎ  Ｅｖｅｎｔ  Ｇｒａｐｈ  Ｏｎｅ


ｐｒ
．ｉｉ．
ｄｉｓａｄｖａｎｔａｇｅ  ｏｆ  ｔｒａｄｉｔｉｏｎａｌ  Ｋｎｏｗｌｅｄｇｅ  Ｇｒａｐｈｓ  ｉｓ  ｔｈａｔ  ｉｔ  ｉｇｎｏｒｅｓ  ｔｈｅ


ｅｖｏｌｕｔｉｏｎａｒ
ｙ  ａｗｓ  ｂｅｔｗｅｅｎ  ｅｖｅｎｔｓ  ｗｈｉｌｅ  ｍａｉｎｙ  ｆｏｃｕｓｅｓ  ｏｎ  ｔｈｅ  ａｔｔｒｉｂｕｔｅｓ
ｌ 
 ｌ
ａｎｄ  ｒｅｌａｔｉｏｎｓｈｉｐ  ｋｎｏｗｌｅｄｇｅ  ｏｆ  ｅｎｔｉｔｉｅｓ  ．Ｈｏｗｅｖｅｒ  Ｅｖｅｎｔ  Ｇｒａｐｈ
，，  ｏｆ  ｗｈｉｃｈ


ｎｏｄｅｓ  ｄｅｆｉｎｅｄ  ｅｖｅｎｔｓ  ａｎｄ  ｌｉｎｅｓ  ｄｅｆｉｎｅｄ  ｅｖｏｌｕｔｉｏｎａｒｙ  ｒｅｌａｔｉｏｎｓｈｉｐｓ  ｍａｋｅ

 ，
ｕｐ  ｆｏｒ  ｔｈｉｓ  ｄｉｓａｄｖａｎｔａｇｅ  Ｔｈｉｓ  ａｒｔｉｃｌｅ  ｂｕｉｌｄｓ  ｔｈｅ  Ｅｖｅｎｔ  Ｇｒａｐｈ  ｔｈｒｏｕｇｈ
． 

ｆｅａｔｕｒｅ  ｅｘｔｒａｃｔｉｏｎ  ａｎｄ  ｅｖｅｎｔ  ｒｅｌａｔｉｏｎ
ｒｅ
ｐｒｏｃｅｓｓｎｇｔｅｘｔｓ ｏｆｈｅｕｄｇｍｅｎｔ 

－
ｉｔ
ｐ

ｊ， 
ｅｘｔｒａｃｔｉｏｎ．  Ｔｈｅｎ， 
ｔｈｅ  ｐｒｉｓｏｎ  ｔｅｒｍ  ｉｓ
 ｐｅｄｉｃ
ｒｔｅｄｂ
ｙ  ｃａｌｃｕｌａｔｉｎｇ  ｔｈｅ  ｓｉｍｉｌａｒｉｔｙ


ｂｅｔｗｅｅｎ  ｎｏｄｅｓ 

．


ｌ
３．  Ａｕｘｉｌａｒｙ  ｊｕｄｇｍｅｎｔ  ｓｙｓｔｅｍ  ｂａｓｅｄ  ｏｎ  Ｅｖｅｎｔ  Ｇｒａｐｈｓ  Ｗ
ｉ．ｉｔｈ  ｔｈｅ


Ａｐｐｌｉｃａｔｉｏｎ  ｏｆ  Ｐ
ｙＱｔ ａｖ，
ｉｓｕａｌｉｚａｔｉｏｎ  ｓ
ｙｓｔｅｍ  ｉｓ  ｂｕｉｌｔ  ｏｎ  ｔｈｅ  ｂａｓｉｓ  ｏｆ  ｔｈｅ


ｔｗｏ ｍｏｄｅｌｓ  ｍｅｎｔｉｏｎｅｄ ａｂｏｖｅ．  Ｉｎｐｕｔｔｎｇ  ｄｅｓｃｒｐｔ
ｉｉｉｏｎ  ｏｆ  ａｃｃｄｅｎｔ ｗｈｉｌｅ
ｉ 

ｏｕｔｐｕｔｔｉｎｇ

ｔｈｅ  ａｕｘｉｌｉａｒｙ  ｊｕｄｇｍｅｎｔ  ｗｉｔｈ  ｂｏｔｈ  ｐｒｅｄｉｃｔｅｄ  ｃｈａｒｇｅ  ａｎｄ  ｐｒｉｓｏｎ


ｔｅｒｍ．  Ｔｈｉｓｓ
ｙ
ｓｔｅｍｗｉｌｌ  ｅｆｆｉｃｉｅｎｔｌ
ｙ  ｐｒｏｖｉｄｅ  ｌｅｇａｌ  ａｓｓｉｓｔａｎｃｅ  ｔｏ  ｊｕｄｉｃｉａｌ  ｓｔａｆｆ


ａｓ  ｗｅｌｌ  ａｓ  ｔｈｅ  ｐｕｂｌｉｃ 

．
ＫＥＹ  ＷＯＲＤＳ：
ｐｒｅ
－
ｔｒａｉｎｉｎ
ｇ
ｍｏｄｅｌ  Ｅｖｅｎｔ  Ｇｒａｈ  ａｕｘｉｌｉａｒ  ｊｕｄｍｅｎｔ
；
ｐｙｇ； 

；
ｃｈａｒ
ｇｅ  ｐｒｅｄｉｃｔｉｏｎ；  ｐｒｅｄｉｃｔｉｏｎ  ｏｆｐｒｉｓｏｎ 
 ｔｅｒｍ




２
目录


第章引言
一
 

１
１．１研究背景和目的及意义  

１
１．２国内外研究现状  

３
１．２．１人工智能在司法领域应用现状  

３
１．２２．
深度学习在ＮＬＰ以及司法领域的研究现状  

４
１．２３．
事理图谱在ＮＬＰ以及司法领域应用现状  

５
１＿３本课题的研宄内容  

７
１．４论文的组织结构  

７
第二章相关技术  

９
２．１文本处理  

９
２２．
文本分类  １ 

２
２２．．１ ＣＮＮｂａｓｅｄ
－
 Ｍｏｄｅｌ  １ 

２
２２２ＬＳＴ
．．Ｍ－
ｂａｓｅｄ Ｍｏｄｅｌ  １ 

３
２２３  Ａｔｔｅｎｔｉｏｎｂａｓｅｄ  Ｍｏｄｅｌ
．．
－
 １ 

５
２３．
知识图谱  １ 

７
２．３．１知识图谱  １ 

７
２．３．２事理图谱  １ 

８
２．３．３ Ｎｅｏ４ｊ
 ２０


２４．
本章小结  ２０


第三章基于预训练模型提取特征的混合深度罪名预测模型  ２ 

１
３．１数据获取与预处理  ２ 

１
３．１．１数据获取  ２ 

１
３丄２数据预处理  ２２


３．２模型介绍  ２３


３．２．１ Ｔｒａｎｓｆｏｒｍｅｒ  模型  ２３


３．２２  ＢＥＲＴ 
．
模型  ２５


３２３ ．．ＸＬＮＥＴ  模型  ２７


３．３基于预训练模型提取特征的混合深度罪名预测模型  ３ 

１
３．４实验及结果  ３ 

４
３．４．１实验环境  ３４




１
３＿４２．
实验数据  ３ 

４
３．４．３基线模型  ３ 

４
３．４４．
实验设置和评价指标  ３ 

４
３．４５．
实验结果及分析  ３５


３．５本章小结  ３５


第四章基于刑事判决书的事理图谱构建和刑期预测模型  ３７


４．１基于刑事判决书事理图谱的构建方案  ３７


４２．
事件抽取  ３８


４．３事件关系抽取  ３９


４４．
构建图谱  ４０


４５．
图谱可视化  ４０


４６．
刑期预测与实验  ４２


４６．．１实验数据和实验环境  ４２


４６２
．．
刑期预测  ４３


４６３
．．
评价指标  ４４


４６４
．．
基线模型  ４４


４６５．．
实验结果  ４４


４７．
本章小结  ４５


第五章基于事理图谱的辅助判决方案生成系统  ４６


５．１需求分析  ４６


５．１．１上传案情描述  ４６


５．１．２罪名预测  ４６


５．１．３刑期预测  ４７


５．２其他预测系统  ４７


５．３系统架构  ４８


５．４系统实现  ４８


５４．．１ ＰｙＱｔ 介绍  ４８


５．４２．ＵＩ  设计  ４９


５４３．．
功能实现  ５０


５．５系统展示与测试  ５２


５．６本章小结  ５ 

４
第六章结论  ５５


参考文献  ５６




２
麵  ６ 

１
攻读硕士学位期间发表论文  ６３




３
第章引言
一
 


第一
章引言


研究背景和目的及意义


＊
１．１
在当今时代方面随着我国法律体系体制的发展与健全普通民众对法



一
，、，
律的了解认知程度不断提高另方面历史遗留案件在不断累积各类新的案


一
、，，
件层出不穷Ｗ。根据最新版的《最高人民法院工作报告》，２０１９年最高人民法院



共受理案件３８４９８件，已经审结的案件有３４４８１件，同比分别上升１０７

．
个百分


点和８２．
个百分点；地方各级法院受理案件共计３１５６７．
万件，审结、执结案件共


计２９０２２．
万件，同比分别上升１２７．
个百分点和１５．３个百分点。
而随着这些各类


法律案件的裁决书或判决书数量的不断增加各类司法相关工作者在了解法律案

 ，
件的过程中或是在进行司法学习的过程中都需要针对这些海量的相关真实案例

 ，
的记录以及审理文件进行查阅和分析这就使得司法相关人员的工作任务越来越

 。
繁杂，不仅增加了相关工作的失误率，也会使得执行相关法律法规的效率变得越



来越低下。此外，广大有监督权利的人民群众、案件的相关人员以及对法律案例


有学习需求的人员都需要个合理的法律平台环境去了解法律工作执行的进度



一
以及结果，方便快捷的了解相关法律法规或是类似的法律案例。
所以利用海量的


法律判决书文件进行信息收集以及信息过滤并从中发掘出与，
目标案例相关的相


似案例并进辅助判案，这成为了解决该类问题的行之有效的手段 

。
我国现有的司法体系架构表明，
我国的所有法律条例均属于制定法，也称为


成文法Ｍ成文法主要是指具有编写或修改法律权利的国家机构依照定的流程


一
制度颁布出的表现为明确条文样式的规范性的法律相关文件Ｗ。也有说法将其特



指为国家立法相关机构以公开的方式赋予法律文书以规范性的效力成文法不仅

 。
仅包括国家权力机构颁布的法律法规也包括国家中央行政机关和地方国家权力


 ，
机关和行政机关在职权范围制定发布的规范性法律文件现有针对法律案件



２
内［］
。
的判决，
往往只是司法工作者根据自身对该案件的理解，依据过往的判决经验选


择合适的法律法规进行判决。而不是依靠与历史案例的审理、办理以及裁定结果


进行对比来辅助当前需审判结果的案例的最终判决结果这也就造成了以下的后

 。
果 

：
（
１
）司法工作者没有充分以历史案例为辅，
新产生的案例也大多仅仅作为案


例记录而存在。
随着时间的推移，司法案例的累积会给司法工作者找寻相关历史


案例记录带来困扰。
同时，大数据时代的环境背景下，海量级的案例，使得相关


人员无法快速并充分利用相似的历史案例的数据资源间接的造成了资源浪费和

 ，


１
北京邮电大学工学硕士学位论文 



数据鸿沟 

。
司法工作的主观化我国现只有套完成的法律体系基于我国法律体



一
２。，
（）
系下，
各个地方的司法系统因地域的相对性均具有自己独特的适用方法。不同地


域的司法工作者对法律的认知、犯罪情节的判定、对案件的审判结果的理解均具


有定的主观性不同地方的地方文化人文因素等差异也会间接导致相同案情


一
。，
不同的量刑结果 

。
随着数字时代的到来，人民法院等司法机构的信息化程度的不断提高，云平



台大数据等技术的飞速发展以及对应硬件存储设施的性能提升，
使得将司法记录


文件电子化成为了现实时间累积下的大量的司法案件产生了海量的司法相关数

 。
据这些数据成为了引入人工智能辅助司法判决的基础另方面随着中国司



一
，
。，
法体系不断的深化改革，增加了应用人工智能的可能。２０１２年１０月９日，中国


国务院新闻办公室发表的中国的司法改革》书强调切实维护社会的公平正


一
《：
义需要法院在办理每件刑事案件的时候以司法准则作为准绳由于中国现有


一
，。
国情决定了司法人员司法水平存在明显差异，地方保护主义依然盛行。近年来 

，
法律主管单位致力于量刑规划，
试图建立起司法案例体系，极大的规范化了司法


进程。量刑协商是认罪认罚从宽制度的关键所在。
缺乏规范性的量刑协商不利于


认罪认罚从宽制度的发展并有损司法公正，
。案例指导制度契合了规范量刑的需


要有利于促进量刑协商结果的公正性
，
我国作为成文法国家，追求量刑的精确


无法以不断修改制定法的形式来实现而相对宽松的量刑幅度又让法官拥有了较

 ，
大的自由裁量权。且我国现行刑事诉讼中的量刑模式量刑程序的独立性不足，


，
量刑过程不够公开和透明，法官量刑方面的自由裁量权缺乏必要的限制和监督



［
４］
。不同地域、不同时期和不同个案间的量刑偏差现象依然存在并表现出非合理

 ，
因素影响量刑的异常状态其原因方面是由于量刑规范化改革的规范程度不


一
方面量刑规范化改革既不能消除法官
“
足量刑程序存在形式化缺陷另 

一
，；，
个体的差别，也无法抑制非合理因素的影响。为此，应当完善量刑诉讼构造，


有
效实现量刑监督与制约合理配置审判资源保证审判管理科学与统加强量


一
，，
，
刑活动指导，抑制案外因素干扰与影响


随着近年来大数据以及云计算平台等现代科技的高速发展，

国内外司法机


关、律师事务所、公司纷纷将人工智能引入司法领域及法律服务领域，法律智能


应用系统从基于规则的法律专家系统过渡到基于大数据的法律人工智能系统在


 ，
辅助法官办案、服务律师、社会公众方面正在不断取得新的成就。

但是，因系统


建设整体规划、顶层设计相对缺乏，功能上存在很大提升空间，
尤其是对案件预


判预测的功能存在缺失，数据收集共享应用上存在诸多薄弱环节，
技术上面临诸


多挑战不少学者在司法领域中开发了各类辅助判案系统但大多存在功


［
６６６７６８］
，，
。，


２
第章引言
一
 


能单等问题
一


。
为了更好地利用历史法律案例的判决数据来辅助司法人员的工作本课题以

 ，
刑事案件判决书中的案情描述作为模型的输入输出相应刑事案例的罪名与刑期

 ，
预测，多种历史案例之间的事理体系等问题进行了研究。
本课题的研究对象是司


法数据中的案件判决书，由于历史案例文本数量庞大、案情复杂、文本内容冗余



较多以及案件重点分布不均匀等问题采用传统的人工方法无法有效地将其转换

 ，
为决定判决案件的关键信息本课题正是对收集到的案例判决文件进行文本内容


 。
信息挖掘，结合文本预处理、双向深度神经网络、注意力机制以及事理图谱等模



型方法来研究，
并最终实现基于事理图谱的辅助判决方案生成模型 

。
１．２国内外研究现状


本课题分别对人工智能在司法领域中的研究现状、深度学习架构ＣＮＮ 


、
ＬＳＴＭ以及ａｔｅｎｔｉｏｎ机制在自然语言处理领域以及司法领域的研究现状知识图

 ，
谱、事理图谱在司法领域的应用现状做出了汇总分析，本节将对上述相关内容的



国内外研究结果进行汇总分析 

。
１．２．１人工智能在司法领域应用现状


国外的相关研究者早在９０年代就己经开始对人工智能在司法领域的应用研



究进行了开展，在案件的逻辑推理方面，所有基于案例的推理（Ｃａｓｅｂａｓｅｄ


ＣＢＲ都采用了些从案例进行归纳的方法以支持索引编制和相关



一
ｒｅａｓｏｎｉｎ）
ｇ，
，
性评估，并证明了两种基本的推理方法：通过跟踪过去案例的解决方案来限制搜



索，或者通过将案例与过去案例进行比较来评估案例Ｗ。在历史案例分类方面 

，
等人７］
使用决策树算法构建了个使用历史案例数据进行推理分析 

从
一
Ｓｃｈｉｌｄ
［
，，
而预测最终的量刑结果的模型系统该模型主要是根据用户的输入案例判决书进


 。
行相似度匹配，与历史案件进行匹配，从而依据历史案例的判决对新的刑事案例


进行预测。Ａｓｈｌｅ
ｙ等人％构建了历史案件的数据存储系统，当用户输入新的刑事


案例，
使用决策树算法从数据库中选择相似的案例，并给出相应的判罚结果。


在
法律法规的逻辑推理方面，Ｐａｌａｕ等人Ｍ重点关注了法律判决书中的律师辩论环


节的文本资料的信息挖掘，通过自然语言处理等技术，对相应的文本内容进行界


ｎ
定，最后通过使用贝叶斯分类网络等模型〖
１Ｑ，］
来验证输出结果的准确性 

。
在司法数据收集及预处理方面，
Ｑｉｎ等人从数据需求的定义，
数据列表的


生成，
数据标准的制定，
数据标准的批准以及数据使用的标准等方面研究司法数


据标准的制定。该标准可用作司法数据仓库的基础，可以提高司法数据系统的数


据致性和数据可用性为了准确描述案件信息的性质及其各个维度Ｌａｎ等人


一
。，ｉ


３



［
１３］
借助六元信息论和粗糙集相关知识，
构建并量化了文件的数据质量评价标准 

。
等人提出了种基于数据和文本的挖掘技术以支持法律从业者和研宄学



一
Ｔａｌｉｂ
者进行追踪所需的信息，
并确定与其相关案例有关的所有案例 

。
国内针对司法领域人工智能算法的应用方面，主要集中在对刑事案件的分类


上。
髙菲等将机器学习中的经典分类算法支持向量机（Ｓｕｐｐｏｒ
ｔ Ｖｅｃｔｏｒ Ｍａｃｈｉｎｅ 

，
ＳＶＭ）用于辅助量刑中，
试图通过构建以ＳＶＭ为核心的量刑分类模型来辅助相


关法律从业人员，减少量刑过程中的地域偏差和不公正的行为。主要的做法是通


过构建辅助量刑专家系统的架构，以盗窃罪作为研究文本集，重点探索了系统实



Ｗ
现的步骤以及细节［
１６
。
针对不同案件文本的信息分布不均匀等特点，
程春惠等


人提出了针对法律文本的预处理方法，并对比了不同的法律文本特征选择方法 

。
程春惠等人主要使用的模型是改进的多变量贝努里模型该模型可以有效地解



［
１８］
，
决不同法律案件的所属类别分布不均匀的特点
［
１９］


。
通过对国内外在司法领域引入传统人工智能算法的研究汇总，可以看出过去



学者往往依靠简单的分类模型对法律罪名、法律分类等方向进行了研究。在整个


处理过程中，需要对历史相似案例进行界定，或者依靠简单的深度网络等模型进


行预测，这也就造成了对人力资源的过度使用。随着神经网络的发展以及自然语


言处理（Ｎａｔｕｒａｌ  Ｌａｎｇｕａｇｅ  Ｐｒｏｃｅｓｓ，ＮＬＰ）技术的进步，
将二者有机地结合起来 

，
可以表现出更好的分类效果 

。
１．２２．
深度学习在ＮＬＰ以及司法领域的研究现状


ＮＬＰ从本质上来说，
是人工智能领域的分支领域，主要专注于对人类自 

然
语言的理解以及人机交互等方面。ＮＬＰ最早的研究可以追溯到图灵计算机时代 

，
也就是传统意义上的以规则为背景的研究方法包括现在仍然流行的统计学模型


 ，
方法。ＮＬＰ领域的模型从最开始的传统概率学分类网络，到现在主流的卷积神



经网络等深度学习方法。
随着ＮＬＰ领域的不断进步，越来越多的学者将ＮＬＰ 

模
型与司法领域的大量文本内容有机结合通过对司法判决过程中产生的文本数据

 ，
信息进行处理，提取中其中有用的关键信息，结合深度神经网络等算法是目前司



法领域较为主流的研究方向之一


。
在国外对ＮＬＰ与深度学习结合的研究中Ｌａｍｅ等人介绍了种识别本体


一
组件的方法。该方法依赖于自然语言处理（ＮＬＰ）技术来提取概念以及这些概念



之间的关系。该方法在法律领域得到了应用，
以构建专门用于信息检索的本体 

。
Ｍｉｋｏｌｏｖ等人Ｗ构建了从大规模的数据集中构建文本单词的矢量表示的模型。



在
单词意义相似度检测的任务中，
将其与不同类型的深度神经网络进行对比，表现


出最佳的分类性能。
在经典文本数据集与深度神经网络结合的方面上，
Ｃｏｌｌｏｂｅｒ


ｔ


４
第章引言
一




等人
２
提出了个句子含义识别的卷积神经网络模型通过输入的句子识别句


一
１
［］
，，
子中的词语标签、词语性质、以及找寻相似结构的句子。整个网络进行训练， 

联
合使用重量共享实例所有这些任务多任务学习Ｚｈａｎｇ等人提出了种字符


一
，
。
级卷积网络（ＣｏｎｖＮｅｔｓ）进行文本分类的实证研究。Ｌａｉ等人［

２３
］
使用经典的递归


卷积神经网络（ＲＮＮ）来进行文本分类。在模型训练过程中，

当学习单词表示


时，使用特定的递归结构来识别文本之间的关系，该方法与传统的固定大小的卷


积窗口相比这可能会引入更少的噪声同时还采用了个最大池化层该层可


一
，
。，
以自动判断哪些单词在文本分类中起关键作用，以捕获文本中的关键组成部分 

。
等人提出了个新颖的统模型ＣＬＳＴＭ用于句子表示和文本分类
２４］一一
Ｚｈｏｕ［－
， 

。
ＣＬＳＴＭ利用ＣＮＮ提取系列高级短语表示形式并馈入长期短期记忆递归神


一
经网络（ＬＳＴＭ）中以获取句子表示形式。ＣＬＳＴＭ－
能够捕获短语的局部特征以


及全局和时间句子语义。Ｊｏｔ
ｙ等人［
２５］
提出使用深度神经网络（ＤＮＮ）学习有意


义的特定于任务的嵌入，然后将其合并到用于多任务设置的条件随机场（ＣＲＦ 

）
模型中，从而对复杂的图结构进行联合学习。尽管ＤＮＮ在接受训练以生成嵌入



时获得了竞争性的结果，但是利用嵌入和任务之间的依存关系的ＣＲＦ可以在各



种评估指标上显着，持续地改善结果 

。
现有ＮＬＰ领域与深度神经网络结合的研究中，可以发现无论是ＣＮＮ还是



ＲＮＮ模型，当输入的文本信息数据级非常庞大的时候，模型难以有效的学习到


合理的文本含义表达，有学者在此基础上引入了注意力（Ａｔｅｎｔｉｏｎ）机制。注意



力机制是深度网络中的个模块通过对不同的词向量赋予不同的权重值对不


一
，，
同的句子赋予不同的权重表示，
能够直观地观察到句子中不同词语之间的联系 

，
文本中不同句子的上下文关系可以有效地提高文本分类准确率Ｙａｎｇ等人［
２６］


，。
提出了个用于文档分类的分层注意力网络他们的模型具有两个鲜明的特征
一
。 

：
具有反映文档层次结构的层次设计具有在单词和句子层次上应用的两个层次的

 ；
注意力机制，使其能够越来越少地参与构建文档表示形式时的重要内容。Ｓａｃｈａｎ


等人＠提出自学习框架，分别构建了迭代训练问题生成模型与答案选择模型。 


在
模型的训练过程中，也引入了Ａｔｅｎｔ
ｔｉｏｎ机制的序列间模型，用以解决文本段落


生成等问题。整个模型的训练采用了无标签的数据来标记隐标签，从而达到了扩


充训练数据集的目的，整体模型的效果要比同类型模型更好 

。
１．２３．
事理图谱在ＮＬＰ以及司法领域应用现状


基于不同任务和不同知识的答案选择方法有效地扩增了数据集所蕴含的有


效信息通过外部些逻辑信息的辅助将问答模型或是分类模型的效果提高到


一
，，
新的层次，是近年司法领域研究的热点与突破点。为了探讨职业法律意义与社会




５
北京邮电大学工学硕士学位论文
 


认知之间的关系，Ｌｉａｎ等人Ｗ使用知识图谱来构建社交媒体与专业法律数据法



“ ”
律实体之间的关系网络并介绍知识图谱的相关方法知识图谱这术语可



一
，。
”
表示广义上的知识库
“
以有两层含义如果认为知识图谱是种用以存储知


一
。，
“ ” “ ”
识的本体那么事理图谱则是种存储事理逻辑关系的知识图谱
一
，


。
不同的事件是构成人类社会的重要因素之人类的各种社会学活动或行为



一
般是由不同的事件驱动的且不同的事件之间往往会存在着常识意义上的因果


一
衍化关系。例如，人类在下班后会回到自己的家中，生病的时候会去寻找医疗诊



断等这种事件之间相继发生的演化规律和模式是种很有价值的知识具有十


一
。，
分重要的商业和社会价值，事理图谱［
２９］
就是对这种演化规律和模式的描述。
事件


的演变和发展具有其自身的基本原理，这些基本原理使事件顺序发生。因此，


发
现事件之间的这种进化模式对于事件预测决策和知识系统的模型过程设计具有

 ，
重要的价值。
但是，
传统知识图主要关注实体及其关系，而忽略了现实世界中的


事件 

。
事件的演变和发展具有其基本原理，导致事件顺序发生。因此，
发现事件之


间的这种进化模式对于事件预测，决策和对话系统的场景设计具有重要的价值 

。
Ｌｉ等人＿提出了事件进化图（ＥｖｅｎｔＥｖｏｕｔ  ｌｉｏｎａｒｙ  Ｇｒａｐｈ，ＥＥＧ），它揭示了事件



之间的进化模式和发展逻辑具体的做法是通过识别事件之间的顺序关系和每个

 。
顺序关系的方向来构造ＥＥＧ。对于顺序关系和方向识别，并且探索了４类特征


的有效性：基于计数，基于比率，基于上下文和基于关联的特征，用于正确识别


顺序关系和相应方向脚本事件预测需要个模型来预测给定现有事件上下文的


一
后续事件。基于事件对或事件链的先前模型无法充分利用密集的事件连接，这可


能会限制其事件预测的能力为了解决这个问题常见做法是构造个事件图

一
。， 

，
以更好地利用事件网络信息进行脚本事件预测。
首先从大量新闻语料库中提取叙


事事件链，然后根据提取的链构建叙事事件进化图（Ｎａｒｒａｔｉｖｅ  ＥｖｅｎｔＥｖｏｌｕｔｉｏｎａｒｙ



Ｇｒａｐｈ，ＮＥＥＧ）。ＮＥＥＧ可以看作是描述事件进化原理和模式的知识库。为了解



决ＮＥＥＧ上的推理问题等人提出种可缩放的图神经网络Ｇｒａｐｈ
３
了
一
Ｌ
１
Ｓｃａｌｅｄ  

［］
，ｉ（
ＮｅｕｒａＮｅｔｗｏｒｋ
ｌ ，ＳＧＮＮ）来建模事件交互并学习更好的事件表示。ＳＧＮＮ每次


都只处理相关的节点，而不是在整个图形上计算表示，这使得整个新模型对大规


模图形可行。抽象因果关系网络是从特定网络中概括出来的，抽象事件节点由 

频
繁共现的单词对表示为了执行事理图谱中的嵌入任务Ｚｈａｏ等人３２］
设计了


一
［
。，
个双重因果转换模型，并且可以获得较为简单的因果关系模式，同时简化了事件


匹配。事理图谱也被广泛应用于智能金融、智能司法、国际关系分析等领域。


现
有针对事理图谱的研究表明，事理图谱的图谱节点均由不同的、具有实际意义的


事件构成，且在和事件相关的分类、预测等任务上取得了良好的表现，

但是还没




６
第章引言
一




有研究直接将其应用到消费意图识别、消费意图预测等其他任务。我们基于以上


的种种考量，提出将事理图谱应用于智能司法领域，

在事理图谱中引入司法关系


节点，构建更符合社会学、司法学规律的图谱模型，进而将其应用于最终的辅助


刑期界定以及法官判罚 

。
１．３本课题的研究内容


本课题通过分析司法数据集，
将结构化的信息融入事理图谱中，提升算法的


准确率和召回率同时利用对抗学习优化文本生成效果生成案件辅助判决结果
；
， 

，
并把以上功能集合成个基于事理图谱的辅助判决方案生成系统具体工作如



一
下 

：
（
１
）
基于预训练模型的混合深度刑期预测模型，基于刑事判决书，研究并构


建了基于ＢＥＲＴ和混合深度学习的刑期预测模型。
对于判决书这类长文本，为了


保留文本的结构信息，本课题使用ＢＥＲＴ作为文本向量提取工具，ＢＥＲＴ对于文



本中的关键信息有很好的把握能力。下游模型使用ＣＮＮＬＳＴＭ
－－
Ａｔｅｎｔｉｏｎ混合模


型。基于ＣＮＮ的局部特征提取能力和ＬＳＴＭ处理序列问题时更好利用上下文信


息的能力，与ＣＮＮ形成了优势互补，并且针对长文本的特征稀疏问题，引 

入
Ａｔｅｎｔｉｏｎ 机制 

。
（
２）基于刑事判决书的事理图谱构建和刑期预测模型，通过分析司法数据


集，
将结构化的信息融入事理图谱中，进行事件抽取与事件关系抽取，构建基于


刑事判决书的事理图谱，
并结合文本相似度对给定判决书进行刑期预测 

。
（
３
）
基于事理图谱的辅助判决方案生成系统，包括模型融合，将事理图谱模


型和基于预训练模型的混合深度刑期预测模型结合起来预测案件罪名及量刑系

 。
统架构设计与实现，系统架构主要分为三层，分别是数据源层、
数据分析层和可


视化层。系统功能设计与实现，依据辅助判决方案生成系统需求及上述研究点 


，
实现辅助判决方案生成，刑期预测等功能。系统框架搭建和模块集成，进行各个



模块逻辑接口设计，
构建基于ＰｙＱｔ框架，基于事理图谱的辅助判决方案生成系


统 

。
１．４ 

论文的组织结构
本课题旨在研究并实现司法领域基于事理图谱的辅助判决方案生成系统从


 ，
海量的司法文书中抽取关键信息，并进行罪名与刑期预测。
本课题主要分为六部


分，组织结构如下图１
－
１所示 

：
第
一
章为引言，首先介绍了人工智能在司法领域的研宄背景和研究意义， 

其


７
北京邮电大７ ７硕：
１：
：
丨：７位论文
：
 


次介绍了人工智能在司法领域的研究现状和研究意义着重描述了深度学习在司

 ，
法领域的研究现状，
再对事理图谱进行了简要介绍，
最后介绍了本课题的组织架


构 

。
第引￥


一
亭：
 


第二章相关技术


 

Ｉ
  ＂

，  １ 


第三章基于预训练模型第四章基于刑事判决书 
  ｜
提取特征的混合深度学习 的事理图谱构建和刑期预


罪名预测模型 测模型 

」
Ｉ    

—


｜
ｙ 
第五章基于事理图谱的


辅助判决方案生成系统


第六章总结与展望


图１
－
１文章架构图


第二章介绍本课题所涉及的相关工作，主要包括ＣＮＮ－
ｂａｓｅｄＭｏｄｅｌ 

，
ＬＳＴＭｂａｓｅｄＭｏｄｅ
－
ｌ， Ａｔｅｎｔｉｏｎ－
ｂａｓｅｄ Ｍｏｄｅｌ，知识图谱，事理图谱等 


。
第三章介绍基于预训练模型提取判决书特征的深度学习模型的研究与实现 


。
首先对本课题中涉及到的两个预训练模型ＢＥＲＴ和ＸＬＮＥＴ进行了介绍，

并对比


分析了优缺点其次介绍了提取特征之后的分类模型分别是基于

；，ＣＮＮ和ＬＳＴＭ


的文本分类模型，最后分别基于两个预训练模型提取的特征对判决书文本进行了



分类 

。
第四章介绍基于刑事判决书的事理图谱构建和刑期预测模型首先对事理图

 。
谱进行了介绍，
接着对构建事理图谱的关键技术进行了解释，
包括事件抽取和事


件关系抽取，抽取出关系之后使用Ｎｅ〇４ｊ
工具对得到的事理图谱进行可视化，


结
合文本相似度对给定判决书进行刑期预测 

。
第五章介绍基于事理图谱的辅助判决方案生成系统基于第三章和第四章得


 。
到的模型，
系统将其做了结合，
利用深度模型预测得到的罪名结合案情描述文本


进行刑期预测，
介绍了ＰｙＱ的优点ｔ，并介绍了Ｕ和功能实现过程Ｉ 

。
第六章为本课题的结论和展望，梳理本课题的工作内容，

并总结文章的成果


和不足点同时对下步的研究方向进行展望
一
， 

。


８

第二章相关技术 


第二章相关技术


针对刑事案例的辅助判决方案生成系统的实现本课题在实现将事理图谱模

 ，
型和基于预训练模型的混合深度刑期预测模型结合起来使用多模型投票来决定

 ，
预测的刑期结果。
本章首先介绍了相关理论及技术，包括文本处理的过程，
文本


分类的模型，预训练的模型包括卷积神经网络（
ＣＮＮ），文本分类模型，包括长短


期记忆网络（
ＬＳＴＭ），
两种模型分别与Ａｔｅｎｔｉｏｎ结合，知识图谱以及事理图谱的


具体理论背景与技术 

。
２．１文本处理


在ＮＬＰ的文本处理的过程中传统意义上的文本般是由字符组成文本


一
，，
处理需要将这些计算机不能识别的文本转化为概率学上的词向量以便算法模型

 ，
从中学习文本信息词向量般有两种表示方式独热表示Ｏｎｅ
一
。：
（
－
ｈｏｔ  ｒｅ
ｐｒｅｓｅｎｔａｔｉｏｎ）


和分布式表示Ｏｎｅ需要先将经过


３３
（
Ｄｉｓｔｒｉｂｕｔｅｄ  ｒｅ
ｐｒｅｓｅｎｔａｔｉｏｎ）
［］
。
－
ｐｒｅｓｅｎｔａｔｉｏｎ 
ｊ
ｉｅｂａ等分词模型分词过后的文本信息统计出全部的词汇频率，
将这些词汇频率


组建成对应文本专属的词典数据的集合，这也是词向量的构建过程。词向量的矩


阵表示形式中将与该词语对应的向量的那列标记为其他所有的列的值标


一
，１，
记为Ｏｎｅ对不同词向量的表示方式是致的转化为向量


一
０。
－
ｈｏｔｒｅ
ｐｒｅｓｅｎｔａｔｉｏｎ，
间的距离也是相同的，
无法表示出词语本身具有的词性，
含义等信息。 

而
ｐｒｅｓｅｎｔａｔｉｏｎ则可以避免这种问题，分布式表示方法将分词之后的文


本信息投影到不同维度的词向量空间，弥补Ｏｎｅ－
ｐｒｅｓｅｎｔａｔｏｎｉ表示方法会导


致的词向量维度稀疏问题同时也弥补了词向量本身在转化过程中缺失掉的语义

 ，
信息 

。
ｐｒｅｓｅｎｔａｔｉｏｎ最初是由Ｈｉｎｔｏｎ等人在１９８６年提出［
３４］
，对分词后


的文本信息使用低维的词向量表示，表示形式如［
０７５８ ０８
．
，
．１９  ０
，
－
．１２４ ０２４８
，
．


，
０５５８．．．．
］
。通过对比两个目标词向量在不同维度空间的距离信息，可以直接表示


出两个词本身之间的相似度。不同词向量之间的相同维度空间下的距离越小， 

代
表二者的相似度越大。
针对词向量之间的距离度量，有许多不同的方法。
常见的


方法有余弦相似度，欧氏距离，
马氏距离等方法。
使用更低维度的词向量来表示


文本信息，不仅解决了词向量矩阵维度稀疏问题，也表示出了不同词向量之间的


语义信息 

。
过去的研究涉及到文本时最常见的表示形式之就是单词袋尽管流行

一
，。 

，
但词袋模型有两个主要缺点它们失去了单词的顺序并且也忽略了单词的语义：， 

。


９



” “ ” “ ”
的距离相等等人
“
例如，强大，强大和巴黎。Ｍｉｋｏｏｖ
ｌ
［
３５〗
于２０１４ 

年
描述了种无监督算法用于学习句子和文本文档的向量表示该算法通过密集


一
，。
矢量表示每个文档，该矢量经过训练可以预测文档中的单词。它的构造使我们的



算法有可能克服单词袋模型的弱点。ｗ〇ｒｄ２ｖｅＣＭ将文本中的不同句子中的相同词



语映射到低维空间表示为个固定长度的词向量这也就是前文所提到的



一
，。
Ｄｂｕｔ
ｅｄｒｅｐｒｅｓｅｎｔａｔｏｎ前最主流的模型如图所亦是种典型的


一
ｉｓｔｒｉｉ
目。２－
１，
ｗｏｒｄ２ｖｅｃ 架构 

。
输入层 映射层 输出层


ｗ（
ｔ２）
 ＼
 ＳＵＭ ｗ（ｔ 

）
，
Ｚ
＋
ｗ


（ｔｌ）
ｗ（ｔ＋２）  ＾
图２
＿
１
典型ｗｏｒｄ２ｖｅｃ架构图


如图２－
１
所不，
典型的ｗｏｒｄ２ｖｅｃ包括三层：
输入层、中间层、输出层 

。
Ｗ〇ｒｄ２ｖｅＣ模型的核心思想是将目标词汇的上下文临接词汇输入预训练模型中 


，
结合上下文语义信息、文本结构信息来预测当前目标词汇的文本内发生的概率 


。
如图２－
１
所示，
对于词 … ⑴ ，
假定上下文的相关词汇的数目为２，那么可以通过


输入ｗ（ｔ－
ｌ
）
，ｗ（ｔ＋ｌ
）
，ｗ（ｔ２）
－
，ｗ（ｔ＋２）等词汇的文本内概率来预测最终目标词向量


ｗ（ｔ）的发生的概率 

。
随着深度学习的发展，ＢＥＲＴ （Ｂ  ｉｄｉｒｅｃｔｉｏｎａ  Ｅｎｃｏｄｅｒ  Ｒｅｐｒｅｓｅｎｔａｔｏｎｓ  ｆｒｏｍ
ｌ 
 ｉ
Ｔｒａｎｓｆｏｒｍｅｒｓ
３７
近期被提出之后逐渐成为的个替代者该模型主


一
ｗｏｒｄ２ｖｅｃ
１
１
），，
要使用了  Ｔｒａｎｓｆｏｒｍｅｒ＾作为核心框架，
Ｔｒａｎｓｆｏｒｍｅｒ能更彻底地捕捉语句中的不


同词汇之间的前向、后向关系；同时使用了Ｍａｓｋ ＬａｎｇｕａｇｅＭｏｄｅｌ

（
ＭＬＭ）
和Ｎｅｘ 

ｔ
１ 

０



Ｓｅｎｔｅｎｃｅ  Ｐｒｅｄｉｃｔｉｏｎ（ＮＳＰ）的多任务训练目标；与ｗｏｒｄ２ｖｅｃ相比，ＢＥＲＴ使用更


强大的机器训练更大规模的数据，使模型最终的结果达到了全新的高度，并且


Ｇｏｏｇｌｅ开源了  ＢＥＲＴ模型，用户可以直接使用ＢＥＲＴ作为Ｗｏｒｄ２Ｖｅｃ的转换矩阵


并高效地将其应用到自己的模型训练任务中 

。
ＢＥＲＴ是个多任务模型它的任务是由两个监督任务组成即ＭＬＭ和


一
，
自，
ＮＳＰＷ等人在年首次提出了ＭａｓｋｅｄＬａｎｇｕａｇｅ  Ｍｏｄｅｌ（ＭＬＭ
３９］
。ｉｌｓｏｎ  Ｔａｙｌｏｒ
［
１９５３   

）
这思想其主要的做法是在模型训练的过程中随机地从输入的词汇中 


掉
一
，ｍａｓｋ
些词向量然后通过前文所述的结合上下文的词向量信息来预测该词汇的发生


一
概率。主要的思想与ｗｏｒｄ２ｖｅｃ类似，也有部分ＲＮＮ的思想在其中。ＭＬＭ的性



质决定了该结构与Ｔｒａｎｓｆｏｒｍｅｒ的适用性。Ｎｅｘｔ Ｓｅｎｔｅｎｃｅ  Ｐｒｅｄｉｃｔｉｏｎ（ＮＳＰ）的主要


做法则是关注不同句子之间的关系判断某个句子Ａ是否是另个句子Ｂ 


的
一一
下文内容。
如果是的话，输出相应的判定参数。ＮＳＰ的训练过程更多的保有句子


之间的顺序的随机性部分数据是相邻的随机句子另部分训练数据则是不


一一
，，
相邻的随机句子通过不断地学习句子顺序这信息更好地表达了文本的语义



一
。，
信息。ＢＥＲＴ模型的本质就是在海量的数据资源的基础上通过耗费大量的物力资


源去运行监督的学习方法来学习个较好的单词表征

一
自 

。
但是ＢＥＲＴ的编码语言模型也有对应的缺点方面在模型的预训练过程


一
自，
中，引入的Ｍａｓｋ标记会去掉部分单词对应的词向量，
但是这个部分在模型后续


的微调阶段是无法看到Ｍａｓｋ标记的部分，这会导致整体模型训练过程中的性能


损失另方面在Ｍａｓｋ过程中去掉的单词词向量有些往往是没有任何关系


一
，，
；
的，相应的也会有词向量具有因果等联系关系。而在整个模型的训练过程中， 


对
于有关系的词向量，是需要获取其所蕴含的词义信息以及语义信息。正是对


ＢＥＲＴ这些缺点的考量有学者提出了种具有泛化能力的回归词向量预训练


一
，自
模型ＸＬＮｅＸＬＮｅ模型融合了当前最优归模型的思路通过最大化所



４
自回
（）
［］
ｔ。ｔ，
有可能的句子间因式分解顺序的对数似然，
从而学习文本中前后向语境、语义信


息；
ＸＬＮｅｔ模型正是使用自回归本身的特点来解决前文提到的ＢＥＲＴ的缺点 

。
ＸＬＮｅｔ与ＢＥＲＴ相比采取Ｄｅ－
ｎｏｉｓｉｎｇ 
Ａｕｔｏｅｎｃｏｄｅｒ方式不同的新的预训练 

目
标：Ｐｅｒｍｕｔａｔｏｎ  Ｌａｎｇｕａｇｅ  Ｍｏｄｅｌ（ＰＬＭ）
ｉ。同时引入相对位置编码以及分段ＲＮＮ


机制。此外还有，加大增加了预训练阶段使用的数据规模；

ＢＥＲＴ使用的预训练


数据集主要是ＢｏｏｋｓＣｏｒｐｕｓ和英文Ｗｉｋｉ数据，大小１３Ｇ。ＸＬＮｅｔ除了使用这些


数据外，另外引入了Ｇｉ
ｇａ５，ＣｌｕｅＷｅｂ以及ＣｏｍｍｏｎＣｒａｗ  ｌ数据，并排掉了其中


的些低质量数据大小分别是６Ｇ９Ｇ和７８Ｇ可以看出在预训练阶段极



一
，１１。，
，
大扩充了数据规模，并对质量进行了筛选过滤 

。
本章节设计的预训练模型中，针对文本信息的预处理过程，主要采用了



１ 

１
北京邮电大学硕丄学位论文
‘ ？
Ｉ：
７
：




ＢＥＲＴ与ＸＬＮｅ两种方式ｔ，
将大量的法律判决书数据信息转化为词向量结构， 

方
便后续的分类模型等训练与学习 

。
２２．
文本分类


２２．．１ ＣＮＮ－
ｂａｓｅｄＭｏｄｅ 

ｌ
深度卷积神经网络（
ｄｅｅ
ｐｃｏｎｖｏｕ
ｔｏｎａｌｉｌ ｎｅｕｒａ ｎｅｔｗｏｒｋｓ
ｌ
， 
ＣＮＮｓ）［
４１４２］
，是目前人


工智能领域最为流行的深度网络之虽然卷积网络也存在浅层结构但是因为


一
。，
准确度和表现力等原因很少使用。
目前常见的ＣＮＮ特指层数不定的深层结构神


经网络。ＣＮＮ的发展可以追溯到十几年前，
随着计算资源与计算能力的飞速发


展，逐渐在各个领域崭露头角。
例如：
语音识别领域，图像分割领域，图像识别


领域，
ＮＬＰ领域等。不同领域所解决的需求与问题不同，
但总的归纳来说，ＣＮＮ


可以从大规模的训练数据中学习所需要的特征信息并将这些特征信息转化为最


 ，
终的分类结果 

。
典型的ＣＮＮ架构由卷积层（
ｃｏｎｖｏｕｔｏｎ）ｌｉ
，
激活层（
ａｃｔｉｖａｔｏｎ）
ｉ
，
和池化层


（ｐｏｏ
ｌｉｎｇ）三种层次组成。以图像分类任务为例，将ＣＮＮ输出的特征向量作为全


连接层的输入，
用全连接层的输出作为最终的分类标签。目前主流的ＣＮＮ架构 

，
例如ＶＧＧ［
４３］
，ＲｅｓＮｅｔ
［
４４］
都是以上述ＣＮＮ层次架构为核心，不同层次组合而来 


。
如图所示对个大小的图像输出使用个的卷积核对其进行卷


一
＊一
＊
２－
２，
６６，３３
积的过程这是种典型的ＣＮＮ架构
一
， 

。


１
Ｃｏｖ  Ｋｅｒｎｅｌ  

２
上４  二  ｐｉ


…

－
１
 ｜
：３
 卜 
１ 
 ０ ３ ７
＇
 


－
［〇＼
ｒＴｉ｜
Ｔ＾ｆ〇
ＴＴｉ  

８
０１００１  ０ ３ ２ ２ －－－
１  ９
ｕ
００１ １ ００  ／／／


ｃｏｖ
ＴＴＴＴＴＴ
ａｙｅｒ
＇
ｌ 



＇
ＴＴＴＴＴＴ
００１０１０  １３
 ｍ／／


 ４ ｍ 

／
￣￣￣￣
￣￣
６ｘ６ ｍａｇｅｉ  １５
＿


ｉ


ｓ ｍ
图２
－
２典型ＣＮＮ架构图


１ 

２



典型的ＣＮＮ架构Ｗ包括以下各个层次结构 

。
输入层输入层是整个网络架构的输入从这层开始ＣＮＮ组建起不同



一
：，，
的网络结构将输入的特征矩阵依次运算得到下层的特征矩阵最终转化为该



一
，，
特征矩阵对应的预测分类标签 

。
卷积层卷积层是所有的网络架构中最为重要的个层次与全连接层相比

一
：， 

，
卷积层是个维度较小的层次结构卷积层的输入是上个层次结构的局部 


如
一一
，。
图所示展示了个＊
的卷积核设计卷积层的主要的是将特征矩阵进


一
２－
２，３３。目
行局部分解获得每个卷积核大小的特征矩阵的之间的代表关系从而得到抽



一
，，
象成都更高的特征信息卷积核可以将前层次结构的输出特征矩阵



一
。（ｋｅｒ
ｎｅｌ）
转化为下个层次结构的更小维度的特征矩阵每个卷积核大小的设定都是有



一一
定句可循的卷积核的每个节点的值也是有其相应含义所在
一一一
， 

。
池化层：池化层的结构类似卷积层，可以更有效地降低特征值矩阵的维度 


，
从而为最后的全连接层降低运算压力常见的结构为使用最大值设计的最大池化


 。
层（ｍａｘｐｏｏｌｉｎｇ）。池化层可以有效的加快运算速度，也可以防止模型训练过程



的过拟合问题 

。
全连接层全连接层是最后的分类结果输出之前的最后个层次结构经过



一
：。
卷积层与池化层运算过后的特征值矩阵不再具有最初输入的特征值矩阵的含义 

，
可以转为更低维度的、信息含量更高的特征矩阵 

。
输出层：
依据不同的训练目标来输出最后的结果。在常见的分类问题中，


使
用输出层得到该特征值矩阵对应的分类标签 

。
本课题使用到ＣＮＮ是为了更好地与前文所述词向量预训练模型ＢＥＲＴ等结


合，作为整体前半部分训练模型的分类模块使用。
本课题设计的实验中，使用到


了包括ＢＥＲＴ＋ＣＮＮ，ＸＬＮｅｔ＋ＣＮＮ等混合深度模型 

。
２２２  ＬＳＴＭｂａｓｅｄ  Ｍｏｄｅｌ
．．
－
循环神经网络ＲｅｃｕｒｒｅｎＮｅｕｒａＮｅＲＮＮ） 
４５］
是指类能够循环优化


一
（ｔ ｌ ｔｗｏｒｋ，
［
超参数的具有记忆能力的深度神经网络在ＲＮＮ的架构中每层的神经元不


一
。，
但可以接受不同层次其他神经元的隐藏信息，也可以通过接受自己的信息来寻



优。与其他类似结构的前向神经网络相比，ＲＮＮ更符合生物学的深度神经网络


的结构特征。目前，ＲＮＮ己经被广泛应用于语音识别领域、ＮＬＰ领域等。ＲＮＮ


整体的结构在时间层面上展开可以描述为下图，如图２－
３所示 

，
１ 

３

北京邮屯大学工学硕士学位论文




＇
 ｙｒ
？
 ｈ 
…
？
Ｖｉ
＞
／／
：
！
Ｉｌｌ


１
一］ 

＇
：［  ｔ  ｔ  言
 厂  ｔ
１   

ｔ
￣
！ｔ
 ： ：


ｔ
ｚＴ
  ａ； Ｘｒ
？
．．


Ｉ
ｌ｜
３
 ＿＿  ＿＿ 
图２
－
３按时间展开的循环神经网络


如图所示可以清晰地看出每个时间节点编号为对应不同



一
２－
３，１，２．．．Ｔ，
层次结构在进行不断的优化过程。
但是随着技术的发展，为了改善ＲＮＮ网络架


构的长程依赖问题有学者提出了新的解决方案通过引入门控制机制来控制


［
４６］
，，
ＲＮＮ的循环累积速度，
并在循环的过程中引入新的有效信息，选择性的删除掉


之前累积的无用信息这类网络架构可以统称为基于门控的ＲＮＮ  Ｇａ
一
。（ｔｅｄ


ＲＮＮ）。其中最典型的结构是：长短期记忆网络（ＬＳＴＭ） ［
４〃８］


。
图２－
４给出了 ＬＳＴＭ网络的循环单元结构的运算过程，
其计算过程为：（１ 

）
首先对模型上个时刻得到的外部状态＾和当前时刻模型的输入＆计算得到



一
／，
次模型循环结构的候选状态乂
下结合图中标记处的遗忘信息门和输


一
（２）
ＡＡ
入信息门 
＜
 来更新该层次结构的记忆节点  ；  （３）结合最终的输出信息门 

，
４
将该循环结构内部状态的隐藏信息间接传递给其他模型训练层次的外部状态 

。
 —  
 

—
ｅ￣￣￣＾￣￣￣￣—    一￣
＊
ｉ

－
［ …
ｊ 

…
 ｆ 

：
； ｆ ＞
ｍ］，二」 

ｉ
 ：
 ｉ  ｉ  ｉ  ＠ ．


；


＾ —
 ！
ｓ


＾
 
 ＇
｜   ＾ ＠ｘｔ向＊柙
＠向《拼接


图２
－
４ＬＳＴＭ循环单元结构



通过ＬＳＴＭ这循环单元的设计整个ＮＮ网络可以建立起长距离的时间


一
层面上的相互依赖关系。ＲＮＮ中隐藏状态ｈ本质上是对历史特征向量的信息存



储结构也可以称为种记忆状态在规模较小的网络结构中隐藏状态会被


一
，。，ｈ
实时重写，这种架构也被称为短期记忆网络（Ｓｈｏｒ

ｔ－
Ｔｅｒｍ  Ｍｅｍｏｒｙ）。在深度神


经网络结构中，
往往会存在长期记忆（ＬｏｎｇＴｅｒｍ  Ｍｅｍｏｒｙ
－
），这种记忆模式也


可以视为网络架构的超参数，隐含了前文提到的特征向量中的隐藏信息，
并且其


１ 

４



更新周期较慢。基于这种设计，

有学者提出了将前向ＬＳＴＭ与后向ＬＳＴＭ结合


起来的网络结构设计 

。
分类器




—
全连接层




牛
对输出向量进行融合


＂＂
￣＂＂
？ Ｊ＾
ｆ   ｆ
＾


ｆ
ＩＩ  ＩＩ  

Ｉ
ＩＩ  Ｉ
Ｉ  

Ｉ
！     ｉＩＩ


Ｉ
ｊ  ｌｉｎ ｜ ｈｎ－
１  ｜ ｈ＋ｉ１  ｈ  ｈｉ
ｉ
ｌ


ｉ
＾

     
       
— 


ｌＩｌＩ
ｌ
 ＬＳＴＭ  ＬＳＴＭ   ＋
 ＬＳＴＭ  ＬＳＴＭ  ？   ＬＳＴＭ ？
１－ — —
ｈＯ


    
．．．
？
ｉＩＩｉ丨
Ｉ丨ＩＩＩＩ 

１
ｉ  ４  ？  ？  ｆ  ４

 ｉｉｉ
ｉ
ｉ   ＩＩＩ  

Ｉ
  Ｈ

ｈ＋
ｌｈ２ｈ１


ｌ
ｌｉｌ  丨
，
？ＬＳＴＭ  ？ ＬＳＴＭ  ？ ？ＬＳＴＭ ？ ＬＳＴＭ 
￣
？ＬＳＴＭ


—
— — —
－
－
ｈＯ．．． 
￡ Ｚ ２ ￡ Ｚ


ｘｌ  ｘ２ ｘｉ ｘｉ
＋１  ｘｎ


图２
－
５双向ＬＳＴＭ模型


如图２－
５ 所示，ＢＬＳＴＭ英
ｉ
文全称为  Ｂｉ
－
ｄｉｒｅｃｔｏｎａｉｌ  ＬｏｎｇＳｈｏｒｔ

－
Ｔｅｒｍ  Ｍｅｍｏｒｙ


［
４９］，是由前向ＬＳＴＭ模型与后向ＬＳＴＭ模型组合而成的模型。ＢＬＳＴＭ
ｉ
的主要


实现有以下两个部分，前向ＬＳＴＭ按照模型架构空间顺序从前往后传播特征矩


阵所含有的信息后向ＬＳＴＭ则是从文本中的最后个词向量结构开始按照模


一
型架构空间顺序从后向前传播特征矩阵，也就是词向量信息。前后向模型是相互



独立且互不干扰的模型架构，ＢＬＳＴＭｉ
最终的输出是两层隐藏层的集合


…
人］
，其中／ｚ
，
表不在时刻的特征矩阵。
将融合后的输出向量送入全


连接层进行进步的特征提取也就是传统意义上的降维最后输出到分类层
一
，， 

，
也就是ｓｏｔｍａｘ层输出最后的分类结果 

。
本章节中主要使用到了 ＢｉＬＳＴＭ，
作为与前文所述ＣＮＮ类似的结构，
用作


整体模型框架的分类模型，
分别使用了包括ＢＥＲＴ＋ＢＬＳＴＭ ＸＬＮｅ＋ＢＬＳＴＭ
ｉ，
ｔｉ


等
混合深度模型 

。
２２３
．．Ａｔｔｅｎｔｏｎｉ
－
ｂａｓｅｄ  Ｍｏｄｅｌ
由于本课题使用到的法律判决书文本数据具有文本信息较长且文本信息含



量密度较低等特点，
文本使用了ＢｉＬＳＴＭ对文本进行分类时，
设定了文本信息


的固定长度为１５００个字节。
但是在网络训练的过程中，发现网络无法有效地对


１ 

５
北京邮电大学工学硕上学位论文
 


关键信息形成记忆，由于这些关键信息的密度低，甚至会遗忘这些关键信息， 


从
而无法对最终的判决结果作出正确的输出。基于这种考量，
我们关注到Ａｔｔｅｎｔｉｏｎ


机制可以有效地解决这个问题。Ａｔｅｍｉｏｎ机制［

５ｔ）
，
５１
］
可以引入到特征提取的预训练


模型中，也可以引入到分类模型训练中，Ａｔｔｅｎｔｉｏｎ可以将不同的词向量设置不同


的特征权重值，从而使得无论是预训练模型还是分类模型都都可以重点关注具有



重要信息的特征向量。从而可以有效地捕捉到文本中不同句子含有的语义信息 

，
着重于对最终判决结果具有重要影响的词汇，最终可以有效地提高结果准确率 


。
等人在对文本信息分类的问题上提出了层次模型结合ＢＬＳＴＭ



５２
Ｙａｎｇ［］
Ａｔｅｎｔｉｏｎｉ
网络结构的模型设计，
其最终的分类准确率优于其他类似方法。图２
－
６展示了结


合Ａｔｅｎｔｉｏｎ机制的ＬＳＴＭ架构图 

。
分类结采


Ｓｏｆｔｍ  ａｘ分类器


． ■  

＇


＊
ｈ
ａｌ  ａ２ ａｉ ａｉ＋１  ａｉｌ


１２  ｈｉ  ｌｎ＋１  １
： 

卩
ｈＯ
—
？ＬＳＴＭ
—
？ ＬＳＴＭ  —
？ ．．．
 ＬＳＴＭ 
—
？ＬＳＴＭ 
—
？ ．．． 
—
＞  ＬＳＴＭ


ｘｌ  ｘ２ ｘｉ ｘｉ
＋１  ｘｎ


图２
－
６结合ａｔｔｅｎｔｉｏｎ机制的ＬＳＴＭ架构


由图２－
６可以看出，Ａｔｅｎｔｉｏｎ机制可以自动发现那些对于最终分类结果起到



关键作用的词汇信息，
并且对不同句子捕捉到不同权重配比的语义信息。与前文


中提到的ＬＳＴＭ架构相比，
引入Ａｔｅｎｔｉｏｎ机制的ＬＳＴＭ结构对输出的隐藏层进


行了改进对不同特征向量赋予不同的权重
，〇
，
，
＋，
？？？
，
《
？
这些权重代表了不同词向


量信息的重要性，
权重越高，对整体文本信息的重要性就越大，就越能影响最终


的分类准确率 

。
１ 

６



本课题中将Ａｔｔｅｎｔｉｏｎ机制与Ｂｉ
－
ＬＳＴＭ网络架构结合，在整体的模型中， 

重
点关注不同词向量之间的权重配比根据不同时间的输出结果计算不同特征向量

 ，
的注意力概率分布，最终得出用以分类的特征矩阵 

。
２３．
知识图谱


２３
．．１知识图谱


知识图谱主要是展示系列知识内容发展以及



５４
Ｋｎｏｗ
５３
Ｇｒａｐｈ 
一
ｅｄ
［ ’ ］
ｇｅ
（丨  ），
相互之间的结构关系的种可视化技术其主要的是为了描述知识的背景 


载
一
。目、
体通过数据挖掘与信息处理得到知识之间相互的关系其主要的技术背景包括

，。 

：
概率数学、图形学、等学科与计量学等传统统计方法结合。知识图谱在逻辑结构



上可以划分为两个层次架构模式层与数据层数据层主要包括系列的具有事


一
：。
实背景的知识数据，主要的表达形式为（知识实体１，相互关系，

知识实体２ 

）
这样的三元组结构，主要的存储形式为数据库存储。

本体库是知识库结构性的模


板，通过本体库构建起的知识库具有更强的结构逻辑性，
结构冗余很小 

。
知识图谱的典型体系架构如下图２－
７所示 

：


ｒ
ｍｍｍｍ     一
．  数椒幣合 ｎｍｔｍ 如漱！
秦 

：

￣－￣ — — 
ｉ  

ｉ
  实傳袖取


— —
 ＊
半结构＆的数機  ｒｒｒ；
 
    


１ｎ
卜靡＿
 ｜
１  ：
Ｔ
： 
￣￣￣ 


— 」  ｜
知
｜



   ＊８Ｓ＊＆ 


图２
－
７知识图谱体系结构


知识图谱主要包括对结构化的数据半结构化的数据以及非结构化的数据的

 、
处理。
其中结构化的数据可以直接送入信息整合模块，其他两种类型的数据则要


进行相应的处理，通过知识抽取技术来从中提取实体信息、关系信息以及属性信


息。在知识融合模块，将前文抽取出的不同信息进行融合，
消除实体对象之间的


歧义信息，形成最终的知识库体系 

。
知识抽取是整个知识库构建的核心步骤其主要的面对对象是开放的链接式

 ，
数据通过计算机半动化的手段去抽取非结构性知识蕴含的单元信息每 


个
一
，
自。
１ 

７
 


知识单元都包括知识实体、相互关系以及知识属性三个必要的知识元素，

后续所


有的工作都是在此基础上完成。知识抽取主要有三个步骤 

：
（
１
）实体抽取：也称为实体识别（ｎａｍｅｄ  ｅｎｔｉｔ
ｙ ｒｅｃｏｇｎｉｔｏｎｉ，ＮＥＲ），
特指从


非结构性的原始语言数据中自动识别出知识实体知识实体是整个知识图谱最基

 。
本的元素，抽取出的实体的完整性以及准确性将直接绝对最终的知识库的质量 

。
（
２）关系抽取：获取知识间的关系也就是实体间的语义关系是关系抽取的 

目
标主要的方式是通过人工构建语义模板以及语义信息的规则结构来识别实体间
。 

的关系现在的主要做法是通过构建实体间的关系模型来替代前文提到的人工语
。


义模板以及结构规则 

。
（
３
）属性抽取：属性抽取是面对知识实体，通过知识属性来构建对实体的描


述。实体属性可以看作是知识实体与实体对应的属性之间的连接关系，也可以将


属性抽取视为种非典型关系抽取
一


。
在第章内容曾提到深度学习为代表的表示学习模型取得了长足的进步



一
［
５５，
５６］
，研究者们会将实体的语义信息表示为低位向量，通过数据信息到低维向量


的映射，在低维空间里学习知识实体的本身的信息，
实体之间的关系信息以及实


体的属性信息。
构建在知识的背景下的知识库称为成为ＮＬＰ越来越重要的组成 

。
由于知识图谱本身的知识来源较为混杂，知识本身的质量水平可能不髙， 


知
识之间的关联性不确定等问题所以引入了知识的融合这构成知识融合主要


一
，
。
是将不同源的知识通过特定的规范架构进行整合，挖掘不同知识源之间的共性 


，
并对知识之间的关系进行梳理与提炼，
最终可以形成髙质量的知识数据库。
随着


ＮＬＰ领域的不断进步，也有学者对成熟的知识图谱体系提出质疑，认为知识之


间的逻辑性在提取的过程中被忽略掉，而在有些背景下，例如本课题的司法领域


背景下事理逻辑是极为重要的法律过程这就引出了事理图谱这概念
一
，， 

。
２３２．．
事理图谱


事理图谱Ｅｖｅｎｔ  ＬｏｇＧｒａｐｈＥＬＧ）
５７
是个主要用于描述事理逻辑关系


一
［］
（ｉｃ ，
的知识库，
核心是事件之间的时序上的演化与规律过程。在可视化的结构上，


事
理图谱往往被设计成个有向有环图不同的图的节点代表不同的事件有向边


一
，，
代表事件之间时序上的逻辑关系。理论上，事理图谱中的图的节点：

事件是特指


具有定抽象程度的泛化事件表示为抽象语义完备的谓词短语或句子也可


一
。、，
以表示为可变长度的结构化的主体事件词客体多元组其中必然包含



一
、、、，
（）
个事件词，
标志事件的发生 

。
“ ” “ ” “ ”
例如，虽然脱离了具体的场景，
但吃火锅，看电影，
去机场 

，
” “ “ ”
仍是合理的事件表达
“ ”
地震；但做事情，
吃等事件由于过度抽象， 

属
１ 

８



于不合理或不完整的事件表达。事件词可以是动词或名词，

但是绝大多数事件都


是动词触发的。其中，按动词的内容意义进行划分，可将事件分为如下表所示的


动作类事件状态类事件关系类事件与能愿类事件四个大类

５８５９］
［，
、、 

。
表２
－
１四类事件


事件分类
  示例
｜
动作类事件 
吃．．．
，
．．
… 看．．．
，走，跑等 


状态类事件 
正在＊？＊
 ，
做过？？》
，
变成＊？？
等 


关系类事件是？．．
，
为？？？
，
分为．？？
，组成？？？
，
构成．？


等
會

能够？？？
，愿意？？？
，应３ ？？？
，
值得？？？


等
“ ” “ 

”
前文所提到的知识图谱这术语可以有两层含义如果认为知识图谱

一
“ ”
表示广义上的知识库是种用以存储知识的本体那么事理图谱则是 

种
一一
，，
“ ” “ ”
存储事理逻辑关系的知识图谱；如果认为知识图谱特指狭义上现阶段以



谷歌、百度等为代表所构建的以实体为中心、用于提升用户搜索体验的知识库 

，
” “ ”
事理图谱知识图谱
“
那么便是与相并列的种新型常识知识库
一


。
表事理图谱与知识图谱的区别与联系
－
２２
 



事理图谱 
知识图谱 


研究对象 
谓词性事件 
体词性实体 


组织形式 
有向图 
有向图 


知识形式 
事理逻辑关系 
实体的属性与相互关系


确定性 多数为不确定的 多数为确定的


事理图谱与知识图谱的区别与联系如上表２２－
所示，可以从研究对象、组织


形式、主要知识形式和知识的确定性四个方面进行研究。知识图谱的主要研究对


象是体词性实体，而事理图谱的核心研究对象为谓词性事件。虽然二者均以有向


图作为组织形式，但是对知识的表示却存在差异。事理图谱注重对事理逻辑的发


掘，以事物之间的逻辑作为图的边结构，而知识图谱则是对实体的属性探究以及


实体间的相互关系作为主要的结构单元事理图谱主要刻画的是事件间的相继发

 。
生的不确定关系，而知识图谱研究的则是确定性的事件关系 

。
本课题正是基于这些考量，聚焦于相似的历史案例分析，

构建针对刑事案例


的事理图谱关系，将案例之间的相似性作为维度考量。
本课题选取基于规则匹配


的方法识别法律判决书文本不同句子中的因果关系。在过去针对法律文本的研究


中，法律文本中的因果关系主要包括明确因果句和模糊因果句两种形式。
明确因


果关系的句子具有特定的标识词，可以据此采用规则模板的方式抽取因果对。 


在
１ 

９



此基础上，构建了司法案件相关事理图谱。
最终，将基于司法事理图谱的辅助判


决方案生成与基于深度学习的预测模型结合起来进行包含案件罪名及量刑的辅

 ，
助判案结果的生成 

。
２３３
．．Ｎｅｏ４ｊ
Ｎｅ〇４是个将结构化的数据信息存储到网络而不是传统意义上的ＱＬ 


表
一
ｊ
Ｓ
单中的具有极高运算性能的无ＳＱＬ的数据库本质上来说Ｎｅ〇４是个基



一
，，
。，
ｊ
于磁盘存储的嵌入式结构的引擎同时Ｎｅｏ４也可以看作是个高性能


一
，Ｊａｖａ。，
ｊ
的图形引擎，
本身具备所有的数据库具备的特性 

。
事理图谱从本质上来说是种基于图的数据存储结构由事件节点与有向边



一
组成整个事件图的事件节点就是知识图谱中的实体由个唯的Ｄ标记
一一
。，Ｉ 

，
有向边用于连接不用事件并代表了事件之间的逻辑关系Ｎｅ〇４作为种经过



一
，。
ｊ
特别优化的图形数据库，主要优势在于 

：
数据存储：Ｎｅ〇４ｊ使用图的结构存储数据信息，避免了与传统数据库类似



的存储过程，可以存储图的节点、属性和边。属性、节点都是分开存储的，属性


与节点的关系构成边，
极大地提高了数据库的相关性能 

。
可视化：Ｎｅ〇４ｊ自带的可视化功能，

在构建好数据库之后，通过命令行进入


到Ｎｅ〇４的管理后台ｊ
，即可以通过Ｃｙｐｈｅｒ语句对数据库选择数据进行可视化 

，
或者通过点击节点也可以完成可视化工作 

。
２４．本章小结


本章介绍了文本分类的技术要点与实现，词向量的提取技术，
从ｗ〇ｒｄ２ｖｅｃ


展开讲述ＢＥＲＴ以及ＸＬＮｅ的应用ｔ，主要做法是构建预训练模型，用词向量这


形式把文本中的词转化到低维稠密的向量空间同时根据词向量之间的不同距


一
离度量来描述不同词汇之间的语义相似度。２２．
节介绍了刑期预测预训练模型中


的深度学习架构，包括有用于文本分类的ＣＮＮ模型，从ＬＳＴＭ模型引申 

到
ＢＬＳＴＭ
ｉ模型，最后介绍了在ＢＬＳＴＭ
ｉ
模型中引入了Ａｔｅｎｔｉｏｎ机制。２３．
节着重


介绍了与司法领域结合紧密的知识图谱理论体系并在此基础上引出事理图谱这

 ，
概念并将事理图谱与司法领域有机结合起来最终通过融合基于司法事理



一
，。，
图谱的刑期预测模型与基于深度学习的预测模型使用可视化界面制作了最终的

 ，
辅助判决方案生成系统 

。
２０



第三章基于预训练模型提取特征的混合深度罪名预测模型 


第三章基于预训练模型提取特征的混合深度罪名预测模型


本章基于合作项目提供的判决书文本进行了特征工程分析和研究判决书文

 。
本本身具有行文规范模式统的特点方便我们提取特征同时判决书也具有



一
，，。
文本长度偏长的特点，因此我们根据判决书的特点使用既能保存文本特征，又能


处理长文本，充分利用上下文含义的数据预处理和特征提取方法。
本章首先研究


了当前基于Ｔｒａｎｓｆｏｒｍｅｒ架构的两种预训练模型的原理和特点，
并和之前传统的


特征提取工具Ｗ〇ｒｄ２Ｖｅｃ做对比分析优劣，之后分别使用这三种预训练模型作为



上游特征提取工具，
下游任务选择文本分类任务。
罪名预测，
本质上是对不同刑


期的判决书进行分类。最后对三种预训练模型的结果进行比较和分析 

。
３．１数据获取与预处理


３．１．１数据获取


为了验证本课题所提出模型的有效性我们从中国裁判文书网上获取刑事案

 ，
件的判决书。中国裁判文书网，是目前中国最大的司法数据公开网站，网站上收


录的包括中央到地方法院的判决为了排除其他因素影响和保证实验的统性
一
。 

。
我们选取的判决书在个规定的长度内经统计％以上的判决书的长度在



一
。，８０
１５００字左右，因此，我们选取了在１０００字和２０００字之间的判决书作为我们的



实验数据 

。
通过筛选，最后我们得到了２４９４２份刑事判决书作为训练数据。
按照９：  

１
的比例。２２４５２条样本作为训练集，２４９０条数据作为测试集 

。
本章节的目的是通过建立模型，对输入模型的判决书进行罪名预测。在收集



到的判决书中，
共有十种犯罪类型，
分别是 

：
（１）故意杀人；
（２）盗窃；
（３）故意伤害；
（４）抢劫；
（５）强奸；（６ 

）
危险驾驶；
（７）交通肇事；
（８）虚开发票；
（９）诈骗；
（１０）走私，
贩卖 

，
运输毒品 

。
此处摘选了篇故意杀人的判决书作为样例由于判决书整体文本较长 


篇
一
，，
幅所限选择篇较为简短的判决书作为展示内容如下

一
，， 

：
丹东市振安区人民检察院指控，被告人李某某与被害人鲁某某系邻居关系 


，
多年来矛盾不断。２０１３年１２月８日１２时许，二人因琐事发生争吵，鲁某某报



警民警接报警赶到现场在民警向双方了解情况时被告人李某某从家中拿出
。 
 ，，
２ 

１



把三齿钉耙在鲁某某头部打了下造成鲁某某开放性颅脑损伤现场民警



一一
，，。
将李某某的钉耙夺下将其制服，李某某仍扬言要杀死鲁某某。公诉机关认为， 


被
告人李某某的行为触犯了《中华人民共和国刑法》Ｕ
之规定，应以ｎ罪追究其


刑事责任被告人李某某犯罪未遂。，可从轻或减轻处罚。
附带民事诉讼原告人鲁


某某请求判令被告人李某某赔偿医疗费４５８７９．３６元，误工费２２４２．２４元，护理费


３０６８．１６元，住院伙食补助费４８０元，交通费６４元，伤残赔偿金４６０４０４元，


精
神损害抚慰金６９０６０元，护理依赖４８９９３０元，今后治疗费１００００元，共计


１０８１１２７７６ ．
元 

。
由上以及其他决书可以抽取出判决书的格式为：（１）当事人信息；

（２ 

）
案件描述；
（３）当事人被起诉罪行；
（４）影响因素（如是否自首，是否犯罪未


遂）；
（５）判决结果 

。
３．１．２数据预处理


数据的质量决定着最终模型分类结果的好坏，为提高数据质量。对裁判文书



进行相应预处理。
具体方法如下 

：
首先去除些缺失重复以及犯罪嫌疑人不止个的判决书样本
一一
，， 

。
其次，
从裁判文书的内容可知，文书前两段是对嫌疑人的基本信息描述， 

对
刑期预测任务来说属于无效内容，文本内的各类姓名，地点，时间，
手机号， 

身
份证号车牌号等也属于无效信息，对判决书样本中的这些内容进行删除 

。
对于本课题研究的判决书，文本长度在１０００２０００－
字，而ＢＥＲＴ为了保证训


练速度将最大序列长度限制为因此为了保证模型进行比较时的统 

性
一
，５１２，，
和模型的训练速度本课题将所有判决书的文本统至字获得判决书文本



一
，５１２，
特征向量首先要解决的问题就是如何处理超过５１２个字的文本 


。
主要有两种解决办法 

：
１）截断法


通常情况下，文本的关键信息在文本的开头或者结尾，因此，可以选择只留


开头的文本只留结尾的文本或者依靠经验按照比例选择部分开头的文本和



一
，，
结尾的文本 

。
２）级联法


首先将输入文本分成ｋ
＝
Ｌ／５１０块，Ｌ为文本的长度将每块文本输入模型去

 ，
生成ｋ个表达，
接着分别使用均值池化、最大池化和自注意力机制去合并ｋ块表


达 

。
Ｐａ
ｐｐａｇａｒｉ  ［
６ °］
对这几种方法做了研究，
最终得到，
在截断法中，选择前１２８


２２





个字符和后３８２个字符，在文本分类上的效果最好，

因此，
本课题也选择这种处


理方法。
预处理后，取经过预处理后的每份判决书的前１２８个字符和后３８２个字


符输入模型获取文本特征向量 

。
３２．
模型介绍


３２
．．１ Ｔｒａｎｓｆｏｒｍｅｒ  模型


Ｔｒａｎｓｆｏｒｍｅｒ模型的结构如图３
－
１所７Ｋ 

：
Ｏｕｔ
ｐｕｔ
Ｐｒｏｂａｂｉｌｉｔｉ
ｅｓ




ｔ
Ｉ  Ｓｏｆｔｍａｘ  

１


ｔ
ｆ  ｌｉｎｅａｒ  

］
Ａ  ｔ
Ｊ


 Ａｄｄ  ＆  Ｎｏｒｍ  Ｈ
－
Ｉ 

ｎ
Ｆｅｅｄ


Ｆｏｒｗａｒｄ


（  ｆ  ＞ 【
Ａｄｄ  ＆


ｐｊ 
— 

ｍ
ｏｄ Ａ
ｔｔｔｅｒｔｏｎ

 ｉ
一

Ｆｏｒｗａｄｒ  ａ ａ ｌ Ｎｘ


ｈ


—
１  Ａｄｄ  ＆  Ｎｏｒｍ


皱 ‘吆  ｍ
ｐｉ
ｙｕｆ
■
ｔｉ
－
Ｈｅａｄ  Ｍｕ
ｒｆｋｅｄ
ｅ
ｌ


ｔｉ
－
Ｈｅａｄ


Ａｔｔｅｎｔｉ
ｏｎ Ａｔｔ
ｅｎｏｎ

 ｔｉ
Ｌ＿
３＝＾


Ｐｏｓｉｔｉ
ｏｎａｌ
ｌｙＴＸ  Ｐｏｓｉｔｉｏｎａ 

ｌ
Ｅｎｃｏｄｉ
ｎｇ  Ｅｎｃｏｄｎｇ

 ｉ
Ｉｎｐｕｔ  Ｏｕｐｕｔ ｔ
Ｅｍｂｅｄｄｎｇｉ
 Ｅｍｂｅｄｄｎｇ ｉ
１  

Ｉ
Ｉ
ｎｐｕｔｓ  Ｏｕｔｐｕｔ 

ｓ
（
ｓｈｉ
ｔｅｄ  ｒｇｈ
ｆｉ
ｔ


）
图３
－
１ Ｔｒａｎｓｆｏｒｍｅｒ结构示意图


本质上是个Ｄｅｃｏｄｅｒ结构如图所不输出的序


一
ＴｒａｎｓｆｏｒｍｅｒＥｎｃｏｄｅｒ－
，３
－
１，
列，通过左侧的Ｅｎｃｏｄｅｒ进行编码之后，再将隐含表示输入Ｄｅｃｏｄｅｒ进行解码 


。
（１ ） Ｅｎｃｏｄｅｒ


Ｅｎｃｏｄｅｒ由六个图３
－
１
中左侧单元组成，
每个单元由多头自注意力制模块


２３






（Ｍｕｌｔｉ
－
ＨｅａｄＡｔｔｅｎｔｉｏｎ）和全连接前向网络模块（Ｆｅｅｄｆｏｒｗａｄ）组成。由图可见 


，
为了解决深度的网络的梯度消失和梯度弥散问题，
都增加了残差连接 

。
Ｋｅ
ｙ
ｌ
 Ｋｅｙ２ Ｋｅｙ３ Ｋｅｙ４
ｊ
… …


；
＾

一 “
￣＿ｉ — 一
「 
ｔ


｜


０


１


＊
Ｎ
阶段
＂

１
Ｑｕｅｒｙ 

（
ｆ【ｑｋ，）
＾
￣
｛
＾Ｑ〇｛＞
ｉ
）
￣
｛
Ｆ《Ｑ？？
ｉ
）
￣
＾
ＦＫ？ｑ，
ｉ
）ｊ
 

｜
ｓｌ  ！
ｓ２  ｓ３  ｓ４  ：：：：！
＇


，
＿
、＇  Ｘ Ｖ＜ 、ｆ
 


＞
类ＳｏｆｔＭａｘ〇归一
化 卜 … －
阶段 

２
Ｗ ｗ Ｗ ４／
 

Ｉ
ａｌ  ａ２ ａ３ ａ４ 
丨
；；
－
；／


卜
￣
￣￣￣￣
 ＊— 丨
阶段
￣￣￣
￣
  ＊ … …

Ｉ  

３


？


？
Ｖａｕｅ！  ￥ａｕ＃２  Ｖａｔｕｆ３  Ｖａｙｅ４
ｌ

 ｌ
ｌ


４


２
 

１
 
 


图 ３ Ａｔｔｅｎｔ机制


－
２  ｉ  ｏｎ
图３
－
２是Ａｔｅｎｔｉｏｎ机制的原理解释，
给定输入序列中的某个元素Ｑｕｅｒｙ， 

通
过计算Ｑｕｅｒｙ与各个Ｋｅｙ的相似值，
得到每个Ｋｅｙ对Ｖａｌｕｅ的权重系数；第二步


对权重进行归化第三步将最终得到权重和数值进行内积得到最终的注意力


一
；，
数值。
用公式表达为 

：
ｈ ＝Ａｔｔ
｛｛ｑ，
ｋ）ｖ），
 （
３
－
１


）
其中／？是我们最终得到的表达，
ｇ指的是Ｑｕｅｒｙ，々是与Ｑｕｅｒｙ计算相似度


的ｋｅｙ，ｖ是每个ｋｅ
ｙ对应的值 

。
Ｓｅｌｆ－
Ａｔｅｎｔｉｏｎ即是Ｑｕｅｒｙ序列和Ｋｅｙ序列相同，是
一
个序列内部元素发生


的Ａｔｅｎｔｉｏｎ机制，
即Ｑｕｅｒ
ｙ
＝
Ｋｅｙ＝
Ｖａｌｕｅ的特殊情况 

。
通过引入Ｓｅｆｌ
－
Ａｔｔｅｎｔｏｎ
ｉ
机制，
更容易捕捉句子中长距离的相互依赖特征 

，
２４





因为Ａｔｅｎ在计算过程中不依赖时间序列这特性直接将句子中任意


一
Ｓｅｌｆ－
ｔｉｏｎ，
两个单词联系起来，即任意两个单词的距离为１。因此Ｓｅｌｆ－
Ａｔｅｎｔｉｏｎ的引入解决


了传统ＲＮＮ受限于输入序列长度和编解码时都依赖内部个固定向量的限制
一


。
因此  Ｔｒａｎｓｆｏｒｍｅｒ  的  Ｅｎｃｏｄｅｒ  采用了  Ｍｕｌｔｉ
－
Ｈｅａｄ  Ｓｅｌｆ－
Ａｔｅｎｔｉｏｎ 模型来进行编


码，Ｍｕｌｔｉ
－
ＨｅａｄＡｔｅｎｔ
 ｉｏｎ 相当于多个  Ｓｅｌｆ－
Ａｔｅｎｔｉｏｎ 的集成，Ｍｕｌｔｉ
－
ＨｅａｄＡｔｅｎ  ｔｉｏｎ


分为三个步骤第将输入分别输入上文中所说的Ｎ个ｆａｔｅｎｔｉｏｎ中得到



一
ｓｅ
－
：，
ｌ，
个加权后的矩阵第二将个矩阵拼接成个大的特征矩阵第三将矩阵


一
８；
，８；
，
经过层全连接之后得到最终的输出
一
， 

。
（２） Ｄｅｃｏｄｅｒ


在解码器中，比编码器多了 ＥｎｃｏｄｅＤｅｃｏｄｅｒＡｔｅｎｒ
－
 ｔｉｏｎ模块，
Ｑｕｅｒｙ来自 

解
码器的上个输出Ｋ和Ｖ则来于编码器的输出解码器的为对应位置输出


一
，自。
词的概率分布 

。
３２２ ＢＥ
．．ＲＴ  模型


（１）模型简介


ＢＥＲＴ  （Ｂｉｄｉｒｅｃｔｉｏｎａｌ  Ｅｎｃｏｄｅｒ  Ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ  ｆｒｏｍ  Ｔｒａｎｓｆｏｒｍｅｒｓ  ）是 ２０１８ 

年
Ｇｏｏｇｌｅ ＯｐｅｎＡＩ团队基于数十亿级别的语料和双向Ｔｒａｎｓｆｏｒｍｅｒ模型为基础训练


得到的个预训练模型
一


。
预训练模型是当前然语言处理领域种前沿的技术手段即先通过大量



一
自，，
的语料数据训练个通用的模型然后再根据具体的下游任务比如机器翻译

一
，， 

，
实体识别或者问答系统等等，
有监督的根据下游任务训练，
精加工（ｆｉｎｅ－
ｔｕｎｅ 

）
模型，使之适用于具体应用。ＢＥＲＴ模型在提出后取得了十分惊人的成绩，在机



器阅读理解顶级水平测试ＳＱｕＡＤｌ．ｌ多个指标超越人类，在１１
种不同ＮＬＰ测试


中也取得了最好效果包括将。ＧＬＵＥ基准推至８０４．％  （绝对改进７６．  ％ ），ＭｕｌｔｉＮＬ 

Ｉ
准确度达到８６７．％ （绝对改进率５６．％ ）等 

。
（２）模型结构


２５


 


ＢＥＲＴ（
Ｏｕｒｓ


）
丁 丁
｜  ＊
 １２
…


Ｎ
（
Ｔｒｍ  Ｔｒｍ
Ｊ  ｆＴｒｍ
）


ｉ   ｍ  Ｅ
ｉ
ｉ
…
ｉ ＆ 

ｉ
图３
－
３ ＢＥＲＴ模型架构


ＢＥＲＴ的模型架构如图所示图中的Ｔｒｍ即是上文中的个Ｔｒａｎｓｆｏｒｍｅｒ
一
３３
－
， 

单元，ＢＥＲＴ提供了简单和复杂两个模型。
对应的超参数如下 

：
ＢＥＲＴＬＡＲＧＥ－
： Ｌ＝
２４， Ｈ＝
１０２４， Ａ＝
１６ 

；
ＢＥＲＴＢＡＳＥ－
： Ｌ＝
１２， Ｈ＝
７６８， Ａ＝
１ 

２
在上面的超参数中，Ｌ表７Ｋ训练模型网络结构的层数（即Ｔｒａｎｓｆｏｒｍｅｒ  ｂｌｏｃｋｓ



的数量），Ａ表示Ｍｕｌｔｉ
－
ＨｅａｄＡｔｅｎ  ｔｉｏｎ中注意力机制设计的数量，Ｈ代表最后得



到的Ｅｍｂｅｄｄｎｇｉ
的向量维数 

。
ＢＥＲＴ输入的编码向量是３个嵌入特征的单位和，

如图３
－
４所示 

：
  ｓＨ 
ｎＰｕｔ
，
！
？＊，
？ｍｙ １
ｄｏｇＩ？？ Ｈｔ
ｅｓＰａｙ
＊
ｌ
？＾  ｌ


ｉ
 
：
｜
ｆ！
 ［ ［ 
｜
Ｊ
；
｜｜
［
ｊ
Ｅｍｂｅｄｄｎｇｓｉ
 Ｉ
ｊ＾ＥｓＪ  ｆ 
￡
雄
 １
１ 
ｇ
＾ｌ［  ［
 Ｓ」｜  １［５＾Ｌ


？ ＋ ＋ ＋  ＋＋ ？  ＋  ？  ＋  ４ 

－
＞ 
ａｈｉ
＾ｌｓ］  ｂｊ


＾
ｅｅ
Ａｉ
．
ｊ
ｉ
．：＼］［
Ｅ
Ｅ
ＩＪｅ
Ｅ  ＥＪ ＥＥ
Ｅｅ
 Ｅ
＾
 １
：
 ［
；
〇  ＼Ｉ＼  ２Ｉ
３，，，；ｓ｜
９１ 

〇
图３
－
４ＢＥＲＴ输入编码向量示意


Ｗｏ该部分的主要的是为了将单词划分为有限长度的组公


一
１、ｒｄＰｅｃｅ
ｉ：
目
共子词单元，将这些公共子词单元作为后续的处理对象。这样可以有效地调节单



词的有效性与子词单元的灵活性之间的平衡例如被拆分成了和

‘ ’ ‘ ’ ‘ ’
。
ｇｏｎｇｉ
ｇｏｉｎｇ 

；
２、位置嵌入（ＰｏｓｉｔｉｏｎＥｍｂｅｄｄｎｇｉ）：该部分的主要目的是为了将特定位置



的单词的位置信息转化为相对应的特征向量 

；
３、分割嵌入（ＳｅｇｍｅｎｔＥｍｂｅｄｄｎ
ｇ
ｉ）：
该部分的主要目的是为了区分两个不


２６





同句子之间的关系，
例如Ｂ是否是Ａ的下文（对话场景，问答场景等）。对于


句子对第个句子的特征值是第二个句子的特征值是
一
，０，１ 

。
（３）训练方式


ＢＥＲＴ之所以有如此好的效果很大部分原因是它创新的训练模式传统


一
，。
语言模型都是从前往后或者从后往前，
即是单向的训练模型，不能完整地理解整


个语句的语义，研究者们也尝试双向预测，把从后往前和从前往后拼接起来构成


双向预测。ＢＥＲＴ提出的方法是使用上下文全向预测，
即同时使用上下文消息来


预测目标处的信息，使用两个新的无监督预测任务对ＢＥＲＴ进行预训练 

。
①Ｍａｓｋｅｄ  Ｌａｎｇｕａｇｅ  Ｍｏｄｅ  （ｌＭＬＭ 

）
ＭＬＭ任务指的是在训练过程中随机掩盖掉些单词通过上下文预测该



一
，，
单词。在训练过程中，１５％的ＷｏｒｄＰｉｅｃｅ会被随机遮盖住。而被掩盖的单词，８０ 


％
会被直接替换为［
ｍａｓｋ］，１０％的单词会被替换为其他单词 

。
通过以上设计的替换策略，保证了在预测对应位置单词的情况下，还可以获


得到每个单词的分布式表征 

。
② 
Ｎｅｘｔ Ｓｅｎｔｅｎｃｅ  Ｐｒｅｄｉｃｔｉｏｎ  （ＮＳＰ）
ＮＳＰ的任务是判断句子Ｂ是否是句子Ａ的下文如果是的话输出Ｎｅｘ
’ ’
。Ｉｓｔ 

，
否则输出ＮｏＮｅｘ这个关系以特定形式保存在图中所示的符号中
’ ’
ｔｔ。
［
ＣＬＳ］


。
３２３
．．ＸＬＮＥＴ  模型


ＢＥＲＴ模型在提出后，在大量公开数据集和Ｂｅｎｃｈｍａｒｋ任务上达到了  ＳＯＴＡ


的表现。
但ＢＥＲＴ模型仍然具有它模型本身的局限性 

：
（１）  ＢＥＲＴ中ＭＡＳＫ之后的词相互独立
［］
。因此在预测ＭＡＳＫ词的时候［］


，
忽略了ＭＡＳＫ词与词之间的关系
 ［］
。以ＮｅｗＹｏｒｋ  这两个词为例，在分词过程中 

，
两个词同时被ＭＡＳＫ标志替代［］
，
因此在预测Ｎｅｗ的过程中，
无法使用到Ｙｏｒｋ


的信息，但显然这两个词并不独立，因此ＭＬＭ训练中的ＭＡＳＫ技巧可能会丢

 ［］
失词与词之向的信息 

。
引入ＭＡＳＫ导致的训练过程和预测过程的不致训练过程中预测


一
（２）
［］
。，
的词会被ＭＡＳＫ替代［］
，
但是在预测过程，以及其他下游任务中，
不会出现


［
ＭＡＳＫ］
，这也有导致了在训练时看到的和预测时看到的模型是有差异的 

。
上面两个问题对于ＢＥＲＴ这种去噪自编码模型（对输入进行破坏，然后通过



２７


北京邮电火学Ｉ：
学硕士学位论文 



自编码模型来重构未破坏的输入）来说，是无法避免的。因此ＸＬＮｅ抛弃了这


 －
种自编码模型的思想，重新使用自回归（语言模型，

如ＥＬＭＯ， ＧＰＴ都是自 

回
归模型）的模式，
但是传统的自回归模式是无法使用上下文的信息的，因此在使


用自回归语言模型的同时如何引入双向的上下文信息是ＸＬＮＥＴ的主要的贡献， 

。
作者采用了 ＰｅｒｍｕｔａｔｏｎＬａｎｇｕａｇｅ
ｉＭｏｄｅｌｉｎｇ的方法来引入双向上下文信息 

。
Ｍ 嫌执⑷
 卜４
＇》
脚成


！
Ｉ
ＪＶ  

編
識節之＃４今雲  Ｆ絲饮猶ｋ翁ｏｉｔｋｒ；
ｆ今１今３ 令 

ｉ
ｍ ｍ


＊
’
 

＊

＇
■ 
ｗＸ
；，
令今今  Ｆ獻今＋ ＋２
＇
Ｉ
１
游ｃｌｆ
ｏｃｉ驗１激嫩錢Ｋｋｆ  ；Ｊ
＇
Ｓｉ３滅姻ｓ  嫩１從
＊；４ｉ 

图３
－
５ｐｅｒｍｕｔ ｏｎ ｉｌ
ａｎｇｕａｇｅｍｏｄｅ  ｌ
ｉ
ｎｇ 模型实现过程示例


具体的做法如图所示保持序列的输入顺序不变但是维护 


个
一
３
－
５，，
Ｆａｃｔ
ｏｒｉｚａｔｏｎｏｒｄｅｒ
ｉ
的随机排序的位置表，
如上面所７Ｋ，
保持原始输


入不表，然后随机排序给出４个Ｆａｃｔｏｒｉｚａｔｏｎ  ｏｒｄｅｒｉ，
当你在预测ｘ３的时候， 

通
过ｍａｓｋ的方式，使得只能看大Ｆａｃｔｏｒｚａｔｏｎｏｒｄｅｒ
ｉｉ
中３的前面的位置词，也就是


第个序列中的前面什么都没有第二条序列中的前面有和因此通过



一
３，３２４，
ｍａｓｋ的方式使得在预测ｘ３时只能看到ｘ
２
，ｘ
４
，
同样在第三个序列中可以看到ｘ
，


，
ｘ
２
，ｘ
４
。在第四条序列中可以看到ｘ
４
。
现在假定我们采样的序列足够多，
从期


望的角度上来看，这种方式可以保证在预测ｘ
３
时，Ｘ
ｌ
， ｘ２，
＼被看到的次数基


本致作者也就是通过这种方式引入了双向信息
一
。 

。
但是上面的方式在实现上有些问题例如给定个 ｄ４的序列

一
一
，ａ！
，ｂ２ ｃ３，， 

，
此时采样两条序列为：ａｉ
，Ｃ３，ｂ２，Ａｉ和ａｉ
，
〇ｄｔ，ｂ２。在预测序列１中的ｂ２


和预测序列２中的ｄ４时，看到的都是ａｉ和Ｃ３，因此预测概率都是
一
样的，
但是


２８



第三章基于预训练模型提取特征的混合深度罪名预测模型



直观上来说这个概率应该是不样的毕竟标不样为了解决这样的问题

一一
，
目， 

，
作者在预测当前词的时候引入了当前词的位置信息，
例如在预测ｂ２时除了用到


和还会把它的位置信息起传进来但是你在预测下个词的时候你不仅



一一
３１
（：３，，
要用到上个词的位置信息还需要将上个词的词信息也加进来
一一
， 

。
ｍｍ＂ｕ
￣－
ＫＶ
＇＇
Ａ
＞
＜ｅｎｔｉｏｎ
Ｑ
＝ ＝ ｈ０
－
ｇ＇
［

｛  
 ｔｔ
ｇ［
＿

＼［
＂
＂
； 

）

＇，
（３
－
２ 

）
ｍ
Ａ  ＫＶ
）
ｈｎｔｉｏｎ
 ＜ｒ
Ｑ
＝ 

＝
ｔｅ
￣
［  ｔ
｛  ，
如公式（３
－
２）所示，在这里表示的是引入了之前的时刻的所有信息和


当前时刻的位置信息的隐层向量，
就如前面的ｃ３和位置２的信息，
用来预测


但是这个公式中含有个这是之前所有时刻的隐藏信息为了保证


一
ｂ２。，
在时能使用＾＝我们要另外去计算这样个因为这个是对时刻及



一
／，ｈ，ｈｔ
之前所有的信息编码得到的也就是说这里的，ｈ是包括ｔ

时刻的位置和词的信息 

，
如在上面序列１中，此时你要预测ｄ４，
你是需要对ａｉ
， ｃ３， ｂ２编码的，
但我们在


计算没用到匕的词信息也就是这样的不致作者提出了双流

一
。，ａｔｅｎｔｉｏｎ


机制，具体的图示如下 

：
Ｓ
５
；  ００００

 丨
＊
Ａ ＿
＿  一  ｝
．
．
ｉ
 Ｓ ＠０ Ｓ３


Ｉ ＾ ＩＩ   Ｉ：
 ／Ｖ




ｉ
 ＃ 


，
ｉ？  ８
 ？
 ｖ
，）
＿
ｊ
＃  ＃  ＣＷｕ？
？
Ｕ  ？
ｉｔ  ｓｔｍＭａ
、

＼ ／ ＃ ｖｍｍｃｍｉ￥

ｉ
 
 ｓ 
｜＾＿ｊ
＾  ＠＠ Ｓ３ＳＢ Ｘ 〇
＇
｜  ，？ 

？
 ／ ＼ Ｑ＼
？
＾ｒ
ｎ＾ｍ
Ａｍｒ
／

 ｌ
—
一
 ｕ 
 丨
ｇ ｓ  ｇ  ００ ｓａ  Ｓ０  ８０
：

 １
ｍ  ⑷

 ｉ
图３
－
６双流注意力机制


如图最右边的图中所示实现起来就是不太样上面的为例



一一
３－
６，ｍａｓｋ，
因为序列为３，２，
４，１。因此在计算词１
时，
ｇ （ｑｕｅｒｙ ｓｔｒｅａｍ）只能看到３，２ 

，
４；而ｈ  （ｃｏｎｔｅｎｔ  ｓｔｒｅａｍ）能看到３，２，４，１。在计算词２时，
ｇ能看到３； ｈ 

能
看到２，３ 

。
另外ｇ的提出主要是为了训练预训练模型，因为你在预测当前词时，是要



ｍａｓｋ当前词（这个ｍａｓｋ是不可避免的，这是语言模型的特性，
利用上文预测当


前词），但是在下游任务的时候，
我们是不会ｍａｓｋ任何词的，因此在下游任务


时我们只需要使用ｃｏｎｔｅｎｔｓｔｒｅａｍ的值就行了 

。
２９



北京邮电大学ｎ学硕士学位论文 


总的来说，ＸＬＮｅｔ这种方法很优雅地引入双向上下文信息，

但是在实现上计


算量很大因为你要计算很多排序的序列才能使得期望上每个词出现的次数基本
，


致为了降低计算量作者在这里只对排序后的句子的后半段的词做预测 


因
一
，，，
为后半段的词的前面的词比较多这样看到的词会多些可能很快地达到期望



一
，，
致
一


。
ＸＬＮｅｔ
除了引入了不同的训练目标和双流注意力机制还使用了和。ＢＥＲＴ 

不
样的基础特征提取工具ＴｒａｎｓｆｏｒｍｅｒＸＬ
一


。
Ｔｒａｎｓｆｏｒｍｅｒ模型在输入时米用的是固定长度序列输入，且Ｔｒａｎｓｆｏｒｍｅｒ模型


的时间复杂度和序列长度的平方成正比因此般序列长度都限制在最大
一
，５１２ 

，
因为太大的长度，模型训练的时间消耗太大。此外Ｔｒａｎｓｆｏｒｍｅｒ模型又不像ＲＮＮ



这种结构可以将最后时间输出的隐层向量作为整个序列的表示然后作为下



一
，，
序列的初始化输入。
所以用Ｔｒａｎｓｆｏｒｍｅｒ训练语言模型时，不同的序列之间是没


有联系的，
因此这样的Ｔｒａｎｓｆ
ｏｒｍｅｒ在长距离依赖的捕获能力是不够的，此外在


处理长文本的时候，
若是将文本分为多个固定长度的片段，
对于连续的文本， 

这
无异于将文本的整体性破坏了导致了文本的碎片化这也是，Ｔｒａｎｓｆｏｒｍｅｒ－
ＸＬ被提


出的原因 

。
Ｔｎｍｓｆ
ｏｒｍｅｒＸＬ做了两个改变是引入了循环机制来提升模型的长距离


一
依赖捕获能力，
二是引入上述循环机制之后，引入位置信息，因此有提出了相对


位置的做法 

。
Ｔｒａｎｓｆｏｒｍｅｒ模型在训练和评估时的图化表不如下 

：
？？ ？？ ＠ｆ〇 〇０ 〇〇？

 ＾
〇 ｍ？ 〇 ？０？？ ？＾ ｏ〇 〇 ｏ？ １ 
＃〇 〇〇？？  ＾
Ｈ 〇  Ｊｍ

〇 ｏ 

？Ｏ ＃Ｏ
 丨 
？００
命〇〇 Ｏ０ ０ Ｏ Ｑ Ｏ  〇〇０ ０ ０ｐ


＠僉〇诊 〇酋＠參＠ｃ＞ 〇〇＃？？ 

？
Ｓ ＊
＊  ＊
＞
｜
＊
？  ％ ＾ ＊ ＊？？  ＊＊  ？？
？
？？？？ ＊？ ？  ？ ■
％ ５
＾  ？ 

？
＊＊
■
？？？
？？  ｔ
 

Ｉ
（
ａ）  Ｔｒａｎｎｇｉｉ
  ｊ
（ｂ）  Ｅｖａｌｕａｃｉｏｎ
 ｐｈａｓｅ 

．
图３
－
７Ｔｒａｎｓｆｏｒｍｅｒ模型在训练和评估时的图示化表示



可以看到在训练阶段序列之间是相互孤立的在评估阶段在预测下 


个
一
，，，
词的时候也只能利用前面的固定为ｎ个词的序列这样在训练时模型捕获信息的


 。
长度不够，且在评估时利用的信息也不够。再来看看ＴｒａｎｓｆｏｒｍｅｒＸＬ－


。
３ 

０



＃＃＃＃ ｑ ｄｏｍ＾ ｍ
＾


Ａｋ  Ｊｍ  ｊ
Ｍ

＇
＇
 ｉ
£ ｆ Ｏ ＆Ｏ ｄ〇ａ〇０〇〇６〇〇 〇〇？０６〇 ＯＣＯＯ０ ｏ



０ ｙ   ０ ０ ／ 
＇


ｉ
ｉ
＃ ｍ ｂｍ ｏ ＆  ｐ ０ ｆ ｏ  ００００〇 ｏ


 ＞
凝＃＃ ？ ０＃＃？＃？＃＃〇〇  〇  ｆｆ  ＃  ＃  ４  ｏ  ａ  ｏ  ＾  ＃  ４


＊
 ？？   ｍ％  ｋ  ＊ｔ  ｈ  ＊  Ｓ  ＊ ？？  ？  ？ｍ  ＊  ？  ＾？？％


？
＝
 ｓ
？＞ｓ
＞ｓ
？＜
ｉ
？ｓ？
ｊ
Ｓ  ｉｉａＯＭｉｔ  ｔ  ｘＭｃｉＭｉｌ  ｉ？？？？？


Ｃａ）  Ｔｍｉｉｉｉｅｇ  ｐ
ｈａｓｅ．
 ＜
ｂ）
Ｅｖａｌｕａｔｉｏｎ
 ｐ
ｈａｓｅ 

．
图３
－
８Ｔｒａｎｓｆｏｒｍｅｒ
－
ＸＬ模型在训练和评估时的图示化表示



ＸＬ在训练的时候将上片段的结果引入到下片段中在评估



一一
Ｔｍｎｓｆｏｒｍｅｒ－
时同样，因此能捕获的长距离信息较Ｔｒａｎｓｆｏｒｍｅｒ有很大的提升 

。
ＸＬＮｅｔ在引入不同于ＢＥＲＴ的训练模型，双流注意力机制和Ｔｒａｎｓｆｏｒｍｅｒ－
ＸＬ


之后，在下流任务准确率和长文本的处理上有了明显的提髙 

。
３３
．
基于预训练模型提取特征的混合深度罪名预测模型


本课题采用基于ＢＥＲＴ和ＸＬＮＥＴ的ＣＮＮ－
 ＢＬＳＴＭＡＴＴＥＮＴＯＮ
ｉ
－
Ｉ混合深度


模型对法律判决书数据集进行文本预处理，

特征提取和模型训练。
如上文所描述


的，ＢＥＲＴ和ＸＬＮＥＴ提取的文本向量在词义和语义上都有着精确的表达，并且


包含上下文背景信息因此选用。ＢＥＲＴ和ＸＬＮＥＴ作为提取文本特征向量的工具 


。
２０１４年，Ｋｉｍ［
６１
］
提出的ＴｅｘｔＣＮＮ模型使用多个卷积操作提取文本特征， 


在
文本分类任务上有效地提高了准确率。
从ＴｅｘｔＣＮＮ开始，ＣＮＮ也逐步应用于文


本分类任务，
并获得了显著的效果，
深度金字塔卷积网络更是其中的佼佼者。 

究
其原因，是继承了深度卷积神经网络架构在图像领域的优势，在提取文本的局部


特征方面有着稳定且优越的效果。＿在ＣＮＮ的基础上进行了改进，可以在任



意长度的数值序列上进行学习ＬＳＴＭ则更进步地解决了传统ＲＮＮ算法容易


一
遇到的梯度消失的问题。本文的研究使用ＢＬＳＴＭｉ，在解决上述问题的同时与



ＣＮＮ结合，
使用ＣＮＮ提取法律判决书文本信息的局部相关特征使用，ＬＳＴＭ 

提
取整个法律判决书文本的语序以及文本撰写逻辑序列问题，
二者形成了良好的互


补关系 

。
Ａ机制是模仿人类注意力而提出的种解决问题的办法简单地说就



一
ｔｔｅｎｔｏｎｉ，
是从大量信息中快速筛选出高价值信息。主要用于解决ＬＳＴＭ／ＲＮＮ模型输入序



列较长的时候很难获得最终合理的向量表示问题，做法是保留ＬＳＴＭ的中间结



果，用新的模型对其进行学习，
并将其与输出进行关联，
从而达到信息筛选的 

目
的 

。
基于以上所提到的各种模型的优势本课题将这三种模型结合起来构成



一
，，
个混合模型。
综合三种模型和机制的优势来进行文本分类 

。
３ 

１
 


ＣＮＮｂａｓｅｄＭｏｄｅ 

ｌ
—  ｒ拼接品量
 ＾＾  
ｊ
判：
二一
一
丁ｆ
．．．
 


 Ｕ 
￣＇＊ 


ＫＵｍｘＦｓｏｉｍｉｎｆａ
ｒｃｏｌ  ｉｎｉＡＭｕｒ〇ｏ．ｉｎｉ   ｒ
文
书
丫干 □
 
 ＿
？

  ｊ
；
  ！  ＼ Ｏ


判 ，
ＢＥＲＴ
向   ．
期

 

？
／  〇 
ｉ
  量 通过〇、
－
従取式文本特ｉＲｓ 
「ｎｐ 广 ／
、
ｆｔ
ｒ、
＇
丄  ＇
  ２Ｓ

ｖｖ    ＇
／ 

ｉ
、
城
，
Ａ＿
Ｖ 、
咏
）  ＼／ ／＼ 
— 

顶
／
＇
 ＊
书
．
－
Ｖ、
、
、Ｏ ■


＼  判 广丫  ＾  知


＇
＇
－
一－
 ｒｖ 
■
－
＇
：．
＇
：
本 、  决 
一一

一

— 
 果

 ＇
 书 多ｒ  二
｜
ｊ  「：，
＇
．


＇
丄
＊
句
丄丄丄 ＃
－ 


一 

 ＇
＊一
＾＇

－
—
Ｗ？ Ｏｓ
—
？ 
ｍ？＊ＭＶ？？？
― ￣ —
＊＂

－

Ｉ
了

：Ｊ
ｉ 
！ 
：


）
； 
  ｊ
ｊ   ｊ
丨 
—
一
丨


跫
＊
°〗
 ００ｙＲ ｉ  ．
．
．
：
：． 

＂
？
｜
 向量拼接 全连接层
ＢｉＬＳＡｎｉ〇＂ｂａＳｅｄ
Ｍｏｄｅ］


图３
－
９混合深度葬名预测模型架构图


模型框架图如图３
－
９所示，
Ｂｉ
－
ＬＳＴＭ－
Ａｔｅｎｔｉｏｎ模块在框架图左侧，
ＣＮＮ 

模
块在框架图右侧。下面对每个模块进行解释 

。
（１） Ｂｉ
－
ＬＳＴＭ Ａｔｔｅｎｔｉｏｎ


文档由句子组成，而不同的句子在文档中的重要成是不同的，人们在阅读文


档的时候会重点关注某些句子这些被重点关注的句子通常对文章理解起决定性

 。
作用，基于这种思路，我们在Ｂｉ
－
ＬＳＴＭ的模型基础上引入注意力机制。ＬＳＴＭ


结合注意力机制，在对整个文本进行建模的时候，

可以突出关键的句子，更好地


把握文本中心思想。
另外，ＬＳＴＭ模型选择的是Ｂｉ
－
ＬＳＴＭ，
即双向ＬＳＴＭ模型 

，
双向ＬＳＴＭ相比较传统ＬＳＴＭ模型对某句的上下文信息有着更好地利用能


一
力 

。
Ｂｉ
－
ＬＳＴＭ－
Ａｔｅｎｔｉｏｎ模块的框架图，
如图３
－
１０所示 

。
＆为判决书中的每个句子经过ＢＥＲＴ之后生成的向量，／７
，
为不同方向的编码


表示是句子标签是归化的不同句子的权重是最终得到的文本向量
一
《ｖ
，，
％， 

。
该模块即是将每个句子通过ＢＥＲＴ生成的句子向量输入双向ＬＳＴＭ模型 

，
得到每个句子的隐含表示之后，再使用Ａｔｅｎｔｉｏｎ机制计算权重，

最后加权得到


整个文本的向量的表示 

。
３２







Ｖ
．
．
．
句子注意力


４  ＾
Ｋ
－
＾
ｈＴｎ 

１
句子


一
？＞ ＞
ｐ  
一．￣￣一一－  ？
－
ｙ７
｜
ｊ 

 ｉ  ＼
  Ｉ
ｉ  ＼
  Ｉ
ｊ
ｉ 

＼
ｓ
＾  Ｓ



 ｊ
７ｎ
图３
－
１０Ａｔｔｅｎｔｉｏｎ模块框架 

图
（２）  ＣＮＮ


为了提取不同级别的局部特征选择了多个不同大小的维卷积核在提取到



一
的文本向量上进行卷积分别选取宽度为 ４ ５的维卷积核对卷积后得到



一
。３，，，
的结果接Ｋ－
ｍａｘｐｏｏｌｉｎｇ操作，
即从卷积层得到的列向量中选择最大的Ｋ个特征


值，然后将他们拼接起来得到了通过ＣＮＮ的特征向量 

。
拼接向量


ＭａｘＰｏｏ ＫＭａｘＰｏｏｌ ＫＭａｘＰｏｏ
一－
Ｋｌｉｎｇｉｎｇｌｉｎｇ




—
＾   ＾＾
卷积核
－
１ 卷积核２ 卷积核－


３
通过ＢＥＲＴ提取的文本特征向量


判决书文本


图３
－
１１ ＣＮＮ模块框架 

图
最后，
将两部分获取到的特征向量拼接起来，
输入到最后网络最后的全连接


层。
最后输出的就是预测的罪名 

。
３３


 


３４．
实验及结果


３４．．１实验环境


本章在服务器上进行实验，具体环境如下 

：
操作系统：Ｌｎｕｘ
ｉ 

深度学习框架：ＰｙＴｏｒｃｈｌ． 

２
处理器：Ｉｎｔｅｌ（Ｒ）  Ｘｅｏｎ（Ｒ）  ＣＰＵ  Ｅ５－
２６２０ｖ４
 ＠ 
２．１０ＧＨｚ 
＊


２
显卡：ＮＶｉｄｉａ  ＴＩＴＡＮＸＰ  １２ＧＢ  
＊


２
３４２
．．
实验数据


我们从中国裁判文书网上获取了刑事案件的判决书。通过筛选，最终得到了



２４９４２份刑事判决书作为训练数据。按照９：  １的比例。
其中２２４５２条样本作为


训练集，２４９０条数据作为测试集。
在收集到的判决书中，
共有十种犯罪类型 

，
分别是 

：
（１）故意杀人；
（２）盗窃；
（３）故意伤害；
（４）抢劫；
（５）强奸；
（６ 

）
危险驾驶；
（７）交通肇事；
（８）虚开发票；
（９）诈骗；
（１０）走私，
贩卖 

，
运输毒品 

。
３４３
．．
基线模型


选取以下三种模型作为基线模型和我们的模型进行比较以验证我们模型的

 ，
可靠性 

。
①预训练模型＋全连接层：ＢＥＲＴ针对每个判决书生成对应的文本向量， 


文
本向量之后连接个全连接层全连接层的输出作为模型的预测结果
一
， 

；
② 预训练模型＋ＣＮＮ：  ＣＮＮ模型对局部特征有着很好的提取能力 


；
③ 预训练模型＋ＬＳＴＭ： ＬＳＴＭ可以提取文本整体逻辑信息，
更好的去获取


法律判决书文本信息的上下文关系信息 

。
３４４
．．


实验设置和评价指标
对于所有的输入，ＢＥＲＴ生成向量的维度都是７６８。
对于


ＣＮＮＢＬＳＴＭＡｔｅｎｔ－
ｉ
－
ｉｏｎ混合模型中的ＢＬＳＴＭｉ
－
Ａｔｅｎｔｉｏｎ模块，
模型输入为每份


判决书按照标点符号切割成的句子将每个句子输入，ＢＥＲＴ之后生成的句子向量


作为该模块的序列输入。
对于ＣＮＮ模块，按照上文中提到的方法，将每份判决


书取前１２８和后３８２个字作为数据输入ＢＥＲＴ生成词向量。网络学习率设置为


ｌｅ
－
３，
ｂａｔｃｈ＿
ｓｉｚｅ设置为６４，ｅｐｏｃｈ设置为７０，模型损失函数都选择为交叉摘损


３ 

４



失函数 

。
对于模型评价本课题选择在分类中广泛应的准确率和召回率作为模型的评
，


价指标 

。
３４Ｓ
．．
实验结果及分析


通过表３
－
１与图３
－
１２我们可以很明显地看到，
我们提出的混合深度模型在


预测的效果上，明显优于其他三个对比实验，
在召回率的指标上也显著优于其他


方法，由此证明了我们提出模型的有效性 

。
表实验结果对比


－
３１

准确率 召回率


ＢＥＲＴ＋ＣＮＮ ０．８６２ ０．６８４


ＢＥＲＴ＋ＬＳＴＭ ０８７７
． ０．
７０ 

１
ＢＥＲＴ ０．８５１ ０．６１ 

３
ＢＥＲＴ＋ＣＮＮ－
ｂｉＬＳＴＭ


０．９０１ ０．９１ 

６
－
Ａｔｔｅｎｔｉｏｎ


１
０８６  ０．
２
－
８７７
〇．
８５１ ０．
９ 

Ｍ
° ９＇
 

—


’
０８ ０６８４
．
．
° －
７０１
 ａ
，
０６１３


０７ 麟禱吻
．
娜纖偷雜
．鎌娜麵＿
＿＿
＿＿
， ＾


 

一
輸
０６．
０５

 ．
０４

 ．
０３


０２

 ．
０．


１


０
ＢＥＲＴ＋ＣＮＮ ＢＥＲＴ＋ＳＴＭ ＢＥＲＴ  ＢＥＲＴ＋ＣＮＮｂＬＳＴ 

Ｍ
－
Ｌｉ
獅獅峨？
技Ｉ
；
！顏率 ■
機＊雜？
【ｉ
ｆ  ［
ｐ！ 
■


舉
图２实验结果对比


－
３１
３５．
本章小结


本章在深入分析文本向量生成方法和文本分类方法的基础上结合刑事判决

 ，
书的特点。
提出了基于ＢＥＲＴ生生成文本向量的深度学习模型。
模型在对判决书


进行预处理的基础上，由ＢＥＲＴ生成对应判决书的文本向量。ＢＥＲＴ在丰富语料



以及创新性预训练方法的基础上，
在提取文本向量上可以很好地把握文本的局部


３５





和整体结构兼顾词义和语义是种优秀的文本向量生成算法本章节结合



一
，，
。
ＣＮＮ ＢＬＳＴＭ和Ａｔｅｎ机制的优点构建了个混合深度模型不仅利用



一
，ｉｔｉｏｎ，，
到了  ＣＮＮ提取局部特征的优势，还利用到ＲＮＮ模型在处理序列化信息时的长


处，
最后引入的Ａｔｅｎｔｉｏｎ机制让模型对文本中的重点信息可以更好地关注和处


理。该模型在我们收集的真实数据集上获得了良好的效果 

。
本模型的能力还有更待挖掘的地方。由于我们只截取了指定长度的判决书 


，
对于不同长度的判决书，如何处理才能获得更好的效果，
有待接下来的工作继续


研究 

。
３６



第四章基于刑事判决书的事理图谱构建和刑期预测模型 


第四章基于刑事判决书的事理图谱构建和刑期预测模型


４．１基于刑事判决书事理图谱的构建方案


本课题基于收集到的刑事判决书文本数据构建了相应的司法领域的事理图


谱。通过对原始文本进行预处理后，通过抽取判决书中发生的事件，
以及判决书


事件之间的关系生成个刑事判决书的事理图谱
一


。
本课题将构建事理图谱的流程分为以下任务：

数据预处理；原始事件抽取 

；
事件关系抽取；事理图谱构建 

。
流程框架图如图４－
１所示 

。
判决书文本


数据预处理


事件抽取


事件关系抽取


事理图谱构建


图４
－
１
事理图谱构建流程框架 

图
（１）数据预处理和事件抽取？
．
本课题获取的判决书中有很多无用的信息 

，
在进行正式处理前，需要去除掉这些冗余的无关数据。

为了抽取合适的事件， 

对
已经预处理过的数据进行中文分词，词性标注，依存语法分析，
得到判决书文本


之间的词性和词语之间的逻辑关系 

。
（２）抽取判决书文本中的因果关系。经过数据预处理和自然语言处理之后 

，
对从判决书中抽取的事件进行因果关系抽取。经过前面的处理得到了事件三元



组，
即事件－
关系事件
－
。
因此，本课题采用正则匹配的因果关系抽取方法获得事


件之间的关系 

。
（３）图谱构建：
得到抽取出来的因果关系后，抽取的事件作为节点，事件


之间的关系作为有向边，
并通过法律条文，罪名和刑期属性将具有相同属性的节


点联系起来 

。
３７


北京邮电大学：ｎ学硕士学位论文
 


４２
．
事件抽取


基于判决书构建事理图谱的关键在于从判决书中抽取相关事件和提取事件



间的关系。
即使对判决书文本进行了预处理，但是此时的数据仍然不能够直接进


行事件抽取和事件关系抽取本节阐述了怎样对判决书文本进行事件抽取下


一
。，
节阐述如何对抽取出来的事件进行关系抽取 

。
首先对经过预处理的判决书文本进行分词，分词是进行自然语言处理的最基



础操作；接着再对判决书文本进行词性标注；最后对标注后的句子进行依存语法


分析，通过依存语法分析，可以得到句子的句法结构、主谓宾等成分，判决书文


本中的事件基本上由主、谓、宾三个组成 

。
（１）分词处理


对提供的语料首先进行分词工作分词就是将连续的词语序列按照定的


一
，。
规范重新组合成粒度更小的词序列的过程，分词是进行自然语言处理的基础， 

分
词之后得到的词是最小的独立活动的语言成分在分词的基础上我们才可以进行

 ，
词性标注实体识别等工作 

。
由于本课题的输入是判决书文本，属于长文本。在进行分词之前，先对长句



切分将段落分句将段话或篇文章中的文字按句子分开按句子形成独立


一一
。，，
的单元。返回切分好的句子列表。以及短句切分，将长句按逗号和顿号切分为短



句，返回切分好的短句列表 

。
本课题采用ｐｙｌｔｐ工具包进行与处理过的判决书文本进行分词。语言技术平



台（
ＬＴＰ）经过哈工大社会计算与信息检索研究中心１１年的持续研发和推广，是国


内外最具影响力的中文处理基础平台。
该平台提供了许多对文本信息处理的功


能，包括中文分词、不同词语词性标注、对实体的规则命名、对文本中句法的分


析、不同语义角色的标记等。
ｐｙｌｔｐ是ＬＴＰ的ｐｙｔｈｏｎ封装包。同时对停用词表进


行修改，
剔除和因果关系有关的停用词 

。
（２）词性标注


词性标注是对上小节中文分词之后的分词结果进行词性标记的过程主要


一
做法是确定文本中词汇的词性，
例如名词、动词、副词以及形容词等词性。词性 

，
顾名思义是指词语本身的特点来划分不同的词语类别的根据本身词性是根据语

 ，
言中的句法结构作为背景，
以时态语态变化作为主要计出来对句子中的词语进行


词性标记 

。
从根源上来说词类是相同词性的词语的归属个词类指代了在相同语言


一
，，
背景下，诸多在句子中出现的句法功能结构相同的词语的统称，将这些不同语义



但句法意义相同的词汇聚合而成的类词语在汉语中词类般可以划分为实


一一
。，
词与虚词，
实词中包括体词，谓词等，体词又可以划分为名词、代词以及副词等


３８





词类 

。
通过词性标注得到经过前文分得到的句子内容的词性之后便于对接下来的

 ，
文本进行依存句法分析和语义角色标注，从而抽取事件 

。
（３）依存句法分析


依存句法分析主要是通过分析文本数据信息内的同句子中不同词性词汇


一
之间的逻辑上的依存关系，核心是提取句子中的核心动词作为中心成分，
并可以


支配其他句子成分。
依存关系需要符合以下五个条件 

：
 个独立的句子中只能由个独立的句子成分

一一
１） 

。
该句的其他成分均要从属于某个句子成分
一
２） 

。
与相对应的任何个句子成分不能依存于多个其他句子成分
一
３）２， 

。
４）如果句子成分Ａ直接依存于句子成分Ｂ，且句子成分Ｃ在句子成分



Ａ和句子成分Ｂ的位置中间，那么该成分Ｃ可能依存于Ａ，也有可能依存于Ｂ 

，
也存在可能从属于Ａ和Ｂ之间的某特殊句子成分
一


。
５）句子中的中心成分，其左右的句子成分互相没有关系 


。
经过符合上述依存关系的句子语法分析之后我们可以得到文本中句子的句

 ，
法结构信息以及句子中的主谓语分布信息以便后续进步的分析句法结构以及


一
句子的语义含义。法律判决书文本中的事件表达主要是由主语、谓语以及宾语三



个句子成分构成，因此语法依存分析十分重要且具有充分的意义。

本研究主要是


通过前文中描述的依存语法分析来抽取法律判决书文本中的事件关系以及事件


表达，进而提取语句中的主谓宾成分。主语和宾语作为两个事件节点，而谓语作


为连接两个事件之间的关系，
如转折、顺承、并列等 

。
４３．
事件关系抽取


（１）事件之间的关系类型


传统知识图谱主要研究知识实体、实体属性以及实体间关系，与传统知识图



谱相比事理图谱描述的是谓词性事件以及其内外联系事理图谱是个事件逻


一
，，
辑库，主要描述了不同事件实体之间的进化规律、事理逻辑以及发展规则。而从



结构上来说，事理图谱中的节点代表事件，而有向边代表事件之间的实力逻辑关


系。
本课题中提取的关系为以下几种 

：
顺承事件关系是指两个不同事件在时序上的依次发生的关系例如又
＇＇
：。：


，
再才Ｖ并、
＇＇


因果事件关系：
指两个事件之间，事件Ａ发生在前，导致了事件Ｂ的发生 

。
例如从而为此因而Ｖ致使Ｖ以致于
’ ＇


。
并列关系指两个事件同时发生如ｉ丨且并且也还、
＇＇
：。：
Ｔｆ，


３９


 


条件事件关系是指前个事件Ａ是其他事件或Ｃ等发生的条件例如

一
：Ｂ。 

：
否则才不然要不
＇＇＇＿
＇


。
＼ ＼
转折关系是指前后两个事件形成对立例如虽然尽管虽但也


＇＇ ‘
：。：，
但还但却Ｖ但
＇＇
＼ 

。
（２）基于模式匹配的关系抽取方法


事件之间的关系抽取式构建事理图谱的关键步骤本课题采用基于模式匹配

 ，
的方法抽取事件之间的关系，即使用正则匹配的方法，判决事件之间是否存在事



理关系连接词，
判断该语句是否进行关系抽取；如果进行关系抽取，
再和关系连


接词进行比对判断是哪种事理关系
一
， 

。
具体的流程为：
将五种关系编译成模式，
将通过依存语法分析标注得到的主


谓宾事件作为输入，进行模式匹配，

输出事件关系的三元组＜事件子句１，逻辑


关系，事件子句２＞ 

。
４４．
构建图谱


在上节中本课题针对每篇判决书进行了预处理分词依存语法分析
一一
，、、 

。
将判决书中符合要求的事件抽取了出来。当抽取完成事件和事件之间的关系之


后，图谱的构建便是水到渠成了 

。
每份判决书中抽取的事件都表明了当事案件的演化规律每个案件都有其



一
特点，因此通过具体事件将不同的事件连结起来，难度较大，每份判决书除了描


述了事件之外，还会描述本案件的刑期，罪名，和判罚的法律条文。
本课题根据


事件节点的属性构建图谱 

。
４５．
图谱可视化


可视化可以将文本等描述性信息展现得更加直观知识图谱由于其节点和节


 。
点之间复杂的联系，使得可视化尤为重要，通过可视化，可以看到事件之间的演


化进程和事件节点之间的联系 

。
事理图谱的本质上来说仍可以视作知识图谱的种前主流的知识图谱可


一
，目
视化工具有如Ｍｏｏ  ｊ
ｎｎ、Ｈｉ
ｇｈｃｈａｒｔｓ、Ｅｃｈａｒｔｓ、Ｇｅｐｈｉ、ＯＳＭ、Ｇｅｏ  Ｆｌｏｗ、Ｎｅｏ４ｊ


。
本节选择Ｎｅｏ４ｊ作为事理图谱的可视化工具 

。
在对图谱进行可视化之前，需要将图谱存储在Ｎｅ〇４数据库中ｊ
，对于数据存


储，Ｎｅｏ４ｊ
有三种方式，本课题选择在Ｗｅｂ端中利用Ｃｒｅａｔｅ命令构建关系和节


点 

。
首先分别创建事件节点，判决书节点，犯罪类型节点和刑期节点。

事件节点


４０



第四章基于刑事判决书的事理阁谱构建和刑期预测模Ｍ 


即是点之间边的连接。事件之间的边是事理关系，

除此之外建立起判决书和犯罪


类型的关系，犯罪类型和刑期的关系，事件与犯罪类型的关系。至此，
便完成了


整个事理图谱的构建。其生成的事理图谱如图４２

－
所示 

。


ｉ
／


－
， 
 １ 
■
 ．


＊
，  ＿
．


／


＿
图４事理图谱事件对生成示意图


－
“ ” “
同时由下图４－
３中可以看到，左颈部刺穿导致了（Ｃａｕｓａｌｉｔ
ｙ）  急性大


“ ” “ ”
失血点击急性大失血节点可观察到急性大失血和致人死亡同属于刑



”
期为即死刑节点的节点由此可得到个左颈部刺穿导致急性大失血致人



一
０ （）。
死亡最终被判处死刑的个关系链条完成了基于判决书的事理图谱的构建

一
，


。
４ 

１
  




）


‘


… 卜
：
、 …


：
…
一
：
 ，
＇
： ■


；


％
图４死刑关系链条示意图


－
４６．
刑期预测与实验


本节之前的内容详细讲述了我们构建事理图谱的流程本节基于之前构建的


 ，
知识图谱来进行刑期预测 

。
４６
．．１
实验数据和实验环境


我们从中国裁判文书网上获取了刑事案件的判决书。通过筛选，
最终得到了


２４９４２份刑事判决书作为训练数据。按照９：  １的比例。其中２２４５２条样本作为



训练集，
２４９０条数据作为测试集，其中刑期属性为３ （月）至３６０ （月）以及死


刑（本课题中死刑在模型中规定为０月） 

。
本章节实验所使用的计算机平台参数如下 


：
操作系统：Ｌｎｕｘ


ｉ
深度学习框架：
ＰｙＴｏｒｃｈｌ． 

２
处理器：Ｉｎｔｅｌ
（
ＲＸｅｏｎＲ
） （）
ＣＰＵＥ５－
２６２０ｖ４
 ＠ 
２．１０ＧＨｚ 
＊


２
４２



第四章基于刑事判决书的琪理阁谱构建和刑期预测模型 


显卡：ＮＶｉｄａ ＴＩＴＡ
ｉＮＸＰ
 １２ＧＢ＊２


４６２
．．
刑期预测


刑期预测，
即是在给定输入的情况下，通过利用了先验知识训练的模型给出


其推断的刑期的过程。
有些研究人员为了提高预测的准确度，
将刑期按照时间长


短进行分段例如个月分为段个月分为段这时的预测可以视为


一一
０３３６
－－
，，，
刑期的分类任务由于存在多个刑期的时间的分段所以是个多分类任务 


本
一
，，。
课题选择直接预测具体刑期，得到刑期的具体时间，而不是范围，因此本课题的



刑期预测是个回归任务
一


。
判决书文本预处理


判决书事件提取


事件节点相似度计算


返回相似事件节点


对多个事件节点所代表的


酬臟平均 



是
 ？ 


返回节点对应的刑期


如
 输出刑期 ＾


—
图４４开期预测流程 

图
－
前文构建的事理图谱在揭示事件之间发展关系的同时事件节点同时还和罪

 ，
名和刑期节点相关联，可以通过节点相似度匹配的方式来获得相似节点上的刑期



“ 

”
来作为待预测事件的刑期例如在事理图谱上的个事件链条是左颈部刺穿
一
。，
”
 急性大失血这个事件和其对应的刑期节点相连接
“
导致了（Ｃａｕｓａｌｉｔ
ｙ），， 

为
４３


 


死刑。如果输入的判决书中同样提取到了急性大出血的事件，通过文本相似度匹



配的方法即可以将这两个节点匹配，所关联节点的刑期即为待预测判决书的刑


期。
如果匹配到多个节点，
将节点关联的刑期取平均。同时，
为了加速节点的匹


配，
利用本课题第三章中提出的方法，
先对判决书进行罪名预测，
再进行刑期预


测。刑期预测的整体流程图如上图４４－
所示 

。
４６３
．．
评价指标


对于刑期预测任务来说，

模型最终预测的结果和实际的结果仍是存在偏差 

，
可以选择多种评价指标来衡量模型好坏，例如准确率、召回率和Ｆ１

值等，
但是


由于本课题设计的模型预测结果更偏向于回归模型，因此我们选择ＭＳＥ作为我


们的评价指标 

。
ＭＳＥ  Ｍｅａｎ（  Ｓｑｕａｒｅｄ  Ｅｒｒｏｒ）为均方误差，该统计参数计算的是拟合数据和



原始数据对应误差的平方求和平均，计算公式如下式４－
１ 

。


２
ＭＳＥ 
＝丄
 （４－
１ 

）
其中ｍ为样本总量，
分别表示原始数据与预测数据 

。
４６４
．．
基线模型


在刑期预测上，我们选择三种基线模型与我们的模型进行对比。分别是



ＴｅｘｔＣＮＮ，ＴＯＰＪＵＤＧＥ  和  ＨＡＮ  模型 

。
ＴｅｘｔＣＮＮ
６
是第个成功将ＣＮＮ引入文本分类领域的模型简言之
一
１
［］
（１）， 

，
ＴｅｘｔＣＮＮ的工作过程就是将文本向量化后输入模型，得到最后的预测结果 

。
 ＴＯＰＪＵＤＧＥ
６２］
是个基于拓扑的多任务刑期预测模型
一
２
［
（  ） 

。
 ＨＡＮ  （ＨｙｂｒＡｔｅｎＮｅ６３
为个基于Ａｔｅｎ机制的刑期


一
（３）ｉｄ  ｔｉｏｎ  ｔｗｏｒｋ）  ［］
 ｔｉｏｎ
预测模型，使用注意力机制对文本进行编码之后输入ＤＰＣＮＮ做文本分类，在刑



期预测问题上得到了优异的结果 

。
４６５
．．
实验结果


最终我们得到了如下表４－
１所示的结果。
从中我们可以看到，ＴｅｘｔＣＮＮ 

，
ＴＯＰＪＵＤＥＧＥ，ＨＡＮ三类模型的ＭＳＥ值分别为８．８， 

４７．
和３．１。而相对其他基线


模型，我们的模型在单个案件上的ＭＳＥ值为２６．，远高于ＴｅｘｔＣＮＮ模型的预测


结果，也显著高于其他两个基线模型，对于案件真实刑期的预测己经十分接近 

。
上述结果均证明了基于事理图谱的刑期预测模型在刑期预测任务上具有优秀的


预测能力 

。
４４





表４
－
１
实验结果
 




Ｍ 
ＭＳＥ


ＴｅｘｔＣＮＮ８． 

８
 
ＴＯＰＪＵＤＥＧＥ４７

 ．
 
ＨＡＮ３． 

１


基于事理图谱的刑期预测模型 ２． 

６
４７
．
本章小结


本章介绍了基于事理图谱的刑期预测模型对事理图谱的原理进行了简要介

 ，
绍，描述了构建事理图谱的整个流程，对文本进行预处理之后，

再使用分词， 

词
性标注，依存语法分析对判决书文本进行事件提取，再利用基于模式匹配的方法


抽取事件之间的关系，完成关系抽取之后，
本章中还使用Ｎｅ〇４ｊ等可视化工具将


图谱进行可视化 

。
图谱构建完成后，对待预测判决书样本提取事件与图谱中的节点进行相似度


比较得到待预测判决书的刑期。同时本章还与其他刑期预测方法做了比较，我们


的方法同其他方法相比直接预测刑期，更加直观，
在结果上也得到了更小的


ＭＳＥ，误差更小，更加具有准确性 


。
４５


 


第五章基于事理图谱的辅助判决方案生成系统


５．１需求分析


随着我国经济水平的提高，法治社会建设的推进，各种法律案件层出不穷 


，
法律新名词屡见不鲜，
给相关法律从业人员带来了很大的压力。《２０２０年全国


两会最高人民法院工作报告》中提到各级法院审结审刑事案件万件 


随
一
７６７
．，
着判决书的积累和增加法律工作者了解案情或者司法学习的过程中任务越来越


 ，
繁重，由此增加了工作失误的可能，效率也会变低。
刑事案件和社会治安稳定息


息相关，因此，既要高效又要准确地给出判决结果是建设法治社会的题中之义 


。
同时人民群众在法律活动过程中也需要个咨询和建议的工具或者平台以便


一
，，
了解案情和作出判断 

。
基于以上提到的需要本章开发了个基于事理图谱的辅助判决方案生成系


一
统。
将案情描述输入系统，可以通过本课题中的罪名预测模型进行预测罪名， 

同
时，罪名将作为输入，输入到基于事理图谱的刑期预测系统，系统最终会预测出



罪名和刑期 

。
由于事理图谱是基于判决书建立的，因此，当使用者拥有更多数据的时候 


，
可以对图谱进行拓展，
增加图谱的可靠性和预测性能的鲁棒性 

。
基于以上叙述，
本节从上传案情描述、罪名预测和刑期预测等方面对系统进


行用户需求分析 

。
５１．．１上传案情描述


该功能为其他功能的基础，
该功能允许用户将储存为ｔｘｔ格式的案情描述文


本上传到数据存储的指定位置提供给模型进行下步操作
一
， 

。
５１２
．．
罪名预测


该模块为系统的两个核心功能之为用户提供对给定的案情描述进行罪名


一
预测的功能，该模块详细的需求分析如下 

：
（１）数据清洗：
对用户上传的案情描述进行数据清洗，去除无用信息， 

并
根据截断法将上传的案情描述截断至指定长度 

；
（２）特征提取：分别使用ＢＥＲＴ和ＸＬＮＥＴ两个预训练模型对己经处理过



的案情描述文本提取特征用于下步预测
一
，


；
（３）罪名预测：
将提取的特征输入构建的深度学习模型，输出预测的罪名 

；
４６



第五章基于事理图谱的辅助判决方案生成系统 


（４）结果展示：在完成罪名预测功能后，
将最后预测的结果展示在用户图


形界面上 

。
（５）结果存储：将预测的结果存储到指定位置，

为其他模型调用做准备 

。
５１３
．．
刑期预测


该模块为系统的另个核心功能为用户提供对给定的不含判决案情描述进


一
行刑期预测的功能，该模块详细的需求分析如下 

：
（１）数据预处理：对用户上传的案情描述进行数据清洗 

；
（２）案情描述事件提取：对用户上传的案情描述使用设计好的模型进行事



件提取 

；
（３）事件节点相似度计算：
将从案情描述文本中提取出来的事件对和之前


构建的事理图谱中的节点进行相似度计算 

；
（４）返回相似节点：通过和图谱中节点的相似度计算比较，返回最相似的


节点 

；
（５）刑期计算：
如果返回的是单
一
节点，直接返回节点对应的刑期；如果


是多个节点，对多个节点的关联的刑期取平均 

；
（６）结果展示：将预测的结果展示在用户图形界面上 


。
５２．
其他预测系统


很多学者和研宄人员都在开发基于裁判文书的刑期预测系统，
ＴａｎＭｆ
基于区


间划分和多模型投票设计出的系统有效缓解刑期类型众多和数据不平衡问题 

；
＾
６５
提出了种长文本分类的混合深度网络模型并统计了刑期的频数 

设
一
＼￥３１
］
，，
置不同时间不同长短的刑期段提高了分类准确率，同类型的系统还有很多，其中


存在的个问题是这些系统为了提高准确率和简化模型的预测过程将刑期预测


一
任务转换成了个分类任务预测的不是具体刑期而是刑期所在的时间段 


本
一
，，。
系统为了更精准的预测刑期，
没有选择将刑期分段而是直接预测刑期，
以期对案


情的刑期预测有着更精准的结果；同时，
本系统的构建兼顾了罪名与刑期预测 

。
４７






５３
．
系统架构


景  ５ｇｉｉａ？．
ｌｘｌａｉｇｉ
 

ｉ


ｅ
ｆ
ｍ 
 
  



据  基于多预训练模型的 基于事理图潜的预


￥  混合深度刑期预测 案生成方法 
 


 


１７Ｔ


层
数




琚
Ｉ  ｌ余信息剔除 
ｆ
ｃ
ＩＩ
文本裁剪  Ｉ
特征向量提取




理
层




数
１  丨
判决书文本  搜索关键词 

Ｉ


入


层
图系统架构图


－
５１
整个系统架构如图５
－
１
所示，从底到上依次是数据输入层，
数据预处理层 

，
数据分析层和数据展示层 

。
数据输入层：
接受来自外部的输入，
本系统的输入分为两部分，案情描述文


本和搜索关键词本课题中用于测试的案情描述即为本课题收集到的判决书文本
。


中去除判决结果的部分，而搜索关键词是罪名预测模型给出的罪名预测结果， 

通
过增加搜索关键词的方式，
缩小图谱检索范围，
以便图谱更准确和快速地给出预


测结果 

。
数据预处理层：当接收到输入后，
需要对数据进行预处理，主要操作是去除


冗余、文本裁剪和案情文本向量生成 

。
数据分析层？
．
经过预处理的信息先输入罪名预测模型获得罪名预测结果， 

然
后作为关键词输入事理图谱进行刑期预测 

。
数据展示层：展示数据的预测结果 

。
５４．
系统实现


５４
．．１ ＰｙＱｔ 介绍


ＱＴ是个跨平台Ｃ＋＋库的集合主要是通过实现各种ＡＰ来访问移动系统
一
，
Ｉ 

、
控制桌面等平台。主要提供的服务包括定位服务、多媒体服务、蓝牙服务、Ｗｅｂ



服务以及传统的Ｕ开发服务是的组完整的绑定它被



一
Ｉ。ＰｙＱｔ５Ｑｔ ｖ５Ｐｙｔｈｏｎ。
实现为超过３５个扩展模块并使，Ｐｙｔｈｏｎ在所有支持的平台包括（ｉＯＳ和Ａｎｄｒｏｉｄ 


）
上被用作Ｃ＋＋的替代应用程序开发语言 


。
ＰｙＱｔ的优势在于简单好用，

功能强大，跨平台支持，性能高。ＰｙＱｔ本身就


是对Ｑｔ
库的ｐｙ
ｔｈｏｎ绑定，在绑定的时候保持了原有Ｑｔ库的ＡＰＩ。同时他面向


４８



第五章基于事理阁谱的辅助判决方案生成系统 


对象、信号和槽的设计机制，界面设计和业务代码的分离使得设计稳定性更高 


。
５４２Ｕ
．．Ｉ 设计


使用完成个系统分为两步Ｕ设计和功能实现本文实现使用



一
ＰｙＱｔ：Ｉ。
ＱＤｅｓｔｉ
ｇｎｅｒ工具进行与用户交互界面设计，
再将该工具生成的．ｕｉ
文件转换成对


应的．
ｐｙ文件。该做法的好处是所见即所得，
设计的界面就是最终的结果，
省去


了使用代码时调整控件位置参数的繁琐过程 

。
Ｄｅｓ是个灵活的可视化图形操作界面设计工具可以加速开发图形



一
Ｑｔ ｉ
ｇｎｅｒ。
界面的速度在Ｄｅｓ中设计生成的Ｕ界面是个后缀为的文件将

一
。
Ｑｔ ｉ
ｇｎｅｒＩ．ｕｉ，
．ｕ 

ｉ
文件转换为．
ｐｙ文件就可以被其他的ＰｙＱｔ程序引用 


。
ＵＩ设计流程如下 

：
（１）创建主窗口：主窗口就是用户和系统交互时的界面。系统的具体功能



都是在主窗口中添加 

；
ＭａｉｒＶＡｎｄｏｗ
－
 ｕｎｔｉｔｌ
ｅｄ


＊
Ｔ
ｙｐｅ  Ｈｅｒｅ


图２主窗口创建


－
（２）分析功能：基于前文的研究，
本章要实现的功能是对给定的案情描述


进行基于深度学习预训练模型的罪名推测和基于其他判决书构架的事理图谱的


刑期预测 

。
因此需要加入的功能包括，上传案情描述，
案情描述预览，
罪名预测，刑期


预测四个功能。
其中罪名预测包括分别使用ＢＥＲＴ模型和ＸＬＮＥＴ模型两部分 

。
（３）添加组件：基于（２）的分析在主窗口中添加组件。
Ｑｔ Ｄｅｓｉ
ｇｎｅｒ提供了


很多常用控件，比如常用的按钮，
单选按钮，文本框等等，这些组件可以直接拖


动到主窗口中，
实现相关功能 

。
“ ”
以上传案情描述功能为例，选用ＰｕｓｈＢｕｔｏｎ组件，该组件可以提供多种



４９


北京邮电大学丨：学硕士学位论文
 


触发信号，包括当鼠标指针在按钮上并按下左键时触发该信号，

当鼠标左键被释


放时触发该信号等等。ＰｙＱｔ的信号槽机制中会设计相应的槽函数，
槽函数监听


指定信号，
收到信号之后，执行对应操作，
完成和用户交互的过程 

。
窗口布局如果只添加个按钮控件或者文本控件的话没有布局的



一
（４）：，
必要性但是如果ＧＵ窗口不止个功能为了设计的美观需要对窗口进行



一
，Ｉ，，
布局。
ＱＤｅｓ
ｔｉ
ｇｎｅｒ提供了四种窗口布局方式，
分别是垂直布局，
水平布局，栅格


布局和表单布局。
我们选择最见到的垂直布局完成本系统的设计 

。
最后得到的ＵＩ设计如图５
－
３所示 

：
Ｃｒ
ｉｍｅＰｒｅｄｉｃｔ 
－
 ＣｎｍｅＰｒｅｄｉｃｔ．ｕ 

ｉ
上传案傾描述


案牾描述


罪名麵


Ｍ植
ＢＥ
酵羽輕 


ＸＵＩＥＴ模型侧结果 


基于事理图谱的刑期預咖


￡［：：麵 §测：：
Ｉ



」
图系统设计 

图
－
５３ＵＩ
设计完成的ＵＩ保存为．ｕｉ
文件，再通过ｐｙｕ
ｉｃ工具转换成ｐｙ
ｔｈｏｎ文件，此时


得到的．
ｐｙ文件就可以被ｐｙｑｔ程序调用 

。
５４３
．．
功能实现


本小节在Ｕ设计的基础上完成功能实现的个优势是界面和逻辑分



一
Ｉ。ＰｙＱｔ
离。
界面文件和逻辑文件（也就是实现功能的文件）是两个相对独立的文件， 

上
节通过工具编译来的文件称为界面文件还需要个文件来调用他 


这
一一
ｐｙｕｉｃ，，
个文件称为逻辑文件，
在逻辑文件中继承界面文件的主窗口类就实现了调用， 

然
后在逻辑文件中，
完成业务逻辑实现自己的功能 

。
实现这个界面和逻辑分离功能的核心就是ＰｙＱｔ的信号和槽机制。通过建立



信号和槽之间的连接就可以实现对象之间的通信。
在创建的对象改变其状态时 

，
信号就由该对象发射出去，
槽用于接收信号，
多个信号可以和单个槽连接，
单个


５ 

０

第五章基于事理阁谱的辅助判决方案生成系统 


信息好也可以与多个槽进行连接。基于控件，

信号和槽可以进行高效的编程 

。
在Ｑｔ编程中通过，
Ｑｔ
信号槽机制对鼠标或者键盘在界面上的操作进行响应


处理，
如上文提到的上传案情描述按钮，
本课题选用ＰｕｓｈＢｕｔｔｏｎ控件，在按钮


被按下的时候发射信号，监听这个按钮是否被按下信号的槽函数就会执行，

完成


之前给函数设计的相应用能 

。
本小节功能实现分为以下步骤 

：
（１）设计信号和槽函数 

：
打开ＱＤｅｓ
ｔｉ
ｇｎｅｒ，
如图５
－
３所不的ＵＩ需要给相应的按钮设置上信号，ＵＩ 

中
本课题设置了四个Ｐｕｓｈ  Ｂｕｔｔ
ｏｎ控件，
分别代表上传案情描述，
ＢＥＲＴ模型预测


结果，ＸＬＮＥＴ预测结果和刑期预测。对四个按键的信号都设置成鼠标左键按下



之后触发相应的槽函数 

。
信号和槽函数设计结果如图５
－
４所示 

：
＾  Ｃｒ
ｉｍｅＰｒｅｄ＾ｃｔ 
－
 ＣｒｍｅＰｒｅｄ
ｉｉｃｔｕ．ｉ 


＾
Ｕｐｌｏａｄｊｕｄｇｍｎ〇
 —
ｅｔ 


｜
￣￣


＂ 
ｅ
ｆｌ
 上传案情插  ｉｆ

｜  案情描述

 


１
｜
罪名ｆ顿！ｊ
 


ＡｃｕｓａｎＰｒｅｄＢｅｒｔ
 —
ｃｔｉｏｉｃｔ（）  

｜
｜
ｊ
ｉＳ  ［ＺＺＴＺＩＪ

 ＩＩ
ｐ
ａ



ｇｆ  ｊｊｉｌ  

１
ＡｃｃｕｎＦｒｄＸｌｎｅ

Ｊｓａｔｉｏｅｉｃｔｔ（）
基ｊ 
Ｉ理图语的刖期柯剜


ｖ

ｍｅＦｒｅｄｎＫＧ
 －￣
Ｃｒｉｉｃｔｉｃ？
（） 

ｊ
图５
－
４信号和槽函数设计示意图


以上传案情描述为例，
按下上传案情描述按钮后，会触发ｃｌｉｃｋｅｄ的信号 

，
和这个信号连接的槽函数是ＵｐｌｏａｄＪｕｄｇｅｍｅｎｔ〇函数


（２）槽函数


如图５
－
４所示，在四个信号对应着四个槽函数，
分别介绍这四个槽函数的功


能和实现 

。
ＵｐｌｏａｄＪｕｄｇｅｍｅｎｔ（）：打开文件浏览页面选择需要上传的案情描述内容，
保存


案情文本到变量后并把读取到案情内容显示在案情描述预览的文本框中 

案
一
，，
情描述预览可以通过滚轮浏览全文 


。
５ 

１

北京邮电大学１：
学硕上学位论文 


ＡｃｃｕｓａｔｉｏｎＰｒｅｄｉｃｔＢｅｒｔ（）：

对上传的案情描述进行预处理后，
将预处理的文本


内容传给本课题第三章中建立的基于ＢＥＲＴ提取特征向量的混合深度学习模型 

，
进行罪名预测。
并将预测的结果填入后面的空白处 

。
ＡｃｃｕｓａｔｉｏｎＰｒｅｄｉｃｔＸＬＮＥＴ（）
：
对上传的案情描述进行预处理后，
将预处理的


文本内容传给本课题第三章中建立的基于ＸＬＮＥＴ提取特征向量的混合深度学习



模型，进行罪名预测。
并将预测的结果填入后面的空白处 

。
ＣｒｍｅＰｒ
ｃｄ
ｉｉｃｔＫＧＯ：
基于之前建立的知识图谱进行刑期预测，
并将预测的结


果填入后面的空白处 

。
５５
．
系统展示与测试


本节对上文完成的系统进行展示，在第四章中提到我们获取了２４０００份判决



书数据，
其中９０％的判决书用来构建事理图谱。从剩下的１０％的判决书中我们


选择了份判决书去除判决结果得到其中的案情描述进行展示其中本案件实际


一
判罚结果为故意杀人罪，
判处１５年（即１８０月）有期徒刑 

。
在完成ＵＩ设计和功能实现后的系统如图５

－
５所示 

：
Ｓ３  ＣｒｉｍｅＰｒ＾ｄｋｔ 
￣
 □ Ｘ


上传案情描述


 
 


罪名删


ＢＥＫＴ植型翻赌果


ＸＵＥＴ植型麵结果  — 

Ｊ
基于亊理图谱的刑期柯则


Ｍ期予麵 

ｊ
图５
－
５系统ＵＩ
示意


（１）将详细案情上传 

：
５２



第五章基于事理图谱的辅助判决方案生成系统 


Ｃｆｊｒｆｉｅ＾ｅｄｃｔ  ｌ
—
Ｑ


案情描述


■ 灭运涵ｉｉＸＳＳ甲


册结婚婚后二人与陈某的父亲共同居住在自贡市
，


沿滩区２０年Ｓ月３曰下牛被告人陈某在外捉黄
。


１５，
＿后回家因琐事与周某甲发生争砂抓扯周某  ＾
■

 、，
罪名倾删


ＢＺＲＴｇ麵１结枣」１ｆ  


ＸＬｌｉＴ镇型预删结果
ｆ  


墓于事理图谱的刑期饨ＩＩ


］
：刑期細  


ｉ
图５
－
６上传案情


（２）分别点击两个罪名预测按钮后 

：
Ｈ  Ｃｒｍｍ＾ｅｄｍ  －
Ｏ 

Ｘ
上传案情描述


案情描述


被告人陈杲和被ｉｘＳ某甲于


册结婚婚后二人与陈某的父亲共同居住在自贡市
，


沿滿区２０５年６月３日下牛被告人陈某在外捉黄
。１ 
 ，
弩后回家１桢事与周某甲发生争吵爪扯
，
周某 、

 、
丨
，
罪名侧


ＢＥＲＴ模型预删结果  ．．．．．．．．＿＿  

Ｊ
ＸＬＮＥＴ模型麵结果  

１
基于事理图谱的刖期忖蒯


刑期预＿


图罪名预测结果示意


－
５７
（３）进行刑期预测 

：
５３


 


Ｃｌ  Ｃｒｉｍ＾ＰｒｅＳｃｔ 
—
 Ｑ Ｘ


上传案情描述


案情插述




＂
被害人｜某甲于＾ＯＳ翠３月１２百簦远主ａ
东某和］
ｊ
ｌ
册结婚婚后二人与陈某的乂亲共同居住在自贡市
，


沿濉区２０５年月３曰下午被告人陈某在外捉黄
。１￡


；
，
鳋后回家因琐事与周某甲犮生争吵Ｍ扯周某  Ｖ
，、，
 

Ｉ
罪名細


ＢＥ＿Ｓ？则结果  Ｍｍａ＼



Ｉ
Ｘ酬函麵结果  人  

ｊ
基于事理图谱的刑期預珈


二刑期簡
＞
１  ＾
图８刑期预测结果示意


－
５６
．
本章小结


本章基于本课题第三第四章中研究的模型使用ＰｙＱｔ实现了个原型系统
一
， 

。
先是对系统需求进行分析，之后基于需求分析设计模型整体架构。
介绍了ＰｙＱ 

ｔ
的优势，
着重解释了 ＰｙＱｔ的信号和槽机制使得我们设计用户图形界面实现了界


面和逻辑分离。使用ＱＤｅｓｔｉ
ｇｎｅｒ设计了系统的ＵＩ，
并设计好信号和模型接口 

。
最终编写代码完成逻辑功能 

。
最终的原型系统实现了系统上传案情描述完成预览，选择不同ＢＥＲＴ或者



ＸＬＮＥＴ作为预训练模型进行罪名预测，使用基于事理图谱的模型进行刑期预测


的功能，
为司法人员和人民群众提供了司法辅助功能，达到了我们设计系统的 

目
的 

。
５ 

４

第六章结论 


第六章结论


随着依法治国和智慧法院建设的不断推进以及法律的不断完善
”
我国
“ “ ”
，， 

的司法事业向着更高效和更公平的方向不断发展。同时，人民的法律意识也在不



断提高，人民在日常生活中也更积极地使用法律工具保护自己。这使得社会公正


水平提高的同时，也给司法从业人员带来压力。而人工智能在社会各领域产生了



优异的效果，
因此，
引入人工智能来辅助司法工作，帮助司法人员更高效公平地


解决法律问题，为人民群众提供司法帮助。因此研究人工智能在司法领域的应用


具有重要意义。
本课题的研究成果主要如下 

。
（１）本课题提出基于预训练模型提取特征的混合深度罪名预测模型，结合


深度学习模型，对给定的判决书进行相应预处理后进行罪名预测。
预训练模型在


海量语料和创新的双向语言模型的基础上对文本有着更好的语义理解提取特征

 ，
更精确，
结合之前成熟的深度学习文本分类模型，在罪名预测问题上有着优秀的


效果 

。
（２）本课题提出基于刑事判决书的事理图谱构建和刑期预测模型。针对刑


事判决书设计了构建事理图谱的方法，其中重点是事件抽取和事件关系抽取， 

对
判决书文本进行了中文分词，词性标注，
依存语法分析抽取事件，再根据模式匹


配的方法对抽取得到的事件进行关系抽取，
得到的事件节点通过案件类型，刑期


等关系连接起来构成事理图谱再根据文本相似度的方法对节点进行匹配达到预

 。
测刑期的目的。
并且，使用Ｎｅ〇４工具对图谱进行了可视化操作
ｊ


。
（３）最后，我们根据上文得到的两个模型，
将其组合起来，基于ＰｙＱｔ实现


个基于事理图谱的辅助判决方案生成原型系统以完成我们所期望的司法辅助


一
功能。系统接受案情描述作为输入，输出罪名和刑期 


。
在目前工作的基础上，在后续的研宄中，
将主要关注以下几个方面 

：
（１）如何有效地对其他事件之间的关系进行逻辑构建，包括事件之间的顺



承等关系 

。
（２）如何有效地对抽取到的事件关系进行衍化分析，

将其泛化为更高等级


的法律规律知识 

。
５５





参考文献


［
１
］靳高风，
守佳丽，林晞楠．
中国犯罪形势分析与预测（
２０１８
—
２０１９）［Ｊ］．
中国


人民公安大学学报社会科学版：
，
２０１９（３） 

．
［
２］张光杰．
中国法律概论［
Ｍ］
．
上海：
复旦大学出版社，
２０１３ 

．
［
３
］臧德胜以案例指导制度规范量刑协商的思考？
［
Ｊ
］
．
法律适用，
２０２０（０６）３３：
－
３９ 

．
［
４］张兴梅量刑程序规范与完善的多维思考．
［
Ｊ
］
？
祖国，
２０１９
（
１９
）
：１３９＋１５７ 

．
［
５
］
赵学军量刑偏差的司法表现与量刑规范的实现路径．
一一
基于抢劫罪刑事判


决书的实证考察［
Ｊ
］
？
天津法学，
２０１９，
３５
（
０３）
：５７－
６３ 

．
６］ Ａｓｈｌｅ
ｙＫＤＣａｓｅｂａｓｅｄ  ｒｅａｓｏｎｎｇ  ａｎｄｍｐｌｉｃａｔｉｏｎｓ  ｆｏｒ  ｌｅｇａｌ  ｅｘｐｅｒｔ
－
．  ｉ ｉｔｓｉ 

［
ｓ
ｙｓｔｅｍｓ［Ｊ］．  Ａｒｔｉｆｉｃｉａｌ  Ｉｎｔｅｌｌｉｇｅｎｃｅ  ａｎｄＬａｗ 
， １９９２，
１
（
２－
３
）
： １１３
－
２０８ 

．
［
７］  Ｓｃｈｉｌｄ  Ｕ  Ｊ  Ｃｒｉｍｉｎａｌ  ｓｅｎｔｅｎｃｉｎ
．
ｇ  ａｎｄ  ｎｔｅｌｌｉｇｅｎｔ  ｄｅｃｉｓｉｏｎ  ｓｕｐｐｏｒｔ［
ｉＭ］
／／Ｊｕｄｉｃｉａｌ
Ａｐｐｌｉｃａｔｉｏｎｓ  ｏｆ  Ａｒｔｉｆｉｃｉａｌ  Ｉｎｔｅｌｌｉ
ｇｅｎ
ｃｅ Ｓ．
ｐｒｉｎｇｅｒ， 
Ｄｏｒｄｒｅｃｈｔ
， １９９８：  ４７９８－


．
［
８
］ Ａｓｈｌｅｙ  Ｋ  Ｄ？ 
Ｂｒｕｎｎｇｈａｕｓ  Ｓｉ．  Ａｕｔｏｍａｔｉｃａｌｌｙ  ｃａｓｓｉｆｙｉｎｇ  ｃａｓｅ  ｔｅｘｔｓ  ａｎｄ  ｐｒｅｄｉｃｔｉｎｇ
ｌ


ｏｕｔｃｏｍｅｓ［Ｊ］．  Ａｒｔｉｆｉｃｉａｌ  Ｉｎｔｅｌｌｉｇｅｎｃｅ  ａｎｄ  Ｌａｗ， 
２００９，
１７（２） １２５：
－
１６５ 

．
［
９］ Ｐａｌａｕ  Ｒ  Ｍ ＭｏｅｎｓＭ，
 Ｆ．  Ａｒｇｕｍｅｎｔａｔｉｏｎｍｉｎｉｎｇ：  ｔｈｅ  ｄｅｔｅｃｔｉｏｎ，  ｃｌａｓｓｉｆｉｃａｔｉｏｎ  ａｎｄ


ｓｔｒｕｃｔｕｒｅ  ｏｆ  ａｒｇｕｍｅｎｔｓ  ｉｎ  ｔｅｘｔ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ  ｏｆ  ｔｈｅ  １２ｔｈ  ｉｎｔｅｒ
ｎａｔｉｏｎａｌ
ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  ａｒｔｉｆｉｃｉａｌ  ｉｎｔｅｌｌｉｇｅｎｃｅ  ａｎｄ  ｌａｗ ２００９ ９８０７
－
．：
１ 

．
［
１０］  Ｖｌｅｋ Ｃ５ 
Ｐｒａｋｋｅｎ  Ｈ， 
Ｒｅｎｏｏｉ
ｊ  Ｓ  ｅｔ  ａｌ  Ｃｏｎｓｔｒｕｃｔｉｎｇ  ａｎｄ  ｕｎｄｅｒｓｔａｎｄｉｎｇ  Ｂａｙｅｓｉａｎ
５
． 

ｎｅｔｗｏｒｋｓ  ｆｏｒ  ｌｅｇａｌ  ｅｖｉｄｅｎｃｅ  ｗｉｔｈ  ｓｃｅｎａｒｉｏ  ｓｃｈｅｍｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ  ｏｆ  ｔｈｅ１５ｔ 

ｈ
Ｉｎａｔｏｎａｌ  Ｃｏｎｆｅｒｅｎｃｅ  ｏｎ
ｎｔｅｒｉ  Ａｒｔｉｆｉｃｉａｌ  Ｉｎｔｅｌｌｉ
ｇｅｎｃｅ  ａｎｄ  Ｌａｗ  ２０．１５ １２８
：
－
１３７ 

．
［
１１
］
Ａｌｅｔｒａｓ  Ｎ  Ｔｓａｒａｐａｔｓａｎ
５
ｉｓ Ｄ， 
Ｐｒｅｏ＾ｉｕｃＰ－
ｉｅｔｒｏ Ｄ， ｅｔａ
ｌ． Ｐｒｅｄｉｃｔｉｎ
ｇ  ｊｕｄｉｃｉａｌ  ｄｅｃｉｓｉｏｎｓ


ｏｆ  ｔｈｅ  Ｅｕｒｏｐｅａｎ  Ｃｏｕｒｔ  ｏｆ  Ｈｕｍａｎ  Ｒｉｇｈｔｓ：  Ａ  ｎａｔｕｒａ  ｌｌａｎ
ｇｕａｇｅ  ｐｒｏｃｅｓｓｉｎｇ


ｐｅｒｓｐｅｃｔｉｖｅ［Ｊ］ 
．  ＰｅｅｒＪ  Ｃｏｍｐｕｔｅｒ  Ｓｃｉｅｎｃｅ， 
２０１６， 
２： ｅ９３ 

．
［
１２
］ Ｑ
ｉｎ Ｚ ＨｅＴ？，  Ｌｉａｎ  Ｈ，  ｅｔ  ａｌ  ．Ｒｅｓｅａｒｃｈ  ｏｎ ｊ
ｕｄｃｉａｌ  ｄａｔａ  ｓｔａｎｄａｒｄ［Ｃ］／／２０
ｉ１８  ＩＥＥＥ


Ｉｎａｔｉｏｎａｌ  Ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  Ｓｏｆｔｗａｒｅ
ｎｔｅｒ Ｑｕａｌｉｔ
ｙ， Ｒｅｌｉａｂｉｌｉｔ
ｙ  ａｎｄ  Ｓｅｃｕｒｉｔｙ


Ｃｏｍｐａｎｉｏｎ（ＱＲＳＣ－
）
． ＩＥＥＥ？ 
２０１８ １７５：
－
１７７ 

．
［
１３
］
Ｌｉａｎ  Ｈ，  ＨｅＴ Ｑ 
？
ｉｎＺ，  ｅｔ  ａｌ  ．Ｒｅｓｅａｒｃｈ  ｏｎ ｔｈｅ  ｎｆｏｒｍａｔｏｎ  ｑｕａ
ｉｉｌｉｔ
ｙｍ
ｅａｓｕｒｅｍｅｎｔ  ｏｆ


ｊ
ｕｄｉｃｉａｌ  ｄｏｃｕｍｅｎｔｓ［Ｃ］／／２０１８  ＩＥＥＥ  Ｉｎｔｅｒｎａｔｉｏｎａｌ  Ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  Ｓｏｆ
ｔｗａｒｅ  Ｑｕａｌｉｔ
ｙ 

，
Ｒｅｌｉａｂｉｌｉｔ
ｙ  ａｎｄ  Ｓｅｃｕｒｉｔｙ  Ｃｏｍｐａｎｉｏｎ  （ＱＲＳＣ）
－
． ＩＥＥＥ， 
２０１８ １７８
：
－
１８１ 

．
［
１４］  Ｌａｍｅ  Ｇ．  Ｕｓｉｎｇ  ＮＬＰ  ｔｅｃｈｎｉｑｕｅｓ  ｔｏ  ｄｅｎｔｉｆｙ  ｌｅｇａｌ  ｏｎｔｏｌｏｇｙ  ｃｏｍｐｏｎｅｎｔｓｉ： ｃｏｎｃｅ
ｐｔｓ


ａｎｄ  ｒｅｌａｔｉｏｎｓ［
Ｍ］
／／Ｌａｗ  ａｎｄ  ｔｈｅ  Ｓｅｍａｎｔｉｃ  Ｗｅｂ． Ｓ
ｐｒｉｎｇｅｒ， 
Ｂｅｒｌｉｎ， 
Ｈｅｉｄｅｌｂｅｒｇ， 
２００５ 

：
１６９－
１８４ 

．
５６


参考文献
 


ＭＲＨａｎＭＫＮａｂ
’
［
１５
］
Ｔａｌｉｂ 
，
ｉｆ 
， 
ｉ Ｚ， 
ｅｔａｌ．  Ｔｅｘｔｍｎｎｇ  ｏｆｊｕｄ  ｉｉｉｃｉａｌ ｓ
ｙｓｔｅｍｓｃｏｒ
ｐｏｒａ ｖｉａ


ｃｌａｕｓｅ  ｅｌｅｍｅｎｔｓ
［
Ｊ
］
． Ｉｎａｔｉｏｎａ
ｎｔｅｒｌ Ｊｏｕｒ
ｎａｌ  ｏｎ  Ｉｎｆｏｒｍａｔｉｏｎ  Ｔｅｃｈｎｏｌｏ
ｇｉｅｓ  ＆  Ｓｅｃｕｒｉｔｙ 

，
２０１７， 
９（３）


．
［
１６
］
高菲基于机器学习的计算机辅助量刑初探
．
［
Ｄ］
．
华东政法学院，
２００５ 

．
［
１７
］
邹晓玫修春波基于神经网络的刑事案件量刑决策系统，
．
［
Ｊ
］
．
微计算机信


息，
２００８
（
０３）２６４２６５：
－


．
［
１８
］程春惠何钦铭面向不均衡类别朴素贝叶斯犯罪案件文本分类
，
．
［
Ｊ
］
．
计算机工程


与应用，
２００９４５，（
３５
）
：１２６－
１２８＋１３１ 

．
［
１９］夏明．
面向刑事案件的精细分类与串并案分析技术研究［
Ｄ］
．
华中科技大


学，
２０１６ 

．
［
２０］ ＭｉｋｏｏｖＴｌ
，  Ｃｈｅｎ Ｋ，
Ｃｏｒｒａｄｏ  Ｇ，
ｅｔａｌ． Ｅｆｆｉｃｉｅｎｔ ｅｓｔｉｍａｔｏｎ ｏｆ  ｗｏｒｄ
ｉ 

ｒｅ
ｐｒｅｓｅｎｔａｔｏｎｓｎ  ｖｅｃｔｏｒ  ｓｐａｃｅ［Ｊ］
ｉ ｉ，  ａｒＸｉｖｐｒｅｐｒｉｎｔ  ａｒＸｉｖ

：  １３０１．３７８１
， 
２０１３ 

．
［
２１
］ Ｃｏ
ｌｌｏｂｅｒｔ  Ｒ  Ｗｅｓｔｏｎ  Ｊ  Ａ  ｕｎｉｆｉｅｄ  ａｒｃｈｉｔｅｃｔｕｒｅ  ｆｏｒ  ｎａｔｕｒａｌ  ｌａｎｇｕａｇｅ  ｐｒｏｃｅｓｓｉｎｇ
，
． 

：
Ｄｅｅｐ  ｎｅｕｒａ  ｎｅｌｔｗｏｒｋｓ  ｗｉｔｈｍｕｌｔｉｔａｓｋ  ｌｅａｒｎｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ  ｏｆ  ｔｈｅ  ２５ｔｈ



ｉｎａｔｉｏｎａｌ  ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  Ｍａｃｈｉｎｅ  ｌｅａｒｎｉｎｇ
ｎｔｅｒ．  ２００８ １６０：
－
１６７ 

．
２２
ＺｈａｎｇＸＺｈａｏ  ＪＬｅＣｕｎ  Ｙ  Ｃｈａｒａｃｔｅｒｅｖｅｌ  ｃｏｎｖｏｌｕｔｉｏｎａｌ ｎｅｔｗｏｒｋｓ  ｆｏｒ  ｔｅｘｔ
－
．ｌ 

［］，，
ｃｌａｓｓｉｆｉｃａｔｉｏｎ
＾］
．  ａｒＸｉｉｎｔ  ａｒＸｖ
ｖ ｐｒｅｐｒｉ：  １５０９．０１６２６， 
２０１５ 

．
［
２３］ＬａｉＳ，
ＸｕＬ， ＬｕＫｉ
，
ｅｔａｌ．  Ｒｅｃｕｒｒｅｎｔ  ｃｏｎｖｏｕｔｏｎａｌ  ｎｅｕｒａ  ｎｅｔｗｏｒｋｓ  ｆｏｒ  ｔｅｘｔ

 ｌｉｌ
ｃｌａｓｓｉｆ
ｉｃａｔｉｏｎ［
Ｃ］
／／Ｐｒｏｃｅｅｄｎｇｓ  ｏｆｔｈｅｉ   ＡＡＡＩ  Ｃｏｎｆｅｒｅｎｃｅ  ｏｎＡｒ  ｔｉｆｉｃｉａｌ  Ｉｎｔｅｌｌｉ
ｇｅｎｃｅ 

．
２０１５，
２９（１
）


．
［
２４］ＺｈｏｕＣ，  Ｓｘｉｎ
 Ｃ， 
ＬｉｕＺ？ ｅｔａ
ｌ．  ＡＣ 
－
ＬＳＴＭ  ｎｅｕｒａｌ  ｎｅｔｗｏｒｋ  ｆｏｒ  ｔｅｘｔ  ｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］ 

．
ａｒＸｉｖ  ｐｒｅｐｒｉｎｔ  ａｒＸｉｖ：  １５１１．０８６３０， 
２０１５ 

．
［
２５
］ 
Ｊｏｔ
ｙ  Ｓ  Ｍａｒｑｕｅｚ  Ｌ  Ｎａｋｏｖ  Ｐ  Ｊｏｉｎｔ  ｍｕ
，，
．ｌｔｉｔａｓｋ  ｌｅａｒｎｉｎｇ  ｆｏｒ  ｃｏｍｍｕｎｉｔｙ  ｑｕｅｓｔｏｎ

 ｉ
ａｎｓｗｅｒｉｎｇ  ｕｓｉｎｇ  ｔａｓｋ－
ｓ
ｐｅｃｉｆ
ｉｃ  ｅｍｂｅｄｄｉｎｇｓ  ［
Ｊ
］
．  ａｒＸｉｖ  ｐｒｅｐｒｉｎｔ  ａｒＸｖｉ：  １８０９０８９２８．


，
２０１８ 

．
［
２６
］ 
Ｙａｎｇ  Ｚ，  Ｙａｎｇ  Ｄ？  Ｄｙｅｒ  Ｃ  ｅｔ  ａｌ  Ｈｅｒａｒｃｈｉｃａｌ  ａｔｔｅｎｔｉｏｎ  ｎｅｔｗｏｒｋｓ  ｆｏｒ  ｄｏｃｕｍｅｎｔ
５
． 
 ｉ
ｃｌａｓｓｉｆｉｃａｔｉｏｎ
［
Ｃ］
／／Ｐｒｏｃｅｅｄｎｇｓ  ｏｆ  ｔｈｅ ２０ｉ１６  ｃｏｎｆｅｒｅｎｃｅ  ｏｆ  ｔｈｅ  Ｎｏｒｔｈ Ａｍｅｒｉｃａｎ


ｃｈａ
ｐｔｅｒ ｏｆ ｔ
ｈｅ  ａｓｓｏｃｉａｔｏｎ  ｆｏｒ  ｃｏｍｐｕｔａｔｉｏｎａｉｌ  ｌｉｎｇｕｉｓｔｉｃｓ：  ｈｕｍａｎ  ｌａｎｇｕａｇｅ


ｔｅｃｈｎｏｌｏｇｉｅｓ．  ２０１６ １４８０
：
－
１４８９ 

．
２７］  Ｓａｃｈａｎ  Ｍ  Ｘｎｇ Ｅ Ｓｅｆｔｒａｉｎｎｇ  ｔｏ  ａｓｋ  ａｎｄ  ａｎｓｗｅｒ
ｎｎｇ  ｆｏｒ  ｊｏｎｔｌｙ  ｌｅａｒ
－
ｉ．ｌｉ 
 ｉｉ
［，
ｑｕｅｓｔｉｏｎｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ  ｏｆ  ｔｈｅ  ２０１８  Ｃｏｎｆｅｒｅｎｃｅ  ｏｆ  ｔｈｅ  Ｎｏｒｔｈ  Ａｍｅｒｉｃａｎ


Ｃｈａｐｔｅｒ  ｏｆ  ｔｈｅ  Ａｓｓｏｃｉａｔｉｏｎ  ｆｏｒ Ｃｏｍｐｕｔａｔｉｏｎａｌ  Ｌｉｎｇｕｉｓｔｉｃｓ：  Ｈｕｍａｎ  Ｌａｎｇｕａｇｅ


Ｔｅｃｈｎｏｌｏｇｉｅｓ， 
Ｖｏｌｕｍｅ  １  （Ｌｏｎｇ  Ｐａｐｅｒｓ）． ２０１８： ６２９６４０－


．
［
２８
］
Ｌｉａｎ  Ｈ Ｑ？
ｉｎ Ｚ，  ＨｅＴ？ ｅ
ｔａｌ．  Ｋｎｏｗｌｅｄ
ｇｅ  ｇｒａｐｈ  ｃｏｎｓｔｒｕｃｔｉｏｎ  ｂａｓｅｄ  ｏｎ  ｊ
ｕｄｉｃｉａｌ  ｄａｔａ


５１



北京邮电大学工学硕上学位论文 


ｗｉｔｈ  ｓｏｃｉａｌ ｍｅｄａ［Ｃ］／／２０ｉ１７  １４ｔｈ Ｗｅｂ  Ｉｎｆｏｒｍａｔｉｏｎ  Ｓｙｓｔｅｍｓ  ａｎｄ  Ａｐｐｌｉｃａｔｉｏｎｓ


Ｃｏｎｆｅｒｅｎｃｅ  （ＷＩＳＡ）． ＩＥＥＥ， 
２０１７：  ２２５－
２２７ 

．
［
２９］ ＤｉｎｇＸ， Ｌ Ｚｉ
，
ＬｉｕＴ，
ｅｔａｌ．  ＥＬＧ  ａｎ ｅｖｅｎ  ：ｔｌｏｇｃ  ｇｒａｐｈ［Ｊ］  ａｒ
ｉ．Ｘｉｖｐｒｅ
ｐｒｉｎｔ


ａｒＸｉｖ：１９０７０８０．１５，
２０１９ 

．
［
３０
］  Ｌｉ  Ｚ  Ｚｈａｏ  Ｓ  Ｄｉｎｇ  Ｘ  ｅｔ  ａｈ  ＥＥＧ  ｋｎｏｗ
５，，
；ｌｅｄｇｅ  ｂａｓｅ  ｆｏｒ  ｅｖｅｎｔ  ｅｖｏｌｕｔｉｏｎａｒ


ｙ
ａｓ［Ｃ］／／Ｃｈｉｎｅｓｅ  Ｎａｔｉｏｎａｌ  Ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  Ｓｏｃ
ｐｒｉｎｃｉｐｌｅｓ  ａｎｄ  ｐａｔｔｅｒｉａｌ Ｍｅｄｉ 

ａ
Ｐｒｏｃｅｓｓｎｇｉ． Ｓ
ｐｒｎｇｅｒｉ
， 
Ｓｉｎ
ｇａｐｏｒｅ， 
２０１７：  ４０－
５２ 

．
［
３１
］
Ｌｉ  Ｚ５  ＤｉｎｇＸ？ Ｌｉｕ Ｔ  ．Ｃｏｎｓｔｒｕｃｔｉｎｇ  ｎａｒｒａｔｉｖｅ  ｅｖｅｎｔ  ｅｖｏｌｕｔｉｏｎａｒｙ  ｇｒａｐｈ  ｆｏｒ  ｓｃｒｉｐｔ
ｅｖｅｎｔ
 ｐｒｅｄｉｃｔｉｏｎ［Ｊ］．  ａｒＸｉｖ  ｐｒｅｐｒｉｎｔ  ａｒＸｖｉ：１８０５．０５０８１
， 
２０１８ 

．
［
３２
］ 
ＺｈａｏＳ，  Ｗａｎｇ  Ｑ？  Ｍａｓｓｕｎｇ  Ｓ， ｅｔａｌ．  Ｃｏｎｓｔｒｕｃｔｉｎ
ｇ  ａｎｄ  ｅｍｂｅｄｄｉｎｇａ
ｂｓｔｒａｃｔ  ｅｖｅｎｔ


ｃａｕｓａｌｉｔ
ｙ  ｎｅｔｗｏｒｋｓ  ｆｒｏｍ  ｔｅｘｔ  ｓｎｉｐｐｅｔｓ  ［
Ｃ］／／Ｐｒｏｃｅｅｄｎｇｓ  ｏｆ  ｔｈｅ  Ｔｅｎｔｈ  ＡＣＭ

 ｉ
Ｉｎｔｅｒ
ｎａｔｏｎａｉｌ  Ｃｏｎｆｅｒｅｎｃｅ  ｏｎＷｅｂ  Ｓｅａｒｃｈ   ａｎｄ  Ｄａｔａ Ｍｉｎｉｎｇ．  ２０１７： ３３５
－
３４４ 

．
［
３３
］ Ｍｉｋｏｌｏｖ Ｔ，
Ｃｈｅｎ Ｋ，
Ｃｏｒｒａｄｏ  Ｇ  ｅ  ａ  Ｅｆｆｃ？
ｔｌ．ｉｉｅｎｔ  ｅｓｔｉｍａｔｉｏｎ ｏｆ  ｗｏｒｄ


ｒｅ
ｐｒｅｓｅｎｔａｔｉｏｎｓ  ｉｎ  ｖｅｃｔｏｒ  ｓｐａｃｅ［Ｊ］．  ａｒＸｉｖ  ｐｒｅｐｒｉｎｔ  ａｒＸｉｖ：１３０１．３７８１
？ 
２０１３ 

．
３４
 Ｃｏｌｌｏｂｅｒｔ  Ｒ  Ｗｅｓｔｏｎ  Ｊ  Ａ  ｕｎｆｉｅｄ  ａｒｃｈｉｔｅｃｔｕｒｅ  ｆｏｒ  ｎａｔｕｒａｌ  ｌａｎｇｕａｇｅ  ｐｒｏｃｅｓｓｉｎｇ
ｉ． 

：
［］，
Ｄｅｅｐ  ｎｅｕｒａ  ｎｅｌｔｗｏｒｋｓ  ｗｉｔｈ  ｍｕｌｔｉｔａｓｋ  ｌｅａｍｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ  ｏｆ  ｔｈｅ  ２５ｔｈ


ｉｎａｔｉｏｎａｌ  ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  Ｍａｃｈｉｎｅ  ｌｅａｒｎｉｎｇ
ｎｔｅｒ．  ２００８： １６０
－
１６７ 

．
［
３５
］ Ｌ Ｑ Ｍｅ，
ｉｋｏｌｏｖ Ｔ． Ｄｉｓｔｒｉｂｕｔｅｄ  ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ  ｏｆ ｓｅｎｔｅｎｃｅｓ  ａｎｄ


ｄｏｃｕｍｅｎｔｓ［Ｃ］／／Ｉｎｔｅｍａｔｉｏｎａｌ  ｃｏｎｆｅｒｅｎｃｅ  ｏｎ ｍａｃｈｉｎｅ  ｌｅａｒｎｉｎｇ．  ＰＭＬＲ，
２０１４ 

：
１１８８
－
１１９６ 

．
Ｇｏ  Ｙ  Ｌｅｖｙ  Ｏ ｗｏｒｄ２ｖｅｃ  Ｅｘｐａｎｅｄ ｄｅｒ Ｍｋｏｌｏｖ ｅｔ ａｌ

＇
［
３６
］
ｌｄｂｅｒｇ，
．ｌｉ：ｉｖｉｎｇｉ． 

ｓ
ｎｅｇａｔｉｖｅａｍｐｌｉｎｇ  ｗｏｒｄｅｍｂｅｄｄｉｎ
ｇ  ｍｅｈｏｄ［Ｊ］  ａｒＸｉｖ  ｐｒｅｐｒｉｎｔ  ａｒＸｉｖ４０２３７２２
－－
ｓｔ．：  １．


，
２０１４ 

．
３７
Ｄｅｖｎ  Ｊ  Ｃｈａｎｇ Ｍ  Ｗ  Ｌｅｅ  Ｋ  ｅｔ  ａｌ  Ｂｅｒｔ  Ｐｒｅｔｒａｉｎｉｎｇ  ｏｆ  ｄｅｅｂｉｄｉｒｅｃｔｉｏｎａｌ
－
ｌｉ
ｐ
．：
［］，？ｓ
ｔｒａｎｓｆｏｒｍｅｒｓ  ｆｏｒ  ａｎｇｕａｇｅ  ｕｎｄｅｒｓｔａｎｄｉｎｇ＾］  ａｒＸｖ  ｐｒｅｐｒｎｔ  ａｒＸｖ
ｌ．ｉｉｉ：１８１００４８０５．


，
２０１８ 

．
［
３８
］ 
Ｖａｓｗａｎｉ  Ａ，  Ｓｈａｚｅｅｒ  Ｎ  Ｐａｒｍａｒ  Ｎ  ｅｔ  ａ  Ａｔｅｎｔｏｎ  ，，
ｌ．ｉｉｓａｌｌ
 ｙｏｕ  ｎｅｅｄ［Ｊ］  ａｒＸｖ

 ．ｉ
ｐｒｅｐｒｉｎｔａｒＸｖ  ｉ：  １７０６０３７６２．
， 
２０１７ 

．
“ ”
［
３９
］  Ｔａｙｌｏｒ Ｗ Ｌ  Ｃ．ｌｏｚｅ  ｐｒｏｃｅｄｕｒｅ：  Ａ  ｎｅｗ  ｔｏｏ  ｆｏｒ  ｍｅａｓｕｒｎｇ  ｒｅａｄａｂｉｌｉｔｙ［Ｊ］ｌｉ 

．
ｎａｌｉｓｍ
Ｊｏｕｒｕａｒｔｅｒｌｙ １９５３ ３０（４） ４１５
－
４３３
ｑ： 

．
，，

［
４０］  Ｙａｎｇ  Ｚ， 
ＤａＺＹａｎｇＹ  ｅ
ｉ
，   ，
ｔ ａｌ．
ｇ
ｅｎｅｒａｌｉｚｅｄ  ａｕｔｏｒｅ
ｇｒｅｓｓｉｖｅ  ｐｒｅｔｒａｉｎｉｎｇ  ｆｏｒ  ａｎｇｕａｇｅ

 ｌ
ｕｎｄｅｒｓｔａｎｄｉｎｇ．  ａｒＸｉｖ２０１９ １９０６０８２３７
；
．
［
Ｊ
］
． １９０６ 

．
［
４１
］  Ｋｒｚｈｅｖｓｋｙ  Ａ  Ｓｕｔｓｋｅｖｅｒ  Ｉ  Ｈｉｎｔｏｎ  Ｇ Ｅ  Ｉｍａｇｅｎｅｔ  ｃ
ｉ
，，
．ｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈ  ｄｅｅ


ｐ
ｃｏｎｖｏｌｕｔｉｏｎａｌ  ｎｅｕｒａｌ  ｎｅｔｗｏｒｋｓ
［
Ｊ
］
．  Ａｄｖａｎｃｅｓ  ｉｎ  ｎｅｕｒａｌ  ｉｎｆｏｒｍａｔｉｏｎ  ｐｒｏｃｅｓｓｉｎｇ


５ 

８
参考文献
 


ｙｓｔｅｍｓ
ｓ， 
２０１２， 
２５ １０９７：
－
１１０５ 

．
［
４２］ Ｚｅｉｌｅｒ  ＭＤ，
Ｆｅｒｇｕｓ  Ｒ． Ｖｉｓｕａｌｉｚｉｎ
ｇ  ａｎｄ  ｕｎｄｅｒｓｔａｎｄｉｎｇ  ｃｏｎｖｏｌｕｔｉｏｎａｌ
ｎｅｔｗｏｒｋｓ［Ｃ］／／Ｅｕｒｏｐｅａｎ  ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  ｃｏｍｐｕｔｅｒ  ｖｉｓｉｏｎ  Ｓｐｒｉｎｇｅｒ  Ｃｈａｍ  ２０．
，，
１４ 

：
８１８
－
８３３ 

．
［
４３］  Ｓｉｍｏｎｙａｎ  Ｋ  Ｚｉｓｓｅｒｍａｎ  Ａ  Ｖｅｒｙ  ｄｅｅｐ  ｃｏｎｖｏｌｕｔｉｏｎａｌ  ｎｅｔｗｏｒｋｓ  ｆｏｒ  ａｒｇｅ
？
．ｌ
－
ｓｃａｌｅ


ｉｍａｇｅ  ｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．  ａｒＸｉｖ  ｐｒｅｐｒｉｎｔ  ａｒＸｉｖ：  １４０９．１５５６， 
２０１４ 

．
［
４４］  Ｓｚｅｇｅｄｙ  Ｃ？ 
ＬｕＷｉ
？ Ｊ
ｉａ Ｙ ｅ，
ｔａｌ．  Ｇｏｉｎｇ  ｄｅｅｐｅｒ  ｗｉｔｈ  ｃｏｎｖｏｌｕｔｉｏｎｓ
［
Ｃ］
／／Ｐｒｏｃｅｅｄｉｎｇｓ


ｏｆ  ｔｈｅ  ＩＥＥＥ  ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  ｃｏｍｐｕｔｅｒｖ  ｉｓｉｏｎ  ａｎｄ  ｐａｔｔｅｒｎ  ｒｅｃｏｇｎｉｔｉｏｎ．  ２０１５ １：
－
９ 

．
［
４５
］ 
Ｚａｒｅｍｂａ  Ｗ，
Ｓｕｔｓｋｅｖｅｒ  Ｉ，
Ｖｉｎｙａｌｓ  ０？  Ｒｅｃｕｒｒｅｎｔ  ｎｅｕｒａｌ  ｎｅｔｗｏｒｋ  ｒｅ
ｇｕａｒｚａ
ｌｉｔｉｏｎＪ
［］


．
ａｒＸｉｖ  ｐｒｅｐｒｉｎｔ  ａｒＸｉｖ：  １４０９２３２９．
， 
２０１４ 

．
［
４６］ＬｉｐｔｏｎＺＣ， 
ＢｅｒｋｏｗｉｔｚＪ５ 
Ｅｋａｎ  Ｃ
ｌ．  Ａ  ｃｒ
ｉｔｉｃａｌ  ｒｅｖｉｅｗ  ｏｆｒｅｃｕｒｒｅｎｔ  ｎｅｕｒａｌ  ｎｅｔｗｏｒｋｓ

 
ｆｏｒ  ｓｅｑｕｅｎｃｅ  ｌｅａｍｉｎｇ［
Ｊ
］
．  ａｒＸｉｖ  ｐｒｅｐｒｉｎｔ  ａｒＸｖｉ：１５０６０００．１９， 
２０１５ 

．
［
４７］  Ｏｌａｈ  Ｃ．  Ｕｎｄｅｒｓｔａｎｄｉｎｇ  ｌｓｔｍｎｅｔｗｏｒｋｓ［Ｊ］  ．  ２０１５ 

．
［
４８］  Ｓｔａｕｄｅｍｅｙｅｒ  Ｒ  Ｃ  Ｍｏｒｒｉｓ Ｅ  Ｒ  Ｕｎｄｅｒｓｔａｎｄｉｎｇ  ＬＳＴＭ，
．
￣
ａ  ｔｕｔｏｒｉａｌ  ｉｎｔｏ  Ｌｏｎｇ


Ｓｈｏｒｔ－
Ｔｅｒｍ  Ｍｅｍｏｒｙ Ｒｅｃｕｒｒｅｎｔ  Ｎｅｕｒａ  Ｎｅｌｔｗｏｒｋｓ［Ｊ］  ａｒＸｉｖ  ｐｒｅｐｒｉｎｔ ．
ａｒＸｉｖ：１９０９０９５８６．
，
２０１９ 

．
［
４９］  Ｓｃｈｕｓｔｅｒ  Ｍ  Ｐａｌｉｗａｌ  Ｋ  Ｋ，
． Ｂｄｉｉｒｅｃｔｉｏｎａｌ  ｒｅｃｕｒｒｅｎｔ  ｎｅｕｒａｌ  ｎｅｔｗｏｒｋｓ
［
Ｊ
］
． ＩＥＥＥ


ｔｒａｎｓａｃｔｉｏｎｓ  ｏｎ  Ｓｉｇｎａｌ  Ｐｒｏｃｅｓｓｉｎｇ， 
１９９７， 
４５（１１
）
： ２６７３
－
２６８１ 

．
５０
］ Ｌｕｏｎｇ Ｍ Ｔ 
Ｐｈａｍ  Ｈ  Ｍａｎｎｉｎｇ  Ｃ  Ｄ  Ｅｆｆｅｃｔｉｖｅ  ａｐｐｒｏａｃｈｅｓ  ｔｏ  ａｔｅｎｔｉｏｎｂａｓｅｄ

 ，
．
－
［，
ｎｅｕｒａｌｍａｃｈｉｎｅ  ｔｒａｎｓｌａｔｉｏｎ［Ｊ］
 ．  ａｒＸｉｖ  ｐｒｅ
ｐｒｎｔ  ａｒ
ｉＸｉｖ：  １５０８０４０２５．
， 
２０１５ 

．
［
５１
］
ＲｕｓｈＡＭ  Ｃｈｏｐｒａ  
，
 Ｓ？ 
Ｗｅｓｔｏｎ Ｊ．  Ａ  ｎｅｕｒａｌ  ａｔｔｅｎｔｉｏｎ  ｍｏｄｅｌ  ｆｏｒ  ａｂｓｔｒａｃｔｉｖｅ  ｓｅｎｔｅｎｃｅ


ｓｕｍｍａｉｚａｔｉｏｎ［Ｊ］
ｒ．  ａｒＸｉｖ  ｐｒｅｐｒｉｎｔ  ａｒＸｉｖ：  １５０９００６８５．
， 
２０１５ 

．
［
５２］ Ｙａｎｇ  Ｚ，  Ｙａｎｇ  Ｄ，  Ｄｙｅｒ  Ｃ  ｅｔ  ａｌ  Ｈｉｅｒａｒｃｈｉｃａｌ  ａｔｔｅｎｔｉｏｎ  ｎｅｔｗｏｒｋｓ  ｆｏｒ  ｄｏｃｕｍｅｎｔ
，
． 

ｉｃａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎ
ｃｌａｓｓｉｆ
ｇｓ ｏ
ｆ  ｔｈｅ  ２０１６  ｃｏｎｆｅｒｅｎｃｅ  ｏｆ  ｔｈｅ  Ｎｏｒｔｈ Ａｍｅｒｉｃａｎ


ｃｈａｐｔｅｒ  ｏｆ  ｔｈｅ  ａｓｓｏｃｉａｔｉｏｎ  ｆｏｒ  ｃｏｍｐｕｔａｔｉｏｎａｌ  ｌｉｎｇｕｉｓｔｉｃｓ：  ｈｕｍａｎ  ｌａｎ
ｇｕａｇｅ


ｔｅｃｈｎｏｌｏｇｉｅｓ． ２０１６ １４８０：
－
１４８９ 

．
［
５３
］ Ｊ
ｉ  Ｓ  Ｐａｎ  Ｓ  Ｃａｍｂｒｉａ  Ｅ  ｅｔ  ａｌ 
，５，
．Ａ  ｓｕｒｖｅｙ  ｏｎ  ｋｎｏｗｌｅｄ
ｇｅ  ｇｒａｐｈｓ  Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ：


，
ａｃｑｕｉｓｉｔｉｏｎ  ａｎｄ  ａｐｐｌｉｃａｔｉｏｎｓ［Ｊ］ 
．  ａｒＸｉｖ  ｐｒｅｐｒｉｎｔ  ａｒＸｉｖ２００２００３：．８８， 
２０２０ 

．
４
ＪｉＧ ＬｕＫ ＨｅＳ ｅｔａ Ｋｎｏｗｇｅ  ｇｒａｐｈ  ｃｏｍｐｌｅｔｉｏｎ  ｗｉｔｈ  ａｄａｐｔｉｖｅ  ｓｐａｒｓｅ
５ｉｌ．ｌｅｄ 

［］，，９
ｔｒａｎｓｆｅｒ  ｍａｔｒｉｘ［Ｃ］／／Ｐｒｏｃｅｅｄｎｇｓ  ｏｆ  ｔｈｅ ＡＡＡＩ  Ｃｏｎｆｅｒｅｎｃｅ  ｏｎ Ａｒｔｉｆｉｃｉａｌ

ｉ
Ｉｎｔｅｌｌｉｇｅｎｃｅ． ２０１６， 
３０
（
１
）


．
５５
Ｂｏｓｓｅｕｔ  Ａ  Ｃｈｏ  Ｙ  Ｄｙｎａｍｃ  ｋｎｏｗｌｅｄ
ｇｅ  ｇｒａｐｈ  ｃｏｎｓ
ｔｒｕｃｔｉｏｎ  ｆｏｒ  ｚｅｒｏｓｈｏｔ


－
ｌｉ．ｉ
［］，
ＸＸ
＂
ｃｏｍｍｏｎｓｅｎｓｅ＾ｖ  ｅｐｒｉｎｔｓ
ｑｕｅｓｔｉｏｎ  ａｎｓｗｅｒｉｎｇ［Ｊ］．  ｉ
－

２０１９：  ａｒｉｖ １９：１１．０３８７６ 

．
 ，
［
５６
］ 
Ｚｈａｎｇ  Ｆ，  ＹｕａｎＮ  Ｊ 
５ 
Ｌｉａｎ  Ｄ，  ｅｔ  ａｌ  Ｃ．ｏｌｌａｂｏｒａｔｉｖｅ  ｋｎｏｗｌｅｄｇｅ  ｂａｓｅ  ｅｍｂｅｄｄｉｎｇ  ｆｏｒ


５９


 


ｒｅｃｏｍｍｅｎｄｅｒ  ｓｙｓｔｅｍｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ  ｏｆ  ｔｈｅ  ２２ｎｄ  ＡＣＭ  ＳＩＧＫＤＤ  ｉｎｔｅｒ
ｎａｔｏｎａｉ 

ｌ
ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  ｋｎｏｗｌｅｄｄｉｓｃｏｖｅｒｙ  ａｎｄ  ｄａｔａ  ｍｉｎｉｎｇ２０３６２
ｇｅ６ ３５３
－
 ．  １： 

．
［
５７
］
Ｌｉ  Ｚ５  Ｄｉｎｇ

Ｘ，  Ｌｉｕ  Ｔ  Ｃｏｎｓｔｒｕｃｔｉｎｇ  ｎａｒｒａｔｉｖｅ  ｅｖｅｎｔ  ｅｖｏｌｕｔｉｏｎａｒｙ  ｇｒａｐｈ  ｆｏｒ  ｓｃｒｉｐｔ
． 

ｅｖｅｎｔ
 ｐｒｅ
ｄｉｃｔｉｏｎＪ
［］
．  ａｒＸｉｖ  ｐｒｅｐｒｉｎｔ  ａｒＸｉｖ：１８０５．０５０８１
，
２０１８ 

．
［
５８
］  ＤｎｇＸ Ｌ
ｉ
，
ｉａｏ Ｋ，  Ｌｉｕ  Ｔ  ｅｔ  ａｌ Ｅｖｅｎｔ  ｒｅｐｒｅｓｅｎｔａｔｏｎ 
，
．ｉｌｅａｒｎｉｎｇ  ｅｎｈａｎｃｅｄ  ｗｉｔｈ


ｎａｌ  ｃｏｘｎｍｏｎｓｅｎｓｅ  ｋｎｏｗｌｅｄ
ｅｘｔｅｒ
ｇｅ［Ｊ］．  ａｒＸｉｖ ｐｒｅ
ｐ
ｒｉｎｔ  ａｒＸｉｖ：  １９０９０５．１９０， 
２０１９ 

．
［
５９
］
Ｒａｓｈｋｉｎ  Ｈ  Ｓａｐ  Ｍ？，  Ａｌｌａｗａｙ

Ｅ，  ｅｔ  ａｌ  Ｅｖｅｎｔ２ｍｉｎｄ  Ｃｏｍｍｏｎｓｅｎｓｅ  ｉｎｆｅｒｅｎｃｅ  ｏｎ
． 
 ：
ｅｖｅｎｔｓ， 
ｉｎｔｅｎｔｓ， 
ａｎｄ  ｒｅａｃｔｉｏｎｓ［
Ｊ
］
．  ａｒＸｉｖ  ｐｒｅｐｒｉｎｔ  ａｒＸｉｖ：  １８０５．０６９３９， 
２０１８ 

．
［
６０］  Ｐａｐｐａｇａｒｉ  Ｒ   Ｚｅｌａｓｋｏ  Ｐ  ？？ 
ＶｉｌｌａｌｂａＪ ｅｔａｌ  ，
．Ｈｉｅｒａｒｃｈｉｃａｌ  Ｔｒａｎｓｆｏｒｍｅｒｓ  ｆｏｒ  Ｌｏｎ


ｇ
Ｄｏｃｕｍｅｎｔ  Ｃｌａｓｓｆｉｃａｔｏｎ［Ｃ］／／  ２０
ｉｉ１９  ＩＥＥＥ  Ａｕｔｏｍａｔｉｃ  Ｓｐｅｅｃｈ  Ｒｅｃｏｇｎｉｔｉｏｎ ａｎｄ


Ｕｎｄｅｒｓｔａｎｄｉｎｇ  Ｗｏｒｋｓｈｏｐ  （ＡＳＲＵ）． ＩＥＥＥ， 
２０１９ 

．
［
６１
］ 
Ｋｉｍ  Ｙ   Ｃｏｎｖｏｌｕｔｉｏｎａｌ  Ｎｅｕｒａｌ  Ｎｅｔｗｏｒｋｓ  ｆｏｒ  Ｓｅｎｔｅｎｃｅ  Ｃｌａｓｓｉｆ
■ ｉｃａｔｉｏｎ＾］  Ｅｐｒｉｎｔ ．
Ａｒｘｉｖ， 
２０１４ 

．
［
６２］Ｚｈｏｎｇ

Ｈ ， ＧｕｏＺ  ＴｕＣ  ｅｔ ａ５５
ｌ．  Ｌｅｇａｌ  Ｊｕｄｇｍｅｎｔ  Ｐｒｅｄｉｃｔｉｏｎ  ｖｉａ  Ｔｏｐｏｌｏｇｉｃａｌ
ｐｉｒｃａ  Ｍｅｔｈｏｄ
ＬｅａｒｎｎｇＣｉ／／ Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ ２０１８  Ｃｏｎｆｅｒｅｎｃｅ  ｏｎ Ｅｍｉｌｓ ｉｎ


［］
Ｎａｔｕｒａｌ  Ｌａｎｇｕａｇｅ  Ｐｒｏｃｅｓｓｉｎｇ． ２０１８ 

．
［
６３］ Ｙａｎｇ  Ｚ  ＹａｎｇＤ  ＤｙｅｒＣ  ５   ？ 

，  ｅｔ  ａｌ  ．Ｈｉｅｒａｒｃｈｉｃａｌ  Ａｔｔｅｎｔｉｏｎ  Ｎｅｔｗｏｒｋｓ  ｆｏｒ  Ｄｏｃｕｍｅｎｔ


Ｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／  Ｐｒｏｃｅｅｄｉｎｇｓ  ｏｆ  ｔｈｅ  ２０１６  Ｃｏｎｆｅｒｅｎｃｅ  ｏｆ  ｔｈｅ  Ｎｏｒｔｈ  Ａｍｅｒｉｃａｎ


Ｃｈａｐｔｅｒ  ｏｆ  ｔｈｅ  Ａｓｓｏｃｉａｔｉｏｎ  ｆｏｒ  Ｃｏｍｐｕｔａｔｉｏｎａｌ  Ｌｉｎｇｕｉｓｔｉｃｓ：  Ｈｕｍａｎ  Ｌａｎｇｕａｇｅ


Ｔｅｃｈｎｏｌｏｇｉｅｓ． ２０１６ 

．
［
６４］谭红叶，张博文，张虎等，
．
面向法律文书的量刑预测方法研究［
Ｊ
］
．
中文信息


学报，
２０２０， 
０３４００３
（）
：  １０７
－
１１４ 

．
［
６５］王文广，陈运文，蔡华等，
．
基于混合深度神经网络模型的司法文书智能化处


理［
Ｊ
］
．
清华大学学报（自然科学版），
２０１９， 
ｖ５９（０７）
．：１２－
１８ 

．
［
６６］曹晨．
基于裁判书数据挖掘的法院辅助判决研究［
Ｄ］
．
河北经贸大学，
２０１９ 

．
王子基于智能推荐的辅助判案系统的设计与实现Ｄ北京交通大学

一
６７］．
［
．２０１９ 

．
［］，
［
６８］程豪．
面向司法大数据的法条预测与相似案例匹配研究［
Ｄ］
．
山西大学，
２０２０ 

．
６０






致谢


转眼间三年硕士生活马上就要结束了，回想起三年前的那个五月，我还站在



阿克苏职业技术学院的讲台上我从未为那年的支教生活后悔过那是年让


一一
。，
“ ”
我成长的经历，让我体会到了为人师的感觉，让我体会到了吴老师在教育我


的时候有多不易（此处有笑出声）；那是
一
年让我变成熟的经历，让我体验到了


”
让我在次从学生的身份中走出来这种感觉与在


“
工作的感觉年来第
一
，２０，
学校参与学生工作时与老师们相处不同它让我先其他同学步体会到了工作的



一
艰辛和学习生活的来之不易那也是年让我开阔眼界的经历我和我共同支教



一
，
；
的战友们走遍南疆四地州，穿越了和田的沙漠公路，
走过了壮美的独库公路， 

站
在过红旗拉普的国门之下领略了新疆人民淳朴的民风我非常感谢这年的经


一
，。
历它给我的人生增添了抹不样的色彩
一一
， 

。
回看我的研究生三年生活，
印象最深的，不是表白成功脱离２０余年单身生


活的时候不是开题中期挨骂的时候也不是团代会结束松了口气的时候 


其
一
，，，
实是年到月疫情的这半年多时间上次在家连续待这么长时间
一
２０２０１月８， 

，
可能还是幼儿园之前的事了，那个时候，姥姥姥爷每天陪着我，姥姥陪我打打扑



克，姥爷教我识字读书看报。２０多年过去了，姥爷已经离开了我。
疫情的半年


多时间，多数时候只是我和姥姥两人在家，姥姥已经有些糊涂了，会记不起现在


是几月，会记不起自己的东西放在哪里，也会记不起为什么我在家待了多久以及


什么时候会走每天看着姥姥就会深深地体会到父母家人把我拉扯这么大有多不
， 

容易。感谢这半年的时间，
未来的几十年中我可能都没有机会有这么久的时间陪


伴我的家人，也感谢这半年你的时间，让时间慢了下来 

。
很抱歉占用了这么大的篇幅说与学校和学习无关的事，但是想想，如果不是



要坐在这写致谢的话，我也不会有机会好好坐下来回想自己的生活了 

。
接下来言归正传，最先的感谢理应给我的父母，是你们把我抚养成人，是你



们见证了我成长的点滴是你们即使是在我最崩溃心情最差的时候也还在不断包

， 

容着我如果以后我有了孩子我也会争取像你们样做好个认真负责有耐心



一一
。，
的家长的 

。
第二声感谢，
我要说给吴老师，我的恩师，虽然我做本科毕设的时候吴老师


曾两度忘记我研究生会是他的学生虽然我毋庸置疑的是所有学生中基础最差的

 ，
那个但三年的学习中吴老师从未放弃我从开题到小论文再到毕设不断鼓



一
，，，
励着我，教导着我，给我提供知识，
给我提供思路，让我成功的有了机会现在坐


在这里写我毕设中的最后个部分致谢
一
一一


。
６ 

１



第三声感谢，属于我的女朋友，刘丽杰。在遇到你之前的２４年中，

单身的


生活固然也是精彩的但终究少了抹色彩在此之前我没有那么多照顾人的经



一
，
。
验也没有与女孩子独处的经验我知道我不是个很出色很合格的男朋友 


我
一
，，。
们起走过的两年多之中我们不断磨合同成长你包容了我许许多多的缺



一一
，，，
“ ”
点也给我在学校中提供了个可以分享快乐抒发困惑发泄情绪的小家

一
，，， 

，
个可以放声大笑，也可以抱头痛哭的依靠。
如果可以，我愿与你继续走下去 

。
“ ”
第四声感谢，我想给我的几位好朋友、好兄弟。

首先是我亦师亦友的好


兄弟、前室友、前辅导员、现同窗同学
一一
管占明，不知不觉我们己经认识 

８
年了，８年里生活上、学习中的方方面面，你都曾帮助过我，
谢谢你，有你在 

，
在学校的日子里，我不孤单。然后是张睿和侯健，
与侯健相识也有８年了，
但接


触最多的还是大四确定支教之后也是这个时候我们认识了睿哥大四年和支


一
，，
教的年中我们几乎天天都待在起我们是同学是朋友也是战友感谢


一一
，，，，，
你们对我的帮助和包容 

。
第五声感谢，要给我的实验室的老师们、学长学姐们和同学们。这里尤其是



要感谢周鹏鹏学姐我是个很不省心的学弟让学姐操了很多心感谢学姐

一 

一
，，，
路以来的帮助和支持。感谢王老师、石老师、于老师、

肖老师在我学习的过程中


不断点出我的问题，帮助我成长。感谢各位同学在学业上的帮助，可以和你们共



同学习共同成长，是我的幸运，希望我们今后都有美好的前景 

。
第六声感谢，献给校团委的各位老师和朋友，晋书记、
许书记、春晓哥、 

瑾
梁哥、秋实姐，你们永远是我学习的榜样；
王哥、田哥、思思姐，俊哥、喵姐 

，
你们直是我心中最好的大哥哥大姐姐梦秋德东金宇丁丁喆姐梓凡
一
、、、、、 

、
；
芊芊阿甘阿坤阿桥还有所有所有在团委遇到的各位朋友能与你们 

同
一
、、、，，
工作，是我在北邮的８年中最大的收获。
祝，团情永驻 

。
第七声感谢也是最后声给学校中的每位北邮人感谢我的室友三年



一一
，，。
来的包容感谢每位努力学习的同学对北邮的未来为社会的未来为祖国的



一
、、
；
未来作出的贡献；感谢每
一
位老师对学生们的谆谆教诲；感谢楼管、超市大姐 

、
食堂大叔保洁阿姨等等每位为我们的美好校园生活无私付出的人们
一
、 

。
七声感谢八年北邮情感谢我们生命中遇到的每个人也感谢我们生命


一
，
。，
中的每个陌生人
一


。
６２



攻读硕士学位期间发表论文 


攻读硕士学位期间发表论文


［
１
］
Ｇｕｏ Ｊ
，
ＷｕＢ
，
ＺｈｏｕＰ   ＢＬＨＮＮ  Ａ
 ．：  Ｎｏｖｅｌ Ｃｈａｒｇｅ  Ｐｒｅｄｉｃｔｉｏｎ ＭｏｄｅＢａｓｅｄ
ｌ  ｏｎ


Ｂｉ
－
ＡｔｅｎｔｉｏｎＬＳＴＭ－
ＣＮＮ  Ｈｙｂｒｉｄ  Ｎｅｕｒａｌ  Ｎｅｔｗｏｒｋ［Ｃ］／／  ２０２０  ＩＥＥＥ  Ｆｉｔｈ Ｉｎｔｅｒ
ｆｎａｔｉｏｎａｌ
Ｃｏｎｆｅｒｅｎｃｅ  ｏｎＤａｔａ  Ｓｃ
 ｉｅｎｃｅ  ｉｎ Ｃ
ｙｂｅｒｓｐａｃｅ（ＤＳＣ）． ＩＥＥＥ，
２０２０？己  Ｅｌ检索


６３



基于事理图谱的辅助判案技术的研究与实现 郭佳

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于事理图谱的辅助判案技术的研究与实现 郭佳

Uploaded by

Copyright:

Available Formats

密 级 保 密 期 限

Ｉ ｎ ｓ ｔ ｉ ｔ ｕ ｔ ｅ ： Ｓ ｃ ｈｏｏ ｌ ｏｆ  Ｃ ｏ ｍ ｐ ｕ ｔｅ ｒ  Ｓ ｃ ｉ ｅ ｎ ｃ ｅ（ Ｎａｔ ｉ ｏｎａｌ

本人完 全 了 解并 同 意 北 京 邮 电大学有关保 留 、 使用 学位论文 的 规定 ， 即 ： 

和 效率 ， 同 时 也为 人 民群众普法用 法提供 帮助 。 因此 ， 研究人工智 能

练模 型对法律 判 决 书 文本进 行特 征提取 ， 提取到 的特征输入基于

３ 、 基于事理 图 谱 的 辅助判 决方案生成系 统 。 在本课题提 出 的 两

在当今时代 方面随 着我 国 法律体系 体制 的 发展与 健全 普通 民 众对法

件层 出 不 穷 Ｗ 。 根据 最新版 的 《 最高人 民法院工作报告 》 ， ２０ １ ９ 年最 高人 民法 院

共 受理案件 ３ ８４９ ８ 件 ， 已经审 结 的 案件有 ３ ４４ ８ １ 件 ， 同 比 分别 上升 １ ０ ７

繁杂 ， 不仅 增 加 了 相 关 工作 的 失 误率 ， 也会使得执行相 关法律法规 的 效率变得越

有学 习 需求 的人员 都需要 个合 理 的 法律平 台 环 境 去 了 解法律 工作 执 行 的 进度

制 度颁布 出 的 表现为 明 确 条文样式 的 规 范 性 的 法律相 关 文件Ｗ 。 也有说法将其特

仅包括 国 家权 力 机构 颁布 的法律法规 也包括 国 家 中 央行政机关和 地方 国 家权 力

机关和 行政机关 在 职权范 围 制 定 发布 的 规范 性 法律文件 现有针对法律 案件

司 法工作 的 主观化 我国现只 有 套完成 的法律体系 基于我 国 法律体

随着数字 时 代 的 到 来 ， 人 民法 院等 司 法机构 的 信 息化程度 的 不 断提高 ， 云平

据 这 些数据 成为 了 引 入人工 智 能辅助 司 法判 决 的 基础 另 方面 随着 中 国 司

量刑 过程不够 公开和 透 明 ， 法官量刑 方面 的 自 由 裁量权缺 乏 必 要 的 限 制 和 监 督

随着近年来大数据 以 及 云 计算平 台 等现代科技 的 高速发展 ，

应用 系 统从基于规则 的 法律专 家系 统过渡 到 基于 大数据 的 法律人工 智 能系 统 在

辅助法官 办案 、 服务 律师 、 社会 公众方面正 在 不 断取得新 的 成就 。

法 数 据 中 的 案 件判 决 书 ， 由 于 历 史案例 文本数量庞 大 、 案情复杂 、 文本 内 容冗余

为 决定判 决 案件 的 关键信 息 本课题 正 是对 收集 到 的 案例 判 决文件进 行 文 本 内 容

信 息挖掘 ， 结 合文本预 处理 、 双 向 深度神经 网 络 、 注意 力 机制 以 及事 理 图 谱等 模

本课 题分别对人工智 能 在 司 法领域 中 的 研 究现状 、 深度学习 架构 Ｃ ＮＮ 

谱 、 事 理 图 谱 在 司 法领域 的 应用 现状做 出 了 汇总 分析 ， 本节将对 上 述相 关 内 容 的

国 外 的 相 关研 究 者 早 在 ９０ 年代就 己 经开始 对人工 智 能 在 司 法领域 的 应用 研

ＣＢＲ 都采用 了 些 从案例 进 行 归 纳 的 方法 以 支持索 引 编制和 相 关

性评估 ， 并 证 明 了 两 种 基本 的 推 理 方法 ： 通过跟踪过去 案例 的 解决方案来 限制 搜

而预测 最 终 的 量刑 结 果 的 模型 系 统 该模型 主 要 是根据 用 户 的 输 入 案 例 判 决 书 进

等人 提出 了 种 基 于 数据和 文本 的 挖掘 技 术 以 支 持法律 从业者 和 研 宄 学

过构建辅助量刑 专家系 统 的 架构 ， 以 盗窃 罪作为研 究 文本集 ， 重 点探索 了 系 统实

程春 惠 等人主 要使用 的 模 型 是 改进 的 多 变量 贝 努里模型 该模 型可 以 有 效地解

通过对 国 内 外在 司 法领域 引 入传 统人工 智 能 算法 的 研 究汇 总 ， 可 以看 出 过去

也 就 是传 统 意 义上 的 以 规则 为 背 景 的 研 究方法 包括现在 仍然流行 的 统计学模型

方法 。 ＮＬＰ 领域 的 模型从最开始 的 传 统概率学分类 网 络 ， 到 现在主流 的卷积神

信 息进行处理 ， 提取 中 其 中 有用 的 关 键信 息 ， 结 合深度神 经 网 络等 算法是 目 前司

组件 的 方 法 。 该 方法依赖于 自 然 语 言 处理 （ ＮＬ Ｐ ） 技术 来 提取概念 以 及 这些概念

Ｍ ｉ ｋｏ ｌ ｏ ｖ 等人Ｗ构 建 了 从大规模 的 数据集 中 构 建文本单词 的 矢量表示 的 模 型 。

级卷 积 网 络 （ Ｃ ｏ ｎｖＮ ｅ ｔ ｓ ） 进 行文本分类 的 实证研 究 。 Ｌ ａｉ 等人 ［

卷积 神 经 网 络 （ Ｒ ＮＮ ） 来进行 文本 分类 。 在模型 训 练过程 中 ，

经网络 （ Ｌ Ｓ ＴＭ ） 中 以 获取句 子表示形 式 。 Ｃ Ｌ Ｓ ＴＭ－

模型 中 ， 从而对复杂 的 图 结构进行联合学 习 。 尽管 Ｄ ＮＮ 在接受训 练 以 生成嵌入

时 获得 了 竞 争性 的 结 果 ， 但是利 用 嵌入和 任务之 间 的 依存关系 的 Ｃ ＲＦ 可 以在各

现有 ＮＬＰ 领域与 深度神 经 网 络结合 的研 究 中 ， 可 以 发现无论 是 Ｃ ＮＮ 还是

合理 的 文本含义表达 ， 有 学者 在此基础 上 引 入 了 注 意 力 （ Ａｔｅｎ ｔｉ ｏｎ ） 机制 。 注意

等 人＠提 出 自 学 习 框架 ， 分别 构建 了 迭代训 练 问 题 生成模型 与 答案选择模型 。 

认知 之 间 的关系 ， Ｌ ｉ ａｎ 等人 Ｗ使用 知 识 图 谱来构建社交媒体与 专 业法律数据法

律实体之 间 的 关系 网 络 并介 绍 知 识 图 谱 的 相 关方法 知识 图谱 这 术语可

不 同 的 事件 是 构 成 人类社 会 的 重要 因 素之 人类 的 各种 社 会 学活动 或行为

衍化关系 。 例如 ， 人类 在 下 班后 会 回 到 自 己的家中 ， 生 病 的 时 候 会 去 寻 找 医疗诊

Ｌ ｉ 等 人＿提 出 了 事 件进化 图 （ Ｅ ｖ ｅ ｎｔ Ｅ ｖ ｏ ｕ ｔ  ｌ ｉ ｏ ｎ ａ ｒ ｙ  Ｇ ｒ ａｐ ｈ ， ＥＥ Ｇ ） ， 它揭示 了 事件

能 会 限 制 其 事 件 预测 的 能 力 为 了 解 决这个 问 题 常 见做法是构 造 个事件 图

Ｇ ｒ ａｐ ｈ ， ＮＥ Ｅ Ｇ ） 。 ＮＥＥ Ｇ 可 以 看作 是 描述 事件进化 原 理和 模 式 的 知 识 库 。 为了解

事件构 成 ， 且 在和 事件相 关 的 分类 、 预测 等任务上取得 了 良好 的表现 ，

的种种考量 ， 提 出 将事理 图 谱应 用 于 智 能 司 法领域 ，

并把 以 上功 能集合成 个基于 事理 图 谱 的 辅助判 决方案生成 系 统 具体工作如

保 留 文本 的 结 构 信 息 ， 本课题使 用 Ｂ Ｅ ＲＴ 作 为 文本 向 量提取 工具 ， Ｂ Ｅ ＲＴ 对于文

视化层 。 系 统功 能设计与 实现 ， 依据辅 助 判 决方 案 生 成系 统 需 求及上述研 究 点 

实现辅 助 判 决方 案生 成 ， 刑 期 预测 等 功 能 。 系 统框架搭建和 模块集成 ， 进行各个

本课题 旨 在研 究 并实现 司 法领域基于事 理 图 谱 的 辅助 判 决方 案生 成系 统 从

第 二 章介绍本课题所涉及 的相 关工作 ， 主要包括 Ｃ ＮＮ －

ｂ ａ ｓ ｅ ｄ Ｍｏｄｅ ｌ ， 知识图谱 ， 事理 图谱等 

基于事理图谱的辅助判案技术的研究与实现郭佳

基于事理图谱的辅助判案技术的研究与实现郭佳

密级 保密期限

Ｉｎｓｔｉｔｕｔｅ ： Ｓｃｈｏｏｌ ｏｆ  Ｃｏｍｐｕｔｅｒ  Ｓｃｉｅｎｃｅ（Ｎａｔｉｏｎａｌ

本人完全了解并同意北京邮电大学有关保留、使用学位论文的规定，即： 

和效率，同时也为人民群众普法用法提供帮助。因此，研究人工智能

练模型对法律判决书文本进行特征提取，提取到的特征输入基于

３、基于事理图谱的辅助判决方案生成系统。在本课题提出的两

在当今时代方面随着我国法律体系体制的发展与健全普通民众对法

件层出不穷Ｗ。根据最新版的《最高人民法院工作报告》，２０１９年最高人民法院

共受理案件３８４９８件，已经审结的案件有３４４８１件，同比分别上升１０７

繁杂，不仅增加了相关工作的失误率，也会使得执行相关法律法规的效率变得越

有学习需求的人员都需要个合理的法律平台环境去了解法律工作执行的进度

制度颁布出的表现为明确条文样式的规范性的法律相关文件Ｗ。也有说法将其特

仅包括国家权力机构颁布的法律法规也包括国家中央行政机关和地方国家权力

机关和行政机关在职权范围制定发布的规范性法律文件现有针对法律案件

司法工作的主观化我国现只有套完成的法律体系基于我国法律体

随着数字时代的到来，人民法院等司法机构的信息化程度的不断提高，云平

据这些数据成为了引入人工智能辅助司法判决的基础另方面随着中国司

量刑过程不够公开和透明，法官量刑方面的自由裁量权缺乏必要的限制和监督

随着近年来大数据以及云计算平台等现代科技的高速发展，

应用系统从基于规则的法律专家系统过渡到基于大数据的法律人工智能系统在

辅助法官办案、服务律师、社会公众方面正在不断取得新的成就。

法数据中的案件判决书，由于历史案例文本数量庞大、案情复杂、文本内容冗余

为决定判决案件的关键信息本课题正是对收集到的案例判决文件进行文本内容

信息挖掘，结合文本预处理、双向深度神经网络、注意力机制以及事理图谱等模

本课题分别对人工智能在司法领域中的研究现状、深度学习架构ＣＮＮ 

谱、事理图谱在司法领域的应用现状做出了汇总分析，本节将对上述相关内容的

国外的相关研究者早在９０年代就己经开始对人工智能在司法领域的应用研

ＣＢＲ都采用了些从案例进行归纳的方法以支持索引编制和相关

性评估，并证明了两种基本的推理方法：通过跟踪过去案例的解决方案来限制搜

而预测最终的量刑结果的模型系统该模型主要是根据用户的输入案例判决书进

等人提出了种基于数据和文本的挖掘技术以支持法律从业者和研宄学

过构建辅助量刑专家系统的架构，以盗窃罪作为研究文本集，重点探索了系统实

程春惠等人主要使用的模型是改进的多变量贝努里模型该模型可以有效地解

通过对国内外在司法领域引入传统人工智能算法的研究汇总，可以看出过去

也就是传统意义上的以规则为背景的研究方法包括现在仍然流行的统计学模型

方法。ＮＬＰ领域的模型从最开始的传统概率学分类网络，到现在主流的卷积神

信息进行处理，提取中其中有用的关键信息，结合深度神经网络等算法是目前司

组件的方法。该方法依赖于自然语言处理（ＮＬＰ）技术来提取概念以及这些概念

Ｍｉｋｏｌｏｖ等人Ｗ构建了从大规模的数据集中构建文本单词的矢量表示的模型。

级卷积网络（ＣｏｎｖＮｅｔｓ）进行文本分类的实证研究。Ｌａｉ等人［

卷积神经网络（ＲＮＮ）来进行文本分类。在模型训练过程中，

经网络（ＬＳＴＭ）中以获取句子表示形式。ＣＬＳＴＭ－

模型中，从而对复杂的图结构进行联合学习。尽管ＤＮＮ在接受训练以生成嵌入

时获得了竞争性的结果，但是利用嵌入和任务之间的依存关系的ＣＲＦ可以在各

现有ＮＬＰ领域与深度神经网络结合的研究中，可以发现无论是ＣＮＮ还是

合理的文本含义表达，有学者在此基础上引入了注意力（Ａｔｅｎｔｉｏｎ）机制。注意

等人＠提出自学习框架，分别构建了迭代训练问题生成模型与答案选择模型。 

认知之间的关系，Ｌｉａｎ等人Ｗ使用知识图谱来构建社交媒体与专业法律数据法

律实体之间的关系网络并介绍知识图谱的相关方法知识图谱这术语可

不同的事件是构成人类社会的重要因素之人类的各种社会学活动或行为

衍化关系。例如，人类在下班后会回到自己的家中，生病的时候会去寻找医疗诊

Ｌｉ等人＿提出了事件进化图（ＥｖｅｎｔＥｖｏｕｔ  ｌｉｏｎａｒｙ  Ｇｒａｐｈ，ＥＥＧ），它揭示了事件

能会限制其事件预测的能力为了解决这个问题常见做法是构造个事件图

Ｇｒａｐｈ，ＮＥＥＧ）。ＮＥＥＧ可以看作是描述事件进化原理和模式的知识库。为了解

事件构成，且在和事件相关的分类、预测等任务上取得了良好的表现，

的种种考量，提出将事理图谱应用于智能司法领域，

并把以上功能集合成个基于事理图谱的辅助判决方案生成系统具体工作如

保留文本的结构信息，本课题使用ＢＥＲＴ作为文本向量提取工具，ＢＥＲＴ对于文

视化层。系统功能设计与实现，依据辅助判决方案生成系统需求及上述研究点 

实现辅助判决方案生成，刑期预测等功能。系统框架搭建和模块集成，进行各个

本课题旨在研究并实现司法领域基于事理图谱的辅助判决方案生成系统从

第二章介绍本课题所涉及的相关工作，主要包括ＣＮＮ－

ｂａｓｅｄ Ｍｏｄｅｌ，知识图谱，事理图谱等 

第三章介绍基于预训练模型提取判决书特征的深度学习模型的研究与实现 

首先对本课题中涉及到的两个预训练模型ＢＥＲＴ和ＸＬＮＥＴ进行了介绍，

分析了优缺点其次介绍了提取特征之后的分类模型分别是基于

的文本分类模型，最后分别基于两个预训练模型提取的特征对判决书文本进行了

第五章介绍基于事理图谱的辅助判决方案生成系统基于第三章和第四章得

第六章为本课题的结论和展望，梳理本课题的工作内容，

过去的研究涉及到文本时最常见的表示形式之就是单词袋尽管流行

矢量表示每个文档，该矢量经过训练可以预测文档中的单词。它的构造使我们的

算法有可能克服单词袋模型的弱点。ｗ〇ｒｄ２ｖｅＣＭ将文本中的不同句子中的相同词

语映射到低维空间表示为个固定长度的词向量这也就是前文所提到的

Ｗ〇ｒｄ２ｖｅＣ模型的核心思想是将目标词汇的上下文临接词汇输入预训练模型中 

结合上下文语义信息、文本结构信息来预测当前目标词汇的文本内发生的概率 

同词汇之间的前向、后向关系；同时使用了Ｍａｓｋ ＬａｎｇｕａｇｅＭｏｄｅｌ

这思想其主要的做法是在模型训练的过程中随机地从输入的词汇中 

概率。主要的思想与ｗｏｒｄ２ｖｅｃ类似，也有部分ＲＮＮ的思想在其中。ＭＬＭ的性