基于文本语义的热点事件网络暴力分析方法刘玉文

第３２卷第７期计算机技术与发展Ｖｏｌ．３２Ｎｏ．７
２０２２年７月ＣＯＭＰＵＴＥＲＴＥＣＨＮＯＬＯＧＹＡＮＤＤＥＶＥＬＯＰＭＥＮＴＪｕｌ．２０２２
基于文本语义的热点事件网络暴力分析方法
刘玉文１，翟菊叶１，朱文婕１，２，谢静１
（１．蚌埠医学院，安徽蚌埠２３３０３０；
２．中国科学技术大学计算机科学与技术学院，安徽合肥２３００２７）
摘要：网络暴力识别与多维度分析对网络舆情态势感知和管控具有十分重要的意义，当前的网络暴力研究主要集中在
用户负面情感分析、舆情危机治理及外部网络生态优化等方面，缺乏对网络暴力的定量分析研究，无法在复杂的网络环境
中及时感知网络暴力发展态势和组成结构。通过分析网络暴力在文本中的存在形式和结构特征，提出了一种基于文本语
义的网络暴力分析方法（ｔｅｘｔｓｅｍａｎｔｉｃｂａｓｅｄａｐｐｒｏａｃｈｆｏｒｃｙｂｅｒｖｉｏｌｅｎｃｅａｎａｌｙｓｉｓ，ＴＳＣＡ）。该方法首先运用互信息理论创建
暴力领域情感词典，根据暴力领域情感词典和语义环境从评论语料库中生成负面情感词组集；然后，通过卡方检验对负面
情感词组集进行暴力特征筛选，生词暴力词组集；最后，从文本和用户角度对网络暴力进行定量计算和多维度分析。在真
实的网络热点事件评论文本数据集上与其他方法进行了对比，实验结果表明：该方法达到了良好的网络暴力特征识别
效果。
关键词：文本语义；网络暴力；互信息；情感词典；暴力计算
中图分类号：ＴＰ３９１．１文献标识码：Ａ文章编号：１６７３－６２９Ｘ（２０２２）０７－０２０８－０８
ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３－６２９Ｘ．２０２２．０７．０３６
ＡＴｅｘｔＳｅｍａｎｔｉｃｓＢａｓｅｄＡｐｐｒｏａｃｈｆｏｒＣｙｂｅｒＶｉｏｌｅｎｃｅＡｎａｌｙｓｉｓｏｎ

ＨｏｔＥｖｅｎｔ
ＬＩＵＹｕ－ｗｅｎ１，ＺＨＡＩＪｕ－ｙｅ１，ＺＨＵＷｅｎ－ｊｉｅ１，２，ＸＩＥＪｉｎｇ１
（１．ＢｅｎｇｂｕＭｅｄｉｃａｌＣｏｌｌｅｇｅ，Ｂｅｎｇｂｕ２３３０３０，Ｃｈｉｎａ；
２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙｏｆＣｈｉｎａ，Ｈｅｆｅｉ２３００２７，Ｃｈｉｎａ）
Ａｂｓｔｒａｃｔ：Ｃｙｂｅｒｖｉｏｌｅｎｃｅｉｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌａｎａｌｙｓｉｓａｒｅｏｆｇｒｅａｔｓｉｇｎｉｆｉｃａｎｃｅｔｏｔｈｅｓｉｔｕａｔｉｏｎａｗａｒｅｎｅｓｓａｎｄｃｏｎｔｒｏｌｏｆ
ｎｅｔｗｏｒｋｐｕｂｌｉｃｏｐｉｎｉｏｎ．Ｔｈｅｃｕｒｒｅｎｔｒｅｓｅａｒｃｈｏｎｃｙｂｅｒｖｉｏｌｅｎｃｅｍａｉｎｌｙｆｏｃｕｓｅｓｏｎｔｈｅａｎａｌｙｓｉｓｏｆｕｓｅｒｓ’ ｎｅｇａｔｉｖｅｅｍｏｔｉｏｎｓ，ｔｈｅｇｏｖｅｒｎ⁃
ａｎｃｅｏｆｐｕｂｌｉｃｏｐｉｎｉｏｎｃｒｉｓｉｓａｎｄｔｈｅｏｐｔｉｍｉｚａｔｉｏｎｏｆｅｘｔｅｒｎａｌｎｅｔｗｏｒｋｅｃｏｌｏｇｙ，ｗｈｉｃｈｉｓｕｎａｂｌｅｔｏｓｅｎｓｅｔｈｅｄｅｖｅｌｏｐｍｅｎｔｔｒｅｎｄａｎｄｃｏｍ⁃
ｐｏｓｉｔｉｏｎｓｔｒｕｃｔｕｒｅｏｆｃｙｂｅｒｖｉｏｌｅｎｃｅｉｎａｃｏｍｐｌｅｘｎｅｔｗｏｒｋｅｎｖｉｒｏｎｍｅｎｔ．Ｂｙａｎａｌｙｚｉｎｇｔｈｅｆｏｒｍａｎｄｓｔｒｕｃｔｕｒｅｏｆｃｙｂｅｒｖｉｏｌｅｎｃｅｉｎｔｅｘｔ，ａ
ｔｅｘｔｓｅｍａｎｔｉｃｂａｓｅｄａｐｐｒｏａｃｈｆｏｒｃｙｂｅｒｖｉｏｌｅｎｃｅａｎａｌｙｓｉｓ（ＴＳＣＡ）ｉｓｐｒｏｐｏｓｅｄ．Ｆｉｒｓｔｌｙ，ａｖｉｏｌｅｎｃｅｄｏｍａｉｎｅｍｏｔｉｏｎｄｉｃｔｉｏｎａｒｙｉｓｃｒｅａｔｅｄ
ｂａｓｅｄｏｎｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎｔｈｅｏｒｙ，ａｎｄａｎｅｇａｔｉｖｅｅｍｏｔｉｏｎｐｈｒａｓｅｓｅｔｉｓｇｅｎｅｒａｔｅｄｆｒｏｍｔｈｅｃｏｍｍｅｎｔｃｏｒｐｕｓａｃｃｏｒｄｉｎｇｔｏｔｈｅｖｉｏｌｅｎｃｅ
ｄｏｍａｉｎｅｍｏｔｉｏｎｄｉｃｔｉｏｎａｒｙａｎｄｓｅｍａｎｔｉｃｅｎｖｉｒｏｎｍｅｎｔ．Ｔｈｅｎ，ｔｈｒｏｕｇｈ χ ２ｔｅｓｔ，ｔｈｅｖｉｏｌｅｎｃｅｆｅａｔｕｒｅｓｓｅｔｉｓｓｃｒｅｅｎｅｄｂａｓｅｄｏｎｔｈｅｎｅｇａｔｉｖｅｅ⁃
ｍｏｔｉｏｎｐｈｒａｓｅｓｅｔ．Ｆｉｎａｌｌｙ，ｑｕａｎｔｉｔａｔｉｖｅｃａｌｃｕｌａｔｉｏｎａｎｄｍｕｌｔｉ－ｄｉｍｅｎｓｉｏｎａｌａｎａｌｙｓｉｓａｒｅｃａｒｒｉｅｄｏｕｔｆｒｏｍｔｈｅｐｅｒｓｐｅｃｔｉｖｅｏｆｔｅｘｔａｎｄｕｓｅｒｓ．
ＴｈｅＴＳＣＡａｐｐｒｏａｃｈｉｓｃｏｍｐａｒｅｄｗｉｔｈｏｔｈｅｒｍｅｔｈｏｄｓｏｎｔｈｅｒｅａｌｔｅｘｔｄａｔａｓｅｔｏｆｎｅｔｗｏｒｋｈｏｔｅｖｅｎｔｒｅｖｉｅｗｓ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗ
ｔｈａｔｔｈｅｐｒｏｐｏｓｅｄａｐｐｒｏａｃｈａｃｈｉｅｖｅｓａｂｅｔｔｅｒｐｅｒｆｏｒｍａｎｃｅｏｎｃｙｂｅｒｖｉｏｌｅｎｃｅｆｅａｔｕｒｅｒｅｃｏｇｎｉｔｉｏｎ．
Ｋｅｙｗｏｒｄｓ：ｔｅｘｔｓｅｍａｎｔｉｃｓ；ｃｙｂｅｒｖｉｏｌｅｎｃｅ；ｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ；ｅｍｏｔｉｏｎｄｉｃｔｉｏｎａｒｙ；ｖｉｏｌｅｎｃｅｃｏｍｐｕｔｉｎｇ
０引言分之一。网络打破了时间限制，在给人们带来便利的
随着计算机与通讯技术的快速发展，网络朝着终同时，也给网络暴力提供了滋生环境。当前，社会热点
端移动化、平台多元化、带宽高速化的方向发展［１］
。中事件是诱发网络暴力的主要因素之一，是因为社会热
国互联网络信息中心（ＣＮＮＩＣ）发布的第４７次《中国点事件具有突发性和聚焦性，能在短时间内吸引网民
互联网络发展状况统计报告》显示：截止２０２０年１２聚集，其所产生的网络暴力威力大，不仅会对当事人的
月，中国网民数量为９．８９亿，已占全球网民总数的五心理造成极大的影响，也会极大地破坏网络生态环境，
收稿日期：２０２１－０７－１９修回日期：２０２１－１１－２２
基金项目：安徽省哲学社会科学规划项目（ＡＨＳＫＱ２０１９Ｄ０７０）
作者简介：刘玉文（１９８２－），男，副教授，研究方向为数据挖掘、网络舆情。
第７期刘玉文等：基于文本语义的热点事件网络暴力分析方法 · ２０９·
给社会和谐发展带来严峻挑战。所以，热点事件中网算，从暴力词和用户两个维度实现对网络暴力的多尺

络暴力分析对掌握网络暴力内部规律，寻找合适的网度分析。
络暴力治理策略具有十分重要的意义。
自社交网络诞生之日起，网络暴力就如影随形。１相关技术
为了应对网络暴力带来的威胁与挑战，众多学者从社１．１卡方检验
交网络入手开展了大量的网络舆情治理相关研究，提从文本内容的组成结构角度，语义分析包括词语
出了多种网络舆情处理框架，确立了网络话题识别［２］
、级语义分析、句子级语义分析和文档级语义分析。但
网络社区检测［３］
、意见领袖发现［４］
、用户肖像刻画［５］
、不管从哪个层级进行语义分析，首要任务都是解决文
［６］
情感计算等相关核心技术，取得了一系列研究成果。本特征的识别问题。文本特征识别是自然语言处理的
如Ｃｈａｎｇ等［７］提出了一种基于智能语义框架的网络话核心技术，特征识别方法包括文档频率法（ｄｏｃｕｍｅｎｔ
题识别方法，该方法通过知识框架生成机制从文档中ｆｒｅｑｕｅｎｃｙ，ＤＦ）、信息增益法（ｉｎｆｏｒｍａｔｉｏｎｇａｉｎ，ＩＧ）及
提取规则模式，再通过句法结构和语义关联来有效检卡方检验法等。其中，卡方检验法是最常用的文本特
［８］
测文档主题。Ｘｉｎｇ等对新媒体环境下负面网络舆征选择方法。
情检测指标体系进行研究，提出了基于信息熵的网络卡方检验［１３］主要功能是统计样本的实际观测值
舆情检测模型，实现了舆情等级的自动分类。Ｙａｎｇ与理论推断值之间的相关程度，卡方值越大，则两者相
等［９］
对情绪因素影响下的突发事件网络舆情演化机关的可能性就越大， c ２统计量的计算公式如式（１）
理进行研究，把包含情绪函数的ＲＤＥＵ理论引入突发所示。
事件网络舆情演化博弈中，构建以网民和政府为代表 χ ２（Ｆｅａｔｕｒｅｉ，Ｃｊ）＝
的动态博弈模型，最后通过假设收益数值实现情绪影Ｍ × （Ａ × Ｄ－Ｃ × Ｂ）２
（１）
响下的演化仿真。（Ａ＋Ｃ） × （Ｂ＋Ｄ） × （Ａ＋Ｃ） × （Ｂ＋Ｄ）
近些年，又有学者依托知识图谱提出了舆情危机其中，Ｆｅａｔｕｒｅｉ表示特征，Ｃｊ表示特征所属类别；Ｍ表
治理新思路，实现了舆情感知智能化。如Ｓｈｅｎ等［１０］
示训练集中文本总数，Ａ表示属于Ｃｊ类且包含
提出了基于网络新闻语料的公共危机事件知识图谱构Ｆｅａｔｕｒｅｉ的文本频数，Ｂ表示不属于Ｃｊ类但包含
建方法，该方法从新闻语料中抽取实体，构建公共危机Ｆｅａｔｕｒｅｉ的文本频数，Ｃ表示属于Ｃｊ类但是不包含
事件知识图谱模型。实现了实体关系抽取、知识融合、Ｆｅａｔｕｒｅｉ的文本频数，Ｄ表示既不属于Ｃｊ类也不包含
知识加工和知识推理等多项技术的整合。Ｂａｏ等［１１］
Ｆｅａｔｕｒｅｉ的文本频数。
提出了非结构化语料知识图谱构建方法，该方法运用１．２文本情感分析
词法分析和语义技术构建评论文本中实体与实体、实１９９７年，ＭＩＴ媒体实验室Ｐｉｃａｒｄ教授首次提出情
体与属性关系，把非结构化数据映射成知识图谱，实现感计算（ａｆｆｅｃｔｉｖｅｃｏｍｐｕｔｉｎｇ，ＡＣ）概念［６］，目的是通过
了文本内容的逻辑表示，解决了网络舆情回溯和推理外部表露出的信息来研究人的内在心理活动。经过
问题。梁野等［１２］提出了一种面向舆情分析与预警领２０多年的发展，情感分析延伸出了面部情感分析、姿
域的跨语言知识图谱架构，完成了涵盖多来源的面向态情感分析、自然语言情感分析、多模态情感计算等多
舆情分析与预警领域的跨语言知识图谱构建平台个研究分支，该文研究的文本情感分析属于自然语言
ＣＬＯｐｉｎ，高效地实现了多源数据整合，解决了夸语言情感分析范畴。
舆情分析与预警问题。当前，网络成为了民众信息交互和观点表达的主
从当前研究成果中可以发现，网络舆情治理主要要平台，网络上存储了大量的文本数据，隐含着很多有
集中在负面舆论分析、舆情知识表示、舆论等级划分、价值信息，对文本进行情感分析能够感知网络舆情态
舆情预警等方面，缺少对网络暴力内部数据特征的研势，了解民众需求，对促进社会管理水平的提高具有十
究，无法深入了解网络暴力的内容组织关系。针对以分重要的意义。文本作为自然语言的一种存储形式，
上问题，在文本语义和情感词典技术的基础上，该文提最小的语义单位是词，词语级情感分析是最基础的文
出了一种基于文本语义的网络暴力分析方法本语义分析技术，同时也为句子级和文档级情感分析
（ＴＳＣＡ）。该方法从网络暴力数据特征入手，首先根提供了知识支撑。词语级情感分析技术运用情感词典
据语境创建网络暴力领域情感词典，实现文本实体情来衡量测试词汇的情感值，并依据语义规则进行情感
感词汇的识别；然后根据文本分词的位置关系，运用语计算，具体分析流程如图１所示。
义规则生成负面情感词组集，并用卡方检验对暴力特从图１中可以看出，计算规则是情感计算的核心，
征进行筛选；最后通过语义相似度对暴力特征进行计它的主要任务是依据情感词典对新词情感进行量化，
· ２１０· 计算机技术与发展第３２卷
量化方式包括互信息计算、相似度对比。具有否定的词组结构进行如下规定：
规则１：否定前缀＋情感词。
如果正情感词前面有否定前缀，则否定权值为１；
若负情感词前面有否定前缀，则否定权值为０．５。
规则２：否定前缀＋修饰词。
当情感词前面同时含有否定词和修饰词时，若否
定词在修饰词前，则否定权值为０．５；若在修饰词后，则
取值为１。
图１文本情感分析框架２．２领域情感词典建立
评论文本是用户发表意见的载体，文本包含用户
２基于文本语义的网络暴力分析方法的情感、态度、行为等特征，文本的情感计算可以转化
（ＴＳＣＡ）为对语义词组的情感计算［１４］。由于在不同的语境下
词汇表达的含义可能会不一样，所以，首先需要依据语
从本质上说，文本暴力分析是情感分析的一个典
义环境创建情感词典，然后，用测试文本的分词与情感
型应用。由于热点事件的突发性和聚焦性，网民评论
词典进行语义对比，得出测试分词的情感值。情感词
紧紧围绕着热点事件展开，语言相似性大，领域特性
典由３个数据表组成：情感词表Ｗｃ、程度副词表Ｗｖ和
强，用经典的情感词典进行语义对比，情感计算结果准
否定词表Ｗｎ。情感词表包含６个属性：前缀否定词
确度不高。另外，网络暴力是带有侮辱性的攻击语言，
ＩＤ、前缀副词ＩＤ、词项、性质（褒义或贬义）、情感值、位
负面情感色彩强烈，但负面情感不一定都是网络暴力，
置；程度副词表包含３个属性：词项、强度值和位置；否
如何从负面情感中筛选出暴力特征是网络暴力分析的
定词表也包括３个属性：词项、否定值（否定一般设置
关键。所以，在网络暴力分析流程中要解决两个核心
为－１）和位置。
问题：（１）暴力领域情感词典建立；（２）基于负面情感
（１）情感词表创建。
特征的网络暴力筛选。
根据当前语料的语义环境，人工筛选出Ｎ个核心
２．１文本暴力语义规则
情感种子词。种子词筛选原则是情感意义非常明确，
情感词典是一种按照文本内词汇之间的逻辑关系
具有代表性，情感极性最强。首先运用情感种子词建
搭建起来的知识库，它的建立需要遵循文本语义规则。立原始情感词表，然后用循环的方法依次遍历文本分
文本由句子组成，句子又由词组成。词是文本的最小词，当ｉ＝１时，把文本ｄｉ中的新词ｗｉ与情感词表中的
语义单位，但是词在表达语义的时候，由于缺少前缀修所有词汇进行语义互信息计算，把互信息最高的词汇
饰词，意义表达往往不明确。如果单纯的从词的角度情感值作为新词ｗｉ的情感值，并填充进情感词表。依
去挖掘暴力信息，挖掘出的信息可能会不准确。比如：次循环，使得每个文本上的分词都会被遍历一次。以
“ 人渣” 是个暴力词，但如果语境是“ 他不是人渣” ，在下介绍情感词表的扩充方法。
“ 人渣” 的前面有个否定前缀，那整个语义就不具备暴设ｗｎ是Ｄ中的新词，ｗｉ是情感词表Ｗｃ内的词项，
力，所以，在文本暴力挖掘时，往往词组才是具备有效ｗｎ的情感值可以通过与ｗｉ的点间互信息计算得到，计
语义的基本单位。算公式如式（２）所示：
从文学角度来说，词组可分成很多种类型，如：主Ｐ（ｗｎ，ｗｉ）
ＰＭＩ（ｗｎ，ｗｉ）＝ｌｇ（２）
谓词组（大家帮助）；动宾词组（发现问题）；介宾词组Ｐ（ｗｎ） × Ｐ（ｗｉ）
（把他打死）；偏正词组（崇高的理想）；否定词组（不喜其中，Ｐ（ｗｎ，ｗｉ）表示ｗｎ和ｗｉ在Ｄ中共现的概率，
欢）。从这些词组的语义环境来看，能显著对情感进Ｐ（ｗｎ）和Ｐ（ｗｉ）分别表示ｗｎ和ｗｉ单独出现的概率，
行修饰或改变的只有偏正词组和否定词组。进一步研ＰＭＩ（ｗｎ，ｗｉ）的取值范围为［０，１］。如果ＰＭＩ（ｗｎ，ｗｉ）
＞ δ （ δ 表示ｗｎ和ｗｉ的相似性阈值），则判定ｗｎ和ｗｉ
究发现，否定词和修饰词的位置在文本语义表示中非
的语义相同。为了综合判断词汇ｗｎ的情感倾向，还需
常重要，比如，“ 不很美丽” 和“ 很不美丽” 两者意义截
要在情感词表Ｗｃ上对ｗｎ进行综合考察，设情感词表
然相反。另外，正情感词和负情感词前面加否定词时，
Ｗｃ正面情感词集合为Ｗｃｐ，负面情感词集合为Ｗｃｎ，词
语义翻转的程度也不同，如：正情感词“ 好人” 加否定
汇ｗｎ的综合值计算公式如式（３）所示：
后得“ 不是好人” ，语义翻转到了好人的对立面，即“ 坏
人” ；而负情感词“ 坏人” 加否定前缀后的“ 不是坏人” ，
∑ ＰＭＩ（ｗ，ｗ）
ｗｐ∈Ｗｃｐ
ｎｐ ∑ ＰＭＩ（ｗ，ｗ）
ｗｐ∈Ｗｃｎ
ｎｐ
Ｓ（ｗｎ）＝－
语义就不能翻转到“ 好人” ，从语境理解，“ 不是坏人” ＷｃｐＷｃｎ
只能表明“ 不坏” ，但不能表明是“ 好” 。因此，该文对（３）
第７期刘玉文等：基于文本语义的热点事件网络暴力分析方法 · ２１１·
从公式（３）可以看出，Ｓ（ｗｎ）的取值范围也是情感的计算过程如下：首先，依次遍历文本内情感词，
［－１，１］，绝对值越大，ｗｎ的极性越强。最后判断ｗｎ在根据文本中第ｎ个分词ｗｎ所在的位置读取出前缀词，
Ｗｃ内是否为新词，如果是新词，则把ｗｎ直接加入到Ｗｃ并与ｗｎ连接，组成语义词组Ｗ，Ｗ的情感值计算如公
中，否则对原有词的情感值进行覆盖。按照上述方法式（５）所示：
计算Ｄ中所有分词，完成对情感词表Ｗｃ的扩充。对任Ｓ（Ｗ）＝Ｎ（ｗｎ）Ａｄｖ（ｗｎ）Ｓ（ｗｎ）Ｍ（ｗｎ）Ｑ（ｗｎ）（５）
意情感词ｗｎ，若Ｓ（ｗｎ）＞０，则ｗｎ具有正情感倾向；若其中，Ｎ（ｗｎ）表示ｗｎ的否定词向量权重；Ａｄｖ（ｗｎ）表
Ｓ（ｗｎ）＝０，则ｗｎ具有中性情感倾向；若Ｓ（ｗｎ）＜０，则示ｗｎ修饰词向量权重，两个分量可继续分解为公式
ｗｎ具有负情感倾向。（６）和公式（７）：
（２）程度副词表创建。Ｎ（ｗｎ）＝（－１）ｅ，ｅ ≥０（６）
∑ Ａｄｖ（ｗ）
Ｖ
程度副词表扩充与情感词表扩充的过程相似，不
Ａｄｖ（ｗｎ）＝ｉ
ｎ（７）
同之处是程度副词的修饰程度取值范围为［０，１］。为ｉ＝１
在公式（５）～（７）中，ｅ表示否定词出现的次数，Ｖ

了提高程度副词的扩充精度，根据６级划分理论，按梯
表示程度副词出现的数量。Ｍ（ｗｎ）表示否定词的位
度下降公式对每个级别赋予不同的权值，具体创建方
置，初始值为１；Ｑ（ｗｎ）表示情感翻转系数，初始值为
式如下：
１。根据该文定义的语义规则：①若否定词在修饰词
设ｗｉ是程度副词，Ｗｖ为程度副词表，为了度量ｗｉ
前，则Ｍ（ｗｎ）取值为０．５；若在修饰词后，则取值为１；
的修饰程度，需要在Ｗｖ上对ｗｉ进行综合计算，如公式
②当Ｓ（ｗｎ）＞０时，若ｗｎ有否定前缀，则Ｑ（ｗｎ）取值为
（４）所示：
１；若Ｓ（ｗｎ）＜０时，则Ｑ（ｗｎ）取值为０．５。由公式可以
∑ ｋ × ＰＭＩ（ｗ，ｗ）
ｗｖ∈Ｗｖ
ｉｖ
计算出词组Ｗ的情感值。如果Ｓ（ｗ）的值小于０，则Ｗ
Ａｄｖ（ｗｎ）＝（４）
Ｗｖ为负情感词组。
其中，ｋ表示ｗｖ的权值。根据公式（４）的计算结果，首２．４网络暴力计算
先判断ｗｉ在Ｗｖ内是否为新词，如果是新词，则把ｗｉ直（１）网络暴力词组筛选。
接加入到Ｗｖ中；如果不是新词，则对原有词的修饰强网络暴力作为一种攻击性语言，具有很强的负情
度进行覆盖。遍历分词预料库中所有副词完成副词表感，但负情感特征词不一定都是暴力语言。暴力是负
Ｗｖ的扩充。情感的充分条件，负情感是暴力的必要条件。所以网
（３）否定词表创建。络暴力特征需要从负面情感特征中进一步筛选。 c ２检
否定词能让情感词的极性发生翻转，如果情感词验是常用的文本特征筛选方法，运用c ２检验的网络暴
前有否定词，在情感计算时，根据否定词出现的次数力筛选过程如下：
ｅ，用（－１）乘以情感强度。由于否定词意义明确，其
ｅ
第①步：从负情感词组集中，用人工的方法标注出
意义表达不依赖于语义环境，通常情况下以 “ 不” 、负面情感最强烈的２０个暴力词组作为种子存放在词
“ 没” 、“ 未” 等字组成，在ＨｏｗＮｅｔ词典中收录非常完向量Ｃ中，并设定c２检验阈值 ξ ＝０．９０；
善，所以，该文借鉴ＨｏｗＮｅｔ中的否定词表，以此填充到第②步：利用卡方检验对负情感词组进行特征计
创建的领域词典内。算，按从大到小顺序，选择c ２（Ｗｉ，Ｃ） ≥ ξ 的特征词
２．３负面情感计算组，添加到Ｃ中；
负面情感词组检测。第③步：增加阈值 ξ，使得 ξ ＝ ξ ＋０．０１，返回到第
网络暴力本质是极端恶劣的负面情感，所以文本 ②步，直到选不出暴力特征词组为止。
暴力分析是情感计算技术的一种具体应用，目标是从通过暴力特征词的筛选能把不具备暴力的负面情
负面情感特征中识别出暴力特征，并对暴力特征进行感词组过滤掉，大大提高了网络暴力识别精度。从情
计算。文本是词汇的集合，文本的情感隐含在情感词感计算角度看，网络暴力是负值，取值范围是［－１，０）。
中，文本情感通过计算文本词汇的综合情感值来实现。为了直观地对网络暴力进行描述，文本对包含网络暴
为了更清楚地表述词汇语义，特做如下定义：力的负面情感进行翻转计算，把网络暴力取值范围映
定义１：语义词组。设五元组Ｗ＝＜ｗ，Ｎ，Ａｄｖ，射到区间（０，１］内，转换后的暴力词组计算公式如式
Ｍ，Ｑ＞是个语义词组，ｗ代表情感词，Ｎ代表ｗ的否（８）所示：
定前缀，Ａｄｖ代表ｗ的修饰前缀，Ｍ代表否定词位置，Ｃｙｂｅｒ（Ｗ）＝－
Ｑ代表ｗ的极性。Ｎ（ｗｎ）Ａｄｖ（ｗｎ）Ｓ（ｗｎ）Ｍ（ｗｎ）Ｑ（ｗｎ）（８）
语义词组Ｗ能够明确描述情感词的语义环境，其定义２：暴力密度。设词组集ＷＳ＝｛Ｗ１，Ｗ２，…，
· ２１２· 计算机技术与发展第３２卷
ＷＫ｝，暴力语义词组集ＷＣ＝｛Ｗｃ１，Ｗｃ２，…，ＷｃＫ｝，且Ｃｙｂｅｒｍｉｎ（ｕｉ）表示用户暴力的最小值。

ＷＣ⊆ ＷＳ，则ＷＳ的暴力密度计算公式如式（９）所示：
∑ Ｃｙｂｅｒ（Ｗ）ｉ
３实验分析
３．１
Ｗｉ∈ＷＣ
Ｄｉｅｎｓｉｔｙ（Ｗ）＝（９）数据来源及预处理
ＷＳ
以“ 合肥母子三人跳楼事件” 为例，使用八爪鱼数
（２）文本暴力计算。
据采集器获取了腾讯新闻中该主题下的评论信息：用
文本是单词的有序集合，即：ｄｉ＝｛ｗ１，ｗ２，…，
户节点１０５２个，评论文本３１２８条。首先抽取用户之
ｗＮ｝。但从词组的角度看，文本又可表示成多个语义
间的“ 回复、点赞” 关系，建立用户关系库Ｕ，然后使用
词组的顺序排列，即：ｄｉ＝｛Ｗ１，Ｗ２，…，ＷＫ｝，且｛Ｗ１ ∪
ＩＣＴＣＬＡＳ分词软件对评论文本进行分词，去除停用词、
Ｗ２ ∪ … ∪ ＷＫ｝＝｛ｗ１，ｗ２，…，ｗＮ｝。所以，基于词组
介词、语气词、转折词等无用词后，建立文本语料矩
的文本暴力计算公式如式（１０）所示：
阵Ｇ。
∑ Ｃｙｂｅｒ（Ｗ），Ｗ
Ｋ
Ｃｙｂｅｒ（ｄｉ）＝ｋｋ ∈Ｃ（１０）Ｕ的大小为｜Ｕ｜ × ４，其中，第ｉ行存放第ｉ个用户

ｋ＝１
其中，Ｃ表示暴力词组向量。然后对所有文本的暴力ｕｉ的相关信息，存放顺序是：第１列存放ｕｉ的序号，第
值进行归一化处理，计算公式如式（１１）所示：２列存放ｕｉ的ＩＤ，第３列存放ｕｉ回复的用户ＩＤ串，第
Ｃｙｂｅｒ（ｄｉ）－Ｃｙｂｅｒｍｉｎ（ｄｉ）４列存放ｕｉ点赞的用户ＩＤ串。Ｇ的大小为｜Ｇ｜ × ［２＋

Ｃｙｂｅｒ（ｄ ∗
ｉ）
＝（１１）Ｎ＋３］，其中，第ｉ行存放第ｉ条评论文本ｄｉ的相关信
Ｃｙｂｅｒｍａｘ（ｄｉ）－Ｃｙｂｅｒｍｉｎ（ｄｉ）
其中，Ｃｙｂｅｒｍａｘ（ｄｉ）表示文本暴力的最大值，息，存放顺序是：第１列存放ｄｉ的序号；第２列存放发
Ｃｙｂｅｒｍｉｎ（ｄｉ）表示文本暴力的最小值。表ｄｉ的用户ＩＤ，后Ｎ列存放ｄｉ的分词结果。初始语料
（３）用户暴力计算。矩阵准备完毕之后，运用该文提出的方法对语料信息
用户暴力是用户所发表评论文本的暴力之和，所进行处理分析。
以，对于用户ｕｉ，其暴力计算公式如式（１２）所示：３．２实验结果分析

Ｄｉ（１）暴力词语义分析。
Ｃｙｂｅｒ（ｕｉ）＝ ∑ Ｃｙｂｅｒ（ｄ）
ｎ＝１
ｎ（１２）在语料矩阵Ｇ的基础上，按照文本暴力分析路
其中，Ｄｉ表示用户ｕｉ发表的评论文本数量。对用线，首先创建领域情感词典Ｓ，生成负面情感词组集
户暴力进行归一化处理，计算公式如式（１３）所示：Ｎ，再通过卡方检验筛选出暴力词组集Ｃ。组成暴力
Ｃｙｂｅｒ（ｕｉ）－Ｃｙｂｅｒｍｉｎ（ｕｉ）词组集的高频基础情感词及情感值计算结果如表１
Ｃｙｂｅｒ（ｕ ∗
ｉ）
＝（１３）
Ｃｙｂｅｒｍａｘ（ｕｉ）－Ｃｙｂｅｒｍｉｎ（ｕｉ）所示。
其中，Ｃｙｂｅｒｍａｘ（ｕｉ）表示用户暴力的最大值，
表１事件评论网络暴力高频词列表（Ｔｏｐ４５）
序号词项词频情感值序号词项词频情感值序号词项词频情感值
１男人１１２－０．４６１６恶心２７－０．７５３１温暖１５０．４６
２责任１０２０．６１１７死２７－０．７９３２鸟人１５－０．７９
３自私９８－０．７３１８本事２３０．５９３３赚钱１４０．６１
４冷血９２－０．７３１９恐怖２３－０．６２３４魔窟１４－０．６８
５残忍８８－０．９１２０没用２３－０．７１３５珍惜１４０．４９
６可怕８７－０．３９２１孤独２１－０．２１３６谴责１４－０．４３
７渣男７６－０．７８２２人品２１０．２５３７了断１３－０．８３
８冷漠７３－０．８３２３陪葬２１－０．８８３８活刮１２－０．９２
９懦弱５１－０．４１２４悲哀２１－０．３５３９反省１２－０．３１
１０可恨４３－０．６９２５嫌弃２１－０．４３４０葬送１２－０．４３
１１不配３７－０．６３２６逼迫２０－０．５２４１地狱１２－０．８３
１２无耻３８－０．８５２７报应２０－０．６０４２永不超生１０－０．８３
１３愤怒３７－０．５７２８东西１９－０．９０４３老不死１０－０．９２
１４靠谱３１０．８０２９畜生１８－０．８３４４丢脸１０－０．３６
１５嫁错２９－０．３８３０刽子手１７－０．７６４５枪毙１０－０．９１
（２）暴力多尺度分析。暴力特征词进行多维尺度统计分析。根据暴力特征词

为了反映暴力特征词之间意义分布形态，对４５个两两之间共现频数，得到大小为４５ × ４５的暴力特征词
第７期刘玉文等：基于文本语义的热点事件网络暴力分析方法 · ２１３·
共现矩阵。由于频次的范围变化大，数据分析不方便，Ｐ（Ａ，Ｂ）

Ｏｃｈｉｉａ＝（１４）
为了消除词频计数对分析的影响，用Ｏｃｈｉｉａ系数将共Ｐ（Ａ） × Ｐ（Ｂ）
词矩阵转换为相关矩阵，并对共现频次进行归一化处为了便于理解，用“１” 与矩阵相减，得到表示两词
理，再根据词与词之间的共现关系，建立两词之间的相建相异程度的相异矩阵，转换结果如表２所示。
异矩阵，计算公式如式（１４）所示：
表２Ｏｃｈｉｉａ相异矩阵
男人责任自私冷血残忍可怕渣男冷漠懦弱可恨不配无耻愤怒靠谱嫁错
男人０．０００００．９１５７０．９０３９０．９１２９０．９０８６０．９０７９０．９４３５０．９７５６０．９２３１０．９８４７０．９０９５０．９４７９０．９６２１０．９２４６０．９０８５
责任０．９０８６０．０００００．９８２１０．９９５３０．９６２７０．９８４５０．９１３２０．９８６７０．９３６５０．９０８４０．９７５７０．９３１５０．９０４３０．９９６４０．９３５２
自私０．９７６４０．９５３７０．０００００．９６４７０．９４６０．９０３１０．９８４５０．９２７９０．９７５４０．９４５３０．９２５３０．９１５４０．９１７４０．９６３２０．９２５８
冷血０．９５３２０．９１６３０．９３２５０．０００００．９７３１０．９４２７０．９３２５０．９０７５０．９４７３０．９１３７０．９１８６０．９０６８０．９２８５０．９３６４０．９７３５
残忍０．９０８６０．９０７３０．９８４５０．９３２６０．０００００．９０７５０．９５３７０．９１４８０．９３６５０．９２４３０．９２５６０．９２５４０．９１９４０．９２４３０．９７８３
可怕０．９３７８０．９４８１０．９０５２０．９０８６０．９６４８０．０００００．９９４６０．９３６４０．９７８７０．９２４８０．９３９８０．９３７５０．９０２５０．９０８９０．９６３５
渣男０．９７６８０．９３６１０．９２３７０．９４５２０．９０６３０．９３５２０．０００００．９６８３０．９８７５０．９４６３０．９２３２０．９３６８０．９１４３０．９３２６０．９２４３
冷漠０．９３２６０．９７４８０．９６３７０．９７６４０．９３７４０．９０８６０．９７５３０．０００００．９６５４０．９５４５０．９３６５０．９６４７０．９０７６０．９６４７０．９６７３
懦弱０．９３５２０．９６３８０．９９５３０．９２３５０．９９５３０．９７９３０．９５３６０．９５７４０．０００００．９６２３０．９２４５０．９３５７０．９２６５０．９２５１０．９８４６
可恨０．９１７８０．９０７３０．９０５７０．９０９５０．９２３５０．９２４１０．９２３５０．９８３４０．９６４２０．０００００．９２８７０．９３５６０．９６４７０．９３５４０．９２７４
不配０．９０４６０．９６２８０．９８３６０．９１０５０．９９６８０．９０８５０．９５２４０．９６４３０．９８７４０．９１２５０．０００００．９４７４０．９３６６０．９０３４０．９７３５
无耻０．９８３４０．９５３２０．９０５３０．９５７６０．９６４２０．９７３４０．９３４２０．９６３１０．９３５２０．９０５６０．９４７７０．０００００．９４８３０．９０２１０．９２４３
愤怒０．９５２３０．９２３８０．９４２６０．９９４７０．９６５８０．９２１３０．９１７６０．９４３２０．９５４３０．９０７４０．９０６５０．９２８６０．０００００．９２４１０．９３６２
靠谱０．９７４９０．９０６８０．９３２７０．９０４２０．９０８４０．９７５３０．９１８６０．９３３２０．９４５３０．９１４３０．９２６４０．９０５６０．９２７４０．０００００．９２８２
嫁错０．９２４１０．９８４６０．９７４００．９５４２０．９７０５０．９８９５０．９３９７０．９７５８０．９２３１０．９５６２０．９１８７０．９０２４０．９０８６０．９４６２０．００００
把相异矩阵数据输入到ＳＰＳＳ软件中，选择二维分个群组，每个群组代表一个被网络暴力攻击的实体对

析组图输出方式，对其进行Ｅｕｃｌｉｄｅａｎ距离分析，分析象，分别为：跳楼女子（以下简称 “ 女方” ）、女子丈夫
结果如图２所示。图中点与点之间的距离表示词汇所（以下简称“ 男方” ）、女子所处的家庭环境（以下简称
属内容主题的相关程度，距离越小表明主题语义相似 “ 家庭” ）。按照分组结果，对语料中每个群组词及群
度越大，主题内容越集中；反之，距离越远表明表达内组内暴力词进行统计，结果如图３所示。
容越独立。
图３各群组暴力词占比
从图３可以看出，在所有语料词组中，女方群组词
图２暴力词汇多尺度分析结果数量的占比为３８．２％，家庭群组词占比为２９．７％，丈夫
从图２显示的分析结果来看，词汇之间既有渗透群组词占比为３２．１％。网民针对女方发表的网络评论
交叉，又有群组分布的独立性，说明词汇语义反映出了最多，也从侧面反映出了女方在事件中的主体地位。
明显的主题差异性。从词汇表达的内容角度出发，人但从暴力词汇在群组内的占比来看，针对丈夫的暴力
工对词汇进行主题分组，根据划分边界大致可分成三词占比最高，达到９８．６％，其次针对家庭的暴力词占比
· ２１４· 计算机技术与发展第３２卷
为９６．３％，说明网友的暴力攻击点主要集中在男方和说明事件中女子的丈夫是被网民攻击的主要对象。从
家庭，而针对女子的暴力词占比也有４９．６％，说明了虽评论文本中可以看出，网民一致认为他是促使妻子跳
然在整个事件中女方是受害者，但女方绑架子女生命楼的最直接元凶，评论用词激烈极端，遭受的网络暴力
的赴死方式也遭到了众多网友的鄙视。最强。
为了度量不同群组遭受的暴力，运用公式（９）对 ②对家庭的暴力攻击分析：从暴力词占比以及暴
每个群组的暴力密度进行计算，了解不同对象遭受暴力密度对比结果来看，网民另一个攻击对象是女子所
力的强度，三个群组的暴力密度计算结果如图４所示。处的家庭环境。通过对原始语料分析可知，女子独自
带孩子，孩子身体不好，丈夫不仅不给生活费，还遭受
公婆嫌弃，引起了网民的极大愤恨和道德谴责。
1.00
0.85 ③对女方的暴力攻击：虽然女方是受害方，本应该
0.76 受到网民同情，但她以极端的方式剥夺了孩子的生命，
0.75
从性质上来说，她也是杀人犯，展现出了她可怕、冷血
的一面；另外也突出了她自私，懦弱的性格特征。网民
0.50
在同情女子遭受不幸的过程中，同样也对她进行了
0.34
指责。
0.25 （３）暴力用户分析。
用户是网络暴力的发起者，对用户暴力进行分析
0 有助于掌握网络暴力实施的人群分布。具体分析过程
是：首先遍历语料数据库Ｇ，以用户为单位检索出用
图４三个群组网络暴力密度对比户发表的评论文本分词，并与暴力词组集Ｃ对照匹配，
通过群组词汇量整体占比、暴力词在群组内占比找出用户的暴力词组；再根据公式（１０）和（１１）计算用
以及群组词汇的暴力密度等信息，可以对不同对象所户文本的暴力值，然后再用公式（１２）和（１３）计算出用
遭受的网络暴力做如下分析。户的暴力值；最后把用户暴力词组分别与三个群组暴
①对男方的暴力攻击分析：通过图３和图４可知，力词组进行相似度对比，识别出用户暴力攻击的目标，
攻击男方的暴力特征词占比最大，暴力密度也最高。计算结果如表３所示。
表３暴力用户信息表（暴力值Ｔｏｐ４０）
序号ＩＤ暴力语义词组暴力值攻击目标序号ＩＤ暴力语义词组暴力值攻击目标
１Ｕ１２８冷血、永不超生、自私、（不）靠谱０．９４男方／女方２１Ｕ６９嫁错、冷漠、（非常）可恨、寒心０．８０男方／家庭
２Ｕ５６３（不是）东西、渣男、畜生０．９２男方２２Ｕ２６７（没）资格、自私、剥夺０．８０女方
３Ｕ１５报应、去死、（没）责任０．９２男方２３Ｕ７２８（太）自私、（真）狠心、（不能）理解０．７９女方
４Ｕ２６８刽子手、千刀万剐、可恨０．９２男方２４Ｕ３４２无耻、（没）责任心、孤独０．７９男方
５Ｕ３６９万劫不复、畜生、（不是）男人０．９２男方２５Ｕ９４４无能、恐怖、下手０．７９女方
６Ｕ１５７渣男、（很）无情无义、（不）靠谱０．９１男方２６Ｕ８０６死男人、可恨、反省０．７８男方
７Ｕ９７１（太）可恨、天打雷劈、死０．９１男方２７Ｕ７３５无权、自私０．７８女方
８Ｕ８３１老东西、（不是）好鸟０．９１家庭２８Ｕ３２７陪葬、男人、（没有）依靠０．７８男方／家庭
９Ｕ２０６鸟人、恶心、自行了断０．９０男方２９Ｕ４３４无权、残忍、剥夺０．７８女方
１０Ｕ７６３渣男、（没）责任、（不是）男人０．８９男方３０Ｕ２６１（太）冷漠、（非常）可怕０．７７女方
１１Ｕ３０９魔窟、（没）人情味、（不）疼爱０．８８男方／家庭３１Ｕ７９４（非常）可悲、葬送０．７７男方
１２Ｕ５７２（不）珍惜、（不是）男人、人品差０．８６男方３２Ｕ１８５悲哀、（不）靠谱、丢脸０．７７男方
１３Ｕ７２８地狱、枪毙、没用０．８３男方／女方３３Ｕ６７３冷漠、无情、（不）和谐０．７７家庭
１４Ｕ１５５（不是）东西、男人、去死０．８５男方３４Ｕ３３８（太）残忍、掠夺０．７６女方
１５Ｕ４９０嫁错、老不死、（没有）温暖０．８５家庭３５Ｕ５０１（不）可靠、（没）责任０．７６男方
１６Ｕ１００２无耻、人品（差）、丢脸０．８３男方３６Ｕ６５不配、自私、恐怖０．７６女方
１７Ｕ８７６（不是）东西、枉为人父、０．８２男方３７Ｕ８（不）体贴、什么人０．７６男方
１８Ｕ６１８老不死、（没有）温暖、冷血０．８２家庭３８Ｕ９７２刻薄、（没）温暖０．７６家庭
１９Ｕ３９４可怕、恐怖０．８０女方３９Ｕ４１３（无法）想象、（多么）恐怖０．７５女方
２０Ｕ７５８鄙视、啥意义、可悲０．８０男方４０Ｕ６７２（不）和谐、压抑０．７５家庭

第７期刘玉文等：基于文本语义的热点事件网络暴力分析方法 · ２１５·
３．３性能评价ｃａｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２００３，３：９９３
暴力特征词组的筛选是该文的核心，为了验证该－１０２２．
［３］ＧＵＥＮＤＯＵＺＭ，ＡＭＩＮＥＡ，ＨＡＭＯＵＲＭ．Ａｄｉｓｃｒｅｔｅｍｏｄｉｆｉｅｄ
方法的暴力特征识别效果，对实验语料中的负面情感
ｆｉｒｅｗｏｒｋｓａｌｇｏｒｉｔｈｍｆｏｒｃｏｍｍｕｎｉｔｙｄｅｔｅｃｔｉｏｎｉｎｃｏｍｐｌｅｘｎｅｔ⁃
词组和暴力特征词组进行人工标注，并把原始语料库
ｗｏｒｋｓ［Ｊ］．ＡｐｐｌｉｅｄＩｎｔｅｌｌｉｇｅｎｃｅ，２０１７，４６（２）：３７３－３８５．
分成５个数据集，分别用ＴＳＣＡ和ＦＷＣＣ［１５］方法对数
［４］张米，张晖，杨春明，等．基于多特征信息传播模型的
据集的暴力特征进行提取。为了提高人工标注的可信
微博意见领袖挖掘［Ｊ］．中文信息学报，２０１８，３２（２）：１２９－
度和准确性，采用三组标注法，以高分表决的方式标注１３８．
语料中的暴力特征词组，两种方法的评价对比结果如［５］ＲＵＡＮＱ，ＷＵＱ，ＷＡＮＧＹ，ｅｔａｌ．Ｅｆｆｅｃｔｉｖｅｌｅａｒｎｉｎｇｍｏｄｅｌｏｆ
表４所示。ｕｓｅｒｃｌａｓｓｉｆｉｃａｔｉｏｎｂａｓｅｄｏｎｅｎｓｅｍｂｌｅｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｓ［Ｊ］．
表４暴力特征识别性能对比％Ｃｏｍｐｕｔｉｎｇ，２０１８，１０１（６）：５３１－５４５．
［６］ＧＲＡＴＣＨＪ．Ｅｄｉｔｏｒｉａｌ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｆｆｅｃｔｉｖｅ
ＴＳＣＡＦＷＣＣ
数据集Ｃｏｍｐｕｔｉｎｇ，２０１０，１（１）：１－１０．
准确率召回率Ｆ值准确率召回率Ｆ值
［７］ＣＨＡＮＧＹＣ，ＨＳＩＥＨＹＬ，ＣＨＥＮＣＣ，ｅｔａｌ．Ａｓｅｍａｎｔｉｃｆｒａｍｅ－
Ｄ１８６．４９９０．７６８８．５７８５．７１８６．８５８６．２８
ｂａｓｅｄｉｎｔｅｌｌｉｇｅｎｔａｇｅｎｔｆｏｒｔｏｐｉｃｄｅｔｅｃｔｉｏｎ［Ｊ］．ＳｏｆｔＣｏｍｐｕｔｉｎｇ，
Ｄ２８９．２０８８．９５８９．０７８７．２９８４．３１８５．７７２０１７，２１（２）：３９１－４０１．
Ｄ３８５．６１８６．４４８６．０２８９．３７８５．７０８７．５０［８］ＸＩＮＧＹｕｎｆｅｉ，ＷＡＮＧＸｉｗｅｉ，ＷＡＮＧＤｕｏ，ｅｔａｌ．Ｒｅｓｅａｒｃｈｏｎ
Ｄ４９０．０７８７．６２８８．８３８４．９４８６．７８８５．８５ｔｈｅｎｅｇａｔｉｖｅｎｅｔｗｏｒｋｐｕｂｌｉｃｏｐｉｎｉｏｎｍｏｎｉｔｏｒｉｎｇｉｎｄｅｘｓｙｓｔｅｍ
Ｄ５９１．７５９０．１３９０．９３８６．０８８７．１２８６．６０ｂａｓｅｄｏｎｉｎｆｏｒｍａｔｉｏｎｅｎｔｒｏｐｙｉｎｎｅｗｍｅｄｉａｅｎｖｉｒｏｎｍｅｎｔ［Ｊ］．
ＪｏｕｒｎａｌｏｆＭｏｄｅｒｎＩｎｆｏｒｍａｔｉｏｎ，２０１８，３８（９）：４１－４７．
从表４可以看出，在五组语料数据集上，ＴＳＣＡ方
［９］ＹＡＮＧＹａｎｇ，ＷＡＮＧＪｉｅ．Ｔｈｅｅｖｏｌｕｔｉｏｎｏｆｅｍｅｒｇｅｎｃｙｎｅｔｗｏｒｋ
法的暴力特征词组识别性能（Ｆ值）高于ＦＷＣＣ方法，ｐｕｂｌｉｃｏｐｉｎｉｏｎｉｎｆｌｕｅｎｃｅｄｂｙｍｏｔｉｏｎａｌｆａｃｔｏｒｓ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎ
说明ＴＳＣＡ方法达到了良好的文本暴力特征识别Ｓｃｉｅｎｃｅ，２０２０，３８（３）：３５－４１．
效果。［１０］ＳＨＥＮＹｕｎｆｅｎｇ，ＷＡＮＧＹｉｎｇｊｉｅ．Ｋｎｏｗｌｅｄｇｅｍａｐｐｉｎｇｏｆｐｕｂｌｉｃ
ｃｒｉｓｉｓｅｖｅｎｔｓｂａｓｅｄｏｎｉｎｔｅｒｎｅｔｎｅｗｓｃｏｒｐｕｓ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎ
Ｓｃｉｅｎｃｅ，２０２１，３９（１）：７２－８０．
４结束语
运用信息熵理论建立了网络暴力领域情感词典，［１１］鲍玉来，耿雪来，飞龙．基于卷积神经网络的旅游信息关
系抽取研究［Ｊ］．现代情报，２０１９，３９（８）：１３２－１３６．
并以领域情感词典为基础，结合词法分析技术建立了
［１２］梁野，李小元，许航，等．ＣＬＯｐｉｎ：一种面向舆情分析与
基于文本语义的网络暴力分析方法。该方法能从暴力
预警领域的跨语言知识图谱架构［Ｊ］．数据分析与知识发
词和用户两个维度度量热点话题下的网络暴力信息，
现，２０２０，４（６）：１－１４．
拓展了网络暴力识别与分析方法。经过实验，该方法［１３］ＱＩＮＨ，ＦＥＩＱ，ＭＡＸ，ｅｔａｌ．Ａｎｅｗｐａｒａｍｅｔｅｒｒｅｄｕｃｔｉｏｎａｌｇｏ⁃
在多维网络暴力分析方面达到了良好的效果。由于该ｒｉｔｈｍｆｏｒｓｏｆｔｓｅｔｓｂａｓｅｄｏｎｃｈｉ－ｓｑｕａｒｅｔｅｓｔ［Ｊ］．ＡｐｐｌｉｅｄＩｎｔｅｌ⁃
方法中暴力阈值的设定是人工实现的，存在一定的局ｌｉｇｅｎｃｅ，２０２１，５１（１１）：７９６０－７９７２．
限性。如何实现阈值的自动划分是未来需要进一步研［１４］ＰＡＮＧＳｈａｎｃｈｅｎ，ＹＡＯＪｉａｍｉｎ，ＬＩＵＴｉｎｇ，ｅｔａｌ．Ａｔｅｘｔｓｉｍｉｌａｒｉｔｙ
究的方向。ｍｅａｓｕｒｅｍｅｎｔｂａｓｅｄｏｎｓｅｍａｎｔｉｃｆｉｎｇｅｒｐｒｉｎｔｏｆｃｈａｒａｃｔｅｒｉｓｔｉｃ

ｐｈｒａｓｅｓ［Ｊ］．ＣｈｉｎｅｓｅＪｏｕｒｎａｌｏｆＥｌｅｃｔｒｏｎｉｃｓ，２０２０，２９（２）：２３３－
２４１．
参考文献：
［１５］朱晓旭，钱培德．脏话文本语料库建设［Ｊ］．计算机工程与应
［１］端祥宇，袁冠，孟凡荣．动态社区发现方法研究综述［Ｊ］．
用，２０１４，５０（１１）：１２６－１２９．
计算机科学与探索，２０２１，１５（４）：６１２－６３０．
［２］ＢＬＥＩＤＭ，ＮＧＡＹ，ＪＯＲＤＡＮＭＩ，ｅｔａｌ．ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔａｌｌｏ⁃

基于文本语义的热点事件网络暴力分析方法 刘玉文

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于文本语义的热点事件网络暴力分析方法 刘玉文

Uploaded by

Copyright:

Available Formats

第 ３２ 卷 第 ７ 期 计算机技术与发展 Ｖｏｌ．３２ Ｎｏ．７

２０２２ 年 ７ 月 ＣＯＭＰＵＴＥＲ ＴＥＣＨＮＯＬＯＧＹ ＡＮＤ ＤＥＶＥＬＯＰＭＥＮＴ Ｊｕｌ． ２０２２

Ａ Ｔｅｘｔ Ｓｅｍａｎｔｉｃｓ Ｂａｓｅｄ Ａｐｐｒｏａｃｈ ｆｏｒ Ｃｙｂｅｒ Ｖｉｏｌｅｎｃｅ Ａｎａｌｙｓｉｓ ｏｎ

给社会和谐发展带来严峻挑战。 所以，热点事件中网 算，从暴力词和用户两个维度实现对网络暴力的多尺

在公式（５） ～ （７） 中， ｅ 表示否定词出现的次数， Ｖ

ＷＫ ｝ ，暴 力 语 义 词 组 集 ＷＣ ＝ ｛ Ｗ ｃ１ ，Ｗ ｃ２ ，…，Ｗ ｃＫ ｝ ， 且 Ｃｙｂｅｒ ｍｉｎ（ ｕ ｉ ） 表示用户暴力的最小值。

Ｃｙｂｅｒ（ ｄ ｉ ） ＝ ｋ ｋ ∈Ｃ （１０） Ｕ 的大小为 ｜ Ｕ ｜ × ４，其中，第 ｉ 行存放第 ｉ 个用户

其中， Ｃ 表示暴力词组向量。 然后对所有文本的暴力 ｕ ｉ 的相关信息，存放顺序是：第 １ 列存放 ｕ ｉ 的序号，第

值进行归一化处理，计算公式如式（１１） 所示： ２ 列存放 ｕ ｉ 的 ＩＤ，第 ３ 列存放 ｕ ｉ 回复的用户 ＩＤ 串，第

Ｃｙｂｅｒ（ ｄ ｉ ） － Ｃｙｂｅｒ ｍｉｎ（ ｄ ｉ ） ４ 列存放 ｕ ｉ 点赞的用户 ＩＤ 串。 Ｇ 的大小为 ｜ Ｇ ｜ × ［２ ＋

Ｃｙｂｅｒ ｍｉｎ（ ｄ ｉ ） 表示文本暴力的最小值。 表 ｄ ｉ 的用户 ＩＤ，后 Ｎ 列存放 ｄ ｉ 的分词结果。 初始语料

（３） 用户暴力计算。 矩阵准备完毕之后，运用该文提出的方法对语料信息

以，对于用户 ｕ ｉ ，其暴力计算公式如式（１２） 所示： ３．２ 实验结果分析

（２） 暴力多尺度分析。 暴力特征词进行多维尺度统计分析。 根据暴力特征词

共现矩阵。 由于频次的范围变化大，数据分析不方便， Ｐ（ Ａ，Ｂ）

把相异矩阵数据输入到 ＳＰＳＳ 软件中，选择二维分 个群组，每个群组代表一个被网络暴力攻击的实体对

序号 ＩＤ 暴力语义词组 暴力值 攻击目标 序号 ＩＤ 暴力语义词组 暴力值 攻击目标

１ Ｕ １２８ 冷血、永不超生、自私、（ 不） 靠谱 ０．９４ 男方 ／ 女方 ２１ Ｕ ６９ 嫁错、冷漠、（ 非常） 可恨、寒心 ０．８０ 男方 ／ 家庭

２ Ｕ ５６３ （ 不是） 东西、渣男、畜生 ０．９２ 男方 ２２ Ｕ ２６７ （ 没） 资格、自私、剥夺 ０．８０ 女方

３ Ｕ １５ 报应、去死、（ 没） 责任 ０．９２ 男方 ２３ Ｕ ７２８ （ 太） 自私、（ 真） 狠心、（ 不能） 理解 ０．７９ 女方

４ Ｕ ２６８ 刽子手、千刀万剐、可恨 ０．９２ 男方 ２４ Ｕ ３４２ 无耻、（ 没） 责任心、孤独 ０．７９ 男方

５ Ｕ ３６９ 万劫不复、畜生、（ 不是） 男人 ０．９２ 男方 ２５ Ｕ ９４４ 无能、恐怖、下手 ０．７９ 女方

６ Ｕ １５７ 渣男、（ 很） 无情无义、（ 不） 靠谱 ０．９１ 男方 ２６ Ｕ ８０６ 死男人、可恨、反省 ０．７８ 男方

７ Ｕ ９７１ （ 太） 可恨、天打雷劈、死 ０．９１ 男方 ２７ Ｕ ７３５ 无权、自私 ０．７８ 女方

８ Ｕ ８３１ 老东西、（ 不是） 好鸟 ０．９１ 家庭 ２８ Ｕ ３２７ 陪葬、男人、（ 没有） 依靠 ０．７８ 男方 ／ 家庭

９ Ｕ ２０６ 鸟人、恶心、自行了断 ０．９０ 男方 ２９ Ｕ ４３４ 无权、残忍、剥夺 ０．７８ 女方

１０ Ｕ ７６３ 渣男、（ 没） 责任、（ 不是） 男人 ０．８９ 男方 ３０ Ｕ ２６１ （ 太） 冷漠、（ 非常） 可怕 ０．７７ 女方

１１ Ｕ ３０９ 魔窟、（ 没） 人情味、（ 不） 疼爱 ０．８８ 男方 ／ 家庭 ３１ Ｕ ７９４ （ 非常） 可悲、葬送 ０．７７ 男方

１２ Ｕ ５７２ （ 不） 珍惜、（ 不是） 男人、人品差 ０．８６ 男方 ３２ Ｕ １８５ 悲哀、（ 不） 靠谱、丢脸 ０．７７ 男方

１３ Ｕ ７２８ 地狱、枪毙、没用 ０．８３ 男方 ／ 女方 ３３ Ｕ ６７３ 冷漠、无情、（ 不） 和谐 ０．７７ 家庭

１４ Ｕ １５５ （ 不是） 东西、男人、去死 ０．８５ 男方 ３４ Ｕ ３３８ （ 太） 残忍、掠夺 ０．７６ 女方

１５ Ｕ ４９０ 嫁错、老不死、（ 没有） 温暖 ０．８５ 家庭 ３５ Ｕ ５０１ （ 不） 可靠、（ 没） 责任 ０．７６ 男方

１６ Ｕ １００２ 无耻、人品（ 差） 、丢脸 ０．８３ 男方 ３６ Ｕ ６５ 不配、自私、恐怖 ０．７６ 女方

１７ Ｕ ８７６ （ 不是） 东西、枉为人父、 ０．８２ 男方 ３７ Ｕ８ （ 不） 体贴、什么人 ０．７６ 男方

１８ Ｕ ６１８ 老不死、（ 没有） 温暖、冷血 ０．８２ 家庭 ３８ Ｕ ９７２ 刻薄、（ 没） 温暖 ０．７６ 家庭

１９ Ｕ ３９４ 可怕、恐怖 ０．８０ 女方 ３９ Ｕ ４１３ （ 无法） 想象、（ 多么） 恐怖 ０．７５ 女方

２０ Ｕ ７５８ 鄙视、啥意义、可悲 ０．８０ 男方 ４０ Ｕ ６７２ （ 不） 和谐、压抑 ０．７５ 家庭

３．３ 性能评价 ｃａｔｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌ ｏｆ Ｍａｃｈｉｎｅ Ｌｅａｒｎｉｎｇ Ｒｅｓｅａｒｃｈ，２００３，３：９９３

究的方向。 ｍｅａｓｕｒｅｍｅｎｔ ｂａｓｅｄ ｏｎ ｓｅｍａｎｔｉｃ ｆｉｎｇｅｒｐｒｉｎｔ ｏｆ ｃｈａｒａｃｔｅｒｉｓｔｉｃ

You might also like

基于文本语义的热点事件网络暴力分析方法刘玉文

基于文本语义的热点事件网络暴力分析方法刘玉文

第３２卷第７期计算机技术与发展Ｖｏｌ．３２Ｎｏ．７

２０２２年７月ＣＯＭＰＵＴＥＲＴＥＣＨＮＯＬＯＧＹＡＮＤＤＥＶＥＬＯＰＭＥＮＴＪｕｌ．２０２２

ＡＴｅｘｔＳｅｍａｎｔｉｃｓＢａｓｅｄＡｐｐｒｏａｃｈｆｏｒＣｙｂｅｒＶｉｏｌｅｎｃｅＡｎａｌｙｓｉｓｏｎ

给社会和谐发展带来严峻挑战。所以，热点事件中网算，从暴力词和用户两个维度实现对网络暴力的多尺

在公式（５）～（７）中，ｅ表示否定词出现的次数，Ｖ

ＷＫ｝，暴力语义词组集ＷＣ＝｛Ｗｃ１，Ｗｃ２，…，ＷｃＫ｝，且Ｃｙｂｅｒｍｉｎ（ｕｉ）表示用户暴力的最小值。

Ｃｙｂｅｒ（ｄｉ）＝ｋｋ ∈Ｃ（１０）Ｕ的大小为｜Ｕ｜ × ４，其中，第ｉ行存放第ｉ个用户

其中，Ｃ表示暴力词组向量。然后对所有文本的暴力ｕｉ的相关信息，存放顺序是：第１列存放ｕｉ的序号，第

值进行归一化处理，计算公式如式（１１）所示：２列存放ｕｉ的ＩＤ，第３列存放ｕｉ回复的用户ＩＤ串，第

Ｃｙｂｅｒ（ｄｉ）－Ｃｙｂｅｒｍｉｎ（ｄｉ）４列存放ｕｉ点赞的用户ＩＤ串。Ｇ的大小为｜Ｇ｜ × ［２＋

Ｃｙｂｅｒｍｉｎ（ｄｉ）表示文本暴力的最小值。表ｄｉ的用户ＩＤ，后Ｎ列存放ｄｉ的分词结果。初始语料

（３）用户暴力计算。矩阵准备完毕之后，运用该文提出的方法对语料信息

以，对于用户ｕｉ，其暴力计算公式如式（１２）所示：３．２实验结果分析

（２）暴力多尺度分析。暴力特征词进行多维尺度统计分析。根据暴力特征词

共现矩阵。由于频次的范围变化大，数据分析不方便，Ｐ（Ａ，Ｂ）

把相异矩阵数据输入到ＳＰＳＳ软件中，选择二维分个群组，每个群组代表一个被网络暴力攻击的实体对

序号ＩＤ暴力语义词组暴力值攻击目标序号ＩＤ暴力语义词组暴力值攻击目标

１Ｕ１２８冷血、永不超生、自私、（不）靠谱０．９４男方／女方２１Ｕ６９嫁错、冷漠、（非常）可恨、寒心０．８０男方／家庭

２Ｕ５６３（不是）东西、渣男、畜生０．９２男方２２Ｕ２６７（没）资格、自私、剥夺０．８０女方

３Ｕ１５报应、去死、（没）责任０．９２男方２３Ｕ７２８（太）自私、（真）狠心、（不能）理解０．７９女方

４Ｕ２６８刽子手、千刀万剐、可恨０．９２男方２４Ｕ３４２无耻、（没）责任心、孤独０．７９男方

５Ｕ３６９万劫不复、畜生、（不是）男人０．９２男方２５Ｕ９４４无能、恐怖、下手０．７９女方

６Ｕ１５７渣男、（很）无情无义、（不）靠谱０．９１男方２６Ｕ８０６死男人、可恨、反省０．７８男方

７Ｕ９７１（太）可恨、天打雷劈、死０．９１男方２７Ｕ７３５无权、自私０．７８女方

８Ｕ８３１老东西、（不是）好鸟０．９１家庭２８Ｕ３２７陪葬、男人、（没有）依靠０．７８男方／家庭

９Ｕ２０６鸟人、恶心、自行了断０．９０男方２９Ｕ４３４无权、残忍、剥夺０．７８女方

１０Ｕ７６３渣男、（没）责任、（不是）男人０．８９男方３０Ｕ２６１（太）冷漠、（非常）可怕０．７７女方

１１Ｕ３０９魔窟、（没）人情味、（不）疼爱０．８８男方／家庭３１Ｕ７９４（非常）可悲、葬送０．７７男方

１２Ｕ５７２（不）珍惜、（不是）男人、人品差０．８６男方３２Ｕ１８５悲哀、（不）靠谱、丢脸０．７７男方

１３Ｕ７２８地狱、枪毙、没用０．８３男方／女方３３Ｕ６７３冷漠、无情、（不）和谐０．７７家庭

１４Ｕ１５５（不是）东西、男人、去死０．８５男方３４Ｕ３３８（太）残忍、掠夺０．７６女方

１５Ｕ４９０嫁错、老不死、（没有）温暖０．８５家庭３５Ｕ５０１（不）可靠、（没）责任０．７６男方

１６Ｕ１００２无耻、人品（差）、丢脸０．８３男方３６Ｕ６５不配、自私、恐怖０．７６女方

１７Ｕ８７６（不是）东西、枉为人父、０．８２男方３７Ｕ８（不）体贴、什么人０．７６男方

１８Ｕ６１８老不死、（没有）温暖、冷血０．８２家庭３８Ｕ９７２刻薄、（没）温暖０．７６家庭

１９Ｕ３９４可怕、恐怖０．８０女方３９Ｕ４１３（无法）想象、（多么）恐怖０．７５女方

２０Ｕ７５８鄙视、啥意义、可悲０．８０男方４０Ｕ６７２（不）和谐、压抑０．７５家庭

３．３性能评价ｃａｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２００３，３：９９３

究的方向。ｍｅａｓｕｒｅｍｅｎｔｂａｓｅｄｏｎｓｅｍａｎｔｉｃｆｉｎｇｅｒｐｒｉｎｔｏｆｃｈａｒａｃｔｅｒｉｓｔｉｃ