Professional Documents
Culture Documents
基于文本语义的热点事件网络暴力分析方法 刘玉文
基于文本语义的热点事件网络暴力分析方法 刘玉文
基于文本语义的热点事件网络暴力分析方法
刘玉文1 ,翟菊叶1 ,朱文婕1,2 ,谢 静1
(1.蚌埠医学院,安徽 蚌埠 233030;
2.中国科学技术大学 计算机科学与技术学院,安徽 合肥 230027)
摘 要:网络暴力识别与多维度分析对网络舆情态势感知和管控具有十分重要的意义,当前的网络暴力研究主要集中在
用户负面情感分析、舆情危机治理及外部网络生态优化等方面,缺乏对网络暴力的定量分析研究,无法在复杂的网络环境
中及时感知网络暴力发展态势和组成结构。 通过分析网络暴力在文本中的存在形式和结构特征,提出了一种基于文本语
义的网络暴力分析方法( text semantic based approach for cyber violence analysis,TSCA) 。 该方法首先运用互信息理论创建
暴力领域情感词典,根据暴力领域情感词典和语义环境从评论语料库中生成负面情感词组集;然后,通过卡方检验对负面
情感词组集进行暴力特征筛选,生词暴力词组集;最后,从文本和用户角度对网络暴力进行定量计算和多维度分析。 在真
实的网络热点事件评论文本数据集上与其他方法进行了对比,实验结果表明:该方法达到了良好的网络暴力特征识别
效果。
关键词:文本语义;网络暴力;互信息;情感词典;暴力计算
中图分类号:TP391.1 文献标识码:A 文章编号:1673-629X(2022)07-0208-08
doi:10.3969 / j.issn.1673-629X.2022.07.036
LIU Yu -wen 1 ,ZHAI Ju -ye 1 ,ZHU Wen -jie 1,2 ,XIE Jing 1
(1.Bengbu Medical College,Bengbu 233030,China;
2.School of Computer Science and Technology,University of Science and Technology of China,Hefei 230027,China)
Abstract:Cyber violence identification and multidimensional analysis are of great significance to the situation awareness and control of
network public opinion. The current research on cyber violence mainly focuses on the analysis of users’ negative emotions,the govern⁃
ance of public opinion crisis and the optimization of external network ecology,which is unable to sense the development trend and com⁃
position structure of cyber violence in a complex network environment. By analyzing the form and structure of cyber violence in text,a
text semantic based approach for cyber violence analysis ( TSCA) is proposed. Firstly,a violence domain emotion dictionary is created
based on mutual information theory,and a negative emotion phrase set is generated from the comment corpus according to the violence
domain emotion dictionary and semantic environment. Then,through χ 2 test,the violence features set is screened based on the negative e⁃
motion phrase set. Finally,quantitative calculation and multi-dimensional analysis are carried out from the perspective of text and users.
The TSCA approach is compared with other methods on the real text data set of network hot event reviews. The experimental results show
that the proposed approach achieves a better performance on cyber violence feature recognition.
Key words:text semantics;cyber violence;mutual information;emotion dictionary;violence computing
0 引 言 分之一。 网络打破了时间限制,在给人们带来便利的
随着计算机与通讯技术的快速发展,网络朝着终 同时,也给网络暴力提供了滋生环境。 当前,社会热点
端移动化、平台多元化、带宽高速化的方向发展 [1]
。 中 事件是诱发网络暴力的主要因素之一,是因为社会热
国互联网络信息中心( CNNIC) 发布的第 47 次《 中国 点事件具有突发性和聚焦性,能在短时间内吸引网民
互联网络发 展 状 况 统 计 报 告》 显 示: 截 止 2020 年 12 聚集,其所产生的网络暴力威力大,不仅会对当事人的
月,中国网民数量为 9.89 亿,已占全球网民总数的五 心理造成极大的影响,也会极大地破坏网络生态环境,
收稿日期:2021-07-19 修回日期:2021-11-22
基金项目:安徽省哲学社会科学规划项目( AHSKQ2019D070)
作者简介:刘玉文(1982-) ,男,副教授,研究方向为数据挖掘、网络舆情。
第7期 刘玉文等:基于文本语义的热点事件网络暴力分析方法 · 209·
量化方式包括互信息计算、相似度对比。 具有否定的词组结构进行如下规定:
规则 1:否定前缀 + 情感词。
如果正情感词前面有否定前缀,则否定权值为 1;
若负情感词前面有否定前缀,则否定权值为 0.5。
规则 2:否定前缀 + 修饰词。
当情感词前面同时含有否定词和修饰词时,若否
定词在修饰词前,则否定权值为 0.5;若在修饰词后,则
取值为 1。
图1 文本情感分析框架 2.2 领域情感词典建立
评论文本是用户发表意见的载体,文本包含用户
2 基于文本语义的网络暴力分析方法 的情感、态度、行为等特征,文本的情感计算可以转化
( TSCA) 为对语义词组的情感计算 [14] 。 由于在不同的语境下
词汇表达的含义可能会不一样,所以,首先需要依据语
从本质上说,文本暴力分析是情感分析的一个典
义环境创建情感词典,然后,用测试文本的分词与情感
型应用。 由于热点事件的突发性和聚焦性,网民评论
词典进行语义对比,得出测试分词的情感值。 情感词
紧紧围绕着热点事件展开,语言相似性大,领域特性
典由 3 个数据表组成:情感词表 W c 、程度副词表 W v 和
强,用经典的情感词典进行语义对比,情感计算结果准
否定词表 W n 。 情感词表包含 6 个属性:前缀否定词
确度不高。 另外,网络暴力是带有侮辱性的攻击语言,
ID、前缀副词 ID、词项、性质( 褒义或贬义) 、情感值、位
负面情感色彩强烈,但负面情感不一定都是网络暴力,
置;程度副词表包含 3 个属性:词项、强度值和位置;否
如何从负面情感中筛选出暴力特征是网络暴力分析的
定词表也包括 3 个属性:词项、否定值( 否定一般设置
关键。 所以,在网络暴力分析流程中要解决两个核心
为 - 1) 和位置。
问题:(1) 暴力领域情感词典建立;(2) 基于负面情感
(1) 情感词表创建。
特征的网络暴力筛选。
根据当前语料的语义环境,人工筛选出 N 个核心
2.1 文本暴力语义规则
情感种子词。 种子词筛选原则是情感意义非常明确,
情感词典是一种按照文本内词汇之间的逻辑关系
具有代表性,情感极性最强。 首先运用情感种子词建
搭建起来的知识库,它的建立需要遵循文本语义规则。 立原始情感词表,然后用循环的方法依次遍历文本分
文本由句子组成,句子又由词组成。 词是文本的最小 词,当 i = 1 时,把文本 d i 中的新词 w i 与情感词表中的
语义单位,但是词在表达语义的时候,由于缺少前缀修 所有词汇进行语义互信息计算,把互信息最高的词汇
饰词,意义表达往往不明确。 如果单纯的从词的角度 情感值作为新词 w i 的情感值,并填充进情感词表。 依
去挖掘暴力信息,挖掘出的信息可能会不准确。 比如: 次循环,使得每个文本上的分词都会被遍历一次。 以
“ 人渣” 是个暴力词,但如果语境是“ 他不是人渣” ,在 下介绍情感词表的扩充方法。
“ 人渣” 的前面有个否定前缀,那整个语义就不具备暴 设 w n 是 D 中的新词, w i 是情感词表 W c 内的词项,
力,所以,在文本暴力挖掘时,往往词组才是具备有效 w n 的情感值可以通过与 w i 的点间互信息计算得到,计
语义的基本单位。 算公式如式(2) 所示:
从文学角度来说,词组可分成很多种类型,如:主 P( w n ,w i )
PMI( w n ,w i ) = lg (2)
谓词组( 大家帮助) ;动宾词组( 发现问题) ;介宾词组 P( w n ) × P( w i )
(把他打死) ;偏正词组( 崇高的理想) ;否定词组( 不喜 其中, P( w n ,w i ) 表 示 w n 和 w i 在 D 中 共 现 的 概 率,
欢) 。 从这些词组的语义环境来看,能显著对情感进 P( w n ) 和 P( w i ) 分别表示 w n 和 w i 单独出现的概率,
行修饰或改变的只有偏正词组和否定词组。 进一步研 PMI( w n ,w i ) 的取值范围为[0,1] 。 如果 PMI( w n ,w i )
> δ ( δ 表示 w n 和 w i 的相似性阈值) ,则判定 w n 和 w i
究发现,否定词和修饰词的位置在文本语义表示中非
的语义相同。 为了综合判断词汇 w n 的情感倾向,还需
常重要,比如,“ 不很美丽” 和“ 很不美丽” 两者意义截
要在情感词表 W c 上对 w n 进行综合考察,设情感词表
然相反。 另外,正情感词和负情感词前面加否定词时,
W c 正面情感词集合为 W cp ,负面情感词集合为 W cn ,词
语义翻转的程度也不同,如:正情感词“ 好人” 加否定
汇 w n 的综合值计算公式如式(3) 所示:
后得“ 不是好人” ,语义翻转到了好人的对立面,即“ 坏
人” ;而负情感词“ 坏人” 加否定前缀后的“ 不是坏人” ,
∑ PMI( w ,w )
w p∈W cp
n p ∑ PMI( w ,w )
w p∈W cn
n p
S( w n ) = -
语义就不能翻转到“ 好人” ,从语境理解,“ 不是坏人” W cp W cn
只能表明“ 不坏” ,但不能表明是“ 好” 。 因此,该文对 (3)
第7期 刘玉文等:基于文本语义的热点事件网络暴力分析方法 · 211·
从 公 式 ( 3) 可 以 看 出, S( w n ) 的 取 值 范 围 也 是 情感的计算过程如下:首先,依次遍历文本内情感词,
[ - 1,1] ,绝对值越大, w n 的极性越强。 最后判断 w n 在 根据文本中第 n 个分词 w n 所在的位置读取出前缀词,
W c 内是否为新词,如果是新词,则把 w n 直接加入到 W c 并与 w n 连接,组成语义词组 W , W 的情感值计算如公
中,否则对原有词的情感值进行覆盖。 按照上述方法 式(5) 所示:
计算 D 中所有分词,完成对情感词表 W c 的扩充。 对任 S( W) = N( w n ) Adv( w n ) S( w n ) M( w n ) Q( w n ) (5)
意情感词 w n ,若 S( w n ) >0,则 w n 具有正情感倾向;若 其中, N( w n ) 表示 w n 的否定词向量权重; Adv( w n ) 表
S( w n ) = 0,则 w n 具有中性情感倾向;若 S( w n ) < 0,则 示 w n 修饰词向量权重,两个分量可继续分解为公式
w n 具有负情感倾向。 (6) 和公式(7) :
(2) 程度副词表创建。 N( w n ) = ( - 1) e , e ≥0 (6)
∑ Adv( w )
V
程度副词表扩充与情感词表扩充的过程相似,不
Adv( w n ) = i
n (7)
同之处是程度副词的修饰程度取值范围为[ 0,1] 。 为 i=1
用户暴力是用户所发表评论文本的暴力之和,所 进行处理分析。
男人 0.0000 0.9157 0.9039 0.9129 0.9086 0.9079 0.9435 0.9756 0.9231 0.9847 0.9095 0.9479 0.9621 0.9246 0.9085
责任 0.9086 0.0000 0.9821 0.9953 0.9627 0.9845 0.9132 0.9867 0.9365 0.9084 0.9757 0.9315 0.9043 0.9964 0.9352
自私 0.9764 0.9537 0.0000 0.9647 0.946 0.9031 0.9845 0.9279 0.9754 0.9453 0.9253 0.9154 0.9174 0.9632 0.9258
冷血 0.9532 0.9163 0.9325 0.0000 0.9731 0.9427 0.9325 0.9075 0.9473 0.9137 0.9186 0.9068 0.9285 0.9364 0.9735
残忍 0.9086 0.9073 0.9845 0.9326 0.0000 0.9075 0.9537 0.9148 0.9365 0.9243 0.9256 0.9254 0.9194 0.9243 0.9783
可怕 0.9378 0.9481 0.9052 0.9086 0.9648 0.0000 0.9946 0.9364 0.9787 0.9248 0.9398 0.9375 0.9025 0.9089 0.9635
渣男 0.9768 0.9361 0.9237 0.9452 0.9063 0.9352 0.0000 0.9683 0.9875 0.9463 0.9232 0.9368 0.9143 0.9326 0.9243
冷漠 0.9326 0.9748 0.9637 0.9764 0.9374 0.9086 0.9753 0.0000 0.9654 0.9545 0.9365 0.9647 0.9076 0.9647 0.9673
懦弱 0.9352 0.9638 0.9953 0.9235 0.9953 0.9793 0.9536 0.9574 0.0000 0.9623 0.9245 0.9357 0.9265 0.9251 0.9846
可恨 0.9178 0.9073 0.9057 0.9095 0.9235 0.9241 0.9235 0.9834 0.9642 0.0000 0.9287 0.9356 0.9647 0.9354 0.9274
不配 0.9046 0.9628 0.9836 0.9105 0.9968 0.9085 0.9524 0.9643 0.9874 0.9125 0.0000 0.9474 0.9366 0.9034 0.9735
无耻 0.9834 0.9532 0.9053 0.9576 0.9642 0.9734 0.9342 0.9631 0.9352 0.9056 0.9477 0.0000 0.9483 0.9021 0.9243
愤怒 0.9523 0.9238 0.9426 0.9947 0.9658 0.9213 0.9176 0.9432 0.9543 0.9074 0.9065 0.9286 0.0000 0.9241 0.9362
靠谱 0.9749 0.9068 0.9327 0.9042 0.9084 0.9753 0.9186 0.9332 0.9453 0.9143 0.9264 0.9056 0.9274 0.0000 0.9282
嫁错 0.9241 0.9846 0.9740 0.9542 0.9705 0.9895 0.9397 0.9758 0.9231 0.9562 0.9187 0.9024 0.9086 0.9462 0.0000
图3 各群组暴力词占比
从图 3 可以看出,在所有语料词组中,女方群组词
图2 暴力词汇多尺度分析结果 数量的占比为 38.2%,家庭群组词占比为 29.7%,丈夫
从图 2 显示的分析结果来看,词汇之间既有渗透 群组词占比为 32.1%。 网民针对女方发表的网络评论
交叉,又有群组分布的独立性,说明词汇语义反映出了 最多,也从侧面反映出了女方在事件中的主体地位。
明显的主题差异性。 从词汇表达的内容角度出发,人 但从暴力词汇在群组内的占比来看,针对丈夫的暴力
工对词汇进行主题分组,根据划分边界大致可分成三 词占比最高,达到 98.6%,其次针对家庭的暴力词占比
· 214· 计算机技术与发展 第 32 卷
为 96.3%,说明网友的暴力攻击点主要集中在男方和 说明事件中女子的丈夫是被网民攻击的主要对象。 从
家庭,而针对女子的暴力词占比也有 49.6%,说明了虽 评论文本中可以看出,网民一致认为他是促使妻子跳
然在整个事件中女方是受害者,但女方绑架子女生命 楼的最直接元凶,评论用词激烈极端,遭受的网络暴力
的赴死方式也遭到了众多网友的鄙视。 最强。
为了度量不同群组遭受的暴力,运用公式( 9) 对 ②对家庭的暴力攻击分析:从暴力词占比以及暴
每个群组的暴力密度进行计算,了解不同对象遭受暴 力密度对比结果来看,网民另一个攻击对象是女子所
力的强度,三个群组的暴力密度计算结果如图 4 所示。 处的家庭环境。 通过对原始语料分析可知,女子独自
带孩子,孩子身体不好,丈夫不仅不给生活费,还遭受
公婆嫌弃,引起了网民的极大愤恨和道德谴责。
1.00
0.85 ③对女方的暴力攻击:虽然女方是受害方,本应该
0.76 受到网民同情,但她以极端的方式剥夺了孩子的生命,
0.75
从性质上来说,她也是杀人犯,展现出了她可怕、冷血
的一面;另外也突出了她自私,懦弱的性格特征。 网民
0.50
在同情女 子 遭 受 不 幸 的 过 程 中, 同 样 也 对 她 进 行 了
0.34
指责。
0.25 (3) 暴力用户分析。
用户是网络暴力的发起者,对用户暴力进行分析
0 有助于掌握网络暴力实施的人群分布。 具体分析过程
是:首先遍历语料数据库 G ,以用户为单位检索出用
图4 三个群组网络暴力密度对比 户发表的评论文本分词,并与暴力词组集 C 对照匹配,
通过群组词汇量整体占比、暴力词在群组内占比 找出用户的暴力词组;再根据公式(10) 和(11) 计算用
以及群组词汇的暴力密度等信息,可以对不同对象所 户文本的暴力值,然后再用公式(12) 和(13) 计算出用
遭受的网络暴力做如下分析。 户的暴力值;最后把用户暴力词组分别与三个群组暴
①对男方的暴力攻击分析:通过图 3 和图 4 可知, 力词组进行相似度对比,识别出用户暴力攻击的目标,
攻击男方的暴力特征词占比最大, 暴力密度也最高。 计算结果如表 3 所示。
表3 暴力用户信息表( 暴力值 Top 40)
暴力特征词组的筛选是该文的核心,为了验证该 -1022.
[3] GUENDOUZ M,AMINE A,HAMOU R M.A discrete modified
方法的暴力特征识别效果,对实验语料中的负面情感
fireworks algorithm for community detection in complex net⁃
词组和暴力特征词组进行人工标注,并把原始语料库
works[ J] .Applied Intelligence,2017,46(2) :373-385.
分成 5 个数据集,分别用 TSCA 和 FWCC [15] 方法对数
[4] 张 米,张 晖,杨春明,等. 基于多特征信息传播模型的
据集的暴力特征进行提取。 为了提高人工标注的可信
微博意见领袖挖掘[ J] .中文信息学报,2018,32( 2) :129-
度和准确性,采用三组标注法,以高分表决的方式标注 138.
语料中的暴力特征词组,两种方法的评价对比结果如 [5] RUAN Q,WU Q,WANG Y,et al. Effective learning model of
表 4 所示。 user classification based on ensemble learning algorithms[ J].
表4 暴力特征识别性能对比 % Computing,2018,101(6):531-545.
[6] GRATCH J. Editorial [ J] . IEEE Transactions on Affective
TSCA FWCC
数据集 Computing,2010,1(1) :1-10.
准确率 召回率 F值 准确率 召回率 F值
[7] CHANG Y C,HSIEH Y L,CHEN C C,et al.A semantic frame-
D1 86.49 90.76 88.57 85.71 86.85 86.28
based intelligent agent for topic detection[ J] .Soft Computing,
D2 89.20 88.95 89.07 87.29 84.31 85.77 2017,21(2) :391-401.
D3 85.61 86.44 86.02 89.37 85.70 87.50 [8] XING Yunfei,WANG Xiwei,WANG Duo,et al. Research on
D4 90.07 87.62 88.83 84.94 86.78 85.85 the negative network public opinion monitoring index system
D5 91.75 90.13 90.93 86.08 87.12 86.60 based on information entropy in new media environment[ J].
Journal of Modern Information,2018,38(9) :41-47.
从表 4 可以看出,在五组语料数据集上,TSCA 方
[9] YANG Yang,WANG Jie. The evolution of emergency network
法的暴力特征词组识别性能( F 值) 高于 FWCC 方法, public opinion influenced by motional factors[ J] . Information
说明 TSCA 方 法 达 到 了 良 好 的 文 本 暴 力 特 征 识 别 Science,2020,38(3):35-41.
效果。 [10] SHEN Yunfeng,WANG Yingjie.Knowledge mapping of public
crisis events based on internet news corpus [ J]. Information
Science,2021,39(1):72-80.
4 结束语
运用信息熵理论建立了网络暴力领域情感词典, [11] 鲍玉来,耿雪来,飞 龙.基于卷积神经网络的旅游信息关
系抽取研究[J].现代情报,2019,39(8):132-136.
并以领域情感词典为基础,结合词法分析技术建立了
[12] 梁 野,李小元,许 航,等.CLOpin:一种面向舆情分析与
基于文本语义的网络暴力分析方法。 该方法能从暴力
预警领域的跨语言知识图谱架构[ J] . 数据分析与知识发
词和用户两个维度度量热点话题下的网络暴力信息,
现,2020,4(6) :1-14.
拓展了网络暴力识别与分析方法。 经过实验,该方法 [13] QIN H,FEI Q,MA X,et al. A new parameter reduction algo⁃
在多维网络暴力分析方面达到了良好的效果。 由于该 rithm for soft sets based on chi-square test[J].Applied Intel⁃
方法中暴力阈值的设定是人工实现的,存在一定的局 ligence,2021,51(11) :7960-7972.
限性。 如何实现阈值的自动划分是未来需要进一步研 [ 14] PANG Shanchen,YAO Jiamin,LIU Ting,et al.A text similarity