Detecting Rumors From Microblogs With Recurrent Neural Networks

Detecting rumors from microblogs with recurrent
neural networks
Publication Author
Proceedings of the 25th Jing MA, Wei GAO, Prasenjit
International Joint MITRA, Sejeong KWON, Bernard
Conference on Artificial J. JANSEN, Kam-Fai WONG, and
Intelligence (IJCAI 2016) Meeyoung CHA
Publication Date
2016-7
汇报人：刘宇聪黎欣雨
摘要
微博平台对于散布谣言是一个理想的平台，而如何能够实现自动的揭穿这些谣言是一个重要的问题。
为了检测谣言，现有的机器学习的方法，需要依靠手工制作大量的特征，这样会耗费巨大的人力成本。
当人们遇到一个可疑的说法，他们会随着时间的推移发布各种线索来质疑它的真实性，随着时间的推
移，各种线索会产生证据的远距离依赖性。这篇论文提出了一种新的方法，这种新方法能够通过学习
随着时间连续的微博事件进而识别谣言。
所提出的模型基于循环神经网络 RNN ，是通过捕捉相关帖子的上下文信息随时间变化的表示来学习

其中的隐藏的信息。
通过将模型实验在微博和推特数据集上证明了下面的结论：
（ 1 ） RNN 方法优于使用手工制作特征的最先进的谣言检测模型。
（ 2 ）基于 RNN 的算法性能更进一步通过复杂的循环单元和额外的隐藏层进行改进。
（ 3 ）基于 RNN 的方法检测谣言比现有的方法更快更准确。
01 介绍
I n t ro d u c t i o n
02 循环神经网络
R e c u r re n t N e u r a l N e t w o r k
目录 03 基于 RNN 的谣言检测
Rumor detection based on RNN
CONTENTS
04 实验结果
E x p e r i m e n t s re s u l t s
05 总结
Conclusion
01 介绍
INTRODUCTION
介绍
1.1 谣言
谣言具有破坏性，因为它们会引起公众恐慌和社会动荡。
例如 2015 年 8 月 25 日，有关“韦拉克鲁斯州学校附近发生贩毒团伙枪
击和绑架事件”的谣言通过 Twitter 和 Facebook 传播。这造成了严重的
城市混乱涉及 26 起车祸，因为人们慌张的离开车冲进学校接他们的孩子。
这起虚假谣言事件凸显了自动预测社交媒体信息的真实性的模型具有很高
的实用价值。在传播的早期阶段揭穿谣言对于最大限度地减少其有害影响
尤为重要。
介绍
1.2 过去的谣言检测模型
现有的使用学习算法的谣言检测模型需要大量手工制作的特征，
包括帖子的内容、用户特征和传播模式等，或者有的只是简单的
利用表达的模式，用常用的表达来发现推特中的谣言。过去的模
型使用的特征工程也常常有明显的缺陷，例如下面一个模型。
介绍
1.2 过去的谣言检测模型
图 1 ：一些浅层的谣言表示模式图，横轴是事件的时间线（从最初的推文开始的小时
数）其中形状的大小是相应词汇出现的相对频率的强度
图 1 中的系列图描绘了典型的浅层模式虽然他们可以展示谣言和非谣言事件的
时间特征，但这个特征工程中，两种情况的区别信息既不明确也不强大。
介绍
1.3 循环神经网络
• 社交媒体中文本流具有顺序性
• 单元之间的联系能够在 RNN 中形成一个直接的循环，并创建一个

内部的网络状态使它能够捕捉谣言的时间信号特征
利用 RNN 在有监督的情况下学习时间和文本表示，把一个事件的
社会内容信息作为一个不定长度的事件序列。假设人们在接触谣言
声明时会转发声明或对其发表评论，从而创建连续的帖子流。
介绍
1.4 循环神经网络
利用 RNN ，把一个事件的社会内容信息作为一个不定长度的事件
序列。假设人们在接触谣言声明时会转发声明或对其发表评论，从
而创建连续的帖子流。这种方法在有监督的情况下学习时间和文本
表示。
02
循环神经网络
Recurrent Neural Network
循环神经网络
2.1 循环神经网络 RNN
RNN 是一种前馈神经网络，可用于对可变长度的序列信息进行建
模，例如句子或时间序列。
一个基本的 RNN 结构如下：
输入序列 (x1, ...... , xT ),
对于每一个时间步，模型更新的隐藏状态 (h1,......,ht)
产生的输出矩阵 (o1,......, oT )
其中 T 取决于输入的长度
从 t = 1 到 T 算法迭代以下方程：
ht = tanh(Uxt + Wht−1 + b)
ot = V h t + c
其中 U 、 W 和 V 分别是输入层到隐藏层、隐藏层到隐藏层和隐藏层到输出层的权重矩阵
b 和 c 是偏置向量， tanh() 是双曲线切线非线性函数。
循环神经网络
2.1 循环神经网络 RNN
通常， RNN 的梯度是通过时间反向传播计算的。在实践中，由于
消失或爆炸梯度，基本的 RNN 不能使用基于梯度的优化去学习
长
距离时间依赖性的数据。解决这个问题的一种方法是制作一个在很
长一段时间内存储信息的记忆单元的扩展，通常称为长短期记忆
(LSTM) 单元和门控循环单位 (GRU) 。
循环神经网络
2.2 长短期记忆网络 (LSTM)
它在每个时间步的覆盖状态与传统的 RNN 不同，一个 LSTM 单元
在时间 t 维持一个记忆单元 ct 。一个 LSTM 单元的输出 ht 由以下等式计算：
it = σ(xtWi + ht−1Ui + ct−1Vi)
ft = σ(xtWf + ht−1Uf + ct−1Vf)
c~t = tanh(xtWc + ht−1Uc)
ct = ft ct−1 + itc~t
ot = σ(xtWo + ht−1Uo + ctVo)
ht = ottanh(ct)
其中 σ 是一个 sigmoid 函数，输入门 it 确定添加新记忆的范围到记忆单元，
遗忘门 ft 决定现有的记忆需要遗忘的范围，记忆 ct 的更新是通过遗忘部分
过去存在的记忆，和添加新的记忆 c~t ，输出门 ot 是输出的记忆。
循环神经网络
2.3 门控循环网络（ GRU ）
与 LSTM 单元类似， GRU 具有门控单元来控制单元内的内容流。以下等
式用于 GRU 层：
zt = σ(xtUz + ht−1Wz)
rt = σ(xtUr + ht−1Wr)
h~t = tanh(xtHh + ht−1rtWh)
ht = (1 − zt)ht−1 + zth~t
其中重置门 rt 允许我们控制“可能还想记住”的过去状态的数量，和一个更新门 zt 将允许我们控制新状态中有多少个是旧状
态的副本， h~t 表示候选隐状态。
03 基于 RNN 的谣言检测
Rumor detection based on RNN
基于 RNN 的谣言检测
3.1 时间序列
上述说明了基于 RNN 的模型将微博事件分类为谣言和非谣言的细

节。首先，我们引入一种将微博帖子的传入流转换为连续变
长时间序列的方法，以及然后描述具有不同类型隐藏单元的
RNN 。
3.2 问题陈述
基于事件的谣言检测（单个微博帖子都很短，上下文非常有限。
所以将事件相关的帖子作为一个整体）
事件集 E={ Ei } ， Ei= { (mi,j,ti,j) } ，事件 Ei 由时间戳 ti,j 内的帖子

mi,j 和时间戳 ti,j 组成
任务是对每个事件进行分类，判断它是否为谣言。
3.3 可变长的时间序列
为了妥善处理短时间内密集的帖子序列，本文将与同一事件相关的
一批帖子构成一个时间间隔中的基本单元，并将它作为一个时间序
列中的一个输入单元，然后使用 RNN 进行序列建模。
3.3 可变长的时间序列
时间动态序列算法：
1. 将整个事件线均分为 N 个 internal ，形成初始集合 U0 ；
　 2. 遍历 U0 ，删除没有包含帖子的 internal ，形成 U1 ；
　 3. 从 U1 中选出总时间跨度最长的连续 internal ，形成集合
U2 （找到一个最长的时间序列）；
　 4. 如果 U2 中 internal 的数量小于 N 且大于之前一轮，将
internal 减半，返回步骤 1 ，继续分区（使最终 internal 数量接近
N ）；
　 5. 否则，返回该总时间跨度最长的连续 internal 集合 U2 。
3.4 模型结构
在上面构建的时间序列中，对于每一个时间间隔，我们用在这个时
间间隔里的词汇构建的 tf * idf 值作为输入。我们开发了三种不同
的
RNN 结构。请注意，输出单元是与最后一个时间步相关联，它用
softmax 作为两个类的概率输出。
3.4 模型结构
他们的模型的网络模型如图 2 。除了 tanh-RNN 都有一个嵌入层
将单词的原始表示编码为向量，将稀疏的输入词向量转换为低维
度的表达，然后是 LSTM 或 GRU 层。走后通过这些层，有一个
全连接层输出结果。
图2
3.5 tanh-RNN
tanh-RNN 是基本结构，其中隐藏的单元没有门控。因此，它跨越时间间隔
捕获上下文的方式非常有限。
gc ，其中 c 表示类标签，是表示事件真实性的二维多项式分布，在这里谣言
的分布为 [1, 0], 非谣言的分布形势为 [0, 1] 。对于每个训练实例（即每个事
件），我们的目标是最小化预测的概率分布和真实情况之间的平方误差。
其中 gc 和 pc 是真实情况和预测分布。
θ i 代表模型参数。
3.6 单层的 LSTM 和 GRU
长距离依赖对于捕捉谣言的模式和事件生命周期隐藏的信号十分重
要。我们将 RNN 单元修改为 LSTM 和 GRU 单元。门控单元不仅保
留当前时间步的内容，还注入了其先前事件步的相互依赖的数据。
但参数规模明显扩大因为有门控单元。例如，由于引入了重置门和
更新门， GRU 将原始参数空间增加了三倍。为了降低复杂度，我
们在输入和输入之间添加了一个嵌入层（固定长度为 100 ），使
参数的整体规模变为小多了。包括嵌入层转换将输入词向量变为低
维表示。
3.7 多层的 GRU
我们进一步开发了多层 GRU ，通过添加第二个 GRU 层捕获不同时间步之间的更高级
别的特征关联。
它的嵌入层公式为：
xe = xtE
第一个 GRU 层公式为：第二个 GRU 层公式为：
其中 E 是词嵌入权重矩阵， (U (1), W (1)) 和 (U (2), W (2)) 是 GRU 内部的权重连接分

别用于第一和第二隐藏层的单元。
3.8 数据集
我们使用 Twitter (www.twitter.com) 和新浪微博 (weibo.com) 。

对于 Twitter 数据，对于 Twitter 数据，我们获取了来自 www.snopes.com 这个在线谣言
揭穿服务的谣言和非谣言。我们在 2015 年 3 月至 12 月期间获得了 778 个报告的事件，
其中 64% 是谣言。推特数据集包含 498 个谣言和 494 个非谣言。
对于微博数据，我们从新浪社区管理中心获取信息，微博 API 可以捕获一个事件原始消息
及其所有转发 / 回复消息。结果数据集包含 2,313 个谣言和 2,351 个非谣言，如表所示
3.9 实验
该实验使用 Weka4 实现 DTC 和 RFC ，使用 LibSVM5 实现 SVM 模型，
使用 Theano6 实现 RNN 模型。在每个数据集中保留 10% 的事件用于
模型调整，其余事件以 3:1 的比例分割用于训练和测试。
通过利用损失的反向传播对所有参数的导数来训练所有 RNN 模型，

使用 AdaGrad 算法进行参数更新。词汇大小 K 设为 5000 ，嵌入向量
大小设为 100 ，隐藏单元大小设为 100 ，学习率设为 0.5 。
评估指标使用了准确性、精密度、召回率和 F- 测度作为评估指标。

根据经验， N 设置为 50 。
04 实验结果
Experiments results
实验结果
4.1 实验结果
表中显示了所有系统的性能。论文的模型在两个数据集上都优于 baseline 。这最简单的 RNN 模型 tanh-

RNN ，准确率在推特上达到了 82.7% 和在微博达到了 87.3% 。这一结果表明，基本的 RNN 可以有效地
学习判别征。
这个结果意味着门控单元可以捕获信号之间的长距离依赖关系，这些依赖关系可能在
于在任何时间步。 GRU-1 和 LSTM-1 表现良好； GRU-1 稍微好一点。
实验结果
4.1 实验结果
该图展示了基于 rnn 方法的学习曲线。在这两个数据集中， GRU 和 LSTM 比 tanh-RNN 收敛更快，损失

更小。
实验结果
4.2 在早期检测上的表现
对于早期检测的实验，设置了一个截止时间，所有的帖子在截止时
间后将会变得不可见，并且用谣言的平均官方报告时间作为参考线
显示了论文的模型在不同期限内与 SVMTS 和 DT-Rank （一种早期检测特定算法）的

准确性。在里面最初几个小时，基于 RNN 的方法的准确性爬得更快，稳定得更快，
表明我们的方法具有优越的早期检测性能。特别是， GRU-2 可以以 83.9% 的准确率
检测谣言推特和微博在 12 小时内达到 89.0% 。
实验结果
4.3 实验分析
进一步的分析表明，RNN 正确检测为谣言的事件展示了表明谣言的复杂信
号。表 3 给出了一个被发现的关于“奥巴马编制秘密种族数据库”的谣言，
从中我们可以观察到质疑和拒绝信号（下划线）。这些指标可以由 RNN
学习，而它们很难事先准确地手工制作。
05 总结
Conclusion
总结
大多数现有的社交媒体谣言检测工作都集中在手动提取特征或规则上。在
这项研究中，我们提出了一个深度学习框架来进行谣言检测。
我们的方法通过利用与每个事件相关的不同时间间隔的聚合信息的变化来
学习 RNN 模型。使用了三个基于 RNN 具有三个广泛使用的循环单元的方法，
tanh ， LSTM 和 GRU ，其性能明显优于最先进的技术。为了进一步改进，添
加了多个隐藏层和嵌入层。仍有提升空间方法。为了更好地了解深度学习
如何帮助谣言检测，需要更彻底的实验。
此外，还可以开发无监督的模型用于处理社交媒体的大量未标记数据。
汇报完毕，谢谢观看 !

Detecting Rumors From Microblogs With Recurrent Neural Networks

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Detecting Rumors From Microblogs With Recurrent Neural Networks

Uploaded by

Copyright:

Available Formats

Detecting rumors from microblogs with recurrent

所提出的模型基于循环神经网络 RNN ，是通过捕捉相关帖子的上下文信息随时间变化的表示来学习

• 单元之间的联系能够在 RNN 中形成一个直接的循环，并创建一个

上述说明了基于 RNN 的模型将微博事件分类为谣言和非谣言的细

事件集 E={ Ei } ， Ei= { (mi,j,ti,j) } ，事件 Ei 由时间戳 ti,j 内的帖子

其中 E 是词嵌入权重矩阵， (U (1), W (1)) 和 (U (2), W (2)) 是 GRU 内部的权重连接分

我们使用 Twitter (www.twitter.com) 和新浪微博 (weibo.com) 。

通过利用损失的反向传播对所有参数的导数来训练所有 RNN 模型，

评估指标使用了准确性、精密度、召回率和 F- 测度作为评估指标。

表中显示了所有系统的性能。论文的模型在两个数据集上都优于 baseline 。这最简单的 RNN 模型 tanh-

该图展示了基于 rnn 方法的学习曲线。在这两个数据集中， GRU 和 LSTM 比 tanh-RNN 收敛更快，损失

显示了论文的模型在不同期限内与 SVMTS 和 DT-Rank （一种早期检测特定算法）的

You might also like

Detecting Rumors From Microblogs With Recurrent Neural Networks

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Detecting Rumors From Microblogs With Recurrent Neural Networks

Uploaded by

Copyright:

Available Formats

Detecting rumors from microblogs with recurrent

所提出的模型基于循环神经网络 RNN ，是通过捕捉相关帖子的上下文信息随时间变化的表示来学习

• 单元之间的联系能够在 RNN 中形成一个直接的循环，并创建一个

上述说明了基于 RNN 的模型将微博事件分类为谣言和非谣言的细

事件集 E={ Ei } ， Ei= { (mi,j,ti,j) } ，事件 Ei 由时间戳 ti,j 内的帖子

其中 E 是词嵌入权重矩阵， (U (1), W (1)) 和 (U (2), W (2)) 是 GRU 内部的权重连接分

我们使用 Twitter (www.twitter.com) 和新浪微博 (weibo.com) 。

通过利用损失的反向传播对所有参数的导数来训练所有 RNN 模型，

评估指标使用了准确性、 精密度 、 召回率和 F- 测度作为评估指标。

表 中 显示了所有系统的性能。论文的模型在两个数据集上都优于 baseline 。这最简单的 RNN 模型 tanh-

该图展示了基于 rnn 方法的学习曲线。在这两个数据集中， GRU 和 LSTM 比 tanh-RNN 收敛更快，损失

显示了论文的模型在不同期限内与 SVMTS 和 DT-Rank （一种早期检测特定算法）的

You might also like

评估指标使用了准确性、精密度、召回率和 F- 测度作为评估指标。

表中显示了所有系统的性能。论文的模型在两个数据集上都优于 baseline 。这最简单的 RNN 模型 tanh-