文章

如何用大数据调查社交媒体谣言

作者蒋鸿昌 • 2016年02月25日

社交媒体上的谣言总是让人猝不及防，有些甚至能在短时间造成不小的危害。比如，几天前（注：1月初），微信怎么也不会想到，因为一个年终回顾的HTML5页面被提前泄露，带来大量用户点击导致服务器瘫痪，然后引发了盗号的谣言。最后的结果是，短短的几个小时内，数百万人从微信提现，解绑银行卡。

社交媒体上都流传着哪些谣言？这些谣言都是谁发布的？为什么会有人相信并主动参与传播这些谣言？社交网络上的信息是海量的，这些问题似乎很难回答。不过最近，清华大学智能技术与系统国家重点实验室的研究人员借用了自然语言处理的帮助，对新浪微博上的谣言大数据进行了全面的分析，试图找出答案。

2012年5月，新浪微博设立了举报处理大厅，谣言占了不良信息中的一大部分。研究人员利用微博举报大厅公布的实时数据收集谣言信息。

他们收集了从2011年8月到2015年5月期间出现的9079条谣言，用函数模型对这些数据进行了预处理，发现了一些有趣的现象。

大部分微博谣言会在其发布的一个周内被举报并辟谣

第一，大多数微博谣言的影响力都比较小，转发和评论数在500次以下的微博占到整体的84%。只有极少量的微博谣言具有极广的传播范围和强大的影响力。

第二，谣言通常要传播一段时间后，才有可能遭到举报；同时, 由于传播速度快，大部分微博谣言会在其发布的一个周内被举报并辟谣 (88.9%)。

第三，大量举报谣言的用户，所举报的谣言往往与自己相关. 例如, 微博用户 “美汁源饮料” 举报了大量关于 “美汁源果粒橙” 饮料含有农药的谣言, 张家界纪委书记汪业元举报了大量关于 “汪业元发表 ‘对网络暴民杀无赦’ 的言论” 的谣言。

第四，大量发布谣言的用户，往往带有网络水军的性质，例如，有微博用户仅在几分钟的时间里发布了几十条微博, 其中大部分是谣言, 之后该用户就再未发过微博。

常识类谣言经常反复出现转发高峰

研究人员还根据谣言内容将其分成了5个分类：

政治类谣言，例如钓鱼岛海域中日两国爆发海战；
经济类谣言，例如三星赔偿苹果几十车硬币；
欺诈类谣言，例如“四川藏区儿童需要御寒冬衣”，然后留下了一个虚假的联系电话；
社会生活类谣言，社会各界人物的花边新闻，例如六小龄童去世；
常识类谣言，例如阿司匹林能治疗心脏病。

gossip

这些谣言中，大部分属于社会生活类和政治类谣言 (约占70%)。而结合微博谣言发布、传播、高峰和消亡的过程还可以发现，不同的谣言出线转发峰值的情况也各部相同。

70%的谣言话题只有一个较大转发峰值，也就是说，被辟谣后，它们就会逐渐消亡。

另外，谣言的内容也和其转发峰值有关系：例如，常识类谣言由于受众广，辟谣难度较大，往往会反复被人们提及，出现多次爆发，约70%的常识类谣言通常有多个转发峰值。而关于名人或知名机构的谣言，由于关注人数众多，辟谣难度较小，因此发布之初就会出现较大转发峰值，但很快会被辟谣，约60%的此类谣言会在一个周内消亡。

人们为什么相信谣言

人们为什么会相信这些谣言呢？研究人员分析后将原因归结为两类：（1）知识受限，即缺乏专业知识而导致误信或无法辨认的谣言。例如，阿司匹林可以治疗急性心脏病；

（2）时空受限谣言，即由于地域和时间限制无法辨认的谣言。例如, 有谣言称 “杭州上城区一妇女喝了3罐可乐，两天后离开了这个世界。验尸结果是她死于细螺旋体病, 发病原因是直接用嘴对可乐罐饮用”。

自动辟谣框架

在对谣言进行分析之后，研究人员还试图建立一个自动辟谣机制。当然，在目前的技术条件下，自然语言处理技术还无法根据微博内容自动判断其是否为谣言。所以，研究人员的思路通过语义分析，自动根据谣言主题对其进行分类，然后发现最有可能判定该谣言的专家，推荐专家对疑似谣言进行鉴别。

研究人员的框架主要包括3个阶段的工作：

30311067 1. 谣言发布早期，通过用户举报和对可疑用户的监控建立疑似谣言的集合。一方面，将疑似谣言和谣言库中进行比对；另一方面, 对于在谣言库中没有匹配内容的谣言，通过查询该领域的专家库，推荐若干专家对该疑似谣言进行鉴别。

2. 谣言发布中期，通过自然语言处理技术分析疑似谣言的评论信息，通过社会网络分析技术分析疑似谣言的传播模式，判定该信息是否为谣言。

3. 谣言发布后期，对于判定为谣言的信息, 将其加入谣言库；对信息发布人进行可信性分析，确定其信用等级，将信用等级低于一定阈值的用户加入可疑用户库，在一段时间内对其发布的微博内容进行监控；对信息举报人和评论人进行专家发现，充实和更新该信息相关的知识领域的专家库。

当然，目前这一切还处于理论研究阶段，而建立可以用户库也需要以网站更严格地执行实名制为前提。用大数据、人工智能去对付谣言，前提是需要很多人交出更多的隐私，你愿意吗？

以上文章引用自论文《中文社交媒体谣言统计语义分析》
更多详情请阅原文：刘知远, 张乐, 涂存超, 孙茂松. 中文社交媒体谣言统计语义分析. 中国科学信息科学, 2015, 45(12): 1536-1546.

因为盗号谣言，1月10日晚有上百万人从微信提现、解绑银行卡
点击此处，可以了解更多

全球深度报道网经授权转载自PingWest中文网（微博ID：wepingwest）
作者：蒋鸿昌
微信原文：《清华大学用大数据分析了9000条微博谣言，还在自动辟谣》

深度网编辑/周炜乐

本作品采用知识共享许可协议署名-禁止演绎 4.0 国际进行许可

您可以根据知识共享协议条款免费转载这篇文章

阅读相关主题的文章：

PingWest 微博清华大学社交媒体网络暴力网络骗局谣言

转载

This work is licensed under a Creative Commons Attribution-NoDerivatives 4.0 International License

<h2>如何用大数据调查社交媒体谣言</h2> 作者 蒋鸿昌 for Global Investigative Journalism Network &bull; 2016年02月25日 社交媒体上的谣言总是让人猝不及防，有些甚至能在短时间造成不小的危害。比如，几天前（注：1月初），微信怎么也不会想到，因为一个年终回顾的HTML5页面被提前泄露，带来大量用户点击导致服务器瘫痪，然后引发了盗号的谣言。最后的结果是，短短的几个小时内，数百万人从微信提现，解绑银行卡。社交媒体上都流传着哪些谣言？这些谣言都是谁发布的？为什么会有人相信并主动参与传播这些谣言？社交网络上的信息是海量的，这些问题似乎很难回答。不过最近，清华大学智能技术与系统国家重点实验室的研究人员借用了自然语言处理的帮助，对新浪微博上的谣言大数据进行了全面的分析，试图找出答案。2012年5月，新浪微博设立了举报处理大厅，谣言占了不良信息中的一大部分。研究人员利用微博举报大厅公布的实时数据收集谣言信息。<img class=" wp-image-6090 aligncenter" src="https://cn.gijn.org/wp-content/uploads/2016/02/1-5-771x457.png" alt="1" width="473" height="280">他们收集了从2011年8月到2015年5月期间出现的9079条谣言，用函数模型对这些数据进行了预处理，发现了一些有趣的现象。大部分微博谣言会在其发布的一个周内被举报并辟谣第一，大多数微博谣言的影响力都比较小，转发和评论数在500次以下的微博占到整体的84%。只有极少量的微博谣言具有极广的传播范围和强大的影响力 。第二，谣言通常要传播一段时间后，才有可能遭到举报；同时, 由于传播速度快，大部分微博谣言会在其发布的一个周内被举报并辟谣 (88.9%)。<img class=" wp-image-6091 aligncenter" src="https://cn.gijn.org/wp-content/uploads/2016/02/2-3-771x708.png" alt="2" width="427" height="393">第三，大量举报谣言的用户，所举报的谣言往往与自己相关. 例如, 微博用户 &ldquo;美汁源饮料&rdquo; 举报了 大量关于 &ldquo;美汁源果粒橙&rdquo; 饮料含有农药的谣言, 张家界纪委书记汪业元举报了大量关于 &ldquo;汪业元发表 &lsquo;对网络暴民杀无赦&rsquo; 的言论&rdquo; 的谣言。第四，大量发布谣言的用户，往往带有网络水军的性质，例如，有微博用户仅在几分钟的时间里发布了几十条微博, 其中大部分是谣言, 之后该用户就再未发过微博。常识类谣言经常反复出现转发高峰研究人员还根据谣言内容将其分成了5个分类：政治类谣言，例如钓鱼岛海域中日两国爆发海战； 
经济类谣言，例如三星赔偿苹果几十车硬币； 
欺诈类谣言，例如&ldquo;四川藏区儿童需要御寒冬衣&rdquo;，然后留下了一个虚假的联系电话； 
社会生活类谣言，社会各界人物的花边新闻，例如六小龄童去世； 
常识类谣言，例如阿司匹林能治疗心脏病。<img class="wp-image-6092 alignleft" src="https://zh.gijn.org/wp-content/uploads/2016/02/gossip.jpg" alt="gossip" width="309" height="220">这些谣言中，大部分属于社会生活类和政治类谣言 (约占70%)。而结合微博谣言发布、传播、高峰和消亡的过程还可以发现，不同的谣言出线转发峰值的情况也各部相同。70%的谣言话题只有一个较大转发峰值，也就是说，被辟谣后，它们就会逐渐消亡。另外，谣言的内容也和其转发峰值有关系：例如，常识类谣言由于受众广，辟谣难度较大，往往会反复被人们提及，出现多次爆发，约70%的常识类谣言通常有多个转发峰值。而关于名人或知名机构的谣言，由于关注人数众多，辟谣难度较小，因此发布之初就会出现较大转发峰值，但很快会被辟谣，约60%的此类谣言会在一个周内消亡。人们为什么相信谣言人们为什么会相信这些谣言呢？研究人员分析后将原因归结为两类：（1）知识受限，即缺乏专业知识而导致误信或无法辨认的谣言。例如，阿司匹林可以治疗急性心脏病；（2）时空受限谣言，即由于地域和时间限制无法辨认的谣言。例如, 有谣言称 &ldquo;杭州上城区一妇女喝了3罐可乐，两天后离开了这个世界。验尸结果是她死于细螺旋体病, 发病原因是直接用嘴对可乐罐饮用&rdquo;。自动辟谣框架在对谣言进行分析之后，研究人员还试图建立一个自动辟谣机制。当然，在目前的技术条件下，自然语言处理技术还无法根据微博内容自动判断其是否为谣言。所以，研究人员的思路通过语义分析，自动根据谣言主题对其进行分类，然后发现最有可能判定该谣言的专家，推荐专家对疑似谣言进行鉴别。研究人员的框架主要包括3个阶段的工作：<img class="alignright wp-image-6095" src="https://zh.gijn.org/wp-content/uploads/2016/02/30311067.jpg" alt="30311067" width="260" height="260">1. 谣言发布早期，通过用户举报和对可疑用户的监控建立疑似谣言的集合。一方面，将疑似谣言和谣言库中进行比对；另一方面, 对于在谣言库中没有匹配内容的谣言，通过查询该领域的专家库，推荐若干专家对该疑似谣言进行鉴别。2. 谣言发布中期，通过自然语言处理技术分析疑似谣言的评论信息，通过社会网络分析技术分析疑似谣言的传播模式，判定该信息是否为谣言。3. 谣言发布后期，对于判定为谣言的信息, 将其加入谣言库；对信息发布人进行可信性分析，确定其信用等级，将信用等级低于一定阈值的用户加入可疑用户库，在一段时间内对其发布的微博内容进行监控；对信息举报人和评论人进行专家发现，充实和更新该信息相关的知识领域的专家库。当然，目前这一切还处于理论研究阶段，而建立可以用户库也需要以网站更严格地执行实名制为前提。用大数据、人工智能去对付谣言，前提是需要很多人交出更多的隐私，你愿意吗？以上文章引用自论文<a href="http://info.scichina.com/sciF/CN/10.1360/N112015-00243" target="_blank" rel="noopener">《中文社交媒体谣言统计语义分析》</a> 
更多详情请阅原文：刘知远, 张乐, 涂存超, 孙茂松. 中文社交媒体谣言统计语义分析. 中国科学 信息科学, 2015, 45(12): 1536-1546.因为盗号谣言，1月10日晚有上百万人从微信提现、解绑银行卡 
点击<a href="http://www.pingwest.com/millions-of-people-remove-money-from-wechat-because-of-the-rumor/#rd" target="_blank" rel="noopener">此处</a>，可以了解更多<blockquote>全球深度报道网经授权转载自PingWest中文网（微博ID：wepingwest） 
作者：蒋鸿昌 
微信原文：<a href="http://t.cn/RGCKftR" target="_blank" rel="noopener">《清华大学用大数据分析了9000条微博谣言，还在自动辟谣》 
</a>
深度网编辑/周炜乐</blockquote>
	This <a target="_blank" href="https://zh.gijn.org/stories/%e5%a6%82%e4%bd%95%e7%94%a8%e5%a4%a7%e6%95%b0%e6%8d%ae%e8%b0%83%e6%9f%a5%e7%a4%be%e4%ba%a4%e5%aa%92%e4%bd%93%e8%b0%a3%e8%a8%80/">article</a> first appeared on <a target="_blank" href="https://gijn.org">Global Investigative Journalism Network</a> and is republished here under a Creative Commons license.
	<img id="republication-tracker-tool-source" src="https://gijn.org/?republication-pixel=true&amp;post=657947&amp;ga=UA-21528033-17">

#GIJC23 侧记：危险者的聚会

作者邹思聪 • 2024年04月11日

“如果把这两千多个人都消灭了，全世界的独裁者应该会睡个好觉。”在 GIJC23 现场，我们一直开这样的“地狱玩笑”，却又如同另类的集体心理诊疗。自由作者邹思聪在这篇侧记中讲述了三位俄罗斯流亡记者的故事——他们虽然再也无法回国，却在异乡坚持报道、建立生活。

GIJC 侧记 GIJC23

#GIJC23 侧记：哪怕空间再小，也不要停止做事

作者于月 • 2024年04月02日

在参会之前，于月想知道这个世界上有没有哪些同行和我们一样处境艰难，又是怎样克服？在听到来自世界各地的同行分享后，她觉得哪怕空间再小，也不要停止做事。

深度报道精选

深度报道精选：马诺的代价、“戒网瘾学校”虐待学生、乡村小学的性侵案

作者 Stanley Leung • 2024年03月27日

马诺的代价、“戒网瘾学校”虐待学生、乡村小学的性侵案……全球深度报道网精选了3月份几篇值得细味的深度报道。

GIJC 侧记 GIJC23 全球深度报道大会

GIJC 侧记：残缺的数据，模糊的面孔，天秤倾斜的判决——从女性杀戮报道说起

作者易小艾 • 2024年03月15日

如今我们究竟需要怎样的报道？在影响力如此受限的当下，我们究竟如何定义和看待“impact”？在报道杀戮女性的分享中，独立记者易小艾找到了部分答案：有些记录，若没有留下，真的会丢，若还有一些力气，就一起守住每一个留下记录的可能吧。

辅助功能设置

文字大小

色彩设置

阅读工具

其他

文章

如何用大数据调查社交媒体谣言

阅读相关主题的文章：

转载

阅读更多

GIJC 侧记 GIJC23

#GIJC23 侧记：危险者的聚会

GIJC 侧记 GIJC23

#GIJC23 侧记：哪怕空间再小，也不要停止做事

深度报道精选

深度报道精选：马诺的代价、“戒网瘾学校”虐待学生、乡村小学的性侵案

GIJC 侧记 GIJC23 全球深度报道大会

GIJC 侧记：残缺的数据，模糊的面孔，天秤倾斜的判决——从女性杀戮报道说起

文章

如何用大数据调查社交媒体谣言

相关资源

如何调查学术不端行为？

“有据”出品的《事实核查手册》

给女性媒体人的工作指南（八）：关于女性议题的报告

给女性媒体人的工作指南（七）：聚焦调查新闻业的女性

分享

相关资源

如何调查学术不端行为？

“有据”出品的《事实核查手册》

给女性媒体人的工作指南（八）：关于女性议题的报告

给女性媒体人的工作指南（七）：聚焦调查新闻业的女性

相关文章

#GIJC23 侧记：危险者的聚会

#GIJC23 侧记：哪怕空间再小，也不要停止做事

深度报道精选：马诺的代价、“戒网瘾学校”虐待学生、乡村小学的性侵案

GIJC 侧记：残缺的数据，模糊的面孔，天秤倾斜的判决——从女性杀戮报道说起

阅读相关主题的文章：

转载

阅读更多

GIJC 侧记 GIJC23

#GIJC23 侧记：危险者的聚会

GIJC 侧记 GIJC23

#GIJC23 侧记：哪怕空间再小，也不要停止做事

深度报道精选

深度报道精选：马诺的代价、“戒网瘾学校”虐待学生、乡村小学的性侵案

GIJC 侧记 GIJC23 全球深度报道大会

GIJC 侧记：残缺的数据，模糊的面孔，天秤倾斜的判决——从女性杀戮报道说起