辅助功能设置

文字大小

色彩设置

单色 柔和色 dark

阅读工具

底部遮盖 标尺

文章

做好数据分析的关键:建立一个数据档案

编者注:看似客观的数据,实际上可能会受到收集流程中的种种因素影响,而不能够客观地反映事实。因此,数据科学家Heather Krause认为,做好数据分析与报道的关键在于建立数据档案,从数据收集的各个环节深入了解数据。在下文中,Krause结合报道实例,解释了考究数据背景的重要性,以及如何建立一个属于数据的档案。


对我而言,参加NICAR(计算机辅助报道)会议最重要的收获之一,就是认识到数据新闻既复杂又有趣。与会期间,我带头做了一个关于梳理数据档案之重要性的展示。在这篇文章中,我想和诸位分享一下我展示的内容。

许多专家用几年、甚至几十年的时间去钻研如何用数据为读者讲述动人故事。现在有越来越多的人加入这个行列,学习如何运用数据,以及尝试用数据做报道。当我将学生们领入数据分析和可视化的世界时,经常被问到使用数据最重要的一步是什么,我的答案始终是:对数据追根溯源,整理数据档案

数据入门者常常只看到数据的表面价值,认为他们第一眼从数据中看到的东西即是其中真实且唯一的故事。我想鼓励大家像对待人物信源那样对待数据。你们不会在没有对信源进行背景研究的情况下撰写故事——那么对待数据的方式为什么会不同呢?

了解你的数据

对于将出现在报道中的每一项数据,你都需要建立一个数据档案,包括数据的背景或者来源。正如在发表任何报道前,你会对有关信源进行背景调查那样,你得理解你的数据:

  • 数据从何而来
  • 数据的收集者为何人
  • 数据的收集流程如何
  • 最重要的是,为什么要收集这组数据?

这项任务不会像第一眼看上去那么简单,但是去了解你的数据可助你发现故事中重要的差距、偏见、错误信息,或被忽略的细节。请这样思考:如果医生说,你需要在饮食中添加糖的摄入,你也许会认为他的建议是有医学依据的。而倘若一位焦糖苹果销售员这样和你说,你大概就不会这么想了。同理,数据不仅仅是你面前的数字,而首先是关于那些数字来龙去脉的故事。

实例研究:对女性所受暴力的统计数字

不久之前,我们的团队忙于一份关于女性所受暴力的数据报道。我们花了点功夫寻找数据来源。在确定联合国是一个很好的着手点后,我们下载了联合国有关侵害妇女暴力行为和亲密伴侣暴力的数据,并对此展开分析。

在检查女性一生中所遭受亲密伴侣暴力数据的变量后,我们设计了几个简易的图表来了解各国的趋势:

一些国家的趋势令人意外,妇女遭受暴力比率上显示出不同寻常的变化。我们想知道发生了什么。

快速浏览数据后,按逻辑我们采取的第一步就是为每一项数据建立档案。我们需要知道手上信息的背景,以便更好地了解我们所看到的趋势。

数据从哪儿来?

在这个案例中,我们从数据中注意到的第一件事是信息源自哪里。有些数据反映了所有妇女,有些数据只反映了一定年龄段的妇女,有些只包括处于具体婚姻状况的妇女。所有数据都集中在同一个变量中,使用相同的名称,相同的标签,且均没有提示数据源的差异。

谁收集了这些数据?

接下来,我们研究了这些数据的收集者。通过调查联合国文件,我们发现参与该变量数据收集的人员和机构相当之广。

如何,以及为何收集这些数据?

上述数据的采集方,有的是为了国家统计用途而收集数据;有的是为个案的呼吁;还有的则是测试新的方法。所有的数据,尽管通过不同的方法和因不同缘由收集而成,却最终呈现在同一张表格上,使用相同的变量名称和标签。如果我们没有花时间做这样一个数据档案来了解这些数据,那我们永远都不会意识到这些数据点的差异。

在完成了数据档案后,我们立即发现,数据所呈现的一些明显的趋势,如看上去像是暴力率的显著变化,实际上是数据收集上的变化。

通过使用数据档案,我们发现近年来卢旺达的数据收集相当一致。一旦确定了数据预测的趋势真实反映现实状况,我们就可以继续调查对妇女暴力侵犯率飙升背后的原因。

有趣的是,在上述年份,卢旺达议会中女性占大多数,并通过了该国首个防暴力侵害女性法。这又意味着什么呢?

是否是政府改革的强烈反作用,驱使暴力行为的增加?

又或者是因为女性有了法律保障后,越来越多的暴力事件被新闻报道揭露?

这就说明,即使有了一个完善的数据档案,在解析数据上你仍需小心谨慎。

数据并不总是客观的

最近,我和数据可视化资深专家Alberto Cairo合作,免费讲授了一个在线数据新闻课程,参与过的用户或许记得我们解释建立数据档案的片段。

Heather Krause与Alberto Cairo数据新闻慕课视频截屏(点击图片可获取YouTube视频链接)。

记住,通过花时间梳理数据档案,你可以对信源的准确性和可靠度有足够的信心。想知道为数据档案的捷径?那就下载我们的免费模版吧。

 

 

 

编译/梁晨昱

编辑/Ivan Zhai,梁思然

 

相关阅读:

每周数据新闻精选 | 数据新手“八步走” 快速入门就靠这些资源

每周数据新闻精选 | 成功数据新闻是如何炼成的?

每周数据新闻精选 | 用数据的方式打开世界

 


本文原刊于Datassist网站,深度网经授权转载。

Heather Krause是Datasssit的创始人,该网站专门为全球记者、非营利组织及政策制定者等提供数据咨询、数据报道专业知识与工具等方面的服务。

您可以根据知识共享协议条款免费转载这篇文章

转载


阅读更多

GIJC 侧记 GIJC23

#GIJC23 侧记:危险者的聚会

“如果把这两千多个人都消灭了,全世界的独裁者应该会睡个好觉。”在 GIJC23 现场,我们一直开这样的“地狱玩笑”,却又如同另类的集体心理诊疗。自由作者邹思聪在这篇侧记中讲述了三位俄罗斯流亡记者的故事——他们虽然再也无法回国,却在异乡坚持报道、建立生活。

GIJC 侧记 GIJC23

#GIJC23 侧记:哪怕空间再小,也不要停止做事

在参会之前,于月想知道这个世界上有没有哪些同行和我们一样处境艰难,又是怎样克服?在听到来自世界各地的同行分享后,她觉得哪怕空间再小,也不要停止做事。

GIJC 侧记 GIJC23 全球深度报道大会

GIJC 侧记:残缺的数据,模糊的面孔,天秤倾斜的判决——从女性杀戮报道说起

如今我们究竟需要怎样的报道?在影响力如此受限的当下,我们究竟如何定义和看待“impact”?在报道杀戮女性的分享中,独立记者易小艾找到了部分答案:有些记录,若没有留下,真的会丢,若还有一些力气,就一起守住每一个留下记录的可能吧。