辅助功能设置

文字大小

色彩设置

单色 柔和色 dark

阅读工具

底部遮盖 标尺

文章

调查记者专用:数字信息调查工具清单

35957419-Online-education-digital-research-distance-learning-icons-flat-set-isolated-vector-illustration-Stock-Vector

进入数字时代,调查记者越来越需要在海量数据里寻找好故事、求证关键信息,有什么工具可以有效增强他们的数字信息调查技能呢?深度君为你带来一张【数字信息调查工具清单】,有助于检索、处理、存储、展示信息。点击此处,还可以查看美国国际记者中心(ICFJ)就此主题发布的网上研讨会。


1. 适用于文件处理的工具:

大多数调查记者需要处理的信息大多采用文本文件的形式,例如Word文件,PDF或者扫描图片。
• 想存储和搜索成批的文件,可以用比dropbox更实用的DocumentCloud

61e1e1dfd76f08e84f3e959480b93b6f• 想从PDF里面抽取文本和表格数据?不用复制黏贴再调整格式啦,现在你还可以用 Tabula, CometDocs ($) and ABBYY FineReader ($)一举搞定。深度君在这里稍微讲一下从PDF收取数据的神软件Tabula:它是一款和浏览器配合使用的免费软件,在今年8月6日刚更新成1.0版本,也可兼容 Windows, Mac 和Linux系统。用法为:先上传PDF文件到Tabula,选中你想抽取的表格信息。数据就能输出到CSV和任何显示表格数据的程序,就是这么简单易行。

需要注意的是,Tabula只能抽取“真正的”PDF的数据,而不能选取扫描图片的数据。如果有扫描的PDF文件,最好还是用OCR软件(光学字符识别软件)。这款软件由骑士基金会支持,大家可以阅读版本说明,或者从Tabula主页下载该软件。

• 想处理(查看、检索、可视化)成批文件,Overview, Jigsaw and Nuix($)是你的最佳选择。FireShot Capture 174 - Overview — Visualize your documents - https___www.overviewdocs.com_

• 想把繁重的文件分析工作分解、众包?有些针对特定主题的软件已经替你实现了,例如CrowDatatranscribable。在CrowData上,用户们可以一起合作来验证那些OCR工具都难以抽取的数据的真伪,还可以发布数据。而 transcribable更为神奇,卖个关子看看ProPublicaGirHub的介绍吧!


2. 适用于表格数据的工具:

• 分析数据,像Google Spreadsheets或者 Excel($)这样的电子表格程序是上佳之选,而诸如StatwingJ++ Benford这样的网上工具则可以帮助你发现异常数据。

datawrapper-5_0• 想做简单的图表, DataWrapper ($), RAW, Tableau Public 和万能的Google Fusion Tables可以帮你的忙。

• 想使用地图, CartoDB ($) 和 Google Fusion Tables能在普通的地图上做出炫目的可视化效果。要想用地图做更高级的分析,请使用QGIS。另一款软件MapStarter,可以统计数据,主页的附录列出了海量实用工具,还业界良心地指出了适合的用途,方便用户各取所需。

• 想把复杂的系统和关系网做成漂亮的数据图?那就试试Gephi, yED, NodeXL (配合 Excel) 或者Maltego ($)。

• 想展现事件顺序,你可以选择快捷好用的时间轴工具,例如Timeline.jsStorymap.js

refine• 当数据不连贯、不易分析时,就要清洗数据。强烈推荐设置清晰的 OpenRefineData Wrangler

• 高级统计分析,就需要用到例如R这样的编程语言,或者可产生图表的 RStudio


3. 适用于网络数据的工具:

• 采集网络数据,最简便的方法是用Google Spreadsheets (点此查看教程),或者像ScraperTableTools2这样的浏览器插件。

thumb• 要是从更复杂的网页采集信息,就需要高级采集工具。 import.io, KimonoOutWit Hub ($)会是你的好帮手。

• 在网上分享文件,可以选择使用 SpiderOak tarsnap。为了安全起见,尽量不要使用Dropbox 和 iCloud。

• 我们都需要时时刻刻注意自己的数据安全。可以多学学Security in a Box上面提供的工具,有效保护自己的身份信息和数据。

4. 与他人建立联系:

SCODAbadgesSchool of Data是一个线上学习平台,用户可以学习如何在新闻和游说活动中使用数据。

NICAR-L 提供有关计算机辅助报道的问题讨论信息,通常也会发布美国计算机辅助报道协会(NICAR)的最新消息,可能会为你带来大量宝贵建议。

• 欧洲新闻中心和开放知识基金会联手为全球记者提供了数据驱动新闻的订阅邮件,提供实用业界信息。

5. 更多资源:

cover_print数据新闻手册(Data Journalism Handbook )和数据新闻课程(Data Journalism Course)是非常实用的免费线上材料。

Geojournalism Handbook里推荐了众多有用的工具和实践做法。

• Story Based Inquiry整合了一份调查报道记者专用的软件包,涵盖从扫描识别数据,文件加密,分享、记录文件到线上调查等用途。FireShot Capture 176 - Story-Based Inquiry — We help you invest_ - http___www.storybasedinquiry.com_



 


编辑/周炜乐

您可以根据知识共享协议条款免费转载这篇文章

转载


阅读更多

GIJC 侧记 GIJC23

#GIJC23 侧记:危险者的聚会

“如果把这两千多个人都消灭了,全世界的独裁者应该会睡个好觉。”在 GIJC23 现场,我们一直开这样的“地狱玩笑”,却又如同另类的集体心理诊疗。自由作者邹思聪在这篇侧记中讲述了三位俄罗斯流亡记者的故事——他们虽然再也无法回国,却在异乡坚持报道、建立生活。

GIJC 侧记 GIJC23

#GIJC23 侧记:哪怕空间再小,也不要停止做事

在参会之前,于月想知道这个世界上有没有哪些同行和我们一样处境艰难,又是怎样克服?在听到来自世界各地的同行分享后,她觉得哪怕空间再小,也不要停止做事。

GIJC 侧记 GIJC23 全球深度报道大会

GIJC 侧记:残缺的数据,模糊的面孔,天秤倾斜的判决——从女性杀戮报道说起

如今我们究竟需要怎样的报道?在影响力如此受限的当下,我们究竟如何定义和看待“impact”?在报道杀戮女性的分享中,独立记者易小艾找到了部分答案:有些记录,若没有留下,真的会丢,若还有一些力气,就一起守住每一个留下记录的可能吧。