古巴记者 Barbara Maseda:我用什么工具收集和处理数据?

Print More

English

全球的调查记者们都在使用什么工具?在「工具箱」这个栏目中,我们将邀请世界各地的调查记者和读者们分享他们最爱使用的工具。

Proyecto Inventario 直观地展示了古巴总统的官方 Twitter 账号的社交关系图表。照片。屏幕截图

古巴的互联网基础设施建设和透明度都很差,这让记者很难开展工作,有时甚至无法为报道找到最基本的数据。Maseda 曾在哈瓦那大学学习新闻,目前在英国伯明翰城市大学等地研究定量方法在新闻领域的应用。

Barbara Maseda在2018年创立了Proyecto Inventario。

她于2018年在斯坦福大学作为奈特新闻奖学金获得者访学期间,创立了 Proyecto Inventario 项目。该项目旨在让独立记者方便获取关于古巴方方面面的数据和文件。

自从新冠疫情爆发以来,Proyecto Inventario 已经成为了解古巴病毒传播的重要数据来源。他们将报告的病例转化为结构化的数据,并按日期、地域和患者特征进行了分类。Proyecto Inventario 公司所采用的 Flourish 平台可视化技术,也已经被古巴的一些小型媒体所采用。

Proyecto Inventario正在将古巴的新冠病毒传播数据进行可视化。t

Maseda最近被选为 TED2020 奖学金成员,自己经营管理着 Proyecto Inventario,在社交媒体上回应记者们的请求,并计划通过众筹和捐助维持这一项目的运作。

以下是 Maseda 最喜欢的一些调查工具,以及她如何利用这些工具来克服古巴的数据报道困境。

Klaxon

在市面上众多自动检测网站变化的工具中,我们使用的是 Klaxon,这是一个由马歇尔计划(The Marshall Project)创建的工具。因为我们监测了很多网站,以及网页的不同部分,Klaxon 提供的定制化和对细节的调控水准,让我们能够专注于很具体的元素,对我们来说非常好用。

这对于从事新闻业的人来说是很有用的,在古巴更是如此,因为大多数官方网站都不提供新闻订阅服务。另外,独立进行新闻采编在古巴也并不合法,所以记者与官方机构的媒体联络关系几乎是不存在的。因此,自动监测官方网站的变化,无疑是我们以快速了解到官方发布了新消息最好的办法之一。

例如,我们监测的网站之一就是古巴的法律资料库。借助 Klaxon,我们在一小时内就会收到新法规发布的通知,我们利用这一信息提醒采编人员,我们知道他们可能正在报道相关的新闻。

我们还会用 Klaxon 来作用数据爬虫(scraper),如果你不会或是没有时间自己部署爬虫程序,Klaxon 可以作为替代品,储存特定网站的数据。

Klaxon 可以用来监测政府网站的变化,从而快速了解官方发布的消息。

Sublime Text

我喜欢 Sublime Text 是因为它可以成为你电脑本地文件的一个搜索引擎。如果你有成百上千的文档,你可以用它来寻找匹配的文件,如果你想学习如何做到这一点,可以阅读 Friedrich Lindenberg 的精彩教程 A Poor Journalist’s Text Mining Toolkit(一个可怜记者的文本挖掘工具包)。

作为一名来自网络信息闭塞国家的记者,我们的文件流通在很大程度上依赖于在U盘转储,所以它这是一个非常有用的工具。而即使是在信息丰富的情况下,它也很有用,只是在搜索一些文本格式时效果并不理想。

再举一个例子,古巴的法律资料库长期以来一直把 PDF 格式的法例文件压缩成 RAR 格式发布。在这种情况下,一个好的解决方案是下载整个网站的资料,将所有内容转换成更方便检索的文件格式。

Sublime Text 允许你搜索成千上万的文件,例如,搜索包含「电信」这一关键词的相关法律。

Wayback Machine

Wayback Machine 是个人人都喜欢的工具,在一个公共记录保存非常缺乏的国家,我们当然更喜欢它。在古巴,部分网页甚至整个网站经常无法使用,因此有一个像 Wayback Machine 这样的工具来查看网站缓存是非常宝贵的。

我们在数据完整性方面面临的问题之一是,有时一些政府机构在发布新版本的数据集时,会删除旧的记录/条目。例如,新版的非农业合作社注册记录中没有包含最近注销的合作社记录。我们利用 Wayback Machine 获取了注册记录的历史版本,并将所有不活跃或已注销的合作社纳入到数据集中,供记者以及其他有兴趣的人查阅。

Wayback Machine 也可以是一个很好的第三方工具,把你担心可能消失、或者被篡改的网站还原回来,这些网站对你的调查很关键。我们建立了一个数据集,记录了古巴医生在2018年底取消「更多医生计划」(Mais Médicos Program)后从巴西飞回古巴的所有航班,确保我们新闻报道中提到的医务人员数据在 Wayback Machine 抓取的数据中都有迹可循。

视频街景

使用「我的谷歌地图」来整理你所找到的视频。

严格来说,这不是一个工具,但对于古巴这样没法使用谷歌街景的地方来说,可能会很有用。我们在YouTube、Facebook、Twitter等社交媒体平台上找到了拍摄古巴街道的视频,这些视频通常都是长期生活在国外的古巴人回来探亲时拍摄的,通常都是一些未经剪辑的怀旧场景或是曾经的上班路线,之后我们再在谷歌地图上标注这些视频的位置。

DocumentCloud

我们在 Proyecto Inventario 所做的工作的很大一部分是对文档中的信息进行结构化处理,所以整合了多种文档处理功能的 DocumentCloud 让我们的工作变得更加轻松。

除了这些功能之外,我还喜欢它让我能够访问其他用户共享的文档。在这些文档中,有时我可以找到关于古巴的信息。搜索这些公开文件是一个很好的方法,可以找到更多关于古巴的细节,这些细节可能对分享这些文件的新闻编辑部或记者来说无关紧要,但它对我来说是非常重要的。

古巴电信公司(ETECSA)在 DocumentCloud 中公开文档的搜索结果

Kumu.io

Kumu.io 可以将社交联系、公司结构等内容进行可视化。我们在工作中会做大量的社交网络分析工作,你只要更新 Google Sheet 文档,Kumu.io 就可以自动生成和更新社交关系图表。

如果你从可用选项中选择的数据源类型是这样的,那么Kumu.io的网络地图可以很方便地嵌入和更新,只需更新包含地图背后的数据的公共 Google Sheet 文档,就可以轻松地生成和更新社交关系图表。


Kristina Puga 是一名纽约记者。她为NBCNews.com撰稿,关注美国的拉丁裔社区。她还创办了 WiserWithAge.com,采访一些60岁以上的人士,将他们的智慧传递给年轻一代。

发表评论

电子邮件地址不会被公开。 必填项已用*标注