期待合作:跨境报道中的数据挖掘

Print More

但我们需要做得更好。调查新闻的软件有大量重复产品,也错失了很多机会。不少扶持技术发展的小金额补助催生了大量新工具,但是真正广泛应用的却寥寥无几。比如,光是用来分析社交网络的工具就有七十多个。还有其它工具用来分析、处理文档、清理数据等等。大部分是开源工具,其完备性、可用性和使用率参差不齐。技术开发团队未能掌握核心环节,如可用性测试、敏捷开发流程(agile processes)、可持续的商业模式。很多工具的解决方案看上去很不错,其实仍在寻觅需要解决的问题。
datamining-336x240

调查报道软件开发的碎片化带来下列影响:大多数新闻编辑室仍无法完成非常基本的知识管理任务,譬如给新文件进行数字化归档,便于日后再搜索和查询。工具没起到作用,也没有互操作性。最终,要么拖慢报道、要么增加报道成本,甚至可能让整个报道不了了之。时至今日,商业软件世界仍将调查报道遗忘在角落,因为这部分市场狭窄、用户群单一。Nuix和Palantir这类工具价格昂贵,相对孤立,无法满足报道特定故事的需求。

不过,调查报道记者们调查新闻的技术开发者已经懂得如何在跨境合作的网络中工作。OCCRP以及其它相关组织从以数据驱动的协作新闻报道项目中获得了不少宝贵经验,集中体现在以下几个方面:

可用性

我们不可能开发没人想用的软件。绝大多数调查报道记者在处理基本任务时仍然未能获得技术支持,例如在共享的数字存储库中归档新信息、查看文件、做笔记或是查询一串公司名称等。若要加快新闻产出,我们需要理解并保障这些核心工作流程,让用户频繁使用、做测试。只有以上基本功能完备了,才有可能成功开发高级功能。

“生产”成果

首先要把自己看成是系统的整合者,而不是开发者。要为不懂技术的终端用户收集整合已有平台,方便他们使用。这样我们从中获取经验,了解需要写什么新代码。从以往经验来看,我们需要运营一个中心网站(因为用户上手轻松)和可独立安装的服务器(很多用户出于安全考虑,有此需求)。

协作调查

记者要想知道其它组织有没有他要查的某人或某公司的信息,就需要一个联合的搜索机制。如果查到匹配,记者可以与对方协商,查看原始材料。这两个步骤被称为“Who Got Dirt?”模式,已经在跨境调查社群中获得了广泛认可。(一个我们称之为“Who’s got dirt?”数据API建立了这样一个功能,该项目是开放数据基金会资助的“Influence Mapping”项目的一部分。该小组汇集了技术专家、研究人员和记者,开发一种简单的方式让来自不同信息来源的公司和人员信息更加丰富。请参见国际记者网《Who’s got dirt: 机器人能够胜任调查性报道》)

可持续发展

如果捐款人不再资助了,谁来为这些开支买单呢?我们认为至少从开始就得保证有人负担边际成本(即卖出去的产品的毛利和变动成本),譬如让用户支付软件服务费。虽然这些钱不足以支付源源不断的开发费用,但是这样做可以了解用户愿意给什么掏腰包,这对开发新市场至关重要,也是我们一直以来都忽略的。

互操作性和延展性

Influence Mapping项目为社交网络结构化数据处理树立了行业标准,我们应该支持。Overview的性能证明,它能结合可扩展分析的API(应用程序界面),应用于众多不同的项目。这个软件本身应该开放源代码,用以推动合作,避免寡头和特定供应商独霸市场。

我们提倡在调查新闻领域建立一个联合信息的架构,这早已不是新鲜话题。有两点能说明这想法指日可待:首先,众多开发员和用户对此发表意见,集思广益。其次,现有系统的成功能帮我们定义和划分项目的规模。有益的架构已经初见规模,互操作性计划也得到了论证。

众多项目和工具各有千秋。Influence Mapping的邮件列表汇集了想以新闻调查分析社交网络的人,正致力于设定信息交流标准。作为公司注册集合存储库的OpenCorporates,也不断发展壮大。Investigative Dashboard已经在欧洲新闻社区中树立品牌,提供有价值的研究服务,攻克数据存储的难题。Document Cloud成功发展成文档存储和发表的平台。Overview在使用可视化插件API的情况下,成功对大文档集合作延展性分析。整个国际新闻社区在跨境报道中汲取经验,并一致认同“who’s got dirt” 联合搜索模式的的重要性。

下一步是要召开首届调查报道知识管理大会(the first conference on Knowledge Management in Investigative Reporting)。如果你也感兴趣,请告诉我们。我们还有很多工作需要做,譬如现有软件的可用性、开发团队之间的合作、可持续发展规划等等,但是上面列出的共同目标是个重要开端。我们不想把目标定的太高,但想确保关键特征界定明确,经过验证。

我们想召开的是小规模会议:调查报道知识管理的第一次会议。这个活动将集合重要的开发者、记者们,一起完善问题界定,计划如何发展。OCCRP和Influence Mapping项目已经承诺要出力支持。敬请关注。

不过我们已经在谈了。这篇文章的草稿版已经在OCCRP、全球深度网、全球调查记者同盟, Overview, Document Cloud, Global Witness, 和Open Corporates传播。这些组织都认为我们提出的问题是实际存在的,而且需要解决。我们想同大家一起讨论需求和解决方案。如果你也感兴趣的话,请告诉我们。

— Jonathan Stray jonathanstray@gmail.com
— Drew Sullivan drew@occrp.org


Stray-336x336Jonathan Stray是独立记者和计算机科学家。他为《纽约时报》、美联社、《外交政策》、ProPublica和Wired撰稿。他现在领衔开源文档集分析系统Overview的开发,并在哥伦比亚大学教计算机新闻课程。他曾驻香港、柏林和旧金山报道新闻。他曾在香港大学新闻及传媒研究中心修读新闻硕士课程,并曾在中心开设计算机新闻课程(computational journalism)。

drew-1Drew Sullivan是资深记者和媒体发展专家。他在东欧和欧亚工作十年。2004年,他成立了波斯尼亚和黑塞哥维那调查报道中心( Center for Investigative Reporting in Bosnia-Herzegovina),并曾历任总监、编辑和顾问编辑。他合作成立了联合调查新闻中心的区域性联盟OCCRP,目前担任该组织的顾问编辑。

编译/张雯          编辑/周炜乐

Leave a Reply

Your email address will not be published. Required fields are marked *