从网页、图像或扫描件中快速提取数据的三个方法

Print More

English

图: Shutterstock

欢迎阅读 GIJN 工具箱,在这个栏目中我们会介绍调查记者最喜欢使用的工具和一些技巧。在这篇文章中,我们将介绍从文件中提取数据的三种免费易用的解决方案,这些方法在不久前举行的 IRE22 上获得了参会记者的一致好评。

当记者获得调查所需的数据时,往往面临第二个问题,就是如何选择和提取这些数据,以便将它们放入电子表格中进行处理。对于许多小型编辑部来说,人工输入、高级编程和昂贵的商业 OCR(光学字符识别)都是不太现实的选项。

IRE22 logo

更重要的是,在IRE22上,几位资深记者指出,他们看到以非结构化的“死格式”(如扫描文件)发布的公共文件数量增加,一些政府机构故意使用这样的格式来增加记者报道的负担。

面对这样的挑战,许多机构都会指导记者通过检查网页获得他们想要的数据,但这需要进行很多次复制和粘贴,并手动点击许多标签页,才能收集到较为完整的数据。

“我提交了大量的公共记录请求,但能以我要求的格式获得的文件或数据的情况异常罕见,”《今日美国》的调查记者 Kenny Jacoby 说,他在会上介绍了几个PDF工具。“有时,给你文件的机构似乎故意要让你的生活变得更困难——他们会把PDF中的文字剥离出来,或者在发送之前把文件做成扫描件,或者数据以非结构化的格式储存——例如没有列和行。这些障碍真的会很拖累我们,所以拥有处理这些障碍的工具非常重要。”

Google Pinpoint

2020年,GIJN 是最早公布 Google 记者工作室(Google Journalist Studio)新推出的人工智能文档解析工具的机构之一,它的名字叫做 Pinpoint,这是一个带有高级 OCR 功能的文档搜索引擎,你可以通过它快速搜索大量的文件和图像。Jacoby 说,Pinpoint 已经发展成为一个免费的数字工具,便于专业记者使用,这要部分归功于开发团队中的调查记者们。

Pinpoint 目前包括了以下功能:

  • 如果你搜索一个单一关键词,比如“教师”,它不仅会在你上传的研究文件中找到这个词,而且还会突出与此相关的词,比如“老师”、“校园”、“教授”等;它还能找到搜索词的时态变化;目前它支持七种语言,包括葡萄牙语、西班牙语、法语和波兰语;并且,你能用减号排除不需要的关键词。

  • 你可以批量上传 PDF 扫描件,它可以迅速将它们转换为“活”的,可搜索、可进行复制粘贴操作的文本文件,它甚至还能识别竖排的文字。

  • 它不仅可以识别和翻译图像中的标牌或涂鸦,还可以复制图像背景中牌匾或告示牌上的长段小字。

  • Jacoby 说,Pinpoint 的音频和视频转录功能也非常先进,以至于他使用免费的 Pinpoint,而不是像 Trint 或 Otter 这样的付费转录工具。他说,Pinpoint 虽然不像 Trint、Otter 那样可以识别不同的说话人,但它可以识别对话中的中断和声音拐点,你只要点击文本中的某一点,就可以听到那个部分的声音。

Jacoby 说,现在免费版的 Pinpoint 功能就已经很足够,而且还可以向 Google 申请大型项目的额外存储空间。

“你需要得到批准才能使用它,但是当我和我的妻子——她也是一名记者,在注册的时候,我们几乎立刻就得到了批准,”他指出:“你可能需要一个工作电子邮件地址,但要获得使用权限并不难,那里的团队反应非常迅速。”

缺点是什么?Pinpoint 是一项完全在线的服务。“这就意味着你必须联网才能使用,而且你需要把文件上传到 Google 的服务器上,如果 Google 受到了法庭的传唤,你的文件可能被翻出来;另外,它不允许你下载 OCR 文件的副本,它们只保存在 Pinpoint 上,你只能把这些文本复制出来,但它却有着可能业内最好的 OCR。”

参加 IRE22 的记者们惊奇地发现,免费的 Pinpoint 的光学字符识别(OCR)功能强大到足以阅读和转照片中蓝色传记牌上的文字那样小的文本。图: Kenny Jacoby

从网页提取数据

正如 ProPublica 的 Craig Silverman 最近为 GIJN 所展示的那样:任何网站背后的源代码都为调查记者提供了大量的挖掘空间。虽然网页源代码让非编程人员望而生畏,但其实除了 Control+F 或 Command+F 外,你不需要任何技能来找到你需要的资源。

在 IRE22 上,自由撰稿人 Samantha Sunne 展示了如何透过网页源代码来抓取网站上的长表单或特定数据项,并在几秒钟内将所有数据以你需要的格式填充到电子表格中。这个方法涉及到一个公式,用于指示 Google Sheet 从其左上角第一个方框中填入网页中提取所需要的源代码。

事实上,你根本不需要看任何代码,就可以从任意一个网站上提取一个格式良好的数据表。只要遵循这些步骤就可以了:

要从某个网页中导入一个单一数据表,你只需在 Google Sheet 中键入以下公式: =IMPORTHTML(“URL”, “table”) 如果这些数据被格式化为一个列表,尝试用 “list “代替 “table如果你想要,例如页面上的第二个列表,尝试在逗号和空格后添加数字2,像这样: =IMPORTHTML(“URL”, “list”, 2)

当我们尝试用这个方法将美国联邦存款保险公司网站上564家倒闭银行的资料导入表格时,整个过程只花了不到15秒。记得要准确使用公式所需的标点符号,包括URL后面的逗号,以及括号中两个项目周围的引号。值得一提的是,网站数据的更新也会自动出现在 Google Sheet 中,因此你不必在调查过程中不断翻查网页,除非你禁用了实时更新的功能。

尽管如此,Sunne 强调,对于记者来说,某种程度上熟悉 html 语言也是很重要的,这样就可以了解计算机是如何包装在页面上看到的数据,以便更容易地处理格式不完备的数据,以及更深入地挖掘更高级的公式。

要查看网页源代码,只需右击网站上的任何空白处,然后点击“显示网页源代码”就可以。Sunne 说,一般你在网页看到的任何文字都会出现在网页源代码中,所以你可以简单地用 Ctrl+F 在网页源代码中查找网页内的文字,看看它的前后被标记了什么样的标签,之后再在公式中加入这些标签试试。

“虽然它很有用,但 ImportHTML 公式只能拉入表格和列表,但 ImportXML 公式则可以拉入任何 html 元素,”Sunne 说:“它们看起来非常相似。”下面是一则演示。

要导入网页上的特定数据元素,比如某一行文字,或只导入粗体字、标题,可以尝试用这样的公式(以数据的二级标题为例):=IMPORTXML(“URL”, “//h2”),或是这样(表格中的行)。=IMPORTXML(“URL”, “//table/tr”)

你可以在 html 常用词典中找到许多常用的 html 元素,如”//h2″(二级标题)和”/tr”(表格中的行),。但 Sunne 建议记者只需注意关注元素周围的标签,并找出关键的专业术语标签,以帮助完善他们的下一次数据导入。为了实践,请尝试在大型维基百科网站上使用这两种数据搜刮技术,这些网站通常有几个数据列表和表格。

用 Tesseract 和 ImageMagick 安全抓取离线数据

《今日美国》(USA Today)的 Kenny Jacoby 说,如果输入数据的质量足够好,一个名为 Tesseract 的开源OCR引擎为敏感文件以及庞大的档案提供了一个很好的提取解决方案。值得注意的是,它能识别100多种语言,包括希伯来语或阿拉伯语的从右到左的书写方式。

Tesseract 将没有文本层的图像转换为可选择和可搜索的 PDF,Jacoby说,这个工具在将大批量的“平面”文件转换为可复制粘贴的文本方面特别强大,但在此之前,记者必须先将 PDF 文件转换为高分辨率的图像,而他推荐了开源的 ImageMagick 工具,然后,再将这些图像传入 Tesseract 以获得转换过的数据。

“它的OCR没有 Pinpoint 那么好,但也相当不错,”Jacoby 说。“但它一个很大的好处是它是离线的——你可以在本地、在任何终端上完成所有事情,所以它很适合敏感资料。而且它的批量转换功能真的很好用。”

他补充说:“你可能不得不提高图像的质量或对比度,但有了 ImageMagick,你可以方便提升图像的质量。”

此外,Jacoby 还推荐了《华尔街日报》调查记者 Chad Day 关于 Tesseract 和 ImageMagick 工具的详细指南,这份指南可以在 Github 上找到

尽管 Tesseract 解决方案确实需要一些“中级”的编程技能,但 Jacoby 强调说,它可以是一个一次性的方案——如果你懂得使用命令行,就可以事先设置好程序,并为记者提供两行简短的代码,然后他们就可以在每次数据提取中都插入这些代码。为了提取以 PDF 格式储存的表格,Jacoby 还推荐了 Tabula 这个应用,它一个是由 OpenNews 和 ProPublica 的记者们创建的开源工具。他解释说:“它基本上是把数据表从 PDF 中提取出来,并把它们汇入到电子表格中。”

Tabula 还允许你在的表格周围简单地画一个框,来提取想要的数据,而且它还可以自动检测文件中的表格——包括那些没有边框的表格。而且 Tabula 对 Tesseract 创建的文本文件转换效果很好。Jacoby 还强调,Tabula 也是离线的,所以它也可以很好地保护隐私。


Rowan-Philp-140x140Rowan Philp 是全球深度报道网的记者。他曾是南非《星期天时报》(Sunday Times)的首席记者。作为一名驻外特派员,他报道过全球20多国的新闻、政治、贪腐和冲突事件

Print Friendly, PDF & Email

发表回复

您的电子邮箱地址不会被公开。