文章

•

主题

» 报道工具和技巧

从网页、图像或扫描件中快速提取数据的三个方法

作者 Rowan Philp • 2022年07月22日

English

图: Shutterstock

欢迎阅读 GIJN 工具箱，在这个栏目中我们会介绍调查记者最喜欢使用的工具和一些技巧。在这篇文章中，我们将介绍从文件中提取数据的三种免费易用的解决方案，这些方法在不久前举行的 IRE22 上获得了参会记者的一致好评。

当记者获得调查所需的数据时，往往面临第二个问题，就是如何选择和提取这些数据，以便将它们放入电子表格中进行处理。对于许多小型编辑部来说，人工输入、高级编程和昂贵的商业 OCR（光学字符识别）都是不太现实的选项。

更重要的是，在IRE22上，几位资深记者指出，他们看到以非结构化的“死格式”（如扫描文件）发布的公共文件数量增加，一些政府机构故意使用这样的格式来增加记者报道的负担。

面对这样的挑战，许多机构都会指导记者通过检查网页获得他们想要的数据，但这需要进行很多次复制和粘贴，并手动点击许多标签页，才能收集到较为完整的数据。

“我提交了大量的公共记录请求，但能以我要求的格式获得的文件或数据的情况异常罕见，”《今日美国》的调查记者 Kenny Jacoby 说，他在会上介绍了几个PDF工具。“有时，给你文件的机构似乎故意要让你的生活变得更困难——他们会把PDF中的文字剥离出来，或者在发送之前把文件做成扫描件，或者数据以非结构化的格式储存——例如没有列和行。这些障碍真的会很拖累我们，所以拥有处理这些障碍的工具非常重要。”

Google Pinpoint

2020年，GIJN 是最早公布 Google 记者工作室（Google Journalist Studio）新推出的人工智能文档解析工具的机构之一，它的名字叫做 Pinpoint，这是一个带有高级 OCR 功能的文档搜索引擎，你可以通过它快速搜索大量的文件和图像。Jacoby 说，Pinpoint 已经发展成为一个免费的数字工具，便于专业记者使用，这要部分归功于开发团队中的调查记者们。

Pinpoint 目前包括了以下功能：

如果你搜索一个单一关键词，比如“教师”，它不仅会在你上传的研究文件中找到这个词，而且还会突出与此相关的词，比如“老师”、“校园”、“教授”等；它还能找到搜索词的时态变化；目前它支持七种语言，包括葡萄牙语、西班牙语、法语和波兰语；并且，你能用减号排除不需要的关键词。
你可以批量上传 PDF 扫描件，它可以迅速将它们转换为“活”的，可搜索、可进行复制粘贴操作的文本文件，它甚至还能识别竖排的文字。
它不仅可以识别和翻译图像中的标牌或涂鸦，还可以复制图像背景中牌匾或告示牌上的长段小字。
Jacoby 说，Pinpoint 的音频和视频转录功能也非常先进，以至于他使用免费的 Pinpoint，而不是像 Trint 或 Otter 这样的付费转录工具。他说，Pinpoint 虽然不像 Trint、Otter 那样可以识别不同的说话人，但它可以识别对话中的中断和声音拐点，你只要点击文本中的某一点，就可以听到那个部分的声音。

Jacoby 说，现在免费版的 Pinpoint 功能就已经很足够，而且还可以向 Google 申请大型项目的额外存储空间。

“你需要得到批准才能使用它，但是当我和我的妻子——她也是一名记者，在注册的时候，我们几乎立刻就得到了批准，”他指出：“你可能需要一个工作电子邮件地址，但要获得使用权限并不难，那里的团队反应非常迅速。”

缺点是什么？Pinpoint 是一项完全在线的服务。“这就意味着你必须联网才能使用，而且你需要把文件上传到 Google 的服务器上，如果 Google 受到了法庭的传唤，你的文件可能被翻出来；另外，它不允许你下载 OCR 文件的副本，它们只保存在 Pinpoint 上，你只能把这些文本复制出来，但它却有着可能业内最好的 OCR。”

参加 IRE22 的记者们惊奇地发现，免费的 Pinpoint 的光学字符识别（OCR）功能强大到足以阅读和转照片中蓝色传记牌上的文字那样小的文本。图: Kenny Jacoby

从网页提取数据

正如 ProPublica 的 Craig Silverman 最近为 GIJN 所展示的那样：任何网站背后的源代码都为调查记者提供了大量的挖掘空间。虽然网页源代码让非编程人员望而生畏，但其实除了 Control+F 或 Command+F 外，你不需要任何技能来找到你需要的资源。

在 IRE22 上，自由撰稿人 Samantha Sunne 展示了如何透过网页源代码来抓取网站上的长表单或特定数据项，并在几秒钟内将所有数据以你需要的格式填充到电子表格中。这个方法涉及到一个公式，用于指示 Google Sheet 从其左上角第一个方框中填入网页中提取所需要的源代码。

事实上，你根本不需要看任何代码，就可以从任意一个网站上提取一个格式良好的数据表。只要遵循这些步骤就可以了：

要从某个网页中导入一个单一数据表，你只需在 Google Sheet 中键入以下公式： =IMPORTHTML(“URL”, “table”) 如果这些数据被格式化为一个列表，尝试用 “list “代替 “table如果你想要，例如页面上的第二个列表，尝试在逗号和空格后添加数字2，像这样： =IMPORTHTML(“URL”, “list”, 2)

当我们尝试用这个方法将美国联邦存款保险公司网站上564家倒闭银行的资料导入表格时，整个过程只花了不到15秒。记得要准确使用公式所需的标点符号，包括URL后面的逗号，以及括号中两个项目周围的引号。值得一提的是，网站数据的更新也会自动出现在 Google Sheet 中，因此你不必在调查过程中不断翻查网页，除非你禁用了实时更新的功能。

尽管如此，Sunne 强调，对于记者来说，某种程度上熟悉 html 语言也是很重要的，这样就可以了解计算机是如何包装在页面上看到的数据，以便更容易地处理格式不完备的数据，以及更深入地挖掘更高级的公式。

要查看网页源代码，只需右击网站上的任何空白处，然后点击“显示网页源代码”就可以。Sunne 说，一般你在网页看到的任何文字都会出现在网页源代码中，所以你可以简单地用 Ctrl+F 在网页源代码中查找网页内的文字，看看它的前后被标记了什么样的标签，之后再在公式中加入这些标签试试。

“虽然它很有用，但 ImportHTML 公式只能拉入表格和列表，但 ImportXML 公式则可以拉入任何 html 元素，”Sunne 说：“它们看起来非常相似。”下面是一则演示。

要导入网页上的特定数据元素，比如某一行文字，或只导入粗体字、标题，可以尝试用这样的公式（以数据的二级标题为例）：=IMPORTXML(“URL”, “//h2”)，或是这样（表格中的行）。=IMPORTXML(“URL”, “//table/tr”)

你可以在 html 常用词典中找到许多常用的 html 元素，如”//h2″（二级标题）和”/tr”（表格中的行），。但 Sunne 建议记者只需注意关注元素周围的标签，并找出关键的专业术语标签，以帮助完善他们的下一次数据导入。为了实践，请尝试在大型维基百科网站上使用这两种数据搜刮技术，这些网站通常有几个数据列表和表格。

用 Tesseract 和 ImageMagick 安全抓取离线数据

《今日美国》（USA Today）的 Kenny Jacoby 说，如果输入数据的质量足够好，一个名为 Tesseract 的开源OCR引擎为敏感文件以及庞大的档案提供了一个很好的提取解决方案。值得注意的是，它能识别100多种语言，包括希伯来语或阿拉伯语的从右到左的书写方式。

Tesseract 将没有文本层的图像转换为可选择和可搜索的 PDF，Jacoby说，这个工具在将大批量的“平面”文件转换为可复制粘贴的文本方面特别强大，但在此之前，记者必须先将 PDF 文件转换为高分辨率的图像，而他推荐了开源的 ImageMagick 工具，然后，再将这些图像传入 Tesseract 以获得转换过的数据。

“它的OCR没有 Pinpoint 那么好，但也相当不错，”Jacoby 说。“但它一个很大的好处是它是离线的——你可以在本地、在任何终端上完成所有事情，所以它很适合敏感资料。而且它的批量转换功能真的很好用。”

他补充说：“你可能不得不提高图像的质量或对比度，但有了 ImageMagick，你可以方便提升图像的质量。”

此外，Jacoby 还推荐了《华尔街日报》调查记者 Chad Day 关于 Tesseract 和 ImageMagick 工具的详细指南，这份指南可以在 Github 上找到。

尽管 Tesseract 解决方案确实需要一些“中级”的编程技能，但 Jacoby 强调说，它可以是一个一次性的方案——如果你懂得使用命令行，就可以事先设置好程序，并为记者提供两行简短的代码，然后他们就可以在每次数据提取中都插入这些代码。为了提取以 PDF 格式储存的表格，Jacoby 还推荐了 Tabula 这个应用，它一个是由 OpenNews 和 ProPublica 的记者们创建的开源工具。他解释说：“它基本上是把数据表从 PDF 中提取出来，并把它们汇入到电子表格中。”

Tabula 还允许你在的表格周围简单地画一个框，来提取想要的数据，而且它还可以自动检测文件中的表格——包括那些没有边框的表格。而且 Tabula 对 Tesseract 创建的文本文件转换效果很好。Jacoby 还强调，Tabula 也是离线的，所以它也可以很好地保护隐私。

Rowan Philp 是全球深度报道网的记者。他曾是南非《星期天时报》（Sunday Times）的首席记者。作为一名驻外特派员，他报道过全球20多国的新闻、政治、贪腐和冲突事件

本作品采用知识共享许可协议署名-禁止演绎 4.0 国际进行许可

您可以根据知识共享协议条款免费转载这篇文章

阅读相关主题的文章：

开源工具数据工具数据提取数据新闻

转载

This work is licensed under a Creative Commons Attribution-NoDerivatives 4.0 International License

<h2>从网页、图像或扫描件中快速提取数据的三个方法</h2> 作者 <a href="https://gijn.org/about/staff-member/rowan-philp/">Rowan Philp</a> for Global Investigative Journalism Network &bull; 2022年07月22日 <a href="https://gijn.org/2022/07/05/free-game-changing-data-extraction-tools-that-require-no-coding-skills/">English</a>欢迎阅读 <a href="https://cn.gijn.org/category/toolbox/">GIJN 工具箱</a>，在这个栏目中我们会介绍调查记者最喜欢使用的工具和一些技巧。在这篇文章中，我们将介绍从文件中提取数据的三种免费易用的解决方案，这些方法在不久前举行的 <a href="https://www.ire.org/training/conferences/ire-2022/">IRE22</a> 上获得了参会记者的一致好评。当记者获得调查所需的数据时，往往面临第二个问题，就是如何选择和提取这些数据，以便将它们放入电子表格中进行处理。对于许多小型编辑部来说，人工输入、高级编程和昂贵的商业 OCR（光学字符识别）都是不太现实的选项。<a href="https://gijn.org/wp-content/uploads/2022/06/IRE22-logo.png"><img class="size-full wp-image-539206 alignright" src="https://gijn.org/wp-content/uploads/2022/06/IRE22-logo.png" alt="IRE22 logo" width="183" height="170"></a>更重要的是，在IRE22上，几位资深记者指出，他们看到以非结构化的&ldquo;死格式&rdquo;（如扫描文件）发布的公共文件数量增加，一些政府机构故意使用这样的格式来增加记者报道的负担。面对这样的挑战，许多机构都会指导记者通过检查网页获得他们想要的数据，但这需要进行很多次复制和粘贴，并手动点击许多标签页，才能收集到较为完整的数据。&ldquo;我提交了大量的公共记录请求，但能以我要求的格式获得的文件或数据的情况异常罕见，&rdquo;《今日美国》的调查记者 <a href="https://twitter.com/kennyjacoby">Kenny Jacoby</a> 说，他在会上介绍了几个PDF工具。&ldquo;有时，给你文件的机构似乎故意要让你的生活变得更困难&mdash;&mdash;他们会把PDF中的文字剥离出来，或者在发送之前把文件做成扫描件，或者数据以非结构化的格式储存&mdash;&mdash;例如没有列和行。这些障碍真的会很拖累我们，所以拥有处理这些障碍的工具非常重要。&rdquo;<h4>Google Pinpoint</h4>2020年，GIJN 是<a href="https://gijn.org/2020/10/26/tools-for-campaign-sources-disinfo-spying-ai-search-and-election-day-scenarios-from-gijnelectionwatchdog/">最早公布</a> Google 记者工作室（Google Journalist Studio）新推出的人工智能文档解析工具的机构之一，它的名字叫做 <a href="https://journaliststudio.google.com/pinpoint/">Pinpoint</a>，这是一个带有高级 OCR 功能的文档搜索引擎，你可以通过它快速搜索大量的文件和图像。Jacoby 说，Pinpoint 已经发展成为一个免费的数字工具，便于专业记者使用，这要部分归功于开发团队中的调查记者们。Pinpoint 目前包括了以下功能：<ul>
<li>
如果你搜索一个单一关键词，比如&ldquo;教师&rdquo;，它不仅会在你上传的研究文件中找到这个词，而且还会突出与此相关的词，比如&ldquo;老师&rdquo;、&ldquo;校园&rdquo;、&ldquo;教授&rdquo;等；它还能找到搜索词的时态变化；目前它支持七种语言，包括葡萄牙语、西班牙语、法语和波兰语；并且，你能用减号排除不需要的关键词。
</li>
<li>
你可以批量上传 PDF 扫描件，它可以迅速将它们转换为&ldquo;活&rdquo;的，可搜索、可进行复制粘贴操作的文本文件，它甚至还能识别竖排的文字。
</li>
<li>
它不仅可以识别和翻译图像中的标牌或涂鸦，还可以复制图像背景中牌匾或告示牌上的长段小字。
</li>
<li>
Jacoby 说，Pinpoint 的音频和视频转录功能也非常先进，以至于他使用免费的 Pinpoint，而不是像 <a href="https://gijn.org/2022/01/27/how-secure-are-journalists-favorite-transcription-tools/">Trint 或 Otter</a> 这样的付费转录工具。他说，Pinpoint 虽然不像 Trint、Otter 那样可以识别不同的说话人，但它可以识别对话中的中断和声音拐点，你只要点击文本中的某一点，就可以听到那个部分的声音。
</li>
</ul>Jacoby 说，现在免费版的 Pinpoint 功能就已经很足够，而且还可以向 Google 申请大型项目的额外存储空间。&ldquo;你需要得到批准才能使用它，但是当我和我的妻子&mdash;&mdash;她也是一名记者，在注册的时候，我们几乎立刻就得到了批准，&rdquo;他指出：&ldquo;你可能需要一个工作电子邮件地址，但要获得使用权限并不难，那里的团队反应非常迅速。&rdquo;缺点是什么？Pinpoint 是一项完全在线的服务。&ldquo;这就意味着你必须联网才能使用，而且你需要把文件上传到 Google 的服务器上，如果 Google 受到了法庭的传唤，你的文件可能被翻出来；另外，它不允许你下载 OCR 文件的副本，它们只保存在 Pinpoint 上，你只能把这些文本复制出来，但它却有着可能业内最好的 OCR。&rdquo;<h4>从网页提取数据</h4>正如 ProPublica 的 Craig Silverman 最近为 <a href="https://gijn.org/2022/04/04/elections-guide-for-investigative-reporters-chapter-1-new-election-digging-tools/">GIJN 所展示的那样</a>：任何网站背后的源代码都为调查记者提供了大量的挖掘空间。虽然网页源代码让非编程人员望而生畏，但其实除了 Control+F 或 Command+F 外，你不需要任何技能来找到你需要的资源。在 IRE22 上，自由撰稿人 Samantha Sunne 展示了如何透过网页源代码来抓取网站上的长表单或特定数据项，并在几秒钟内将所有数据以你需要的格式填充到电子表格中。这个方法涉及到一个公式，用于指示 Google Sheet 从其左上角第一个方框中填入网页中提取所需要的源代码。事实上，你根本不需要看任何代码，就可以从任意一个网站上提取一个格式良好的数据表。只要遵循这些步骤就可以了：<blockquote>要从某个网页中导入一个单一数据表，你只需在 Google Sheet 中键入以下公式： =IMPORTHTML("URL", "table") 如果这些数据被格式化为一个列表，尝试用 "list "代替 "table如果你想要，例如页面上的第二个列表，尝试在逗号和空格后添加数字2，像这样： =IMPORTHTML("URL", "list", 2)</blockquote>当我们尝试用这个方法将美国联邦存款保险公司网站上<a href="https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/">564家倒闭银行</a>的资料导入表格时，整个过程只花了不到15秒。记得要准确使用公式所需的标点符号，包括URL后面的逗号，以及括号中两个项目周围的引号。值得一提的是，网站数据的更新也会自动出现在 Google Sheet 中，因此你不必在调查过程中不断翻查网页，除非你禁用了实时更新的功能。尽管如此，Sunne 强调，对于记者来说，某种程度上熟悉 html 语言也是很重要的，这样就可以了解计算机是如何包装在页面上看到的数据，以便更容易地处理格式不完备的数据，以及更深入地挖掘更高级的公式。要查看网页源代码，只需右击网站上的任何空白处，然后点击&ldquo;显示网页源代码&rdquo;就可以。Sunne 说，一般你在网页看到的任何文字都会出现在网页源代码中，所以你可以简单地用 Ctrl+F 在网页源代码中查找网页内的文字，看看它的前后被标记了什么样的标签，之后再在公式中加入这些标签试试。&ldquo;虽然它很有用，但 ImportHTML 公式只能拉入表格和列表，但 ImportXML 公式则可以拉入任何 html 元素，&rdquo;Sunne 说：&ldquo;它们看起来非常相似。&rdquo;下面是一则演示。<blockquote>要导入网页上的特定数据元素，比如某一行文字，或只导入粗体字、标题，可以尝试用这样的公式（以数据的二级标题为例）：=IMPORTXML("URL", "//h2")，或是这样（表格中的行）。=IMPORTXML("URL", "//table/tr")</blockquote>你可以在 <a href="https://www.codecademy.com/article/glossary-html">html 常用词典</a>中找到许多常用的 html 元素，如"//h2"（二级标题）和"/tr"（表格中的行），。但 Sunne 建议记者只需注意关注元素周围的标签，并找出关键的专业术语标签，以帮助完善他们的下一次数据导入。为了实践，请尝试在大型维基百科网站上使用这两种数据搜刮技术，这些网站通常有几个数据列表和表格。<h4>用 Tesseract 和 ImageMagick 安全抓取离线数据</h4>《今日美国》（USA Today）的 Kenny Jacoby 说，如果输入数据的质量足够好，一个名为 <a href="https://github.com/tesseract-ocr/tesseract">Tesseract</a> 的开源OCR引擎为敏感文件以及庞大的档案提供了一个很好的提取解决方案。值得注意的是，它能识别<a href="https://en.wikipedia.org/wiki/Tesseract_(software)">100多种语言</a>，包括希伯来语或阿拉伯语的从右到左的书写方式。Tesseract 将没有文本层的图像转换为可选择和可搜索的 PDF，Jacoby说，这个工具在将大批量的&ldquo;平面&rdquo;文件转换为可复制粘贴的文本方面特别强大，但在此之前，记者必须先将 PDF 文件转换为高分辨率的图像，而他推荐了开源的 <a href="https://imagemagick.org/index.php">ImageMagick 工具</a>，然后，再将这些图像传入 Tesseract 以获得转换过的数据。&ldquo;它的OCR没有 Pinpoint 那么好，但也相当不错，&rdquo;Jacoby 说。&ldquo;但它一个很大的好处是它是离线的&mdash;&mdash;你可以在本地、在任何终端上完成所有事情，所以它很适合敏感资料。而且它的批量转换功能真的很好用。&rdquo;他补充说：&ldquo;你可能不得不提高图像的质量或对比度，但有了 ImageMagick，你可以方便提升图像的质量。&rdquo;此外，Jacoby 还推荐了《华尔街日报》调查记者 Chad Day 关于 Tesseract 和 ImageMagick 工具的详细指南，这份指南可以在 <a href="https://github.com/chadday/nicar_ocr">Github 上找到</a>。尽管 Tesseract 解决方案确实需要一些&ldquo;中级&rdquo;的编程技能，但 Jacoby 强调说，它可以是一个一次性的方案&mdash;&mdash;如果你懂得使用命令行，就可以事先设置好程序，并为记者提供两行简短的代码，然后他们就可以在每次数据提取中都插入这些代码。为了提取以 PDF 格式储存的表格，Jacoby 还推荐了 <a href="https://tabula.technology/">Tabula</a> 这个应用，它一个是由 OpenNews 和 ProPublica 的记者们创建的开源工具。他解释说：&ldquo;它基本上是把数据表从 PDF 中提取出来，并把它们汇入到电子表格中。&rdquo;Tabula 还允许你在的表格周围简单地画一个框，来提取想要的数据，而且它还可以自动检测文件中的表格&mdash;&mdash;包括那些没有边框的表格。而且 Tabula 对 Tesseract 创建的文本文件转换效果很好。Jacoby 还强调，Tabula 也是离线的，所以它也可以很好地保护隐私。<hr><a href="https://gijn.org/wp-content/uploads/2021/02/Rowan-Philp-140x140-1.png"><img class=" wp-image-309506 alignleft" src="https://gijn.org/wp-content/uploads/2021/02/Rowan-Philp-140x140-1.png" alt="Rowan-Philp-140x140" width="93" height="93"></a><a href="https://gijn.org/about/staff-member/rowan-philp/">Rowan Philp</a> 是全球深度报道网的记者。他曾是南非《星期天时报》（Sunday Times）的首席记者。作为一名驻外特派员，他报道过全球20多国的新闻、政治、贪腐和冲突事件
	This <a target="_blank" href="https://zh.gijn.org/stories/data-extraction-tools/">article</a> first appeared on <a target="_blank" href="https://gijn.org">Global Investigative Journalism Network</a> and is republished here under a Creative Commons license.
	<img id="republication-tracker-tool-source" src="https://gijn.org/?republication-pixel=true&amp;post=657947&amp;ga=UA-21528033-17">

你最喜欢的新闻工具是什么？我们采访了8位调查记者

作者 Rowan Philp • 2022年09月09日

合适的新闻工具会让记者事半功倍，在这篇文章中，我们邀请了来自世界各地的8名调查记者，分享了他们今年最喜欢的新闻工具，内容包括数据库、写作工具、开源调查工具、网页监测工具等等。

报道工具和技巧

如何利用开源工具进行视觉调查？

作者 Rowan Philp • 2022年01月05日

在这篇文章中，来自《纽约时报》视觉调查团队的三名记者，通过调查美国国会骚乱和非裔女性布伦娜·泰勒之死等案例，分享了他们是如何利用开源工具进行视觉调查的，同时，也分享了9点视觉调查的小贴士。

报道工具和技巧

2020年，调查记者们最喜欢的工具是……

作者 Brian Perlman • 2020年12月18日

2020年，「工具箱」栏目采访了来自世界各地的12位调查/数据记者，询问他们最常用的工具是什么，在这篇文章中，我们将他们最为推荐的工具放到了一块，看看来自世界各地的记者们最喜欢的工具有哪些吧！

报道工具和技巧

调查记者罗曼·阿宁：我用什么工具保护隐私和处理数据的？

作者 Olivier Holmey • 2020年12月04日

在这期「工具箱」栏目中，我们采访了俄罗斯非营利调查新闻网站 IStories 的总编辑罗曼·阿宁。2009年，他就加入了「有组织犯罪和腐败报告项目」，多年来参与了多宗腐败案件的调查。在调查过程中，他需要高度保护个人隐私，同时对海量数据进行批处理，哪些工具帮助他实现了这些目标？

辅助功能设置

文字大小

色彩设置

阅读工具

其他

文章

主题