辅助功能设置

文字大小

色彩设置

单色 柔和色 dark

阅读工具

底部遮盖 标尺

文章

PDF文档数据难处理?资深记者教你几招

不少机构选择用PDF格式对外公布信息,避免遭篡改,而这样做却给记者和数据工作者们带来了不大不小的麻烦:文字尚且可以复制粘贴,但表格一经粘贴就乱了顺序,只能新建一张表。

有没有一些省时省力的工具呢?

有的。南非资深数据记者Laura Grant根据多年的经验推荐了一组简单好用的工具,以及使用PDF文档的小技巧。

Tabula

Tabula是个免费的工具,可靠且易用。其官网上称其“由记者设计,为记者服务。” 难怪深受广大非计算机专业人士的欢迎。

Tabula的一大好处是允许用户先上传一整份PDF文档,再选择其中的表格,一次导出单个或多个均可。输出的格式包括CSV和JASON的TSV,便于之后再用Excel、Google Sheet或Libre Office Calc等软件打开。

然而对于经过扫描生成的PDF文档,或者横向放置的表格,Tabula就无能为力了,但可以用接下來介绍的其它软件解决。

Cometdocs

Cometdocs同样深受记者欢迎,其中一个原因是美国的调查新闻从业人员可以免费成为其高级会员,而另一个原因就是操作简便。

对于普通用户,Cometdocs可以每周免费转换五份PDF文档,超过这个数量就要收费,价格是每月9.99美元。如果一次性支付130美元则可以终身使用。

使用的时候,将需要转换的PDF文档上传,点击“转换”(convert)键,再选择输出的格式是Excel或ODS(用于Libre Office软件),但缺点是不支持CSV格式。

Cometdocs的一大特点是支持光学字符识别(Optical Character Recognition, OCR)技术,可以用于经扫描生成的PDF文档。由于其未必百分百准确,所以转换后仍需仔细检查一遍。

与Tabula一样,Cometdocs不能识别横向放置的表格。

Adobe Export PDF

PDF的这个官方转换工具需要付费使用,但24美元一年的价格并不算离谱。

你可以在官方阅读软件Adobe Reader上使用该转换工具,转换后直接用Excel、Word、PowerPoint或RTF打开新文档。

与Tabula类似,Export PDF可以快速处理大文档,但也同样不适用于扫描件或横向转置的表格。

Nitro Pro

Nitro Pro适合商业人士,功能强大但价格不菲,大约需要160美元。其缺点是只能用于Windows操作系统,将广大MacBook用户排除在外。

Acrobat Pro

同样是PDF官方出品,Windows和Mac均适用,但每月收费15美元,而且最少要订购一年。

Zanran

同样是收费软件,但可以试用,只要文件小于1.5MB,并提供你的邮箱。转换后的文件将以电子邮件的形式发送给你。

Zamzar

同样是需要用邮箱接收文件的网上软件,但好处是免费使用。

PDF转换的其它技巧

表格转置

有些出版物出于空间的考量会把表格“打横”放,如果是印刷品还可以将其旋转90度后阅读,电子版的话就只能转动你的脖子了。

PDF文档也会有类似的问题,而且这种横向放置的表格一般不能被转换软件识别。解决的办法是先转置PDF中的表格,主要的工具有前面介绍过的Nitro Pro或Acrobat Pro。

Acrobat Pro的用法是:

  • 对于一份较大PDF文档中的若干表格,较好的方法是先打开文档,使用“Organize Pages”选项提取出含有表格的那几页,每一页生成单独的文档。
  • 打开包含表格的页面后,选择“View”菜单,将表格旋转至垂直的方向。
  • 打开“”Enhance Scans”选项,选择Recognize Text,确保选中“Save as editable text and images”。这可能要花几分钟,并且完成设置后可能表格又转回去了。
  • 回到“View”菜单,将表格再度调整至适当的方向并保存文档。
  • 你可以尝试将表格转换成Excel的格式,但经验表明用Tabula效果更好。
  • 再次检查转换后的文档,尤其是看看”8″是否被误作”6″或”B”。

导出扫描件中的表格

在扫描的PDF文件中,一般软件会将表格识别为图片而非文字,所以你首先要做的是将表格用具有光学字符识别(OCR)功能的软件转换成文字。

可以选择的软件包括前面提到的Cometdocs、Acrobat Pro或Nitro Pro。

对于扫描效果尚可的文档,Acrobat Pro的“Enhance Scans”工具足以识别其中的文字。有时候,先用截屏的方式将表格保存为一份单独的文档可能效果更好,然后再用Tabula转换成CSV格式。

有密码锁的文档

有些PDF文档被作者加了密码锁,未经授权用户不能随意编辑或将其转换为其它格式,但也不是没有解决办法。

苹果Mac用户可以使用电脑上的“Preview”功能打开PDF文档,然后在“Menu”菜单中选择“Export as PDF”。这样你就生成了一个新的未经加锁的PDF文档,基本上可以进行数据转换。

 

 

编译/周穗斌

编辑/Ivan Zhai,梁思然

 

相关阅读:

普利策奖得主教你五步,做好数字化调查

数据表难处理?几个清理指令有妙用

Excel暗含可视化神器?微软Power BI手把手指南

 


Laura Grant是南非网站Media Hack Collective的数据记者及管理合伙人。网站聚集了一群致力于用新媒体讲故事的新闻人。Grant的记者生涯超过20年,曾经是南非Mail & Guardian杂志主管新媒体和数据的副编辑,参与了大量数据新闻及可视化项目。

您可以根据知识共享协议条款免费转载这篇文章

转载


阅读更多

GIJC 侧记 GIJC23

#GIJC23 侧记:危险者的聚会

“如果把这两千多个人都消灭了,全世界的独裁者应该会睡个好觉。”在 GIJC23 现场,我们一直开这样的“地狱玩笑”,却又如同另类的集体心理诊疗。自由作者邹思聪在这篇侧记中讲述了三位俄罗斯流亡记者的故事——他们虽然再也无法回国,却在异乡坚持报道、建立生活。

GIJC 侧记 GIJC23

#GIJC23 侧记:哪怕空间再小,也不要停止做事

在参会之前,于月想知道这个世界上有没有哪些同行和我们一样处境艰难,又是怎样克服?在听到来自世界各地的同行分享后,她觉得哪怕空间再小,也不要停止做事。

GIJC 侧记 GIJC23 全球深度报道大会

GIJC 侧记:残缺的数据,模糊的面孔,天秤倾斜的判决——从女性杀戮报道说起

如今我们究竟需要怎样的报道?在影响力如此受限的当下,我们究竟如何定义和看待“impact”?在报道杀戮女性的分享中,独立记者易小艾找到了部分答案:有些记录,若没有留下,真的会丢,若还有一些力气,就一起守住每一个留下记录的可能吧。