辅助功能设置

文字大小

色彩设置

单色 柔和色 dark

阅读工具

底部遮盖 标尺

文章

主题

从PDF中提取数据表

你一定有过类似经历:试图从PDF中提取数据表,发现command C 加 command V 只带来一堆胡乱排列、不知所云的的数据和心中飞驰而过的千万只草泥马。

来自调查报道媒体公司Kaas & Mulvad的资深调查记者Nils Mulvad在大会上推荐下列工具,用于从PDF中提取数据表。他提醒到:PDF很难搞,不要指望一个工具就能搞定所有表格,多知道几个总没坏处。

cometdocs

在线转换,提供免费和收费服务。大多数时候很好用,但你最好注册,上传你的PDF文件,转换后下载。免费账户每周限制使用5次,收费账户无限制,30天/10美元,花130美元就可终身使用。

 

Able2extract

7天免费试用。MacOS, Window和Linux适用,30天使用版35美元,完整版100美元。

 

PDF2XL

7天免费试用。Window适用。

 

Xpdf

Xpdf是一个开源项目,可将PDF文件转换text文件,但之后需要再将text文件转换为电子表格。Xpdf必须在命令行处理。

 

Tabula 

Tabula由一群记者和开发人员共同创建,是一个开源免费程序,可将PDF中的表格转换成CSV文件。目前尚不支持多页文件。适用于任何平台,不过目前还不太稳定。

 

上述工具用于提取数据表。另一个方法是使用OCR工具。OCR能够“读取”PDF,甚至还能读取jpg, tiff和png格式的图片。它可提取打字机或电脑打印出来的内容,并将它们转换成机器编码文本或计算机可读文本。基本运行无碍,但质量不一。

维基百科创建了一个专门页面,对比各光学字符识别软件的优劣。

 

如果你不需要转换大文件,这个免费的OCR工具用得还算顺手.

 

ABBYY FineReader很不错,不妨试试30天试用版——最多可转换100页。购买完整版要129美元。

 

其他工具

Adobe Acrobat XI

XI Reader 

你可以在这个免费阅读器上打开并阅读PDF文件。你不能进行修改,但可以从PDF文件里复制文本(除非它们是被扫描的)并粘贴在电子表格里。在键盘上按下Alt-key,可在数据区通过鼠标选中单列,并同时复制多列。

 

Adobe Acrobat XI Standard (or Pro)

完整版提供多种功能,有一个特别适合数据记者:当你在图上选中一张表格并右击,可直接以电子表格形式打开并存储。通常情况下出来的成果都很接近你想要的。它还可以合并或拆分PDF文件。

 

如果你只需要拆分文件或提取其中一页,可以使用免费工具ilovepdfPDF mergy

 

解锁PDF的工具

对付一些加了密的PDF文件。可以下载试用版(只能解锁两页),购买完整版也不贵——9美元。

 

 

 

您可以根据知识共享协议条款免费转载这篇文章

转载


阅读更多

GIJC 侧记 GIJC23

#GIJC23 侧记:危险者的聚会

“如果把这两千多个人都消灭了,全世界的独裁者应该会睡个好觉。”在 GIJC23 现场,我们一直开这样的“地狱玩笑”,却又如同另类的集体心理诊疗。自由作者邹思聪在这篇侧记中讲述了三位俄罗斯流亡记者的故事——他们虽然再也无法回国,却在异乡坚持报道、建立生活。

GIJC 侧记 GIJC23

#GIJC23 侧记:哪怕空间再小,也不要停止做事

在参会之前,于月想知道这个世界上有没有哪些同行和我们一样处境艰难,又是怎样克服?在听到来自世界各地的同行分享后,她觉得哪怕空间再小,也不要停止做事。

GIJC 侧记 GIJC23 全球深度报道大会

GIJC 侧记:残缺的数据,模糊的面孔,天秤倾斜的判决——从女性杀戮报道说起

如今我们究竟需要怎样的报道?在影响力如此受限的当下,我们究竟如何定义和看待“impact”?在报道杀戮女性的分享中,独立记者易小艾找到了部分答案:有些记录,若没有留下,真的会丢,若还有一些力气,就一起守住每一个留下记录的可能吧。