从PDF中提取数据表

Print More

你一定有过类似经历:试图从PDF中提取数据表,发现command C 加 command V 只带来一堆胡乱排列、不知所云的的数据和心中飞驰而过的千万只草泥马。

来自调查报道媒体公司Kaas & Mulvad的资深调查记者Nils Mulvad在大会上推荐下列工具,用于从PDF中提取数据表。他提醒到:PDF很难搞,不要指望一个工具就能搞定所有表格,多知道几个总没坏处。

cometdocs

在线转换,提供免费和收费服务。大多数时候很好用,但你最好注册,上传你的PDF文件,转换后下载。免费账户每周限制使用5次,收费账户无限制,30天/10美元,花130美元就可终身使用。

 

Able2extract

7天免费试用。MacOS, Window和Linux适用,30天使用版35美元,完整版100美元。

 

PDF2XL

7天免费试用。Window适用。

 

Xpdf

Xpdf是一个开源项目,可将PDF文件转换text文件,但之后需要再将text文件转换为电子表格。Xpdf必须在命令行处理。

 

Tabula 

Tabula由一群记者和开发人员共同创建,是一个开源免费程序,可将PDF中的表格转换成CSV文件。目前尚不支持多页文件。适用于任何平台,不过目前还不太稳定。

 

上述工具用于提取数据表。另一个方法是使用OCR工具。OCR能够“读取”PDF,甚至还能读取jpg, tiff和png格式的图片。它可提取打字机或电脑打印出来的内容,并将它们转换成机器编码文本或计算机可读文本。基本运行无碍,但质量不一。

维基百科创建了一个专门页面,对比各光学字符识别软件的优劣。

 

如果你不需要转换大文件,这个免费的OCR工具用得还算顺手.

 

ABBYY FineReader很不错,不妨试试30天试用版——最多可转换100页。购买完整版要129美元。

 

其他工具

Adobe Acrobat XI

XI Reader 

你可以在这个免费阅读器上打开并阅读PDF文件。你不能进行修改,但可以从PDF文件里复制文本(除非它们是被扫描的)并粘贴在电子表格里。在键盘上按下Alt-key,可在数据区通过鼠标选中单列,并同时复制多列。

 

Adobe Acrobat XI Standard (or Pro)

完整版提供多种功能,有一个特别适合数据记者:当你在图上选中一张表格并右击,可直接以电子表格形式打开并存储。通常情况下出来的成果都很接近你想要的。它还可以合并或拆分PDF文件。

 

如果你只需要拆分文件或提取其中一页,可以使用免费工具ilovepdfPDF mergy

 

解锁PDF的工具

对付一些加了密的PDF文件。可以下载试用版(只能解锁两页),购买完整版也不贵——9美元。

 

 

 

One thought on “从PDF中提取数据表

Leave a Reply

Your email address will not be published. Required fields are marked *