互联网有96%的内容都位于“深网”,我们要如何才能检索到?

Print More
来自全世界的调查记者齐聚在汉堡第十一届全球深度调查报道大会。图片:Nick Jaussi / nickjaussi.com

来自全世界的调查记者齐聚在汉堡第十一届全球深度报道大会。图片:Nick Jaussi / nickjaussi.com

大多数的记者每天都会使用谷歌进行检索,但是搜索引擎能够覆盖的范围只有 4%,而无法被搜索引擎搜到的部分基本都可以划归为「深网」(Deep Web)的范畴。如何检索「深网」的内容?德国记者与新闻培训专家 Albrecht Ude 在第11届全球深度报道大会上分享自己的经验。

「如果你要找的内容藏匿在深网里,那么搜索引擎肯定是毫无用处的。」Ude 说。

那么记者该如何获取深网中的信息呢?

Ude 认为我们应该使用抽象思维——不要去想具体内容,而需要发挥想象力,猜想你想要的内容可能被放在互联网的哪个角落。基于这种猜想,再去寻找相关的数据库。

但搜索引擎通常只能搜索到数据库的文件名,而覆盖不到数据库的具体内容。所以在检索具体数据的这步上,你只能亲力亲为。例如,如果你需要某位建筑师的住址与联络信息,你可以查看有没有地区性的建筑师协会数据库,然后再浏览查阅数据库中存储的内容。

Ude 分享了四个小贴士,帮助你找到搜索引擎覆盖不到的数据库:

1. 是谁在运营数据库?

在你寻找信息的时候,问问自己:谁最有可能投入时间与金钱去建立、维持一个包含这些信息的数据库呢? Ude 认为,这个问题是搜索引擎解决不了的,「只能由你的头脑解决」。

2. 善用搜索引擎语法

根据搜索引擎的算法,你可以在搜索引擎中输入「database OR directory OR catalogue OR registry」,这样你就可以得到相应的数据库///记簿。如果你希望保护自己的信息隐私,荷兰公司运营的网站 www.startpage.com 可以帮你去进行谷歌检索,同时在你与谷歌之间作为屏障,避免你的搜索信息被谷歌保留。

3. 活用维基百科

维基百科上浏览条目时,留意页面底部「外部链接(External links)」的板块。Ude 认为,这些链接指向的内容质素通常来说都比搜索引擎得到的结果要高。

维基百科分类页面与关键词链接同样是很好的线索。如果你需要将候补结果的范围缩小到特定语言,你可是尝试使用该语言进行搜索。

维基百科上,你也可以找到数据库的清单。例如,一些学术数据库的清单与一个在线数据库的清单

4. 搜索资料库列表

当用英文搜索的时候,在搜索引擎里输入「a * z database」 这会让你得到很多按照字母表顺序排列的数据库。

活用你所在城市的大学图书馆。这能够让你有权限获取到上千万的科学数据库,而这些数据库通常都是会收费的。如果你不是该校在读学生,也可以考虑向大学读书馆购买在线数据库服务,这也比一般数据机构收取的年费要便宜多了。

如果有必要的话,一定要试试用其他语言进行搜索。

彩蛋

Ude 样分享了一些你不可错过的数据库:

想要搜索历史记录、已被删除的网页,存档是最好的工具。例如,你可以找到某公司已经从网上移除或更改的信息或者。你可以在 WaybackMachine 进行搜索,寻找被归档的页面, 或者在 Archive.today,根据你的需求对特定页面进行存档。

IANA Root Zone Database 可以找到所有有效、可用一级域名的拥有者个人信息。虽然由于新的隐私法律,新近的域名拥有者信息将不会在欧盟国家提供;但只要你是记者,都可以努力尝试去交涉,看有否协调的余地。

WorldCat 是一个全球性的图书馆目录,在这里你可以找到任何已出版图书的信息。而如果人名是你的线索, WorldCat’s Identities 则会是最实用的工具。

如果你希望调查一个互联网骗子,Ude认为 Common Vulnerabilities Exposures 数据库是一个很好的工具,因为这个网站对每个已知的互联网漏洞都了如指掌

Tenders Electronic Daily 列出了欧盟的花费明细,可以看到钱究竟被花到了什么地方。专为调查者设计,每日更新。

Directory of Open Access Journals 列出了经历过同侪覆核、并可免费获取阅读的科学期刊文章。

如果想要找到数据库,国家图书馆是很好的资源。维基百科上有一个 国家图书馆与州立图书馆的清单

德国新闻机构《时代周报》线上版将 德国所有的街道名 OpenStreetMap 统整合到了一起. 如果你只知道街道名,而不知道这条街道位于哪座城市,这个工具将会非常实用。

发表评论

电子邮件地址不会被公开。 必填项已用*标注