辅助功能设置

文字大小

色彩设置

单色 柔和色 dark

阅读工具

底部遮盖 标尺

文章

谷歌or百度,技巧可挖掘:引擎搜索要招大礼包

最近谷歌“解禁”与否的讨论又成了朋友圈热点,不过不论如何,我们的确可以利用越来越强大的引擎搜索寻找线索、验证信息,一些原理也可以相互迁移。深度君特别精选网络搜索专家的分享,教你get引擎搜索的要招。

该帖仅介绍利用引擎搜索的技巧,如果想知道更多网络搜索工具?可以参考:《网络搜索专家:有了这些网站,在中国做调查报道会更容易(yomapic和Banjo)》《网络搜索专家:有了这些网站,在中国做调查报道会更容易(Geofeedia和Echosec)》《BBC搜索专家:十款强力“人肉”搜索工具》


1. 如何搜网页?

搜索引擎是我们常用的“开源”搜索工具中最重要的部分之一。结合社交网络,域名查找,以及更传统的搜索方式比如报纸和通讯录查找等,有效的网页搜索将会帮你找到调查过程中至关重要的信息。

0BBC的互联网研究专家Paul Myers《调查报道信息核实手册》(Verification Handbook for Investigative Reporting)上分享了自己使用谷歌搜索的一些妙招,一些方法也可以迁移到百度试试。

何为有效的网页搜索?谷歌之类的搜索引擎其实并不知道它们帮你找出来的网页是关于什么内容的。它们知道的是,这些页面上出现了哪些词。所以,要有效利用搜索引擎,你需要找出目标网页中应该会有的关键词。

要点:使用高级检索语法

大部分搜索引擎都有这类“隐蔽功能”,助你锁定搜索范围,改善搜索结果。

技巧1:非必需关键词(Optional keywords)
如果你没有一个特别确定的关键词,你可以嵌入一些可能的关键词,并使它们不损坏结果的完整性。

举个例子:你想查找有关德克萨斯州海洛因使用情况的网页,但它们不一定都含有“德克萨斯”这一关键词,有些页面可能只会提到德州不同城市的名字。

技巧来了:你可以用一个大写的“OR”将这些城市名分开,使它们成为检索词中的“非必需关键词”,如下图所示:

1

你也可以用这个技巧通过不同名称或拼写搜索同一个公司、机构或个人,如搜索“伊斯兰国”(ISIS / Isalamic State):

3

技巧2:利用域名搜索(Search by domain)
如果你想集中查找一个特定网站上的相关内容,可以使用的高级搜索语法是在“site:”后面输入网站域名。

比如,你只想查找Twitter上的相关结果,那么在关键词后输入“site:twitter.com”即可,如下图所示:

3

如果想在Twitter之外加上Facebook的相关结果,只要再用上“OR”就可以搞定,如下图所示:

4

这个技巧也可以用来集中搜索某个特定公司的网站。谷歌将只会从该站点返回结果。

你还可以用这个技巧来搜索政府或者学术网站上的资源。当你所研究的国家中政府和高校网站使用特别域名类型时,这一招尤其有效。如下图所示,搜索英国学术网站上的资料时,输入“site:ac.uk”:

5

注意:搜索学术网站时,记得检查一下你所找到的网页是由某所高校、某位教授、还是某个学生编辑和维护的。具体的信源是谁,一向都很重要。

2. 如何搜文件?

有些信息会以特定的文件格式类型出现。比如,数据出现的格式通常是Excel电子表格;专业制作的报告常以PDF文件的形式出现。

技巧来了:在“filetype:”后面加上目标文件类型的拓展名(如Excel表格的xls,Word文档的docx,幻灯片的pptx等),就可以在搜索过程中锁定某一特定格式的资料了。比如,搜索英国航空公司网站上(ba.com)PDF格式的年度报告(annual report),可搜索——”annual report” site:ba.com filetype:pdf,如下图所示:

6

更多技巧,也可参考下面介绍的“如何查人?”这一部分。

3. 如何查人?

网络专家告诉我们:会用搜索引擎,也可挖掘人物诸多背景。

试试用谷歌写出一份壳牌公司CEO Ben van Beurden的背景介绍吧:

a.寻找资料和评价

7

“is”这个简单的词是个神奇的小提示,能“命令”谷歌显示出和人物相关的资料和评价。为了避免结果杂乱,搜索时最好加上公司名称或其他细节,用AROUND指令告诉谷歌:这两个词离得近才行。

AROUND()指令必须大写,以保证搜索词之间的距离不超过两个词。

b.其他人的评价?

8

这个搜索指令让谷歌 “显示除了壳牌内部文件,还有哪些PDF文件含有壳牌CEO名字?” 所以最后出现的是与搜索对象相关、但不是由他/她公司发布的文件。你能看到反对者、竞争者和异议者对他的评论。如果你觉得还不够,不妨输入以下指令试试:

inurl:pdf “ben van beurden” –site:shell.*

这样你还能找到filetype找不出来的PDF文件。

c.官方数据库

9

再一步就是搜索全球关于他的官方文件。在网上搜索gov.uk(英国),.gov.au(澳大利亚), .gov.cn (中国), .gov (美国)和世界上其他国家的政府网站。如果你的所在国没有以.gov为结尾的政府网站链接,试试这样的组合:当地词汇+指令site: operator. 例如搜索德国的政府网站可以用:site:bund.de,要是荷兰的就用:site:overheid.nl。

按照此法,我们发现了van Beurden伦敦寓所的建筑许可证,按图索骥,就找到了他的完整住址和其他细节信息。

d.联合国资料

10

现在试试在联合国相关组织网站里搜索信息。还是以壳牌CEO为例,我们搜索发现,他的名字出现在一份关于“国际化学品管理战略方针”(Strategic Approach to International Chemicals Management)的文件里,由此找到了他的全名,妻子全名和当时的护照号码。神奇吧?

e.寻找名字的不同拼法

11

按照这个指令,你可以发现使用不同名字拼法的结果。你会搜到含有“壳牌(Shell)”字样的文件,但把称他为“Ben”的排除在外了。如此一来,你会发现他也被称为“Bernardus van Beurden”(你不必在名字里打点[.],因为点在谷歌搜索里是忽略不计的)现在Get到技巧了吗?不如换个名字,重新按照a,b,c,d的顺序试一遍吧。

4. 如何确认地点?

使用谷歌图片搜索功能

把你知道的相关信息浓缩成一个精炼的词。在如下例子中,我想搜一位名叫@ MuhajiriShaam的伊斯兰圣战者(1),但并不想查Twitter(3)上名为@MuhajiriShaam01 (2)的账户。我想查看这个人在2014年9月25日到29日之间在Twitter上发的图片(4)。

12

5. 如何确认时间?

多数情况下,你的调查是以发生过的事实为基础。所以要告诉你的搜索引擎搜索过去的信息。

13

我们来调查一场发生在荷兰Chemie-Pack(一家化学工厂)的火灾,它发生的日期是2011年1月5日。假定你想调查工厂是否储存过危险化学品。登陆images.google.com,输入Chemie-pack(1),搜索2011年1月之前的图片(2)。搜索结果给出了上百张照片,都是几天前来过这家工厂的青年消防队拍的。在一些照片里出现了写着化学品名称的圆筒。我们以此能列出火灾前工厂里储存的化学品清单。

6. 如何核查信息?

Google等搜索引擎:

141)只看第三方信息:核实网站X时,采用搜索语句“X”+“-”(减号)+ “site:’X.com’”,排除网站本身提供的信息;
2)从政府网站核实:搜索语句“X”+ “site: Y.gov”;
3)核实地址信息:进入提供街景的网站,如instantstreetview.com,输入需核实地址,查看图片,并判断是否合理;
4)查看历史信息:利用谷歌等搜索引擎,搜索特定时间以前的内容,找出信息源头;
5)核实照片信息:用Picasa等图像工具将彩色照片转成黑白,再上传至谷歌图片,进行搜索,利用得到的图片进行二次搜索,确认图片与描述符合。

10个核查定事实的小贴士:

1)找到推特信息源;
2)判断信息发布者的可信度;
3)核实背景信息;
4)不盲从;
5)核实陌生信息源;
6)核实图像(最好找到原版);
7)核实新闻中的具体信息:如地址和时间,对照已知事实;
8)有照片时,去视频网站查找相关视频;
9)查找其他人是否证实过信息为假:搜索关键词加“假”、“错误”等字眼;

您可以根据知识共享协议条款免费转载这篇文章

转载


阅读更多

GIJC 侧记 GIJC23

#GIJC23 侧记:危险者的聚会

“如果把这两千多个人都消灭了,全世界的独裁者应该会睡个好觉。”在 GIJC23 现场,我们一直开这样的“地狱玩笑”,却又如同另类的集体心理诊疗。自由作者邹思聪在这篇侧记中讲述了三位俄罗斯流亡记者的故事——他们虽然再也无法回国,却在异乡坚持报道、建立生活。

GIJC 侧记 GIJC23

#GIJC23 侧记:哪怕空间再小,也不要停止做事

在参会之前,于月想知道这个世界上有没有哪些同行和我们一样处境艰难,又是怎样克服?在听到来自世界各地的同行分享后,她觉得哪怕空间再小,也不要停止做事。

GIJC 侧记 GIJC23 全球深度报道大会

GIJC 侧记:残缺的数据,模糊的面孔,天秤倾斜的判决——从女性杀戮报道说起

如今我们究竟需要怎样的报道?在影响力如此受限的当下,我们究竟如何定义和看待“impact”?在报道杀戮女性的分享中,独立记者易小艾找到了部分答案:有些记录,若没有留下,真的会丢,若还有一些力气,就一起守住每一个留下记录的可能吧。