实用帖:网络搜索工具&调查技巧分享

Print More

编者按:

book-cover2《调查报道信息核实手册》(Verification Handbook for Investigative Reporting)是一本有关网络搜索和调查技巧的新鲜实用指南,指导人们如何在网络上利用UGC(user-generated content, 即用户生产的内容)和开源信息进行搜索和调查。这本书由总部设于荷兰的GIJN成员组织“欧洲新闻中心”(European Journalism Centre)出版。该指南共有10章,均可免费下载。我们很高兴获得授权转载并编译了一些章节:下文是本书的第三章,由网络搜索专家Paul Myers编写。


搜索引擎是我们常用的“开源”搜索工具中最重要的部分之一。结合社交网络,域名查找,以及更传统的搜索方式比如报纸和通讯录查找等,有效的网页搜索将会帮你找到调查过程中至关重要的信息。

很多人觉得搜索引擎常常带来令人失望的查找结果,信息的来源也并不可靠。其实,只要掌握一些小窍门,就能将搜索结果限定在可以信任的站点中。同样的技巧也适用于社交网络或其它信息来源中搜索并定位人:只要你理解如何从海量信息中抓取你所需要的,运用一点点搜索策略,就能大大提升搜索结果。

这一章节中我们将聚焦以下三方面的网上调查技巧:

  1. 网页搜索
  2. 网上找人
  3. 确认域名的主人

 


1) 有效的网页搜索

谷歌之类的搜索引擎其实并不知道它们帮你找出来的网页是关于什么内容的。它们知道的是,这些页面上出现了哪些词。所以,要有效利用搜索引擎,你需要找出目标网页中应该会有的关键词。

因此,明智地选择你的检索词是第一步。值得注意的是,每一个你添加到检索词中的字都会把搜索结果进一步缩窄——搜索引擎将去除不包含所选关键词的页面。

有些词是你想找的每个页面上都有的。还有一些词未必会出现在目标页面中——尽量避免这类比较主观的关键词,因为它们可能会将有用的页面从搜索结果中去掉。

 

要点:使用高级检索语法

大部分搜索引擎都有这类“隐蔽功能”,助你锁定搜索范围,改善搜索结果。

 

技巧1:非必需关键词(Optional keywords

如果你没有一个特别确定的关键词,你可以嵌入一些可能的关键词,并使它们不损坏结果的完整性。

举个例子:你想查找有关德克萨斯州海洛因使用情况的网页,但它们不一定都含有“德克萨斯”这一关键词,有些页面可能只会提到德州不同城市的名字。

技巧来了:你可以用一个大写的“OR”将这些城市名分开,使它们成为检索词中的“非必需关键词”,如下图所示:

2.1

你也可以用这个技巧通过不同名称或拼写搜索同一个公司、机构或个人,如搜索“伊斯兰国”(ISIS / Isalamic State):

2.2

 

技巧2:利用域名搜索(Search by domain

如果你想集中查找一个特定网站上的相关内容,可以使用的高级搜索语法是在“site:”后面输入网站域名。

比如,你只想查找Twitter上的相关结果,那么在关键词后输入“site:twitter.com”即可,如下图所示:

2.3

如果想在Twitter之外加上Facebook的相关结果,只要再用上“OR”就可以搞定,如下图所示:

2.4

这个技巧也可以用来集中搜索某个特定公司的网站。谷歌将只会从该站点返回结果。

你还可以用这个技巧来搜索政府或者学术网站上的资源。当你所研究的国家中政府和高校网站使用特别域名类型时,这一招尤其有效。如下图所示,搜索英国学术网站上的资料时,输入“site:ac.uk”:

2.5

注意:搜索学术网站时,记得检查一下你所找到的网页是由某所高校、某位教授、还是某个学生编辑和维护的。具体的信源是谁,一向都很重要。

 

技巧3:搜索文件类型(Searching for file types

有些信息会以特定的文件格式类型出现。比如,数据出现的格式通常是Excel电子表格;专业制作的报告常以PDF文件的形式出现。

技巧来了:在“filetype:”后面加上目标文件类型的拓展名(如Excel表格的xls,Word文档的docx,幻灯片的pptx等),就可以在搜索过程中锁定某一特定格式的资料了。比如,搜索英国航空公司网站上(ba.com)PDF格式的年度报告(annual report),可搜索——”annual report” site:ba.com filetype:pdf,如下图所示:

2.6


2) 找人

在网上找一些团体比较容易,但要找到一个特定的人可能就不那么容易了。

要进行人肉搜索,了解关于这个人的更多资料,你可以从建立一个围绕目标对象的档案库开始。这个档案库可能包括以下方面:

-ta的名字,请注意:

  • 名字可能有变体(比如你要找的人叫James,他会自称“James,” “Jim,” “Jimmy” 还是“Jamie”?)
  • 注意名字的拼写,尤其是外来名在罗马字母中的写法
  • 如果ta是已婚人士,名字是否有变?
  • ta有没有中间名(middle name)或者首字母签名(initial)?

-ta的居住地或者出生地

-ta的职业和工作单位

-ta的朋友和亲属的名字:它们可能会出现在社交网络的朋友圈子或者关注人名单上

-ta的电话号码:现在Facebook上是可以搜电话的,或者,谷歌搜出来的网页上可能也找得到

-ta的社交网络用户名:这些名字通常在不同平台上具有一致性

-ta的电邮地址:你可以在Facebook上输入电邮地址从而找出关联账户;如果不知道电邮地址,但知道ta用的是什么邮箱域名,那么像email-format这样的站点可以帮你猜一猜

-照片:如果ta的名字很大众,有了照片就可以帮你准确找到那个对的人。

 

技能1 :Facebook(脸谱)高级搜索

 

Facebook刚推出的搜索工具非常棒,和以往不同的是,它能让你通过一些新指标进行搜索。比如,我们第一次可以通过“别人赞过的帖子”来找人。你还可以在一些Facebook主页上进行关键词搜索。

遗憾的是,这个最新的关键词搜索功能还没有嵌入任何高级搜索过滤项,搜索范围似乎也被局限在你所认识的人发的帖子,他们收藏的页面,或者一些高度公开的公共页面。

不过,用这个关键词功能除了能搜到帖子,你还能搜到相关的人、页面、照片、活动、地点、群,以及应用程序(apps),每一类的搜索结果各自呈现在可点击的标签页上。

举个例子:简单的输入“Chelsea”(切尔西),在“Posts”里会出现与之相关的页面和发帖,如下图所示:

2.7

“People”标签页则会显示名字里含有Chelsea一词的人,如下图所示。和其他分类一样,搜索结果的显示顺序是按照和你认识的人或你赞过的页面之间的相关性由高到低进行排列的。

2.8

“Photos”标签页会显示与Chelsea一词有关的图片,可能是一个名叫Chelsea Clinton的人,可能是切尔西足球俱乐部(Chelsea Football Club),也可能是你的朋友在伦敦切尔西区(Chelsea district of London)聚会的照片。搜索结果如果不是你认识的人发布的,就必须是查看权限被设为“公开”的图片。

2.9

Facebook搜索功能对于调查报道的真正价值,在你有目的地进行搜索时体现得更明显。

举个例子:如果你想调查在英国的极端组织与足球之间的联系,可能会去搜给英国防御联盟(The English Defence League)和切尔西足球俱乐部(Chelsea Football Club)都点过“赞”的人。记得点击“People”这一标签来显示搜索结果,如下图:

2.10

这个搜索工具刚上线不久,Facebook还在做改善,你可能得在搜索时多尝试一些关键词的组合,即便如此,你的耐心会是值得的。

Facebook还允许你添加各种修饰词和过滤项来进一步筛选你的搜索结果。比如,你可以限定目标人物的婚姻状况,性别,宗教信仰,政治取向,赞过的页面,参加的群组,居住的区域等。你也可以通过他们在哪里读过书、做什么工作、在哪间公司上班等条件进行筛选。你甚至可以找到上传的照片中某个人的留言。你可以通过姓名找到这个人,也可以找到标注过他/她的相片。你可以找出参加过某个特定活动或者去过某个特定地点的人。

再者,你还可以把所有这些因素结合在一起进行复杂精细的搜索,所得结果也许会超出想象。话虽这么说,用谷歌之类的搜索引擎进行特定站点搜索(如第一部分所讲,在搜索时输入“site:facebook.com”),也有可能得到更好的结果。

 

技能2: Twitter(推特)高级搜索

 

很多其它社交网络都有“高级搜索”功能,它们通常比谷歌等搜索引擎仅靠“页面所含关键词”搜索而来的结果要强大得多。

比如,推特的高级搜索功能可以让你追踪到用户之间的互动对话,并且在搜索中加入时间范围的限制,从而精炼搜索结果。比如,如果你想找出所有奥巴马推特账户上提到《洛杉矶时报》的推文,可以在高级搜索功能中进行设置,如下图所示:

2.11

Twitter也使得第三方网站能利用其数据产生更多可能性。比如,Followerwonk这个网站能让你搜索Twitter中的用户介绍并比较它们;Topsy则有一个强大的推文(tweets)库,同时还有其它一些特别功能。

 

技能3: LinkedIn(领英)高级搜索

 

LinkedIn能让你搜索很多不同方面的信息,包括调查对象所在的城市,上过的学校,目前所在公司,曾经工作过的机构和资历等。

你必须登录LinkedIn后才能使用高级搜索功能,所以,记得首先检查一下你的隐私设置(privacy settings)——你也不想在调查对象的页面上留下脚印吧!

登入LinkedIn后,点击搜索框旁边的链接就可以进入“高级搜索”功能,如下图所示。记得在“关系”一栏勾选“3rd + Everyone Else”,这一步是确保你的搜索范围扩大到所有人;否则,系统搜索的人群将只包括你的好友以及他们的朋友。

2.12

LinkedIn最初的定位是职场人士的社交网络。它家的高级搜索功能似乎主要是为招聘人员设计,但这个功能对调查人员和记者仍然十分有用。在这个平台里,个人数据分布在清晰界定的各项主题框中,所以要锁定每一项特定条件进行搜索比较容易。

2.13

除了输入常规关键词和姓名以外,你还可以输入地点、所在机构和曾经工作过的机构、毕业院校以及其它元素进行搜索。如果你使用的是领英的高级版本(premium service),还能再进一步限定公司大小和具体职务。

 

其它选择

 

类似GeofeediaEchosec的站点让你能够找从固定地点发出的推文、Facebook帖子、YouTube视频、Flickr和Instagram照片。框出一片区域,或者指定一栋大楼,它们就能显示此地所产生的社交媒体活动。Geosocialfootprint.com这个网站可以把特定推特用户的活动显示到地图上(前提是这些用户允许在他们的账号中使用“位置”导航)。

除此以外,还有像PiplSpokeo这样的“人肉搜索”专门工具可以帮你在各个数据库、社交网络平台,甚至交友网站上搜索目标,替你省却不少辛苦的跑腿活儿。只要输入一个名字、电邮地址、或者用户名,搜索工具就会帮你搞定剩下的事情。

另一个选择是使用Storyful的multisearch(多搜索)。这个工具是Chrome浏览器上的插件,能让你输入一个搜索词条,比如一个用户名,然后从Twitter,Instagram,YouTube,Tumblr和Spokeo上得到结果。每个站点的有关结果都会在一个新的标签页中打开。

 

技能4: 利用头像照片进行搜索

人们通常习惯用同一张照片作为不同社交网络平台上的头像。既然如此,我们可以倒过来利用图片搜索定位这张头像所关联的所有网络账号。TinEyeGoogle Images这类站点可以进行这样的图片搜索,下图是Google Images中的示例:

2.14


3)确认域名所有者

许多记者都曾被钓鱼网站愚弄过。现如今,任何人都可以轻易买到一个以.com,.net或者.org结尾的站点,因此,我们不能只看表面值(face value)。一个看上去制作精良,域名听上去也很靠谱的网站仍然有可能是个政治骗局、虚假机构,或者技术宅的恶作剧。

检查域名可以做到一定程度的质量控制。谷歌一下,看看其他人关于这个网站说过什么。一个whois查询也很关键(注:whois是一个用来查询域名是否已经被注册,以及注册域名的详细信息的数据库)。DomainTools.com是能够进行whois查询的众多网站之一,它会显示购买这个域名的网站所有者的注册信息。

举个例子,世界贸易组织(WTO)的前身是《关税与贸易总协定》(GATT)。在网络上,你会发现有两个代表WTO的站点。一个是wto.org(真身),一个是gatt.org(假冒)。仔细看看这个域名为gatt.org的网站,大部分研究者应该能感觉到有问题,但是,也有不少记者上过当。

一个whois查询能够显示域名的详细注册信息,从而打消关于真伪的疑问。Wto.org的注册方是“联合国国际计算机中心”(International Computing Centre of the United Nations),而Gatt.org的注册者则是臭名昭著的恶作剧组合the Yes Man成员之一“Andy Bichlbaum”,见下图:

2.15
Whois查询并非验证网站真伪的万灵丹。很多人会巧妙地在域名注册表格上做假,有些人则会使用类似Domains by Proxy这样的服务进行匿名。但是,若将whois查询和其它域名及IP地址查询工具结合起来,就能形成一个鉴别信源可靠性的有力武器。


作者简介

PaulMyersPaul Myers是BBC的互联网研究专家。他也运营一间名叫“互联网搜索诊所”(The Internet Research Clinic)的网站,致力于引导记者们找到最好的网络搜索链接、应用工具和资源。他在BBC学院(BBC Academy)负责的培训课程包括网上调查、数据新闻、社交媒体、统计学,以及网页设计。Paul也曾为《卫报》、《每日电讯报》、《泰晤士报》、CNN、世界银行、联合国开发计划署等机构的工作人员做过培训。

Leave a Reply

Your email address will not be published. Required fields are marked *