记者采集网络信息的职业伦理问题

Print More
scrap-336x221

Photo by Caresse Ley.

上次关于网络信息采集的文章介绍了“网络爬虫”这件利器如何帮助记者从网页上获取大量信息。不过在当记者使用网络爬虫时,有哪些职业伦理的问题需要注意呢?

在普通人眼里,网络信息采集和黑客行为差不多。因此,建立职业道德准则就显得尤其重要。遗憾的是,加拿大记者协会和和魁北克职业新闻工作者联合会的职业道德守则并没有就此作出明确规定。为此,我访问了一些从事数据新闻报道的同事,尝试自己寻找答案。


尊重个人隐私

数据新闻记者们所达成的第一个共识是:如果一个机构在自己的网站上发布了数据,那么这些数据自动就成为公共信息。

“我几乎每天都在做网络信息采集。”加拿大记者Cédric Sam表示。他目前在香港《南华早报》工作,之前他曾供职于加拿大《新闻报》(La Presse)和加拿大广播公司(Radio-Canada)。“我几乎每天都在做网络信息采集。”他表示。

他认为,网络爬虫和它的编写者承担着同样的责任。“无论是人工复制、粘贴数据,还是通过编程来做,情况并没有不同。(用程序收集数据)相当于雇了1000个人帮你工作,结果是一样的。”

不过,政府的服务器上往往还存储着公民的私人信息。“这种数据大部分是隐藏的,否则就会违反隐私法,”加拿大广播公司(CBC)程序开发员、百年理工学院和多伦多大学蒙克国际研究中心的新闻教授William Wolfe-Wylie说。

网络信息采集和黑客之间重要的界限在于:是否遵守法律。

记者不应窥探受法律保护的信息。如果普通用户如果接触不到,记者也不应试图获取。“对于记者而言,了解并遵守法律的相关限定非常重要。”William说道。

《蒙特利尔公报》(Montreal Gazette)的数据新闻记者Roberto Rocha补充说,新闻人(在网站采集数据时)通常需要先了解用户条款和使用条件守则,以避免日后陷入麻烦。

在采集网络信息时,记者还需要核实一个重要的细节:网站根文件夹下的robots.txt文件,里面说明了哪些信息可供采集,哪些不可采集。比如,这里有加拿大皇家银行的相关文件可供参考:http://www.rbcbanqueroyale.com/robots.txt

robots-RBC

要不要隐藏身份?

当你以记者身份采访时,第一件事就是告知对方你的身份和采访目的。那么,当记者通过网络爬虫向服务器或数据库发送请求时,也需要遵循同样的规则吗?

那么,当记者通过网络爬虫向服务器或数据库发送请求时,也需要遵循同样的规则吗?

对于《渥太华公民报》的国内新闻记者Glen McGregor来说,答案是肯定的。“我把名字和手机号码都放在http标头里,同时还会附上一段留言,‘我是一名记者,现正从这个网页抓取信息。如果您有任何问题,请拨打我的电话。’”

“所以,如果网站管理员因浏览量大增而惊慌失措,以为是遭到黑客攻击,那么他就能查出事情的缘由,毕竟我的留言和电话都在那里。我认为这是符合职业道德的做法,这很重要。”

魁北克大学蒙特利尔分校新闻学教授Jean-Hugues Roy自己也会写网络爬虫程序,他对McGregor的做法表示认同。

不过,并非所有人都同意上述意见。法语网站L’Actualité的主编 Philippe Gohier就会尽可能避免(在获取网络数据时)被识别出身份。

“有时候我用网络代理服务,”他说,“我会改变自己的IP地址和网址的标头信息,以造成手动抓取而非网络爬虫的效果。我尽量尊重规则,但我也在会尽力避免被探测到。”

从某种程度上看,抓取网站数据采集时不亮明身份,就相当于在采访时使用隐藏麦克风或隐蔽摄像机。魁北克职业新闻工作者联合会的职业道德守则对此是有一些规定的:

4 a) 暗访规则

某些情况下,记者可以通过暗访获取信息,方式包括:使用假身份、隐蔽麦克风和摄像头、模糊报道目的、监视、潜入内部等。

这些方式是一般规则之外的特例特殊情况。,只适用于以下情况:

*所收集的信息事关公共利益;例如,曝光应受社会谴责的问题;

* 无法通过其他正常途径取得或验证信息,或其他方式已行不通;

*(暗访带给)公众的收益远远大于给个人造成的不便。另外,记者必须告知公众其获取信息所采用的方式。

对于记者来说,最好的做法是在代码里标注自己的身份,用网络爬虫抓取数据也不例外。但是,如果目标机构会为防止记者得到相关信息,目标机构有可能会改变获取数据的权限,会通过改变数据的获取权限来避免记者得到这些数据,那么,记者在是否表明身份的问题上就要更加谨慎。

有些人可能担心,自己的记者身份一旦公开,就有被网站屏蔽的风险。其实大可放心——你可以轻而易举地改变自己的IP地址,以隐藏身份

有时候,对有一些记者来说,最好先直接申请获取信息,一旦被拒才考虑是否进行数据抓取。这样做的一个好处是:如果机构迅速回应并给出原始数据,那你就能节省不少时间。

要不要公布代码?

透明度是新闻行业的另一个重要问题。没有透明度,公众就不会相信记者的报道。魁北克职业新闻工作者联合会的职业道德守则写道:gathering-FPJQ-1024x153

绝大部分数据新闻记者会在报道后附上其使用的数据,这样的透明的做法能证明他们的报道是基于事实,经得起查证。那么,如何处理记者们编写的代码呢?网络抓取程序爬虫的代码里一个小小的代码错误就会毁掉整个数据分析,所以,这些代码需要公开接受查证吗?

对于开源软件来说,代码必须要公开代码。这样做的主要原因是为了让其他人参与改进软件,但同时也是为了让用户了解软件的执行细节,给他们一颗定心丸。

不过,对会编程的记者来说,公开还是不公开,这的确是个问题。

“从某个角度来说,媒体也是一门生意,”Sam说,“如果你(在编程方面)有竞争优势,能靠它不断挖掘到故事,那就应该留一手。你不能每次把所有东西都公开。”

Roberto Rocha也认为不应该公开代码。

不过Rocha有一个GitHub账户,他会在上面公开了其中一些代码脚本。 Chad Skelton, Jean-Hugues Roy和Philippe Gohier也是这样做的。

“众人拾柴火焰高,”Gohier说,“我们分享的脚本和技术越多,对每个人的帮助就越大。我做的事情一般人花点力气也能够做到,这不是什么改变世界的难事。

Jean-Hugues Roy表示认同,并补充说记者应允许他人复制自己的作品,就像科学家公开自己的科研方法一样。

但Roy教授也指出了例外情况。他目前正在编写一个爬虫程序,以从SEDAR(电子文档分析和检索系统)中获得加拿大公开上市交易公司的文件数据。

“通常我会公开代码,但这次就不一定了。它很复杂,我为此投入了大量的时间。”

Glen McGregor的做法和上述几种有所不同:他不会主动公开自己的代码脚本,但只要有人表示需要,他就会把代码脚本发给对方。

记者会尽其所能保护自己的信源,以此获取对方信任,并期望由此而得到更多敏感信息。但另一方面,他们这样做也是为了独自享有把信源。因此结论是,网络爬虫程序可以被看作是机器版的信源。

另一个问题是,记者们的爬虫软件在未来能否获得专利呢?

谁知道呢?也许有一天记者们会像保护信源那样保护拒绝透露代码。,譬如就像加拿大《环球邮报》记者Daniel Leblanc那样,就只把自己的信源称为 “Ma Chouette(我的猫头鹰)”,而拒绝透露其真正的身份一样

毕竟在现在这个年代,爬虫软件开始越来越像人类了

注:尊重网络架构是网络信息采集的另一条黄金定律。但与其说这是伦理困境问题,不如说是个技术细节问题:当你想抓取网络信息时,记得每次在发送请求之间都空上几秒种,不要让服务器过载。


本文原载于J-Source.CA,经授权后转载。

nael-140x140
Nael Shiab毕业于加拿大国王学院大学数字新闻硕士项目。他曾在加拿大电台担任视频记者,目前是Transcontinental的数据新闻记者。他的Twitter账号为 @NaelShiab

Leave a Reply

Your email address will not be published. Required fields are marked *