文章

新闻人网络数据采集入门

作者 Nael Shiab • 2015年08月21日

还记得今年年初Twitter在几小时内损失80亿美元（约合512亿人民币）的事情吗？这都得“归功于”网络爬虫（web scraper）——一种许多公司和数据新闻记者都在使用的网络工具。

网络爬虫其实是一种能读取、分析网页HTML代码的电脑程序。有了这样一个程序（又称“机器人自动程序”），用户就可以从网页采集数据和信息了。

让我们回到今年4月份，看看当时发生了什么。由于季度财报数字不太理想，Twitter本想在证券交易所收盘之后才公布结果，以避免投资者信心受到重创。很可惜的是，由于一个错误，股市收市前其财报就被放上了网，45秒后才被撤下。

然而正是在这关键的45秒里，网络爬虫程序找到了这些数据，将其格式化并自动发布到了Twitter上。（现在，连自动程序都能抢到独家新闻了！）

这条推文一经发布，便引起了交易者们的强烈反应。而对Twitter来说，这无疑是场灾难。运行该自动程序的Selerity是家擅长实时分析的公司，一时间也成了众矢之的，只好在事件发生几分钟之后对情况进行解释。

对于自动程序来说，45秒的时间几乎能算是“地老天荒”了：根据Selerity公司的说法，它的自动程序发布财报结果只用了3秒钟。

网络数据采集与新闻业

随着越来越多的公共机构在网站上发布数据，懂编程的记者们会发现，网络数据采集正越来越成为他们的好帮手。

譬如说，在为Journal Métro写报道的时候，我就曾利用网络爬虫抓取数据，以比较魁北克酒业专业局（Société des alcools du Québec）1.2万种商品和安大略酒类控制局（the LCBO in Ontario）1万种商品的价格。

还有一次，我打算在萨德伯里（加拿大安大略省南部城市）调查当地餐厅食品检查的情况。所有这类检查的结果都发布在萨德伯里健康部门（the Sudbury Health Unit）的网站上，但网站却没有下载所有数据的功能，人们只能逐个核对所有餐厅的情况。

为了提高效率，我先是要请求检索保存了检查结果的整个数据库，但被拒绝。之后我又提交了一份公开信息申请，但健康部门却要求我为此先支付2,000美元（约合12,797元人民币）的费用。

我没有交钱，而是决定编写自己的自动程序，以从萨德伯里健康部门的网站上直接抓取全部信息。结果如下：

https://youtu.be/stxLKV_1LEg

这个程序是用Python写成的，并在Selenium library（一种配合自动程序运行的软件）的帮助下控制Google Chrome浏览器。该程序逐个点击健康部门对1,600个设施的检查结果，抓取数据，并把信息存为Excel文件。

如果单靠手工操作的话，这项工作得花上你几个星期。而利用自动程序，一个晚上就能搞定。

不过，当自动程序不知疲倦地抓取成千上万行代码时，有个想法一直困扰着我：网络数据采集的道德标准是什么？

我们有权利抓取任何网络信息吗？网络数据采集与黑客行为的界线到底在哪里？对于目标机构和读者来说，我们又该如何保证采集过程的透明度？

作为记者，我们必须遵守最高的（职业）道德标准，否则，读者们怎么能相信我们报道的都是事实呢？

可惜，魁北克职业新闻工作者联合会（Fédération professionnelle des journalistes du Québec）于1996年采用、2010年修订的专业守则已经过时，给不了我明确完整的答案。

加拿大记者协会（Canadian Association of Journalists）的（职业）道德指引颁布时间较新，但也没能说清楚这个问题。

魁北克大学蒙特利尔分校的新闻学教授Jean-Hugues Roy表示：“这些是全新的领域。新的工具促使我们重新思考（职业）道德的定义，（职业）道德标准也应与技术共同发展。”

因此，我决定自己去找答案。我联系了几个加拿大数据新闻记者，进行了一次调查。相关结果将会陆续发布，敬请关注。

注：如果你想试着开发自己的网络爬虫，可以参考我在2月份发布的一个简短教程。从中你能学到如何抓取加拿大国会网站的数据。

Nael Shiab毕业于加拿大国王学院大学数字新闻硕士项目。他曾在加拿大电台担任视频记者，目前是Transcontinental的数据新闻记者。他的Twitter账号为 @NaelShiab

本作品采用知识共享许可协议署名-禁止演绎 4.0 国际进行许可

您可以根据知识共享协议条款免费转载这篇文章

阅读相关主题的文章：

Python Selenium library twitter web scrapping 代码加拿大记者协会新闻道德标准网络数据采集网络爬虫魁北克职业新闻工作者联合会

转载

This work is licensed under a Creative Commons Attribution-NoDerivatives 4.0 International License

<h2>新闻人网络数据采集入门</h2> 作者 Nael Shiab for Global Investigative Journalism Network &bull; 2015年08月21日 <a href="https://zh.gijn.org/wp-content/uploads/2015/08/Backlit_keyboard-1024x576-771x434-1.jpg"><img class="alignright size-medium wp-image-4745" src="https://cn.gijn.org/wp-content/uploads/2015/08/Backlit_keyboard-1024x576-771x434-336x189.jpg" alt="Backlit_keyboard-1024x576-771x434" width="336" height="189"></a>还记得今年年初Twitter在<a href="http://www.bbc.com/news/technology-32511932" target="_blank" rel="noopener">几小时内损失80亿美元（约合512亿人民币）的事情吗</a>？这都得&ldquo;归功于&rdquo;网络爬虫（web scraper）&mdash;&mdash;一种许多公司和数据新闻记者都在使用的网络工具。网络爬虫其实是一种能读取、分析网页HTML代码的电脑程序。有了这样一个程序（又称&ldquo;机器人自动程序&rdquo;），用户就可以从网页采集数据和信息了。让我们回到今年4月份，看看当时发生了什么。由于季度财报数字不太理想，Twitter本想在证券交易所收盘之后才公布结果，以避免投资者信心受到重创。很可惜的是，由于一个错误，股市收市前其财报就被放上了网，45秒后才被撤下。然而正是在这关键的45秒里，网络爬虫程序找到了这些数据，将其格式化并自动发布到了Twitter上。（现在，连自动程序都能抢到独家新闻了！）<a href="http://t.cn/RLk7bjL"><img class=" size-full wp-image-4756 aligncenter" src="https://zh.gijn.org/wp-content/uploads/2015/08/Twitter1.png" alt="Twitter1" width="509" height="198"></a>这条推文一经发布，便引起了交易者们的强烈反应。而对Twitter来说，这无疑是场灾难。运行该自动程序的Selerity是家擅长实时分析的公司，一时间也成了众矢之的，只好在事件发生几分钟之后对情况进行解释。<a href="http://t.cn/RLk7cAz"><img class=" size-full wp-image-4757 aligncenter" src="https://zh.gijn.org/wp-content/uploads/2015/08/Twitter2.png" alt="Twitter2" width="545" height="229"></a>对于自动程序来说，45秒的时间几乎能算是&ldquo;地老天荒&rdquo;了：根据Selerity公司的说法，<a href="http://arstechnica.com/business/2015/05/how-selerity-reported-twitters-2q15-earnings-before-twitter-did/" target="_blank" rel="noopener">它的自动程序发布财报结果只用了3秒钟</a>。网络数据采集与新闻业随着越来越多的公共机构在网站上发布数据，懂编程的记者们会发现，网络数据采集正越来越成为他们的好帮手。譬如说，<a href="http://journalmetro.com/actualites/national/789697/saq-des-centaines-de-produits-moins-chers-en-ontario/" target="_blank" rel="noopener">在为Journal M&eacute;tro写报道的时候</a>，我就曾利用网络爬虫抓取数据，以比较魁北克酒业专业局（Soci&eacute;t&eacute; des alcools du Qu&eacute;bec）1.2万种商品和安大略酒类控制局（the LCBO in Ontario）1万种商品的价格。<a href="https://zh.gijn.org/wp-content/uploads/2015/08/2.png"><img class="aligncenter size-large wp-image-4746" src="https://cn.gijn.org/wp-content/uploads/2015/08/2-771x468.png" alt="2" width="771" height="468"></a>还有一次，我打算在萨德伯里（加拿大安大略省南部城市）调查当地餐厅食品检查的情况。所有这类检查的结果都发布在萨德伯里健康部门（the Sudbury Health Unit）的网站上，但网站却没有下载所有数据的功能，人们只能逐个核对所有餐厅的情况。为了提高效率，我先是要请求检索保存了检查结果的整个数据库，但被拒绝。之后我又提交了一份公开信息申请，但健康部门却要求我为此先支付2,000美元（约合12,797元人民币）的费用。我没有交钱，而是决定编写自己的自动程序，以从萨德伯里健康部门的网站上直接抓取全部信息。结果如下：这个程序是用Python写成的，并在Selenium library（一种配合自动程序运行的软件）的帮助下控制Google Chrome浏览器。该程序逐个点击健康部门对1,600个设施的检查结果，抓取数据，并把信息存为Excel文件。如果单靠手工操作的话，这项工作得花上你几个星期。而利用自动程序，一个晚上就能搞定。<a href="https://zh.gijn.org/wp-content/uploads/2015/08/3.png"><img class="aligncenter size-large wp-image-4747" src="https://cn.gijn.org/wp-content/uploads/2015/08/3-771x389.png" alt="3" width="771" height="389"></a>不过，当自动程序不知疲倦地抓取成千上万行代码时，有个想法一直困扰着我：网络数据采集的道德标准是什么？我们有权利抓取任何网络信息吗？网络数据采集与黑客行为的界线到底在哪里？对于目标机构和读者来说，我们又该如何保证采集过程的透明度？作为记者，我们必须遵守最高的（职业）道德标准，否则，读者们怎么能相信我们报道的都是事实呢？可惜，魁北克职业新闻工作者联合会（F&eacute;d&eacute;ration professionnelle des journalistes du Qu&eacute;bec）于1996年采用、2010年修订的专业守则已经过时，给不了我明确完整的答案。加拿大记者协会（Canadian Association of Journalists）的<a href="http://www.caj.ca/ethics-guidelines/" target="_blank" rel="noopener">（职业）道德指引</a>颁布时间较新，但也没能说清楚这个问题。魁北克大学蒙特利尔分校的新闻学教授Jean-Hugues Roy表示：&ldquo;这些是全新的领域。新的工具促使我们重新思考（职业）道德的定义，（职业）道德标准也应与技术共同发展。&rdquo;因此，我决定自己去找答案。我联系了几个加拿大数据新闻记者，进行了一次调查。相关结果将会陆续发布，敬请关注。注：如果你想试着开发自己的网络爬虫，可以参考我在<a href="http://naelshiab.com/members-parliament-web-scraping/" target="_blank" rel="noopener">2月份发布的一个简短教程</a>。从中你能学到如何抓取加拿大国会网站的数据。<hr><a href="https://zh.gijn.org/wp-content/uploads/2015/08/nael-140x140-1.jpg"><img class="alignleft size-full wp-image-4748" src="https://zh.gijn.org/wp-content/uploads/2015/08/nael-140x140-1.jpg" alt="nael-140x140" width="140" height="140"></a>Nael Shiab毕业于加拿大国王学院大学数字新闻硕士项目。他曾在加拿大电台担任视频记者，目前是Transcontinental的数据新闻记者。他的Twitter账号为 <a href="https://twitter.com/NaelShiab" target="_blank" rel="noopener">@NaelShiab</a>
	This <a target="_blank" href="https://zh.gijn.org/stories/%e6%96%b0%e9%97%bb%e4%ba%ba%e7%bd%91%e7%bb%9c%e6%95%b0%e6%8d%ae%e9%87%87%e9%9b%86%e5%85%a5%e9%97%a8/">article</a> first appeared on <a target="_blank" href="https://gijn.org">Global Investigative Journalism Network</a> and is republished here under a Creative Commons license.
	<img id="republication-tracker-tool-source" src="https://gijn.org/?republication-pixel=true&amp;post=657947&amp;ga=UA-21528033-17">

#GIJC23 侧记：危险者的聚会

作者邹思聪 • 2024年04月11日

“如果把这两千多个人都消灭了，全世界的独裁者应该会睡个好觉。”在 GIJC23 现场，我们一直开这样的“地狱玩笑”，却又如同另类的集体心理诊疗。自由作者邹思聪在这篇侧记中讲述了三位俄罗斯流亡记者的故事——他们虽然再也无法回国，却在异乡坚持报道、建立生活。

GIJC 侧记 GIJC23

#GIJC23 侧记：哪怕空间再小，也不要停止做事

作者于月 • 2024年04月02日

在参会之前，于月想知道这个世界上有没有哪些同行和我们一样处境艰难，又是怎样克服？在听到来自世界各地的同行分享后，她觉得哪怕空间再小，也不要停止做事。

深度报道精选

深度报道精选：马诺的代价、“戒网瘾学校”虐待学生、乡村小学的性侵案

作者 Stanley Leung • 2024年03月27日

马诺的代价、“戒网瘾学校”虐待学生、乡村小学的性侵案……全球深度报道网精选了3月份几篇值得细味的深度报道。

GIJC 侧记 GIJC23 全球深度报道大会

GIJC 侧记：残缺的数据，模糊的面孔，天秤倾斜的判决——从女性杀戮报道说起

作者易小艾 • 2024年03月15日

如今我们究竟需要怎样的报道？在影响力如此受限的当下，我们究竟如何定义和看待“impact”？在报道杀戮女性的分享中，独立记者易小艾找到了部分答案：有些记录，若没有留下，真的会丢，若还有一些力气，就一起守住每一个留下记录的可能吧。

辅助功能设置

文字大小

色彩设置

阅读工具

其他

文章

新闻人网络数据采集入门

阅读相关主题的文章：

转载

阅读更多

GIJC 侧记 GIJC23

#GIJC23 侧记：危险者的聚会

GIJC 侧记 GIJC23

#GIJC23 侧记：哪怕空间再小，也不要停止做事

深度报道精选

深度报道精选：马诺的代价、“戒网瘾学校”虐待学生、乡村小学的性侵案

GIJC 侧记 GIJC23 全球深度报道大会

GIJC 侧记：残缺的数据，模糊的面孔，天秤倾斜的判决——从女性杀戮报道说起

文章

新闻人网络数据采集入门

相关资源

如何调查学术不端行为？

“有据”出品的《事实核查手册》

给女性媒体人的工作指南（八）：关于女性议题的报告

给女性媒体人的工作指南（七）：聚焦调查新闻业的女性

分享

相关资源

如何调查学术不端行为？

“有据”出品的《事实核查手册》

给女性媒体人的工作指南（八）：关于女性议题的报告

给女性媒体人的工作指南（七）：聚焦调查新闻业的女性

相关文章

#GIJC23 侧记：危险者的聚会

#GIJC23 侧记：哪怕空间再小，也不要停止做事

深度报道精选：马诺的代价、“戒网瘾学校”虐待学生、乡村小学的性侵案

GIJC 侧记：残缺的数据，模糊的面孔，天秤倾斜的判决——从女性杀戮报道说起

阅读相关主题的文章：

转载

阅读更多

GIJC 侧记 GIJC23

#GIJC23 侧记：危险者的聚会

GIJC 侧记 GIJC23

#GIJC23 侧记：哪怕空间再小，也不要停止做事

深度报道精选

深度报道精选：马诺的代价、“戒网瘾学校”虐待学生、乡村小学的性侵案

GIJC 侧记 GIJC23 全球深度报道大会

GIJC 侧记：残缺的数据，模糊的面孔，天秤倾斜的判决——从女性杀戮报道说起