辅助功能设置

文字大小

色彩设置

单色 柔和色 dark

阅读工具

底部遮盖 标尺

文章

每周数据新闻精选 | 数据新手“八步走” 快速入门就靠这些资源

近年,数据新闻的热潮有增无减,吸引着无数行业内外的弄潮儿。传统记者如何在数据时代转型?毫无新闻基础的数据爱好者如何跻身炙手可热的数据新闻行列?数据科学在线教育平台DataCamp的记者Karlijn Willems,最近在DataCamp发表博文,详解了数据新闻的概念,并分享了丰富的学习资源与建议,以供有志从事数据新闻、尤其是从零基础开始希望通过自学成才的人士参考。以下,深度君为你编译整理了Willems提到的“八步”自学计划与各类资源。


ProPublica副总编Scott Klein说过,一个好的数据记者应该具备这三点素质:新闻学技巧,设计才能,以及编程头脑。听起来很简单。那么,对记者的教育背景有何要求吗?“新闻学技巧”、“设计才能”和“编程头脑”的具体含义又是什么呢?

Klein表示,在ProPublica的数据团队里,大多数人的确是有新闻学位的,但那并不是必要条件。来自数学或计算机科学背景的数据记者也比比皆是。“对一个想让世界变成更好地方的数学精英来说,新闻业可以说是最好的归宿。”Klein说。

无论你来自任何教育背景,只要具备或炼得Klein所提到的三种技能,你都有机会成为一名数据记者。

ddj但这些技能并不那么容易掌握。事实上,没有几个大学课程会教你那些技能,大部分情况下你只能依靠自学。除了MOOC大数据大学课程(Big Data University)或一些数据记者开设的个人工作坊,很多数据技能培训都价格不菲,并且有的培训只对媒体里的职业数据记者或数据团队开放。

因此,如何自学,决定成败。

这里主要为数据新闻入门者整理一份自学计划,总结为八个步骤,下文还有更细致的计划分解和相关资源介绍。需谨记,这份计划只是入门贴士,每个人应当根据自己的教育背景和学习习惯再作调整。

  1. 建立广泛的知识储备;
  2. 坚持写作;
  3. 学习一些编程语言;
  4. 了解数据新闻的操作流程;
  5. 建立个人工具箱;
  6. 开始建立你的个人网络;
  7. 坚持学习;
  8. 去追求你梦想中的数据工作!

 

1.建立一个广泛的知识储备

建立知识储备的办法因人而异,其中一条路径是广泛涉猎,通过各种渠道了解未知知识。同时,保持一份好奇心,以激发你发现和学习新鲜事物动力。

广泛的知识储备不仅意味着要对时事热点有全面了解,还包括掌握数学与统计方面的基础知识。Willems建议数据记者和编辑都应该上一些统计课程。OpenIntroDataCamp就有相关课程可参考。

若想积累数据新闻方面的背景知识,Willems推荐了以下学习材料:kleinhistory

— Scott Klein讲数据新闻史,视频地址在此

–数据新闻佳作推荐,从数据同行的经验中学习:

 

2.不断写作

瞄准特定的受众,结合不同媒介的特点,快速准确地表达主题思想,传递数据的信息——这些都是数据新闻写作的难点。Willems整理了一些在线课程,为你的写作指点迷津(针对英文写作):

EdX:EdX上有很多新闻学方面的内容。“Journalism for Social Change”和 “English for Journalists: Key Concepts”都是入门好课。

Coursera:不仅有一般的新闻入门课程,还细分到不同的新闻专题。

Mediabistro和《卫报》的大师班

 

3.学习一些编程语言

学习简单的编程并不仅仅是为了挖掘信息,而更重于呈现信息。选择何种编程语言,需看你要做哪一种数据故事,或是哪一方面的数据工作。网页制作,信息挖掘,还是建立数据模型?对于编程入门者来说,或许最好的方式是先每一项都浅尝,再根据自己的兴趣深入学习某一种技能。codeschool

网页制作方面,精通JavaScript、CSS和HTML人才当下最吃香。EdXJournocode都有相关教程。

另外一门市场需求很高的技术就是Django(Python)和RubyCodeSchool上关于这两门语言的课程不能更全了。

数据记者入门清单上也绝对少不了R、SAS、SPSS和Python 。较以上介绍的语言,这几种更适合用来做数据分析与建模。DataCamp的R入门Python入门课程,比较适合初学者。SASSPSS则可分别通过点击链接获取。


4.了解数据新闻的操作流程

与一般的数据科学研究无异,数据新闻的操作流程也包括数据挖掘、数据整理、数据分析、数据可视化和报道。然而,数据新闻会更偏重于报道和叙事,而非建立数据模型。

–可视化方面的好书推荐:

耶鲁教授、数据科学家Edward Tufte的著作;

The Functional Art: An Introduction to Information Graphics and Visualization (《不只是美:信息图表设计原理与经典案例》,已翻译为中文),作者 Alberto Cairo23619128-1_u_2

Information Dashboard Design, 作者Stephen Few

–数据分析:

The Signal and the Noise: Why So Many Predictions Fail—But Some Don’t,作者Nate Silver

–数据挖掘、整理与可视化:

R和Python学习资源整理


5.建立个人工具箱

数据工具层出不穷,让人眼花缭乱。如何选择适合的工具?Willems表示,记者不必十八般武艺样样精通,但需具备快速学习的能力和意愿。

根据以上流程,Willems推荐了一些工具,让你的数据工作事半功倍。

–建立个人工作空间

开始编程的第一步,一个方便易用的代码编辑器必不可少。你可以先在VIMTextMateSublime Text,或者像RstudioSpyder这样设计较完善的集成开发系统上初试身手。还可以考虑安装Git或其他版本控制系统(versioning control system)来管理你的源代码。

–获取数据

数据是展开任何工作的基础,因此你必须知道从哪些渠道获取数据。

第一种渠道是通过记者的人际网络。

信源对于收集数据至关重要,因为通常记者会更容易发现故事而非数据。有了故事,就意味着有了寻找数据的方向。

其次是通过公开数据平台。undata

较为突出的一些资源包括联合国世界银行的数据网站。

另外,推荐数据门户(Data Portals)和数据中心(Data Hub),这两者共收录了11,000多个全球公开数据库。

政府数据方面有美国政府公开数据英国政府公开数据网站。

《卫报》的数据博客也尤其值得入门数据记者参考。

想更多了解如何利用公开数据,公开数据研究院课程(Open Data Institute Courses)和欧洲数据门户(European Data Portal)的e-learning上有很多不错的项目。

获取数据库,还可以通过邮件订阅,如美国调查记者编辑协会的NICAR数据库。

掌握SQL对进行数据库检索大有帮助。去学习使用MySQL, PostgreSQL或者SQL Server吧。TutorialsPoint上有详细教程。

除了现有的数据库,记者还可以抓取网页信息,以获得数据。这时就需要用到Python和R技能了。

最后一招,别忘了还可利用FOI(Freedom of Information“信息自由”)请求权,来获取政府公共部门与机构的相关记录。

–将得到的数据储存到个人空间

import储存数据,最基本的就是使用Excel。进阶级别的,可以使用编程语言,把数据上传并保存成.csv、.txt或其他格式的文件。Python和R的两款爬虫:scrapyrvest,还有import.io,都用于从网页上抓取数据。如果要抓取PDF文件上的数据,Tabula是所需工具。

–数据处理

数据处理的意思是以更好地分析为目的,对数据做适当的改动、清理和重构。Python的numpypandas程序包,R的dplyrc  和didyr程序包都是数据处理的神器。在清理结构冗杂的数据集方面,OpenRefine可谓功能强大而又易于上手。也推荐DataWranglerCSVKit

–数据分析

R和Python的statsmodelsstatmod可以建模。另外,DataRobotKnimeRapidMiner这三个在线平台也能帮你发掘数据的联系,建立相关模型以便分析。

–数据可视化

信息呈现,是叙事的重要一环,一些数据可视化技能必不可少。不太会编程也能“玩”起来的的可视化工具有TableauOlikviewTileMillinfogr.am、 Google Fusion、QGIS, ArcGIS等。如果你是JavaScript、Python或R语言大牛,那么使用D3.jsplotlymatplotlib 或者ggplot制图对你来说就不在话下了。

–记录你的发现

Tableau或者Qlikview都可以创建仪表盘。信息图表方面,Adobe Illustrator、Adobe Indesign或者Adobe Photoshop都是常用制图工具。对于Python和R使用者,你可以把代码和可视化存于“笔记本”,如JupyterR Markdown文档。

 

6.开始建立个人网络

想成为一名数据记者,建立个人网络有助于找故事灵感和各种指导。

以下是数据新闻界“大咖”的推特名单,值得关注:

datascientist

点击图片可查看原文,获取大咖推特链接

此外,你还可以加入Reddit群组或者LinkedIn,以便跟进最新的数据新闻。推荐Reddit上的小群/r/theydidthemath和/r/datasets。

再者,可以在这个Meetup网页上留意你所在地区附近的数据群组线下活动。通过Data Driven JournalismEuropean Journalism Center,你也可以了解你所在地区的一些数据比赛或大会。

meetupKnight-Mozilla Open News在线社群聚集了不少创新新闻开发者、设计师和数据记者,同样推荐。

 
7.坚持学习

–关注一些有趣的数据网站

政治和新闻博客类:FiveThirtyEight,《纽约时报》的The UpshotProPublica Nerd Blog

blog数据可视化:EagereyesFlowingData

数据记者和专家的个人网站:Maarten LambrechtsAlberto Lucas LopezJohn Burn-Murdoch等。

–听听相关播客

这个名叫Data Stories 的播客网站专门讲数据可视化;ProPublica总编Scott Klein曾分享过他们团队如何做数据新闻;Partially DerivativeFiveThirtyEight的播客都不错。

阅读相关书籍

数据新闻相关书籍有很多,在此推荐两本:

Getting Started with Data Journalism,作者 Claire Miller

Numbers in the Newsroom: Using Math and Statistics in News,作者Sarah Cohen

–其他学习资料

美国明尼苏达大学数据新闻教授MaryJo Webster的教学材料整理;

R,Python在线教程

–动手尝试

drivendata先开始独立做一些小项目:找一些数据,尝试分析,制作可视化,并写下你的发现。在KaggleDrivenData这两个网站上,除了能找到许多学习资源,还可以发掘有意思的数据项目,或投稿加入数据竞赛,大展身手。

下一步,尝试建立个人博客,发表作品,展示你的能力。这还会成为你简历上亮眼的一笔。

 

8.去追求你梦想中的数据工作吧!

完成了上述几个步骤,是时候考虑正式申请数据记者这份工作了。

几个找工作的网站推荐:News Nerd JobsIndeed.comNICAR listervMediabistro Job ListingsLinkedin,还有Journajobs

 

最后的建议:

对所有数据新闻入门者的最佳建议,就是如Maarten Lambrechts所说,“开始动手做数据新闻吧!”

最后送上几条小贴士:

不要气馁。万事开头难。刚起步时必定会遇到各种各样的问题,但千万不要放弃。要从实践中学习,而这需要一段过程。

从小地方起步也不要紧。有些媒体的数据团队是很小,可是又有什么关系呢,“小处”也有大学问。

慢慢来。要能判断出某些项目的价值需要经验的积累。有时你可能会花很长时间在一些数据上,到头来却没有发现任何故事。同样,建立个人网络、熟悉整套操作流程都需要长时间的积累。

 

 

编译/梁思然

编辑/Ivan Zhai

 


想了解更多数据新闻资源,敬请继续关注深度网分享。

推荐阅读:

实用信息——数据新闻

《数据新闻精选(可视化特辑)》

 

您可以根据知识共享协议条款免费转载这篇文章

转载


阅读更多

GIJC 侧记 GIJC23

#GIJC23 侧记:危险者的聚会

“如果把这两千多个人都消灭了,全世界的独裁者应该会睡个好觉。”在 GIJC23 现场,我们一直开这样的“地狱玩笑”,却又如同另类的集体心理诊疗。自由作者邹思聪在这篇侧记中讲述了三位俄罗斯流亡记者的故事——他们虽然再也无法回国,却在异乡坚持报道、建立生活。

GIJC 侧记 GIJC23

#GIJC23 侧记:哪怕空间再小,也不要停止做事

在参会之前,于月想知道这个世界上有没有哪些同行和我们一样处境艰难,又是怎样克服?在听到来自世界各地的同行分享后,她觉得哪怕空间再小,也不要停止做事。

GIJC 侧记 GIJC23 全球深度报道大会

GIJC 侧记:残缺的数据,模糊的面孔,天秤倾斜的判决——从女性杀戮报道说起

如今我们究竟需要怎样的报道?在影响力如此受限的当下,我们究竟如何定义和看待“impact”?在报道杀戮女性的分享中,独立记者易小艾找到了部分答案:有些记录,若没有留下,真的会丢,若还有一些力气,就一起守住每一个留下记录的可能吧。