文章

Quartz坏数据指南精选：处理数据的正确方式一览

作者 Christopher Groskopf • 2016年01月10日

我们拿到的数据往往有数值缺失、单位不统一或经人为操纵等问题，要是没有统计学基础，应如何一一解决呢？Quartz的记者Christopher Groskopf总结了我们处理数据时常遇到的棘手难题，结合例子给出了实用建议(Quartz Bad Data Guide,已获得Creative Commons license)，还分成数据源、使用者、第三方专家和程序员处理的类别，易懂好上手。深度君经Quartz和“数艺智训”授权，精选其中的经典问题和解决方案，帮你解除数据忧虑。

数据源应该解决的问题

数值缺失

你得谨慎对待任何数据表里出现的空白数据或无效值，除非你百分百确定其含义。如果数据是年度值，看看是不是当年的数据没被收录？如果是份调查，是不是受访者拒绝回答了问题？

每次使用包含缺失值的数据时，你应该问问自己：“我是否知道没有这个数据意味着什么？”要是不清楚，你应该向数据提供方问个明白。

缺失的数值被0代替

比数值缺失更为难办的是用任意值代替了原有数值。这种情况发生要么是因为人为改动数据时没考虑含义，要么是因为自动程序不懂处理无效值。在任何情况下，要是在数字序列中看到0，就该问问自己这个数值是指数字0，还是意味着“无意义”。如果不确定就问问数据提供方。

你所知道的数据遗失

有时候缺了数据，数据表上看不出来，但你还是能知道，是因为了解数据的意义。如果你有一个覆盖整个美国的数据集，检查一下，保证50个州的数据均在其中。（别忘了领土问题——如果数据包含波多黎各，写50就不对了）处理一个棒球运动员的数据集时，就要确保球队数量和预想的一致。拿你知道的几名队员核实看看。如果觉得有些消息缺失了，相信你的直觉，和数据源多核对几遍。你所掌握的数据范围可能比预想的要小得多。

数据粒度太粗

有时你掌握了州的数据，但要精确到县；得到了雇主信息，但需摸清雇员；或是拿到了年度数据，但想了解每月的情况。很多情况下，我们得到的数据远比我们需要的要多要杂。

数据一旦汇总，再分开就难了。如果你得到的数据太粗，就得问数据源要更具体的数字。难就难在，他们也许没有，就算有也可能给不了或者不愿意给。许多联邦级别的数据集不允许地方层级访问，目的是保护特殊人群的隐私。（例如，某个单独的索马里国民生活在西德克萨斯州。）你所要做的就是问清楚。

记住，永远别把一年的数据除以12，把得到的称为“平均每月”数据。无论如何这都是错的，千万别这么做。

你应该自己解决的问题

数据粒度太细

这和“数据粒度太粗”的问题刚好相反。此时，你拿到了县的数据，但想要整个州的，或者你得到了月份数据但你想用年度的。幸好，这问题的解决方法很简单。

数据汇总工具包括Excel或Google文档中的透视表功能、SQL数据库或自己写的代码。透视表是值得每个记者学习的好工具，但它也有局限性。处理非常庞大的数据集或汇总异常数据组时，你应该求教程序员，他们可以制定一个更容易验证和反复使用的解决方案。

人为操纵的时间范围

数据的时间范围是可以动手脚的。数据源可以通过提供含有特定起始时间的数据，有意无意地扭曲事实。2015年广泛报道的“全国犯罪浪潮”就是个有力的例子。实际上根本没有什么犯罪浪潮，只是某些城市的犯罪数量与近几年相比突然上升。如果记者们将观察的时间拉长，就会发现10年前美国各地的暴力犯罪更多，20年前的数量甚至是现在的两倍。

如果数据涵盖的时间范围有限，尽量避免从最开始的时间段开始计算。如果你选取的数据只有几年（或几个月、几天），确保你的对比结果多加一个数据点之后仍能成立。

人为操纵的参考范围

为了政治目的，机构通常将犯罪数字与犯罪率高的年份对比以操纵数据，用变化（自2004年以来下降了60%）或者指数（40，其中2004年 = 100）呈现结果。上述两种情况中，2004年不一定就是合适的对比年份，当年的犯罪率可能高得出奇。

地区比较也是如此。如果想让某个国家的情况显得恶劣，只要把它的数据和表现最优异的国家一比就得逞了。

归根结底，这种现象往往出现含有严重偏见的议题中。（正如犯罪率问题，好多人难免在心里嘀咕“跟我想的一样，犯罪率就是上升了！”）只要有机会，就试试以不同时间为起点，看数字如何随之变化。无论你打算怎么处理数据，千万用这种方法刻意去证明你认为重要的观点。这就太过了。

第三方专业人士应该帮你解决的问题

存在令人费解的离群值

我最近创建了一个数据集来统计互联网信息的传递时长。所有时长都在0.05至0.8秒之间，只有三个例外，且每个都超过了5000秒。通常这是数据生产出错的红色警告。果不其然，这次是因为我写的代码出了错，导致一些计时停止，而其他信息仍在正常传送和接收。

尤其是计算平均数时，像这样的离群值会严重扭曲统计结果。（因此我们应该用中位数）每当得到一个新数据集，最好检查最大值和最小值，确保它们在合理范围内。如果数据合理，你可能也想用标准差或中位差做更严谨的数据分析。

出现离群值还有个好处：离群值往往是寻找新闻头条的绝佳方式。如果真的有个国家在网上发一条消息要花5000倍的时间，这不就是一个好故事吗？

指数掩盖了潜在差异

分析师如果想跟踪某个问题的发展趋势，通常会创建不同标准的指数以追踪进展。指数的解释力很强，用它本身没有问题。但重要的是要格外小心不同度量值组成的指数。

例如，联合国性别不平等指数（Gender Inequality Index）包含了与女性平等进展有关的几个量度。其中一个是“议会中女性代表的比例”。世界上有两个国家的法律规定了议会中的性别代表比例：中国和巴基斯坦。结果这两个国家的指数表现远高于其它国家，尽管所有国家在其它方面都不相上下。这公平吗？这里讨论公不公平意义不大，因为不知道这个影响因素，就不会明白这里的“公平”意味着什么。GII等不平等指数在使用时需严谨分析，以保证潜在变量不会意外地改变指数。

太完美的数据往往不真实

现在还不存在公共舆论的全球数据集，也没有人知道生活在西伯利亚的确切人口数。犯罪数据跨了国界，就毫无可比性。美国政府也不会破天荒地告诉你它持有多少核材料。

以上例子告诉我们，要是遇上任何数据自称能代表你不可能知道的事物，务必要谨慎。它不是数据，而是某些人的估计，很可能是错的。但……它可能是条新闻，因此还是找专业人士验证靠谱。

程序员能帮你解决的问题

数据汇总到错误的分类或地理区域

有时你的数据粗细程度刚好适中（既不太粗也不太细），但有时被汇总到了你不想要的组别。有个经典的例子是，本来数据是按邮政编码汇总的，而你更想按照城市街区来分。在很多情况下，要是不能得到更细粒度的数据，问题就没法解决。但有时数据可以按比例从一个组映射到另一个，可以由此推算数据。在此之前，得弄清楚这个过程可能引入的误差范围。如果你得到的数据汇总错了类别，咨询程序员是否可以重新汇总。

扫描文档中的数据

多亏信息自由法案，很多时候可以要求政府提供数据——即使他们真的不想这么做。这时，政府常见的手法是给你页面的扫描件或照片。它们可能是图像文件，更有可能是集合制成的PDF文件。

我们可以从图像中提取文本、变回数据。这个过程叫做“光学字符识别（OCR）”。现代OCR的准确度常常能接近100%，但很大程度上取决于文档的质量。每次用OCR提取数据，你都得核实一下识别结果是不是和原始文件一致。

现在有很多网站支持文件上传作光学识别。也可以用免费软件，程序员根据文件特点帮你调整软件特性，提高准确度。问问他们你的文件怎么处理最合适。

编辑/周炜乐王一苇

本作品采用知识共享许可协议署名-禁止演绎 4.0 国际进行许可

您可以根据知识共享协议条款免费转载这篇文章

阅读相关主题的文章：

Quartz 数据数据处理数据粒度

转载

This work is licensed under a Creative Commons Attribution-NoDerivatives 4.0 International License

<h2>Quartz坏数据指南精选：处理数据的正确方式一览</h2> 作者 Christopher Groskopf for Global Investigative Journalism Network &bull; 2016年01月10日 我们拿到的数据往往有数值缺失、单位不统一或经人为操纵等问题，要是没有统计学基础，应如何一一解决呢？Quartz的记者<a href="http://qz.com/author/chrisqz/" target="_blank" rel="noopener">Christopher Groskopf</a>总结了我们处理数据时常遇到的棘手难题，结合例子给出了实用建议(<a href="http://qz.com/572338/the-quartz-guide-to-bad-data/" target="_blank" rel="noopener">Quartz Bad Data Guide</a>,已获得Creative Commons&nbsp;license)，还分成数据源、使用者、第三方专家和程序员处理的类别，易懂好上手。深度君经Quartz和&ldquo;数艺智训&rdquo;授权，精选其中的经典问题和解决方案，帮你解除数据忧虑。<hr>数据源应该解决的问题 
 
数值缺失<a href="https://zh.gijn.org/wp-content/uploads/2016/01/11.jpg"><img class="alignright size-full wp-image-5825" src="https://zh.gijn.org/wp-content/uploads/2016/01/11.jpg" alt="1" width="300" height="200"></a>你得谨慎对待任何数据表里出现的空白数据或无效值，除非你百分百确定其含义。如果数据是年度值，看看是不是当年的数据没被收录？如果是份调查，是不是受访者拒绝回答了问题？每次使用包含缺失值的数据时，你应该问问自己：&ldquo;我是否知道没有这个数据意味着什么？&rdquo;要是不清楚，你应该向数据提供方问个明白。 缺失的数值被0代替比数值缺失更为难办的是用任意值代替了原有数值。这种情况发生要么是因为人为改动数据时没考虑含义，要么是因为自动程序不懂处理无效值。在任何情况下，要是在数字序列中看到0，就该问问自己这个数值是指数字0，还是意味着&ldquo;无意义&rdquo;。如果不确定就问问数据提供方。你所知道的数据遗失有时候缺了数据，数据表上看不出来，但你还是能知道，是因为了解数据的意义。如果你有一个覆盖整个美国的数据集，检查一下，保证50个州的数据均在其中。（别忘了领土问题&mdash;&mdash;如果数据包含波多黎各，写50就不对了）处理一个棒球运动员的数据集时，就要确保球队数量和预想的一致。拿你知道的几名队员核实看看。如果觉得有些消息缺失了，相信你的直觉，和数据源多核对几遍。你所掌握的数据范围可能比预想的要小得多。数据粒度太粗<a href="https://zh.gijn.org/wp-content/uploads/2016/01/2.jpg"><img class=" wp-image-5826 alignright" src="https://cn.gijn.org/wp-content/uploads/2016/01/2-771x513.jpg" alt="2" width="383" height="255"></a>有时你掌握了州的数据，但要精确到县；得到了雇主信息，但需摸清雇员；或是拿到了年度数据，但想了解每月的情况。很多情况下，我们得到的数据远比我们需要的要多要杂。数据一旦汇总，再分开就难了。如果你得到的数据太粗，就得问数据源要更具体的数字。难就难在，他们也许没有，就算有也可能给不了或者不愿意给。许多联邦级别的数据集不允许地方层级访问，目的是保护特殊人群的隐私。（例如，某个单独的索马里国民生活在西德克萨斯州。）你所要做的就是问清楚。记住，永远别把一年的数据除以12，把得到的称为&ldquo;平均每月&rdquo;数据。无论如何这都是错的，千万别这么做。你应该自己解决的问题数据粒度太细这和&ldquo;数据粒度太粗&rdquo;的问题刚好相反。此时，你拿到了县的数据，但想要整个州的，或者你得到了月份数据但你想用年度的。幸好，这问题的解决方法很简单。数据汇总工具包括Excel或Google文档中的透视表功能、SQL数据库或自己写的代码。透视表是值得每个记者学习的好工具，但它也有局限性。处理非常庞大的数据集或汇总异常数据组时，你应该求教程序员，他们可以制定一个更容易验证和反复使用的解决方案。人为操纵的时间范围<a href="https://zh.gijn.org/wp-content/uploads/2016/01/3-time-frame.jpg"><img class=" wp-image-5827 alignleft" src="https://zh.gijn.org/wp-content/uploads/2016/01/3-time-frame.jpg" alt="3-time frame" width="378" height="222"></a>数据的时间范围是可以动手脚的。数据源可以通过提供含有特定起始时间的数据，有意无意地扭曲事实。2015年广泛报道的&ldquo;全国犯罪浪潮&rdquo;就是个有力的例子。实际上根本没有什么犯罪浪潮，只是某些城市的犯罪数量与近几年相比突然上升。如果记者们将观察的时间拉长，就会发现10年前美国各地的暴力犯罪更多，20年前的数量甚至是现在的两倍。如果数据涵盖的时间范围有限，尽量避免从最开始的时间段开始计算。如果你选取的数据只有几年（或几个月、几天），确保你的对比结果多加一个数据点之后仍能成立。人为操纵的参考范围为了政治目的，机构通常将犯罪数字与犯罪率高的年份对比以操纵数据，用变化（自2004年以来下降了60%）或者指数（40，其中2004年 = 100）呈现结果。上述两种情况中，2004年不一定就是合适的对比年份，当年的犯罪率可能高得出奇。地区比较也是如此。如果想让某个国家的情况显得恶劣，只要把它的数据和表现最优异的国家一比就得逞了。归根结底，这种现象往往出现含有严重偏见的议题中。（正如犯罪率问题，好多人难免在心里嘀咕&ldquo;跟我想的一样，犯罪率就是上升了！&rdquo;）只要有机会，就试试以不同时间为起点，看数字如何随之变化。无论你打算怎么处理数据，千万用这种方法刻意去证明你认为重要的观点。这就太过了。第三方专业人士应该帮你解决的问题存在令人费解的离群值我最近创建了一个数据集来统计互联网信息的传递时长。所有时长都在0.05至0.8秒之间，只有三个例外，且每个都超过了5000秒。通常这是数据生产出错的红色警告。果不其然，这次是因为我写的代码出了错，导致一些计时停止，而其他信息仍在正常传送和接收。<a href="https://zh.gijn.org/wp-content/uploads/2016/01/4-outliers.jpg"><img class="alignright wp-image-5828" src="https://zh.gijn.org/wp-content/uploads/2016/01/4-outliers.jpg" alt="4-outliers" width="371" height="166"></a>尤其是计算平均数时，像这样的离群值会严重扭曲统计结果。（因此我们应该用中位数）每当得到一个新数据集，最好检查最大值和最小值，确保它们在合理范围内。如果数据合理，你可能也想用标准差或中位差做更严谨的数据分析。出现离群值还有个好处：离群值往往是寻找新闻头条的绝佳方式。如果真的有个国家在网上发一条消息要花5000倍的时间，这不就是一个好故事吗？指数掩盖了潜在差异分析师如果想跟踪某个问题的发展趋势，通常会创建不同标准的指数以追踪进展。指数的解释力很强，用它本身没有问题。但重要的是要格外小心不同度量值组成的指数。<a href="https://zh.gijn.org/wp-content/uploads/2016/01/5-gender-inequality-index.png"><img class=" wp-image-5829 aligncenter" src="https://cn.gijn.org/wp-content/uploads/2016/01/5-gender-inequality-index-771x385.png" alt="5-gender inequality index" width="590" height="295"></a>例如，联合国性别不平等指数（Gender Inequality Index）包含了与女性平等进展有关的几个量度。其中一个是&ldquo;议会中女性代表的比例&rdquo;。世界上有两个国家的法律规定了议会中的性别代表比例：中国和巴基斯坦。结果这两个国家的指数表现远高于其它国家，尽管所有国家在其它方面都不相上下。这公平吗？这里讨论公不公平意义不大，因为不知道这个影响因素，就不会明白这里的&ldquo;公平&rdquo;意味着什么。GII等不平等指数在使用时需严谨分析，以保证潜在变量不会意外地改变指数。太完美的数据往往不真实现在还不存在公共舆论的全球数据集，也没有人知道生活在西伯利亚的确切人口数。犯罪数据跨了国界，就毫无可比性。美国政府也不会破天荒地告诉你它持有多少核材料。以上例子告诉我们，要是遇上任何数据自称能代表你不可能知道的事物，务必要谨慎。它不是数据，而是某些人的估计，很可能是错的。但&hellip;&hellip;它可能是条新闻，因此还是找专业人士验证靠谱。程序员能帮你解决的问题 
 
 数据汇总到错误的分类或地理区域<a href="https://zh.gijn.org/wp-content/uploads/2016/01/6-data-geographics.png"><img class="alignright wp-image-5830" src="https://zh.gijn.org/wp-content/uploads/2016/01/6-data-geographics.png" alt="6-data geographics" width="382" height="185"></a>有时你的数据粗细程度刚好适中（既不太粗也不太细），但有时被汇总到了你不想要的组别。有个经典的例子是，本来数据是按邮政编码汇总的，而你更想按照城市街区来分。在很多情况下，要是不能得到更细粒度的数据，问题就没法解决。但有时数据可以按比例从一个组映射到另一个，可以由此推算数据。在此之前，得弄清楚这个过程可能引入的误差范围。如果你得到的数据汇总错了类别，咨询程序员是否可以重新汇总。扫描文档中的数据多亏信息自由法案，很多时候可以要求政府提供数据&mdash;&mdash;即使他们真的不想这么做。这时，政府常见的手法是给你页面的扫描件或照片。它们可能是图像文件，更有可能是集合制成的PDF文件。我们可以从图像中提取文本、变回数据。这个过程叫做&ldquo;光学字符识别（OCR）&rdquo;。现代OCR的准确度常常能接近100%，但很大程度上取决于文档的质量。每次用OCR提取数据，你都得核实一下识别结果是不是和原始文件一致。现在有很多网站支持文件上传作光学识别。也可以用免费软件，程序员根据文件特点帮你调整软件特性，提高准确度。问问他们你的文件怎么处理最合适。<hr>编辑/周炜乐 &nbsp; &nbsp;王一苇
	This <a target="_blank" href="https://zh.gijn.org/stories/quartz%e5%9d%8f%e6%95%b0%e6%8d%ae%e6%8c%87%e5%8d%97%e7%b2%be%e9%80%89%ef%bc%9a%e5%a4%84%e7%90%86%e6%95%b0%e6%8d%ae%e7%9a%84%e6%ad%a3%e7%a1%ae%e6%96%b9%e5%bc%8f%e4%b8%80%e8%a7%88/">article</a> first appeared on <a target="_blank" href="https://gijn.org">Global Investigative Journalism Network</a> and is republished here under a Creative Commons license.
	<img id="republication-tracker-tool-source" src="https://gijn.org/?republication-pixel=true&amp;post=657947&amp;ga=UA-21528033-17">

#GIJC23 侧记：危险者的聚会

作者邹思聪 • 2024年04月11日

“如果把这两千多个人都消灭了，全世界的独裁者应该会睡个好觉。”在 GIJC23 现场，我们一直开这样的“地狱玩笑”，却又如同另类的集体心理诊疗。自由作者邹思聪在这篇侧记中讲述了三位俄罗斯流亡记者的故事——他们虽然再也无法回国，却在异乡坚持报道、建立生活。

GIJC 侧记 GIJC23

#GIJC23 侧记：哪怕空间再小，也不要停止做事

作者于月 • 2024年04月02日

在参会之前，于月想知道这个世界上有没有哪些同行和我们一样处境艰难，又是怎样克服？在听到来自世界各地的同行分享后，她觉得哪怕空间再小，也不要停止做事。

深度报道精选

深度报道精选：马诺的代价、“戒网瘾学校”虐待学生、乡村小学的性侵案

作者 Stanley Leung • 2024年03月27日

马诺的代价、“戒网瘾学校”虐待学生、乡村小学的性侵案……全球深度报道网精选了3月份几篇值得细味的深度报道。

GIJC 侧记 GIJC23 全球深度报道大会

GIJC 侧记：残缺的数据，模糊的面孔，天秤倾斜的判决——从女性杀戮报道说起

作者易小艾 • 2024年03月15日

如今我们究竟需要怎样的报道？在影响力如此受限的当下，我们究竟如何定义和看待“impact”？在报道杀戮女性的分享中，独立记者易小艾找到了部分答案：有些记录，若没有留下，真的会丢，若还有一些力气，就一起守住每一个留下记录的可能吧。

辅助功能设置

文字大小

色彩设置

阅读工具

其他

文章

Quartz坏数据指南精选：处理数据的正确方式一览

阅读相关主题的文章：

转载

阅读更多

GIJC 侧记 GIJC23

#GIJC23 侧记：危险者的聚会

GIJC 侧记 GIJC23

#GIJC23 侧记：哪怕空间再小，也不要停止做事

深度报道精选

深度报道精选：马诺的代价、“戒网瘾学校”虐待学生、乡村小学的性侵案

GIJC 侧记 GIJC23 全球深度报道大会

GIJC 侧记：残缺的数据，模糊的面孔，天秤倾斜的判决——从女性杀戮报道说起

文章

Quartz坏数据指南精选：处理数据的正确方式一览

相关资源

如何调查学术不端行为？

“有据”出品的《事实核查手册》

给女性媒体人的工作指南（八）：关于女性议题的报告

给女性媒体人的工作指南（七）：聚焦调查新闻业的女性

分享

相关资源

如何调查学术不端行为？

“有据”出品的《事实核查手册》

给女性媒体人的工作指南（八）：关于女性议题的报告

给女性媒体人的工作指南（七）：聚焦调查新闻业的女性

相关文章

#GIJC23 侧记：危险者的聚会

#GIJC23 侧记：哪怕空间再小，也不要停止做事

深度报道精选：马诺的代价、“戒网瘾学校”虐待学生、乡村小学的性侵案

GIJC 侧记：残缺的数据，模糊的面孔，天秤倾斜的判决——从女性杀戮报道说起

阅读相关主题的文章：

转载

阅读更多

GIJC 侧记 GIJC23

#GIJC23 侧记：危险者的聚会

GIJC 侧记 GIJC23

#GIJC23 侧记：哪怕空间再小，也不要停止做事

深度报道精选

深度报道精选：马诺的代价、“戒网瘾学校”虐待学生、乡村小学的性侵案

GIJC 侧记 GIJC23 全球深度报道大会

GIJC 侧记：残缺的数据，模糊的面孔，天秤倾斜的判决——从女性杀戮报道说起