炫图背后逻辑先行:可视化地图的数据标准

Print More

用可视化地图展示数据直观好看,但工作量很大——除了建立数据采集标准、维护庞大的数据库,还需要确定数据的衡量标准,考虑调整因素等。上述每一步都要避免跌入“陷阱”,因为一旦漏算现实条件,结果有误,就会误导读者。

下面是深度君精选的几个案例,从中可以学到如何严谨务实地解决数据标准问题。


噪音地图

美国最热闹的地方在哪里?看这幅噪音地图(Mapping Sound on a National Scale)一目了然:东部比西部热闹许多,辐射状的城市和交通网络是噪声源头。

1

这幅可视化地图由美国国家公园管理局(National Park Service,简称NPS)制作。他们统计了479个测量点的966组观察数据,合计超过150万小时声轨。这些数据在官网上完全公开,可供下载。

数据库这么庞大,又有白天和夜晚、夏季和冬季之分,怎样确定每个点的噪音强度以提高数据的可信性呢?

NPS首先预设,采用声音数据的时间和环境应该符合夏季、白天、温和天气状况这三个条件。

接着,他们采用了L50声压级标准下的噪声数据,如果测量点50%以上时间里的声音都超过某噪声值,此值即为当地噪声值。

这个值不是最终数据,还要进行一次加权计算(A-weighting),将数值调整为人耳实际听到的分贝值。

为了体现客观和准确,NPS在地图的介绍中标注了数据测量的误差:半数测量地点城市环境下数据误差小于1.7分贝,自然环境下误差小于3.1分贝;而由于一些不可控因素,其他地点的误差要更大一些。

通过科学家提供的数学模型,NPS还计算出了排除人类活动之后的声音地图:

2

由于与前图量度不一,这幅图采用了不同的配色,以免混淆。


恋爱地图

早恋虽美好却易逝——果真如此吗?社交网站Facebook的数据科学小组分析了本网用户信息,想知道学校对择偶的影响。他们的作品“From Classmates to Soulmates”得出结论:已婚人群中,有15%是和中学校友结为伴侣;而已婚的大学毕业生中,约28%是和大学校友喜结连理。

3love

 

 

 

 

 

 

 

 

上图是与中学校友结婚的比率,红点表示高比率,蓝点则相反。城市地区往往蓝点较多,乡村等偏僻地区则红点较多。

这个数据分析看似简单,却有许多问题:如果两人虽是校友,却并非在学校遇到,便不能证明是学校牵线搭桥;如果两人不仅上同一个中学,也上了同一个大学,哪一段相处促成了恋爱,也无法统计。另外,如何选择样本、避免系统误差,也是个问题。

针对以上问题,Facebook的分析员采取了如下预设条件:
1) 如果两人上同一所学校的时间差在4年以内,就算作学校促成了这段姻缘;学校的“做媒成功率”是s/n,s是Facebook上某校毕业生与其配偶同校的人数,n是该校已婚毕业生的配偶也提供了学校信息的人数;
2) 如果两人同上过不止一所学校,只计算最早同校的那一所;
3) 只计算年龄在24岁以上、已婚并提供完整信息的用户数据;
4) 只选择(在Facebook上登记的)有1000个以上已婚校友的学校;
5) 女性用户和男性用户数据分开统计,因此两边数据是不对等的,分析时也分开观察。

数据分析的量度也很重要。Facebook分析员选择了如下三个因素作为变量,探究学校的“做媒成功率”与这些因素的关系:
1) 学校大小;
2) 学校的宗教倾向:以-1代表完全非宗教,1代表完全宗教化;
3) 学校的政治倾向:以-2代表非常自由,2代表非常保守。

在这些前提下,一些有趣的发现包括:
1) “做媒成功率”较高的学校大部分是宗教化的学校;
2) 女性嫁给同校男生比率最高的学校是印第安纳州的罗斯-豪曼理工学院(Rose-Hulman Institute of Technology),比例达70.4%;
3) 男性娶同校女生比率最高的学校是爱荷华州的一所高中,虔诚浸会圣经学院和神学院(Faith Baptist Bible College and Theological Seminary),比例达66.8%;
4) 男生比例高的学校,“做媒成功率”高;女生比例高的学校则相反。

这个案例中,数据不是通过针对性问卷获取,因此总有不足,Facebook调查小组也列举出一些缺陷,比如无法确定两人是在学校里才开始恋爱(也可能是之前或之后),所以上述统计是十分初步的;又比如两人虽然上同一个学校,却以不同拼写标示学校名称,统计中就会显示学校不吻合,有漏记风险;再者,数据只包括在Facebook上登记了完整信息的已婚用户,本身就是一个有缺漏的样本。

4love

 

 

 

 

 

 

 

 
上图是每个大学的情况,圆圈代表大学,红色表示同校结婚者比例高,蓝色表示比例低;细线则连接了有较高比率“婚姻关系”的两个大学。(顺便推荐一个免费开源软件Gephi,这幅图就是用它制作的。)

僵尸地图

“僵尸”毁灭世界?这种科幻电影里才出现的场景似乎是无稽之谈,但康奈尔大学几个物理学和生物科技专业的学生还真把它当成了严肃的研究课题呢。他们不仅写论文论证了僵尸们只需四个月就能占领全美,而且还用GitHub做了一个互动地图网站”Zombie-town USA,让你体验操纵僵尸毁灭美国的“快感”。看看下面的介绍你就明白啦:

虽看似荒谬,但这研究其实是建立在传染病传播的科学模型之上。不过根据学生们的解释,“僵尸感染”是种特殊的传染病,被感染的人并不像一般疾病那样能够痊愈,而是会变成僵尸。而僵尸也只能在被取出脑子之后才能被杀死。因此在展开计算之前,研究者们预设了一些前提:

  • 首先,个体具有两种属性,一是地理位置,二是所处状态:人,僵尸,死僵尸;
  • 其次,个体间的互动分为三种:僵尸咬人,人杀僵尸,僵尸行走(注意这里并没有考虑人的地理位置改变,只考虑了僵尸的,说明预设中人是不选择逃走的,这也符合传染病的设定);
  • 最后,将这个模型应用于美国的3.08亿人口。

6zombie互动地图上还设置了三个可供使用者修改的参数:“杀-咬指数”代表人类和僵尸相遇时,人类能够取胜的比例,区间在0到3之间(数值越高代表人类获胜比例越大);“行走时间”代表僵尸行走一公里所需要的时长,在1到100之间;“步数”表示你希望僵尸行走的步数,在0-2000之间。

小编尝试了一下不同参数的情况,发现阻止人类灭亡的关键点还是在我们自身的战斗力:“杀-咬指数”一旦低于1,僵尸的传播就无法控制了!神奇吧?

地图的功能千变万化,掌握了以上搜集数据、制定标准的方法,不妨试着把你的奇思妙想做成可视化作品吧!


编辑/Ivan Zhai,周炜乐

Leave a Reply

Your email address will not be published. Required fields are marked *