文章

•

主题

» 数据新闻

数据“去识别”指南：如何在报道中保护隐私信息？

作者 Vojtech Sedlak • 2020年11月25日

English

图：Pixabay

追踪和报道新闻时，记者需要保护消息来源的身份。许多的重磅报道都坚守着这个规则，即便是在披露关键信息和保护消息来源（特别是当消息人士正面临人身安全风险）之间取得平衡通常不易。

当今这个无处不在收集数据的时代，这种挑战尤其凸出。计算机技术的发展，让人们可以处理海量数据，同时造就人们以数据牟利、实施监控等。在众多事例中，原来被视为基本需求的个人隐私反而被视作障碍。从“剑桥分析”（Cambridge Analytica）挪用个人数据进行定点广告投放，到智能设备被用于侵入式数据跟踪，众多事例反映出，随着数据不断被盗取和外泄，人们似乎对保护隐私逐渐麻木。

当可获取数据前所未有的多，记者在报道时也愈来愈依赖数据。不过，记者除了考虑怎样保护机密消息来源，也要衡量如何发布数据，才不会泄露不必要的个人信息。就大多数新闻故事而言，记者可能有需要披露部分个人信息，但没必要点名庞大数据中的每个个体，如是者可以采取“去识别”（de-identification）或“匿名化”（anonymization）来保护个人隐私。

何谓个人信息？

虽然2000年代末期的法律改革确立了对个人信息的定义，但有意无意的数据外泄事件依然持续发生，并且危害着个人隐私，而新闻工作者长期扮演揭发这些外泄事件的重要角色。“美国线上”（AOL）于2006年公布数以百万计的网络搜寻数据，记者单凭个人搜寻记录，包括健康状况、约会偏好等敏感信息，就能整理出个别人士的身份信息。同样，中央情报局前雇员斯诺登（Edward Snowden）披露美国国家安全局（NSA）的大规模监控行动之后，各项研究纷纷揭示通信元资料如何被用于识别及监控通讯设备用户。

当记者决定以数据集作为新闻故事的消息来源，他们就肩负起权衡信息敏感度的责任。要作出准确的评估，首先要了解什么是个人信息，什么不是。

“个人可识别信息”（Personally identifiable information，PII）在欧洲法律上以“个人数据”（personal data）来指涉，而在其他部分司法管辖区则以“个人信息”（personal information）来指涉。“个人可识别信息”通常被理解为可以直接识别个人的任何信息，这些信息按不同程度的可识别度和敏感度，处于图谱上的不同位置。例如，姓名、电邮地址等信息的可识别度高，但低敏感度低，发布这些信息通常不会危害个人；相对地，位置数据、个人健康记录等信息的可识别度低，但敏感度高。为了方便说明，我们可以因应可识别度和敏感度，在图谱上定位各种类型的“个人可识别信息”。

“个人可识别信息”通常被理解为可以直接识别个人的任何信息。图：Datajournalism.com

“个人可识别信息”的可识别度和敏感度，同时取决于文本背景和数据混合后产生的复合效果。例如，发布 Facebook 粉丝数据库中的某君姓名，可能只会产生低风险，但发布一份政治异议人士名单上的某君姓名，带来的风险就会大大增加。多项数据结合应用时，信息的价值也会出现变化，例如单看一个购买记录数据库，很难连系到任何特定个人，但结合位置信息或信用卡号码，可识别度和敏感度则会大大提高。

2016年有这样的一个事例：澳大利亚卫生部发布了一批“去识别”药物数据，数据限定用于学术研究，只让学者解密部分信息；然而当地隐私专员认为，这依然构成个人信息被曝光的可能，因此介入调查。同样在2016年，BuzzFeed 就职业网球员的欺诈行为进行调查报道，并且发布了经过“匿名化”处理的相关数据；然而，一群大学生结合利用其他公开数据，成功“再识别”出报道中没有点名的涉事网球员。这此事例说明，新闻工作者要准确判断数据集中的个人信息性质，就必须兼顾评估数据集包含的信息，以及可能已经公开的其他信息。

尽管这些网球球员的姓名经过了匿名化的处理, 然而，一群大学生结合利用其他公开数据，成功“再识别”出报道中没有点名的涉事网球员. 图：Datajournalism.com

何谓“去识别”？

为了隐藏消息来源的身份，新闻工作者可能会以匿名或化名来处理，例如“水门事件”报道中所使用的“深喉”（Deep Throat）。处理信息时，删除个人信息的过程被称为“去识别”（de-identification），或在一些司法管辖区被称为“匿名化”（anonymization）。早在互联网诞生前，新闻工作者已在应用“去识别”技术，例如在外泄文件上涂掉某些姓名。时至今天，新闻工作者配备了更多崭新的“去识别”方法和工具，可以在数字环境中保护隐私，同时更便于分析和处理前所未有的庞大数据。

“去识别”的目的就是防止“再识别”（re-identification），换句话说就是将数据“匿名化”，令数据无法被用于识别任何个人。虽然“匿名化”在法律上存在一些定义，但实质的规范和操作，通常建基于不同行业的规矩。例如在美国，医疗保健记录受《健康保险便利和责任法案》（HIPAA）的规范，病人姓名、住址、社会安全号码等直接标识必须经过“匿名化”处理。而在欧盟地区，《一般资料保护规范》（GDPR）规定姓名、住址、电邮地址等直接标识，以及工作职衔、邮政编码等间接标识，均要作“匿名化”处理。

编写新闻故事时，记者需要判断哪些信息属于关键，哪些信息可以忽略。一般来说，愈有价值的信息愈是敏感。例如，医学研究人员必须掌握临床诊断数据和其他医药数据，尽管这些数据很可能与特定个人存在联系，属于高度敏感数据。为了在数据的实用性和敏感度之间取得平衡，记者在决定发布哪些内容时，可以采取适用的“去识别”技术。

数据改写（Data Redaction）

一份 CIA 数据改写的文档. 图片: Wikimedia

最简单的数据库“去识别”方法，是直接删除所有个人或敏感数据。“数据改写”存在一个明显的缺点，就是可能丢失一些有价值信息，不过这种方法一般用于处理直接标识，例如姓名、地址、社会安全号码，而这些数据通常并非新闻故事的症结所在。

然而，随着科技日益进步及可用数据不断增加，间接标识的可识别度也持续提高。单靠“数据改写”来处理直接标识，往往会忽略间接标识，因此记者不应以此作为“去识别”的单一手段。

假名化（Pseudonymization）

某些情况下，“数据改写”会破坏数据的实用性。要解决这个问题，可以采取“假名化”，也就是以随机或演算法生成的假名来替代可识别数据。“假名化”的最常用技术是杂凑（hashing）和加密（encryption），前者利用数学函式将数据单向转换成不可读的散列信息，后者则以双向算法转换来处理数据。换言之，杂凑与加密的主要区别在于，前者是不可逆向破解的，而后者可凭正确金钥来解密。许多数据库管理系统，例如 MySQL 和 PostgreSQL，都同时提供杂凑和加密两种数据处理方法。

在国际调查记者同盟（ICIJ）进行离岸解密调查的过程中，数据“假名化”发挥了重要的作用。由于记者需要处理海量数据，他们依赖于外泄文件中每个个人与实体之间的独特代码，来辨识不同个人和实体之间的关系，即使两者名称并不匹配，这些“假名化”代码也能发挥作用。

信息怎样才算经过妥善的“假名化”处理？答案是在不参考其他数据之下，该项信息无法再被连系上某个个体。换句话说，当“假名化”数据与其他数据被集结在一起相互参考，“假名化”作为“去识别”手段的效能依然有可能被削弱。就算是在整个数据集中重复使用相同的假名，由于假名每次出现，找出变项之间关系的机会就会提高，“假名化”的效能也会因此减低。还有一些情况是，用于生成假名的演算法有机会被第三方破解，或者演算法本身就有漏洞。因此，新闻工作者采取“假名化”来隐藏个人数据时，还是应该格外慎重。

统计噪声（Statistical Noise）

由于“数据改写”和“假名化”均存在被“再识别”的风险，人们经常会配合“统计噪声”一并运用，例如“k-匿名化”（k-anonymity）。这种方法以一个间接标识来指涉一定数量的个体，最佳做法是对不少于十个条目使用同一个独特标识，从而使“再识别”变得困难。在数据集加入“统计噪声”的最常用技术是“概括化”（generalization），例如以大洲替代国家名称、以数值范围替代准确数值等。

此外，“数据改写”和“假名化”经常与“统计噪声”一并应用，以确保数据集中不存在唯一的标识组合。在以下的例子中，个别行例的数据经过概括或删除处理，防止特定条目被“再识别”。

通过“统计噪声”可以防止数据被“再识别”. 图: Datajournalism.com

数据汇总（Data Aggregation）

假如没有必要保留原始数据的完整性，记者可以通过“数据汇总”来进行“去识别”，例如以摘要形式发布数据，从而省略任何直接或间接标识。进行“数据汇总”时，主要考虑是汇总份量是否够大，是否足以隐藏当中的特定个体。假如能将多个维度的汇总数据组合在一起，“去识别”的效能也会更大。

“去识别”的工作流程

临近截稿死线，不少记者会忙于评估数据质量、决定如何将数据图像化，而将数据的“去识别”工作置于次要。不过，在新闻发布过程中保障个人隐私还是至关重要的，特别是个人数据的不当处理可能会破坏新闻作品的可信度，而负责收集和处理相关数据也可能要承受相关法律责任。因此，新闻工作者应该采取以下步骤，将“去识别”纳入工作流程：

我的数据集中，是否包含个人信息？

假如你处理的是天气数据、体育统计数据等公开信息，自然毋须烦恼如何进行“去识别”；假如涉及个人姓名、社会安全号码等数据，披露隐私的风险则会明显提升。我们更常遇到的情况是，必须经过仔细检查，才能确定数据到底是否涉及个人信息，特别是当我们处理的是外泄数据，正如 Susan McGregor 和 Alice Brennan 在这篇文章所介绍的。除了直接标识，新闻工作者还应密切注意数据集是否存在间接标识，例如 IP 地址、工作信息、地理位置记录等。根据经验，任何与个人有关的信息，都应被视作存在披露隐私风险，并采取相应措施。

这项数据有多敏感？可识别度有多高？

个人信息存在多少披露隐私风险，取决于它所存在的文本背景，包括它能否与其他数据对照解读。因此，新闻工作者需要评估两件事：一、数据的可识别度有多高；二、数据中的个人隐私有多敏感。

记者可以自问：某人会否因为与这则新闻故事的关连，而面临安全或声誉受损？手头上的数据，有可能被结合其他数据一并解读，进而令某人的身份曝光吗？假如是这样，发布这些数据能够带来的公众利益，是否大于披露隐私所产生的风险呢？当然，就不同的事例还要采取不同的处理方式，才能在公众利益与个人隐私之间取得平衡。

该以怎样的方式发布数据？

互联网诞生之前，新闻工作者通过印刷物发表报道，不必为怎样发布数据而烦恼，因为读者无法通过印刷图表和统计数字追查背后的数据信息。随着数据新闻学进占前沿位置，先进工具、互动视频等，让读者可以考究新闻故事所采用的数据信息。例如许多记者选择开源方式，在 GitHub 上分享代码和数据。为了兼顾保护隐私，开源时务必仔细清除数据中的所有个人信息。至于数据图像化，一些新闻工作者会借助混淆原始数据集的预汇总数据来保障隐私，其中关键是检查这些汇总项目是否超过可识别的最低门槛。

该采取哪一种“去识别”技术？

新闻工作者一般要结合使用多种“去识别”技术，才能妥善处理手头上的数据。对于直接标识，如能正确采取“数据改写”和“假名化”，一般就足以保护个人隐私。对于间接标识，可以考虑将数据归纳成组，或者将非关键信息“概括化”，也就是加入“统计噪声”。对于高度敏感数据，“数据汇总”是最佳选项，不过必须确保数据的范围够广、汇总变项的分布够均匀，从而保证个人信息不在无意中外泄。

以身作则：我们没有借口回避“去识别”工作

数据一经网络发布，就没有修订或更正的余地。即便你认定已经清除数据集的所有个人信息，依然会存在风险——某地某人可能结合你的数据和其他来源的信息，成功“再识别”特定个体，或者破解你的“匿名化”演算法，成功曝光背后隐藏的个人信息。另外，机器学习、图型识别等技术持续进步，也发展出令人意想不到的组合和转换数据新方法，令个人信息被“再识别”的风险持续提升。

要谨记的是，就算是看起来不像个人信息的数据点，只要结合其他数据，也有可能被用于“再识别”。当网飞（Netflix）推出“网飞奖”，公开征集最佳的协同过滤演算法时，也标榜可用数据不存在任何个人信息标识。然而，外界还是能够通过比对参照网路电影资料库（IMDb）等网上来源的数据，例如个人观影偏好信息，来识别网飞号称“匿名化”数据集中的特定个体。

虽然现存的各种“去识别”技术都有局限，新闻工作者仍然应尽最大努力保护个人隐私。以身作则，国际调查记者同盟处理海量的个人数据时，始终注重保护隐私。来自任何背景的新闻工作者，都没有不采取类似措施，以平衡个人隐私与公众利益的借口。

再者，从婚外情社交网站 Ashley Madison 资料外泄所引发的众多个人悲剧，到“维基解密”（Wikileaks）所曝光的大量敏感数据，已有太多例子显示，不采取保护隐私的措施，就有可能导致个人信息外泄，进而引起掀然大波。因此，新闻工作者应该倡导负责任的数据处理方法，以避免重蹈覆辙。

本文首发于 Datajournalism.com，全球深度报道网获授权编译转载。

Vojtech Sedlak 是数据科学家，目前任职于非营利组织 SumOfUs，组织以制衡持续壮大的商业企业力量为宗旨。Vojtech Sedlak 曾在 Mozilla 及 OpenMedia 工作，热衷于 RStudio、measure slack、开放资料社群，也是开源代码分析的忠实拥护者。

本作品采用知识共享许可协议署名-禁止演绎 4.0 国际进行许可

您可以根据知识共享协议条款免费转载这篇文章

阅读相关主题的文章：

开源调查数据新闻调查报道隐私保护

转载

This work is licensed under a Creative Commons Attribution-NoDerivatives 4.0 International License

<h2>数据&ldquo;去识别&rdquo;指南：如何在报道中保护隐私信息？</h2> 作者 <a href="https://twitter.com/vojtechsedlak">Vojtech Sedlak</a> for Global Investigative Journalism Network &bull; 2020年11月25日 <a href="https://gijn.org/2020/10/20/how-data-journalists-can-use-anonymization-to-protect-privacy/">English</a>追踪和报道新闻时，记者需要保护消息来源的身份。许多的重磅报道都坚守着这个规则，即便是在披露关键信息和保护消息来源（特别是当消息人士正面临人身安全风险）之间取得平衡通常不易。<aside class="module align-right half type-pull-quote">当记者决定以数据集作为新闻故事的消息来源，他们就肩负起权衡信息敏感度的责任。</aside>当今这个无处不在收集数据的时代，这种挑战尤其凸出。计算机技术的发展，让人们可以处理海量数据，同时造就人们以数据牟利、实施监控等。在众多事例中，原来被视为基本需求的个人隐私反而被视作障碍。从<a href="https://www.theguardian.com/news/2018/mar/17/cambridge-analytica-facebook-influence-us-election">&ldquo;剑桥分析&rdquo;（Cambridge Analytica）</a>挪用个人数据进行<a href="https://foundation.mozilla.org/en/privacynotincluded/">定点广告投放</a>，到智能设备被用于侵入式数据跟踪，众多事例反映出，随着数据不断被盗取和外泄，人们似乎对保护隐私逐渐麻木。当可获取数据前所未有的多，记者在报道时也愈来愈依赖数据。不过，记者除了考虑怎样保护机密消息来源，也要衡量如何发布数据，才不会泄露不必要的个人信息。就大多数新闻故事而言，记者可能有需要披露部分个人信息，但没必要点名庞大数据中的每个个体，如是者可以采取<a href="https://en.wikipedia.org/wiki/De-identification">&ldquo;去识别&rdquo;（de-identification）</a>或&ldquo;匿名化&rdquo;（anonymization）来保护个人隐私。<h4>何谓个人信息？</h4>虽然2000年代末期的法律改革确立了对个人信息的定义，但有意无意的数据外泄事件依然持续发生，并且危害着个人隐私，而新闻工作者长期扮演揭发这些外泄事件的重要角色。&ldquo;美国线上&rdquo;（AOL）于2006年公布数以百万计的网络搜寻数据，记者单凭个人搜寻记录，包括健康状况、约会偏好等敏感信息，就能<a href="https://www.nytimes.com/2006/08/09/technology/09aol.html">整理出个别人士的身份信息</a>。同样，中央情报局前雇员斯诺登（Edward Snowden）披露美国国家安全局（NSA）的大规模监控行动之后，各项研究纷纷揭示通信元资料如何被用于<a href="https://www.schneier.com/blog/archives/2018/07/identifying_peo_8.html">识别及监控通讯设备用户</a>。<aside class="module align-right half type-pull-quote">发布 Facebook 粉丝数据库中的某君姓名，可能只会产生低风险，但发布一份政治异议人士名单上的某君姓名，带来的风险就会大大增加。</aside>当记者决定以数据集作为新闻故事的消息来源，他们就肩负起权衡信息敏感度的责任。要作出准确的评估，首先要了解什么是个人信息，什么不是。<a href="https://en.wikipedia.org/wiki/Personal_data">&ldquo;个人可识别信息&rdquo;</a>（Personally identifiable information，PII）在欧洲法律上以&ldquo;个人数据&rdquo;（personal data）来指涉，而在其他部分司法管辖区则以&ldquo;个人信息&rdquo;（personal information）来指涉。&ldquo;个人可识别信息&rdquo;通常被理解为可以直接识别个人的任何信息，这些信息按不同程度的可识别度和敏感度，处于图谱上的不同位置。例如，姓名、电邮地址等信息的可识别度高，但低敏感度低，发布这些信息通常不会危害个人；相对地，位置数据、个人健康记录等信息的可识别度低，但敏感度高。为了方便说明，我们可以因应可识别度和敏感度，在图谱上定位各种类型的&ldquo;个人可识别信息&rdquo;。&ldquo;个人可识别信息&rdquo;的可识别度和敏感度，同时取决于文本背景和数据混合后产生的复合效果。例如，发布 Facebook 粉丝数据库中的某君姓名，可能只会产生低风险，但发布一份政治异议人士名单上的某君姓名，带来的风险就会大大增加。多项数据结合应用时，信息的价值也会出现变化，例如单看一个购买记录数据库，很难连系到任何特定个人，但结合位置信息或信用卡号码，可识别度和敏感度则会大大提高。2016年有这样的一个事例：澳大利亚卫生部发布了一批&ldquo;去识别&rdquo;药物数据，数据限定用于学术研究，只让学者解密部分信息；然而当地隐私专员认为，这依然构成个人信息被曝光的可能，因此<a href="https://www.oaic.gov.au/privacy-law/commissioner-initiated-investigation-reports/publication-of-mbs-pbs-data#whether-the-dataset-contained-personal-information">介入调查</a>。同样在2016年，BuzzFeed 就职业网球员的欺诈行为进行<a href="https://www.buzzfeednews.com/article/heidiblake/the-tennis-racket">调查报道</a>，并且发布了经过&ldquo;匿名化&rdquo;处理的相关数据；然而，一群大学生结合利用其他公开数据，成功<a href="https://medium.com/@rkaplan/finding-the-tennis-suspects-c2d9f198c33d#.ot3r4eii7">&ldquo;再识别&rdquo;</a>出报道中没有点名的涉事网球员。这此事例说明，新闻工作者要准确判断数据集中的个人信息性质，就必须兼顾评估数据集包含的信息，以及可能已经公开的其他信息。<h4>何谓&ldquo;去识别&rdquo;？</h4>为了隐藏消息来源的身份，新闻工作者可能会以匿名或化名来处理，例如&ldquo;水门事件&rdquo;报道中所使用的&ldquo;深喉&rdquo;（Deep Throat）。处理信息时，删除个人信息的过程被称为&ldquo;去识别&rdquo;（de-identification），或在一些司法管辖区被称为&ldquo;匿名化&rdquo;（anonymization）。早在互联网诞生前，新闻工作者已在应用&ldquo;去识别&rdquo;技术，例如在外泄文件上涂掉某些姓名。时至今天，新闻工作者配备了更多崭新的&ldquo;去识别&rdquo;方法和工具，可以在数字环境中保护隐私，同时更便于分析和处理前所未有的庞大数据。&ldquo;去识别&rdquo;的目的就是防止&ldquo;再识别&rdquo;（re-identification），换句话说就是将数据&ldquo;匿名化&rdquo;，令数据无法被用于识别任何个人。虽然&ldquo;匿名化&rdquo;在法律上存在一些定义，但实质的规范和操作，通常建基于不同行业的规矩。例如在美国，医疗保健记录受《健康保险便利和责任法案》（HIPAA）的规范，病人姓名、住址、社会安全号码等直接标识必须经过&ldquo;匿名化&rdquo;处理。而在欧盟地区，<a href="https://en.wikipedia.org/wiki/General_Data_Protection_Regulation">《一般资料保护规范》</a>（GDPR）规定姓名、住址、电邮地址等直接标识，以及工作职衔、邮政编码等间接标识，均要作&ldquo;匿名化&rdquo;处理。编写新闻故事时，记者需要判断哪些信息属于关键，哪些信息可以忽略。一般来说，愈有价值的信息愈是敏感。例如，医学研究人员必须掌握临床诊断数据和其他医药数据，尽管这些数据很可能与特定个人存在联系，属于高度敏感数据。为了在数据的实用性和敏感度之间取得平衡，记者在决定发布哪些内容时，可以采取适用的&ldquo;去识别&rdquo;技术。数据改写（Data Redaction）&nbsp;最简单的数据库&ldquo;去识别&rdquo;方法，是直接删除所有个人或敏感数据。&ldquo;数据改写&rdquo;存在一个明显的缺点，就是可能丢失一些有价值信息，不过这种方法一般用于处理直接标识，例如姓名、地址、社会安全号码，而这些数据通常并非新闻故事的症结所在。然而，随着科技日益进步及可用数据不断增加，间接标识的可识别度也持续提高。单靠&ldquo;数据改写&rdquo;来处理直接标识，往往会忽略间接标识，因此记者不应以此作为&ldquo;去识别&rdquo;的单一手段。假名化（Pseudonymization）某些情况下，&ldquo;数据改写&rdquo;会破坏数据的实用性。要解决这个问题，可以采取&ldquo;假名化&rdquo;，也就是以随机或演算法生成的假名来替代可识别数据。&ldquo;假名化&rdquo;的最常用技术是杂凑（hashing）和加密（encryption），前者利用数学函式将数据单向转换成不可读的散列信息，后者则以双向算法转换来处理数据。换言之，杂凑与加密的主要区别在于，前者是不可逆向破解的，而后者可凭正确金钥来解密。许多数据库管理系统，例如 MySQL 和 PostgreSQL，都同时提供杂凑和加密两种数据处理方法。<aside class="module align-right half type-pull-quote">用于生成假名的演算法有机会被第三方破解，或者演算法本身就有漏洞。因此，新闻工作者采取&ldquo;假名化&rdquo;来隐藏个人数据时，还是应该格外慎重。</aside>在国际调查记者同盟（ICIJ）进行离岸解密调查的过程中，数据&ldquo;假名化&rdquo;发挥了重要的作用。由于记者需要处理海量数据，他们依赖于外泄文件中每个个人与实体之间的独特代码，来辨识不同个人和实体之间的关系，即使两者名称并不匹配，这些&ldquo;假名化&rdquo;代码也能发挥作用。信息怎样才算经过妥善的&ldquo;假名化&rdquo;处理？答案是在不参考其他数据之下，该项信息无法再被连系上某个个体。换句话说，当&ldquo;假名化&rdquo;数据与其他数据被集结在一起相互参考，&ldquo;假名化&rdquo;作为&ldquo;去识别&rdquo;手段的效能依然有可能被削弱。就算是在整个数据集中重复使用相同的假名，由于假名每次出现，找出变项之间关系的机会就会提高，&ldquo;假名化&rdquo;的效能也会因此减低。还有一些情况是，用于生成假名的演算法有机会被<a href="https://research.neustar.biz/2014/09/15/riding-with-the-stars-passenger-privacy-in-the-nyc-taxicab-dataset/">第三方破解</a>，或者演算法本身就有<a href="https://ieeexplore.ieee.org/document/4371616">漏洞</a>。因此，新闻工作者采取&ldquo;假名化&rdquo;来隐藏个人数据时，还是应该格外慎重。统计噪声（Statistical Noise）由于&ldquo;数据改写&rdquo;和&ldquo;假名化&rdquo;均存在被&ldquo;再识别&rdquo;的风险，人们经常会配合&ldquo;统计噪声&rdquo;一并运用，例如&ldquo;k-匿名化&rdquo;（k-anonymity）。这种方法以一个间接标识来指涉一定数量的个体，最佳做法是对不少于十个条目使用同一个独特标识，从而使&ldquo;再识别&rdquo;变得困难。在数据集加入&ldquo;统计噪声&rdquo;的最常用技术是&ldquo;概括化&rdquo;（generalization），例如以大洲替代国家名称、以数值范围替代准确数值等。此外，&ldquo;数据改写&rdquo;和&ldquo;假名化&rdquo;经常与&ldquo;统计噪声&rdquo;一并应用，以确保数据集中不存在唯一的标识组合。在以下的例子中，个别行例的数据经过概括或删除处理，防止特定条目被&ldquo;再识别&rdquo;。数据汇总（Data Aggregation）假如没有必要保留原始数据的完整性，记者可以通过&ldquo;数据汇总&rdquo;来进行&ldquo;去识别&rdquo;，例如以摘要形式发布数据，从而省略任何直接或间接标识。进行&ldquo;数据汇总&rdquo;时，主要考虑是汇总份量是否够大，是否足以隐藏当中的特定个体。假如能将多个维度的汇总数据组合在一起，&ldquo;去识别&rdquo;的效能也会更大。<h4>&ldquo;去识别&rdquo;的工作流程</h4>临近截稿死线，不少记者会忙于评估数据质量、决定如何将数据图像化，而将数据的&ldquo;去识别&rdquo;工作置于次要。不过，在新闻发布过程中保障个人隐私还是至关重要的，特别是个人数据的不当处理可能会破坏新闻作品的可信度，而负责收集和处理相关数据也可能要承受相关法律责任。因此，新闻工作者应该采取以下步骤，将&ldquo;去识别&rdquo;纳入工作流程：<ol>
<li>我的数据集中，是否包含个人信息？</li>
</ol>假如你处理的是天气数据、体育统计数据等公开信息，自然毋须烦恼如何进行&ldquo;去识别&rdquo;；假如涉及个人姓名、社会安全号码等数据，披露隐私的风险则会明显提升。我们更常遇到的情况是，必须经过仔细检查，才能确定数据到底是否涉及个人信息，特别是当我们处理的是外泄数据，正如 Susan McGregor 和 Alice Brennan 在<a href="https://datajournalism.com/read/longreads/privacy-and-data-leaks">这篇文章</a>所介绍的。除了直接标识，新闻工作者还应密切注意数据集是否存在间接标识，例如 IP 地址、工作信息、地理位置记录等。根据经验，任何与个人有关的信息，都应被视作存在披露隐私风险，并采取相应措施。<aside class="module align-right half type-pull-quote">在新闻发布过程中保障个人隐私还是至关重要的，特别是个人数据的不当处理可能会破坏新闻作品的可信度。</aside><ol start="2">
<li>这项数据有多敏感？可识别度有多高？</li>
</ol>个人信息存在多少披露隐私风险，取决于它所存在的文本背景，包括它能否与其他数据对照解读。因此，新闻工作者需要评估两件事：一、数据的可识别度有多高；二、数据中的个人隐私有多敏感。记者可以自问：某人会否因为与这则新闻故事的关连，而面临安全或声誉受损？手头上的数据，有可能被结合其他数据一并解读，进而令某人的身份曝光吗？假如是这样，发布这些数据能够带来的公众利益，是否大于披露隐私所产生的风险呢？当然，就不同的事例还要采取不同的处理方式，才能在公众利益与个人隐私之间取得平衡。<ol start="3">
<li>该以怎样的方式发布数据？</li>
</ol>互联网诞生之前，新闻工作者通过印刷物发表报道，不必为怎样发布数据而烦恼，因为读者无法通过印刷图表和统计数字追查背后的数据信息。随着数据新闻学进占前沿位置，先进工具、互动视频等，让读者可以考究新闻故事所采用的数据信息。例如许多记者选择开源方式，在 GitHub 上分享代码和数据。为了兼顾保护隐私，开源时务必仔细清除数据中的所有个人信息。至于数据图像化，一些新闻工作者会借助混淆原始数据集的预汇总数据来保障隐私，其中关键是检查这些汇总项目是否超过可识别的最低门槛。<ol start="4">
<li>该采取哪一种&ldquo;去识别&rdquo;技术？</li>
</ol>新闻工作者一般要结合使用多种&ldquo;去识别&rdquo;技术，才能妥善处理手头上的数据。对于直接标识，如能正确采取&ldquo;数据改写&rdquo;和&ldquo;假名化&rdquo;，一般就足以保护个人隐私。对于间接标识，可以考虑将数据归纳成组，或者将非关键信息&ldquo;概括化&rdquo;，也就是加入&ldquo;统计噪声&rdquo;。对于高度敏感数据，&ldquo;数据汇总&rdquo;是最佳选项，不过必须确保数据的范围够广、汇总变项的分布够均匀，从而保证个人信息不在无意中外泄。<h4>以身作则：我们没有借口回避&ldquo;去识别&rdquo;工作</h4>数据一经网络发布，就没有修订或更正的余地。即便你认定已经清除数据集的所有个人信息，依然会存在风险&mdash;&mdash;某地某人可能结合你的数据和其他来源的信息，成功&ldquo;再识别&rdquo;特定个体，或者破解你的&ldquo;匿名化&rdquo;演算法，成功曝光背后隐藏的个人信息。另外，机器学习、图型识别等技术持续进步，也发展出令人意想不到的组合和转换数据新方法，令个人信息被&ldquo;再识别&rdquo;的风险持续提升。<aside class="module align-right half type-pull-quote">有太多的例子显示，不采取保护隐私的措施，就有可能导致个人信息外泄，进而引起掀然大波。</aside>要谨记的是，就算是看起来不像个人信息的数据点，只要结合其他数据，也有可能被用于&ldquo;再识别&rdquo;。当网飞（Netflix）推出&ldquo;网飞奖&rdquo;，公开征集最佳的协同过滤演算法时，也标榜可用数据不存在任何个人信息标识。然而，外界还是能够通过比对参照网路电影资料库（IMDb）等网上来源的数据，例如个人观影偏好信息，来识别网飞号称&ldquo;匿名化&rdquo;数据集中的特定个体。虽然现存的各种&ldquo;去识别&rdquo;技术都有局限，新闻工作者仍然应尽最大努力保护个人隐私。以身作则，国际调查记者同盟处理海量的个人数据时，始终注重保护隐私。来自任何背景的新闻工作者，都没有不采取类似措施，以平衡个人隐私与公众利益的借口。再者，从婚外情社交网站 Ashley Madison 资料外泄所引发的众多个人悲剧，到&ldquo;维基解密&rdquo;（Wikileaks）所曝光的大量敏感数据，已有太多例子显示，不采取保护隐私的措施，就有可能导致个人信息外泄，进而引起掀然大波。因此，新闻工作者应该倡导负责任的数据处理方法，以避免重蹈覆辙。本文首发于 <a href="https://datajournalism.com/read/longreads/de-identification-for-data-journalists">Datajournalism.com</a>，全球深度报道网获授权编译转载。<hr><a href="https://gijn.org/wp-content/uploads/2020/09/Vojtech.jpg"><img class="alignleft wp-image-273176 size-thumbnail" src="https://gijn.org/wp-content/uploads/2020/09/Vojtech-140x140.jpg" alt="" width="140" height="140"></a><a href="https://twitter.com/vojtechsedlak">Vojtech Sedlak </a>是数据科学家，目前任职于非营利组织 SumOfUs，组织以制衡持续壮大的商业企业力量为宗旨。Vojtech Sedlak 曾在 Mozilla 及 OpenMedia 工作，热衷于 RStudio、measure slack、开放资料社群，也是开源代码分析的忠实拥护者。&nbsp;
	This <a target="_blank" href="https://zh.gijn.org/stories/%e6%95%b0%e6%8d%ae%e5%8e%bb%e8%af%86%e5%88%ab%e6%8c%87%e5%8d%97%ef%bc%9a%e5%a6%82%e4%bd%95%e5%9c%a8%e6%8a%a5%e9%81%93%e4%b8%ad%e4%bf%9d%e6%8a%a4%e9%9a%90%e7%a7%81%e4%bf%a1%e6%81%af/">article</a> first appeared on <a target="_blank" href="https://gijn.org">Global Investigative Journalism Network</a> and is republished here under a Creative Commons license.
	<img id="republication-tracker-tool-source" src="https://gijn.org/?republication-pixel=true&amp;post=657947&amp;ga=UA-21528033-17">

数据新闻中最常见的10个错误

作者 Rowan Philp • 2023年03月15日

在今年的 NICAR 会议上，GIJN 与几位数据新闻专家交谈，询问他们在数据新闻中最常见的10个错误，包括忽视空白行、混淆百分比和百分点、在图表中使用错误的刻度尺等等。

数据新闻

新冠三年，记者们围绕它展开了哪些调查？

作者 Rowan Philp • 2023年01月13日

自第一例已知的新冠病例被发现的三年时间里，世界各地的调查记者已经对这个现代史上最困难的公共卫生选题进行了诸多调查。在这篇文章中，我们回顾了其中最具创新性和影响力的调查报道。

数据新闻

过去一年，有哪些不可错过的数据新闻？

作者 Peter Georgiev, Eunice Au, and Connected Action • 2022年02月16日

在过去一年中，来自全球各地的数据记者们用数字、图表，甚至音符来呈现新冠疫情、气候变化、地区冲突等新闻议题。在这篇文章中，我们精选了过去一年中最值得一读的数据新闻报道。

数据新闻

数据新闻精选：蝙蝠为什么会成为病毒的理想宿主？

作者 Charlotte Yu • 2021年04月10日

3月，以亚裔为目标的暴力事件在美国点燃了新一轮的抗议潮；长赐号因搁浅卡在苏伊士运河，导致了全球航运的堵塞；欧洲新一波疫情反弹，关于病毒源头、传播以及疫苗接种的讨论仍在继续。对于这些重要的新闻议题，数据记者们采取了怎样的视角、使用了怎样的手法来呈现？如果你也想以数据作为切入点制作相关报道，有哪些好用的开源工具或资料库能够助你一臂之力？全球深度报道网精选了这些本月值得一看的数据新闻与实用资源。

辅助功能设置

文字大小

色彩设置

阅读工具

其他

文章

主题