大数据时代个人隐私都在裸奔差异隐私是庇护伞吗？

点击蓝字关注我们

现代世界以“大数据”为基础，这是政府，企业和学术研究人员用来进行分析、数据挖掘并推动决策的海量数据集。

当涉及数据分析时，普遍认为数据量越大越好，合并的数据越多，分析就越棒，这得益于机器学习，大规模数据分析正变得越来越强大，并具有广泛的益处，例如为公共卫生研究提供信息，减少流量以及在贷款申请中识别系统性歧视。

但是数据有一个缺点，因为它需要汇总大量潜在的敏感个人信息，无论是收集病历，抓取社交媒体资料，还是跟踪银行和信用卡交易，数据科学家都有可能危及被收集记录的个人的隐私。数据一旦存储在服务器上，就可能被盗，共享或泄露。

计算机科学家多年来一直在努力寻找使数据更私密的方法，但即使他们试图去反标识数据（例如通过删除个人姓名或数据集的其他部分），其他人通常也仍有可能通过“连接点”，将来自多个源的信息拼凑起来，以确定一个假定的匿名个人的身份（通过所谓的重新识别或链接攻击）。

幸运的是，近年来，计算机科学家已经开发出一种有前途的新方法来进行隐私保护的数据分析，称为“差异隐私”，它允许研究人员挖掘数据集内的模式，得出关于整个人群的观察结果，同时模糊每个人的记录信息。

解决方案：差异隐私

差异隐私（也称为“epsilon不可区分性”）于由Cynthia Dwork、Frank McSherry、Kobbi Nissim和Adam Smith首次开发。

在的一次演讲中，德沃克将差异隐私定义为“任何分析的结果基本上都是相同的，与加入或不加入数据集无关”。

这怎么可能？差异隐私通过在数据集上执行的计算中添加预先确定的随机性或“噪音”来工作。

举个例子，想象一下，如果有五个人对调查中的一个问题提交了“是”或“否”，但在他们的回答被接受之前，他们必须掷硬币。如果是正面，他们会诚实地回答问题。但是如果是背面，他们必须重新掷硬币，如果第二次掷硬币是反面，则他们回答“是”，如果是正面，他们回答“否”——不管他们对问题的实际答案如何。

作为此过程的结果，我们希望四分之一的受访者（0.5 x 0.5，即那些掷出反面的人）回答“是”，即使他们的实际回答是“否”。

有了足够的数据，研究人员将能够考虑这一可能性，并且仍然可以确定总体人群对原始问题的回答，但数据集中的每个人都可以合理地否认包括了他们的实际回答。

当然，研究人员实际上并没有使用抛硬币，而是依靠基于预定概率的算法来于此类似地更改数据集中的某些响应。该算法更改的响应越多，则为数据集中的个人保留的隐私越多。

要权衡的是，随着在计算中添加更多的“噪声”（即，随着更大百分比的响应发生变化），数据分析的准确性就会下降。

当德沃克和她的同事首次定义差异隐私时，他们使用希腊符号ε，或epsilon，从数学上定义了与数据集中的数据释放相关的隐私丢失。这个值定义了一个特定算法提供了多少差异隐私，

epsilon的值越低，每个人的隐私就越受到保护；epsilon越高，数据分析越准确，但隐私保护就越少。

当数据仍在用户设备上而受到干扰（即添加了“噪声”）时，称为本地差异隐私。

在收集数据后将噪声添加到计算中时，这称为中央差异隐私。

查询数据集越多，有关单个记录的信息泄漏风险就越大。

因此，中心模型需要不断搜索新的数据源，以保持高度的隐私。

无论哪种方式，差异隐私的主要目标都是确保给定查询的结果不会受到单个记录的存在（或不存在）的影响。

差异隐私也会降低数据对潜在攻击者的吸引力，并有助于防止他们从多个平台连接个人数据。

实践中的差异隐私

差别隐私已经被政府、公司和研究人员广泛采用。

例如，它已经被美国人口普查局用于“避免泄露”，苹果公司利用差异隐私分析用户数据，从表情图建议到Safari浏览器崩溃。

谷歌甚至发布了一个开源版本的差异隐私库，该库用于公司的许多核心产品。

利用加州大学伯克利分校（ucberkeley）研究人员近年来开发的一种称为“弹性敏感度”的概念，差异隐私被扩展到现实世界的SQL查询中。

共享单车服务Uber采用这种方法来研究从交通模式到司机收入的方方面面，所有这些都是在保护用户隐私的同时进行的。

通过将弹性灵敏度融入一个需要大量用户数据来连接乘客和司机的系统中，该公司可以帮助保护用户免受窥探。

例如，考虑一下，实施弹性敏感度如何保护高知名度的Uber用户，比如伊万卡•特朗普（Ivanka Trump）。

正如Andy Greenberg在《连线》杂志上写道：

“如果一位Uber业务分析师问，目前有多少人在曼哈顿市中心叫车，或许是为了检查供应是否与需求相符，而伊万卡•特朗普恰好在那一刻有一个Uber叫车请求，那么答案不会透露太多关于她的信息。但是，如果一位善于打听的分析师开始就特朗普大厦周围的街区提出同样的问题， Uber的弹性敏感性会给结果增加一定程度的随机性，以掩盖伊万卡（Ivanka）当时是否会离开大楼的信息。”

尽管有这么多优点，但大多数组织仍未使用差异隐私。

它需要大数据集，计算量大，并且组织可能缺乏资源或人员来部署它。他们可能也不想透露他们正在使用多少私人信息，以及有泄露信息的可能。

另一个问题是使用差异隐私的组织可能夸大了他们提供的隐私数量。

一家公司可能会声称使用差异隐私，但实际上可能会使用很高的epsilon值，因此实际提供的隐私将受到限制。

为了致力于研究差异隐私是否得到了恰当的部署，德沃克与加州大学伯克利分校的研究人员尼汀·科利和迪尔德雷·穆利根共同提议建立一个“Epsilon注册中心”，以鼓励公司更加透明。

他们在《隐私与保密杂志》上写道：“鉴于这些实施细节的重要性，有必要在差异隐私社区中共享学习。” “为了达到这些目的，我们建议创建Epsilon注册中心，这是一个关于差异隐私实现的公共知识体系，可供各种利益相关者使用，以推动识别和采用明智的方式实现差异隐私。”

最后要说明的是，组织不应该仅仅依赖差异隐私，而应该将其作为更广泛的武器库中的一种防御措施，以及加密和访问控制等其他措施。

组织应该公开他们用于分析的数据来源，以及他们为保护这些数据所采取的措施。

将这种做法与低epsilon值的差异隐私相结合，将大大有助于实现“大数据”带来的一处，同时减少敏感个人数据的泄露。

作者|查克·卡佩莱克（Chuck Kapelke）编译|小经哥整理图片|来自于网络

注：Chuck Kapelke是长期网络安全中心（Center for Long Term Cybersecurity）的通信专家，该中心是加利福尼亚大学伯克利分校信息学院的跨学科研究和协作中心。

#近期热文#