《数据治理与数据安全》读书笔记（下）

本系列文章是《数据治理与数据安全》此书的读书笔记和读书心得。共分为上下两篇。

一、大数据发展的另外一面：数据滥用和安全事件频发

1、算法的局限:存在的歧视问题

年，IG夺冠之后。IG 战队老板随即在微博抽奖，随机抽取113位用户，给每人发放1万元现金作为奖励。获奖名单中女性获奖者数量是男性的112倍。然而，所有参与用户的男女比率是1: 1.2，性别比并不存在悬殊差异。于是，不少网友开始质疑微博的抽奖算法，甚至有用户测试抽奖算法发现，设置获奖人数大于参与人数，发现依然有大量用户无法获奖。这些无法获奖的用户很有可能已经被抽奖算法判断为“机器人”，在未来的任何抽奖活动中都可能没有中奖机会。其实，这并非人们第一次质疑算法背后的公正性。近几年，众多科技公司的算法都被检测出带有歧视性：在谷歌搜索中，男性会比女性有更多的机会看到高薪招聘消息;微软公司的人工智能聊天机器人Tay出乎意料地被“教”成了一个集性别歧视、种族歧视等于一身的“不良少女”，这些事件都曾引发人们的广泛关注。即使算法设计者的本意是希望为用户推荐有用信息、对图片进行机器识别、使聊天机器人能够源源不断地学习人类对话的方式，但往往是在算法决策的‘‘黑匣子”面前，人们无法了解算法的决策过程，只能了解最终结果。除了造成不公平性，算法歧视还会不断剥削消费者的个人财富。《经济学家》杂志显示，在排名前100的最受欢迎的网站中，超过1300家企业在追踪消费者。利用算法技术，企业利润获得大幅增加。但是，羊毛出在羊身上，这些利润实际均来自消费者。尤其是随着算法在自动驾驶、犯罪风险评估、疾病预测等领域中越来越广泛和深入的应用，算法歧视甚至会对个体生命构成潜在的威胁。

2、大数据杀熟

大数据杀熟就是针对特定用户进行个性化定价，以便让平台和商家利益最大化，说得直白点就是老客户看到的价格比新客户看到的价格要贵出许多。其最直接的方式是根据用户身份、浏览习惯、所用设备、消费历史等画像消息进行个性化定价。例如，视频平台的会员服务针对苹果和安卓设备来差异化定价；电商平台发现用户购买高端商品越多，就可能给用户定高价、少折扣。大数据杀熟本质上属于一种价格操纵行为。抛开大数据因素，价格操纵在线下实体销售中也时有发生。例如，一听可乐在普通超市卖2元，但在五星级酒店会卖到30元；美容店会不断给有钱的老顾客加载各种偏离实际价值的高价产品和服务，等等。一般而言，价格操纵的发生需要满足三个条件。一是掌握消费者的支付能力和意愿，一般住得起五星级酒店的客户是能够支付得起30元一听的可乐的。二是产品或服务具有垄断市场的能力。如果市场中卖可乐的厂商只有一家，那么客户想喝可乐就不得不接受可乐厂商的定价，此时可乐厂商也就具备了操纵价格的能力。三是产品或服务缺少可替代的选择。如果客户除了可乐还能选择雪碧、奶茶和啤酒等饮品，那么可乐厂商操纵价格的能力就会被削弱。大数据时代，这三个条件发展得更加成熟。首先，数据成本方面，得益于个人数据收集渠道的越发广泛和用户画像分析技术的不断发展，企业越来越容易判断用户的支付能力、意愿和喜好;其次，互联网行业的数据垄断和资本垄断等现象不断加重，使行业马太效应的作用明显，出现了一系列超大型互联网公司或细分领域的行业寡头，逐渐形成垄断局面，具备了操纵价格的能力；最后，互联网行业注重用户粘性，借助对用户的锁定效应"，减弱了用户更换消费平台的意愿，变相减少了产品或服务的可替代选择。除此之外，互联网行业产品或服务的价格具有不透明的特点。在线下商店，两位消费者同时到店购买产品或服务，如果商家有操纵价格的行为，两位消费者很容易相互知晓。但是在线上消费时，消费者背靠背地获取价格信息，即使平台针对同一产品给两方的定价不同，彼此也很难知道。因此，大数据杀熟的现象在国内外都时有发生。

在此情况中，消费者的权益不能仅依靠个人来争取，更需要依赖立法的进步与政府主管部门的主动介入和监管。

3、个人信息收集乱象

（1）默认勾选套取个人信息：支付宝个人年度账单首页有一行特别小的蓝色字—我同意《芝麻服务协议》，且默认勾选了“同意”。查看账单与《芝麻服务协议》没有关联性，即使选择取消“同意”，年度账单依然可见。如果用户没有注意到该选项，就会直接同意这个协议，允许支付宝收集其信息，包括在第三方保存的信息。根据《消费者权益保护法》，消费者有选择权，商家不应替消费者做出选择。在众多用户提出质疑之后，蚂蚁金服、支付宝迅速发布官微道歉，及时取消了“我同意《芝麻服务协议》”的默认勾选。

（2）在金融领域同样存在着数据被滥用的情况：首先，由互联网金融企业通过数据挖掘与数据分析，获得个人与企业的信用信息，并将之用于信用评级的主要依据。其次,通过.上述渠道获得的信息，能否真正全面准确地衡量被评级主体的信用风险，这里面是否存在着选择性偏误与系统性偏差。比如说我们都知道在银行贷款买房子的时候，银行会给你的信用打一个分数，各种指标比如说你的收入、你的工作的稳定与否都会作为打分的标准，很多人表示自己为比如曾经有一两次花呗忘记及时归还导致延期被银行扣分，那么这个一次的花呗延期是不是完全作为扣分的标准就有待考虑。在比如说我们在金融机构办理金融业务比如说办银行卡信用卡时，发出的金融交易等信息都是个人重要的金融信息，如果数据遭到泄漏，数据安全被侵害，可能就有金融诈骗发生比如说经常在电视上看到的，说xx银行卡产生境外交易，需要你交一笔钱。

4、网络爬虫: 数据泄露的新渠道

大数据时代，企业收集数据的方式多种多样。除了直接通过用户采集之外，还包括传感器采集、网络爬虫采集等方式。其中，利用网络爬虫采集公开信息是企业数据的重要来源。相关数据显示，50% 以上的互联网流量其实都是爬虫贡献的;对于某些热门网页，爬虫的访问量甚至占据了总访问量的90%以上。所谓网络爬虫又称网页蜘蛛、网络机器人，是一种按照一定规则自动从互联网上提取网络信息的程序或脚本。本质上，网络爬虫是通过代码实现对人工访问操作的自动化。但是，网络爬虫具备的代码解析能力使其可能访问到人工不会访问或者无法访问的内容。技术都具有两面性，虽然网络爬虫已广泛应用，但绝不能无限制使用。过度使用网络爬虫，可能引发一些问题：过于野蛮的数据爬取操作可能加大网站负荷，导致网站瘫痪，等等；用爬取技术获取数据，可能导致数据所有者失去对数据的唯一拥有权。如果爬取数据中的企业信息和个人信息未经授权或被不正当地使用，可能引发商业纠纷，侵犯个人的合法权益。

5、黑客攻击

黑客攻击是导致数据泄露的最主要原因。根据金雅拓统计，56%的数据泄露事件是由“恶意的外部入侵者”引发的。IBM的研究报告川显示，犯罪攻击导致了48%的数据泄露事件，漏洞攻击、病毒利用、“撞库”等是主要的数据获取方式。

8月28日，华住酒店集团旗下酒店共计5亿条用户信息在暗网被售卖，涉及用户姓名、身份证号、手机号、邮箱、家庭住址、生日、入住时间、离开时间、酒店ID号、房间号及消费金额等敏感信息。根据调查，该事件是由疑似华住程序员在GitHub上传的名为CMS的项目被黑客攻击所致。由于用户数据涉及大量个人隐私，其重要性对用户不言而喻。然而，作为数据的生产者、拥有者，用户难以掌握自身数据的流转轨迹，数据泄露后难以第一时间获知，甚至在泄露数据多次转手，被用于精准营销、诈骗时，都不清楚到底是哪里出了问题。

为什么会出现这样的情况呢?本书作者认为有以下几方面的原因。

第一，企业和用户一样“无知”。当前，大部分企业对数据泄露等数据安全问题的认识不到位，总以为不会得到黑客的“眷顾”，并且没有建立相应的监测预警、应急响应机制和手段,不仅发现不了数据泄露,而且难以及时应对和补救。根据IBM统计，企业发现数据泄露的平均时间是197天。

第二，企业比用户更“先知”。如果企业受限于自身能力难以发现数据泄露，未能及时向用户预警，还能说是情有可原，那么发现数据泄露却知情不报就另有意味。

5、基于数据滥用和安全的治理策略

（1）加快立法，为个人信息保护装上法律盾牌

（2）参考美国和欧盟两大模式，结合中国行业现状建立自己的个人信息保护机制

（3）强化相关监管，多部委组织开展专项行动。针对个人信息收集乱象，中央网信办、工业和信息化部、公安部、国家标准委等四部门于7月启动“个人信息保护提升行动”之隐私条款专项工作，围绕App产品和服务广泛存在的隐私条款笼统不清、不主动向用户展示隐私条款、征求用户授权同意时未给用户足够的选择权、大量收集与提供所谓服务无直接关联的个人信息等行业痛点问题，开展对微信、新浪微博、淘宝、京东商城、支付宝、高德地图、百度地图、滴滴、航旅纵横及携程网共10款网络产品和服务的隐私条款评审工作。

（4）加强宣传，提升个人信息安全意识。比如说自来国家网络安全宣传周设立的个人信息保护日等等方式都可以帮助提升个人信息安全意识。

二、数据跨境流动：

1、数据跨境流动的涵义

数据保护的国际纲领性文件《关于保护隐私和个人数据跨境流动指南》中提出，其含义为“个人数据的移动跨越了国家边界”。之后，随着各国数据跨境流动制度的形成以及各类国际公约的发表，数据跨境流动不再只局限于数据的处理与运输跨越了国界，那些虽然被存储在境内但能够被其他国家的机构或个人访问使用的数据也被归纳进了跨境流动数据的范围。

2、数据跨境流动存在的问题

数据涉及的各方都可能主张本国完全的数据权利，很容易形成主权的交互重叠甚至冲突。另外，当前国际社会还没有形成数据跨境流动的相关法律与国际规则，数据主权在国际法中尚属空白，也导致因数据跨境流动产生的争议发生时缺乏相应的法理依据加以解决。

而和数据跨境流动相关的一个名词叫做：数据本地化。它是指出于本国公民隐私保护、国家数据安全或执法便利等目的在国家内部收集、处理和存储有关国家公民或居民的数据。数据本地化可以按照宽严程度分为以下几种：1、完全禁止本国数据出境。印度采取的就是这种态度2、俄罗斯澳大利亚等一些国家采用的是禁止本国特定数据出境，也就是只要求医疗信息或者电子通信和社交等类型的数据进行本地化3、是欧盟和韩国采取的更为开放的本地化措施，规定只要满足了法律所要求的条件，就可以自由出境。

而我国现行的数据本地化存储规定主要分布在金融卫生医疗及交通领域。可以总结为关键信息基础设施的运营者在中华人民共和国境内运营中收集和产生的个人信息和重要数据应当在境内存储。因业务需要，确需向境外提供的，应当按照国家网信部门]会同国务院有关部门制定的办法进行安全评估；法律、行政法规另有规定的，依照其规定。”

3、数据本地化的代价

如前所述，数据的价值在于流动，美国国际贸易委员会的报告表示，全球服务贸易的增长有一半依赖对跨境数据流的访问。麦肯锡发布的一篇报告也指出，在过去十年中，数据的流动使全球GDP增长了10.1%，而像数据本地化这种数据流动的壁垒对企业的竞争力和创新能力都有不利影响，同时也会制约经济的发展。一部分决策者认为，如果限制数据离境，推行本地化措施，那么跨国公司就不得不为了在本地发展业务而建立数据中心，这就会创造大量的就业岗位，自己的国家便可从中获利。但实际上，由于数据工作对业务人员的数据技术水平要求较高，再加上有部分数据工作可以依靠计算机来完成，因此新的数据中心能创造的就业岗位极其有限，并不能像预计的那样为数据来源国创造大量经济价值。相反，强迫跨国公司在数据来源地建立数据中心，而不是令其在最适合开展特定业务的地方建立相应的业务中心，既会抑制潜在生产力的增长，使公司的竞争力下降，也不利于公司采取最合适的手段保护数据。而且，数据本地化也使本国公司获得数据新思想的过程变得更加艰难，不仅会提高开发新产品的成本，影响企业的创新能力，严重的还会对本国公民带来伤害。例如，IBM的沃森系统可以通过对医疗数据的分析造福人类的健康，然而一-些国家的数据本地化政策却不允许本国公民的医疗数据与该系统相连接，因此，这些公民无法享受到最新的医疗技术成果，其身体健康受到潜在危害。

数据本地化还会对一国的经济发展产生影响。年，美国国际贸易协会就从企业、贸易、工业三个层面研究分析了数据本地化政策给美国造成的影响。其报告显示，如果消除外国的数字贸易壁垒，美国GDP会增长167亿美元，达到414亿美元(0.1% ~ 0.3%),七大数字密集型行业的工资会.上涨0.7%~ 1.4%。，利维坦安全小组也围绕“切断全球云服务造成的代价”这一主题展开了研究。结果显示，如果政府切断与成本最具竞争力的全球云服务提供商的连接，这些国家的公司可能需要购买巴西和欧洲的云服务，而这需要承担更多的花销。年，国际治理创新中心( CIGI)和皇家国际事务研究所( ChathamHouse)分析了强制数据本地化等数据保护措施对巴西、中国等8个国家和地区的10个下游行业造成的负面经济影响。研究结果表明，数据本地化和数据流动壁垒使巴西的GDP下降了0.1%，中国的GDP下降了0.55%，欧盟的GDP下降了0.48%，韩国的GDP下降了0.58%。欧洲国际政治经济中心( ECIPE)也进行了相关研究，其在几项关键指标上的发现如下表所示。

4、基于数据跨境流动的治理策略

（1）基于“不危害国家安全利益、不危害企业商业利益、不危害个人信息利益”的三个不危害原则来完善跨境数据流动的法律体系

（2）制定数据分类分级监管体系：对于通信、能源、交通、水利、金融等关键基础建设和重点领域的数据提出更严格的监管要求，控制总量数据和核心数据的流出。

那金融数据作为一个国家所拥有的非常有价值的数据，我国也对金融数据有着明确而严格的分级。根据以下这张分级图，金融数据按照影响对象以及影响程度被分为了五种。

三、笔者心得

这本书是以一个很宏观的角度来看数据治理和数据安全的，无论是从发现问题还是给出的解决问题的方法，都是站在国家站在政府的角度比较高屋建瓴的去谈，比如说它在解决方法中多次提到的是加快法律建设，提升民众相关意识等等，基本没有涉及到企业的微观的内容，也没有细分到金融领域的内容，所以很多时候感觉在读一个政府工作报告。可能和这本书开头提到的作者认为在数据治理中政府可以起到比企业更主动的作用也有一定的关系。还有就是这本书用大概二分之一的篇幅都讲的是立法的问题，并不是笔者熟悉的角度。

更多机器学习、投资管理相关的内容，均收录在微信公众号 HI投量化俱乐部