2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 《大数据时代》(维克托·迈尔舍恩伯格) 小记

《大数据时代》(维克托·迈尔舍恩伯格) 小记

时间:2020-12-19 21:04:45

相关推荐

《大数据时代》(维克托·迈尔舍恩伯格) 小记

最近把《大数据时代》(viktorMayer-Schonberger & Kenneth Cukier,ISBN:978-7-213-05254-5) 读完了。对即将来临的大数据世界,有了一点点的认识。

对于作者和译者(周涛)。这里我就不介绍了,有兴趣的朋友可以Google搜一下。

全书共分为三大部分:大数据时代的思维变革、大数据时代的商业变革和大数据时代的管理变革。

一、大数据时代的思维变革。

更多:不是随机样本,而是全体数据。当数据处理技术发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样,显得捉襟见肘。一切都改变了,我们向传统的统计分析发出挑战:样本=总体。即我们要用所有的数据,不再随机抽样:

让数据“发声”。

小数据时代的随机抽样,最少的数据获得最多的信息。

全数据模式:样本=总体。

更杂:不是精确性,而是混杂性。据统计,全球信息总量中,只有5%的信息是结构化的,可存放在数据库中。余下95%是半结构或无结构化的数据占据。这些数据中可能有一些是错误的、模糊的、不精确的。这是客观的事实,将它们剔除的做法显得低效而愚蠢,更得不偿失。我们能做的,就是允许这些因素的存在。

允许不精确。

大数据的简单算法比小数据的复杂算法更有效。

纷繁的数据在一起开party,越多越好。

混杂性,不是竭力避免,而是标准途径。

新的数据库设计的诞生:列式数据库。

更好:不是因果关系,而是相关关系。其实,很多时候很多事情,我们只要知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们没必要非得知道现象背后的原因,只要知道如何去做,就足矣。

关联物,预测的关键。

“是什么”而不是“为什么”。

改变,从操作方式开始。

大数据,改变忍了探索世界的方法。

二、大数据时代的商业变革。

数据化:一切皆可量化。世间万物的信息,都可以被提取出来,被量化出来。过去及现在的IT行业,我们只是把变革重点放在了”T“即技术上,而在大数据时代,我们必将把聚光灯打向“I”的时候了。

数据,从最不可能的地方提取。

数据化,不是数字化。

量化一切,数据化的核心。

当文字、方位、沟通变成数据。

世间万物的数据化。

价值:取之不尽用之不竭的数据创新。数据就像一个神奇的钻石矿,当它的首要价值被发掘后,仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。

数据创新1:数据再利用。

数据创新2:数据重组。

数据创新3:可拓展数据。

数据创新4:数据的折旧值。

数据创新5:数据废气。

数据创新6:开放数据。

给数据估值。

角色定位:数据、技术与思维的三足鼎立。

大数据价值链的3大构成。

大数据掌控公司。

大数据技术公司。

大数据思维公司和个人。

全新的数据中间商。

专家的消亡与数据科学家的崛起。

大数据,决定企业竞争力。

三 大数据时代的管理变革

风险:让数据主宰一切的隐忧。我们时刻都暴露在“第三只眼”下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微软似乎什么都知道,不仅窃听到了我们心中的“TA”,还有我们的社交关系网。

无处不在的“第三只眼”

我们的隐私被二次利用了。

预测与惩罚,不是因为“所做”,而是因为“将做”。

数据独裁。

挣脱大数据的困境。

掌控:责任与自有并举的信息管理。当世界开始迈向大数据时代时,社会也将经历类似的地壳运动。在改变人类基本的生活与思考方式的同时,大数据早已在推动人类信息管理准则的重新定位。然而,不同于印刷革命,我们没有几个世纪的时间去适应,也许只有几年的时间。

管理变革1:个人隐私保护,从个人许可到让数据使用者承担责任。

管理变革2:个人动因 VS 预测分析。

管理变革3:击碎黑盒子,大数据算法师的崛起。

管理变革4:反数据垄断大亨。

---------------------------------------------俺是华丽滴分割线-----------------------------------------------------------------------------

书中典型案例:

·谷歌利用搜索引擎大数据来预测流感的爆发。

·Farecast利用十万亿条历史价格纪录作为数据,开发飞机票价格预测系统,准确率大75%,平均每张机票节约$50.

·天文学是信息爆炸的起源。

·1880年,美国进行一次人口普查,需要8年的时间才能完成,1890年,需要,后来发明穿孔卡片机来用于统计,奇迹般的,1年时间就完成了。

·乔布斯的癌症治疗,医生通过对肿瘤DNA和正常DNA分别排序,对症下药,最终虽然没有战胜癌症,却让他的寿命延长了好几年。乔布斯开玩笑说“要么我是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式而死于癌症的人”。

·微软office产品中word语法检查程序发现,随着语料库数据的增加(500w时,准确率很差),不同算法的优越性可能会发生颠覆性的变化。如AB两种算法,在语料库为500w时,A准确率为85%,B为60%;当语料库增加至10y时,B可能为95%以上,而A低于95%。

·谷歌翻译系统的诞生是建立在大数据之上。它的原理也是语料库,数量级在万亿以上。

·沃尔玛从几十年的交易记录中获取到在飓风来临前夕,除了手电筒销售量增加,草莓味的蛋挞也会增加(为什么是蛋挞而不是面包?为什么是草莓味?大数据只能告诉我们"是什么",而不能告诉我们"为什么",但,我们只要知道"是什么",就足够了,因为这已经能增加销售额)

·美国折扣商品零售商通过查看签署婴儿礼物登记薄的女性消费记录,得知女性会在怀孕的第三个月买很多无香乳液;几个月后,她们会买一些营养品,比如镁,钙,锌。

·UPS国际快递公司使用预测性分析来检测全美60 000辆车队,从而及时的进行防御性的修理、更换零件。以免半路上抛锚导致巨大损失。

·联合爱迪生电力公司通过对1880年至今的地下电缆沙井盖爆炸的记录进行编辑、录入、汇总、分析,最终给出一份名单,在名单的前10%的高危沙井盖中,有44%的沙井盖都发生了严重的事故。

·莫里通过整理老旧的航海日志来预测各种恶劣的天气,实现安全航海。

·日本先进工业技术研究所的教授越水重臣,在汽车座椅下部安装360个压力传感器,据此来判断乘坐者的身份是否是车主,准确率高达98%。此系统同时可以根据收集到的数据来判断盗贼的身份。

·谷歌的数字图书馆可以提供单词和短语历年使用次数的信息展示图标。数据化的实现让抄袭学术作品的行为越来越无藏身之处。

·UPS根据GPS和大量车上的传感器反馈的数据,来优化员工的行车路线。

·早期的亚马逊为AOL电子商务网站提供后台技术服务,从而掌握用户浏览、购买的记录数据。

·谷歌语音识别系统的由来:在-之间与语音识别技术巨头Nuance公司进行语音翻译的合作,利用双方合同漏洞私下单方面保存了语音翻译记录数据,从此打下了语音识别服务系统的基础。

·丹麦癌症协会通过大数据的研究表明:手机与患癌症率并没有直接关系。

·谷歌街景与GPS采集:一辆谷歌街景汽车每时每刻都积累大量的离散数据流。这些数据不仅可以用于基本的用途,还可以大量的二次使用,如优化地图服务、谷歌无人汽车的路线识别。

·微软与谷歌的拼写检查:微软使用的是少量的字典,依赖算法的检查,只能检查常用的几种语言,且为此要话费几百万美元创建和维护;谷歌使用的是搜索引擎每天反馈的附加结果,这个系统每天都有至少30亿的查询量的更新,而且支持几乎所有语言。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。