一本真正讲“大数据”处理思路的书

这是我读到的第一本真正讲“大数据”处理思路的书，我想分享一下我读了这本书的感悟。

一般情况下，在面对海量数据的时候，我们的软件架构也会跟着发生变化。当你的数据量在内存里放不下的时候，你就得考虑硬盘；当你的硬盘也放不下的时候，你就得考虑分布式；当你做分布式的时候，你就得考虑数据共享、容错、一致性、可扩展和并行计算等。

这本书的价值本身不在于教你机器学习算法，科普什么是流式处理，PageRank 等。而在于告诉你，当你的数据量大到你不能在单机完成的时候，你可以通过哪些方式达到你的目的。本书最常用的几种方法有：采样、近似计算(状态压缩)、并行计算（MapReduce）和降维等。

因为近似计算和采样都涉及到新算法结果有效性的问题，所以有很多关于近似算法收敛至目标结果的证明。抱着这样的心态去读，你会发现书中介绍了很多非常巧妙的处理方式。

书不厚，但内容详实，习题很棒，而且有丰富的引用文献，第二版在预售的时候我就赶紧订购了。新版补充了 SVD 降维相关技术，以及目前最热的分布式机器学习相关技术。另外此书译者很刁钻，翻译的几本书都是精品。

书的密度很大，每个知识点页数都不多，但至少都介绍清晰，而且还有深入探索用的文献。MapReduce 论文也不过 10 页左右，估计怕有人读不懂，书里非常详细的做了延伸，用了 30 页。本书中MapReduce代码很少，因为书只介绍思路，习题中需要自己用MapReduce实现。目录中提到的每个方面，作者只介绍了其中需要用“大数据”思路去解决的问题，其他的方面有其他方面专业的书籍和论文可以去探索。建议还在念书的同学们如果真的对大数据和分布式处理感兴趣的话，可以阅读本书。

END

以上是一位豆瓣读者sned_comer写的书评，网址请见——/review/7560975/

接下来，我们再来了解一下这本书。

图书介绍

作者：Jure Leskovec，Anand Rajaraman，Jeffrey Ullman

译者：王斌，王达侃

作者介绍

Jure Leskovec（尤雷·莱斯科夫）

近年来最优秀的 AI 科学家之一。Pinterest 公司首席科学家，斯坦福大学计算机科学系副教授，研究方向为大型社交和信息网络的数据挖掘。

他的研究成果获得了很多奖项，如 Microsoft Research Faculty Fellowship、Alfred P. Sloan Fellowship 和 Okawa Foundation Fellowship，还获得了很多最佳论文奖，同时也被《纽约时报》《华尔街日报》《华盛顿邮报》《连线》及 NBC、CBC 等流行的社会媒体刊载。

他还创建了斯坦福网络分析平台（SNAP）。

Anand Rajaraman（阿南德·拉贾拉曼）

数据库和 Web 技术领域领军者，硅谷连续创业者和风险投资人，斯坦福大学计算机科学系助理教授。

自 1996 年起创立过多家公司，这些公司先后被亚马逊、谷歌和沃尔玛集团收购，而他本人历任亚马逊技术总监、沃尔玛负责全球电子商务业务的副总裁。之后创立了风投公司 Milliways Ventures 和 Rocketship VC，投资过 Facebook、Lyft 等众多公司。

作为学者，他主要研究数据库系统、Web 和社交媒体，他的研究论文在学术会议上获得了多个奖项，他在年被《快公司》杂志列入“商界最具创造力 100 人”。

Jeffrey Ullman（杰弗里·厄尔曼）

计算机科学家，美国国家工程院院士，年图灵奖得主。

早年在贝尔实验室工作，之后任教于普林斯顿大学，十年后加入斯坦福大学直至退休，一生的科研、著书和育人成果卓著。

他是 ACM 会员，曾获 SIGMOD 创新奖、高德纳奖、冯诺依曼奖等多项科研大奖；合著有“龙书”《编译原理》、数据库名著《数据库系统实现》等多部经典著作。

Ullman培养了很多了不起的学生，其中包括谷歌联合创始人 Sergey Brin，本书第二作者也是他的得意弟子。目前担任 Gradiance 公司 CEO。

译者介绍

王斌博士

小米 AI 实验室主任，NLP 首席科学家。中国中文信息学会理事，《中文信息学报》编委。

加入小米公司之前，是中科院研究员、博导及中科院大学教授。译有《信息检索导论》《大数据：互联网大规模数据挖掘与分布式处理》和《机器学习实战》等书。

王达侃

优刻得 AI 部门负责人，曾任 WeWork Research & Applied Science 中国区负责人，并曾在 LinkedIn、Twitter 和微软亚洲研究院负责 AI 以及大数据方向的研发工作。

硕士毕业于斯坦福大学计算机系，本科毕业于上海交通大学 ACM 班。

图书特色

当今 AI 领域最知名的学者之一Jure Leskovec、年图灵奖得主 Jeffrey Ullman 及弟子作品

国内知名 NLP 专家王斌、AI 青年学者王达侃执笔翻译

“数据挖掘全景式入门参考书”，源自斯坦福大学公开课“CS246：海量数据挖掘”“CS224W：图机器学习”和“CS341：项目实战课”

配套资源丰富，包括开源英文原书 PDF、PPT、视频讲解

内容简介

本书源自斯坦福大学公开课“CS246：海量数据挖掘”“CS224W：图机器学习”和“CS341：项目实战课”，主要关注极大规模数据的挖掘。书中包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统、社会网络图挖掘和大规模机器学习等主要内容。第3版新增了决策树、神经网络和深度学习等内容。几乎每节都有对应的习题，以此来巩固所讲解的内容。读者还可以从网上获取相关拓展资料。

这是一本关注极大规模数据挖掘的书

本书可以带你进入数据挖掘的大门

推荐阅读

《年图灵奖得主 Ullman ：做开源电子书，让肯掏钱买书的老实人免费读》

新书上市 | 世界名校数据挖掘经典《斯坦福数据挖掘教程（第3版）》

图灵社区

喜欢这篇文章？点个“在看”吧~▼