大数据分析:理论、方法及应用
作者 : [德] 史蒂文·S. 斯基纳(Steven S.Skiena) 著
译者 : 徐曼 译
出版日期 : 2022-04-20
ISBN : 978-7-111-70347-1
适用人群 : 数据科学和大数据相关专业学生及相关领域从业者
定价 : 129.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 338
开本 : 16
原书名 : The Data Science Design Manual
原出版社: Springer-Verlag
属性分类: 教材
包含CD : 无CD
绝版 :
图书简介

本书由算法领域的知名专家Steven Skiena教授撰写,重点介绍了收集、分析和解释数据所需的技能和原理。作者由浅入深地介绍了数据科学的概念、所需的数学基础、数据的整理清洗方法、数据分析方法(统计分析、可视化、数学模型、线性逻辑回归、机器学习算法等)以及学习大数据分析的意义。作者结合应用领域的大量数据分析案例,以解释大数据分析所需技能与原理,帮助者快速理解和掌握大数据分析的理论与方法,也将这些技能的实际应用方式展现得淋漓尽致,具有很强的可操作性。

图书特色

图书前言

为了了解我们周围的世界,我们需要从环境中获取和分析数据。最近,一些技术的发展为我们提供了新的机会,使我们能够将数据分析知识应用到比以往任何时候都更大的挑战中。
计算机存储容量呈指数级增长。确实,存储已经变得如此廉价,以至于几乎不太可能需要计算机系统刻意删除某些数据。传感设备越来越多地监控所有可以观察到的东西:视频流、社交媒体互动以及任何移动的东西的位置。云计算使我们能够利用大量机器来处理这些数据。事实上,每次当你在谷歌上进行搜索的时候,都会调用上百台计算机,对你之前的所有搜索活动仔细检查,以决定下一个推荐给你的最佳广告。
所有这一切的结果就是数据科学的诞生。数据科学是一个致力于从海量信息中获取最大价值的新领域。作为一门学科,数据科学融合了统计学、计算机科学和机器学习,同时它也正在逐渐显露出自己独有的特点。这本书是对数据科学的一个介绍,重点介绍构建用于收集、分析和解释数据的系统所需的知识和原则。
作为一名研究人员和讲师,我的专业经验使我确信,数据科学的一个主要挑战是它实际上要比看起来微妙得多。任何一名曾经计算过自己平均成绩(GPA)的学生都可以说自己掌握了最基本的统计知识,就像绘制一个简单的散点图可以让你在简历中增加数据可视化的经历一样。但想要有意义地分析和解释数据则需要专业的技术和知识。有太多人对这些基础知识掌握得十分糟糕,这促使我撰写这本书。
致读者
我的另一本书The Algorithm Design Manual [Ski08]自1997年首次出版以来受到了很多读者的喜爱,我对此感到十分欣慰。该书被认为是使用算法技术来解决实践中经常遇到的问题的独特指南。而现在呈现在你面前的这本书虽然在内容上与上一本截然不同,但是写作目的却是相似的。
在这里,我特别强调以下几个基本原则,它们对于成为一名优秀的数据科学家至关重要:
重视做好简单的事情:数据科学不是一门十分高深的学科。学生和实践者经常在技术的道路上迷失了方向,他们一味地追求最先进的机器学习方法、最新的开源软件库或最炫目的可视化技术。然而,数据科学的核心在于正确地做一些简单的事情—理解与应用相关的领域,清洗和集成相关的数据源,并将你的结果清晰地呈现给其他人。
然而,简单并不意味着容易。事实上,提出正确的问题并感知自己是否正在朝着正确的答案和可行的方案迈进,需要相当敏锐的洞察力和丰富的经验。我在本书中克制住了深入探讨清洗数据这种技术性问题的冲动,因为它是可以教授的。市面上有很多其他书籍涵盖了机器学习算法或统计假设检验的复杂性。而我在本书中的任务是为分析数据中真正重要的事情打下基础。
培养数学直觉:数据科学建立在数学基础之上,特别是统计学和线性代数。从直观的角度理解这些材料是很重要的—为什么要开发这些概念,它们为什么有用,以及使用它们的最佳时机。我展示了一些线性代数中的运算,呈现了当你操作矩阵时矩阵会发生什么情况的图片,并且通过示例解释了一些统计概念。我的目标是让读者培养出这种直觉。
但我在书中尽量减少对于这些知识的相关数学表达。实际上,在这本书中我只给出一个形式证明—一个其中的相关定理显然不当的不正确证明。这里的寓意不是说数学上的严谨不重要,因为它显然很重要,但是真正的严谨是在理解之后才可能实现的。
像计算机科学家一样思考,但像统计学家一样行动:数据科学将计算机科学家、统计学家和领域专家联系成一个整体。但是每个团体都有自己独特的思维和行为风格,这些风格已深深烙印在其成员的灵魂之中。
在这本书中,我强调了计算机科学家最自然的方法,特别是关于数据的算法处理、机器学习的使用,以及数据规模的掌握。但我也试图传达统计推理的核心价值观:理解应用领域的必要性,对小领域的正确认识,对重要性的追求和对探索的渴望。
没有任何一门学科能够揭示全部真理。最好的数据科学家会整合多个领域的工具,而这本书力求提供一个相对中立的场所,在这里,对立的哲学可以一起推理。
本书没有提及的内容也同样重要。我没有强调任何特定的语言或数据分析工具。相反,本书对重要的设计原理进行了高层次讨论。我试图在概念层面而不是技术层面上操作。本书的目标是让你尽可能快地朝着正确的方向前进,使用你认为最便利的软件工具。
致讲师
这本书涵盖的内容足够为刚开始上“数据科学导论”这门课程的本科生和低年级研究生提供帮助。我希望读者至少完成了一门与编程相关的课程,并且掌握一些概率和统计方面的知识,当然,多多益善。
我制作了一套完整的教学幻灯片,并上传到了http://www.data-manual.com上。项目和作业的数据资源也可用于帮助讲师。
本书的教学特色包括:
实战故事:为了更好地了解数据科学技术如何应用于现实世界,我收集了一些“实战故事”,或者我们处理实际问题的经验。这些故事的寓意在于,这些方法不仅是理论,而且是重要的工具,可以根据需要使用。
错误的开始:大多数教科书将方法作为既成事实来呈现,模糊了设计方法所涉及的思想,以及其他方法失败的原因。实战故事说明了我对某些应用问题的推理过程,但我也将这些内容编入了核心材料。
课后拓展:突出强调了每一章中需要特别注意的一些概念。
练习:我提供了一系列的作业和课后习题。很多是传统的考试题,但也有不少实验挑战和少量学生在寻找工作时可能遇到的面试问题,而且对所有练习都进行了难度等级评定。
我建立了解决方案Wiki而非直接给出答案,该解决方案Wiki将通过众包服务寻求所有偶数号习题的解答。有人告诉我,一个类似的系统和我的The Algorithm Design Manual产生了一致的解答。原则上我拒绝查看它们,所以请买家当心。
Kaggle挑战:Kaggle(www.kaggle.com)为数据科学家提供了一个参与竞争的论坛,其特色是在引人入胜的数据集上挑战现实世界中的问题,并通过评分来评估你的模型相对于其他模型的表现。每章的练习包括三个相关的Kaggle挑战,可为读者做其他项目和调查带来灵感,也可以自学或作为数据源。
数据科学电视:数据科学仍然神秘,甚至威胁到广大公众。The Quant Shop是一个业余的数据科学真人秀节目,学生小组可在这里处理各种各样的现实世界预测问题,并试图预测未来事件。请访问http://www.quant-shop.com。
我们准备了8集30分钟的内容,每个内容围绕一个特定的现实世界预测问题。挑战包括在拍卖会上为艺术品定价、挑选环球小姐大赛的获胜者,以及预测名人的死亡时间。对于每一种情况,我们都观察学生小组会如何处理这个问题,并在他们建立预测模型时与他们一起学习。他们做出了预测,我们与他们一起观察这些预测是对还是错。
在这本书中,The Quant Shop用于提供预测挑战的具体例子,从数据获取到评估,系统讨论数据科学建模过程。我希望你觉得它们很有趣,它们会鼓励你思考,让你接受建模挑战。
章节注释:最后,每章都会给出一个简短的注释,向读者指出主要的资源和其他参考。
献词
我聪明开朗的女儿Bonnie和Abby现在都已成年,这意味着她们处理统计数据的速度并不总是如我所愿。我将这本书献给她们,希望她们的分析能力有所提高,从而总是同意我的观点。
我将这本书献给我美丽的妻子Renee,即使她不同意我的观点,最终也会和我达成一致,并且一切迹象表明她十分爱我。
致谢
我要感谢的人太多了,可能有一些没有被提及。我会尽可能地将他们列举出来,但请那些我不小心遗漏的人对此表示谅解。
首先,我感谢那些为我整理这本书做出具体贡献的人。Yeseul Lee曾担任该项目的学徒,在2016年夏季这段时间帮助处理图表、练习等。你会在本书几乎每一页上看到她的手工制作成果,我非常感谢她的帮助和奉献。Aakriti Mittal和Jack Zheng也参与了一些图的制作。
上我2016级秋季“数据科学概论”课程(CSE519)的学生帮助修正了手稿,他们发现了很多需要修正的内容。我特别感谢Rebecca Siford,她提出了一百多条修正意见。几个数据科学的朋友帮我审阅了特定的章节,我感谢Anshul Gandhi、Yifan Hu、Klaus Mueller、Francesco Orabona、Andy Schwartz和Charles Ward在这里所做的努力。
我感谢2015年秋季所有参与The Quant Shop节目的学生,他们的视频和建模工作成果显著。我特别感谢Jan(Dini)Diskin-Zimmerman,他的编辑工作远远超出了其职责范围。
很高兴Springer的编辑Wayne Wheeler和Simon Rees能够一如既往地与我合作。我也感谢最终将这本书呈现在你面前的所有生产和营销人员,包括Adrian Pieron和Annette Anlauf。
一些练习是由同事原创的,或是受到其他资源的启发。几年后重建原始资源可能是一个挑战,但每个问题的记录(据我所知)都会出现在网站上。
通过与其他人的合作,我了解到了很多关于数据科学的知识。这些人包括我的博士生,特别是Rami al-Rfou、Mikhail Bautin、Haochen Chen、Yanqing Chen、Vivek Kulkarni、Levon Lloyd、Andrew Mehler、Bryan Perozzi、Yingtao Tian、Junting Ye、Wenbin Zhang和博士后Charles Ward。我深深地记得这些年来我所有的Lydia项目硕士生,并提醒大家:第一个将其女儿命名为Lydia的人将获大奖,这项奖励至今仍然无人认领。我要感谢我的其他合作者提供的故事,包括Bruce Futcher、Justin Gardin、Arnout van de Rijt和Oleksii Starov。
我记得General Sentiment/Canrock universe的所有成员,特别是Mark Fasciano,我和他分享了创业梦想,并体验了数据进入现实世界时的变化。我感谢在我2015~2016年公休假期间的雅虎实验室/研究部同事,正是在那段时间我构思了这本书的大部分内容。我特别感谢Amanda Stent,他让我在公司历史上特别困难的一年进入了雅虎。我从其他教过数据科学相关课程的人那里学到了宝贵的东西,包括Andrew Ng和Hans-Peter Pfister,并感谢他们的帮助。
如果你有一个带10个参数的程序,那么你很可能还遗漏了一些参数。
—Alan Perlis

警告
对于作者而言,无论存在什么不足,一般都要宽容地接受责备。但是我们并不认同这种观点。本书中的任何错误、不足或问题都可能是其他某个人的错,但我仍然很高兴知道哪些内容有问题,以便确定应归咎于谁。

Steven S. Skiena
石溪大学计算机科学系
http://www.cs.stonybrook.edu/~skiena
skiena@data-manual.com
2017年5月

上架指导

计算机\数据科学

封底文字

“本书不仅是一本经典的手册,同时也能作为数据科学入门课程的教材。各章都有丰富的练习,总是先在适当的时机引出话题,然后再用实际的例子来解释--这是其最突出的特点。本书还可以作为一门学术课程的教材。事实上,这正是我想推荐本书的理由……”
                        ——P.Navrat,Computing Reviews

本书对迅速兴起的数据科学跨学科领域提供必要的介绍,重点介绍构建用于收集、分析和解释数据的系统所需的关键技能,以及成为优秀数据科学家的基本原则。“正确地做简单的事情”,帮助读者发展数学直觉,用最少的数学推导说明关键概念。本书使用计算机科学家最自然的方法突出统计推理的核心价值,不依赖任何特定的编程语言或数据分析工具套件,而是侧重于对重要设计原则的深入讨论。

本书特色:
包含“实战故事”,为数据科学如何应用于现实世界提供参考。
强调“错误的开始”,揭示某些方法失败的微妙原因。
提供“课后拓展”,强调每一章中需要特别注意的一些概念。
包括“练习”,为读者自学提供广泛的习题和项目。  
“Kaggle挑战”让读者挑战现实世界中的问题。

作者简介

[德] 史蒂文·S. 斯基纳(Steven S.Skiena) 著:史蒂文·S. 斯基纳(Steven S.Skiena)博士是石溪大学的杰出教授,研究方向是数据科学、自然语言处理和算法。由于对本科教学工作有杰出贡献,他曾获得IEEE计算机科学与工程本科教学奖。他还撰写了6本书,包括知名的The Algorithm Design Manual、Programming Challenges: The Programming Contest Training Manual。

译者序

非常高兴这本The Data Science Design Manual的中文版即将与国内的读者见面了。能够翻译这本书,我感到十分荣幸。感谢机械工业出版社华章分社在本书版权引进以及出版和推广工作上做出的努力。
移动互联、智能传感器、云计算、量子通信等新一代信息技术以及Web 2.0社交媒体的发展带来了全新的产业生态。大数据分析是第三次计算革命、人工智能2.0及模式识别、认知科学等技术的发展为产业发展所带来的伟大变革。人类在计算机商品化之前的整个历史过程中积累了约12艾字节的数据,2011年数据总量已超过1 600艾字节,2015年破8泽字节。伴随着数据量的激增,数据也正在被逐步开放,在应用领域,大数据驱动的智能决策开始涵盖更多方向。大数据已成为公认的资源,成为继劳动力、土地、资本、企业家之后的第五大生产要素。将数据压力转变为动力成为未来20年全球性智能时代的重要驱动力,大数据分析也将在金融、制造、医疗、交通、教育等产业扮演重要角色,同时大数据服务本身也将独立出来,成为智能产业生态的重要组成部分。
大数据具有多源、异构、实时处理的特征,为此,面向大数据处理的数据科学不仅包括基于关系型数据库的传统数据挖掘方法,更包括基于互联网数据的网络数据挖掘方法、数据融合方法等高维度、多模态数据处理方法。
本书重点介绍了收集、分析和解释数据所需的技能和原理。作者由浅入深地介绍了数据科学的概念、所需的数学基础、数据整理方法、数据分析方法(统计分析、可视化、数学模型、线性回归、logistic回归、机器学习算法等)以及学习大数据分析的意义。作者结合应用领域的大量数据分析案例解释大数据分析所需的技能与原理,帮助读者快速理解和掌握大数据分析的理论与方法,并将这些技能的实际应用方式展现得淋漓尽致,具有很强的可操作性。
由于大数据分析的方法和技术种类多样,且随着技术的不断发展,算法在不断迭代,因此本书从大数据分析的底层逻辑出发,全面讨论众多方法背后的原理和实现思想。近年来,关于大数据分析应用的研究如火如荼,在面对实际问题时,研究人员都希望通过新颖有效的方法和技术快速解决问题,得到结论。本书以领域背景中的问题为导向来介绍一系列方法和技术,这些方法和技术将足以应对实际中遇到的大部分数据分析与应用问题,并取得满意效果。譬如结合第6章提出的多种数据可视化形式,读者在实际应用中能够更轻松地选择特征,以更加容易理解的方式展示分析结果。第7章的数学模型评估理论能帮助读者在实际应用中更好地确认建立的分析模型的效果。
本书对大数据分析方法的数学原理进行了详细的介绍,对读者的知识背景没有过高的要求,非常适合入门学习。在本书的基础上,读者可以通过深入阅读相关材料进一步深入了解专业性更强的理论与技术。
翻译本书是一项艰巨任务,其工作量远超预期:将中英文两种语言进行贴切的转换所需的远不止语言技术,而更像是一种需要斟酌推敲的文学艺术。经常出现的情况是:虽然我已完全明白作者试图表达的内容,但无论如何也无法将其组织成贴切、得体的中文语句。翻译本书牵扯到的知识也远不止专业知识本身,书中涉及的众多案例和范例都需要相当广泛的领域知识。例如第12章开头提到的Bupkis,是意第绪语单词,属于西日耳曼语支,意为“太小而无关紧要”(后文中也提到了在英语中的同义表达词汇)。同时,书中的案例涉及人文、政治、金融等领域知识,这也是对数据分析从业者知识素养的考验。幸运的是本书在翻译过程中得到大量他人的帮助,包括天津大学刘福升博士以及南开大学硕士生卢奕杉和王欣怡。在此向他们的慷慨帮助表示由衷的感谢。同时,感谢我的家人和同事在本书翻译过程中提供的支持与帮助。
囿于个人水平和精力,译文难免有错漏之处,请读者不吝指正,以便进行修订,改善本书质量。最后,祝愿各位读者能够从本书中获益,在今后的工作和学习中一切顺利。

徐曼
2020年于南开园

图书目录

译者序
前言
第1章 什么是数据科学1
1.1 计算机科学、数据科学和真正的科学1
1.2 从数据中提出有趣的问题3
1.2.1 棒球百科全书3
1.2.2 互联网电影数据库6
1.2.3 Google Ngrams7
1.2.4 纽约出租车记录9
1.3 数据的属性11
1.3.1 结构化与非结构化数据11
1.3.2 定量数据与类别数据11
1.3.3 大数据与小数据12
1.4 分类与回归12
1.5 关于数据科学的电视节目:The Quant Shop13
1.6 关于实战故事15
1.7 实战故事:回答正确的问题16
1.8 章节注释17
1.9 练习17
第2章 数学基础20
2.1 概率20
2.1.1 概率与统计21
2.1.2 复合事件与独立事件22
2.1.3 条件概率23
2.1.4 概率分布23
2.2 描述性统计25
2.2.1 中心性度量25
2.2.2 变异性度量26
2.2.3 解释方差27
2.2.4 描述分布29
2.3 相关性分析29
2.3.1 相关系数:皮尔逊和斯皮尔曼秩30
2.3.2 相关的强弱与显著性31
2.3.3 相关性并不意味着因果关系33
2.3.4 用自相关检测周期性34
2.4 对数35
2.4.1 对数与乘法概率35
2.4.2 对数和比率35
2.4.3 对数与正规化偏态分布36
2.5 实战故事:契合设计师基因37
2.6 章节注释39
2.7 练习39
第3章 数据整理42
3.1 数据科学语言42
3.1.1 notebook环境的重要性44
3.1.2 标准数据格式45
3.2 数据收集47
3.2.1 搜索47
3.2.2 爬取49
3.2.3 网络日志50
3.3 数据清洗50
3.3.1 错误与伪影51
3.3.2 数据兼容性52
3.3.3 处理缺失值56
3.3.4 离群值检测57
3.4 实战故事:打败市场58
3.5 众包59
3.5.1 一便士的实验59
3.5.2 什么时候有群体智慧60
3.5.3 聚合机制61
3.5.4 众包服务62
3.5.5 游戏化65
3.6 章节注释66
3.7 练习66
第4章 得分和排名69
4.1 体重指数70
4.2 开发评分系统72
4.2.1 黄金标准和代理72
4.2.2 排名与得分72
4.2.3 识别良好的评分函数74
4.3 Z得分和归一化75
4.4 高级排名技术76
4.4.1 Elo排名76
4.4.2 合并排名78
4.4.3 基于有向图的排名80
4.4.4 PageRank80
4.5 实战故事:Clyde的复仇81
4.6 阿罗不可能性定理83
4.7 实战故事:谁更大84
4.8 章节注释87
4.9 练习87
第5章 统计分析89
5.1 统计分布90
5.1.1 二项分布90
5.1.2 正态分布91
5.1.3 正态分布的含义93
5.1.4 泊松分布93
5.1.5 幂律分布95
5.2 从分布中采样97
5.3 统计显著性99
5.3.1 显著性的意义100
5.3.2 t检验:比较总体均值101
5.3.3 Kolmogorov-Smirnov检验102
5.3.4 Bonferroni校正104
5.3.5 错误发现率104
5.4 实战故事:发现青春之泉105
5.5 置换检验与p值106
5.5.1 产生随机排列108
5.5.2 迪马吉奥的连胜纪录109
5.6 贝叶斯定理110
5.7 章节注释111
5.8 练习111
第6章 数据可视化114
6.1 探索性数据分析115
6.1.1 面对新的数据集115
6.1.2 汇总统计量和Anscombe四重线117
6.1.3 可视化工具119
6.2 发展可视化美学119
6.2.1 最大化数据墨水比率120
6.2.2 最小化谎言因子121
6.2.3 最大限度地减少图表垃圾122
6.2.4 恰当的缩放和标注123
6.2.5 有效使用颜色和阴影124
6.2.6 重复的力量125
6.3 图表类型125
6.3.1 表格数据127
6.3.2 点状图和折线图128
6.3.3 散点图131
6.3.4 条形图和饼图133
6.3.5 直方图135
6.3.6 数据地图137
6.4 出色的可视化139
6.4.1 Marey的火车时刻表139
6.4.2 斯诺的霍乱地图140
6.4.3 纽约气象年141
6.5 读图141
6.5.1 模糊分布141
6.5.2 过度解释方差142
6.6 交互式可视化143
6.7 实战故事:TextMap144
6.8 章节注释146
6.9 练习146
第7章 数学模型149
7.1 建模哲学149
7.1.1 奥卡姆剃刀原理149
7.1.2 权衡偏差与方差150
7.1.3 Nate Silver会怎么做150
7.2 模型分类152
7.2.1 线性模型与非线性模型152
7.2.2 黑盒与描述性模型152
7.2.3 第一原理与数据驱动模型153
7.2.4 随机模型与确定性模型154
7.2.5 平面模型与分层模型155
7.3 基准模型155
7.3.1 分类的基准模型155
7.3.2 价值预测的基准模型156
7.4 评估模型157
7.4.1 评估分类器158
7.4.2 受试者工作特征曲线161
7.4.3 评估多类系统162
7.4.4 评估价值预测模型164
7.5 评估环境165
7.5.1 数据卫生评估167
7.5.2 放大小型评估集167
7.6 实战故事:100%准确169
7.7 模拟模型170
7.8 实战故事:经过计算的赌注170
7.9 章节注释173
7.10 练习173
第8章 线性代数176
8.1 线性代数的作用176
8.1.1 解释线性代数公式177
8.1.2 几何和向量178
8.2 矩阵运算可视化179
8.2.1 矩阵加法179
8.2.2 矩阵乘法180
8.2.3 矩阵乘法的应用181
8.2.4 单位矩阵与求逆184
8.2.5 矩阵求逆与线性系统185
8.2.6 矩阵的秩186
8.3 因式分解矩阵187
8.3.1 为什么是因子特征矩阵187
8.3.2 LU分解与行列式188
8.4 特征值和特征向量189
8.4.1 特征值的性质189
8.4.2 计算特征值189
8.5 特征值分解190
8.5.1 奇异值分解191
8.5.2 主成分分析193
8.6 实战故事:人的因素193
8.7 章节注释195
8.8 练习195
第9章 线性回归和logistic回归197
9.1 线性回归197
9.1.1 线性回归与对偶198
9.1.2 线性回归误差199
9.1.3 寻找最优拟合199
9.2 更好的回归模型200
9.2.1 删除离群值200
9.2.2 拟合非线性函数201
9.2.3 特征和目标缩放202
9.2.4 处理高度相关的特征204
9.3 实战故事:出租车司机204
9.4 参数拟合回归205
9.4.1 凸参数空间206
9.4.2 梯度下降法207
9.4.3 什么是正确的学习速率208
9.4.4 随机梯度下降法210
9.5 通过正则化简化模型210
9.5.1 岭回归211
9.5.2 LASSO回归211
9.5.3 拟合与复杂性的权衡212
9.6 分类与logistic回归212
9.6.1 分类回归213
9.6.2 决策边界214
9.6.3 logistic回归214
9.7 logistic分类中的几个问题216
9.7.1 均衡训练分类216
9.7.2 多类分类218
9.7.3 分层分类219
9.7.4 分拆函数与多项式回归220
9.8 章节注释220
9.9 练习220
第10章 距离和网络方法222
10.1 测量距离222
10.1.1 距离度量222
10.1.2 距离度量223
10.1.3 在更高维度上工作224
10.1.4 维度平均225
10.1.5 点与向量226
10.1.6 概率分布之间的距离226
10.2 最近邻分类227
10.2.1 寻找好的类比228
10.2.2 k最近邻法229
10.2.3 发现最近邻230
10.2.4 局部敏感哈希231
10.3 图、网络和距离232
10.3.1 加权图与诱导网络233
10.3.2 对图的讨论234
10.3.3 图论236
10.4 PageRank236
10.5 聚类239
10.5.1 k均值聚类241
10.5.2 凝聚聚类244
10.5.3 比较聚类248
10.5.4 相似度图和基于切割的聚类248
10.6 实战故事:集群轰炸250
10.7 章节注释251
10.8 练习251
第11章 机器学习254
11.1 朴素贝叶斯256
11.1.1 公式256
11.1.2 处理零计数(折扣)257
11.2 决策树分类258
11.2.1 构建决策树260
11.2.2 实现异或261
11.2.3 决策树集合261
11.3 Boosting和集成学习262
11.3.1 用分类器投票262
11.3.2 Boosting算法263
11.4 支持向量机265
11.4.1 线性支持向量机266
11.4.2 非线性支持向量机267
11.4.3 核函数268
11.5 监督程度268
11.5.1 监督学习269
11.5.2 无监督学习269
11.5.3 半监督学习270
11.5.4 特征工程271
11.6 深度学习272
11.6.1 网络和深度273
11.6.2 反向传播275
11.6.3 文字和图形的嵌入276
11.7 实战故事:名字游戏277
11.8 章节注释279
11.9 练习280
第12章 大数据:实现规模282
12.1 大数据是什么282
12.1.1 作为坏数据的大数据283
12.1.2 3个V284
12.2 实战故事:基础设施问题285
12.3 大数据算法286
12.3.1 大O分析286
12.3.2 哈希287
12.3.3 利用存储层次结构289
12.3.4 流式和单通道算法290
12.4 过滤和抽样291
12.4.1 确定性抽样算法291
12.4.2 随机抽样和流抽样292
12.5 并行293
12.5.1 一、二、多293
12.5.2 数据并行294
12.5.3 网格搜索295
12.5.4 云计算服务295
12.6 MapReduce296
12.6.1 MapReduce编程296
12.6.2 MapReduce的工作原理298
12.7 社会和伦理影响299
12.8 章节注释301
12.9 习题301
第13章 结尾303
13.1 找份工作303
13.2 到研究生院去304
13.3 专业咨询服务304
参考文献305
索引311

教学资源推荐
作者: 沈华 杨晓艳 马驰 杨华 编著
作者: [新西兰]伊恩 H. 威腾(Ian H. Witten) 埃贝?弗兰克(Eibe Frank) 马克 A. 霍尔(Mark A. Hall) [加]克里斯多夫 J. 帕尔(Christopher J. Pal)著
参考读物推荐
作者: 武新华 王英英 安向东 等 编著
作者: 丁新权 主编 波音 李基才 等参编
作者: [美]理查德·布莱斯(Richard Brath) 大卫·琼克(David Jonker) 著