教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 366

开本 : 16

原书名 : Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, Worked Examples, and Case Studies

原出版社: MIT Press

属性分类: 教材

包含CD : 无CD

绝版 : 无

图书简介

本书重点讲述用于预测性数据分析的最重要的机器学习方法，包括理论概念和实际应用。

图书特色

机器学习基础
面向预测数据分析的算法、实用范例与案例研究
　　　　　　　　　　　约翰·D. 凯莱赫（John D. Kelleher）
[ 爱尔兰 ]　布莱恩·马克·纳米（Brian Mac Namee）　著
　　　　　　　　　　　　　　奥伊弗·达西（Aoife D''Arcy）
　　　　　　　　　　　　　　顾卓尔　译　张志华　等审校
Fundamentals of Machine Learning for Predictive Data Analytics
Algorithms, Worked Examples, and Case Studies

图书前言

本书的目的是呈现一个通俗易懂的、引导性的机器学习基础资料，并说明在实践中是如何利用机器学习解决商业、科学以及其他组织环境的预测数据分析问题的。因此，本书不仅讨论一般机器学习书籍所涵盖的内容，也讨论预测分析项目的生命周期、数据准备、特征设计和模型部署。
本书可作为计算机科学、自然与社会科学、工程以及商学专业本科生和研究生的机器学习、数据挖掘、数据分析或人工智能课程的教材。书中的案例研究展示了机器学习在工业领域的数据分析方面的应用，因此本书也可以作为从业者的参考材料，还可用作工业界的培训教材。
本书基于我们多年教授机器学习的经验编写而成，书中的方法和素材源于课堂，并经过了实践检验。在撰写本书的过程中，为使这些素材更易于理解，我们采用了如下指导原则：
将最重要且最常用的算法解释清楚，而不是笼统地囊括机器学习的所有方面。作为教师，我们认为让学生深入理解一个领域的核心和基础概念能够为他们打下坚实的基础，如此学生才能够独立地探索这个领域。这种见微知著的方法使我们能够用更多的篇幅去介绍、解释、阐明和情境化那些较为基础和实用的算法。
在从技术上正式地描述算法的原理之前，先通俗地解释算法的意图。对每个主题进行通俗的介绍，可以使学生在学习更为技术性的内容之前打下坚实的基础。我们针对本科生、研究生和专业人士等的教学经验表明，这些通俗的介绍能使学生轻松地理解主题。
提供完整的实用范例。在本书中，我们展示了所有范例的完整运作方式，这样能使读者检查自己的理解程度。
本书结构
在教授一个技术主题时，展示其实际应用是非常重要的。为此，我们在预测数据分析这一重要且处于成长期的工业界机器学习应用情境下展现机器学习。机器学习与数据分析的联系贯穿本书的每一章。在第1章中，介绍机器学习，并解释机器学习在标准的数据分析项目的生命周期中所扮演的角色。在第2章，呈现一个设计和构建预测分析解决方案的框架，该框架基于机器学习且能够满足商业需要。所有机器学习算法都假设存在一个可供训练的数据集。因此，第3章阐释在预先建好的预测模型上使用数据集前如何对数据集进行设计、构建和质量检查。
第4～7章是本书的主要机器学习章节，每一章都展示了不同的机器学习方法：第4章为通过搜集信息来学习；第5章为通过类比来学习；第6章为通过预测可能的结果来学习；第7章为通过搜索误差最小的解来学习。这些章节都分为如下两部分：
第一部分首先对该章内容进行通俗的介绍，紧接着详细地阐释理解这些内容所需的技术概念，然后展示使用该学习方法的一个标准机器学习算法以及详细的实用范例。
第二部分阐释该标准机器学习算法的各种拓展方法，以及所延伸出的著名的变种算法。
将这些章节分为两部分的目的在于自然地将该章内容分节。由此，一节课就可以涵盖每章的第一部分（大思路、基础知识、标准方法），即一个主题。接着——如果时间允许的话——课程的主题可以延伸至第二部分的全部或部分内容。第8章阐述如何评估预测模型的性能，并展示了一系列不同的评估指标。该章也由标准方法以及延伸与拓展这两部分组成。在所有技术章节中，更为广泛的预测分析场景持续地穿插于翔实、完整的实际范例中，并且给出了范例所基于的数据集和论文的引用来源。
第9和10章的案例研究（客户流失、星系分类）清晰地展现了广泛的商业情境与机器学习之间的联系，尤其强调许多超越建模的问题和任务（比如商业理解、问题定义、数据收集和准备，以及对见解进行交流）对预测分析项目的重要性。最后，第11章讨论机器学习中一系列基础性的话题，并强调了针对给定问题选择合适的机器学习方法不仅涉及关于模型精确度的因素，而且必须将模型的特性与商业需求进行匹配。
如何使用本书
多年的教学工作，使我们对适用于一学期的导论课程和适用于两学期的高阶课程所需的教学内容有了清晰的认识。为使本书适用于上述两种不同的教学情境，本书的内容是模块化的，各章之间没有太多依赖关系。因此，教师在使用本书时只需选择自己想要讲授的部分，而不需要担心这些部分之间的依赖关系。讲课时，第1、2、9～11章的内容通常需要2～3课时，而第3～8章的内容则通常需要4～6课时。
我们在表1中列出了针对不同情况的建议授课计划。所有课程都包含第1章（面向预测数据分析的机器学习）和第11章（面向预测数据分析的机器学习艺术）。列出的第一门课程M.L.（短，深入）设计为一学期机器学习课程，这门课程侧重于让学生深入理解两个机器学习方法，以及了解在评估一个机器学习模型时所应使用的正确方法。在建议的课程中，我们决定纳入全部第4章（基于信息的学习）的内容，以及第7章（基于误差的学习）的内容。但这些内容也可被第5章（基于相似性的学习）和/或第6章（基于概率的学习）取代。M.L. （短，深入）也是短期（一周）专业人员培训的理想课程。第二门课程M.L.（短，广泛）则是另一种一学期机器学习课程，这门课程侧重于涵盖一系列机器学习方法，并且包括了详细的评估方法。对于长达两学期的机器学习课程M.L.（长）来说，我们建议讲授数据准备（3.6节）、所有的机器学习章节以及评估章节。
然而，有一些课程的侧重点不在于机器学习，我们也为预测数据分析课程制定了计划。P.D.A.（短）设计为一门一学期的预测数据分析课程，这门课为学生介绍预测数据分析，让学生对如何设计机器学习解决方案来满足商业需求有深入的理解，也让学生懂得预测分析的工作原理和评价方法，并且还包含一个案例研究。P.D.A.（短）也是短期（一周）专业人员培训的理想课程。如果时间充裕的话，P.D.A.（短）可以拓展为P.D.A.（长），以使学生对机器学习有深入而广泛的理解，并且能包含另一个案例研究。
表1　建议的教学大纲
章节 M.L.（短，深入） M.L.（短，广泛） M.L.（长） P.D.A.（短） P.D.A.（长）
1 ● ● ● ● ●
2 ● ●
3 3.1, 3.2
3.3, 3.4
3.5
3.6
●
●
● ●
●
●
●
●
●
●
4 4.1, 4.2, 4.3
4.4.1
4.4.2
4.4.3
4.4.4
4.4.5 ●
●
●
●
●
● ●
●
● ●
●
●
●
●
● ●
●
●
5 5.1, 5.2, 5.3
5.4.1
5.4.2
5.4.3
5.4.4
5.4.5
5.4.6 ●
●

●
● ●
●
●
●
●
●
● ●
●

●

●
6 6.1, 6.2, 6.3
6.4.1
6.4.2
6.4.3
6.4.4 ●
●
●
●
●
●
● ● ●
●
7 7.1, 7.2, 7.3
7.4.1
7.4.2
7.4.3
7.4.4
7.4.5
7.4.6
7.4.7 ●
●
●
●
●
●
●
● ●
●
●
●
● ●
●
●
●
●
●
●
● ●
●
●
●
●
8 8.1, 8.2, 8.3
8.4.1
8.4.2
8.4.3
8.4.4
8.4.5
8.4.6 ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●

●
●
●
●
●
●
●
9 ● ●
10 ●
11 ● ● ● ● ●

致谢
在开始写这本书的时候我们就知道工作量将会非常巨大。但是，我们却低估了需要从他人那里得到的支持。很高兴能够借此机会向那些为本书提供帮助的人致谢。感谢我们的同事和学生在过去几年里所提供的帮助。感谢MIT出版社的工作人员，特别是Marie Lufkin Lee，以及文字编辑Melanie Mallon。也非常感谢两位不愿具名的审稿人，他们为本书的早期草稿提供了深刻而有益的意见。此外，我们都幸运地得到了各自的好友和家人对于本书写作的无价支持。
John感谢Robert Ross、Simon Dobnik、Josef van Genabith、Alan Mc Donnell 和Lorraine Byrne及其所有的篮球球友。John还感谢他的父母（John和Betty）以及他的姐妹们，没有他们的支持，他便无法学会竖式除法和最简单的单词拼写。最后，他向Aphra致谢，没有她的启发就没有本书，而没有她的耐心本书也无法完成。
Brian感谢他的父母（Liam和Roisín）和家人的支持，也感谢Pádraig Cunningham和Sarah Jane Delany，是他们将他引入机器学习之门。
Aoife感谢她的父母（Michael和Mairead）和家人，以及在她的职业生涯中给过她支持的所有人——特别是The Analytics Store的宝贵客户，他们为她提供了供她“折腾”的数据！

上架指导

计算机/人工智能/机器学习

封底文字

数据科学和人工智能是当今最为活跃学科，许多高校纷纷设置了本科生专业。机器学习是数据科学和人工智能的核心和基础，因此为本科生开设一门机器学习或数据科学导论性的通识课是必要的。《机器学习基础》一书内容基础、通俗易懂。更为重要的是其数据分析案例和实例丰富、翔实。所以我认为该书非常适合作为本科生的通识课教材。
——张志华，北京大学数学学院教授

本书深刻而又实际。预测分析与机器学习的确是紧密相连的：大体来说，预测依赖于从过去的例子中学习。这是一本成功的综合性的大学教材，准确地阐述了机器学习的工作原理。作者同时也觉察到，预测分析是当今机器学习较为繁荣的商业应用。因此，这部不同寻常的、内容非常充实的作品使用工业界案例分析以及优秀实践来展现各种概念，以确保你能感受到其实际价值，而不会迷失在抽象概念当中。
——Eric Siegel博士，Predictive Analytics World创始人，Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die作者

　　这是一本触及机器学习本质并将其清晰直观地呈现出来的内容完善的优秀书籍。本书的讨论从对 “大思路”的趣味描述递进到更为复杂的信息论、概率、统计和优化论概念，强调如何将商业问题转换为分析解决方案，还包含翔实的案例分析和实例。本书易于阅读，引人入胜，推荐所有对机器学习及其在预测分析中的应用感兴趣的人阅读。
——Nathalie Japkowicz，渥太华大学计算机科学教授，Evaluating Learning Algorithms: A Classification Perspective合著者

　　本书为预测分析中用到的重要方法提供了出色的介绍。而本书的独特价值在于它为这些方法的实际应用提供的深刻见解。书中的案例分析以及数据准备和数据质量章节反映出了实际应用预测分析时将面临的真实挑战。
——Pádraig Cunningham，都柏林大学计算机科学学院知识与数据工程教授，Machine Learning Techniques for Multimedia联合编辑

作者简介

（爱尔兰）约翰·D. 凯莱赫（John D.Kelleher）;（爱尔兰）布莱恩·马克·纳米（Brian Mac Namee）;（爱尔兰）奥伊弗·达西（Aoife D’Arcy）著：无

译者简介

顾卓尔译：无

译者序

非常高兴Fundamentals of Machine Learning for Predictive Data Analytics一书的中文版即将与国内的读者见面了。能够翻译这本书，我感到十分荣幸。感谢机械工业出版社华章分社在本书版权引进以及出版和推广工作上做出的努力，感谢北京大学数学科学学院张志华老师提供的宝贵机会。
毋庸置疑，近年来，机器学习与数据分析这两种紧密联系、互有重叠、高速发展的技术正在创造巨大的价值，也在深刻地改变着各行各业。它们不仅成了信息科学领域热门的研究方向，也吸引着领域外各行各业的人们想要一探究竟，看看是否能够搭上这班信息化、智能化的列车。
然而，掌握机器学习及其在数据分析中的应用所涉及的基础知识颇为广泛，不仅让许多领域外的爱好者望而却步，而且也常令许多科班出身、意图从事机器学习和数据挖掘方向研究和应用工作的人们感到棘手。尤其是许多已经对机器学习有基本了解的研究者和从业人员，常常会因其知识结构停留在理论层面而在实际的数据分析应用中遇到困难。本书正是这类学习者的指南。
本书介绍了机器学习和数据分析领域中一些最为重要的算法和技术。作者用浅显易懂的语言引出每种机器学习方法，由浅及深地介绍其理论和算法。最难能可贵的是，作者用大量实际的数据分析案例贯穿在对机器学习方法的讲解之中，不仅有助于读者轻松地理解和掌握机器学习方法，也将机器学习在预测数据分析场景下的应用方式展现得淋漓尽致。
本书所介绍的机器学习方法虽然不够全面（机器学习的方法和技术实在太多了！），却囊括了几乎所有机器学习方法背后最为本质的思想和理论。而且，近年来深度学习技术和大数据处理技术的发展和应用如火如荼，许多学习者和从业人员都想学习和利用新技术来解决实际问题。需要注意的是，书中介绍的传统方法足以应对实际中遇到的大部分数据分析应用问题，并取得满意的效果。对于科研人员来说，在应用研究中进行科学探索的同时，也要注重研究的实用性和应用潜力，避免进行“为创新而创新”的刻意创新。诚如作者所言：“要将注意力集中到解决问题上，而非花哨精致的建模技术上。”
本书对读者的基础知识没有过高的要求，非常适合入门学习。在本书的基础上，读者可以通过其他材料较为轻松地继续深入了解任意感兴趣的机器学习技术，而非徘徊在其陡峭的学习曲线之下。譬如，第5章“基于相似性的学习”是了解本书未涉及的聚类算法的基础，而想了解神经网络和深度学习的读者则会得益于第7章对“基于误差的学习”的介绍。相信本书会对想深入了解机器学习领域的学习者有所助益。
翻译本书是一项巨大的工程，其工作量大大超出了我的预计：将中英文两种语言进行贴切的转换所需的远不止语言技术，而更像是一种需要斟酌推敲的文学艺术。经常出现的情况是，虽然我已完全明白作者试图表达的内容，但无论如何也无法将其组织成贴切、得体的中文语句。这使我深深地怀疑自己的母语水平是否因思维常转换于两种语言之间而产生了严重的退步。好在合适的译文总是能够在不经意间映入脑中——但这需要一些时间，因此这也是翻译过程中的一大障碍。尽管如此，我偶尔也不得不完全对原文进行重新创作，以免生涩难懂。而翻译本书牵扯到的知识远不止专业知识本身，书中涉及的众多案例和范例都需要相当广泛的各领域知识。例如原文第6章开头处所涉及的街头骗子对受害者的黑话称呼、第7章开头处对冲浪这项在中国较为小众的运动的描述，更不用说书中例子所涉及的大量金融业、医疗业等各行各业的相关知识。可能这正是在考验数据分析从业者所需的“环境流畅性”（作者语）。所幸，我在本书的翻译过程中得到了很多人的帮助。没有他们的帮助，本书很难有现在的翻译质量。对本书的翻译提供过帮助的分别是牛津大学的高博博士、伯明翰大学的宋之玺博士、华威大学的陈超博士、山西省戒毒管理局的贺鹏宇警官、上海交通大学的黎彧君、海南医科大学的车晓萌以及中央电视台的张珍珠，在此向他们的慷慨帮助表示由衷的感谢。同时，感谢我的家人和同事在本书的翻译过程中提供的支持与帮助。
本书的校对由多人完成。除我本人和张志华老师完整校对过一遍之外，为避免校对的主观性，各章分别邀请不同的人进行了校对。中国邮政储蓄银行的舒灿校对了前言、第1～3章以及第8～11章，帝国理工大学的竺桓州博士校对了第4章，哈尔滨工业大学的陈俊霖校对了第5章，牛津大学的任申元博士校对了第6章，华威大学的李骏宇、周玉珏分别校对了第7章和附录。在此向他们的无私付出表示感谢。
囿于个人水平和精力，本书的译文难免有错漏之处，请读者不吝指正，以便进行修订，改善本书质量。最后，祝愿各位读者能够从本书中获益，并在今后的工作和学习中一切顺利。

顾卓尔
2019年11月11日于北京大学

图书目录

译者序
前言
符号记法
第1章　面向预测数据分析的机器学习 1
1.1　什么是预测数据分析 1
1.2　什么是机器学习 2
1.3　机器学习的工作原理 4
1.4　机器学习会产生什么问题 7
1.5　预测数据分析项目的生命周期：CRISP-DM 9
1.6　预测数据分析工具 10
1.7　本书概览 11
1.8　习题 12
第2章　数据到见解再到决策 13
2.1　将商业问题转化为分析解决方案 13
2.2　可行性评估 14
2.3　设计分析基础表 16
2.4　特征的设计与实现 19
2.4.1　不同的数据类型 20
2.4.2　不同的特征类型 20
2.4.3　处理时间 21
2.4.4　法律问题 23
2.4.5　特征的实现 25
2.4.6　案例研究：汽车保险诈骗 25
2.5　总结 28
2.6　延伸阅读 28
2.7　习题 29
第3章　数据探索 31
3.1　数据质量报告 31
3.2　了解数据 35
3.2.1　正态分布 37
3.2.2　案例研究：汽车保险诈骗 38
3.3　找出数据质量问题 39
3.3.1　缺失值 39
3.3.2　异常基数 40
3.3.3　离群点 40
3.3.4　案例研究：汽车保险诈骗 41
3.4　处理数据质量问题 42
3.4.1　处理缺失值 43
3.4.2　处理离群点 43
3.4.3　案例研究：汽车保险诈骗 44
3.5　高阶数据探索 45
3.5.1　可视化特征之间的关系 45
3.5.2　度量协方差和相关性 52
3.6　数据准备 56
3.6.1　归一化 56
3.6.2　分箱 57
3.6.3　采样 60
3.7　总结 61
3.8　延伸阅读 62
3.9　习题 62
第4章　基于信息的学习 73
4.1　大思路 73
4.2　基础知识 75
4.2.1　决策树 75
4.2.2　香农熵模型 77
4.2.3　信息增益 80
4.3　标准方法：ID3算法 83
4.4　延伸与拓展 89
4.4.1　其他特征选取与纯度度量方法 89
4.4.2　处理连续描述性特征 92
4.4.3　预测连续目标 95
4.4.4　剪枝 98
4.4.5　模型组合 100
4.5　总结 103
4.6　延伸阅读 104
4.7　习题 104
第5章　基于相似性的学习 109
5.1　大思路 109
5.2　基本概念 110
5.2.1　特征空间 110
5.2.2　用距离度量测量相似性 111
5.3　标准方法：最近邻算法 113
5.4　延伸与拓展 116
5.4.1　处理嘈杂数据 116
5.4.2　高效内存搜索 118
5.4.3　数据归一化 124
5.4.4　预测连续目标 127
5.4.5　其他相似性测量 129
5.4.6　特征选取 136
5.5　总结 141
5.6　延伸阅读 143
5.7　后记 144
5.8　习题 144
第6章　基于概率的学习 149
6.1　大思路 149
6.2　基础知识 151
6.2.1　贝叶斯定理 152
6.2.2　贝叶斯预测 154
6.2.3　条件独立与因子化 157
6.3　标准方法：朴素贝叶斯模型 160
6.4　延伸与拓展 163
6.4.1　平滑 163
6.4.2　连续特征：概率密度函数 166
6.4.3　连续特征：分箱 174
6.4.4　贝叶斯网络 177
6.5　总结 187
6.6　延伸阅读 188
6.7　习题 188
第7章　基于误差的学习 192
7.1　大思路 192
7.2　基础知识 192
7.2.1　简单线性回归 193
7.2.2　测量误差 194
7.2.3　误差曲面 196
7.3　标准方法：使用梯度下降法的多变量线性回归 197
7.3.1　多变量线性回归 198
7.3.2　梯度下降法 198
7.3.3　选择学习率和初始权值 203
7.3.4　实用范例 204
7.4　延伸与拓展 206
7.4.1　解释多变量线性回归模型 206
7.4.2　用权值衰减设定学习率 208
7.4.3　处理类别描述性特征 209
7.4.4　处理类别目标特征：对数几率回归 210
7.4.5　建模非线性关系 219
7.4.6　多项对数几率回归 223
7.4.7　支持向量机 226
7.5　总结 229
7.6　延伸阅读 231
7.7　习题 231
第8章　评估 237
8.1　大思路 237
8.2　基础知识 238
8.3　标准方法：留出测试集上的误分类率 238
8.4　延伸与拓展 241
8.4.1　设计评估实验 241
8.4.2　性能度量：类别目标 246
8.4.3　性能度量：预测得分 252
8.4.4　性能度量：多项目标 264
8.4.5　性能度量：连续目标 265
8.4.6　评估部署后的模型 268
8.5　总结 273
8.6　延伸阅读 273
8.7　习题 274
第9章　案例研究：客户流失 278
9.1　商业理解 278
9.2　数据理解 280
9.3　数据准备 283
9.4　建模 286
9.5　评估 289
9.6　部署 290
第10章　案例研究：星系分类 292
10.1　商业理解 292
10.2　数据理解 294
10.3　数据准备 299
10.4　建模 303
10.4.1　基准模型 303
10.4.2　特征选取 305
10.4.3　5级别模型 306
10.5　评估 307
10.6　部署 308
第11章　面向预测数据分析的机器学习艺术 309
11.1　预测模型的不同视角 310
11.2　选择机器学习方法 313
11.2.1　将机器学习方法和项目匹配 315
11.2.2　将机器学习方法和数据匹配 315
11.3　总结 316
附录A　机器学习的描述性统计量与数据可视化 317
附录B　机器学习的概率论导论 326
附录C　机器学习中的求导方法 332
参考文献 336
索引 343