教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 369

开本 : 16

原书名 : Introduction to Machine Learning，Third Edition

原出版社: MIT Press

属性分类: 教材

包含CD : 无

绝版 : 无

图书简介

本书是关于机器学习这一主题内容全面的教科书，涵盖了通常在机器学习导论中并不包括的广泛题材。

图书特色

本书把机器学习的热门话题（如Tom Mitchell）与概率论基础（如Christopher Bishop）很好地融合在一起。第3版向这个重要和迅速发展领域中的学生和研究者介绍了机器学习的一些最新和最重要的课题（例如，谱方法、深度学习和学习排名）。
—— John W. Sheppard　蒙大拿州立大学计算机科学教授
我已经在机器学习的研究生课程中使用本书多年。这本书很好地平衡了理论和实践，并且在第3版中扩充了许多新的先进算法。我期待在我的下一次机器学习课程中使用它。
—— Larry Holder　华盛顿州立大学电子工程和计算机科学教授
对于机器学习而言，这是一本完整、易读的机器学习导论，是这个快速演变学科的“瑞士军刀”。尽管本书旨在作为导论，但是它不仅对于学生，而且对于寻求这一领域综合教程的专家也是有用的。新人会从中找到清晰解释的概念，专家会从中发现新的参考和灵感。
—— Hilario Gómez-Moreno　IEEE高级会员

机器学习的目标是对计算机编程，以便使用样本数据或以往的经验来解决给定的问题。已经有许多机器学习的成功应用，包括分析以往销售数据来预测客户行为，优化机器人的行为以便使用最少的资源来完成任务，以及从生物信息数据中提取知识的各种系统。本书是关于机器学习的内容全面的教科书，其中有些内容在一般的在机器学习导论书中很少介绍。主要内容包括监督学习，贝叶斯决策理论，参数、半参数和非参数方法，多元分析，隐马尔可夫模型，增强学习，核机器，图模型，贝叶斯估计和统计检验。
机器学习正在迅速成为计算机科学专业的学生必须掌握的一门技能。本书第3版反映了这种变化，增加了对初学者的支持，包括给出了部分习题的参考答案和补充了实例数据集（提供在线代码）。其他显著的变化包括离群点检测的讨论、感知器和支持向量机的排名算法、矩阵分解和谱方法、距离估计、新的核算法、多层感知器的深度学习和非参数贝叶斯方法。书中对所有学习算法都进行了解释，以便读者可以很容易地将书中的公式转变为计算机程序。本书可以用作高年级本科生和硕士研究生的教材，也可供研究机器学习方法的技术人员参考。

埃塞姆·阿培丁（Ethem Alpaydin）　土耳其伊斯坦布尔博阿齐奇大学计算机工程系的教授。于1990年在洛桑联邦理工学院获博士学位，先后在美国麻省理工学院和伯克利大学工作和进行博士后研究。Ethem博士主要从事机器学习方面的研究，是剑桥大学《The Computer Journal》杂志编委和Elsevier《Pattern Recognition》杂志的副主编。2001年和2002年，Ethem博士先后获得土耳其科学院青年科学家奖和土耳其科学与技术研究委员会科学奖。

图书前言

机器学习肯定是计算机科学成长最快的领域之一。不仅数据在持续变“大”，而且处理数据并将它转换成知识的理论也在不断发展。在科学的各个领域，从天文学到生物学，以及在日常生活中，随着数字技术日益渗透到我们的日常生活中，随着数字足迹的深入，更多的数据被源源不断地产生和收集。无论是科学的还是个人的，被动蛰伏的数据没有任何用处，而聪明的人们一直在寻找新的方法来利用数据，把它转换成有用的产品或服务。在这种转换中，机器学习正发挥着越来越大的作用。
自从本书第2版2010年面世以来，数据进化一直在持续，甚至更快。每年，数据集都在变大。不仅观测的数量在增长，而且观测属性的数量也在显著增加。数据有了更多的结构：不再仅仅是数和字符串，而且还有图像、视频、音频、文档、网页、点击日志、图等。数据与我们以前常做的参数假设（例如正态性）渐行渐远。数据常常是动态的，因而存在一个时间维度。有时，我们的观测是多视图的——对于相同的对象或事件，我们有来自不同传感器和不同模式的多个信息源。
我们相信，在这看似复杂和庞大的数据背后存在简单的解释。虽然数据很大，但是它可以使用具有少量隐藏因子及其相互作用的相对简单的模型来解释。想想数百万客户，他们每天在线或从当地超市购买数千种产品。这意味着一个非常大的交易数据库，但是该数据存在模式。没有人随机购物。举办酒会的人购买产品的某个子集，家有婴儿的人购买产品的不同子集；存在解释客户行为的隐藏因子。
从观测数据推断这种隐藏模型是近年来已经做了大量研究的领域之一。新版中的修改大部分都与这些进展有关。第6章新增了关于特征嵌入、奇异值分解和矩阵分解、典范相关分析、拉普拉斯特征映射的内容。
第8章和关于核机器的第13章新增了关于距离估计的内容。维度归约、特征提取和距离估计是同一个东西的三个名称——理想的距离度量定义在理想的隐藏特征的空间中，而从数量上看，它们少于我们观测的值。
重写并显著扩充了第16章，以便涵盖生成模型。我们对所有主要的机器学习模型，即对分类、回归、混合模型和维度归约，讨论贝叶斯方法。非参数贝叶斯建模在过去的几年中日益流行，尤其令人感兴趣，因为它允许调整模型的复杂度，以适应数据的复杂度。
新版各处新增了一些章节，主要是突出相同或非常类似方法的新的不同应用。第8章新增了一节离群点检测。第10和13章新增两节，分别讨论用于排名的线性模型和核机器。拉普拉斯特征映射添加到第6章，还在第7章新增一节讨论谱聚类。鉴于深度神经网络的最近复苏，有必要在第11章新增一节讨论深度学习。第19章新增一节讨论方法比较的多元检验。
自第1版面世以来，许多使用本书自学的读者提出索取习题答案的请求。在这个新的版本中，已经包括了部分习题的答案。它们有时是完整的答案，有时只是一个提示，或只提供多种可能答案中的一种。
我要感谢使用前两版的所有老师和学生，以及它们的德文、中文和土耳其文翻译和在印度的重印。我永远感激那些发给我评价、批评、勘误，或以任何其他方式提供反馈的人。请继续这样做。我的电子邮件地址是alpaydin@bounedutr。本书的网站是
http://wwwcmpebounedutr/them/i2ml3e
再次与MIT出版社共事出版第3版是一件令人愉快的事。感谢Marie Lufkin Lee、Marc Lowenthal和Kathleen Caruso，感谢他们的帮助和支持。

上架指导

计算机/人工智能/机器学习

封底文字

机器学习的目标是对计算机编程，以便使用样本数据或以往的经验来解决给定的问题。已经有许多机器学习的成功应用，包括分析以往销售数据来预测客户行为，优化机器人的行为以便使用最少的资源来完成任务，以及从生物信息数据中提取知识的各种系统。本书是关于机器学习的内容全面的教科书，其中有些内容在一般的在机器学习导论书中很少介绍。主要内容包括监督学习，贝叶斯决策理论，参数、半参数和非参数方法，多元分析，隐马尔可夫模型，增强学习，核机器，图模型，贝叶斯估计和统计检验。
机器学习正在迅速成为计算机科学专业的学生必须掌握的一门技能。本书第3版反映了这种变化，增加了对初学者的支持，包括给出部分习题的参考答案和补充了的实例数据集（提供在线代码）。其他显著的变化包括离群点检测的讨论、感知器和支持向量机的排名算法、矩阵分解和谱方法、距离估计、新的核算法、多层感知器的深度学习和非参数贝叶斯方法。书中对所有学习算法都进行了解释，以便读者可以很容易地将书中的公式转变为计算机程序。本书可以用作高年级本科生和硕士研究生的教材，也可供研究机器学习方法的技术人员参考。

本书把机器学习的热门话题（如Tom Mitchell）与概率论基础（如Christopher Bishop）很好地融合在一起。第3版向这个重要和迅速发展的领域中的学生和研究者介绍了机器学习的一些最新和最重要的课题（例如，谱方法、深度学习和学习排名）。
　　　　　　　　　——John W. Sheppard, 蒙大拿州立大学计算机科学教授

我已经在机器学习的研究生课程中使用本书多年。这本书很好地平衡了理论和实践，并且在第3版中扩充了许多新的先进算法。我期待在我的下一次机器学习课程中使用它。
　　　　　　　　——Larry Holder, 华盛顿州立大学电子工程和计算机科学教授

对于机器学习界而言，这是一本完整、易读的机器学习导论，是这个快速演变学科的“瑞士军刀”。尽管本书旨在作为导论，但是它不仅对于学生，而且对于寻求这一领域综合教程的专家也是有用的。新人会从中找到清晰解释的概念，专家会从中发现新的参考和灵感。
　　　　　　　　　　　　　　　　　——Hilario Gómez-Moreno, IEEE高级会员

作者简介

[土耳其]埃塞姆·阿培丁(Ethem Alpaydin) 著：Ethem Alpaydin是土耳其伊斯坦布尔博阿齐奇大学计算机工程系的教授。于1990年在洛桑联邦理工学院获博士学位，之后先后在美国麻省理工和伯克利大学工作和进行博士后研究。Ethem博士主要从事机器学习方面的研究，是剑桥大学《The Computer Journal》杂志编委和Elsevier《Pattern Recognition》杂志的副主编。2001年和2002年，Ethem博士先后获得土耳其科学院青年科学家奖和土耳其科学与技术研究委员会科学奖。

译者简介

范明译：暂无简介

译者序

自从有计算机以来，人们就希望计算机能够学习。然而，机器学习真正取得实质性进展，能够成功地解决一些实际问题，并最终成为一个学科分支还是近30年的事。
对于许多问题，我们的前人和先行者已经知道如何求解。例如，欧几里得告诉我们可以用辗转相除法求两个整数的最大公约数， Dijkstra告诉我们如何有效地求两点之间的最短路径，Hoare向我们展示了怎样将杂乱无章的对象快速排序……对于这些问题，我们清楚地知道求解步骤。因此，让计算机求解这些问题只需要按照已知的求解步骤设计算法和数据结构、进行编程，而不需要让计算机学习。
还有一些问题，人们可以轻而易举地解决，但是却无法解释清楚我们是如何做的。例如，尽管桌子千差万别、用途各异，但是我们一眼就能看出某个物体是否是桌子；尽管不同的人的手写阿拉伯数字风格迥异、笔画粗细不同，但是我们可以轻易识别一个手写符号是不是8；尽管声音时大时小、有时可能还有点沙哑，但是我们可以不费力气地听出熟人的声音。诸如此类的问题不胜枚举。对于这些问题，我们不知道求解步骤。因此，让计算机来做这些事就需要让计算机学习。
我们知道桌子不是木材和各种材料的随机堆砌，手写数字不是像素的随机分布，声音也不是各种声波的随机混合。现实世界总是有规律的。机器学习正是从已知实例中自动发现规律，建立对未知实例的预测模型；根据经验不断提高，不断改进预测性能。
本书是全面论述机器学习这一主题的教科书，英文版自2004年问世以来，已于2010年和2014年两次扩充、修订，以涵盖机器学习这个迅速发展领域的新进展。书中介绍了监督、非监督和半监督学习，参数、非参数和半参数方法，涉及维归约、回归、分类、聚类和增强学习，包括线性判别式、决策树、多层感知器、核机器、图方法、贝叶斯估计和组合多学习器。作者对来自统计学、模式识别、神经网络、人工智能、信号处理、控制和数据挖掘等不同领域的机器学习问题和学习方法进行了统一论述。此外，本书还较为系统地介绍了机器学习实验的设计与分析，这在同类书籍中是独具特色的。
本书适合作为高等院校计算机相关专业高年级本科生和研究生的机器学习入门课程的教材，也可供对机器学习感兴趣的工程技术人员参考。
现在，学习的本质还不十分清楚。然而，关于学习的理论认识已开始逐步形成，业已建立起来的一些机器学习方法已经成功地解决了许多实际问题。我们能够从本书中了解机器学习，发现机器学习的新方法，不断提高对学习本质的认识。
第1版由范明、昝红英和牛常勇共同翻译，第2版和第3版由范明翻译。译文中的错误和不当之处，敬请读者朋友指正。意见和建议请发往mfan@zzueducn，译者不胜感激。

范明
2015年12月于郑州大学

图书目录

出版者的话
译者序
前言
符号说明
第1章引言1
11什么是机器学习1
12机器学习的应用实例2
121学习关联性2
122分类3
123回归5
124非监督学习6
125增强学习7
13注释8
14相关资源10
15习题11
16参考文献12
第2章监督学习13
21由实例学习类13
22VC维16
23概率近似正确学习16
24噪声17
25学习多类18
26回归19
27模型选择与泛化21
28监督机器学习算法的维23
29注释24
210习题25
211参考文献26
第3章贝叶斯决策理论27
31引言27
32分类28
33损失与风险29
34判别式函数30
35关联规则31
36注释33
37习题33
38参考文献36
第4章参数方法37
41引言37
42最大似然估计37
421伯努利密度38
422多项式密度38
423高斯（正态）密度39
43评价估计：偏倚和方差39
44贝叶斯估计40
45参数分类42
46回归44
47调整模型的复杂度：偏倚/方差两难选择46
48模型选择过程49
49注释51
410习题51
411参考文献53
第5章多元方法54
51多元数据54
52参数估计54
53缺失值估计55
54多元正态分布56
55多元分类57
56调整复杂度61
57离散特征62
58多元回归63
59注释64
510习题64
511参考文献66
第6章维度归约67
61引言67
62子集选择67
63主成分分析70
64特征嵌入74
65因子分析75
66奇异值分解与矩阵分解78
67多维定标79
68线性判别分析82
69典范相关分析85
610等距特征映射86
611局部线性嵌入87
612拉普拉斯特征映射89
613注释90
614习题91
615参考文献92
第7章聚类94
71引言94
72混合密度94
73k均值聚类95
74期望最大化算法98
75潜在变量混合模型100
76聚类后的监督学习101
77谱聚类102
78层次聚类103
79选择簇个数104
710注释104
711习题105
712参考文献106
第8章非参数方法107
81引言107
82非参数密度估计108
821直方图估计108
822核估计109
823k最近邻估计110
83推广到多变元数据111
84非参数分类112
85精简的最近邻112
86基于距离的分类113
87离群点检测115
88非参数回归：光滑模型116
881移动均值光滑116
882核光滑117
883移动线光滑119
89如何选择光滑参数119
810注释120
811习题121
812参考文献122
第9章决策树124
91引言124
92单变量树125
921分类树125
922回归树128
93剪枝130
94由决策树提取规则131
95由数据学习规则132
96多变量树134
97注释135
98习题137
99参考文献138
第10章线性判别式139
101引言139
102推广线性模型140
103线性判别式的几何意义140
1031两类问题140
1032多类问题141
104逐对分离142
105参数判别式的进一步讨论143
106梯度下降144
107逻辑斯谛判别式145
1071两类问题145
1072多类问题147
108回归判别式150
109学习排名151
1010注释152
1011习题152
1012参考文献154
第11章多层感知器155
111引言155
1111理解人脑155
1112神经网络作为并行处理的典范156
112感知器157
113训练感知器159
114学习布尔函数160
115多层感知器161
116作为普适近似的MLP162
117向后传播算法163
1171非线性回归163
1172两类判别式166
1173多类判别式166
1174多个隐藏层167
118训练过程167
1181改善收敛性167
1182过分训练168
1183构造网络169
1184线索169
119调整网络规模170
1110学习的贝叶斯观点172
1111维度归约173
1112学习时间174
11121时间延迟神经网络175
11122递归网络175
1113深度学习176
1114注释177
1115习题178
1116参考文献180
第12章局部模型182
121引言182
122竞争学习182
1221在线k均值182
1222自适应共鸣理论184
1223自组织映射185
123径向基函数186
124结合基于规则的知识189
125规范化基函数190
126竞争的基函数191
127学习向量量化193
128混合专家模型193
1281协同专家模型194
1282竞争专家模型195
129层次混合专家模型195
1210注释196
1211习题196
1212参考文献198
第13章核机器200
131引言200
132最佳分离超平面201
133不可分情况：软边缘超平面203
134vSVM205
135核技巧205
136向量核206
137定义核207
138多核学习208
139多类核机器209
1310用于回归的核机器210
1311用于排名的核机器212
1312一类核机器213
1313大边缘最近邻分类215
1314核维度归约216
1315注释217
1316习题217
1317参考文献218
第14章图方法221
141引言221
142条件独立的典型情况222
143生成模型226
144d分离227
145信念传播228
1451链228
1452树229
1453多树230
1454结树232
146无向图：马尔科夫随机场232
147学习图模型的结构234
148影响图234
149注释234
1410习题235
1411参考文献237
第15章隐马尔科夫模型238
151引言238
152离散马尔科夫过程238
153隐马尔科夫模型240
154HMM的三个基本问题241
155估值问题241
156寻找状态序列244
157学习模型参数245
158连续观测247
159HMM作为图模型248
1510HMM中的模型选择250
1511注释251
1512习题252
1513参考文献254
第16章贝叶斯估计255
161引言255
162离散分布的参数的贝叶斯估计257
1621K>2个状态：狄利克雷分布257
1622K=2个状态:贝塔分布258
163高斯分布的参数的贝叶斯估计258
1631一元情况：未知均值，已知方差258
1632一元情况:未知均值,未知方差259
1633多元情况:未知均值,未知协方差260
164函数的参数的贝叶斯估计261
1641回归261
1642具有噪声精度先验的回归264
1643基或核函数的使用265
1644贝叶斯分类266
165选择先验268
166贝叶斯模型比较268
167混合模型的贝叶斯估计270
168非参数贝叶斯建模272
169高斯过程272
1610狄利克雷过程和中国餐馆275
1611本征狄利克雷分配276
1612贝塔过程和印度自助餐277
1613注释278
1614习题278
1615参考文献279
第17章组合多学习器280
171基本原理280
172产生有差异的学习器280
173模型组合方案282
174投票法282
175纠错输出码285
176装袋286
177提升287
178重温混合专家模型288
179层叠泛化289
1710调整系综290
17101选择系综的子集290
17102构建元学习器290
1711级联291
1712注释292
1713习题293
1714参考文献294
第18章增强学习297
181引言297
182单状态情况：K臂赌博机问题298
183增强学习的要素299
184基于模型的学习300
1841价值迭代300
1842策略迭代301
185时间差分学习301
1851探索策略301
1852确定性奖励和动作302
1853非确定性奖励和动作303
1854资格迹304
186推广305
187部分可观测状态306
1871场景306
1872例子：老虎问题307
188注释310
189习题311
1810参考文献312
第19章机器学习实验的设计与分析314
191引言314
192因素、响应和实验策略315
193响应面设计317
194随机化、重复和阻止317
195机器学习实验指南318
196交叉验证和再抽样方法320
1961K折交叉验证320
19625×2交叉验证320
1963自助法321
197度量分类器的性能321
198区间估计324
199假设检验326
1910评估分类算法的性能327
19101二项检验327
19102近似正态检验328
19103t检验328
1911比较两个分类算法329
19111McNemar检验329
19112K折交叉验证配对t检验329
191135×2交叉验证配对t检验330
191145×2交叉验证配对F检验330
1912比较多个算法：方差分析331
1913在多个数据集上比较333
19131比较两个算法334
19132比较多个算法335
1914多元检验336
19141比较两个算法336
19142比较多个算法337
1915注释338
1916习题339
1917参考文献340
附录A概率论341
索引348