本书解释自动学习方法背后的原理,考虑其广泛的应用。作者既讲述最重要的机器学习算法的工作原理和动机,还指出其固有的优势和缺点,是有兴趣了解机器学习理论和方法以及应用的学生和专业人员的良好教材或参考书。
这部精心撰写的教材不仅讲到了严谨的理论,还涵盖了机器学习的实际应用。这是一本优秀的教材,适合所有想要了解如何在数据中寻找结构的读者。
—— 伯恩哈德·史科夫(Bernhard Sch?lkopf),马克斯·普朗克智能系统研究所
这本教材非常必要,对于想要建立机器学习的数学基础的读者来说,它同时兼具深度和广度,内容严谨、直观而敏锐。本书提供了丰富的算法和分析技巧,经典而基础,还指出了最前沿的研究方向。机器学习是一项重要而迷人的领域,对于任何对其数学及计算基础感兴趣的人来说,这都是一本极佳的书。
—— 艾弗瑞·布卢姆(Avrim Blum),卡内基-梅隆大学
机器学习是计算机科学中发展最快的领域之一,实际应用广泛。这本教材的目标是从理论角度提供机器学习的入门知识和相关算法范式。本书全面地介绍了机器学习背后的基本思想和理论依据,以及将这些理论转化为实际算法的数学推导。在介绍了机器学习的基本内容后,本书还覆盖了此前的教材中一系列从未涉及过的内容。其中包括对学习的计算复杂度、凸性和稳定性的概念的讨论,以及重要的算法范式的介绍(包括随机梯度下降、神经元网络以及结构化输出学习)。同时,本书引入了最新的理论概念,包括PAC-贝叶斯方法和压缩界。本书为高等院校本科高年级和研究生入门阶段而设计,不仅计算机、电子工程、数学统计专业学生能轻松理解机器学习的基础知识和算法,其他专业的读者也能读懂。
作者简介
沙伊·沙莱夫-施瓦茨(Shai Shalev-Shwartz) 以色列希伯来大学计算机及工程学院副教授,还在Mobileye公司研究自动驾驶。2009年之前他在芝加哥的丰田技术研究所工作。他的研究方向是机器学习算法。
沙伊·本-戴维(Shai Ben-David) 加拿大滑铁卢大学计算机科学学院教授。先后在以色列理工学院、澳大利亚国立大学和康奈尔大学任教。
“机器学习”旨在从数据中自动识别有意义的模式。过去几十年中,机器学习成为一项常用工具,几乎所有需要从大量数据集合中提取信息的任务都在使用它。我们身边的许多技术都以机器学习为基础:搜索引擎学习在带给我们最佳的搜索结果的同时,植入可以盈利的广告;屏蔽软件学习过滤垃圾邮件;用于保护信用卡业务的软件学习识别欺诈。数码相机学习人脸识别,智能电话上的个人智能助手学习识别语音命令。汽车配备了用机器学习算法搭建的交通事故预警系统。同时机器学习还被广泛应用于各个科学领域,例如生物信息学、医药以及天文学等。
这些应用领域的一个共同特点在于,与相对传统的计算机应用相比,所需识别的模式更复杂。在这些情景中,对于任务应该如何执行,人类程序员无法提供明确的、细节优化的具体指令。以智能生物为例,我们人类的许多技能都是通过从经验中学习而取得并逐步提高的(而非遵从别人给我们的具体指令)。机器学习工具关注的正是赋予程序“学习”和适应不同情况的能力。
本书的第一个目标是,提供一个准确而简明易懂的导论,介绍机器学习的基本概念:什么是学习?机器怎样学习?学习某概念时,如何量化所需资源?学习始终都是可能的吗?我们如何知道学习过程是成功或失败?
本书的第二个目标是,为机器学习提供几个关键的算法。我们提供的算法,一方面已经成功投入实际应用,另一方面广泛地考虑到不同的学习技术。此外,我们特别将注意力放到了大规模学习(即俗称的“大数据”)上,因为近几年来,世界越来越“数字化”,需要学习的数据总量也在急剧增加。所以在许多应用中,数据量是充足的,而计算时间是主要瓶颈。因此,学习某一概念时,我们会明确量化数据量和计算时间这两个数值。
本书分为四部分。第一部分对于“学习”的基础性问题给出初步而准确的定义。我们会介绍Valiant提出的“概率近似正确(PAC)”可学习模型的通用形式,它将是对“何为学习”这一问题的第一个有力回答。我们还会介绍“经验风险最小化(ERM)”“结构风险最小化(SRM)”和“最小描述长度(MDL)”这几个学习规则,展现“机器是如何学习的”。我们量化使用ERM、SRM和MDL规则学习时所需的数据总量,并用“没有免费的午餐”定理说明,什么情况下学习可能会失败。此外,我们还探讨了学习需要多少计算时间。本书第二部分介绍多种算法。对于一些算法,我们先说明其主要学习原则,再介绍该算法是如何依据其原则运作的。前两部分将重点放在PAC模型上,第三部分将范围扩展到更广、更丰富的学习模型。最后,第四部分讨论最前沿的理论。
我们尽量让本书能够自成一体,不过我们假设读者熟悉概率论、线性代数、数学分析和算法设计的基本概念。前三部分为计算机科学、工程学、数学和统计学研究生一年级学生设计,具有相关背景的本科生也可以使用。高级章节适用于想要对理论有更深入理解的研究者。
计算机/人工智能/机器学习
这部精心撰写的教材不仅讲到了严谨的理论,还涵盖了机器学习的实际应用。这是一本优秀的教材,适合所有想要了解如何在数据中寻找结构的读者。
——伯恩哈德•史科夫(Bernhard Schölkopf)马克斯•普朗克智能系统研究所
这本教材非常必要,对于想要建立机器学习的数学基础的读者来说,它同时兼具深度和广度,内容严谨、直观而敏锐。本书提供了丰富的算法和分析技巧,经典而基础,还指出了最前沿的研究方向。机器学习是一项重要而迷人的领域,对于任何对其数学及计算基础感兴趣的人来说,这都是一本极佳的书。
——艾弗瑞•布卢姆(Avrim Blum) 卡内基梅隆大学
机器学习是计算机科学中发展最快的领域之一,实际应用广泛。这本教材的目标是从理论角度提供机器学习的入门知识和相关算法范式。本书全面地介绍了机器学习背后的基本思想和理论依据,以及将这些理论转化为实际算法的数学推导。在介绍了机器学习的基本内容后,本书还覆盖了此前的教材中一系列从未涉及过的内容。其中包括对学习的计算复杂度、凸性和稳定性的概念的讨论,以及重要的算法范式的介绍(包括随机梯度下降、神经元网络以及结构化输出学习)。同时,本书引入了最新的理论概念,包括PAC-贝叶斯方法和压缩界。本书为本科高年级和研究生入门阶段而设计,不仅学生能轻松理解机器学习的基础知识和算法,非统计、计算机、数学、工程专业的读者也能读懂。
[以] 沙伊·沙莱夫-施瓦茨(Shai Shalev-Shwartz)[加] 沙伊·本-戴维(Shai Ben-David) 著:Shai Shalev-Shwartz,以色列希伯来大学计算机及工程学院副教授。2009年之前在芝加哥的丰田技术研究所工作,现在Mobileye公司研究自动驾驶。
Shai Ben-David,加拿大滑铁卢大学计算机学院教授。先后在以色列理工学院、澳大利亚国立大学和康奈尔大学任教。
张文生 等译:暂无简介
以色列希伯来大学副教授Shai ShalevShwartz和加拿大滑铁卢大学教授Shai BenDavid的专著《Understanding Machine Learning:From Theory to Algorithms》是机器学习领域一部具有里程碑意义的著作。
近几年,机器学习是人工智能研究领域中最活跃的分支之一,已成为信息科学领域解决实际问题的重要方法,它的应用已遍及人工智能的各个应用领域。机器学习又是一个多学科的交叉领域,涉及数学、自动化、计算机科学、应用心理学、生物学和神经生理学等。这种学科交叉融合带来的良性互动,无疑促进了包括机器学习在内的诸学科的发展与繁荣。
本书内容十分丰富,作者以前所未有的广度和深度,介绍了目前机器学习中重要的理论和关键的算法。本书没有陷入“科普”式的堆砌材料的写作方式,由于作者是该领域的权威专家,因此在介绍各种理论和算法时,时刻不忘将不同理论、算法的对比与作者自身的研究成果传授给读者,使读者不至于对如此丰富的理论和算法无所适从。另外,特别值得指出的是,本书第一部分非常有特色,也是非常重要的一部分。这部分内容从更高的观点和更深的层次探讨机器学习的许多理论基础,引入对指导理论研究和实际应用都至关重要的概率近似正确(Probably Approximately Correct,PAC)学习理论。该理论旨在回答由机器学习得到的结果到底有多高的可信度与推广能力,从某种意义上来说,只有懂得了该部分,才可能透彻地理解和更好地运用其他章节的内容。国内关于PAC学习的资料非常少,在翻译过程中团队成员碰到了极大的困难,我们人工智能与机器学习研究团队为此进行了多方论证并多次召开专题讨论会。
本书主要面向人工智能、机器学习、模式识别、数据挖掘、计算机应用、生物信息学、数学和统计学等领域的研究生和相关领域的科技人员。翻译出版中译本的目的,是希望能为国内广大从事相关研究的学者和研究生提供一本全面、系统、权威的教科书和参考书。如果能做到这一点,译者将感到十分欣慰。
必须说明的是,本书的翻译是中国科学院自动化研究所人工智能与机器学习研究团队集体努力的结果,团队的成员杨雪冰、匡秋明、蒋晓娟、薛伟、魏波、李思园、张似衡、曾凡霞、于廷照、王鑫、李涛、杨叶辉、胡文锐、张志忠、唐永强、陈东杰、何泽文、张英华、李悟、李硕等参与了本书的翻译工作,李思园老师参与了全书的审校与修正。感谢机械工业出版社华章分社的大力协助,倘若没有他们的热情支持,本书的中译版难以如此迅速地与大家见面。另外,本书的翻译得到了国家自然科学基金委重点项目和面上项目(61472423、U1135005、61432008、61532006、61305018、61402481等)的资助,特此感谢。
在翻译过程中,我们力求准确地反映原著内容,同时保留原著的风格。但由于译者水平有限,书中难免有不妥之处,恳请读者批评指正。
最后,谨把本书的中译版献给我的博士生导师王珏研究员!王珏老师生前对机器学习理论、算法和应用非常关注,对于PAC可学习理论也有着独到而深刻的理解,他启发并引领了我们研究团队对机器学习理论和算法的研究工作,使我们终身受益。
中国科学院自动化研究所
张文生
2016年4月于北京
出版者的话
译者序
前言
致谢
第1章引论1
11什么是学习1
12什么时候需要机器学习2
13学习的种类3
14与其他领域的关系4
15如何阅读本书4
16符号6
第一部分理论基础
第2章简易入门10
21一般模型——统计学习理论框架10
22经验风险最小化11
23考虑归纳偏置的经验风险最小化12
24练习15
第3章一般学习模型17
31PAC学习理论17
32更常见的学习模型18
321放宽可实现假设——不可知PAC学习18
322学习问题建模19
33小结21
34文献评注21
35练习21
第4章学习过程的一致收敛性24
41一致收敛是可学习的充分条件24
42有限类是不可知PAC可学习的25
43小结26
44文献评注27
45练习27
第5章偏差与复杂性权衡28
51“没有免费的午餐”定理28
52误差分解31
53小结31
54文献评注32
55练习32
第6章VC维33
61无限的类也可学习33
62VC维概述34
63实例35
631阈值函数35
632区间35
633平行于轴的矩形35
634有限类36
635VC维与参数个数36
64PAC学习的基本定理36
65定理67的证明37
651Sauer引理及生长函数37
652有小的有效规模的类的一致收敛性39
66小结40
67文献评注41
68练习41
第7章不一致可学习44
71不一致可学习概述44
72结构风险最小化46
73最小描述长度和奥卡姆剃刀48
74可学习的其他概念——一致收敛性50
75探讨不同的可学习概念51
76小结53
77文献评注53
78练习54
第8章学习的运行时间56
81机器学习的计算复杂度56
82ERM规则的实现58
821有限集58
822轴对称矩形59
823布尔合取式59
824学习三项析取范式60
83高效学习,而不通过合适的ERM60
84学习的难度*61
85小结62
86文献评注62
87练习62
第二部分从理论到算法
第9章线性预测66
91半空间66
911半空间类线性规划67
912半空间感知器68
913半空间的VC维69
92线性回归70
921最小平方70
922多项式线性回归71
93逻辑斯谛回归72
94小结73
95文献评注73
96练习73
第10章boosting75
101弱可学习75
102AdaBoost78
103基础假设类的线性组合80
104AdaBoost用于人脸识别82
105小结83
106文献评注83
107练习84
第11章模型选择与验证85
111用结构风险最小化进行模型选择85
112验证法86
1121留出的样本集86
1122模型选择的验证法87
1123模型选择曲线88
1124k折交叉验证88
1125训练验证测试拆分89
113如果学习失败了应该做什么89
114小结92
115练习92
第12章凸学习问题93
121凸性、利普希茨性和光滑性93
1211凸性93
1212利普希茨性96
1213光滑性97
122凸学习问题概述98
1221凸学习问题的可学习性99
1222凸利普希茨/光滑有界学习问题100
123替代损失函数101
124小结102
125文献评注102
126练习102
第13章正则化和稳定性104
131正则损失最小化104
132稳定规则不会过拟合105
133Tikhonov正则化作为稳定剂106
1331利普希茨损失108
1332光滑和非负损失108
134控制适合与稳定性的权衡109
135小结111
136文献评注111
137练习111
第14章随机梯度下降114
141梯度下降法114
142次梯度116
1421计算次梯度117
1422利普希茨函数的次梯度118
1423次梯度下降118
143随机梯度下降118
144SGD的变型120
1441增加一个投影步120
1442变步长121
1443其他平均技巧121
1444强凸函数*121
145用SGD进行学习123
1451SGD求解风险极小化123
1452SGD求解凸光滑学习问题的分析124
1453SGD求解正则化损失极小化125
146小结125
147文献评注125
148练习126
第15章支持向量机127
151间隔与硬SVM127
1511齐次情况129
1512硬SVM的样本复杂度129
152软SVM与范数正则化130
1521软SVM的样本复杂度131
1522间隔、基于范数的界与维度131
1523斜坡损失*132
153最优化条件与“支持向量”*133
154对偶*133
155用随机梯度下降法实现软SVM134
156小结135
157文献评注135
158练习135
第16章核方法136
161特征空间映射136
162核技巧137
1621核作为表达先验的一种形式140
1622核函数的特征*141
163软SVM应用核方法141
164小结142
165文献评注143
166练习143
第17章多分类、排序与复杂预测问题145
171一对多和一对一145
172线性多分类预测147
1721如何构建Ψ147
1722对损失敏感的分类148
1723经验风险最小化149
1724泛化合页损失149
1725多分类SVM和SGD150
173结构化输出预测151
174排序153
175二分排序以及多变量性能测量157
176小结160
177文献评注160
178练习161
第18章决策树162
181采样复杂度162
182决策树算法163
1821增益测量的实现方式164
1822剪枝165
1823实值特征基于阈值的拆分规则165
183随机森林165
184小结166
185文献评注166
186练习166
第19章最近邻167
191k近邻法167
192分析168
19211NN准则的泛化界168
1922“维数灾难”170
193效率实施*171
194小结171
195文献评注171
196练习171
第20章神经元网络174
201前馈神经网络174
202神经网络学习175
203神经网络的表达力176
204神经网络样本复杂度178
205学习神经网络的运行时179
206SGD和反向传播179
207小结182
208文献评注183
209练习183
第三部分其他学习模型
第21章在线学习186
211可实现情况下的在线分类186
212不可实现情况下的在线识别191
213在线凸优化195
214在线感知器算法197
215小结199
216文献评注199
217练习199
第22章聚类201
221基于链接的聚类算法203
222k均值算法和其他代价最小聚类203
223谱聚类206
2231图割206
2232图拉普拉斯与松弛图割算法206
2233非归一化的谱聚类207
224信息瓶颈*208
225聚类的进阶观点208
226小结209
227文献评注210
228练习210
第23章维度约简212
231主成分分析212
2311当dm时一种更加有效的求解方法214
2312应用与说明214
232随机投影216
233压缩感知217
234PCA还是压缩感知223
235小结223
236文献评注223
237练习223
第24章生成模型226
241极大似然估计226
2411连续随机变量的极大似然估计227
2412极大似然与经验风险最小化228
2413泛化分析228
242朴素贝叶斯229
243线性判别分析230
244隐变量与EM算法230
2441EM是交替最大化算法232
2442混合高斯模型参数估计的EM算法233
245贝叶斯推理233
246小结235
247文献评注235
248练习235
第25章特征选择与特征生成237
251特征选择237
2511滤波器238
2512贪婪选择方法239
2513稀疏诱导范数241
252特征操作和归一化242
253特征学习244
254小结246
255文献评注246
256练习246
第四部分高级理论
第26章拉德马赫复杂度250
261拉德马赫复杂度概述250
262线性类的拉德马赫复杂度255
263SVM的泛化误差界256
264低1范数预测器的泛化误差界258
265文献评注259
第27章覆盖数260
271覆盖260
272通过链式反应从覆盖到拉德马赫复杂度261
273文献评注262
第28章学习理论基本定理的证明263
281不可知情况的上界263
282不可知情况的下界264
2821证明m(ε,δ)≥05log(1/(4δ))/ε2264
2822证明m(ε,1/8)≥8d/ε2265
283可实现情况的上界267
第29章多分类可学习性271
291纳塔拉詹维271
292多分类基本定理271
293计算纳塔拉詹维272
2931基于类的一对多272
2932一般的多分类到二分类约简273
2933线性多分类预测器273
294好的与坏的ERM274
295文献评注275
296练习276
第30章压缩界277
301压缩界概述277
302例子278
3021平行于轴的矩形278
3022半空间279
3023可分多项式279
3024间隔可分的情况279
303文献评注280
第31章PAC贝叶斯281
311PAC贝叶斯界281
312文献评注282
313练习282
附录A技术性引理284
附录B测度集中度287
附录C线性代数294
参考文献297
索引305