统计技术与机器学习的结合使其成为一种强大的工具,能够对众多计算机和工程领域的数据进行分析,包括图像处理、语音处理、自然语言处理、机器人控制以及生物、医学、天文学、物理、材料等基础科学范畴。本书介绍机器学习的基础知识,注重理论与实践的结合。第一部分讨论机器学习算法中统计与概率的基本概念,第二部分和第三部分讲解机器学习的两种主要方法,即生成学习方法和判别分类方法,其中,第三部分对实际应用中重要的机器学习算法进行了深入讨论。本书配有MATLAB/Octave代码,可帮助读者培养实践技能,完成数据分析任务。
1
机器学习是计算机领域的一个学科,旨在研究原理、算法以及能够像人类一样学习的系统的应用。近年来,计算机和传感器的发展使得我们能够访问不同领域的海量数据(如文本、音频、图片、电影、电子商务、电气、医学和生物学等)。在此类大数据的分析和利用方面,机器学习起到了核心的作用。
本书致力于讨论机器学习的数学背景及多种机器学习技术的实用化算法。目标读者定位于计算机和相关专业的本科生和研究生。在工作中应用机器学习技术的工程师和分析数据的科学家也会从本书中获益。
本书特色在于每章的主题简明扼要,给出具体机器学习技术的数学推导并附以简洁的MATLAB程序。由此,读者在学习数学概念的同时,可掌握多种机器学习技术的实用价值。全部MATLAB程序可以从如下网址获得:
本书第一部分给出机器学习领域的简要概述。紧接着,第二部分介绍了概率和统计的基本概念,它们构成了统计机器学习的数学基础。第二部分的成文基于:
第三部分和第四部分分别在生成和判别框架下,介绍了一系列实用机器学习算法。随后, 第五部分介绍高级论题,进而处理更具挑战的机器学习任务。第三部分的成文基于:
第四部分和第五部分的成文基于:
在此感谢东京大学和东京工业大学相关研究组的研究员和学生针对本书早期手稿给出的有价值的反馈。
杉山将
东京大学
计算机/人工智能/机器学习
本书对统计机器学习的关键知识点进行了全面讲解,首先介绍用于描述机器学习算法的概率与统计的知识,接着详细分析机器学习技术的两类主要方法——生成方法和判别方法,最后深入研究了如何使机器学习算法在实际应用中发挥更大的作用。
本书特色
基础知识全面。涵盖理解机器学习所必需的基础知识,例如数理统计、概率论、线性代数和微积分等。
重点内容突出。着力于讲解统计模式识别的生成方法以及统计机器学习的判别方法,数学推理清晰,案例详实。
程序代码支持。提供MATLAB/Octave程序源代码,通过对书中算法进行测试,帮助读者提高数据分析的实践能力。
作者简介
杉山将(Masashi Sugiyama) 东京大学教授,研究兴趣为机器学习与数据挖掘的理论、算法和应用。2007年获得IBM学者奖,以表彰其在机器学习领域非平稳性方面做出的贡献。2011年获得日本信息处理协会颁发的Nagao特别研究员奖,以及日本文部科学省颁发的青年科学家奖,以表彰其对机器学习密度比范型的贡献。
译者简介
谢宁 电子科技大学副教授,研究兴趣为统计机器学习和计算机图形学,研究领域包括强化学习、行为智能、游戏智能、艺术化绘制等。博士毕业于东京工业大学,师从杉山将教授,曾荣获2013年手岛精一优秀博士论文奖。2017年获得四川省千人计划青年人才项目奖励。目前已在国际一流学术期刊和会议发表论文50篇。
[日]杉山将(Masashi Sugiyama) 著:【加照片】Masashi Sugiyama,东京大学教授,拥有东京工业大学计算机科学博士学位,研究兴趣包括机器学习与数据挖掘的理论、算法和应用,涉及信号处理、图像处理、机器人控制等。2007年获得IBM学者奖,以表彰其在机器学习领域非平稳性方面做出的贡献。2011年获得日本信息处理协会颁发的Nagao特别研究奖,以及日本文部科学省颁发的青年科学家奖,以表彰其对机器学习密度比范型的贡献。
机器学习是计算机科学的重要分支之一,旨在研究原理、算法以及能够像人类一样学习的系统的应用。同时,其亦是一门交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习作为人工智能的核心部分,是计算机获得智能的根本途径,其应用遍及人工智能的各个领域,发挥着不可替代的重要作用。
本书是日本人工智能和机器学习领域的新一代领军人物杉山将(Masashi Sugiyama)的统计机器学习力作。本书致力于讲解数学背景及多种机器学习技术的实用化算法。其结构清晰,内容丰富,案例详实,系统地介绍了统计机器学习的概念、技术及应用。通过对本书的学习,读者可以了解统计机器学习的基本概念和知识,同时培养统计机器学习的基本技能。阅读本书需要了解计算机科学、概率论与统计学等相关基础知识。本书适用于计算机及相关专业的本科生、研究生以及相关领域的研究人员和专业技术人员。
本书翻译工作得到了课题组成员的鼎力支持和大力协作。
谢宁作为本次翻译活动的倡议者和联络人,负责和参与翻译了前言、作者简介及第1章,并帮助分析、修改各章中的疑难点。
第一部分(第1章),由谢宁和李柏杨共同完成。
第二部分(第2~10章),由李煜玮、周飞宇、苏秋霖和文洋负责翻译。
第三部分(第11~20章),由王磊和徐颖负责翻译。
第四部分(第21~29章),由罗宇轩负责翻译。
第五部分(第30~39章),由李柏杨负责翻译。
此外,肖竹负责翻译第一到五部分的引言内容。在翻译组内部审校阶段,谢宁担任内部审校总负责人,李柏杨、肖竹和张帅担任内部审校主要负责人。
本书中文版能够出版发行,首先要感谢本书的作者杉山将教授,是他为我们著作了一本好书。其次要感谢机械工业出版社华章分社引进了本书的中文版权,使得我们能够获得为博士导师杉山将教授翻译此书的机会,并实现将其介绍给国内广大读者的良好愿望。此外,特别感谢本书的编辑曲熠以及所有为此书的出版做出贡献的排校人员,是他们的辛勤劳动才使本书能够付诸印刷和出版,在此表示深深的感谢和崇高的敬意!
本书对原著的错误之处做了一些修正,在原著难懂或需要提醒的地方添加了一些译者说明。尽管我们在翻译过程中力图做得更好,但因个人的业务水平、英文水平乃至中文文学水平的限制,以及翻译过程中的粗心和不够严谨,可能使得本书中文版中存在错误、不足和不当之处。热切期望读者对本书提出宝贵意见、建议和勘误,并欢迎与我们联络(seanxiening@gmailcom)。
2018年3月
译者序
前言
作者简介
第一部分绪论
第1章统计机器学习
11学习的类型
12机器学习任务举例
121监督学习
122非监督学习
123进一步的主题
13本书结构
第二部分概率与统计
第2章随机变量与概率分布
21数学基础
22概率
23随机变量和概率分布
24概率分布的性质
241期望、中位数和众数
242方差和标准差
243偏度、峰度和矩
25随便变量的变换
第3章离散概率分布的实例
31离散均匀分布
32二项分布
33超几何分布
34泊松分布
35负二项分布
36几何分布
第4章连续概率分布的实例
41连续均匀分布
42正态分布
43伽马分布、指数分布和卡方分布
44Beta分布
45柯西分布和拉普拉斯分布
46t分布和F分布
第5章多维概率分布
51联合概率分布
52条件概率分布
53列联表
54贝叶斯定理
55协方差与相关性
56独立性
第6章多维概率分布的实例
61多项分布
62多元正态分布
63狄利克雷分布
64威沙特分布
第7章独立随机变量之和
71卷积
72再生性
73大数定律
74中心极限定理
第8章概率不等式
81联合界
82概率不等式
821马尔可夫不等式和切尔诺夫不等式
822坎泰利不等式和切比雪夫不等式
83期望不等式
831琴生不等式
832赫尔德不等式和施瓦茨不等式
833闵可夫斯基不等式
834康托洛维奇不等式
84独立随机变量和的不等式
841切比雪夫不等式和切尔诺夫不等式
842霍夫丁不等式和伯恩斯坦不等式
843贝内特不等式
第9章统计估计
91统计估计基础
92点估计
921参数密度估计
922非参数密度估计
923回归和分类
924模型选择
93区间估计
931基于正态样本期望的区间估计
932bootstrap置信区间
933贝叶斯置信区间
第10章假设检验
101假设检验基础
102正态样本期望的检验
103尼曼皮尔森引理
104列联表检验
105正态样本期望差值检验
1051无对应关系的两组样本
1052有对应关系的两组样本
106秩的无参检验
1061无对应关系的两组样本
1062有对应关系的两组样本
107蒙特卡罗检验
第三部分统计模式识别的生成式方法
第11章通过生成模型估计的模式识别
111模式识别的公式化
112统计模式识别
113分类器训练的准则
1131最大后验概率规则
1132最小错误分类率准则
1133贝叶斯决策规则
1134讨论
114生成式方法和判别式方法
第12章极大似然估计
121定义
122高斯模型
123类后验概率的计算
124Fisher线性判别分析
125手写数字识别
1251预备知识
1252线性判别分析的实现
1253多分类器方法
第13章极大似然估计的性质
131一致性
132渐近无偏性
133渐近有效性
1331一维的情况
1332多维的情况
134渐近正态性
135总结
第14章极大似然估计的模型选择
141模型选择
142KL散度
143AIC信息论准则
144交叉检验
145讨论
第15章高斯混合模型的极大似然估计
151高斯混合模型
152极大似然估计
153梯度上升算法
154EM算法
第16章非参数估计
161直方图方法
162问题描述
163核密度估计
1631Parzen 窗法
1632利用核的平滑
1633带宽的选择
164最近邻密度估计
1641最近邻距离
1642最近邻分类器
第17章贝叶斯推理
171贝叶斯预测分布
1711定义
1712与极大似然估计的比较
1713计算问题
172共轭先验
173最大后验估计
174贝叶斯模型选择
第18章边缘相似的解析近似
181拉普拉斯近似
1811高斯密度估计
1812例证
1813应用于边际似然逼近
1814贝叶斯信息准则
182变分近似
1821变分贝叶斯最大期望算法
1822与一般最大期望法的关系
第19章预测分布的数值近似
191蒙特卡罗积分
192重要性采样
193采样算法
1931逆变换采样
1932拒绝采样
1933马尔可夫链蒙特卡罗方法
第20章贝叶斯混合模型
201高斯混合模型
2011贝叶斯公式化
2012变分推断
2013吉布斯采样
202隐狄利克雷分配模型
2021主题模型
2022贝叶斯公式化
2023吉布斯采样
第四部分统计机器学习的判别式方法
第21章学习模型
211线性参数模型
212核模型
213层次模型
第22章最小二乘回归
221最小二乘法
222线性参数模型的解决方案
223最小二乘法的特性
224大规模数据的学习算法
225层次模型的学习算法
第23章具有约束的最小二乘回归
231子空间约束的最小二乘
2322约束的最小二乘
233模型选择
第24章稀疏回归
2411约束的最小二乘
242解决1约束的最小二乘
243稀疏学习的特征选择
244若干扩展
2441广义1约束最小二乘
2442p约束最小二乘
24431+2约束最小二乘
24441,2约束最小二乘
2445迹范数约束最小二乘
第25章稳健回归
2512损失最小化的非稳健性
2521损失最小化
253Huber损失最小化
2531定义
2532随机梯度算法
2533迭代加权最小二乘
25341约束Huber损失最小化
254Tukey 损失最小化
第26章最小二乘分类器
261基于最小二乘回归的分类器
2620/1损失和间隔
263多类分类器
第27章支持向量分类
271最大间隔分类
2711硬间隔支持向量分类
2712软间隔支持向量分类
272支持向量分类的对偶最优化问题
273对偶解的稀疏性
274使用核技巧的非线性模型
275多类扩展
276损失最小化观点
2761Hinge损失最小化
2762平方Hinge损失最小化
2763Ramp损失最小化
第28章概率分类法
281Logistic回归
2811Logistic模型与极大似然估计
2812损失最小化的观点
282最小二乘概率分类
第29章结构化分类
291序列分类器
292序列的概率分类
2921条件随机场
2922极大似然估计
2923递归计算
2924新样本预测
293序列的确定性分类
第五部分高级主题
第30章集成学习
301决策树桩分类器
302bagging算法
303boosting算法
3031adaboost算法
3032损失最小化观点
304泛化集成学习
第31章在线学习
311随机梯度下降法
312被动攻击学习
3121分类
3122回归
313加权向量的自适应正则化
3131参数的不确定性
3132分类
3133回归
第32章预测的置信度
3212正则化最小二乘的预测方差
322bootstrap法置信区间估计
323应用
3231时间序列预测
3232调整参数的优化
第33章半监督学习
331流形正则化
3311输入样本的流形结构
3312计算解决方案
332协变量移位的适应
3321重要度加权学习
3322相对重要度加权学习
3323重要度加权交叉检验
3324重要度估计
333类别平衡变化下的适应
3331类别平衡加权学习
3332类别平衡估计
第34章多任务学习
341任务相似度正则化
3411公式化
3412解析解
3413多任务的有效计算方法
342多维函数学习
3421公式化
3422有效的分析解决方案
343矩阵正则化
3431参数矩阵正则化
3432迹范数正则化的梯度法
第35章线性降维
351维度灾难
352无监督降维法
3521主成分分析
3522局部保留投影
353分类的线性判别分析
3531Fisher判别分析法
3532局部Fisher 判别分析法
3533半监督局部Fisher判别分析法
354回归问题的充分降维
3541信息论公式化
3542直接导数估计
355矩阵插补
第36章非线性降维
361利用核技巧的降维
3611核主成分分析
3612拉普拉斯特征映射
362通过神经网络的监督降维法
363通过自编码器的非监督降维法
3631自编码器
3632通过梯度下降法的训练
3633稀疏自编码器
364通过受限玻尔兹曼机的非监督降维法
3641模型
3642通过梯度下降法的训练
365深度学习
第37章聚类
371k均值聚类
372核k均值聚类
373谱聚类
374调谐参数的选择
第38章异常检测
381密度估计和局部异常因子
382支持向量数据描述
383基于正常值的异常检测
第39章变化检测
391基于分布模型的变化检测
3911KL散度
3912Pearson散度
3913L2距离
3914L1距离
3915最大均值差异
3916能量距离
3917时序变化检测的应用
392基于结构模型的变化检测
3921稀疏极大似然估计
3922稀疏密度比估计
参考文献
索引