机器学习的数学理论
作者 : [中] 史斌(Bin Shi) [美] S.S.艾扬格(S.S.Iyengar)著
译者 : 李飞 等译
出版日期 : 2020-07-27
ISBN : 978-7-111-66136-8
定价 : 69.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 168
开本 : 16
原书名 : Mathematical Theories of Machine Learning - Theory and Applications
原出版社: Springer
属性分类: 教材
包含CD : 无CD
绝版 :
图书简介

本书重点研究机器学习的数学理论。第一部分探讨了在非凸优化问题中,选择梯度下降步长来避免严格鞍点的最优性和自适应性。在第二部分中,作者提出了在非凸优化中寻找局部极小值的算法,并利用牛顿第二定律在一定程度上得到无摩擦的全局极小值。第三部分研究了含有噪声和缺失数据的子空间聚类问题,这是一个由随机高斯噪声的实际应用数据和/或含有均匀缺失项的不完全数据激发的问题。最后,提出了一种新的具有粘性网正则化的VAR模型及其等价贝叶斯模型,该模型既考虑了稳定的稀疏性,又考虑了群体选择。

图书特色

图书前言

机器学习是一种核心的、变革性的方式,通过它,我们可以重新思考我们正在做的一切。我们正在深思熟虑地将它应用到所有的产品中,无论是搜索、广告、YouTube还是游戏。虽然刚刚起步,但你会看到我们如何系统地思考将机器学习应用到所有这些领域。
——Sundar Pichai, 谷歌首席执行官

机器学习及相关技术是最有趣的研究课题之一,它有可能改变世界的发展方向。然而,在目前的研究现状中,机器学习的研究还没有一个坚实的理论框架,不能为分析提供基础,也不能为实验运行提供指导。本书试图确定并解决在现代机器学习、人工智能、深度神经网络等方面具有重大研究兴趣的各个领域中存在的问题,这些技术可以完成非凡的任务,但是如何使用它们高度依赖的基本概念仍然是一个谜。梯度下降法是一种广泛应用于神经网络训练的方法。当使用梯度下降法时,无论是收敛到局部最小值还是全局最小值,都存在的一个挑战是缺乏关于该算法何时收敛的指导性准则。本书试图解决这个关键问题。本书为读者提供了新的理论框架,可以用于收敛性分析。
本书也代表了作者和合作者在机器学习领域数学方面的重大贡献。在整本书中,我们确保读者能够很好地理解和感受梯度下降技术的理论框架,以及在神经网络训练中使用这些理论框架的方法。为了强调这一点,书中使用了我们最近的一些研究成果,以及其他研究人员正在探索的综合成果。当阅读本书的各个章节时,读者会接触到各种非常重要的应用,比如子空间聚类和时间序列分析。本书力求达到理论与应用的平衡,因此,书中会同时给出理论以及相关应用。我们希望在机器学习领域为读者提供正确的工具,使阅读更加精彩,同时对读者产生巨大的影响。
与诸如Goodfellow、Bengio和Courville的《深度学习》等现有书籍相比,本书更深入地定义和展示了梯度下降领域的最新研究成果,使之成为学生和专业人士更为全面的工具。此外,本书还将这些概念与诸如子空间聚类和时间序列数据之类的应用联系起来,使其成为该领域中更好的选择。
本书的目标读者涵盖从事机器学习的所有人,无论是学生、教授、行业专家,还是独立研究人员。编撰本书的目的是为日常研究活动提供一本方便的手册。
本书分为几个独立的部分,以便读者首先接触到机器学习、神经网络、优化、梯度下降法等基本概念。在接下来的内容中,读者可以学习和理解选择梯度下降步长的最优性和自适应性,从而避开非凸优化问题中的严格鞍点。当所有鞍点都是严格的时,我们首先给出寻找局部最小值的梯度下降法的一个最大允许固定步长,它是梯度利普希茨常数(1/L)的2倍。虽然在最坏情况下步长大于2/L的梯度下降法发散,但是对于严格的鞍形非凸优化问题,我们同样得到了梯度下降法的最优步长。其中一个重要的结果是只要梯度下降的诱导映射是局部微分同胚的,就可以确保算法收敛到严格鞍点的勒贝格测度为0,而以前的研究工作都要求这个映射是全局微分同胚的。其次,我们还考虑了步长的自适应选择,证明如果每次迭代的步长与局部梯度利普希茨常数的倒数成正比,梯度下降法不会收敛到任何严格鞍点。据我们所知,这是第一个揭示变步长梯度下降法也可以避开鞍点的研究成果,应用动力系统理论中Hartman积映射定理的推广可以证明这一点。
本书还定义和阐述了用于在非凸优化方案中寻找局部最小值的算法,从而帮助我们获得在某种程度上符合无摩擦牛顿第二定律的全局最小值。基于辛欧拉算法,以运动中可观察和可控制的速度为关键观测量,模拟了无摩擦的牛顿第二定律,并从解析解的直观分析出发,对该算法的高速收敛性进行了理论分析。最后,给出了高维强凸、非强凸和非凸函数的实验结果。本书还描述了一些离散算法,这些算法将用于测试速度或动能的可观测性和可控性,以及人工耗散能量。
此后又研究了含有噪声和缺失数据的问题子空间聚类,这是一个很有实际应用价值的问题。考虑到应用中具有随机高斯噪声和具有一致缺失项的不完整数据,我们的主要贡献是CoCoSSC——一种受CoCoLasso启发的新颖的噪声子空间聚类方法。值得注意的是,CoCoSSC在将输入数据传递到Lasso SSC算法之前,使用了一种基于半正定规划的预处理步骤来“去偏”和“去噪”,这使得它更加稳定,并且是一个L1标准化的自回归模型。我们从理论上证明了即使有1-Ω(n-2/5)比例的数据缺失,同时又被信噪比(SnR)为n-1/4的加性高斯噪声干扰,CoCoSSC仍能正常工作。与已知的只能处理恒定比例的数据丢失和n-1/6的高斯噪声信噪比的算法相比,CoCoSSC算法的效率有了显著的改善。与现有的粒子学习方法相比,我们的方法改进了粒子学习的样本完全推理策略。对合成的和实际的时间序列数据的大量实证研究,表明了该方法的有效性和高效率,同时有效的数值计算结果也证明了我们提出的算法的有效性和高效率。

史斌,加州大学伯克利分校
S. S. 艾扬格,迈阿密大学

上架指导

计算机\人工智能

封底文字

本书重点研究机器学习的数学理论。第一部分探讨了在非凸优化问题中,选择梯度下降步长来避免严格鞍点的最优性和自适应性。第二部分提出了在非凸优化中寻找局部极小值的算法,并利用牛顿第二定律在一定程度上得到无摩擦的全局极小值。第三部分研究了含有噪声和缺失数据的子空间聚类问题,这是一个由随机高斯噪声的实际应用数据和含有均匀缺失项的不完全数据激发的问题;还提出了一种新的具有粘性网正则化的VAR模型及其等价贝叶斯模型,该模型既考虑了稳定的稀疏性,又考虑了群体选择。

本书特色
深入研究机器学习的各种数学理论。
分四个部分介绍,让读者轻松驾驭复杂的理论。
包括对合成和实时应用时间序列数据进行的广泛实证研究。

图书序言

本书将对机器学习领域产生重大影响。目前已经有一些书讨论了不同类别的机器学习技术,而本书深入研究的是机器学习算法的数学基础。这是很有必要的,因为从业者和学者都必须有一种方法来衡量大量算法应用的有效性。
本书的主要贡献之一是讨论了凸约束稀疏子空间聚类(CoCoSSC)。一些机器学习方法的优劣取决于最速下降方法的收敛性,当目标函数为非凸目标(或凸约束目标)时,CoCoSSC方法设计的梯度下降方法具有更快的收敛性。
有许多应用将受益于这一基础工作,应用于网络安全的机器学习就是这样一种应用。在实际应用中,其目标是减少网络分析师无法承受的数据量。具体而言,有一些例子表明,基于最速梯度下降的逻辑回归分类器有助于在数据库里将相关的网络主题与非网络主题分离开来。另一个类似的应用是识别被利用的恶意软件,该恶意软件是大型漏洞数据库的子集。
此外,人工智能有可能给许多行业带来革命性的改变,例如无人驾驶汽车、金融、国家安全、医药和电子商务等应用领域。本书将深入挖掘以上应用中所蕴含的凸约束优化技术的数学原理,该原理同样适用于作为机器学习算法基础的最速下降优化。

戴维·R马丁内斯
波士顿,马萨诸塞州

译者序

随着科技的发展和经济的进步,人工智能技术的发展所带来的效益愈发凸显,越来越多的企业和学者将目光转向人工智能相关技术。机器学习算法作为最基础的人工智能算法之一,对人工智能技术的发展起到了关键作用。研究机器学习的数学基础具有非凡的意义,能够为深度学习等人工智能技术提供源源不断的前进动力,因此该领域的研究一直是非常有吸引力的。
作者史斌博士在机器学习的数学基础算法方面有着很深的造诣,其研究成果也得到了很多学者的引用和认可。本书总结了史斌博士的部分研究成果,定能推动机器学习技术的发展。但是本书专业性较强,需要读者具有一定的数学基础。另外,在阅读本书之前读者最好具备一定的机器学习算法基础。当然,机器学习初学者也可以通过本书来快速了解机器学习相关算法中非常核心的研究领域。
本书的翻译工作由海军航空大学和92212部队的机器学习研究者共同完成。由于工作繁忙,所以对翻译工作进行了分工,其中第1~3章由赵文飞博士完成,第4章由王希彬博士完成,第5章由刘涛博士完成,第6章由刘伟博士完成,第7章由甄伟完成,第8~11章由李飞博士完成。全书由李飞和赵文飞进行了翻译风格上的统一。
由于本书专业性强,个别专业术语的翻译可能无法完全体现作者的原意,衷心希望各位读者批评指正。

译者
2020年4月

图书目录

译者序
序言
致谢
前言
作者简介
第一部分 引言
第1章 绪论
1.1 神经网络
1.2 深度学习
1.3 梯度下降法
1.4 小结
1.5 本书结构
第2章 通用数学框架
2.1 机器学习与计算统计学
2.2 小结
第3章 优化理论简述
3.1 机器学习所需的优化理论
3.2 在线算法:机器学习的顺序更新
3.3 小结
第4章 改进的CoCoSSC方法
4.1 问题描述
4.2 梯度加速下降法
4.3 CoCoSSC方法
4.4 在线时变粘性网算法
4.5 小结
第5章 关键术语
5.1 一些定义
5.2 小结
第6章 关于非凸规划几何的相关研究
6.1 多元时间序列数据集
6.2 粒子学习
6.3 在气候变化中的应用
6.4 小结
第二部分 机器学习的数学框架:理论部分
第7章 收敛到最小值的梯度下降法:最优和自适应的步长规则
7.1 引言
7.2 符号与预备知识
7.3 最大允许步长
7.4 自适应步长规则
7.5 定理7.1的证明
7.6 定理7.2的证明
7.7 辅助定理
7.8 技术证明
7.9 小结
第8章 基于优化的守恒定律方法
8.1 准备:直观的解析演示
8.2 辛方法与算法
8.3 局部高速收敛现象的渐近分析
8.4 实验演示
8.5 小结与展望
第三部分 机器学习的数学框架:应用部分
第9章 含有噪声和缺失观测值的稀疏子空间聚类的样本复杂度的改进
9.1 CoCoSSC算法的主要结果
9.2 证明
9.3 数值结果
9.4 技术细节
9.5 小结
第10章 多元时间序列中稳定和分组因果关系的在线发现
10.1 问题表述
10.2 粘性网正则化
10.3 在线推理
10.4 实验验证
10.5 小结与展望
第11章 后记
参考文献

教学资源推荐
作者: [美]查鲁·C. 阿加沃尔(Charu C. Aggarwal) 著
作者: 蔡自兴 王勇 编著
作者: [美] 安东尼·D. 约瑟夫(Anthony D. Joseph) 布莱恩·尼尔森(Blaine Nelson) 本杰明·I. P. 鲁宾斯坦(Benjamin I. P. Rubinstein) J. D. 泰格(J. D. Tygar) 著
参考读物推荐
作者: 应忍冬 刘佩林 编著
作者: [英]马克·特雷维尔(Mark Treveil),[美]the Dataiku Team 著
作者: [意] 朱塞佩·博纳科尔索(Giuseppe Bonaccorso) 著