机器学习:贝叶斯和优化方法(原书第2版)
作者 : [希]西格尔斯·西奥多里蒂斯(Sergios Theodoridis) 著
译者 : 王刚 李忠伟 任明明 李鹏 译
出版日期 : 2022-01-19
ISBN : 978-7-111-69257-7
适用人群 : 高等院校计算机相关专业学生,机器学习领域研究人员
定价 : 279.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 864
开本 : 16
原书名 : Machine Learning: A Bayesian and Optimization Perspective, Second Edition
原出版社: Elsevier (Singapore) Pte Ltd
属性分类: 教材
包含CD : 无CD
绝版 :
图书简介

本书对所有重要的机器学习方法和新近研究趋势进行了深入探索,新版重写了关于神经网络和深度学习的章节,并扩展了关于贝叶斯学习的内容。书中首先讨论基础知识,包括均方、zui小二乘和zui大似然方法,以及岭回归、贝叶斯决策理论分类、逻辑回归和决策树。然后介绍较新的技术,包括稀疏建模方法、再生核希尔伯特空间和支持向量机中的学习、关注EM算法的贝叶斯推理及其变分近似推理、蒙特卡罗方法、关注贝叶斯网络的概率图模型、隐马尔可夫模型和粒子滤波。此外,书中还讨论了降维、隐变量建模、统计参数估计、维纳和卡尔曼滤波、凸优化等技术。本书适合该领域的科研人员和工程师阅读,也适合学习模式识别、统计/自适应信号处理和深度学习等课程的学生参考。

图书特色

图书前言

机器学习(machine learning)这个名字正受到越来越多的关注,它涵盖数十年来在不同科学领域中研究和开发的很多方法,这些方法有着不同的名字,如统计学习、统计信号处理、模式识别、自适应信号处理、图像处理与分析、系统辨识与控制、数据挖掘与信息检索、计算机视觉以及计算学习。“机器学习”这个名字指出了所有这些学科的共同之处,即从数据中学习(learn from data)然后做出预测(make prediction)。人们尝试通过构造一个模型(model)来从数据中学习其深层结构和规律,而这个模型即可用于预测。
为此,人们已经提出了从代价函数优化(其目标是优化观测到的数据结果与模型预测结果间的偏差)到概率模型(试图对观测到的数据的统计特征进行建模)等许多不同的方法。
本书的目标是通过介绍多年来研究者所遵循的主要路线和方法来营造一体式的学习体验,引导读者逐步探究机器学习领域。我并不倾向于某种特定的方法,因为我相信无论是从应用角度还是从教学角度看,所有方法对希望探索机器学习奥秘的初学者而言都是有价值的。如书名所示,本书重点关注机器学习的处理和分析,而非机器学习理论本身及相关的性能界限。换句话说,我们重点关注更靠近应用层的方法和算法。
本书是我超过30年的相关研究经验和相关课程教学经验的结晶。本书的写作方法是令每一章(或相邻两章)尽可能独立成篇。这样,教师就可以根据需要选择、组合某些章节以构成其课程的重点,普通读者也可以在首次阅读时根据需要有选择地精读某些章节。在第1章中,我将给出针对不同课程使用本书的一些指导。
本书每章都从基本概念和基本方法开始,逐渐深入一些新进展。某些主题需要分为两章,例如稀疏感知学习、贝叶斯学习、概率图模型以及蒙特卡罗方法。本书能满足高年级本科生、研究生的学习需求,也适合不满足于黑盒解决方案的科学家与工程师阅读。此外,本书也能作为特定主题短期课程的教材或参考书,例如稀疏建模、贝叶斯学习、概率图模型、神经网络和深度学习等主题。
第2版重要更新
本书的第1版出版于2015年,涵盖2013~2014年机器学习领域的进展。这几年恰逢深度学习领域研究真正蓬勃发展的开端,深度学习重塑了我们的相关知识,并彻底改变了机器学习领域。大体来说,第2版的重点是重写第18章。现在这一章对该领域做了全面回顾,包括从早期的感知机和感知机规则直到新的研究进展,诸如卷积神经网络(CNN)、循环神经网络(RNN)、对抗样本、生成对抗网络(GAN)和胶囊网络等。
此外,第2版涵盖更广泛和详细的非参数贝叶斯方法,如中国餐馆过程(CRP)和印度自助餐过程(IBP)。我相信贝叶斯方法在未来的几年里会越来越重要。当然,谁也不能保证这一定会发生。然而,我认为不确定性将是未来模型的重要部分,而贝叶斯技术至少在原则上是一个合理的入手点。关于其他章节,除修正拼写错误之外,也根据学生、同事和评阅人的建议,改写了一些内容以使本书更易于阅读。在此深深地感谢他们。
本书大部分章节包含MATLAB练习,相关代码可从本书配套网站自由获取。此外,在第2版中,所有的计算机练习还以Python编写,并附有相应的代码,这些代码也可以通过本书网站自由获取。最后,第18章中的一些与深度学习相关的、更接近实际应用的计算机练习则用Tensorflow给出。
习题答案和讲义幻灯片可从本书网站获得,供教师使用。
 关于本书教辅资源,只有使用本书作为教材的教师才可以申请,需要的教师请访问爱思唯尔的教材网站
https://textbooks.elsevier.com/进行申请。——编辑注
在第2版中,所有附录都被移到配套网站上且可以自由下载,这是为了节省篇幅。另外,对于第1版中介绍方法的部分章节,如果其不再是必要的基础知识以及当前的主流研究课题,虽然它们在2015年是新兴且“时髦”的,但在第2版中也被移除了,这些内容可从配套网站下载。
教师网站网址:
http://textbooks.elsevier.com/web/Manuals.aspx?isbn=9780128188033
配套网站网址:
https://www.elsevier.com/booksandjournals/bookcompanion/9780128188033

上架指导

计算机/机器学习

封底文字

本书对所有重要的机器学习方法和新近研究趋势进行了深入探索,通过讲解监督学习的两大支柱——回归和分类,站在全景视角将这些繁杂的方法一一打通,形成了明晰的机器学习知识体系。
新版对内容做了全面更新,使各章内容相对独立。全书聚焦于数学理论背后的物理推理,关注贴近应用层的方法和算法,并辅以大量实例和习题,适合该领域的科研人员和工程师阅读,也适合学习模式识别、统计/自适应信号处理、统计/贝叶斯学习、稀疏建模和深度学习等课程的学生参考。
此外,本书的所有代码均可免费下载,包含MATLAB和Python两个版本。

第2版重要更新及特色 
重写了关于神经网络和深度学习的章节,以反映自第1版以来的研究进展。这一章从感知器和前馈神经网络的基础概念开始讨论,对深度网络进行了深入研究,涵盖较新的优化算法、批标准化、正则化技术(如Dropout方法)、CNN和RNN、注意力机制、对抗样本和对抗训练、胶囊网络、生成架构(如RBM)、变分自编码器和GAN。
扩展了关于贝叶斯学习的内容,包括非参数贝叶斯方法,重点讨论中国餐馆过程(CRP)和印度自助餐过程(IBP)。
追踪新的研究趋势,包括稀疏、凸分析与凸优化、在线分布式算法、RKH空间学习、贝叶斯推断、图模型与隐马尔可夫模型、粒子滤波、深度学习、字典学习和潜变量建模等。
提供实用案例分析,包括蛋白质折叠预测、光学字符识别、文本作者身份识别、fMRI数据分析、变点检测、高光谱图像分离、目标定位等。

作者简介

[希]西格尔斯·西奥多里蒂斯(Sergios Theodoridis) 著:西格尔斯·西奥多里蒂斯(Sergios Theodoridis) 雅典大学教授,香港中文大学(深圳)教授,研究兴趣包括机器学习、模式识别和信号处理等。他是IEEE Fellow、IET Fellow、EURASIP Fellow,曾任IEEE信号处理协会副主席、EURASIP主席以及IEEE Transactions on Signal Processing主编。曾获2017年EURASIP Athanasios Papoulis奖,2014年IEEE信号处理杂志最佳论文奖,以及2014年EURASIP最有价值服务奖等。此外,他还是经典著作《模式识别》的第一作者。

译者序

本书是一部有关机器学习的大部头著作,内容涵盖机器学习的几乎所有方面。目前,机器学习尤其是深度学习正处于蓬勃发展的阶段,通过学习本书,读者可建立起关于机器学习各个方面的知识体系。
本书主要内容包括参数估计、正则化、均方误差线性估计、随机梯度下降、最小二乘、经典贝叶斯分类、凸分析、稀疏学习、再生核希尔伯特空间学习、贝叶斯学习、蒙特卡罗方法、概率图模型、神经网络和深度学习、降维、潜变量建模等。从书名可以看出,书中很多内容是从贝叶斯和优化的角度来介绍的,读者需要有一定的概率统计和优化方面的知识储备。对于所需的必要知识,本书要么以一定的篇幅来介绍(如第2章介绍了概率论和随机过程的基础),要么指出了具体的参考文献。本书的参考文献数量非常巨大,比如仅第18章就有263篇!
本书的每一章或相邻两章都相对独立,作者在各章开头会介绍本章的知识背景和主要内容,以及与其他各章的关系,便于读者快速建立起整体的知识结构,从而更好地理解各部分内容。本书各章不仅介绍了相应的基本概念和经典方法,还引入了一些更高级的方法,对新的前沿进展通常也会进行一些讨论。此外,作者有时会从不同的角度、不同的假设出发,最后得出同样的机器学习算法。我们相信读者在阅读本书时会有殊途同归、豁然开朗的感觉。
为了使内容更加深入,本书不可避免地引入了较多的数学思想,但作者仍然致力于使数学推导极尽简洁,将一些内容的证明或布置为习题,或以参考文献的形式给出,这也使本书的重点更加突出。
本书的翻译工作由王刚、李忠伟、任明明、李鹏共同完成。感谢机械工业出版社的编辑,没有你们的协助和辛苦工作,本书中文版也不可能完成。翻译本书的工作量比较大,我们在翻译过程中也投入了大量的精力,力求让中文版忠实于原著,准确地传达原书的精彩内容。不过受译者能力所限,错误之处在所难免,敬请读者批评指正。

译者
2021年9月于南开园

图书目录

译者序
前言
致谢
作者简介
符号说明
第1章 引言1
 1.1 历史背景1
 1.2 人工智能与机器学习1
 1.3 算法能学习数据中隐藏的东西3
 1.4 机器学习典型应用4
  1.4.1 语音识别4
  1.4.2 计算机视觉4
  1.4.3 多模态数据5
  1.4.4 自然语言处理5
  1.4.5 机器人5
  1.4.6 自动驾驶5
  1.4.7 未来的挑战5
 1.5 机器学习的主要方向6
  1.5.1 监督学习6
 1.6 无监督和半监督学习8
 1.7 本书结构和路线图9
 参考文献11
第2章 概率和随机过程13
 2.1 引言13
 2.2 概率和随机变量13
  2.2.1 概率13
  2.2.2 离散随机变量14
  2.2.3 连续随机变量16
  2.2.4 均值和方差16
  2.2.5 随机变量变换18
 2.3 分布示例19
  2.3.1 离散变量19
  2.3.2 连续变量21
 2.4 随机过程27
  2.4.1 一阶和二阶统计量28
  2.4.2 平稳性和遍历性29
  2.4.3 功率谱密度31
  2.4.4 自回归模型35
 2.5 信息论38
  2.5.1 离散随机变量38
  2.5.2 连续随机变量41
 2.6 随机收敛42
  2.6.1 处处收敛43
  2.6.2 几乎处处收敛43
  2.6.3 均方意义下的收敛43
  2.6.4 依概率收敛43
  2.6.5 依分布收敛43
 习题44
 参考文献45
第3章 参数化建模学习:概念和方向46
 3.1 引言46
 3.2 参数估计:确定性观点46
 3.3 线性回归49
 3.4 分类52
  3.4.1 生成和判别学习54
 3.5 有偏估计与无偏估计55
  3.5.1 选择有偏还是无偏估计56
 3.6 克拉美-罗下界57
 3.7 充分统计量60
 3.8 正则化61
  3.8.1 逆问题:病态和过拟合63
 3.9 偏差-方差困境65
  3.9.1 均方误差估计65
  3.9.2 偏差-方差权衡66
 3.10 最大似然法69
  3.10.1 线性回归:非白高斯噪声实例71
 3.11 贝叶斯推断71
  3.11.1 最大后验概率估计方法74
 3.12 维数灾难75
 3.13 验证76
  3.13.1 交叉验证77
 3.14 期望损失函数和经验风险函数78
  3.14.1 可学习性79
 3.15 非参数建模和非参数估计79
 习题80
 参考文献83
第4章 均方误差线性估计85
 4.1 引言85
 4.2 均方误差线性估计:正规方程85
  4.2.1 代价函数曲面86
 4.3 几何观点:正交性条件87
 4.4 扩展到复值变量89
  4.4.1 宽线性复值估计90
  4.4.2 复值变量优化:沃廷格微积分93
 4.5 线性滤波94
 4.6 均方误差线性滤波:频率域观点96
  4.6.1 反卷积:图像去模糊96
 4.7 一些典型应用98
  4.7.1 干扰抵消98
  4.7.2 系统辨识99
  4.7.3 反卷积:信道均衡100
 4.8 算法方面:莱文森算法和格-梯算法105
  4.8.1 前向后向均方误差最优预测106
  4.8.2 格-梯方案109
 4.9 线性模型均方误差估计111
  4.9.1 高斯-马尔可夫定理113
  4.9.2 约束线性估计:波束成形实例115
 4.10 时变统计:卡尔曼滤波118
 习题123
 参考文献125
第5章 随机梯度下降:LMS算法族127
 5.1 引言127
 5.2 最速下降法127
 5.3 应用于均方误差代价函数130
  5.3.1 时变步长135
  5.3.2 复值情形135
 5.4 随机逼近136
  5.4.1 在均方误差线性估计中的应用138
 5.5 最小均方自适应算法139
  5.5.1 平稳环境中LMS算法的收敛和稳态性能140
  5.5.2 累积损失上界144
 5.6 仿射投影算法145
  5.6.1 APA的几何解释147
  5.6.2 正交投影148
  5.6.3 归一化LMS算法149
 5.7 复值情形150
  5.7.1 宽线性LMS151
  5.7.2 宽线性APA151
 5.8 LMS同族算法152
  5.8.1 符号误差LMS152
  5.8.2 最小均四次方算法152
  5.8.3 变换域LMS153
 5.9 仿真示例155
 5.10 自适应判决反馈均衡157
 5.11 线性约束LMS159
 5.12 非平稳环境中LMS算法的跟踪性能160
 5.13 分布式学习:分布式LMS162
  5.13.1 协同策略163
  5.13.2 扩散LMS164
  5.13.3 收敛和稳态性能:一些重点169
  5.13.4 基于共识的分布式方法171
 5.14 实例研究:目标定位172
 5.15 一些结论:共识矩阵174
 习题174
 参考文献177
第6章 最小二乘算法族181
 6.1 引言181
 6.2 最小二乘线性回归:几何视角181
 6.3 最小二乘估计的统计特性183
  6.3.1 LS估计是无偏估计183
  6.3.2 LS估计的协方差矩阵183
  6.3.3 白噪声下LS估计是最优线性无偏估计184
  6.3.4 高斯白噪声下LS估计达到克拉美-罗界185
  6.3.5 LS估计的渐近分布185
 6.4 正交化输入矩阵的列空间:SVD方法186
  6.4.1 伪逆矩阵和SVD187
 6.5 岭回归:几何观点189
  6.5.1 主成分回归190
 6.6 递归最小二乘算法191
  6.6.1 时间迭代计算192
  6.6.2 参数的时间更新192
 6.7 牛顿迭代极小化方法194
  6.7.1 RLS和牛顿方法195
 6.8 RLS的稳态性能196
 6.9 复值数据:宽线性RLS198
 6.10 LS方法的计算199
  6.10.1 乔列斯基分解199
  6.10.2 QR分解199
  6.10.3 快速RLS版本200
 6.11 坐标下降法和循环坐标下降法201
 6.12 仿真示例202
 6.13 总体最小二乘法205
  6.13.1 总体最小二乘法的几何解释208
 习题210
 参考文献212
第7章 分类:经典方法导览215
 7.1 引言215
 7.2 贝叶斯分类215
  7.2.1 贝叶斯分类器最小化分类误差216
  7.2.2 平均风险217
 7.3 决策(超)曲面219
  7.3.1 高斯分布实例220
 7.4 朴素贝叶斯分类器224
 7.5 最近邻法则225
 7.6 对数几率回归226
 7.7 费舍尔线性判别230
  7.7.1 散布矩阵230
  7.7.2 费舍尔判别:两类情况232
  7.7.3 费舍尔判别:多类情况234
 7.8 分类树235
 7.9 分类器组合238
  7.9.1 无免费午餐原理238
  7.9.2 一些实验比较239
  7.9.3 分类器组合方案239
 7.10 提升方法241
  7.10.1 AdaBoost算法241
  7.10.2 对数损失函数244
 7.11 提升树246
 习题247
 参考文献250
第8章 参数学习:凸分析方法252
 8.1 引言252
 8.2 凸集和凸函数252
  8.2.1 凸集252
  8.2.2 凸函数254
 8.3 凸集投影法256
  8.3.1 投影特性258
 8.4 凸集投影基本定理261
 8.5 并行POCS263
 8.6 从凸集到参数估计和机器学习264
  8.6.1 回归264
  8.6.2 分类266
 8.7 无穷多封闭凸集:在线学习实例267
  8.7.1 APSM的收敛性269
 8.8 约束学习272
 8.9 分布式APSM273
 8.10 优化非光滑凸代价函数275
  8.10.1 次梯度和次微分275
  8.10.2 最小化非光滑连续凸损失函数:批量学习实例277
  8.10.3 凸优化在线学习281
 8.11 悔过分析284
  8.11.1 次梯度算法的悔过分析285
 8.12 在线学习和大数据应用:讨论286
  8.12.1 近似、估计和优化误差287
  8.12.2 批处理与在线学习288
 8.13 近端算子290
  8.13.1 近端算子的性质293
  8.13.2 近端最小化293
 8.14 近端分裂优化方法295
  8.14.1 近端前向-后向分裂算子297
  8.14.2 交替方向乘子法297
  8.14.3 镜像下降算法298
 8.15 分布式优化:一些要点299
 习题300
 参考文献303
第9章 稀疏感知学习:概念和理论基础307
 9.1 引言307
 9.2 寻找范数307
 9.3 最小绝对收缩和选择算子309
 9.4 稀疏信号表示313
 9.5 寻找最稀疏解315
  9.5.1 2范数极小值316
  9.5.2 0范数极小值317
  9.5.3 1范数极小值317
  9.5.4 1范数极小值的性质318
  9.5.5 几何解释319
 9.6 0极小值的唯一性321
  9.6.1 互相干322
 9.7 0和1极小值等价的充分条件324
  9.7.1 自相干数隐含的条件324
  9.7.2 约束等距性324
 9.8 基于噪声测量的鲁棒稀疏信号恢复327
 9.9 压缩感知:随机性的荣光328
  9.9.1 压缩感知328
  9.9.2 降维和稳定嵌入329
  9.9.3 欠奈奎斯特采样:模拟信息转换330
 9.10 实例研究:图像降噪333
 习题335
 参考文献337
第10章 稀疏感知学习:算法和应用341
 10.1 引言341
 10.2 稀疏提升算法341
  10.2.1 贪心算法341
  10.2.2 迭代收缩/阈值算法345
  10.2.3 关于算法选择的一些实用提示351
 10.3 稀疏感知方法的变化354
 10.4 在线稀疏提升算法360
  10.4.1 LASSO:渐近性能361
  10.4.2 自适应加权范数LASSO362
  10.4.3 自适应CoSaMP算法363
  10.4.4 稀疏自适应投影次梯度方法364
 10.5 稀疏分析学习模型368
  10.5.1 相干字典表示的稀疏信号的压缩感知370
  10.5.2 共稀疏性371
 10.6 实例研究:时频分析373
  10.6.1 伽柏变换和框架373
  10.6.2 时频分辨率374
  10.6.3 伽柏框架374
  10.6.4 蝙蝠发出的回声定位信号的时频分析375
 习题377
 参考文献379
第11章 再生核希尔伯特空间中的学习383
 11.1 引言383
 11.2 广义线性模型383
 11.3 沃尔泰拉模型、维纳模型和哈默斯坦模型384
 11.4 科弗定理:线性二分空间的容量386
 11.5 再生核希尔伯特空间388
  11.5.1 一些性质和理论要点389
  11.5.2 核函数示例390
 11.6 表示定理395
  11.6.1 半参表示定理396
  11.6.2 非参建模:讨论397
 11.7 核岭回归397
 11.8 支持向量回归399
  11.8.1 线性不敏感最优回归400
 11.9 核岭回归回顾405
 11.10 最优边距分类:支持向量机406
  11.10.1 线性可分类别:最大边距分类器407
  11.10.2 不可分类别410
  11.10.3 SVM的性能及其应用414
  11.10.4 超参数的选择414
  11.10.5 推广为多类分类器414
 11.11 计算方面的考虑415
 11.12 随机傅里叶特征416
  11.12.1 RKHS中的在线和分布式学习418
 11.13 多核学习418
 11.14 非参稀疏感知学习:可加模型420
 11.15 实例研究:作者身份认证422
 习题424
 参考文献426
第12章 贝叶斯学习:推断和EM算法431
 12.1 引言431
 12.2 回归:贝叶斯观点431
  12.2.1 极大似然估计432
  12.2.2 MAP估计432
  12.2.3 贝叶斯方法433
 12.3 证据函数和奥卡姆剃刀法则438
  12.3.1 拉普拉斯近似和证据函数440
 12.4 潜变量和EM算法443
  12.4.1 最大期望算法444
 12.5 线性回归和EM算法445
 12.6 高斯混合模型447
  12.6.1 高斯混合模型与聚类451
 12.7 EM算法:下界最大化视角453
 12.8 指数族概率分布456
  12.8.1 指数族和最大熵法460
 12.9 学习模型组合:概率观点461
  12.9.1 混合线性回归模型461
  12.9.2 混合对率回归模型465
 习题466
 参考文献469
第13章 贝叶斯学习:近似推断和非参模型471
 13.1 引言471
 13.2 变分近似贝叶斯学习471
  13.2.1 平均场近似472
  13.2.2 指数族概率分布实例475
 13.3 线性回归的变分贝叶斯方法476
  13.3.1 下界的计算480
 13.4 变分贝叶斯方法应用于高斯混合模型481
 13.5 当贝叶斯推断遇到稀疏性484
 13.6 稀疏贝叶斯学习486
  13.6.1 钉板方法488
 13.7 关联向量机框架489
  13.7.1 用对率回归模型进行分类489
 13.8 凸对偶与变分界492
 13.9 稀疏感知回归:变分界贝叶斯方法495
  13.9.1 稀疏感知学习:一些结论498
 13.10 期望传播499
  13.10.1 最小化KL散度500
  13.10.2 期望传播算法500
 13.11 非参贝叶斯建模502
  13.11.1 中国餐馆过程503
  13.11.2 狄利克雷过程503
  13.11.3 DP的截棍构造507
  13.11.4 狄利克雷过程混合建模508
  13.11.5 推理509
  13.11.6 印度自助餐过程511
 13.12 高斯过程517
  13.12.1 协方差函数与核518
  13.12.2 回归519
  13.12.3 分类521
 13.13 实例研究:高光谱图像分离522
  13.13.1 层级贝叶斯建模523
  13.13.2 实验结果524
 习题525
 参考文献528
第14章 蒙特卡罗方法532
 14.1 引言532
 14.2 蒙特卡罗方法:主要思想532
  14.2.1 随机数发生533
 14.3 基于函数变换的随机抽样534
 14.4 拒绝抽样538
 14.5 重要性抽样540
 14.6 蒙特卡罗方法与EM算法542
 14.7 马尔可夫链蒙特卡罗法542
  14.7.1 遍历马尔可夫链544
 14.8 梅特罗波利斯方法548
  14.8.1 收敛问题550
 14.9 吉布斯抽样552
 14.10 寻找更有效的方法:一些讨论554
  14.10.1 变分推断或蒙特卡罗方法555
 14.11 实例研究:变点检测555
 习题557
 参考文献559
第15章 概率图模型:第一部分561
 15.1 引言561
 15.2 图模型的必要性561
 15.3 贝叶斯网络与马尔可夫条件563
  15.3.1 图:基本定义564
  15.3.2 因果关系的一些提示566
  15.3.3 d分离568
  15.3.4 S形贝叶斯网络570
  15.3.5 线性高斯模型571
  15.3.6 多因网络572
  15.3.7 I映射、可靠性、忠实性和完备性572
 15.4 无向图模型573
  15.4.1 马尔可夫随机场中的独立性和I映射574
  15.4.2 伊辛模型及其变体575
  15.4.3 条件随机场577
 15.5 因子图578
  15.5.1 纠错码的图模型579
 15.6 有向图端正化580
 15.7 精确推理法:消息传递算法581
  15.7.1 链精确推理581
  15.7.2 树精确推理584
  15.7.3 和积算法585
  15.7.4 最大积与最大和算法589
 习题594
 参考文献595
第16章 概率图模型:第二部分597
 16.1 引言597
 16.2 三角剖分图与联合树597
  16.2.1 构造连接树599
  16.2.2 联合树中的消息传递601
 16.3 近似推理方法603
  16.3.1 变分法:局部近似603
  16.3.2 分块变分近似法607
  16.3.3 环路信念传播609
 16.4 动态图模型612
 16.5 隐马尔可夫模型613
  16.5.1 推理615
  16.5.2 HMM参数学习619
  16.5.3 判别学习621
 16.6 超越HMM:讨论622
  16.6.1 因子隐马尔可夫模型622
  16.6.2 时变动态贝叶斯网络624
 16.7 图模型学习625
  16.7.1 参数估计625
  16.7.2 结构学习627
 习题628
 参考文献629
第17章 粒子滤波633
 17.1 引言633
 17.2 顺序重要性抽样633
  17.2.1 重要性抽样回顾633
  17.2.2 重抽样634
  17.2.3 顺序抽样636
 17.3 卡尔曼和粒子滤波638
  17.3.1 卡尔曼滤波:贝叶斯观点639
 17.4 粒子滤波640
  17.4.1 退化645
  17.4.2 通用粒子滤波645
  17.4.3 辅助粒子滤波647
 习题652
 参考文献654
第18章 神经网络和深度学习656
 18.1 引言656
 18.2 感知机657
 18.3 前馈多层神经网络660
  18.3.1 全连接网络663
 18.4 逆传播算法664
  18.4.1 代价函数的非凸性665
  18.4.2 梯度下降逆传播方法666
  18.4.3 基本梯度下降法的变体672
  18.4.4 超越梯度下降原理679
 18.5 代价函数的选择680
 18.6 梯度消失和梯度爆炸682
  18.6.1 整流线性单元683
 18.7 网络正则化684
  18.7.1 dropout686
 18.8 设计深度神经网络:总结688
 18.9 前馈神经网络的普遍近似特性689
 18.10 神经网络:贝叶斯风格690
 18.11 浅层结构与深层结构691
  18.11.1 深层结构的力量691
 18.12 卷积神经网络695
  18.12.1 对卷积的需求695
  18.12.2 体上的卷积701
  18.12.3 全卷积结构704
  18.12.4 CNN:尾声706
 18.13 递归神经网络709
  18.13.1 时间逆传播710
  18.13.2 注意力和记忆713
 18.14 对抗示例715
  18.14.1 对抗训练716
 18.15 深度生成模型717
  18.15.1 受限玻尔兹曼机718
  18.15.2 预训练深度前馈网络719
  18.15.3 深度信念网络720
  18.15.4 自编码器722
  18.15.5 生成对抗网络723
  18.15.6 变分自编码器729
 18.16 胶囊网络731
  18.16.1 训练734
 18.17 深度神经网络:最后的话735
  18.17.1 迁移学习735
  18.17.2 多任务学习736
  18.17.3 几何深度学习737
  18.17.4 开放问题738
 18.18 实例研究:神经网络机器翻译738
 习题743
 参考文献746
第19章 降维与潜变量模型755
 19.1 引言755
 19.2 本征维数755
 19.3 主成分分析756
  19.3.1 PCA、SVD以及低秩矩阵分解757
  19.3.2 最小误差解释758
  19.3.3 PCA和信息检索759
  19.3.4 PCA和特征生成的正交性759
  19.3.5 潜变量760
 19.4 典型相关分析764
  19.4.1 CCA同类方法767
 19.5 独立成分分析768
  19.5.1 ICA和高斯函数769
  19.5.2 ICA和高阶累积量769
  19.5.3 非高斯性和独立成分771
  19.5.4 基于互信息的ICA771
  19.5.5 其他ICA方法774
  19.5.6 鸡尾酒会问题774
 19.6 字典学习:kSVD算法777
  19.6.1 为什么命名为kSVD779
  19.6.2 字典学习和字典可辨识性779
 19.7 非负矩阵分解782
 19.8 低维模型学习:概率视角782
  19.8.1 因子分析783
  19.8.2 概率PCA784
  19.8.3 混合因子分析:压缩感知的贝叶斯观点786
 19.9 非线性降维789
  19.9.1 核PCA方法789
  19.9.2 基于图的方法790
 19.10 低秩矩阵分解:一种稀疏建模的方法797
  19.10.1 矩阵补全797
  19.10.2 鲁棒PCA799
  19.10.3 矩阵补全和鲁棒PCA的应用800
 19.11 实例研究:fMRI数据分析802
 习题804
 参考文献806
索引812
在线章节
 第8章附录
 第10章附录
 第12章附录
 附录A
 附录B
 附录C
 请访问原书配套网站下载,详见前言中的说明。——编辑注

教学资源推荐
作者: [印]M. 戈帕尔(M. Gopal) 著
作者: [美]约翰 J. 克雷格(John J. Craig)著
作者: [英]西蒙 J.D. 普林斯(Simon J. D. Prince)著
作者: [美]黄铠(Kai Hwang)著
参考读物推荐
作者: 张胜 钱柱中 梁瑜 陆桑璐 著
作者: 陆平 张晗 张再军 田江磊 等编著
作者: 计湘婷 文新 刘倩 李轩涯 编著