神经网络与深度学习
作者 : [美]查鲁·C. 阿加沃尔(Charu C. Aggarwal) 著
译者 : 石川 杨成 译
出版日期 : 2021-08-06
ISBN : 978-7-111-68685-9
适用人群 : 人工智能相关专业高年级本科生、研究生以及相关从业人员
定价 : 149.00元
教辅资源下载
扩展信息
语种 : 简体中文
页数 : 406
开本 : 16
原书名 : Neural Networks and Deep Learning: A Textbook
原出版社: Springer
属性分类: 教材
包含CD : 无CD
绝版 :
图书简介

本书涵盖了经典和现代的深度学习模型。章节分为三类:第1部分为神经网络的基础。许多传统的机器学习模型可以理解为神经网络的特殊情况。前两章的重点是理解传统机器学习和神经网络之间的关系。支持向量机、线性/逻辑回归、奇异值分解、矩阵分解和推荐系统都是神经网络的特例。本书将这些方法与特征工程方法如word2vec一起进行了研究。第2部分是神经网络的基本原理。训练和正则化的详细讨论在第3章和第4章提供。第5章和第6章介绍了径向基函数(RBF)网络和受限的玻尔兹曼机。第3部分是神经网络的高级主题:第7章和第8章讨论了循环神经网络和卷积神经网络。第9章和第10章介绍了几个高级主题,如深度强化学习、神经图像机、Kohonen自组织映射和生成对抗网络。这本书是为研究生、研究人员和实践者编写的。大量的练习和一个解决方案手册,以帮助在课堂教学。在可能的情况下,突出显示以应用程序为中心的视图,以便提供对每一类技术的实际用途的理解。

图书特色

图书前言

任何能通过图灵测试的人工智能都知道不应该通过这个测试。
——Ian McDonald
神经网络是通过以类似人类神经元的方式处理学习模型中的计算单元来模拟人类神经系统以完成机器学习任务。神经网络的宏伟愿景是通过构建一些模拟人类神经系统计算架构的机器来创造人工智能,由于当今最快的计算机的计算能力也无法企及人脑计算能力,所以这显然不是一项简单的任务。神经网络在20世纪五六十年代计算机出现后不久得到了迅速发展,Rosenblatt 的感知机算法被视作神经网络的基石,这引起了人们对人工智能前景的早期关注和兴奋。然而在这种早期的兴奋过后,神经网络对数据的渴求和计算过于密集的特性成为其大展宏图的障碍,它度过了一段令人失望的时期。最终,在世纪之交,海量的可用数据以及不断增长的计算能力使得神经网络重振雄风,并在人们视线中以新的名称——深度学习出现。虽然人工智能匹敌人类智能的那一天离我们还很遥远,但在图像识别、自动驾驶和博弈等特定领域,人工智能已经比肩甚至超过了人类智能。我们也很难预测人工智能将来的上限是什么。例如,二十多年前,很少有计算机视觉专家会想到会有自动化系统能够比人类更准确地执行图像分类这种直观的任务。
理论上,神经网络能够通过足够的训练数据学习任何数学函数,现在已知一些变体(如循环神经网络)是图灵完备的。图灵完备是指在给定足够的训练数据的情况下,神经网络可以拟合任何学习算法。其不足之处在于,即使是对于简单的任务,往往也需要大量的训练数据,这导致相应的训练时间也增加了(如果我们首先假设有足够的训练数据)。例如,图像识别对人类来说是一项简单的任务,但即使在高性能系统中,其训练时间也可能长达几周。此外,还有与神经网络训练的稳定性相关的实际问题,这些问题甚至在如今都还没有解决。然而,考虑到计算机的计算速度会随着时间的推移而迅速提高,而且从根本上来说,更强大的计算范式(如量子计算)也即将出现,计算问题最终可能不会像想象的那样难以解决。
虽然神经网络的生物学类比是令人惊奇的,并且引发了与科幻小说的比较,但相比之下对神经网络的数学理解则更平凡。神经网络的抽象化可以被视为一种模块化的方法,使基于输入和输出之间依赖关系的计算图上的连续优化的学习算法成为可能。平心而论,这和控制理论中的传统工作没有太大区别——事实上,控制理论中的一些用于优化的方法与神经网络中最基本的算法惊人地相似(历史上也是如此)。然而,近年来大量的可用数据以及计算能力的提升,使得能够对这些计算图进行比以前有着更深的架构的实验。由此带来的成功改变了人们对深度学习潜力的广泛认识。
本书的章节结构如下:
1. 神经网络的基础知识:第1章讨论神经网络设计的基础知识。许多传统的机器学习模型可以理解为神经网络学习的特殊情况。理解传统机器学习和神经网络之间的关系是理解后者的第一步。第2章用神经网络对各种机器学习模型进行了模拟,旨在让分析者了解神经网络是如何挑战传统机器学习算法的极限的。
2. 神经网络的基本原理:第3章和第4章提供对训练挑战的更详细的叙述。第5章和第6章介绍径向基函数(RBF)网络和受限玻尔兹曼机。
3. 神经网络的进阶主题:深度学习最近的很多成功是各种领域的特定架构的结果,例如循环神经网络和卷积神经网络。第7章和第8章分别讨论循环神经网络和卷积神经网络。第9章和第10章讨论一些进阶主题,如深度强化学习、神经图灵机和生成对抗网络。
我们所关注的内容中包含一些“被遗忘”的架构,如径向基函数网络和Kohonen自组织映射,因为它们在许多应用中具有潜力。本书是为研究生、研究人员和从业者写的。许多练习和解决方案手册都有助于课堂教学。在可能的情况下,本书突出以应用程序为中心的视角,以便让读者对该技术有所了解。
在本书中,向量或多维数据点都通过在字母上方加一条横线来表示,如X或y。向量点积用居中的点表示,比如X·Y。矩阵用不带横线的斜体大写字母表示,比如R。在本书中,对应整个训练数据集的n×d矩阵代表n个d维数据,该矩阵用D表示。因此,D中的各个数据点是d维行向量。另外,每个分量代表一个数据点的向量通常是n维列向量,例如具有n个数据点作为类变量的n维列向量y。观测值yi与预测值y∧i的区别在于变量顶部的扬抑符。

Charu C. Aggarwal
美国纽约州约克敦海茨

上架指导

计算机\人工智能

封底文字

我和Charu C. Aggarwal博士合作了很多年。Charu博士是天才式学者,在数据挖掘和机器学习的很多方向都有所建树,且著作等身。这本书全景式地描述了深度神经网络的基本原理和关键技术。石川和杨成教授对该书进行了精彩的翻译。相信这本书对学习和使用深度学习有重要帮助。
——Philip S. Yu,伊利诺伊大学芝加哥分校讲席教授,数据挖掘权威,ACM/IEEE会士

神经网络和深度学习极大地推动了人工智能的发展。这正是一本我们需要的书,非常适合学习和参考。作者理论功底深厚、视野开阔,讲解深入浅出、覆盖全面。两位译者是数据挖掘领域的优秀青年学者,也是原书的权威翻译。
——Huan Liu,亚利桑那州州立大学教授,数据挖掘权威,ACM/IEEE/AAAI会士

Charu C. Aggarwal博士的《神经网络与深度学习》一书全面而详尽地介绍了神经网络模型的经典框架与基本原理,为有志于在深度学习领域努力耕耘的读者提供了优秀的教材。石川教授和杨成博士的翻译可以帮助国内读者越过语言障碍,更有效率地进行阅读和学习。
——孙茂松,清华大学计算机系教授、人工智能研究院常务副院长
自然语言处理领域知名专家,欧洲科学院外籍院士

工欲善其事,必先利其器。毫不夸张地说,基于神经网络的深度学习方法已经成为学术界和工业界的一件利器。这本书由数据挖掘领域的知名专家Charu博士编著,优秀青年学者石川和杨成翻译,相信它会带你深入浅出地了解这件利器的机理和战斗力,让你在工作中如虎添翼!
——王斌,小米公司自然语言处理首席科学家,信息检索和大数据知名专家

本书可作为深度学习这个集中研究领域的一个进阶基础,是作者编写的诸多教材的有价值的延续。本书采用系统而详细的写作方法,每章之后都整洁地辅以各种资源(参考文献和相关的软件、练习等),适合各个相关专业或背景的读者阅读。
——Irina Ioana Mohorianu,zbMATH 1402.68001,2019

译者序

当机械工业出版社华章分社的编辑找我翻译深度学习书籍时,我本能地拒绝了,因为太耗费时间了。但当得知是要翻译Charu C. Aggarwal的Neural Networks and Deep Learning:A Textbook,我立刻表示有兴趣。
Charu C. Aggarwal博士是数据挖掘领域天才式的大牛。当我作为访问学者于2010年在伊利诺伊大学芝加哥分校的Philip S. Yu教授那里访问的时候,就听说过不少Charu博士的神奇传说:3年从MIT博士毕业;在IBM T. J. Watson研究院的Philip S. Yu手下实习时,3个月写了3篇论文;写论文一般只写摘要和引言,后面找人做一下实验就可以了。Charu博士和Philip S. Yu教授有长期深入的合作,Yu教授的不少学生也和Charu有合作。很遗憾我没能和Charu直接合作,但在ASONAM2014于北京国际会议中心举行时,Charu博士做大会特邀报告,我有幸见到他,并进行了深入交流。虽然看起来像个腼腆纯粹的大男孩,但是Charu博士绝对是数据挖掘领域的顶尖学者。
Charu博士是IBM T. J. Watson 研究院的杰出研究员(Distinguished Research Staff Member,DRSM)。他在数据挖掘领域有深入研究,特别关注数据流、数据隐私、不确定数据和社交网络分析,并取得了杰出的成就:出版了18本著作,发表了350多篇会议和期刊论文,拥有80多项专利,H. index高达120。此外,他也获得了众多学术奖励,例如IEEE Computer Society的最高奖励W. Wallace McDowell Award和ACM SIGKDD Innovation Award(2019)。
本书是神经网络和深度学习的百科全书,既涉猎了深度神经网络的所有重要方向,也深入介绍了各类模型的技术技巧和最新进展。具体而言,本书第1~4章讲解了神经网络的基本概念与原理、浅层神经网络的经典应用、深度神经网络的训练方法与技巧等;第5~8章介绍了四类广泛使用的神经网络架构,包括经典的径向基函数(RBF)网络、受限玻尔兹曼机(RBM)、循环神经网络(RNN)、卷积神经网络(CNN);第9章和第10章介绍了深度学习的前沿方向与模型框架,如深度强化学习、注意力机制、生成对抗网络等。本书既是机器学习和深度学习的入门教材,也是学术研究和工程技术的重要参考资料。
自2019年10月起,我们便组织实验室的同学共同阅读学习该书的内容,并在每周的组会上进行讲解介绍。随后组织翻译工作,并于2020年上半年完成了翻译初稿。后经2~3轮的仔细校对、修改,最终于2020年年底完成了全书的翻译。有很多人对本书的翻译工作做出了贡献,他们是:庄远鑫、赵天宇、杨雨轩、吴文睿、贾天锐、江训强、王贞仪、王浩、刘佳玮、郝燕如、楚贯一、张舒阳、王晓磊、王春辰、许斯泳、刘念、刘佳玥。石川负责本书翻译的组织和审校工作,杨成具体负责本书的翻译和审校工作。在此,对所有为本书翻译工作做出了贡献的人员表示感谢!

图书目录

译者序
前言
致谢
作者简介
第1章神经网络概论111简介1
1.2神经网络的基本架构3
1.2.1单层计算网络:感知机3
1.2.2多层神经网络13
1.2.3多层网络即计算图15
1.3利用反向传播训练神经网络16
1.4神经网络训练中的实际问题19
1.4.1过拟合问题19
1.4.2梯度消失与梯度爆炸问题22
1.4.3收敛问题22
1.4.4局部最优和伪最优22
1.4.5计算上的挑战23
1.5复合函数的能力之谜23
1.5.1非线性激活函数的重要性25
1.5.2利用深度以减少参数26
1.5.3非常规网络架构27
1.6常见网络架构28
1.6.1浅层模型模拟基础机器学习方法28
1.6.2径向基函数网络29
1.6.3受限玻尔兹曼机29
1.6.4循环神经网络30
1.6.5卷积神经网络31
1.6.6层次特征工程与预训练模型32
1.7高级主题34
1.7.1强化学习34
1.7.2分离数据存储和计算34
1.7.3生成对抗网络35
1.8两个基准35
1.8.1MNIST手写数字数据库35
1.8.2ImageNet数据库36
1.9总结37
1.10参考资料说明37
1.101视频讲座38
1.102软件资源39
1.11练习39
第2章基于浅层神经网络的机器学习41
2.1简介41
2.2二分类模型的神经架构42
2.2.1复习感知机42
2.2.2最小二乘回归44
2.2.3逻辑回归47
2.2.4支持向量机49
2.3多分类模型的神经架构50
2.3.1多分类感知机51
2.3.2WestonWatkins支持向量机52
2.3.3多重逻辑回归(softmax分类器)53
2.3.4应用于多分类的分层softmax54
2.4反向传播可以用于特征选择和神经网络的可解释性54
2.5使用自编码器进行矩阵分解55
2.5.1自编码器的基本原则55
2.5.2非线性激活函数59
2.5.3深度自编码器60
2.5.4应用于离群点检测62
2.5.5当隐藏层比输入层维数高时63
2.5.6其他应用63
2.5.7推荐系统:行索引到行值的预测65
2.5.8讨论67
2.6word2vec:简单神经架构的应用67
2.6.1连续词袋的神经嵌入68
2.6.2skipgram模型的神经嵌入70
2.6.3word2vec(SGNS)是逻辑矩阵分解74
2.6.4原始skipgram模型是多项式矩阵分解76
2.7图嵌入的简单神经架构76
2.7.1处理任意数量的边78
2.7.2多项式模型78
2.7.3与DeepWalk和node2vec的联系78
2.8总结78
2.9参考资料说明79
2.10练习80
第3章深度神经网络的训练823.1简介82
3.2反向传播的详细讨论83
3.2.1计算图抽象中的反向传播83
3.2.2前来拯救的动态规划87
3.2.3使用激活后变量的反向传播88
3.2.4使用激活前变量的反向传播89
3.2.5不同激活函数的更新示例91
3.2.6以向量为中心的反向传播的解耦视图92
3.2.7多输出节点及隐藏节点下的损失函数94
3.2.8小批量随机梯度下降95
3.2.9用于解决共享权重的反向传播技巧96
3.2.10检查梯度计算的正确性97
3.3设置和初始化问题98
3.3.1调整超参数98
3.3.2特征预处理99
3.3.3初始化100
3.4梯度消失和梯度爆炸问题101
3.4.1对梯度比例影响的几何理解102
3.4.2部分解决:激活函数的选择103
3.4.3死亡神经元和“脑损伤”104
3.5梯度下降策略105
3.5.1学习率衰减105
3.5.2基于动量的学习106
3.5.3参数特异的学习率108
3.5.4悬崖和高阶不稳定性111
3.5.5梯度截断112
3.5.6二阶导数112
3.5.7Polyak平均118
3.5.8局部极小值和伪极小值119
3.6批归一化120
3.7加速与压缩的实用技巧123
3.7.1GPU加速123
3.7.2并行和分布式实现125
3.7.3模型压缩的算法技巧126
3.8总结128
3.9参考资料说明128
3.10练习130
第4章让深度学习器学会泛化132
4.1简介132
4.2偏差方差权衡135
4.3模型调优和评估中的泛化问题138
4.3.1用留出法和交叉验证法进行评估139
4.3.2大规模训练中的问题140
4.3.3如何检测需要收集更多的数据141
4.4基于惩罚的正则化141
4.4.1与注入噪声的联系142
4.4.2L1正则化143
4.4.3选择L1正则化还是L2正则化143
4.4.4对隐藏单元进行惩罚:学习稀疏表示144
4.5集成方法145
4.5.1装袋和下采样145
4.5.2参数模型选择和平均146
4.5.3随机连接删除146
4.5.4Dropout147
4.5.5数据扰动集成149
4.6早停149
4.7无监督预训练150
4.7.1无监督预训练的变体153
4.7.2如何进行监督预训练154
4.8继续学习与课程学习154
4.8.1继续学习155
4.8.2课程学习156
4.9共享参数156
4.10无监督应用中的正则化157
4.101基于值的惩罚:稀疏自编码器157
4.102噪声注入:去噪自编码器157
4.103基于梯度的惩罚:收缩自编码器158
4.104隐藏层概率结构:变分自编码器161
4.11总结166
4.12参考资料说明166
4.13练习168
第5章径向基函数网络169
5.1简介169
5.2RBF网络的训练171
5.2.1训练隐藏层171
5.2.2训练输出层172
5.2.3正交最小二乘算法173
5.2.4完全监督学习174
5.3RBF网络的变体和特例175
5.3.1感知机准则分类175
5.3.2铰链损失分类175
5.3.3RBF促进线性可分离性的示例176
5.3.4应用于插值177
5.4与核方法的关系177
5.4.1RBF网络的特例:核回归177
5.4.2RBF网络的特例:核SVM178
5.4.3观察179
5.5总结179
5.6参考资料说明179
5.7练习180
第6章受限玻尔兹曼机181
6.1简介181
6.2Hopfield 网络 182
6.2.1训练网络的最优状态配置183
6.2.2训练Hopfield网络184
6.2.3推荐器的构建及其局限性185
6.2.4提高Hopfield网络的表达能力186
6.3玻尔兹曼机187
6.3.1玻尔兹曼机如何生成数据188
6.3.2学习玻尔兹曼机的权重188
6.4RBM的原理189
6.4.1训练RBM191
6.4.2对比发散算法192
6.4.3实际问题和即兴性193
6.5RBM的应用193
6.5.1降维和数据重构194
6.5.2使用RBM进行协同过滤196
6.5.3使用RBM进行分类198
6.5.4使用RBM建立主题模型201
6.5.5使用RBM进行多模态数据的机器学习202
6.6在二元数据类型之外使用RBM203
6.7堆叠式RBM204
6.7.1无监督学习206
6.7.2监督学习206
6.7.3深度玻尔兹曼机和深度信念网络206
6.8总结207
6.9参考资料说明207
6.10练习208
第7章循环神经网络210
7.1简介210
7.2循环神经网络的架构212
7.2.1RNN语言建模实例214
7.2.2时间反向传播216
7.2.3双向循环神经网络218
7.2.4多层循环神经网络220
7.3训练循环神经网络的挑战221
7.4回声状态网络224
7.5长短期记忆网络226
7.6门控循环单元228
7.7循环神经网络的应用229
7.7.1应用于自动图像描述230
7.7.2序列到序列的学习和机器翻译231
7.7.3应用于句子级别分类234
7.7.4利用语言特征进行词级别分类235
7.7.5时间序列预测236
7.7.6时序推荐系统237
7.7.7蛋白质二级结构预测239
7.7.8端到端语音识别239
7.7.9手写识别239
7.8总结240
7.9参考资料说明240
7.10练习241
第8章卷积神经网络243
8.1简介243
8.1.1历史观点和生物启发243
8.1.2卷积神经网络的广义发现244
8.2卷积神经网络的基本结构245
8.2.1填充248
8.2.2步长249
8.2.3典型设置250
8.2.4ReLU层250
8.2.5池化251
8.2.6全连接层252
8.2.7层与层之间的交织253
8.2.8局部响应归一化254
8.2.9层次特征工程255
8.3训练一个卷积网络256
8.3.1通过卷积反向传播256
8.3.2通过反转/转置滤波器的卷积进行反向传播257
8.3.3通过矩阵乘法进行卷积/反向传播258
8.3.4数据增强259
8.4卷积架构的案例研究260
8.4.1AlexNet260
8.4.2ZFNet262
8.4.3VGG263
8.4.4GoogLeNet266
8.4.5ResNet267
8.4.6深度的影响270
8.4.7预训练模型270
8.5可视化与无监督学习271
8.5.1可视化训练网络的特征272
8.5.2卷积自编码器276
8.6卷积网络的应用280
8.6.1基于内容的图像检索280
8.6.2对象定位280
8.6.3对象检测281
8.6.4自然语言和序列学习282
8.6.5视频分类283
8.7总结283
8.8参考资料说明283
8.9练习286
第9章深度强化学习287
9.1简介287
9.2无状态算法:多臂老虎机288
9.2.1朴素算法289
9.2.2ε贪婪算法289
9.2.3上界方法289
9.3强化学习的基本框架290
9.3.1强化学习中的挑战291
9.3.2用于井字棋的简单强化学习292
9.3.3深度学习的作用和稻草人算法292
9.4用于学习价值函数的自举算法294
9.4.1深度学习模型:函数逼近器295
9.4.2实例:用于Atari设置的神经网络297
9.4.3同步策略与异步策略方法:SARSA298
9.4.4模型状态与状态动作对299
9.5策略梯度方法301
9.5.1有限差分方法302
9.5.2似然比方法302
9.5.3策略梯度与监督学习的结合304
9.5.4行动者评价者方法304
9.5.5连续动作空间305
9.5.6策略梯度的优缺点306
9.6蒙特卡洛树搜索306
9.7案例研究308
9.7.1AlphaGo:冠军级别的围棋选手308
9.7.2自主学习机器人311
9.7.3建立会话系统:面向聊天机器人的深度学习314
9.7.4自动驾驶汽车316
9.7.5利用强化学习推断神经架构317
9.8与安全相关的实际挑战318
9.9总结319
9.10参考资料说明319
9.11练习321
第10章深度学习的前沿主题322
10.1简介322
10.2注意力机制323
10.2.1视觉注意力循环模型324
10.2.2注意力机制用于机器翻译327
10.3具有外部存储的神经网络329
10.3.1一个假想的视频游戏:基于样本的排序330
10.3.2神经图灵机331
10.3.3可微神经计算机:简要概述336
10.4生成对抗网络337
10.4.1训练生成对抗网络338
10.4.2与变分自编码器比较340
10.4.3用GAN生成图像数据340
10.4.4条件生成对抗网络342
10.5竞争学习345
10.5.1矢量量化346
10.5.2Kohonen自组织映射346
10.6神经网络的局限性349
10.6.1一个理想的目标:单样本学习349
10.6.2一个理想的目标:节能学习350
10.7总结351
10.8参考资料说明352
10.9练习353
参考文献354
术语表388

教学资源推荐
作者: [美] 杰瑞米·瓦特(Jeremy Watt) 雷萨·博哈尼(Reza Borhani) 阿格洛斯·K.卡萨格罗斯(Aggelos K. Katsaggelos) 著
作者: [美] 梅尔亚·莫里(Mehryar Mohri) 阿夫欣·罗斯塔米扎达尔(Afshin Rostamizadeh) 阿米特·塔尔沃卡尔(Ameet Talwalkar) 著
作者: 赵涓涓 强彦 主编
作者: [日]杉山将(Masashi Sugiyama) 著
参考读物推荐
作者: 星环科技人工智能平台团队 编著
作者: [爱尔兰]约翰·D.凯莱赫(John D. Kelleher) 著