首页>参考读物>计算机科学与技术>人工智能

深度强化学习:学术前沿与实战应用(英文书名:Deep Reinforcement Learning: Research Frontiers and Practical Applications)
作者 : 刘驰 王占健 戴子彭 等编著
出版日期 : 2020-03-05
ISBN : 978-7-111-64664-8
定价 : 99.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 : 387
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

着重介绍深度强化学习的学术界前沿进展与核心代码分析的书籍。对深度强化学习方面的重要学术进展按照单智能体深度强化学习、多智能体深度强化学习、多任务深度强化学习三个方向梳理,介绍其核心算法,以及算法的代码实现示例。

图书特色

图书前言

随着计算设备算力的不断提升和可用数据量的持续积累,基于大数据的机器学习(Machine Learning)方法近年来得到了空前的发展,且可以预见在一段时间内还将继续飞速发展。机器学习的突出成就离不开深度学习(Deep Learning)。深度神经网络的出现,使得原始图像、视频和自然语言等数据源可作为输入和输出,从而为诸多复杂问题提供了强大的解决方案。基于深度学习的人工智能产品也正在快速渗入和改变着我们的日常生活,如人脸识别、购物网站的个性化推荐、无人驾驶等。此外,机器翻译、自主决策、目标跟踪及一系列技术成果也在医疗、教育和网络安全等重要领域得到了实质性的应用。
强化学习(Reinforcement Learning),又称再励学习、评价学习,是机器学习的一个重要分支,传统上主要用于解决与环境交互过程中的自主决策和自动控制问题,通过不断改善智能体自身的行为,学得最优的行动策略。广义上说,任何有“决策”的任务都可以使用强化学习方法,比如无人驾驶、机器人控制、游戏竞技等,但也不限于此,比如个性化推荐算法、网络传输等非控制领域也可以使用强化学习方法。近年来,最著名的强化学习应用当属AlphaGo围棋,其学得的策略所表现出的控制/决策能力已经达到甚至超过了人类顶级水平,其中使用了深度强化学习(Deep Reinforcement Learning)。深度强化学习是强化学习的重要发展,是指采用深度神经网络作为模型的强化学习方法。它的起源很早,但著名的案例是Google DeepMind在2013年NIPS研讨会上发表的DQN(Deep Q Network)方法,该方法在多款Atari游戏中取得了不俗的表现。之后,深度强化学习的发展便一发不可收拾,学术界和工业界均大力推动其发展。本书重点讲解深度强化学习近年来的重要进展及其典型应用场景。
本书共分为四篇,即深度强化学习、多智能体深度强化学习、多任务深度强化学习和深度强化学习的应用,内容由浅入深、通俗易懂,涵盖近几年最经典、最前沿的技术进展。特别是书中详细介绍了每一种算法的代码原型实现,做到了理论与实践相结合,让读者学有所得、学有所用。
第一篇主要讲解深度强化学习基础,侧重于单智能体强化学习算法,相对简单,有助于初级读者理解。本篇包含第1~3章,从基础到算法,分类清晰。
第1章主要讲解强化学习的发展历史、基本概念及一些相关的基础知识,以帮助读者对强化学习有一个全面的了解和认知,也为本书后面的重点章节提供基础性的知识铺垫。
第2章侧重于讲解基于单智能体的深度强化学习算法,涵盖了DQN、DDPG、Rainbow等典型算法,以及最新的研究成果,如基于模型、基于分层的深度强化学习算法等。
第3章提供了一些分布式深度强化学习方法,以适应分布式计算的情况,有助于缩短模型的训练时间和进行大规模任务的计算。
第二篇主要侧重于对多智能体深度强化学习的讲解,承接上一篇的单智能体环境,本篇将问题复杂化,扩大到多智能体的情况。本篇包含第4章和第5章,从多智能体强化学习基本概念到相关算法的讲解、分析,以多个极具代表性的算法为例带领读者逐步学习多智能体训练和控制的理论与方法。此外,还为读者提供了当下多智能体强化学习领域最前沿的一些学术成果,紧跟发展潮流。
第4章主要讲解多智能体的基本概念及相关的背景知识,以帮助读者更好地进入多智能体世界。
第5章按类别讲解大量多智能体强化学习算法,从基于值函数的算法到基于策略的算法,再到基于AC框架的算法,应有尽有。本章囊括了当下大部分经典和前沿研究,让读者在掌握经典知识的同时也能够把握最新的发展方向。
第三篇再一次将问题复杂化,扩大到多任务的情况,也称为多任务深度强化学习。与多智能体强化学习明显不同,多任务强化学习既可以是单智能体多任务的情况,也可以是多智能体多任务的情况,因此情况变得更为复杂了。结构如同第二篇,本篇依然是首先介绍多任务强化学习的基本概念和相关基础知识(第6章),随后讲解部分经典的多任务强化学习算法(第7章)。由于多任务强化学习依然是较为前沿的研究方向,所以本篇的算法相对少一些。
第6章主要介绍多任务强化学习的基本概念和相关知识,让读者对其有一个详细的了解和认知,以帮助读者顺利地步入多任务深度强化学习场景。
第7章主要讲解4个多任务强化学习算法、框架,这些方法大都源自DeepMind团队,代表着多任务强化学习领域最为经典和前沿的工作。
第四篇包括第8~11章,主要讲解强化学习特别是深度强化学习的一些实际应用,涉及游戏、机器人控制、计算机视觉和自然语言处理四大领域。本篇侧重于讲解深度强化学习方法在其他领域应用的思想和方法,培养读者跨领域解决问题的能力,以帮助读者熟练掌握和使用深度强化学习这个强大的方法去解决、优化其他领域中的一些实际问题。
第8章给出深度强化学习方法在游戏领域的应用,这也是一个极有意思的领域,例如,DQN的代表作就是玩Atari游戏,并且超越了人类顶级玩家。本章重点讲解如何把游戏场景建模为强化学习问题,以及训练模型自动玩Atari游戏的核心过程和相关代码。
第9章主要给出深度强化学习算法在机器人控制领域的应用实例,包括无地图导航、视觉导航、机器人足球等,侧重于讲解仿真环境中机器人控制问题的分析、建模和实践性解决方案。
第10章给出强化学习与计算机视觉领域相结合的例子,分析了将深度强化学习技术应用于图像、视频的详细过程,例如,图像字幕、图像恢复、视频快进和视觉跟踪等。
第11章则讲解深度强化学习应用于自然语言处理方面的实例,如对话机器人、情感–情感翻译和远程监督关系提取等。深度强化学习与自然语言的结合目前还是较为前沿的研究方向,还有许多领域相关问题读者也可以亲自尝试着去解决。
本书的编撰人员包括:刘驰、王占健、戴子彭、马晓鑫、朴成哲、林秋霞、赵一诺、赵映、李世林、刘文鼎。
深度强化学习技术发展迅速,属于当下最热门的前沿技术之一。因作者能力、水平有限,书中难免出现不足与谬误之处,还请读者多多包涵,同时也恳请读者给予批评指正,不胜感激。

上架指导

计算机/人工智能/深度学习与神经网络

封底文字

深度强化学习(Deep Reinforcement Learning)是近年来飞速发展的一门人工智能领域的前沿技术,是机器学习(Machine Learning)的一个重要分支。借助于深度学习(Deep Learning)对复杂环境和状态的有效建模与刻画,强化学习发展成为深度强化学习,并在游戏、控制、计算机视觉、自然语言处理、数据分析等诸多领域取得了显著的效果,甚至在部分领域已经超过人类水平。深度强化学习的标志性成果是Google DeepMind在2013年NIPS(现改名为NeurIPS)会议上发表的论文“用深度强化学习玩Atari游戏”中提出的深度Q网络(Deep Q Network,DQN)。之后,在离散动作空间与连续动作空间、单智能体与多智能体、集中式训练与分布式训练、单任务与多任务以及场景迁移等多方面,以DeepMind和OpenAI为代表的工业界以及学术界在NeurIPS、ICML、ICLR、AAAI等顶级国际会议上发表了系列高水平论文,推动了深度强化学习技术的长足进步,并在工业界已有诸多应用,如无人机控制、自动驾驶和军事环境中的智能对抗等。


本书特色:
前沿经典综述:深度强化学习近年来发展迅速,本书详细讲述了近五年来深度强化学习领域的重要学术成果,涵盖了新的算法和理论、工程实现和应用描述,是具有较强的学术性和领域实践性的佳作。
理论结合实践:提供大量关键工程代码供读者参考,书中对代码进行了逐行深入分析与解读,以帮助读者在学习理论的同时掌握实践的方法。
领域应用分析:给出深度强化学习在游戏、机器人控制、计算机视觉和自然语言处理四大领域的实践应用,包含Atari游戏、足球机器人、机器人视觉导航、图像字幕、视觉跟踪、智能对话等多领域的新探索。

作者简介

刘驰 王占健 戴子彭 等编著:刘驰,北京理工大学计算机学院副院长、教授、博士生导师,英国工程技术学会会士(IET Fellow),IEEE高级会员(IEEE Senior Member)。分别于清华大学和英国帝国理工学院获得学士和博士学位,曾任美国IBM T.J. Watson研究中心和IBM中国研究院研究主管,并在德国电信研究总院(柏林)任博士后研究员。研究方向为大数据与物联网技术。主持了国家自然科学基金、国家重点研发计划课题、工信部、教育部、装发预研等20余省部级研究项目。共发表SCI/EI论文百余篇,其中ESI高被引论文2篇、CCF-A类论文20余篇,授权国内外发明专利14项,编写书籍9本,Google Scholar索引3500余次,H index为28。现任国家自然科学基金会评专家、科技部重点研发计划会评专家、教育部科技奖评审专家、全国信标委技术委员会委员、中国电子学会理事、中国计算机学会青工委委员、中国计算机学会物联网/大数据/普适计算专委会委员、中国电子学会物联网专委会委员/副秘书长、中国自动化学会大数据专委会委员、中国通信学会物联网专委会委员等;以及IEEE Transactions on Network Science and Engineering编委、IEEE ICC 2020 Symposium Chair for Next Generation Networking。入选了国家人社部“高层次留学人才回国资助计划”、中国科协“青年人才托举工程”、陕西省第八批“百人计划(短期项目)”、中国产学研合作促进奖、中国电子学会优秀科技工作者、国家“十二五”轻工业科技创新先进个人、2017年中国物联网年度人物等。并获得省部级一等奖1项、二等奖1项、三等奖1项。

图书目录

前言
致谢
数学符号
第一篇 深度强化学习
第1章 深度强化学习基础 2
1.1 强化学习 2
1.1.1 强化学习的发展历史 2
1.1.2 强化学习简介 4
1.1.3 深度强化学习简介 6
1.2 马尔可夫属性和决策过程 9
1.2.1 马尔可夫属性 9
1.2.2 马尔可夫决策过程 11
1.3 强化学习核心概念 12
1.3.1 值函数 12
1.3.2 动态规划 14
1.3.3 时间(序)差分 15
1.3.4 策略梯度 16
1.3.5 actor-critic方法 17
1.4 Q-learning 18
1.4.1 Q-learning简介 18
1.4.2 算法 19
1.4.3 相关变量及影响 20
1.4.4 实现方法 21
第2章 深度强化学习算法 22
2.1 基于值的深度强化学习算法 22
2.1.1 深度Q网络 22
2.1.2 深度双Q网络 27
2.1.3 竞争网络架构 31
2.1.4 平均值DQN 33
2.1.5 多DQN变种结合体:Rainbow 37
2.1.6 基于动作排除的DQN 42
2.2 基于策略的深度强化学习算法 46
2.2.1 循环确定性策略梯度 46
2.2.2 深度确定性策略梯度 55
2.2.3 信赖域策略优化 62
2.2.4 近端策略优化 68
2.3 基于模型的深度强化学习算法 73
2.3.1 基于模型加速的连续深度Q-learning 73
2.3.2 范例模型探索 80
2.3.3 基于模型集成的信赖域策略优化 88
2.3.4 时间差分模型 95
2.4 基于分层的深度强化学习算法 102
2.4.1 分层深度强化学习 102
2.4.2 基于封建网络的分层强化学习 109
2.4.3 基于随机神经网络的分层强化学习 116
第3章 分布式深度强化学习 123
3.1 分布式系统 123
3.1.1 分布式系统简介 123
3.1.2 分布式系统的发展历史 124
3.1.3 架构演进 125
3.1.4 主流分布式系统框架 128
3.2 分布式深度强化学习算法 129
3.2.1 分布式近端策略优化 129
3.2.2 分布式深度确定性策略梯度 138
3.3 分布式深度强化学习框架 145
3.3.1 重要性加权Actor-Learner架构 145
3.3.2 分布式优先经验复用池 153
第二篇 多智能体深度强化学习
第4章 多智能体深度强化学习基础 162
4.1 多智能体强化学习 162
4.1.1 多智能体强化学习发展历史 162
4.1.2 多智能体强化学习简介 164
4.1.3 优势和挑战 166
4.2 部分可见马尔可夫决策过程 166
4.2.1 POMDP模型 166
4.2.2 POMDP相关研究 169
4.2.3 POMDP应用领域 170
第5章 多智能体深度强化学习算法 171
5.1 基于值函数的多智能体深度强化学习 171
5.1.1 基于DQN的多智能体网络 171
5.1.2 增强智能体间学习 174
5.1.3 协同多智能体学习的价值分解网络 178
5.1.4 多智能体深度强化学习的稳定经验复用池 182
5.1.5 单调值函数分解 187
5.1.6 深度强化学习中的对立智能体建模 190
5.1.7 平均场多智能体强化学习 193
5.2 基于策略的多智能体深度强化学习 197
5.2.1 基于自身策略的其他智能体行为预测 197
5.2.2 双重平均方案 201
5.2.3 多智能体深度强化学习的统一博弈论方法 208
5.3 基于AC框架的多智能体深度强化学习 212
5.3.1 多智能体深度确定性策略梯度 212
5.3.2 多智能体集中规划的价值函数策略梯度 220
5.3.3 多智能体系统的策略表示学习 227
5.3.4 部分可观察环境下的多智能体策略优化 231
5.3.5 基于联网智能体的完全去中心化MARL 236
第三篇 多任务深度强化学习
第6章 多任务深度强化学习基础 244
6.1 简介 244
6.1.1 理论概述 244
6.1.2 面临的挑战 247
6.2 策略蒸馏法 248
第7章 多任务深度强化学习算法 253
7.1 无监督强化与辅助学习 253
7.1.1 算法介绍 253
7.1.2 算法分析 255
7.1.3 使用场景与优势分析 261
7.2 使用渐进式神经网络解决任务的复杂序列 262
7.2.1 算法介绍 262
7.2.2 算法分析 262
7.2.3 使用场景与优势分析 266
7.3 基于单智能体的多任务共享模型 267
7.3.1 算法介绍 267
7.3.2 算法分析 268
7.3.3 使用场景与优势分析 272
7.4 使用PopArt归一化多任务更新幅度 273
7.4.1 算法介绍 273
7.4.2 算法分析 274
7.4.3 使用场景与优势分析 276
第四篇 深度强化学习的应用
第8章 游戏 278
8.1 Gym Retro游戏平台 278
8.1.1 平台简介 278
8.1.2 安装Gym Retro平台 281
8.1.3 安装Retro UI 282
8.1.4 Gym Retro主要函数说明 283
8.2 相关应用 285
8.2.1 Pong游戏 285
8.2.2 CartPole 291
8.2.3 Flappy Bird 298
8.2.4 Gradius 302
第9章 机器人控制 312
9.1 机器人导航 312
9.1.1 无地图导航 312
9.1.2 社会感知机器人导航 316
9.2 路径规划 321
9.3 机器人视觉 324
第10章 计算机视觉 327
10.1 图像 327
10.1.1 图像字幕 327
10.1.2 图像恢复 332
10.2 视频 337
10.2.1 视频字幕 337
10.2.2 视频快进 345
10.2.3 视觉跟踪 348
第11章 自然语言处理 354
11.1 与知识库交互的多轮对话智能体 354
11.1.1 概率KB查找 355
11.1.2 端到端KB-InfoBot 356
11.1.3 总结 359
11.2 鲁棒远程监督关系提取 359
11.2.1 问题表述 360
11.2.2 使用基于策略的智能体重新分配训练数据集 363
11.2.3 总结 363
11.3 非成对情感–情感翻译 363
11.3.1 问题表述 363
11.3.2 训练算法 366
11.3.3 总结 367
缩写参照表 368
常用词中英文对照 371
参考文献 374

教学资源推荐
作者: [美] 凯文·M.林奇(Kevin M.Lynch)[韩] 朴钟宇(Frank C.Park)著
作者: [美]米凯尔·J. 科申德弗(Mykel J. Kochenderfer) 蒂姆·A. 惠勒(Tim A. Wheeler) 著
作者: [英] 麦克·威尔逊(Mike Wilson)著
参考读物推荐