参考读物 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 192

开本 : 16

原书名 : 无

原出版社: 无

属性分类: 店面

包含CD : 无CD

绝版 : 未绝版

图书简介

本书以理论和实践相结合的形式深入浅出地介绍强化学习的历史、基本概念、经典算法和一些前沿技术，共分为三大部分：第一部分（1～5章）介绍强化学习的发展历史、强化学习的基本概念以及一些经典的强化学习算法；第二部分（6～9章）在简要回顾深度学习技术的基础上着重介绍深度强化学习的一些前沿实用算法；第三部分（最后一章）以五子棋为例详细讲解战胜了人类顶级围棋选手的Alpha Zero算法的核心思想。

图书特色

Alpha ZeroPython·深入浅出地讲解强化学习的基本理论
·利用　　　　　　语言手把手教你实现强化学习算法
·全面剖析战胜人类顶尖围棋手的　　　　　　　　　　算法

图书前言

　　2017年，DeepMind公司开发的AlphaGo人工智能围棋博弈软件的升级版Master战胜了围棋世界冠军，引起了不小的轰动。AlphaGo的巨大成功主要得益于它的实现是基于人工智能的“强化学习”原理，通过神经网络模拟了人类的学习过程并充分发挥了现代计算机的强大计算性能。强化学习是什么，何以如此强大？带着这个问题，我翻阅了相关学术文献和一些介绍强化学习的书籍，并认真观看了DeepMind在网络上发布的一套关于强化学习的公开课视频，经过一段时间的摸索，我较为系统地掌握了强化学习的工作原理和经典算法，并编写代码实现了其中的主要算法。为了进一步巩固和加深自己对强化学习的理解，我不断和其他学习者进行学术交流，并陆续把自己的学习体会整理后发表在知乎的一个专栏上，与大家分享。
　　随后有不少出版社联系我商谈出版事宜，我深感自己水平有限，均婉拒之。后来我有幸就读于蒙特利尔大学计算机学院人工智能专业，对强化学习、深度学习等的理论和实践有了较为深入的理解。考虑到市面上介绍强化学习入门的书较少，于是在机械工业出版社编辑的诚挚邀请下，我答应将自己的学习体会整理成书。由于自己才疏学浅，我特邀上海交通大学闫维新教授对全文进行了审改，并请他编写了最后一章。
　　本书以理论和实践相结合的形式深入浅出地介绍强化学习的历史、基本概念、经典算法和一些前沿技术，共分为三大部分：第一部分（第1～5章）介绍强化学习的发展历史、基本概念以及一些经典的强化学习算法；第二部分（第6～9章）在简要回顾深度学习技术的基础上着重介绍深度强化学习的一些前沿实用算法；第三部分（第10章）以五子棋为例详细讲解战胜了人类顶级围棋选手的Alpha Zero算法的核心思想。为了便于读者学习，本书的每一章都先介绍相关理论以及算法原理，随后通过精心编写的Python示例程序来实现算法、验证理论，让读者能够从理论文字、数学公式、示例代码三个方面综合理解强化学习。
　　本书涉及的源代码文件既可以通过https://github.com/qqiang00/reinforce/tree/master/reinforce/ codes_for_book下载，也可以从机工新阅读网站（www.cmpreading.com）下载（搜索到本书以后单击“资料下载”按钮，即可在本书页面上的“扩展资源”模块找到配书资源下载链接）。若下载有问题，请发送电子邮件到booksaga@126.com，邮件主题为“强化学习入门：从原理到实践”。
　　本书既可作为计算机专业高年级本科生及硕士生关于人工智能领域的入门参考读物，也可供对人工智能技术特别是强化学习技术感兴趣的读者借鉴参考。限于作者的水平，书中难免有因理解不准确而表述不到位的地方，恳请业内专家指正，先表谢意！
　　
　　叶强
　　2020年5月23日

上架指导

计算机\人工智能

封底文字

“非常感谢作者，作者的笔记真是常读常新！”——桃李墙
“你的学习笔记讲解得比市面上大多数RL的图书都要清晰，作为一个初学者真的受益匪浅，很感谢！”——派森
“感谢楼主的无私分享，看了你的笔记，结合Sutton的书，最后看David Silver的视频，简直太好了。”——飞机上的鲸鱼
“这个笔记真的超棒，上课没听懂的现在都明白了，真的非常感谢！！！” ——亦非紫
“感谢！参考你的代码，自己又实现了一遍，感觉很棒！”——拓荒者1号
“这个通用的格子世界太好用啦！总算有一个相对标准的模板让我对强化学习有个初步的概念，对照着敲完了你的前五个实例代码，看着小的Demo一个个地跑起来，特别有成就感！特别感谢你的分享......”——谢正华
“写得很棒，以前不理解基准函数为什么期望为0，现在终于明白了......”——知乎用户

图书目录

　　前言
　　致谢
　　常用数学符号
　　主要算法列表
第1章概述 1
1.1 强化学习的历史 1
1.2 强化学习的基本概念 2
1.3 章节组织 6
1.4 编程环境与代码资源 6
第2章从一个示例到马尔可夫决策过程 7
2.1 马尔可夫过程 7
2.2 马尔可夫奖励过程 9
2.3 马尔可夫决策过程 13
2.4 编程实践：学生马尔可夫决策示例 20
2.4.1 收获和价值的计算 20
2.4.2 验证贝尔曼方程 22
第3章动态规划寻找最优策略 29
3.1 策略评估 29
3.2 策略迭代 32
3.3 价值迭代 33
3.4 异步动态规划算法 36
3.5 编程实践：动态规划求解小型格子世界最优策略 37
3.5.1 小型格子世界MDP建模 37
3.5.2 策略评估 40
3.5.3 策略迭代 41
3.5.4 价值迭代 41
第4章不基于模型的预测 43
4.1 蒙特卡罗强化学习 43
4.2 时序差分强化学习 45
4.3 n步时序差分学习 50
4.4 编程实践：蒙特卡罗学习评估21点游戏的玩家策略 54
4.4.1 21点游戏规则 54
4.4.2 将21点游戏建模为强化学习问题 55
4.4.3 游戏场景的搭建 55
4.4.4 生成对局数据 64
4.4.5 策略评估 64
第5章无模型的控制 67
5.1 行为价值函数的重要性 67
5.2 ?贪婪策略 68
5.3 同策略蒙特卡罗控制 69
5.4 同策略时序差分控制 70
5.4.1 Sarsa算法 70
5.4.2 Sarsa(λ)算法 73
5.4.3 比较Sarsa和Sarsa(λ) 74
5.5 异策略Q学习算法 76
5.6 编程实践：蒙特卡罗学习求解21点游戏的最优策略 78
5.7 编程实践：构建基于gym的有风的格子世界及个体 81
5.7.1 gym库简介 81
5.7.2 状态序列的管理 83
5.7.3 个体基类的编写 84
5.8 编程实践：各类学习算法的实现及与有风的格子世界的交互 88
5.8.1 Sarsa算法 89
5.8.2 Sarsa(λ)算法 90
5.8.3 Q学习算法 91
第6章价值函数的近似表示 93
6.1 价值近似的意义 93
6.2 目标函数与梯度下降 95
6.2.1 目标函数 95
6.2.2 梯度和梯度下降 97
6.3 常用的近似价值函数 100
6.3.1 线性近似 101
6.3.2 神经网络 101
6.3.3 卷积神经网络近似 104
6.4 DQN算法 108
6.5 编程实践：基于PyTorch实现DQN求解PuckWorld问题 109
6.5.1 基于神经网络的近似价值函数 110
6.5.2 实现DQN求解PuckWorld问题 113
第7章基于策略梯度的深度强化学习 117
7.1 基于策略学习的意义 117
7.2 策略目标函数 119
7.3 Actor-Critic算法 121
7.4 深度确定性策略梯度算法 124
7.5 编程实践：DDPG算法实现 125
7.5.1 连续行为空间的PuckWorld环境 125
7.5.2 Actor-Critic网络的实现 127
7.5.3 确定性策略下探索的实现 130
7.5.4 DDPG算法的实现 130
7.5.5 DDPG算法在PuckWorld环境中的表现 135
第8章基于模型的学习和规划 137
8.1 环境的模型 137
8.2 整合学习与规划——Dyna算法 139
8.3 基于模拟的搜索 140
8.3.1 简单蒙特卡罗搜索 140
8.3.2 蒙特卡罗树搜索 141
第9章探索与利用 143
9.1 多臂游戏机 143
9.2 常用的探索方法 145
9.2.1 衰减的?贪婪探索 145
9.2.2 不确定行为优先探索 146
9.2.3 基于信息价值的探索 149
第10章 Alpha Zero算法实战 151
10.1 自博弈中的蒙特卡罗树搜索 154
10.2 模型评估中的蒙特卡罗搜索 156
10.3 策略价值网络结构及策略提升 160
10.4 编程实践：Alpha Zero算法在五子棋上的实现 161
10.4.1 从零开始搭建棋盘环境 161
10.4.2 搭建两种MCTS以实现Alpha
Zero自博弈与模型评估 168
10.4.3 搭建策略价值网络并进行策略提升 177
10.4.4 训练自己的Alpha Zero
模型 182
参考文献 184