首页>参考读物>计算机科学与技术>人工智能

强化学习:原理与Python实战
作者 : 肖智清 著
出版日期 : 2023-07-21
ISBN : 978-7-111-72891-7
定价 : 129.00元
扩展资源下载
扩展信息
语种 : 简体中文
页数 :
开本 : 16
原书名 :
原出版社:
属性分类: 店面
包含CD : 无CD
绝版 : 未绝版
图书简介

全书分为三个部分:
?第1章:从零开始介绍强化学习的背景知识,介绍环境库Gym的使用。
?第2~15章:基于折扣奖励离散时间Markov决策过程模型,介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论,进而在理论的基础上讲解算法,并为算法提供配套代码实现。基础理论的讲解突出主干部分,算法讲解全面覆盖主流的强化学习算法,包括经典的非深度强化学习算法和近年流行的强化学习算法。Python实现和算法讲解一一对应,对于深度强化学习算法还给出了基于TensorFlow 2和PyTorch 1的对照实现。
?第16章:介绍其他强化学习模型,包括平均奖励模型、连续时间模型、非齐次模型,半Markov模型、部分可观测模型等,以便更好了解强化学习研究的全貌。

图书特色

理论完备,涵盖强化学习主干理论与常见算法,带你参透ChatGPT技术要点
实战丰富,每章都有编程案例,提供深度强化学习的TensorFlow和PyTorch对照实现

上架指导

计算机\人工智能

封底文字

强化学习是一个重要的机器学习领域,它在游戏、金融、工业、聊天机器人等领域发挥着重要作用。本书介绍强化学习的主流理论和算法,带领人工智能领域专业人士全面系统地掌握强化学习知识。

本书亮点:
1)内容完备:完整地介绍了主流强化学习理论,全面覆盖主流强化学习算法,包括资格迹等经典算法和MuZero等深度强化学习算法,且给出主要定理的证明过程。
2)表述一致:全书采用了统一的数学符号,并兼容主流强化学习教程。
3)配套丰富:每章都配有知识点总结、代码和习题。
4)环境全面:既有Gym的内置环境,也有在Gym基础上进一步扩展的第三方环境,还带领读者一起实现了自定义的环境。
5)兼容广泛:所有代码均可在Windows、macOS、Linux上运行,提供安装和配置方法。同时,为深度强化学习相关算法提供了TensorFlow和PyTorch的对照实现代码。
6)运行容易:所有代码均可在没有GPU的个人计算机上运行,也可以在线查阅运行结果。

作者简介

肖智清 著:肖智清(加照片)
强化学习一线研发人员,清华大学工学博士。在国内外出版多本人工智能专著,在知名期刊和会议上发表多篇第一作者论文。他是开源项目Gym的源码贡献者,并在国内外多项程序设计和数据科学竞赛上获得冠军。

图书目录

《强化学习:原理、Python实战》目录

1. 初识强化学习
1.1. 强化学习及其关键元素
1.2. 强化学习的应用
1.3. 智能体/环境接口
1.4. 强化学习的分类
1.4.1. 按任务分类
1.4.2. 按算法分类
1.5. 强化学习的性能指标
1.6. 案例:基于Gym库的智能体/环境接口
1.6.1. 安装Gym库
1.6.2. 使用Gym库
1.6.3. 小车上山
1.7. 本章小结
1.8. 练习题
1.8.1. 单选题
1.8.2. 编程练习
1.8.3. 模拟面试
2. Markov决策过程
2.1. Markov决策过程模型
2.1.1. 离散时间Markov决策过程
2.1.2. 环境与动力
2.1.3. 策略
2.1.4. 带折扣的回报
2.2. 价值
2.2.1. 价值的定义
2.2.2. 价值的性质
2.2.3. 策略的偏序和改进
2.3. 带折扣的分布
2.3.1. 带折扣的分布的定义
2.3.2. 带折扣的分布的性质
2.3.3. 带折扣的分布和策略的等价性
2.3.4. 带折扣的分布下的期望
2.4. 最优策略与最优价值
2.4.1. 从最优策略到最优价值
2.4.2. 最优策略的存在性
2.4.3. 最优价值的性质与Bellman最优方程
2.4.4. 线性规划法求解最优价值
2.4.5. 用最优价值求解最优策略
2.5. 案例:悬崖寻路
2.5.1. 使用环境
2.5.2. 求解策略价值
2.5.3. 求解最优价值
2.5.4. 求解最优策略
2.6. 本章小结
2.7. 练习题
2.7.1. 单选题
2.7.2. 编程练习
2.7.3. 模拟面试
3. 有模型数值迭代
3.1. Bellman算子及其性质
3.2. 有模型策略迭代
3.2.1. 策略评估
3.2.2. 策略改进
3.2.3. 策略迭代
3.3. 价值迭代
3.4. 自益与动态规划
3.5. 案例:冰面滑行
3.5.1. 使用环境
3.5.2. 有模型策略迭代求解
3.5.3. 有模型价值迭代求解
3.6. 本章小结
3.7. 练习题
3.7.1. 单选题
3.7.2. 编程练习
3.7.3. 模拟面试
4. 回合更新价值迭代
4.1. 同策回合更新
4.1.1. 同策回合更新策略评估
4.1.2. 带起始探索的同策回合更新
4.1.3. 基于柔性策略的同策回合更新
4.2. 异策回合更新
4.2.1. 重要性采样
4.2.2. 异策回合更新策略评估
4.2.3. 异策回合更新最优策略求解
4.3. 实验:21点游戏
4.3.1. 使用环境
4.3.2. 同策策略评估
4.3.3. 同策最优策略求解
4.3.4. 异策策略评估
4.3.5. 异策最优策略求解
4.4. 本章小结
4.5. 练习题
4.5.1. 单选题
4.5.2. 编程练习
4.5.3. 模拟面试
5. 时序差分价值迭代
5.1. 时序差分目标
5.2. 同策时序差分更新
5.2.1. 时序差分更新策略评估
5.2.2. SARSA算法
5.2.3. 期望SARSA算法
5.3. 异策时序差分更新
5.3.1. 基于重要性采样的异策算法
5.3.2. Q学习
5.3.3. 双重Q学习
5.4. 资格迹
5.4.1. λ回报
5.5. 案例:的士调度
5.5.1. 使用环境
5.5.2. 同策时序差分学习
5.5.3. 异策时序差分学习
5.5.4. 资格迹学习
5.6. 本章小结
5.7. 练习题
5.7.1. 单选题
5.7.2. 编程练习
5.7.3. 模拟面试
6. 函数近似方法
6.1. 函数近似原理
6.2. 基于梯度的参数更新
6.2.1. 随机梯度下降
6.2.2. 半梯度下降
6.2.3. 带资格迹的半梯度下降
6.3. 函数近似的收敛性
6.3.1. 收敛的条件
6.3.2. Baird反例
6.4. 深度Q网络
6.4.1. 经验回放
6.4.2. 目标网络
6.4.3. 双重深度Q网络
6.4.4. 决斗深度Q网络
6.5. 案例:小车上山
6.5.1. 使用环境
6.5.2. 用线性近似求解最优策略
6.5.3. 用深度Q网络求解最优策略
6.6. 本章小结
6.7. 练习题
6.7.1. 单选题
6.7.2. 编程练习
6.7.3. 模拟面试
7. 回合更新策略梯度方法
7.1. 策略梯度算法的原理
7.1.1. 函数近似策略
7.1.2. 策略梯度定理
7.1.3. 策略梯度和极大似然估计的关系
7.2. 同策回合更新策略梯度算法
7.2.1. 简单的策略梯度算法
7.2.2. 带基线的简单策略梯度算法
7.3. 异策回合更新策略梯度算法
7.4. 案例:车杆平衡
7.4.1. 同策策略梯度算法求解最优策略
7.4.2. 异策策略梯度算法求解最优策略
7.5. 本章小结
7.6. 练习题
7.6.1. 单选题
7.6.2. 编程练习
7.6.3. 模拟面试
8. 执行者/评论者
8.1. 执行者/评论者方法的由来
8.2. 同策执行者/评论者算法
8.2.1. 动作价值执行者/评论者算法
8.2.2. 优势执行者/评论者算法
8.2.3. 带资格迹的执行者/评论者算法
8.3. 基于代理优势的同策算法
8.3.1. 性能差别引理
8.3.2. 代理优势
8.3.3. 邻近策略优化
8.4. 自然梯度和信赖域算法
8.4.1. KL散度与Fisher信息矩阵
8.4.2. 代理优势的信赖域
8.4.3. 自然策略梯度算法
8.4.4. 信赖域策略优化
8.5. 重要性采样异策执行者/评论者算法
8.6. 案例:双节倒立摆
8.6.1. 同策执行者/评论者算法求解最优策略
8.6.2. 基于代理优势的同策算法求解最优策略
8.6.3. 自然策略梯度和信赖域算法求解最优策略
8.6.4. 重要性采样异策执行者/评论者算法求解最优策略
8.7. 本章小结
8.8. 练习题
8.8.1. 单选题
8.8.2. 编程练习
8.8.3. 模拟面试
9. 连续动作空间的确定性策略
9.1. 确定性策略梯度定理
9.2. 同策确定性算法
9.3. 异策确定性算法
9.3.1. 基本的异策确定性执行者/评论者算法
9.3.2. 深度确定性策略梯度算法
9.3.3. 双重延迟深度确定性策略梯度算法
9.4. 探索过程
9.5. 案例:倒立摆的控制
9.5.1. 用深度确定性策略梯度算法求解
9.5.2. 用双重延迟深度确定性算法求解
9.6. 本章小结
9.7. 练习题
9.7.1. 单选题
9.7.2. 编程练习
9.7.3. 模拟面试
10. 最大熵强化学习
10.1. 最大熵强化学习与柔性强化学习理论
10.1.1. 奖励工程和带熵的奖励
10.1.2. 柔性价值
10.1.3. 柔性策略改进定理和最大熵强化学习的迭代求解
10.1.4. 柔性最优价值
10.1.5. 柔性策略梯度定理
10.2. 柔性强化学习算法
10.2.1. 柔性Q学习
10.2.2. 柔性执行者/评论者算法
10.3. 自动熵调节
10.4. 案例:月球登陆器
10.4.1. 用柔性Q学习求解LunarLander
10.4.2. 用柔性执行者/评论者求解LunarLander
10.4.3. 自动熵调节用于LunarLander
10.4.4. 求解LunarLanderContinuous
10.5. 本章小结
10.6. 练习题
10.6.1. 单选题
10.6.2. 编程练习
10.6.3. 模拟面试
11. 基于策略的无梯度算法
11.1. 无梯度算法
11.1.1. 进化策略算法
11.1.2. 增强随机搜索
11.2. 无梯度算法和策略梯度算法比较
11.3. 案例:双足机器人
11.3.1. 奖励截断
11.3.2. 用进化算法求解
11.3.3. 用增强随机搜索求解
11.4. 本章小结
11.5. 练习题
11.5.1. 单选题
11.5.2. 编程练习
11.5.3. 模拟面试
12. 值分布强化学习
12.1. 价值分布及其性质
12.2. 效用最大化强化学习
12.3. 基于概率分布的算法
12.3.1. 类别深度Q网络算法
12.3.2. 带效用的类别深度Q网络算法
12.4. 基于分位数的强化学习
12.4.1. 分位数回归深度Q网络算法
12.4.2. 含蓄分位网络算法
12.4.3. 带效用的分位数回归算法
12.5. 类别深度Q网络算法与分位数回归算法的比较
12.6. 案例:Atari电动游戏Pong
12.6.1. Atari游戏环境的使用
12.6.2. Pong游戏
12.6.3. Atari游戏的包装类
12.6.4. 用类别深度Q网络算法玩游戏
12.6.5. 用分位数回归深度Q网络算法玩游戏
12.6.6. 用含蓄分位网络算法玩游戏
12.7. 本章小结
12.8. 练习题
12.8.1. 单选题
12.8.2. 编程练习
12.8.3. 模拟面试
13. 最小化遗憾
13.1. 遗憾
13.2. 多臂赌博机
13.2.1. 多臂赌博机问题描述
13.2.2. ε贪心算法
13.2.3. 置信上界
13.2.4. Bayesian置信上界算法
13.2.5. Thompson采样算法
13.3. 置信上界价值迭代
13.4. 案例:Bernoulli奖励多臂赌博机
13.4.1. 创建自定义环境
13.4.2. 用ε贪心策略求解
13.4.3. 用第一置信上界求解
13.4.4. 用Bayesian置信上界求解
13.4.5. 用Thompson采样求解
13.5. 本章小结
13.6. 练习题
13.6.1. 单选题
13.6.2. 编程练习
13.6.3. 模拟面试
14. 树搜索
14.1. 回合更新树搜索
14.1.1. 选择
14.1.2. 扩展和评估
14.1.3. 回溯
14.1.4. 决策
14.1.5. 训练回合更新树搜索用到的神经网络
14.2. 在棋盘游戏中的应用
14.2.1. 棋盘游戏
14.2.2. 自我对弈
14.2.3. 针对棋盘游戏的网络
14.2.4. 从AlphaGo到MuZero
14.3. 案例:井字棋
14.3.1. 棋盘游戏环境boardgame2
14.3.2. 穷尽式搜索
14.3.3. 启发式搜索
14.4. 本章小结
14.5. 练习题
14.5.1. 单选题
14.5.2. 编程练习
14.5.3. 模拟面试
15. 模仿学习
15.1. f散度及其性质
15.2. 行为克隆
15.3. 生成对抗模仿学习
15.4. 案例:机器人行走
15.4.1. 扩展库PyBullet
15.4.2. 用行为克隆模仿学习
15.4.3. 用生成对抗模仿学习
15.5. 本章小结
15.6. 练习题
15.6.1. 单选题
15.6.2. 编程练习
15.6.3. 模拟面试
16. 更多智能体/环境接口模型
16.1. 平均奖励离散时间Markov决策过程
16.1.1. 平均奖励
16.1.2. 差分价值
16.1.3. 最优策略
16.2. 连续时间Markov决策过程
16.3. 非齐次Markov决策过程
16.3.1. 非齐次状态表示
16.3.2. 时间指标有界的情况
16.3.3. 时间指标无界的情况
16.4. 半Markov决策过程
16.4.1. 半Markov决策过程及其价值
16.4.2. 最优策略求解
16.4.3. 分层强化学习
16.5. 部分可观测Markov决策过程
16.5.1. 离散时间部分可观测Markov决策过程
16.5.2. 信念
16.5.3. 信念Markov决策过程
16.5.4. 信念价值
16.5.5. 有限部分可观测Markov决策过程的信念价值
16.5.6. 使用记忆
16.6. 案例:老虎
16.6.1. 带折扣回报期望与平均奖励的比较
16.6.2. 信念Markov决策过程
16.6.3. 非齐次的信念状态价值
16.7. 本章小结
16.8. 练习题
16.8.1. 单选题
16.8.2. 编程练习
16.8.3. 模拟面试


教学资源推荐
作者: [加]布兰登·S. 吉伦(Brendan S. Gillon) 著
作者: [日]德拉戈米尔·N. 涅切夫(Dragomir N. Nenchev),[日]绀野笃志(Atsushi Konno),[日]辻田彻平(Teppei Tsujita) 著
作者: 王章阳(Zhangyang Wang) [美]傅云(Yun Fu) [美]黄煦涛(Thomas S. Huang) 编著
参考读物推荐
作者: [美]马特·R.科尔(Matt R.Cole) 著
作者: [美]劳伦斯·莫罗尼(Laurence Moroney) 著
作者: 吴至文 郭叶军 宗炜 李鹏 赵娟 著
作者: 言有三 郭晓洲 著