教学资源 – 图书教辅

扩展信息

语种 : 简体中文

页数 : 199

开本 : 16

原书名 : Statistical Reinforcement Learning：Modern Machine Learning Approaches

原出版社: Taylor & Francis -CRC Press

属性分类: 教材

包含CD : 无CD

绝版 : 无

图书简介

本书从现代机器学习的视角介绍了统计强化学习的基本概念和实用算法。它涵盖了各种类型的强化学习方法，包括基于模型的方法和与模型无关的方法，策略迭代和策略搜索方法。

图书特色

无

图书前言

在即将到来的大数据时代，统计学与机器学习正成为数据挖掘不可或缺的工具。根据数据分析的类型，机器学习方法分为三类：
●监督学习：给定输入和输出的数据，监督学习的目标是分析输入、输出数据之间的关系。监督学习典型的任务包括回归（预测真实取值）、分类（预测类别）以及排序（预测顺序）。监督学习是最常用的数据分析工具，并且已经在统计学领域被研究了很长时间。监督学习在机器学习中近期的趋势是利用输入、输出数据的辅助信息来进一步改善预测的精度。例如，半监督学习利用额外的输入数据，迁移学习借用来自其他相似学习任务的数据，多任务学习同时解决多个相关学习任务。
●无监督学习：仅给定输入数据，无监督学习的目标是在数据中找到有用的东西。由于这种模糊的定义，无监督学习研究往往比监督学习更具特色。然而，由于其自动化以及廉价的特性，无监督学习被认为是数据挖掘中最重要的工具之一。无监督学习典型的任务包括聚类（根据数据的相似性进行数据分组）、密度估计（估计数据背后的概率分布）、异常检测（从数据中删除异常值）、数据可视化（将数据的维度降到1~3维）和盲源分离（从混合数据中提取原始源信号）。此外，无监督学习方法有时被用作监督学习中数据预处理的工具。
●强化学习：监督学习是一种合理的方法，但收集输入、输出数据通常过于昂贵。无监督学习的执行成本低廉，但往往是临时性的。强化学习介于监督学习和无监督学习之间——没有提供明确的监督（输出数据），但我们仍然想学习数据背后的输入、输出关系。强化学习不是输出数据，而是利用奖赏来评估所预测的输出的有效性。提供诸如奖赏之类的隐性监督通常比提供明确监督更容易，成本更低，因此强化学习可以成为现代数据分析的重要方法。在强化学习的框架中也使用各种监督和无监督学习技术。
本书致力于从现代机器学习的角度介绍统计强化学习的基本概念和实用算法。还提供了各种图解说明示例——这些示例主要来自机器人领域，帮助读者理解强化学习技术的直观性和实用性。目标读者是计算机科学和应用统计学的研究生以及相关领域的研究人员和工程师。假设读者具备概率和统计学、线性代数以及初等微积分的基础知识。
机器学习是一个快速发展的科学领域，希望本书能够帮助读者了解强化学习中的各种激动人心的话题，激发读者对机器学习的兴趣。请浏览我们的网站：http://www.ms.k.u-tokyo.ac.jp。
致谢
感谢合作者Hirotaka Hachiya、Sethu Vijayakumar、Jan Peters、Jun Morimoto、Zhao Tingting、Ning Xie、Voot Tangkaratt、Tetsuro Morimura和Norikazu Sugimoto激动人心的创意讨论。感谢MEXT KAKENHI (17700142、18300057、20680007、23120004、23300069、25700022和26280054)、大川基金会、欧盟Erasmus Mundus奖学金、AOARD、SCAT、JST PRESTO计划以及FIRST计划的支持。

Masashi Sugiyama
日本东京大学

上架指导

计算机/人工智能/机器学习

封底文字

强化学习技术是人工智能从感知智能向决策智能发展的关键技术之一；是基于控制论、心理学、生理学、认知科学、计算机科学等多学科交叉的新兴机器学习技术。
本书是学习和研究强化学习技术的重要参考书籍，作者是日本人工智能领域知名学者、东京大学杉山将教授，译者为南京大学计算机科学与技术系高阳教授。
全书将统计学习和强化学习结合，从模型无关策略迭代、模型无关策略搜索、模型相关强化学习三个技术路线角度，对强化学习函数估计中的基函数设计、样本重用以及策略搜索、模型估计等做了深入浅出的介绍。本书适合于从事人工智能和机器学习研究和应用的专家学者、技术人员、研究生阅读。

本书特色：
从现代机器学习的角度介绍了统计强化学习的基本概念和实用算法，为该领域提供了最新介绍。
涵盖了各种类型的强化学习方法，包括基于模型和无模型的方法、策略迭代和策略搜索方法。
涵盖了最近在数据挖掘和机器学习领域引入的方法，以便在强化学习和数据挖掘/机器学习研究人员之间提供系统桥梁。
呈现了最新的结果，包括强化学习的维数降低和风险敏感强化学习；介绍了许多示例来帮助读者理解强化学习技术的直观性和实用性。

作者简介

[日]杉山将（Masashi Sugiyama）著：杉山将（Masashi Sugiyama）东京大学教授，研究兴趣为机器学习与数据挖掘的理论、算法和应用。2007年获得IBM学者奖，以表彰其在机器学习领域非平稳性方面做出的贡献。2011年获得日本信息处理协会颁发的Nagao特别研究员奖，以及日本文部科学省颁发的青年科学家奖，以表彰其对机器学习密度比范型的贡献。

译者序

随着Google公司DeepMind团队提出DQN技术，并研发了Alpha Go击败围棋世界冠军李世石、柯洁等人，强化学习技术逐渐成为人工智能和机器学习技术的研究热点和显学，从技术的发展期进入了爆炸期，各种深度强化学习技术层出不穷。
然而，自20世纪五六十年代的技术萌芽，到八九十年代的理论奠定，再到如今的技术爆炸，强化学习技术经历了漫长的积淀过程。尽管深度强化学习技术是“通用人工智能”的代表性技术，但强化学习仍有诸多子领域有待发展，例如多智能体强化学习技术、逻辑强化学习技术、强化学习迁移技术等。当研究者跳出棋类博弈和机器人控制等经典智能任务，试图在军事、经济、金融等领域或实际工程中应用强化学习时，强化学习仍面临表示困难、收敛慢等诸多难题。这给强化学习技术带来了挑战和新的活力。
本书是为数不多的强化学习专业书籍，作者是日本知名的机器学习学者杉山将先生。在首届中国计算机学会国际人工智能会议（CCF-ICAI2018，济南）期间，译者和杉山将先生进行了交谈。他非常高兴中文版的诞生，并期待能对中国的读者有所帮助。本书更侧重于强化学习的基础，而非目前热门的深度强化学习技术。本书从模型无关策略迭代、模型无关策略搜索、模型相关强化学习三个技术路线角度，对强化学习函数估计中的基函数设计、样本重用以及策略搜索、模型估计等做了深入浅出的介绍。特别是本书结合了统计学习的诸多方法对强化学习的相关技术进行介绍，给人以耳目一新的感觉。
南京大学计算机科学与技术系推理与学习研究组董绍康、吴章凯、陈佳瑞、朱枝睿、张剑、刘艳芳、顾峥、秦铁鑫、季雯、董传奇、黄中豪等研究生参与了本书的部分翻译工作。在为期近一年的翻译过程中，虽然我们已经对译稿进行仔细校对，查阅了大量相关资料，使译文尽可能符合中文习惯和保持术语的一致性，但由于本书涉及的范围非常广泛，错误或不当之处仍难以完全避免，敬请各位读者和同行专家谅解，诚挚希望读者将相关意见、建议发送到电子邮箱gaoy@nju.edu.cn与我们联系。
本书适合从事人工智能和机器学习研究和应用的专家学者、技术人员、研究生阅读。最后，特别感谢机械工业出版社华章分社的朱秀英编辑，没有她的信任、耐心与支持，本书不可能顺利出版。

译　者
2018年12月15日于南京

图书目录

译者序
序
前言
作者简介
第一部分　简介
第1章　强化学习介绍3
　1.1　强化学习3
　1.2　数学形式化8
　1.3　本书结构11
　　1.3.1　模型无关策略迭代11
　　1.3.2　模型无关策略搜索12
　　1.3.3　基于模型的强化学习13
第二部分　模型无关策略迭代
第2章　基于值函数近似的策略迭代17
　2.1　值函数17
　　2.1.1　状态值函数17
　　2.1.2　状态-动作值函数18
　2.2　最小二乘策略迭代19
　　2.2.1　瞬时奖赏回归20
　　2.2.2　算法21
　　2.2.3　正则化23
　　2.2.4　模型选择25
　2.3　本章小结26
第3章　值函数近似中的基函数设计27
　3.1　图中的高斯核27
　　3.1.1　MDP-诱导图27
　　3.1.2　通用高斯核28
　　3.1.3　测地线高斯核29
　　3.1.4　扩展到连续状态空间30
　3.2　图解说明30
　　3.2.1　配置30
　　3.2.2　测地线高斯核31
　　3.2.3　通用高斯核33
　　3.2.4　图拉普拉斯特征基33
　　3.2.5　扩散小波35
　3.3　数值示例35
　　3.3.1　机器人手臂控制35
　　3.3.2　机器人导航39
　3.4　本章小结46
第4章　策略迭代中的样本重用47
　4.1　形式化47
　4.2　离策略值函数近似48
　　4.2.1　片段重要性加权49
　　4.2.2　每次决策的重要性加权50
　　4.2.3　自适应的每次决策重要性加权50
　　4.2.4　图解说明51
　4.3　展平参数的自动选择54
　　4.3.1　重要性加权交叉验证54
　　4.3.2　图解说明55
　4.4　样本重用策略迭代56
　　4.4.1　算法56
　　4.4.2　图解说明56
　4.5　数值示例58
　　4.5.1　倒立摆58
　　4.5.2　小车爬山61
　4.6　本章小结64
第5章　策略迭代中的主动学习65
　5.1　主动学习的高效探索65
　　5.1.1　问题配置65
　　5.1.2　泛化误差的分解66
　　5.1.3　估计泛化误差67
　　5.1.4　设计采样策略68
　　5.1.5　图解说明69
　5.2　主动策略迭代72
　　5.2.1　具有主动学习的样本重用策略迭代72
　　5.2.2　图解说明73
　5.3　数值示例74
　5.4　本章小结76
第6章　鲁棒策略迭代79
　6.1　策略迭代中的鲁棒性和可靠性79
　　6.1.1　鲁棒性79
　　6.1.2　可靠性80
　6.2　最小绝对策略迭代81
　　6.2.1　算法81
　　6.2.2　图解说明81
　　6.2.3　性质82
　6.3　数值示例83
　6.4　可能的拓展88
　　6.4.1　Huber损失88
　　6.4.2　pinball损失89
　　6.4.3　deadzone-linear损失90
　　6.4.4　切比雪夫逼近90
　　6.4.5　条件风险值91
　6.5　本章小结92
第三部分　模型无关策略搜索
第7章　梯度上升的直接策略搜索95
　7.1　形式化95
　7.2　梯度方法96
　　7.2.1　梯度上升96
　　7.2.2　方差约简的基线减法98
　　7.2.3　梯度估计量的方差分析99
　7.3　自然梯度法101
　　7.3.1　自然梯度上升101
　　7.3.2　图解说明103
　7.4　计算机图形中的应用：艺术家智能体104
　　7.4.1　东方山水画绘画104
　　7.4.2　状态、动作和瞬时奖赏的设计106
　　7.4.3　实验结果111
　7.5　本章小结113
第8章　期望最大化的直接策略搜索117
　8.1　期望最大化方法117
　8.2　样本重用119
　　8.2.1　片段重要性加权119
　　8.2.2　每次决策的重要性加权122
　　8.2.3　自适应的每次决策重要性加权123
　　8.2.4　展平参数的自动选择123
　　8.2.5　样本重用的加权奖赏回归125
　8.3　数值示例125
　8.4　本章小结131
第9章　策略优先搜索133
　9.1　形式化133
　9.2　基于参数探索的策略梯度134
　　9.2.1　策略优先的梯度上升134
　　9.2.2　方差约简的基线减法135
　　9.2.3　梯度估计量的方差分析136
　　9.2.4　数值示例138
　9.3　策略优先搜索中的样本重用142
　　9.3.1　重要性加权142
　　9.3.2　基线减法的方差约简144
　　9.3.3　数值示例146
　9.4　本章小结153
第四部分　基于模型的强化学习
第10章　转移模型估计157
　10.1　条件密度估计157
　　10.1.1　基于回归的方法157
　　10.1.2　ε-邻域核密度估计158
　　10.1.3　最小二乘条件密度估计159
　10.2　基于模型的强化学习161
　10.3　数值示例162
　　10.3.1　连续型链条游走162
　　10.3.2　人形机器人控制167
　10.4　本章小结171
第11章　转移模型估计的维度约简173
　11.1　充分维度约简173
　11.2　平方损失条件熵173
　　11.2.1　条件独立174
　　11.2.2　利用SCE进行维度约简175
　　11.2.3　SCE与平方损失互信息的关系176
　11.3　数值示例176
　　11.3.1　人工和标准数据集176
　　11.3.2　人形机器人179
　11.4　本章小结182
参考文献183