本文围绕基于学习的自适应控制。首先,重点介绍一些重要的数学工具;然后重点阐述本书的重点内容:基于模型的或经典的自适应控制、无模型自适应控制和自适应控制的学习;第三章着重基于极值搜索的迭代反馈增益,给出机电一体化的应用实例;第4章介绍多参数的极值搜索控制算法自动调整反馈增益,给出强大的非线性控制器加模型学习算法;第5章是基于极值搜索的间接自适应控制,给出两个不同的MES算法,最后两章重点介绍极值搜索为基础的非线性系统参数辨识算法和求极值的迭代学习模型预测控制。
无
1914年,巴黎:人人都说那是阳光灿烂、令人愉悦的一天,蓝色的天空恰好成为表演的完美背景。大量的人流聚集在城市的西北边缘——阿让特伊桥附近的塞纳河沿岸,以目睹展示飞行安全最新发展的航空竞赛——de la Sécurité en Aéroplane。 近六十架飞机参加,并展示了令人印象深刻的各类技术和设备。日程的最后,展示的是Curtiss C2双翼飞机,驾驶它的是美国飞行员劳伦斯·斯佩里(Lawrence Sperry)。在C2的敞式座舱内,他旁边坐着的是法国机械师埃米尔·卡钦 (Emil Cachin)。当斯佩里飞过岸边观众并朝向裁判坐席时,他松开飞机的操纵器并且举起双手。人群爆发出了欢呼声:飞机正在自己飞行!
Carr(2014,第3章)
这是一百年前首次展示的自适应和控制技术的硬件实现。从那以后,自适应控制成为控制理论的主要分支之一。尽管这个问题已得到充分研究, 但是仍然存在着活跃的研究前沿(见第2章)。本书关注一种特定类型的自适应控制,称为基于学习的自适应控制。
在第2章中,我们将看到自适应控制可以被划分为三个子类:经典的基于模型的自适应控制,它主要利用被控系统的物理模型;无模型自适应控制,它完全基于控制器和系统间的交互;基于学习的自适应控制,它同时采用基于模型和无模型技术来设计灵活但迅速稳定(即安全)的自适应控制器。本书所介绍的基于学习的模块化自适应控制的基本思想如图A所示。可以看到图中有两个主要的模块:基于模型的和无模型的。 基于模型的部分主要是为了确保在学习过程中的某类稳定性,而无模型(即学习)部分主要是通过在线调整某些基于模型的控制器的参数值来改善控制器性能。 由于是模块化设计,这两个模块可以安全地连接在一起,即不会损害整个系统的稳定性(在有界意义下)。
图A基于学习的模块化自适应控制框图
我们将证明,这类自适应控制器与其他自适应方法相比的一个最大优势是:既能保证系统的稳定性,又具有无模型学习算法的灵活性。一方面,基于模型的自适应控制器可以非常有效且稳定,然而它强加给模型及不确定性结构(例如:线性与非线性结构等)许多约束。另一方面,由于无模型自适应控制器并不依赖于任何模型,所以模型的结构可以具有很大的灵活性。然而,它缺少基于模型的自适应控制器所具备的稳定性保障。此外,由于没有任何关于系统的物理知识,即不使用系统的任何模型,无模型自适应算法不得不在一个很大的控制选择范围内去学习最优控制行为(或策略)。而基于学习的自适应控制对两者进行了平衡,它不仅具有基于模型部分所保障的稳定性,还能够比无模型自适应控制更快地收敛到最优性能。这是由于,尽管存在不确定性或者不完备性,但它采用了系统的某些初始知识和模型信息。
为了便于阅读,第1章回顾控制理论的主要概念和工具,其中包括向量空间、希尔伯特空间、不变集等经典概念,以及李雅普诺夫、拉格朗日稳定性和输入状态稳定性(InputtoState Stability,ISS)等。最后,我们给出了无源性和非最小相位的一些重要概念。
第2章给出关于自适应控制领域的总体综述。一些主要的相关结果将被分门别类地划分到自适应控制理论的一些子领域中。本章的主要目的是将本书中的成果在自适应控制的全局框架中进行定位,使得读者能够更好地理解这些成果,并明晰与其他成果的区别。
接下来的章节更多的是我们过去几年关于基于学习的自适应方面的成果,因此技术性会更强。
从第3章开始,我们关注基于学习的自适应中的一类非常具体的问题,称为迭代反馈整定(Iterative Feedback Tuning,IFT)。IFT 的主要目的是为线性或非线性反馈控制器自动地调整反馈增益。首先给出一些IFT研究成果的简要概述,然后介绍我们在此领域的工作。具体来说,我们将研究基于极值搜索的非线性IFT。本书主要关注非线性系统(除了第6章外),因为非线性结果通过一些简化可以轻松地应用于线性模型。不过我们并不准备明确推导这些简化方法,而是把这部分工作留给感兴趣的读者。
第4章给出非线性模型基于极值搜索的模块化自适应控制的一般形式。本章首先考虑系统模型或不确定性没有任何结构化约束(除了基本的光滑性条件)的一般非线性模型的情况。对于这一类相当广泛的模型,在输入状态可稳定(通过反馈)的假设下,我们可以设计基于学习的模块化间接自适应控制器,其中的无模型学习算法用来在线估计模型的参数不确定性。接着我们关注一类更具体的非线性系统,称为关于控制向量仿射的非线性系统。对于这样的非线性系统,我们给出了一个构建性控制设计,该设计能够保证ISS性质,然后为其补充一个极值搜索无模型学习算法来估计模型参数。
在第5章中,我们将学习非线性模型的实时辨识问题。我们所说的实时是指在系统执行标称任务时,不需要打断或者改变系统任务就能够在线辨识系统的某些参数。事实上,在实际工业生产中中断一个系统任务可能会带来巨大的经济损失。如果能够在线辨识并持续更新系统参数,那么就能够实时跟踪其漂移,比如由于系统老化或者标称任务的实时改变(根据不同质量移动机械臂的不同部位)而导致的,然后更新相应模型。
针对有限维常微分方程模型和无穷维偏微分方程(Partial Differential Equation,PDE),我们都研究了基于极值搜索的参数模型辨识问题。在第5章中,我们还研究了一个相关问题,即PDE的降维稳定。在这个问题中,我们采用无模型极值搜索器来自动整定镇定项,即封闭模型。该模型通过将PDE投影至一个有限维空间来镇定降维模型。
最后,作为本书所提出方法的附带结果,在第6章中,我们将研究含参数不确定性的线性模型的模型预测控制(Model Predictive Control,MPC)这一具体问题。这个问题可以看作第4章内容的一个特例,其控制器采用模型预测控制器的形式并能够确保ISS。我们还将运用本领域的近期成果设计一个具有ISS性质的MPC(近期有大量关于ISSMPC主题的文献,因此是一个相当标准的成果),然后谨慎且合理地为其补充一个无模型极值搜索器来迭代学习模型的不确定性并提高MPC的整体性能。
在“结论和进一步说明”中,我们总结了现有的成果,给出了书中成果的进一步延伸思路,同时提及了一些我们认为在将来自适应控制研究中非常重要的开放问题。
M. Benosman
美国马萨诸塞州剑桥市
2016年3月
控制理论及应用
自适应控制一直是控制理论研究的主要问题之一,而基于学习的自适应控制是这个领域的研究前沿。本书将基于学习的方法与传统的自适应控制有机地结合在一起,融合了基于模型和基于数据的优势,提出了基于学习的自适应控制策略,并通过大量机电一体化示例展示了性能的优化,从而为传统的自适应控制理论开拓了新的思路。
主要内容如下:
·针对控制向量仿射的非线性模型,提出了迭代反馈增益整定方法,并将该方法应用到电磁执行器和刚性机械臂两个机电一体化的系统中。
·基于学习的间接自适应控制方法,提出了一种新型的模块化自适应控制器实现方法对比并融合了无模型和基于模型的学习算法。
·研究了实时系统辨识问题,提出了一种基于极值搜索的辨识算法。同时,研究了无限维系统模型简化问题,将偏微分方程形式的无限维模型简化为常微分方程形式的有限维模型。
·研究了具有结构不确定线性时不变系统的自适应控制问题,结合基于模型的控制器和无模型极值搜索学习算法,提出了一种基于极值搜索的迭代学习模型预测控制方法。
长期以来,自动化领域一直存在一个困扰学者
多年的问题:基于模型的控制和无模型控制孰好孰差?大家众说纷纭,莫衷一是。近两年来,随着AlphaGo战胜职业围棋选手,人工智能引发出巨大的研究热情。于是,另外一个问题开始困扰着学者:人工智能和传统自动化理论及算法如何有机融合并互相促进?Mouhacine Benosman通过本书展示了自己对于这两个问题的理解。
严格来说,实际系统中总存在着控制器设计者不确定的因素,如未知扰动、漂移参数、未知物理系数等。自适应控制因在处理不确定系统时所具有的优势一直是控制理论研究的重要分支。本书详细介绍了一种特定类型的自适应控制,即基于学习的自适应控制:将基于模型的算法和无模型学习算法有机融合,分别讲述了基于极值搜索的迭代反馈增益整定理论、基于极值搜索的间接自适应控制、基于极值搜索的非线性系统实时参数辨识以及基于极值搜索的迭代学习模型预测控制。此外,借助机电一体化示例,展示了基于学习的几类控制算法如何缩短学习过程,达到并维持最优控制性能的设计。
值得指出的是,本书所介绍的极值搜索和优化算法,并未采用当前火热的卷积神经网络或强化学习等人工智能算法。尽管如此,这种借助于学习等优化算法来提高传统控制器性能的方法,还是给我们提供了很好的思路,并指出了一条人工智能与传统理论相结合的有效途径。
原作者以打造一本内容相对独立并完整的专业书为目标。此外,在各技术环节均给出了大量的参考文献。因此,对于自动化、测控技术与仪器、人工智能、电气工程及其自动化、电子信息工程、计算机科学与技术等领域的研究生、工程技术人员、学者来说,本书是一本很好的教材和技术参考书籍。
译者在翻译的过程中尽可能复原原作者的研究思路,并结合国内的工程习惯斟酌专业词汇和词句。本书既可以作为智能控制、自适应控制等课程的研究生教材,也可以作为相关专业人员和研究人员的技术参考书。
译者
2019年12月
译者序
前言
致谢
第1章基础数学工具
11范数的定义和性质
12向量函数及其性质
13动态系统的稳定性
14控制中的动态系统仿射
15几何、拓扑和不变集性质
16总结
参考文献
第2章自适应控制概述
21引言
22自适应控制问题描述
23基于模型的自适应控制
231基于模型的直接自适应控制
232基于模型的间接自适应控制
24无模型自适应控制
25基于学习的自适应控制
26总结
参考文献
第3章基于极值搜索的迭代反馈增益整定理论
31引言
32基本符号和定义
33问题描述
331系统类型
332控制目标
34输入输出线性化控制的极值搜索式迭代增益整定
341第一步:鲁棒控制设计
342第二步:反馈增益的迭代自动调整
35机电一体化示例
351电磁执行器
352双连杆刚性机械臂
36总结与展望
参考文献
第4章基于极值搜索的间接自适应控制
41引言
42基本符号和定义
43具有常值模型不确定性的一般非线性系统的ES间接自适应控制
44具有时变模型不确定性的一般非线性系统的ES间接自适应控制
45关于控制量仿射的非线性模型情形
451控制目标
452自适应控制器设计
46机电一体化示例
461电磁执行器
462双连杆刚性机械臂
463基于MES的不确定参数估计
47总结与展望
参考文献
第5章基于极值搜索的非线性系统实时参数辨识
51引言
52基本符号和定义
53非线性系统的基于ES的开环参数辨识
531问题描述
532开环参数估计
54非线性系统的基于ES的闭环参数辨识
541问题描述
542非线性系统仿射控制的参数估计
55基于ES的辨识和稳定PDE模型简化
551基于ES的ROM参数辨识
552基于MES的PDE稳定模型简化
56应用示例
561电磁执行器
562双连杆刚性机械臂
563耦合Burger PDE
57总结与展望
参考文献
第6章基于极值搜索的迭代学习模型预测控制
61引言
62基本符号和定义
63问题描述
631鲁棒正不变集
632紧缩约束
633跟踪不变集
634MPC问题
64基于DIRECT ES的迭代学习MPC
641基于DIRECT的迭代学习MPC
642MPC的ISS保证和学习收敛的证明
65基于抖振的MES自适应MPC
651约束线性标称MPC
652基于MES的自适应MPC算法
653稳定性讨论
66数值示例
661基于DIRECT的ILC MPC
662基于抖振的ESILCMPC
67总结与展望
参考文献
结论和进一步说明
参考文献