打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
学习算法与实时控制:自校正调节器理论的曲折解谜之路

法国时间2019年12月12日,郭雷院士获颁Hendrik W. Bode Lecture Prize


编者按


2019年12月,国际控制系统领域最具影响力的年度会议“IEEE决策与控制大会”在法国尼斯召开,中科院郭雷院士“因在自适应控制、系统辨识、自适应信号处理、随机系统及应用数学领域的根本性和实际性贡献” ,获IEEE控制系统学会颁发的Hendrik W. Bode Lecture Prize(简称波德奖),成为该奖设立30年来获此殊荣的首位华人科学家。
期间,郭雷院士作了本次大会唯一的大会报告“波德讲座(Bode Lecture)”。在题为“反馈与不确定性:基本问题与定理”的报告中,他阐述了著名的自校正调节器的历史性作用和对学科及应用的广泛影响,介绍了自校正调节器的全局稳定性和渐近最优性等基本理论问题研究上的困难与挑战,前人的相关工作,以及他本人的研究成果,并谈到了对在线学习算法与反馈控制相结合解决更复杂问题时的研究启示。
关于自校正调节器的研究,郭雷院士2012年在《系统科学与数学》上发表了题为《回溯自校正调节器研究之路》的文章,详细介绍了他本人对这一国际难题突破性解决的主要过程。今天,让我们以此文为背景,一起重温这趟关于自校正调节器的曲折解谜之旅, 这对了解当机器学习算法与控制算法在线相结合而形成实时“智能决策”时,在基础理论上将会面临怎样的数学问题,以及如何分析研究等,具有启发借鉴意义。

1

“自校正调节器”诞生的背景是什么

认识世界和改造世界是人类实践活动的基本内容,但现实世界总存在各种不确定性。如何在动态系统的结构和环境具有不确定性的情况下,对系统的运动状态和性能进行实时调控,以达到人们所期望的目的或要求(如稳定性与精确性等),这是一个具有普适性的科学技术问题。而解决这一问题的基本和必要方法是反馈控制。
自适应控制就是一种处理这类问题的反馈控制方法。它能够在系统的内部参数和外部环境都存在不确定性因素的情况下,根据所获得的系统状态或输出信息,实时地对系统的动态行为和环境变化进行某种“识别”,并实时地自动调整控制器的结构或参数,使被控系统达到预期的性能指标或控制目的。
如何实现上述诱人的自适应或“智能化”思想? 一个自然的办法是“分两步走”:首先, 推导出最优控制规律(一般依赖于系统模型的未知参数);然后,利用实时获得的系统信息对未知参数进行在线估计,并用相应的估计值去实时替代(或校正)最优控制规律中的未知参数。这就是所谓的“必然等价原则”。自校正调节器就是在这个原则基础上形成的一类最基本的自适应控制器。

2

什么是“自校正调节器”?

如前所述,基于“必然等价原则”所形成的控制器,是将参数估计器与反馈控制器耦合在一起,并应用在同一个反馈回路中。由于随机噪声的存在,参数估计具有不确定性,因此“必然等价原则”所给出的自校正控制(self-tuning)未必在每一步都是最优的。但是,如果闭环控制系统的性能指标能够渐近收敛到最优值,那也就达到“自校正”目的了。
具体到经典自校正调节器,它是由线性随机动态系统的“最小二乘”估计算法与“最小方差”控制规律在线耦合而成的。
毫无疑问,由这两个最基本的“最优原理”所产生的自校正调节器,不仅其构造美妙自然,而且具有基础的重要性。进一步,无论模拟仿真还是实际应用,都表明它的确具有良好性能。
然而,由于自校正调节器的结构在本质上,是由一组很复杂的非线性与非平稳随机动态方程所刻画(即使被控对象是线性系统亦然),这就使得为其建立稳定性与收敛性的数学理论带来预想不到的研究困难。

3

您所说的“数学困难”具体是什么?其产生的根本原因是什么?

实际上,任何一个功能较为高级的“智能化”系统,往往都具有一定程度的“复杂性”的结构,这似乎是“智能化”的必然“代价”,比如反馈机制。
就自校正调节器而言,首先它利用了具有“循环因果”规律的反馈机制, 这一机制能够将(不一定理想的)系统输出信号,通过某种方式再反馈到输入端,以便进一步改进系统的输出信号。其次,如前所述,反馈信号的具体设计方法是将在线学习或估计信息与控制方法紧密耦合在一起。
因此,从理论研究上来讲,最容易出现下面的“循环论证”:如果希望有满意的输出信号,就需要有满意的控制信号;但由于控制信号直接依赖于参数估计信息,因此就需要有满意的估计信息。进一步,由于估计信息又依赖于输出信号,从而需要有满意的输出信号,这又回到了论证的起点! 这是理论研究出现困难的基本原因。

4

自校正调节器在自适应控制发展历史上有过什么重要作用?

历史上,国际控制界许多科学家都曾对自适应控制领域做出过重要贡献。1960年前后,在过程控制和飞行控制等实际需求的刺激下,曾经涌现出关于自适应控制的大量研究。然而,由于当时对自适应控制系统缺乏深刻研究和认识,一次意外的飞行试验事故等原因,导致人们对自适应控制的研究兴趣曾一度减弱。
随着计算机技术和控制理论的深入发展,自适应控制领域在70年代得以复兴,这在很大程度上归功于瑞典K. J.Åström与B. Wittenmark教授在1973年发表的经典论文。这篇论文第一次从理论上对随机系统基于最小二乘算法的自校正调节器进行了收敛性研究,极大地推动了自适应控制领域的发展。
2000年,瑞典皇家科学院院士、工程院院士Lennart Ljung教授评述这篇论文时指出,“在理论前沿,这篇文章使得自校正调节器的收敛性与稳定性成为遗留下来的公开问题。这激发了大量后续研究。...... 在当今的实际应用中成千上万的控制回路都是根据自校正调节器的概念设计的。”

5

能否列举几项前人在自校正调节器理论研究历史上的代表性工作?

在自适应控制领域,真正的困难往往在于对所设计出的控制算法,能否从理论上保证被控闭环系统具有稳定性与收敛性等所需要的良好性能。正因为如此,从理论上建立自适应控制系统的全局稳定性与收敛性等,长期以来被认为是这一领域的中心问题,并引起国际控制界的极大关注与广泛研究,成为现代控制理论发展史上的一个绚丽篇章。
谈到曲折的研究历程,不得不提到,世纪之交由“IEEE 控制系统学会”组织评选出1932-1981年间发表的25篇开创性(seminal)控制理论文章,其中有3篇文章与自校正调节器的收敛性研究密切相关。
第一篇是刚刚提到过的K. J.Åström与B. Wittenmark教授在1973年发表的文章,作者给出令人鼓舞结果的同时,也正式提出了自校正调节器收敛性这个理论难题——“由于闭环系统是由非线性随机系统来刻画,给出一个保证参数收敛的一般条件是非常困难的”。
第二篇是之前所提到的瑞典Lennart Ljung教授在1977年发表的论文,他提出了分析一般离散时间递推算法的“常微分方程(ODE) 方法”,并用于分析自校正调节器的渐近性质。该文曾获IEEE-TAC的最佳论文奖,但“ODE方法”的根本局限是必须预先假定某种稳定性,Lennart Ljung教授也坦诚“这需要用其它方法来解决。”
第三篇是澳大利亚纽卡斯尔大学荣誉退休教授、国际著名系统控制学家 Graham C. Goodwin 与合作者的文章,该文利用一个所谓的“关键技术引理”,在假设外界噪声为零的条件下,首次给出了一类离散时间自适应控制算法的完整收敛性证明,从而产生了广泛影响。尽管作为“小文章”发表在IEEE-TAC上,但却获得了该刊物的最佳论文奖。
不过,由于噪声为零的假设太过于理想化,他们三位随后又研究了带噪声的随机系统。但依然为了理论研究的方便,他们将最小二乘算法简化为所谓的“随机梯度算法”。Goodwin教授与合作者在随后的文章中指出,几乎在所有随机适应控制的实际应用中,人们采用的都是最小二乘算法而非随机梯度算法,因为前者的收敛速度比后者快得多。
国际上还有众多学者也对自校正调节器进行过大量研究,都取得了不同程度的重要进展和广泛影响,但都未能最终解决自校正调节器收敛性问题。这也意味着,对自校正调节器非线性结构的关键特性还缺乏深刻理解和透彻分析。

6

在您看来,对自校正调节器理论研究的关键困难在哪里?为何如此多的科学家前赴后继地研究却未能取得突破?

因为自校正调节器密切依赖最小二乘算法,所以对最小二乘的研究毫无疑问是深入理解自校正调节器的必要基础。然而,事情却没有那么简单。
尽管最小二乘法一直是统计学中最基本的方法之一,在当今科学技术许多领域中都有广泛应用,但是,自校正调节器中的最小二乘算法研究,与传统的统计学领域存在根本差别,主要体现在其回归向量不再是确定性序列而是随机序列。不仅如此,由于非线性反馈的作用,这里的回归向量序列既不独立也不平稳。这就是自校正调节器中最小二乘算法研究的显著特点和根本困难,也是为什么比传统上单纯对最小二乘算法收敛性研究更困难的原因所在。
无论如何,对自校正调节器稳定性和收敛性研究的重要需求,大大推动了对一般随机回归向量模型最小二乘算法的研究,并形成了目前常用的两个关键研究工具:随机李亚普诺夫(Lyapunov) 函数和鞅(martingale)估计定理。
关于一般随机回归向量情形下最小二乘算法的收敛性问题,上世纪七、八十年代,瑞典L.Ljung教授、澳大利亚J.B. Moore教授和 V.Solo教授、华人统计学家黎子良与魏庆荣教授、中科院陈翰馥院士等学者都曾作出过重要贡献。
然而,如前所述,就自校正调节器而言,由于决定最小二乘算法的数据信号是由复杂非线性随机动力系统驱动而产生的。因此,在最小二乘估计收敛性研究中所需要的动态数据(或系统信号或样本轨道)的任何统计性质,不能通过做先验假设而直接在研究中利用,而只有深入研究产生动态数据的复杂非线性随机控制系统自身的样本轨道性质,才有可能真正避免前人工作中“循环论证”的根本缺陷。这是在自适应控制与传统数理统计中对最小二乘算法研究的根本区别,也是这一问题的关键困难所在。
此外,从系统辨识的观点看,要使最小二乘算法 (或其它任何算法)收敛到参数真值(相容性),一个必要条件是系统的相关信号具有一定激励(excitation)性质,以激发出未知参数向量的“模态”。但是,对自适应控制系统来讲,首要任务是达到控制目的,据此设计的控制器不一定保证系统的信号具有这种激励性质。
这就启发人们在自适应控制器设计中引入(叠加) 一个外部随机探测(probing)信号,以期提供必要的激励条件。但单纯靠外加激励信号,甚至进一步修改控制器结构也都无法克服收敛性和稳定性这一本质困难。因此,在我看来,最终从根本上解决自校正调节器的稳定性和收敛性,还需要在分析方法上寻找真正突破。
这条曲折而又艰难的求解之路,让多位知名科学家遗憾而又无奈地发出感叹。
瑞典K. J.Åström教授曾在1987年的国际工业与应用数学世界大会的大会报告中感叹:在随机适应控制领域“理论上的进展是缓慢而又痛苦的”。
澳大利亚G. C. Goodwin教授等在论文中表示:即使在理想情况下,建立随机适应控制理论“也令人吃惊地困难”。
美国P. R. Kumar 教授更是在论文中明确指出:“原始自校正调节器是否真正收敛已经是一个15年以上的公开问题。”
美国斯坦福大学黎子良教授也曾在论文中评价:“这一中心问题仍没有解决。”

7

您长期从事系统与控制科学研究,在解决自校正调节器收敛性和线性二次型最优适应控制等若干基本理论难题上取得了重大突破,请您分享一下您是如何进入到这一研究领域的?在国外有哪些难忘的研究经历?

20世纪70年代末,改革开放为我国控制理论研究进入世界前沿带来了曙光。我国现代控制理论的开拓者、 中国科学院系统科学研究所的首任所长关肇直先生在1980年前后,曾经邀请过多位国际著名科学家来华访问。
自校正调节器的主要提出者、瑞典的K.J.Åström教授就曾经于1980年春天应邀来中国访问两周并在系统科学所做了一系列学术报告。根据当年在 K.J.Åström教授来访期间担任英文翻译的陈翰馥先生回忆,K. J.Åström在中国讲学时,就曾提到自校正调节器的收敛性是仍然没有解决的公开问题。但是,当时系统科学研究所并没有人开展对这一难题的研究,也许是当时基础和时机都还不成熟。无论如何,这似乎在冥冥之中开启了自校正调节器与中国的联系,但真正解决这一著名难题是十年之后的事情了。
1980年4月6-20日,瑞典Lund Institute of Technology的K.J.Åström教授访问中科院系统科学所期间,与所长关肇直先生合影
1982年秋,我从山东大学数学系毕业之后考取了中科院系统科学研究所的研究生,导师是陈翰馥先生。在读研究生期间,我并没有把“自校正调节器收敛性理论” 这个难题作为博士学位论文的选题。但是,毫无疑问,研究生期间的经历为我后来的工作奠定了必要基础。
1987年博士毕业后,我即应国际著名控制学家B. D. O. Anderson教授的邀请,赴澳大利亚国立大学系统工程系从事博士后研究,当时那里是国际上少数几个最活跃的自适应控制研究中心之一。我在澳大利亚的主要合作者之一,J. B. Moore教授就是随机自适应控制领域国际著名专家之一。
凑巧的是,系统工程系旁边就是数学系的办公大楼,那里有时间序列分析的国际领头人E. J. Hannan教授、《鞅的极限理论及应用》的作者 P. Hall 和 C. C. Heyde等著名概率统计学家。
利用这得天独厚的条件,我还与当时在数学系访问的黄大威博士和 E. J. Hannan 教授开展了非平稳时间序列方面的合作,并在国际著名统计学杂志上发表了关于无穷阶随机系统最小二乘估计的收敛性成果,以及基于最小二乘的非平稳ARMAX模型中参数与阶数同时估计的收敛性成果,并在研究过程中建立了有关双指标鞅的估计定理。这是一段珍贵而又难忘的经历。
同样令我难忘的是,1988年夏天美国伊利诺伊大学P.R.Kumar教授访问澳大利亚国立大学时,我们一见面就深入讨论起自校正调节器收敛性这一大家都关注的问题。与他的深入讨论和受到的鼓励,进一步激发起我对这一问题的强烈研究兴趣。

8

1989年夏天,您回到中科院系统科学所工作,回国之后您是如何在自校正调节器理论研究上取得突破的?

在刚回国那段日子里,虽然工作和生活条件比较艰苦,但沉浸在科学研究的世界中,常常使我废寝忘食、如痴如醉。任何新科学成果的取得,往往都需要“站在巨人肩上”。虽然当时已经掌握了前人相关研究工作的思想精髓和关键方法,但只具备这些显然不够,还需要有独立创新,走出自己的路。
在屡战屡败、屡败屡战中找不到有效的新研究途径时,也曾对所追求的结论产生过怀疑。但是,自校正调节器在结构上的美妙性以及大量数值仿真的有效性,都坚定支撑着本人对所欲证明的结论的坚定信念。
直到1990年初的一个深夜,我在研究一个时变随机系统问题时,突发灵感,发现从更一般的视角,更容易抓住自校正调节器问题的本质。我在前人智慧的基础上,创造出了分析随机非线性闭环系统的新方法。
具体来讲,就是构造一个形式上的线性时变随机系统,使得一方面,其解能够直接控制非线性闭环系统输入输出信号的幅值,另一方面,又恰好能够利用对某一加权“预报误差”之和上界的精细估计,对其解的增长速度开展行之有效的分析,从而达到证明系统稳定性的目的。这一关键突破,使得最终能合理地解决自校正调节器的全局稳定性与收敛性这一难题。随后,又通过进一步建立经典自校正调节器的对数律,证明了它确实具有最优的收敛速度等。
随着上述自校正调节器理论研究上的突破,随机适应控制领域的研究面貌也从此发生了根本性改变。
众所周知,科学研究成果有不同类型,有的是提出新概念和新问题,有的是发现新现象和新规律,有的是创造新方法和新工具,有的是解决著名难题等。在这些成果中,有的被同行广泛认可的过程可能比较曲折和漫长,但有的却可能很 快就会得到同行认可。对著名难题的研究解决往往属于后者,因为在其还没有被解决之前就已经受到同行广泛重视了。上述关于自校正调节器的研究成果就属于“幸运”的这一类。 

9

正如您之前所提到的,自校正调节器的理论基础在本质上是数学问题,这对我们今后的研究有哪些启示?

自校正调节器在数学上是由一组非线性与非平稳的随机动力学方程组所描述,这一方程组是根据“最小二乘估计”和“最小方差控制”这两个“最优性原理”在线耦合而产生的,其结构相当自然和美妙。
正因为如此,人们在理论研究中遇到“无法逾越”的困难时,往往对系统的动态性质作一定“直观”假设,但其本质往往是对系统的运动轨线(或状态信息)的先验假设,从而会导致理论研究中的“循环论证”现象。值得指出的是,类似的现象,在某些其它非线性系统问题研究中也存在。例如,在多自主体系统同步性理论研究中对系统运动状态的“连通性”假设等。
实际上,复杂系统中不同因素之间常常是相互联系、相互影响、相互依赖的。在自校正调节器理论研究中取得的突破,主要得益于在研究方法上对 G. C. Goodwin等人的基于“关键技术引理”分析框架的突破。从根本上讲,得益于从更一般的时变系统的角度来审视该问题。正如著名数学家希尔伯特(D. Hilbert)在1900年国际数学家大会上所作的著名演讲《数学问题》中所讲的:“在解决一个数学问题时,如果我们没有获得成功,原因常常在于我们没有认识到一般的观 点”。
此外,控制器中的参数通常是系统模型参数的某种组合,真正影响控制器性能的是这种“组合参数”。因此,在自校正调节器研究中,重点对 “预报误差”进行分析和恰当利用,可以避免“孤立”考虑参数估计自身的收敛性,而直达控 制问题的本质和控制目的。然而,最小二乘算法直接给出的往往是对“后验”预报误差的估计,而自适应控制的构造往往需要“先验”预报误差,这就需要利用两者之间数学上的等价转化,才能进行相关理论分析。这使人想起我国著名计算数学家冯康先生的一句名言“等价未必等效”。

10

在对数学工具的利用上,您又有哪些感悟呢?

在自校正调节器的理论研究中,现代概率论中的鞅(martingle)收敛定理和相关的鞅估计定理,发挥了关键作用。可能有人会问:如果系统的噪声是常用的白噪声(或零均值独立同分布随机序列),那么鞅论是否还是必要的分析工具? 我认为,答案是肯定的。
正如前面所说,在自校正调节器控制下,闭环非线性系统的输入和输出信号(除了可测性之外)没有任何先验性质可以在研究中直接利用,但此时利用鞅估计定理,仍然可以对我们感兴趣的随机序列给出精致的上界估计,从而在理论分析中能够避免本文中提到的“循环论证”,最终建立闭环控制系统的的全局收敛性和最优性等。
这说明掌握相关重要数学工具并进行细致数学分析的必要性。1946年爱因斯坦在其自述中曾说“在物理学中,通向更深入的基本知识的道路是同最精密数学方法联系着的”。在自校正调节器研究中又何尝不是如此呢? 本人相信,面对复杂随机系统研究和非平稳非独立复杂数据分析,鞅的各种理论将继续发挥重要作用。

11

您多次提到包括自己研究成果在内的自校正调节器的研究进展是在汲取前人的智慧上一步步完成的,在这方面您的体会是怎样的?

的确,与历史上许多科学成果一样,这项研究成果也毫无例外地汲取了若干前人的研究精华。例如,G. C. Goodwin,P. Ramadge 和 P. E. Caines 的成果,首次证明了基于随机梯度算法的自适应控制收敛性问题,虽然他们的方法无法直接应用到基于最小二乘算法的自适应控制这一更重要和更困难的情形,但是该文确实为进一步研究这一理论难题带来了希望,所用的分析方法也有重要启发借鉴意义。
再例如,作为自校正调节器的一个关键组成部分,随机回归向量模型最小二乘算法,虽然很难被“孤立”起来而证明其收敛性,但是,毫无疑问,对最小二乘算法进行深入的分析研究是必要基础。在这方面,著名统计学家黎子良(T. L. Lai)和魏庆荣(C. Z. Wei)取得了深刻而又漂亮的成果,其中相关结果和方法为自校正调节器理论的最终突破奠定了关键基础。这再次说明充分掌握前人研究中关键思想、方法与结论的重要性。
无数历史事实说明,科学研究中的“突破”往往是在前人基础上迈出了“关键的一步”,而这“一步”往往也是在战胜无数困难挫折后取得的,这使得其更有价值和意义。此外,与相近学科领域深度交叉以及与相近领域科学家(包括工程科学家)的深入交流,也毫无疑问是十分重要的。此外,著名同行专家对自校正调节器收敛性这一难题的持续热切关注,以及其他领域科学家在不同难题上取得突破性进展的事迹,也都曾激励过本人。

12

自校正调节器研究与你后来开启反馈机制最大能力研究有关系吗? 

有的,还是有密切关系的。虽然在过去半个多世纪中现代控制理论取得了显著而丰富的发展,但仍有许多基本问题尚未得到解决。
例如,众所周知,实际控制系统的数学模型往往表达为连续时间的微分方程, 而计算机的发展又使采样控制成为普遍采用的方法,这意味着实际闭环控制系统一般是连续与离散信号耦合的混杂系统。迄今为止,在连续时间非线性控制理论的研究中,绝大多数都是针对连续时间控制器的(相当于采样频率无穷大情形)。 
然而,在实际应用中,无论是计算或通讯能力,还是传感器与执行机构的物理限制等,一般都不允许采样控制的频率任意大,这就产生了一个根本性理论问题:对于预先给定的采样频率,如何利用采样数据实现对非线性不确定性系统的有效控制? 目前控制理论的进展还远不能完全解答这一基本问题。
其难点在于能否以及如何利用当前的采样信息来对付在未来相继一个采样周期内系统结构的复杂性、不确定性和外界扰动等因素对系统性能的影响。由于在连续时间控制研究中通常不考虑采样问题,这些因素的影响常常可以通过高增益或非线性阻尼等方法来有效对付,但它们对给定采样频率的采样控制系统就不再那么有效了,这是采样控制系统与连续时间控制系统在理论研究上的一个根本差别,也是研究难点所在。
正如我们所讲的自校正调节器理论,正是在给定采样频率下,对具有未知参数的线性随机系统采用基于最小二乘的采样自适应反馈控制,通过克服相应困难建立了闭环系统的全局稳定性和收敛性理论。相关结果可以推广到一大类离散时间参数化非线性不确定性系统的控制,只要相关非线性动态具有线性增长速度。
然而,当非线性动态具有超线性的增长速度时,建立相应的自适应控制理论就会遇到本质性困难。有些出人意料的是,这个困难不仅只是对某一个特定的控制算法从数学上进行研究的困难,而且更重要的是,我们发现对具有不确定性的非线性系统,反馈机制(所有反馈规律的集合)自身的控制能力存在根本的局限性。这就导致了对“反馈机制对付不确定性的最大能力”这一基本科学问题的提出和探索,以及一系列新发现或实质进展。毫无疑问,这一研究与自校正调节器研究一样,不仅具有重要的理论及实际意义,而且还能产生一系列新的具有挑战性的数学问题。

所以说,科学研究是无止境的!

本文作者:馨雨

内容改编自郭雷院士2012年在《系统科学与数学》上发表的《回溯自校正调节器研究之路》一文。点击左下方“阅读原文”获取原文链接。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
湖南师大副校长谢资清:享受数学之美
单片机常用温度控制算法
学术︱基于精确线性化理论的超级电容储能系统的非线性控制算法
电力系统的潮流计算
飞控漫谈,先进控制理论到底有什么用?
倒立摆的故事
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服