由Keemin Sohn教授领导的韩国中央大学的研究小组提出了一种用于交通信号控制的元RL模型。具体来说，该团队开发了一个扩展的深度Q网络（EDQN）结合的基于上下文的元RL模型，用于交通信号控制。

传统的交通信号控制器通常无法处理交通拥堵。现有系统依赖于基于理论或规则的控制器，该控制器负责根据交通状况改变交通信号灯。目标是减少正常交通条件下的车辆延误，并在拥堵期间最大限度地提高车辆吞吐量。然而，传统的交通信号控制器无法实现这种不断变化的目标，而人类控制者只能管理几个十字路口。

强化学习（RL）可以潜在地解决这个问题，但是，强化学习通常在静止的环境中工作，交通环境不是静止的。

“现有的研究已经设计了基于交叉路口几何形状、交通信号相位或交通状况的元 RL 算法，”Sohn 解释道。“本研究根据拥堵水平处理信号控制的非平稳方面。元RL在检测交通状态、对交通状况进行分类和分配信号相位方面自主工作。

该模型的工作原理如下。它通过使用指示整体环境状况的潜在变量来确定交通状况 - 饱和或非饱和。基于流量，该模型要么最大化吞吐量，要么最小化延迟，类似于人工控制器。它通过实施交通信号阶段（操作）来实现。与智能学习代理一样，该行为通过提供“奖励”来控制。在这里，奖励函数设置为 +1 或 -1，分别对应于相对于前一个间隔处理流量的更好或更差的性能。此外，EDQN充当解码器，共同控制多个十字路口的交通信号。

根据其理论发展，研究人员使用商业交通模拟器Vissim v21.0训练并测试了他们的元RL算法，以模拟现实世界的交通状况。此外，首尔西南部由15个交叉路口组成的交通网络被选为现实世界的试验台。在元训练之后，模型可以在元测试期间适应新任务，而无需调整其参数。

仿真实验表明，所提模型可以在没有任何明确交通信息的情况下切换控制任务（通过转换）。它还可以根据交通状况的饱和度来区分奖励。此外，基于EDQN的元RL模型优于现有的交通信号控制算法，可以扩展到具有不同转换和奖励的任务。

尽管如此，研究人员指出，需要一种更精确的算法来考虑交叉点之间的不同饱和度。

“现有的研究已经将强化学习用于具有单一固定目标的交通信号控制，”Sohn说。“相比之下，这项工作设计了一个控制器，可以根据最新的交通状况自主选择最佳目标。如果交通信号控制机构采用该框架，可以产生前所未有的旅行效益。

BY 劳伦·戴森

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。