基于多代理的交通信号优化

原创于 2025-10-15 05:02:45 发布 · 778 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#多代理 #交通信号 #数学规划 #在线协调 #优化控制

基于多代理的城市交通信号控制系统优化

1. 引言

交通信号控制是一种简单而有效的解决方案，可缓解拥堵并最大化交叉口通行量（Xu, Ye, Sun, & Wang, 2016）。已有多种技术和方法被开发用于优化交通信号控制（Ghanim & Abu‐Lebdeh, 2015；Lee, Abdulhai, Shalaby, & Chung, 2005；Ye & Xu, 2017），然而，这些方法通常仅适用于孤立或少量的交叉口（Abdoos, Mozayani, & Bazzan, 2013）。对于由多个交叉口组成的大规模路网，由于复杂性增加，高效优化信号在计算上具有挑战性。本文提出了一种基于智能体的分布式控制方法，可用于应对这一复杂性。

多代理技术（MAT）是基于代理的方法的延伸，其中每个智能体都是自主的，能够基于自身收集的信息解决控制问题。同时，这些智能体可以相互协商与协作，以实现共同目标。通过这种方式，MAT将一个庞大而复杂的系统划分为若干易于管理的小型子系统。使用MAT的益处在于大型系统包括：(1) 更高的稳定性和可靠性，当某些智能体由于干扰而无法完成任务时，其他智能体可以通过协作来接替并完成任务；(2) 更高的计算效率，因为分层代理支持并行计算；(3) 可扩展性，可灵活添加异构代理以处理大规模网络（Chen & Cheng，2010）。这些优势使得多智能体技术在解决复杂的现实问题中广受欢迎。它已被广泛应用于城市土地规划（Parker, Manson, Janssen, Hoffmann, & Deadman，2003）、零售市场选址（Heppenstall, Evans, & Birkin，2007）以及能力成熟度模型评估（Lee & Wang，2009）。得益于智能体的通信能力，多智能体技术能够专门应对具有冲突目标的个人或组织之间的交互问题。在交通网络中，每个交叉口倾向于最大化自身的通行量，但这可能会给下游交叉口带来巨大压力。因此，有必要研究多智能体技术，以平衡一个交叉口不同进口道之间以及网络中各个交叉口之间的冲突需求。

许多城市已成功应用实时交通控制系统，如自适应控制系统（SCOOT）、绿波带确定系统（GLIDE）和悉尼协同自适应交通系统（SCATS），用于管理由相互连接的交叉口组成的大规模城市交通网络的运行。这些系统通常利用控制中心对原始交通信号配时方案（包括周期时长、相位顺序和相位分配）进行优化，并调整该方案（例如，实现公交信号优先）。然而，这种集中式系统在处理发送至中央服务器的大量信息以及利用相关信息提升交通运行效率方面面临巨大挑战（Chen & Cheng，2010）。网络规模的增加可能进一步加剧这一问题。

采用基于代理的技术的分布式系统可有效避免此问题，其中每个代理根据本地及相邻交叉口的交通需求信息独立控制单个交叉口（Balaji & Srinivasan，2010）。

事实上，近年来用于控制城市交通网络的多代理技术已受到广泛关注（Vasirani, Kl€ugl, Camponogara,&Hattori, 2015）。例如，许多研究在其多智能体交通控制系统中采用基于模型的强化学习方法来更新信号配时。Steingr€over 等人（2005）开发了一种基于模型学习智能体的多智能体交通信号控制器。这些智能体通过其状态变量（即车辆等待时间、交通灯状态、距上次信号切换的时间）进行训练，以最大化信号切换带来的奖励。

Arel, Liu, Urbanik 和 Kohls（2010）提出了一种类似的控制系统，该系统利用基于模型的强化学习（RL）方法优化网络中的交通信号，旨在最小化所有车辆’的行驶时间。然而，基于模型的强化学习方法灵活性较差，因为它忽略了干扰因素（例如车道变换）（Aziz, Zhu, & Ukkusuri,2018）。由于交通流量模式存在内在不确定性，该方法适应现实情况的能力有限。相反，Q学习作为一种无模型强化学习算法，无需预先指定环境模型，因此可用于动态非平稳环境。Prashanth 和 Bhatnagar（2011）以及 Abdoos 等人（2013）使用 Q学习方法优化信号配时方案，以减少车辆总延误。

此外，将模糊逻辑与多代理系统相结合在提高交通效率方面也取得了巨大成功网络信号控制（Kosonen，2003；Murat & Gedizlioglu，2005）。在这些研究中，基于一型模糊逻辑对信号配时（即最大绿灯时间、最小绿灯时间等）进行调整。在此逻辑下，隶属度（对每个输入的不确定性度量）被假定为常数，这可能会低估规则和输入的不确定性水平。二型模糊逻辑通过为隶属度分配一个取值范围而非单一常数值来克服这一局限性。这样，二型模糊逻辑不仅保证了模糊性，还提供了对交通信号控制更优的近似效果。Balaji 和 Srinivasan（2010）以及 Bi、Srinivasan、Lu、Sun 和 Zeng（2014）采用二型模糊推理系统，通过最小化所有车辆的平均行程延误来优化交通信号时间。

交通控制优化的另一个研究分支集中在使用遗传算法（GA）上。Mikami和Kakazu（1994）提出了一种基于模型的强化学习方法，用于在多智能体控制模型系统中优化信号配时参数。每个智能体独立学习以生成一组参数，中央控制模块随后收集这些参数集，并利用遗传算法（GA）确定全局最优参数集。在Shen、Wang和Zhu（2011）开发的多智能体控制系统中，采用遗传算法最大化在特定时间内离开路网的车辆数。Liu和Liu（2011）利用改进的遗传算法，对城市干线实施协调控制下的交叉口信号配时方案进行了优化。

在上述关于基于多智能体的交通控制系统的研究中，大多数研究采用软计算技术（例如强化学习、模糊逻辑和遗传算法）来获取交叉口的实时绿信比。很少有研究涉及使用解析方法（如数学规划和最优控制）来优化控制参数。此外，大多数软计算模型是基于专家经验的规则型控制方法，可能无法满足未来城市交通系统的需求。为弥补这一空白，本研究提出一种基于数学规划模型的多智能体交通控制系统，以优化交通信号配时并提升交通网络的性能。本文采用感应控制而非传统的定时控制，以应对交通输入的不确定性。

此外，旨在为干线通道中的车辆车队提供平稳通行的信号协调，对交通运行效率具有显著影响。典型协调方案会调整信号配时（例如，相位差、相位划分）

示意图0

通过在路段内每个交叉口的推进来实现协调。然而，这种协调是离线的，通常会在交通环境中因某些意外情况（如随机需求）而中断。因此，本研究以典型协调方案作为初始计划，通过不同交叉口控制代理之间的通信，开发了一种在线协调方案。这两种协调方案的协作将在很大程度上提高信号协调的效率。

本研究的其余部分组织如下。第2节介绍了多智能体城市交通网络控制系统的架构。接着，在第3节中提出了该多智能体系统的控制规则和数学模型。然后在第4节通过案例研究对所提出方法的性能进行评估。最后，第5节总结了发现并得出论文结论。

2. 多智能体交通控制系统的架构

图1 展示了所提出的用于城市路网的多智能体交通控制系统结构。它是

由两个紧密相关的组件构成，即交通运行系统和信号控制系统。这两个组件可以通过位于交通运行系统中的分层多智能体系统（HMAS）相互通信。具体而言，HMAS将收集用于信号控制的基本信息，包括车速、车辆行驶时间、车辆位置和交通量，并利用这些信息优化信号配时方案。

所提出的HMAS是一个分布式决策控制系统（见图1），具有三层–层级结构。交叉口控制器代理（ICAs）位于最底层，根据各交叉口采集的交通运行信息确定信号配时。子区域控制器代理（SZCAs）位于中间层，主要负责设定子区域内部 ICAs之间的信号协调。作为最高层的智能体，网络控制器代理（NCAs）将与SZCAs和ICAs进行通信，获取它们的控制方案，并对其进行评估和调整，以实现整个交通系统的全局优化。与传统的HMAS （Balaji & Srinivasan，2010）不同，所提出的 HMAS不仅考虑了不同层之间智能体的通信，还允许同一层级内智能体之间的通信。

不同的区域控制器（ICAs）将与其相邻的区域控制器交换交叉口运行信息（例如交通流量、车速、排队长度），以调整和更新自身的信号配时。通常情况下，区域控制器会将交叉口信息（包括交通流量、信号配时、相邻交叉口间距等）传输给其对应的子区协调代理（SZCAs），由子区协调代理确定信号协调方案，随后将获得的协调方案传回给相应的区域控制器。不同的子区协调代理之间会就协调方案进行通信，并判断是否存在冲突，因为一个交叉口可能同时属于两个不同的子区协调代理。如果该交叉口的信号协调方案存在冲突，子区协调代理将向网络控制代理（NCA）提供其交叉口信息，由网络控制代理确定最终的协调方案并反馈给子区协调代理；最后，子区协调代理将其协调方案发送给各自的区域控制器。此外，网络控制代理还将确定子区协调代理的区域划分。

3. 方法论

3.1. 假设与符号

提出的方法基于完美通信的假设进行建模交叉口控制器以及关于车辆到达和交叉口车道容量的完整信息。此外，周期长度是固定的，相位顺序和相位设计是预先确定且固定的。还假设交叉口每个进口道的容量是固定的，不受交通状况影响。

为了便于描述提出的方法，下文所使用的变量和参数的符号在表1中进行了总结。

符号	说明	定义	参数
ak,i	0‐1二进制数据（当第k相位先于第i相位时为ak;i ¼ 1，否则为ak;i ¼ 0）
gmin	相位i的最小绿灯时间
gmax i	相位i的最大绿灯时间
I	相位集合
Ic	协调相位集合
si	第i相位的饱和流率
t0	优化时域的初始时间
tjG;i	第j周期中相位i∈Ic的协调请求生成时间
yi	第i相位的黄灯清空时间
b	第j周期中相位i∈Ic因缺乏协调导致下游交叉口延迟的权重
e	由于提前绿灯导致的下游交叉口车辆延误系数
h	一个二进制参数，如果车辆到达停车线的时间晚于其对应绿灯相位的开始时间，则h ¼ 1；其中h ¼ 0表示车辆比绿灯起始时间更早到达停车线的情景
qj;i	第j周期第i相位的车辆到达率
C	周期时长
CVm	动态规划算法中阶段m的控制变量
dC j;i	当前交叉口第i相位在第j周期的总车辆延误
djD;i	第j周期中，由于相位i∈Ic在相邻下游交叉口缺乏协调而造成的总车辆延误
ej;i	第j周期相位i感应控制的灵活绿灯时长
gj;i	第j周期中第i相位的基准绿灯时间
qj;i	第j周期中第i相位的残余排队长度
RFm	动态规划算法在阶段m的返回函数
SVm	动态规划算法在阶段m的状态变量
tj;i	第j周期中第i相位的起始时间
xj;i	饱和度
kj;i	第j周期第i相位的绿灯时长
sj	第j周期的起始时间

3.2. 多智能体控制系统的模型和/或规则

每个智能体都是一个并发逻辑处理单元，具有一定的自主性。它可以根据从相应子系统收集到的信息，独立且本地地确定控制规则以管理子系统。然而，它并非完全独立。当接收到任何层级其他智能体发出的协调请求时，它将与这些智能体进行协商，以实现它们的共同目标。

接下来，我们将介绍三种智能体（即NCA、SZCA和 ICA）的功能，并为其运行制定具体的控制模型和/或规则。

3.2.1. 网络控制代理的控制规则

中央控制器NCA负责管理网络的整体性能，但不处理信号直接进行定时控制。相反，它将实时的全网信号控制问题分别划分为中间层和底层的一组子问题。然后，在其层级结构中为每一层分配相应的智能体（即SZCAs和ICAs）来解决对应的子问题。

NCA负责确定SZCA的区域划分，即每个子区域由一个SZCA进行控制。划分方法将直接影响子区域内交叉口的拓扑结构，从而需要采用不同的控制方法。本文中，我们根据主干道来确定子区域。具体而言，每条干线走廊上需要进行协调的交叉口构成一个子区域，而所有次要道路上的其他交叉口则被归为一个子区域。通过这种方式，每条主干道的信号协调可由其对应的SZCA实现，而非协调的交叉口（位于次要道路）则由其自身的ICA进行简单控制。SZCA将通过向NCA发送相关交通数据（如交通需求、交通环境和交通运行状态）与其进行通信。NCA将据此评估城市交通系统的整体性能，以实现对整个系统的管理和控制。

3.2.2. SZCA的控制规则

信号协调对交通信号控制的性能有显著影响，其部署旨在通过优化相位差、绿信比和周期时长，实现车辆在走廊上的平稳通行，使其无需停车即可通过走廊。中间层中的SZCAs旨在进行协调控制。

为了实现适应实时交通状况的在线协调，首先制定一个初始协调方案。该初始方案基于来自区域控制器的交通需求和速度的历史信息进行设计，目标是最大化绿波带宽度。我们采用传统方法来实现信号协调（Xu 等，2018）。当多个干线共享一个交叉口时，绿波带宽度将根据冲突交通流的交通需求按比例分配。在正常情况下，交叉口由该离线生成的协调方案控制。需要注意的是，初始计划可以通过多种其他方法获得，这些方法在文献中已有广泛研究（例如，Ma 等，2016）。由于这不是本研究的重点，我们仅采用传统方法获取初始配时方案。当一辆接近交叉口的车辆发出协调请求（该请求不符合初始计划）时，在线方案将被激活，并决定是否批准该请求。在线方案由区域控制器控制，可通过与上游交叉口控制代理的实时通信来考虑交通运行信息以实现。

3.2.3. ICA的控制模型

我们假设单个交叉口由感应信号控制。与定时控制不同，感应控制的绿灯时间是灵活的，它由两部分组成：基准绿灯时间和可变绿灯时间（见图1），其中基准绿灯时间必须得到保证，而可变绿灯时间是可选的。感应控制的绿灯时间实施分为两个阶段。

首先，相位i的绿灯时间将持续gj;i秒。之后，控制器执行感应控制逻辑，决定是否为每个检测到的车辆增加相位i的可变绿灯时间。具体控制逻辑（见图 2）为：对于相位i，当基准绿灯时间结束时，ICA 将接收此后到达交叉口的车辆发出的请求，以执行灵活绿灯时长，同时相位i þ 1

示意图1

将请求启动其基准绿灯时间；如果第i相位的请求获得批准，则将增加灵活绿灯时长；否则，将启动第 i相位的基准绿灯时间þ 1。一个交叉口通常包含多个相位。因此，如何分配有限的绿灯时间以满足各相位的请求并确保整个交叉口的运行效率，是区域控制器（ICAs）需要解决的关键问题，也是本论文的主要贡献。

对于城市干线上的交叉口，初始协调方案将首先在相应的ICA中实施。然后，ICA将根据实时交通流模式，综合考虑当前交叉口的效益以及对下游交叉口的影响，对初始协调方案进行调整。由此，可为车辆通过下游交叉口时形成“绿波”，使其无需停车。具体过程（见图2）是：上游交叉口方向驶来的车辆将向控制下游交叉口的ICA发送协调请求，ICA需权衡协调相位的行程时间节省与侧向交通增加的延误，判断是否批准该请求，下文将对此进行数学建模。ICA通过比较请求时间与协调相位的绿灯起始时间来决定其控制策略。如果前者晚于后者，则请求协调的车辆无法在绿灯时间结束前通过交叉口。在此情况下，生成绿灯延长请求（在相位末尾增加绿灯时间）；否则，生成红灯截断请求（在相位开始前增加绿灯时间）。此类请求的批准与否及所授予的绿灯时间长度将由以下数学规划（MP）模型确定。

为了有效设计考虑在线协调的交通信号配时，我们建立了一个MP模型，如公式1–10所示，其目标是最小化当前交叉口及下游交叉口客运车辆的加权延误。目标函数中的第一项是由于当前交叉口到达与消散不匹配所导致的总延误。第二项是由于下游交叉口协调性损失所产生的延误。请注意，b是固定的，其值由交通需求决定。当交通需求较低时，协调带来的效益不显著，因此b可以取一个相对较小的数值。即 b2 (0, 0.5]。在高峰时段交通流量增大时，协调对于减少干线上的总延误起着重要作用。因此，b 应该更大以有助于保持协调，其范围为[0.5, 1)。

$$
MP \left( \right) Minimize \sum_j \sum_i \left(1 - b\right) \cdot d_{j}^{C,i} + \sum_j \sum_{i \in I_c} b \cdot d_{j}^{D,i}
\quad (1)
$$

$$
\sum_i \left(g_{j,i} + e_{j,i} + y_i\right) = C, \forall i,j \quad (2)
$$

$$
t_{j,i} = s_j + \sum_{k \in I} a_{k,i} \cdot \left(g_{j,k} + e_{j,k} + y_k\right), \forall i,j \quad (3)
$$

$$
s_1 = t_0 \quad (4)
$$

$$
g_{j,i} \geq g_{min}, \forall i,j \quad (5)
$$

$$
g_{j,i} + e_{j,i} \leq g_{max}, \forall i,j \quad (6)
$$

$$
q_{j+1,i} \geq q_{j,i} + q_{j,i} \cdot \left[t_{j+1,i} + g_{j+1,i} + e_{j+1,i} - t_{j,i} - g_{j,i} - e_{j,i}\right] - s_i \cdot \left(g_{j+1,i} + e_{j+1,i}\right), \forall i,j \quad (7)
$$

$$
d_{j}^{C,i} \geq \frac{C \cdot \left(1 - k_{j,i}\right)^2}{2 \cdot \left(1 - k_{j,i} \cdot x_{j,i}\right)} + \frac{q_{j-1,i}}{q_{j,i}}, \forall i,j \quad (8)
$$

$$
d_{j}^{D,i} \geq h \cdot \left(t_{j,i} - t_{jG,i}\right)^+ + \left(1 - h\right) \cdot e \cdot \left(t_{jG,i} - t_{j,i}\right), \forall i \in I_c,j \quad (9)
$$

$$
C,d_{j}^{C,i},d_{j}^{D,i}, e_{j,i},g_i,q_{j,i}, t_{j,i}, t_{jG,i},k_{j,i},s_j \geq 0, \forall i,j \quad (10)
$$

方程 2 确保周期时长等于所有相位持续时间之和。方程 3 表示从传统信号配时方案中感应控制的表示形式所获得的相位起始时间，如图1所示。方程 4 表明 t0被定义为第一个周期的起始时间，而方程 5 和方程 6 通过设置最小和最大阈值来限制分配给每个相位的绿灯时间。这可以在非协调相位上部分缓解过饱和现象。

方程 7 对交叉口在第 j 个周期相位 i 起始时刻的队列动态进行约束i在周期 j + 1。方程 8 计算当前交叉口的车辆延误，该延误源自以下延误估计模型。

$$
d_{j}^{C,i} = \frac{C \cdot \left(1 - k_{j,i}\right)^2}{2 \cdot \left(1 - k_{j,i} \cdot x_{j,i}\right)} + \frac{q_{j-1,i}}{q_{j,i}} + \frac{\left(1 - k_{j,i}\right) \cdot D_{j,i}}{2 \cdot s_i \cdot \left(1 - k_{j,i} \cdot x_{j,i}\right)^2}, \forall i,j \quad (11)
$$

一些研究（例如，Chen, Sun, & Qi, 2017；Hutchinson, 1972）表明，方程 11 是最基本且应用最广泛的延误估计模型，能够满足实际交通需求（Chen 等人，2017）。第一项预测平均基于均匀到达假设的车辆，而第二部分是相位i−1的残余队列所产生的延误。最后一项反映了由随机车辆到达引起的额外延误。然而，Cheng, Du, Sun, 和 Ji（2016）指出，由于在确定到达变异性Dj,i时通常精度较差，为计算方便起见，可忽略方程 11中的第三项。因此，本文中我们忽略第三项，使用方程 8进行延误计算。

公式9 计算干线通道协调不足的惩罚，其中h ¼ 1表示绿灯延迟启动的情况，而h ¼ 0对应绿灯提前启动的情况。注意，如果相位i的绿灯起始时间晚于协调请求时间，则会产生tj;i−tjG;i的延迟。当相位i的绿灯起始时间早于协调请求时间时，可能导致请求协调的车辆未能在相位i绿灯结束时间前成功通过交叉口。因此引入参数e来描述这一现象，从而由绿灯提前启动引起的延迟为e（tjG;i−tj;i）。

需要注意的是，上述MP模型用于根据第3.2.2 节中讨论的预先确定的初始配时方案来计算绿灯时间调整。基础绿灯时间gj;i可能由于红灯截断请求而被缩短，而绿灯延长ej;i则可能由于协调需求或该进口道的大流量请求而增加。在MP的当前表述中，假设在周期开始时所有相位的车辆到达信息均已知。这是许多基于优化的自适应控制方法中的常见假设，其中实时需求可通过上一周期或上游交叉口获取的信息进行估计（Ma等，2016）。此处采用Tan、Park、Liu、Xu和Lau（2008）提出的自适应预测模型来获取车辆到达信息。然而，该预测存在不准确性。实际上，相位i的需求信息直到相位i结束时才完全可知。换句话说，相位i的绿灯时间调整应在未知相位i + 1; i + 2;:::jIj需求信息的情况下进行优化。因此，本研究采用逐相位动态优化方法，将在第 3.3节中详细说明。相位i的绿灯时间调整基于截至相位i开始时刻的所有可用到达信息进行，因此仅会影响相邻相位i−1（在红灯截断情况下的 i＋ 1（绿灯延长情况）。

3.3. ICA控制模型的求解算法

动态规划用于求解第3.2.3节中建立的优化问题。在此，我们将交通信号配时的优化过程根据相位划分为多个阶段——每个相位为一个阶段，在该阶段中应更新控制参数，以最小化一个周期内的总延误。

优化时域等同于系统周期长度C，并被划分为T个控制时间间隔，每个间隔持续l秒。控制时间间隔用于确定优化频率。为了便于理解求解过程，我们给出该算法中变量和表达式的定义如下。

控制变量，CV
控制变量CVm用于阶段m，表示分配给阶段m绿灯时间的控制时间间隔总数。例如，当控制时间间隔时长为l = 2秒，且控制变量为CVm = 10时，相位m的绿灯时间为CVm × l = 20秒。此处CVm的可行值为 {⌊gj,m/l⌋, ⌊gj,m/l⌋+1, ⌊gj,m/l⌋+2, …, ⌊(gj,m + ej,m)/l⌋}。

状态变量，SVm
状态变量SVm计算在阶段m结束时已分配的控制时间间隔的总数量。然后我们可以得到

$$
SV_m = SV_{m-1} + CV_m + \frac{y_m}{l} \quad (12)
$$

该式表明，在阶段m结束时已分配的控制时间间隔数量等于前一阶段m−1结束时已分配的时间间隔数量、分配给相位m绿灯的时间间隔数量以及分配给相位m黄灯的时间间隔数量之和。

转换函数
效益指标。转换函数可以是当前的车辆延误交叉口或下游交叉口的车辆延误。

返回函数，RFm
控制交叉口及下游交叉口的加权车辆行驶延误累积值。

最后，给出具体的求解算法如下。

步骤1 ：设置 m = 1。进入下一步。
步骤2 ：当存在对相位m的灵活绿灯时长和/或在线协调请求时，确定控制变量CVm的可行值。
步骤2.1 ：初始化。通过设置CVm = 1为相位m分配一个控制时间单位，然后进入步骤2.2。
步骤2.2 ：判断变量tj,m, sj, gj,m, ej,m, qj,m, djC,m和 djD,m是否满足所提模型在公式2–10中的ICA约束条件。若满足，则CVm的值为一个可行解，然后进入下一步；否则，转至步骤5。
步骤3 ：对于每个可行值，计算返回函数的值。
如果请求的是在线协调且需要红灯截断策略，则相应的表达式为

$$
RF_m = \sum_{m}^{m-1} a \cdot d_{j}^{C,m} + \sum_{m \in I_c} b \cdot d_{j}^{D,m};
$$

或者，如果请求应用灵活绿灯时长和/或在线协调的绿灯延长策略，则相应的表达式形式为，

$$
RF_m = \sum_{m+1}^{m} a \cdot d_{j}^{C,m} + \sum_{m \in I_c} b \cdot d_{j}^{D,m};
$$

然后进入下一步。
步骤4 ：确定在步骤3中最小化返回函数的控制变量CV*m，然后转到步骤5。
步骤5 ：设置CVm = CVm + 1。如果CVm ≤ gmax / l 且 gj,m ≥ gmin，则转至步骤2.2；否则，继续下一步。
步骤6 ：如果 m ≤ |I| 且 SVm ≤ T，则设置 m = m + 1 并转到步骤2；否则，进入下一步。
步骤7 ：选择使返回函数最小的最优相位分配作为最优解。

4. 案例研究

本节评估所提出的基于多智能体的网络控制系统性能。测试网络包含16个交叉口和38条双向路段（网络布局见图3）。主干道每条路段包含三条车道，而支路每条路段有两条车道。车辆通过网络边界上的14个源点进入测试网络。每个输入交叉口的交通需求约为750辆/小时。车辆随机到达交叉口，其到达服从泊松分布。此外，主干道交叉口的左转、直行和右转车辆比例分别为10%、70%和20%。支路交叉口的左转和右转比例分别为30%和70%。

本研究选用MATLAB作为编程语言，结合组件对象模型(COM)接口的VISSIM作为仿真环境，构建仿真平台。MATLAB用于设计多代理系统并求解动态规划问题。所提出的HMAS充当实际的交通信号控制器，实现感应控制和协调控制。通过COM接口将VISSIM与MAS连接，该接口可使用编程语言（本例中为MATLAB）进行编码。

4.1. 仿真结果分析

采用三种交通信号控制方法与提出的方法进行对比分析，包括无代理的常规感应控制方法（No agents）以及Shen等人提出的多智能体信号控制方法（2011）（方法1），以及Abdoos等人（2013）设计的多智能体信号控制方法（方法2）。

每种方法在仿真平台上运行180分钟，并使用不同的随机种子重复10次。此外，我们设控制时间间隔l = 1和权重参数b = 0.3。平均行程延误和平均行驶速度被选为主要的性能指标。由于方法2中的强化学习（RL）遵循动态规划（DP）框架，我们首先在提出的方法中比较RL和DP的计算时间。

在180分钟的仿真后，提出的方法和方法2在所有请求场景下分别平均花费26.2毫秒和25.7毫秒来获取绿灯时间。这是合理的，因为RL是对目标函数的值进行近似而非精确计算。性能指标的具体结果随后在图4、表2和3中给出。

示意图2

示意图3

图4 描述了在不同类型信号控制方法下，仿真网络中车辆的平均延误和平均行驶速度的演变过程。起初，在所有四种控制方法下，车辆延误增加而速度降低。这是由于仿真网络中的交通量增加所致。车辆持续进入网络并随时间推移逐渐填满整个网络。“无代理”的常规感应控制方法性能随着网络饱和而迅速恶化。换句话说，在“无代理”情况下，总体通行能力低于车辆到达率。另一方面，其他三种多智能体方法（即方法1、方法2并且所提出的方法）由于能够通过优化交通信号配时使更多车辆离开网络而趋于稳定。表2 展示了四种控制方法在每个时间段内网络中滞留车辆的数量。

我们可以观察到，所提出的方法在网络中的车辆数量最少，表明其在交叉口清空车辆方面具有更强的能力。此外，图4 表明，对于所提出的方法，行程延迟的变化约在40分钟时趋于稳定，方法2为70分钟，方法1为90分钟，无代理情况为160分钟。车速达到稳态的时间分别为60分钟、100分钟、120分钟和160分钟。这表明所提出的方法在延迟和车速不再显著变化的意义上最早达到了稳态，说明该方法比其他控制方法更可靠。

此外，提出的方法在延误减少和车辆速度提升方面优于其他方法（见图4）。这是因为另外两种多智能体方法利用软计算技术（如遗传算法和强化学习）来获取信号配时。而提出的方法致力于根据车辆的实时运行状态，为道路网络中的每个交叉口分配最优信号配时。这将显著提高道路网络的运行效率。

表2。不同控制方法下网络中滞留的车辆。
仿真时间

00:30:00
01:00:00
01:30:00
02:00:00
02:30:00
03:00:00

表3. 与其他控制方法相比在延迟和速度值上的百分比改进。
参数

平均行程延误 (s)
延迟的标准差
平均行驶速度 (km/h)
速度的标准差

提出的方法相应的改进分别为38.39%、26.02%和16.82%。此外，提出的方法在行程延迟和行程速度方面的平均标准差小于其他方法。较高的标准差意味着数据分布较广，表明相应的控制方法可靠性较低。这进一步证明了提出的方法更加可靠。

4.2. 敏感性分析

交通需求通常在一天中的不同时段有所变化。一种实用的交通信号控制方法应能在不同的交通需求下平稳运行。为了验证提出的方法的自适应能力，我们选取了三个交通需求值，即7000辆/小时（场景1）、14000辆/小时（场景2）和21000辆/小时（场景3），分别代表轻、中、重三种交通状况，以进行敏感性分析。随后，选择车辆的平均行程延误和平均速度作为提出的方法在不同交通需求下的性能指标。

示意图4

示意图5

结果表明，随着交通需求的增加，所有方法的平均行程延误增加，而平均行驶速度降低。在轻度交通情况下，所有方法的性能相似。与无代理、方法1和方法2相比，提出的方法分别将延误减少了17.63%、7.16%和8.25%，同时平均速度分别提高了18.50%、7.81%和8.62%。然而，在重度交通情况下，提出的方法性能优于其他方法。以平均行程延误为例，该方法相对于其他三种控制方法的改进分别为43.38%、33.38%和24.80%。在平均行驶速度方面也存在类似现象。其原因是提出的方法增加了离开路网的车辆数量，并提高了交叉口智能体之间协调的效率。

为了进一步验证本研究提出的在线协调方案的作用，引入了另一种控制方法（初始协调方法）以在不同场景下进行对比分析。该初始协调方法与提出的方法相同，只是其始终采用将其初始协调方案作为协调方法。对比结果如图7所示。我们可以观察到，所提出的方法在所有交通需求场景下的性能均优于初始协调方法。就平均行程延误而言，所提出的方法在场景1中改进了11.27%，在场景2中改进了22.37%，在场景3中改进了31.81%。有趣的是，所提出方法带来的效益随着交通需求的增加而增大。这表明在线协调方案能够有效提升信号协调性能。

示意图6

5. 结论与未来工作

本文提出了一种用于城市交通网络的分布式多智能体信号控制方法。智能体通过求解数学规划模型来控制交叉口的交通信号灯。该方法弥补了先前关于多智能体交通控制系统研究的空白，因为此前很少有研究采用精确方法（即数学规划和最优控制）来优化交通信号配时。同时，采用了一种在线信号协调方案，以保障车辆在交通网络中干线通道上的顺畅运行。

在包含16个交叉口的网络上进行了仿真测试，以评估提出的方法的性能。结果表明，在所有仿真场景下，该方法在平均延迟和平均行驶速度方面均优于常规感应信号控制及两种基于多智能体的方法，并且能够提高交叉口处车辆的放行效率。这些有前景的结果表明，基于所提出的数学规划模型的多智能体信号控制能够有效应对交通网络控制问题。

进一步研究将聚焦于探索基于精确进口道的多智能体交通控制方法，该方法可应用于包含大量相互交叉的干线通道的更复杂交通网络。在这种情况下，为所有通道设置统一的公共周期长度是不合理的，因为它可能导致显著延误增加。其思路是在两条通道的交汇交叉口处将通道划分为两个路段，每个路段由一个SZCA进行控制。划分方案应由中央控制器NCA决定。由于划分完全基于历史需求信息在离线状态下完成，因此不会影响实时调整的模型。然而，两种方法的影响，划分或公共周期长度应进行研究，以了解划分导致的协调性损失所引起的延迟变化，以及公共周期长度设置导致的绿灯利用率低下问题。