基于图像的端到端交通信号控制

最新推荐文章于 2025-11-17 05:35:56 发布

原创最新推荐文章于 2025-11-17 05:35:56 发布 · 996 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#深度强化学习 # 交通信号控制 # 背景去除 # ResNet # 端到端学习

IEEE智能交通系统汇刊 1

使用端到端无策略深度强化学习的交通信号控制

朱启丰，IEEE会员，林宇伸，IEEE高级会员，以及李安基，IEEE终身会士

摘要

高效的交通系统可以极大地造福我们的社会，但道路交叉口一直是导致交通拥堵的主要交通瓶颈之一。适应实时交通的合理交通信号配时有助于缓解此类交通拥堵。然而，大多数现有的交通信号控制方法需要大量的道路信息，例如车辆位置。本文聚焦于特定的道路交叉口，旨在最小化平均等待时间。我们提出了一种基于端到端离策略深度强化学习（深度强化学习）智能体并结合背景去除残差网络的交通信号控制（TSC）系统。该智能体以道路交叉口的实时图像作为输入。经过充分训练后，智能体能够根据实时交通状况执行（近）最优交通信号控制。我们在不同的交叉路口场景中进行了实验，并比较了多种TSC方法。实验结果表明，我们提出的端到端深度强化学习方法能够根据交通图像自适应动态交通，并优于其他TSC方法。

索引词 —深度强化学习，深度学习，人工智能，交通信号控制系统，背景去除残差学习。

一、引言

AN 高效的交通系统能够通过顺畅的交通在经济、环境和人类健康等多个方面造福社会。近年来，人们积极研究利用各种技术缓解城市交通拥堵问题。例如，已提出一种动态车道反转路由与调度系统，该系统通过根据实时交通[1]动态调整车道方向来减少交通拥堵。道路交叉口[2],是交通中的一个关键瓶颈，车辆在此必须因红灯而停车。

传统上，我们依赖定时交通信号控制（TSC），其在一个周期内包含“绿灯”、“黄灯”和“红灯”相位，并根据人为决策或历史交通流量设定预设时长。然而，这种定时控制方法无法应对动态交通流量，导致交通控制效果不佳。为了考虑动态交通因素，已提出多种控制方法来优化交通配时。由于高度动态的交通系统存在“维度灾难”，可能导致的状态‐动作对数量极为庞大，使得普通控制方法在计算上难以处理。为克服这一问题，人们将人工智能技术应用于TSC。在这些技术中，强化学习（RL）[3],也称为近似动态规划（ADP）[4],，主要用于解决控制问题，它能够基于对系统的给定观测值学习执行（近）最优动作。作为一种无监督学习技术，大多数强化学习算法是无模型的，因此可以在不需要系统动态等额外系统知识的情况下实现自主学习。强化学习通过使用神经网络来逼近状态‐动作对的相应代价函数，从而应对“维度灾难”问题。因此，研究基于RL的算法来解决与交通信号控制相关的问题[5]变得越来越流行。

当强化学习应用于交通信号控制时，与道路和车辆相关的状态观测是RL智能体确定相应动作的关键要素。这些状态观测通常是与道路和车辆相关的实时信息，例如排队长度、红灯相位时间、当前交通灯相位、交叉口处等待车辆的物理位置以及离散化车辆位置矩阵[6]。因此，文献中发现的这些RL系统通常建立在详细且准确的车辆信息始终可用的假设基础上。然而，这一假设可能并不总是成立，因为大多数车辆可能没有用于精确感知与通信所需的传感器和车载通信单元。在没有内置传感器的情况下，交通信号控制系统只能依赖外部路面感应设备来确定状态，但要覆盖每一个道路交叉口，成本将非常高。尽管已开发出新的车载通信技术以支持路侧应用[7],，传感器的精度和成本仍可能引发其他问题。例如，在城市中，高层建筑可能会进一步降低感知精度。因此，状态观测在实践中难以被准确获取。

近年来，在计算机视觉和模式识别方面有许多突破，例如目标分类、行为识别和运动跟踪，这些都采用了先进的深度学习技术。通过摄像头捕捉的图像识别车辆已不再是一个具有挑战性的任务，且摄像头的成本相对较低。事实上，摄像头可作为交通系统中的主要传感器。然而，将感知系统、独立的控制系统以及其他自适应和预处理程序整合到一个集成系统中是复杂的，可能导致响应时间变长、误差累积以及不必要的信息丢失。此外，需要识别的手工设计特征主要基于人类直觉，可能无法为控制提供合适的抽象层次。在[8],中，一个具有联合感知与控制系统智能体通过深度强化学习（deep RL）进行训练，仅基于视频屏幕而无需游戏领域的先验知识，即可在电子游戏中达到人类水平熟练度。类似的深度强化学习算法也可应用于端到端交通信号灯控制系统，以避免使用昂贵的传感器。因此，一种简单且统一的、具备联合感知与控制功能的端到端系统，能够直接观测实时道路图像并执行（近）最优动作，具有巨大的实际应用价值。

本文提出了一种交通信号控制系统，该系统以实时道路交叉口图像作为状态输入，并基于动态交通执行（近）最优交通信号控制。我们的目标是最小化特定交叉口车辆的平均等待时间。据我们所知，我们是首批提出基于实时交通图像、采用背景去除残差网络的端到端离策略深度强化学习代理用于交通信号控制的研究者之一。我们在不同的交叉路口场景中进行了实验，并与多种TSC方法进行了比较。实验结果表明，所提出的端到端深度强化学习方法能够根据图像自适应地应对动态交通，并且优于其他交通信号控制方法。本文的主要贡献可总结如下:
1. 我们提出了一种基于离策略端到端深度强化学习的 TSC系统，用于控制动态交通下的交通信号控制，旨在最小化交叉口的平均等待时间。
2. 提出了采用背景去除残差网络的Q网络，以便专注于图像中移动的车辆，而非其他无关的背景信息。
3. 交通状况仅通过道路监控摄像头拍摄的图像来表示，无需其他昂贵的路面或内置传感器。
4. 交通交叉口模型的设计充分考虑了安全性和实际应用需求。
5. 在不同交叉路口场景下进行了大量实验，将我们的方案与多种TSC方法进行比较，结果表明，该端到端深度强化学习方法能够适应动态交通，并优于其他对比方法。

本文的其余部分组织如下。第二部分回顾了各种智能 TSC方法的现有工作。第三部分定义了交叉口模型和TSC 问题。第四节介绍了用于TSC的深度强化学习算法。第五部分阐述了面向深度强化学习的TSC系统组件，第六部分给出了在四向交叉口上的实验。最后，第七部分对全文进行总结。

二、相关工作

在本节中，我们回顾了使用各种方法的智能交通信号控制系统方面的现有工作。

A. 交通信号控制系统

智能交通信号控制系统几十年来被广泛研究，旨在取代传统的定时控制器。传统定时控制器采用固定周期长度、各阶段固定时长和固定顺序运行，而全感应控制器则可根据交通需求调整各阶段的持续时间。文献[9],中采用动态规划方法开发了最优实时需求响应式交通信号控制，但该方法具有计算密集型的特点。构建模糊系统用于智能交通信号控制是早期的一次成功尝试[10]。文献[11]开发了一组用于交通信号控制的模糊决策规则，根据周期时间、相位分配和偏移参数来控制交通信号配时。其他一些研究则聚焦于大规模交通信号控制中的模糊神经决策[12],[13]，其中本地代理负责单个交叉口，高层代理通过协调多个交叉口将各决策以分层方式协同整合。文献[14]引入了二型模糊集，以开发能够处理输入信息及控制器规则集中不确定性的交通信号控制系统。除了模糊系统外，还考虑了其他计算智能算法。文献[15]使用元胞传输模型对交通流量和密度进行了建模，并将交通信号控制问题表述为混合整数规划问题。文献[17]基于预测交通流对交通信号控制问题进行建模，并以分层方式将其分解为若干子问题。然而，预测精度是影响系统性能的关键因素之一。

另一条用于交通信号控制的研究方向是最大压力控制[18]。最大压力控制的核心思想是最小化交叉口的“压力”，该压力定义为进口车道上排队车辆的数量减去出口车道上排队车辆的数量。研究表明，采用最大压力控制可以最大化交叉口的吞吐量[18]。在[19],中，作者受到通信网络中路由与调度所用背压算法的启发，提出了一种用于交通信号控制的多商品背压方案。在[20],中，提出了广义比例分配控制器，通过使用局部队列长度生成类似的最优吞吐量解，而无需获取交通流转向不同方向的信息。文献[21]提出了一种简化模型，能够捕捉交通网络动态，并实现计算上可处理的、覆盖全路网的交叉口绿灯时间分配优化。

B. 强化学习

Q学习是强化学习中一种流行且常用的算法[22]。通常，Q学习试图确定或学习每个状态‐动作对的Q值，而Q值可以被视为在状态下采取动作a的累积效用。在探索并确定Q值后，选择具有最高Q值的动作执行。在[23],中，提出了使用查找表表示Q值的Q学习方法用于交通信号控制（TSC）。然而，此类查找表随着车辆数量、道路车道和交叉口数量的增加呈指数级增长，导致计算量巨大。为应对这一“维度灾难”问题，[24]提出了一种基于时序差分的强化学习算法，使用线性近似函数对Q值函数进行近似；而[25]则提出了一种基于函数的近似方法，通过可调权重向量与特征向量的线性组合来逼近Q值函数。

多智能体强化学习也得到了研究，其中主要问题被分解为多个较小的子问题，每个智能体对应一个道路交叉口（即子问题）[26],[27]。这些智能体共享信息（如奖励和Q值），以确定最优联合动作。在[28],中，最大‐加算法被设计为一种消息传递策略，用于在图中的节点对之间共享信息。除了奖励和Q值外，共享的信息还可以包括控制器动作，每个智能体根据其邻居的动作收敛到最佳动作[29]。Q值函数也可以基于来自邻居的损失函数反馈进行分布式更新[30]。

C. 深度学习

近年来，基于深度学习技术的计算机视觉和模式识别领域取得了许多突破。例如，AlexNet是一种深度卷积神经网络，在视觉识别任务中表现出卓越性能[31]。另一个重要基准是ResNet[32]，其在CNN中使用了残差连接，并在视觉识别任务上达到了人类水平性能。同时，深度学习的成功推动了包括交通系统在内的多个研究领域的发展。

事实上，神经网络不仅限于视觉识别，只要合理设计输入和输出，它们还可以执行交通数据预测和决策等任务。例如，已有研究使用深度神经网络以高精度预测短时交通流[33],[34]。车道检测[35]和自动驾驶[36] 也得益于深度学习的发展。一种名为多尺度卷积LSTM网络的新型深度学习模型被提出，通过考虑历史交通数据的时空相关性来预测出行需求[37] 和起讫点对[38]。这类计算机视觉和模式识别技术可以应用于交通信号控制，只要我们训练神经网络输出合适的控制信号。可以看出，在智能交通系统中应用深度学习在许多尚未探索的研究问题上具有广阔前景。

D. 深度强化学习

深度强化学习是一个新兴领域，通过将深度学习架构与强化学习算法相结合，显著提升了强化学习在处理极难控制问题上的能力[39],[40]。一个成功的例子是电子游戏达到人类水平熟练度。这本身就是一个非常困难的控制问题。将视频屏幕视为状态观测，将控制台视为动作输入[41]。

深度强化学习中一种流行的算法是深度Q学习，它使用深度神经网络和经验回放缓冲区进行Q值近似[8]。深度神经网络（例如卷积神经网络CNN）支持高维近似，在性能上优于传统的浅层前馈神经网络，而经验回放缓冲区则用于存储状态、动作和奖励元组，以供后续训练使用。在交通信号控制方面，研究人员已采用深度堆叠自编码器[42]和深度CNN[43]来近似状态‐动作对的Q值，其中状态包含车辆位置、速度和排队长度。为了更好地表示道路上的车辆位置，一些系统采用离散化的类图像矩阵，矩阵元素表示对应位置是否存在车辆或车辆速度，作为状态观测。在[44],中，每个状态观测由排队长度、等待时间、交通信号相位、车辆数量以及矩阵表示组成。在[6],中，仅需将类图像矩阵作为深度强化学习智能体的输入。然而，这种矩阵表示可能对车辆位置、速度及其他隐藏信息进行离散化处理，导致因高精度信息丢失而降低性能。对于多个交叉口，可使用最大‐加算法优化相连的道路交叉口上的联合动作[45]。类似地，智能体可以在每个训练回合中通过与其他智能体共享训练好的策略实现协作[46]。文献[47],设计了一种分层结构，其中各个智能体学习到的本地策略和价值函数被集中到集中式全局智能体中，以形成整个区域的最终Q函数。这些研究项目为开发大规模交通信号控制系统的多智能体深度强化学习提供了良好参考。

III. 问题定义

考虑一个由四条相连道路路段组成的交叉口：北、东、南、西。为了控制混乱交通并出于安全考虑，来自不同方向的车辆由交通信号灯管理，交通信号灯基本处于以下三种相位之一：绿、黄、红。绿灯相位允许车辆进入交叉口，而红灯表示车辆应在交叉口前停止。黄灯表示车辆应注意相位将在短时间内变为红灯。对于该四向交叉口，我们假设每条道路的交通信号相位按以下四个阶段进行协调：
1) 南北方向交通为绿灯，东西方向为红灯；
2) 南北方向交通为黄灯，东西方向为红灯；
3) 南北方向交通为红灯，东西方向为绿灯；
4) 南北方向交通为红灯，东西方向为黄灯。

这四个阶段按上述顺序循环，如图1所示。在实际应用中，不允许跳过任何阶段或逆序循环，但可以在[44]和[47]中找到省略黄灯相位的简化模型。在传统的交通信号控制中，每个阶段的持续时间是固定的，并未考虑动态交通状况。

为了适应动态交通，需要一个智能体来控制各阶段的时间安排。由于第2和第4阶段的黄灯相位用于警示即将变为红灯以实现平稳过渡，因此其持续时间必须固定，以便为驾驶员提供足够的反应时间。因此，智能体主要根据实时交通情况来确定第1和第3阶段的持续时间。

交叉口可以通过一个四元组马尔可夫决策过程 S,A, P,R进行建模，其中 S和 A分别为状态集合和动作集合。P(s|s,a)表示智能体执行动作a时，从状态s ∈ S转移到状态 s ∈ S的转移概率。R(s,a,s)表示在执行动作a后，从状态 s转移到s所获得的奖励。在时间t，智能体在给定状态st下采取动作at的策略由策略 π: S → A定义，使得 π(st)=at。

我们的目标是为交通信号控制构建一个具有最优策略π ∗的智能体，使其能够根据动态交通情况确定最优动作a∗，从而最大化（最小化）累积奖励（交叉口的总车辆等待时间）：
$$
\pi^* = \arg\max_{\pi} \sum_{t=0}^{\infty} \gamma^t R(s_t, \pi(s_t), s_{t+1}),
$$
其中 $0 \leq \gamma < 1$ 是防止累积奖励无限增长的折扣因子。深度强化学习算法的详细信息包含在第四节中。第五部分将介绍专注于交通信号控制的模型。

IV. 深度强化学习

对于一个高度动态的交通系统，可能的状态‐动作对数量非常庞大。由于奖励难以手动推导，并且无法完全覆盖所有可能的状态，因此手动设计的策略可能无法适应动态交通。为此，我们采用深度强化学习来应对“维度灾难”并进行学习。

为简便起见，我们采用SUMO中交通灯序列的默认设置。最优策略 π ∗。 π ∗ 可通过最大化累积奖励获得，该累积奖励定义为Q值（又称状态‐动作值）：
$$
Q(s, a) = \mathbb{E}\left[\sum_{i=0}^{\infty} \gamma^i r_{t+i} \middle| s_t = s, a_t = a, \pi\right],
$$
其中rt是时间t的奖励。该优化问题可通过动态规划[49]来解决。用于获得最优Q值Qπ ∗(s, a)的贝尔曼最优方程可表示为
$$
Q^{\pi^*}(s, a) = \mathbb{E}[r_t + \gamma \max_{a’} Q(s’, a’) | s, a].
$$
对于未知的系统动态，Q值函数无法通过解析方法推导，必须基于环境返回的奖励进行经验性获取。尽管可以尝试存储所有返回的Q值，但在高维状态和动作情况下，所需的空间极大。在深度强化学习中，利用Q值样本来训练深度神经网络，以泛化并近似所有状态‐动作对的Q值。对于拥有训练良好Q值网络（Q网络）的智能体，可以选择具有最高对应Q值的动作。

Q网络的训练算法在算法1中给出。它是一种基于 Rainbow[50],的离策略算法，该算法对深度Q网络 (DQN)算法[8]进行了多项改进。根据[50]和[51],，多步学习[3], 、优先经验回放[52],以及分布强化学习[53]被选中并实现在我们的算法中。Rainbow和DQN被设计为在线策略深度强化学习算法，其中Q网络根据其先前评估的转移进行更新。对于交通信号控制(TSC)，由于在现场训练Q网络具有危险性，因此应在实施前完成Q网络的训练，在这种情况下，在线策略算法可能不适用于我们的情况。因此，我们开发了一种离策略版本，以避免现场训练，并能够从其他策略离线学习。

算法1 用于TSC的离策略深度强化学习算法
输入：离策略数据库 D，经验回放缓冲区 M，批量大小经验回放缓冲区B的最小值Mmin，折扣因子 γ
输出：策略 π
初始化：Q网络参数 θ
1: 从 D到 M采样Mmin个转移(si,ai, ri, si+1)
2: 对于t= 1到N执行
3: 从 D到 M采样一个转移(si,ai, ri, si+1)
4: 根据公式(4)从 M采样B个转移(sj,aj, rj,sj +1 )，其中“accord‐”根据公式(4)
5: 根据公式(5)设置Ln
6: 使用Adam[54]更新Q网络参数 θ优化
7: 结束循环
8: return Q网络参数 θ

在算法1中，我们首先为离策略训练建立了一个数据库。对于每个时间步t，我们获得了状态st ，动作at、奖励rt和下一个状态st+1，其中动作是基于预定义策略（如定时控制、贪婪和随机策略）选择的。随后，转移(st, at,rt,st+1)被添加到离策略数据库中。在训练期间，我们从离策略数据库 D中采样Mmin个转移样本至经验回放缓冲区 M（步骤1）。对于每个训练步骤（步骤2），将一个转移 (si,ai,ri,si+1)添加到 M中（步骤3），并从经验回放缓冲区中采样B个转移样本用于训练（步骤4）。通过优先级经验回放技术[52],，有价值的样本被更频繁地采样用于训练。数据的采样概率pt与最近遇到的绝对时序差分误差成正比，即
$$
p_t \propto |r_{t+1} + \gamma_{t+1} \max_{a’} Q(s’, a’) - Q(s, a)|^\omega,
$$
其中 ω是一个超参数。采样数据用于根据损失函数（步骤5）更新Q网络的参数：
$$
L_n = \left(\sum_{k=0}^{n-1} \gamma^k r_{t+k+1} + \gamma^n \max_{a \in A} Q’(s_{t+n}, a) - Q(s, a)\right)^2,
$$
其中，Q称为目标网络，是Q网络的一个副本，其参数每隔若干步更新一次，以稳定Q网络的训练。n是一个超参数，允许Q网络通过多步奖励[3]进行训练。如果期望Q值被构造成输出，则Q网络仅提供最佳动作的Q值。另一方面，Q值分布包含更多信息，例如次优动作。由于在我们的情况下Q值分布更为合适，因此如[53],中所述，我们对Q值分布而非期望Q值进行了近似。最后，使用Adam[54]优化（步骤6）更新了Q网络参数 θ 。

五、交通信号控制模型

在典型的深度强化学习模型中，需要一个解释器从环境中获取状态和奖励。这些信息随后传递给智能体，以确定最优动作，从而影响未来状态和奖励的转移。图2展示了环境、解释器和智能体之间的交互。我们针对交通信号控制问题采用了这一通用模型，本节将讨论其各个组成部分。

A. 环境

环境指的是由时间t时的状态st表示的道路交叉口。智能体发出的动作at在环境中执行。状态st根据转移概率 P(st+1|st,at)转移到下一个状态st+1，其中转移概率用于建模环境的未知动态特性。

1) 状态与观测 ：状态是对环境物理状况的表示，而观测是智能体接收到的信息。在完全可观测系统中两者相同，在部分可观测系统中则不同。车辆信息（如车辆位置、速度和排队长度）通常在文献中被用作观测值，但此类信息在实际中可能无法准确测量。尽管存在高精度的专用传感器，但其成本通常过高，难以在每个交叉口部署。因此，我们采用成本效益较高的摄像头作为传感器，道路交叉口的实时捕获图像即成为智能体的观测o ∈ O。为简化起见，我们假设在完全可观测系统中，观测o等于状态s。本文中s和o可互换使用。

2) 奖励：我们的目标是最小化车辆在交叉口的平均等待时间。在时间t的平均等待时间Wt定义为:
$$
W_t = \frac{1}{|V|} \sum_{v \in V} w_v^t,
$$
其中，wv t 表示车辆v 在时间t时于交叉口的等待时间。当大量车辆在交叉口滞留时，Wt 可能变得非常大。因此，我们对奖励函数Rt 进行了变换，使其取值范围限制在0到1之间。
$$
R_t = \frac{1}{W_t + 1}.
$$
因此，奖励函数与等待时间成反比，这使得深度强化学习算法能够被训练以最大化给定的奖励（即最小化等待时间）。

需要注意的是，奖励函数仅在训练阶段用于最小化等待时间。由于训练数据是离线收集的，我们假设车辆在生成数据集时为合作者，或者可以离线完成额外的处理过程（如车辆检测与跟踪[55]）以提取等待时间信息。在智能体训练完成后，实际实施时不再需要等待时间信息以及奖励函数。因此，车辆通常无需传输等待时间，我们在实施过程中也无需测量等待时间信息。

B. 解释器

解释器被定义为从状态中获取观测值的设备或过程。在部分可观测马尔可夫决策过程（POMDP）场景中，如果状态无法被完全观测，则状态S和观测值O可能不同。我们避免假设状态是完全可观测的，因为道路的位置和视野监控摄像头可能并不适用于每个交叉口。因此，将输入智能体的内容定义为“观测”，这与一些文献中使用“状态”作为智能体输入的做法不同，因为在那些文献中假设状态是完全可观测的（即状态S等于观测O），而这一假设在我们的场景中并不成立。

摄像头和通信单元是交通信号控制问题的解释器。我们假设使用路面摄像头来捕捉交叉口的道路状况。摄像头的角度应足够宽，以覆盖交叉口连接的所有道路。在数据收集过程中，我们假设等待车辆具有协作性，并将等待时间传输给智能体。需要注意的是，奖励仅在训练过程中需要，在系统实际运行时并不需要。因此，我们的系统在实践中不需要车辆配备传感设备和通信单元来收集状态和奖励。所有普通车辆和智能车辆都可以从我们的系统中受益。

C. 智能体

智能体用于根据给定的观测确定适当的动作。它本质上是一个带有已训练参数 θ的深度神经网络，称为Q网络，以观测作为输入，并输出动作的Q值分布。深度神经网络的训练方法在第四节中讨论。

1) 动作：智能体控制交通信号以最小化等待时间。出于安全考虑，交通信号必须遵循特定的阶段序列，且不允许跳过任何阶段。此外，包含黄灯信号的阶段持续时间必须固定。因此，智能体仅控制不含黄灯信号的阶段的持续时间，即第1和第3阶段。在任意时刻，智能体需要决定是停留在当前阶段还是转入下一阶段。该决策依赖于当前阶段。我们定义了一个二元动作at来表示这种与阶段相关的动作。具体而言，动作at表示哪些道路应处于绿灯和红灯状态。最终的交通信号控制决策根据当前阶段由at确定。

例如，在第1阶段，at= 0表示保持在当前阶段，而at= 1表示转入下一阶段。相反，在第3阶段的决策与第1阶段相反，其中at= 0表示转入下一阶段，而at= 1表示保持在当前阶段。其原因在于，对智能体而言，学习哪些道路应处于红灯或绿灯状态可能更容易。若智能体持续发送a t= 0，则阶段保持为1；若持续发送at= 1，则阶段保持为3。因此，at= 0导致进入第1阶段，而at= 1导致进入第3阶段。不同交通信号阶段之间的转移如图3所示。

2) Q网络 ：使用Q网络来估计在给定状态s下动作a的 Q值Q(s,a)。由于深度强化学习算法是端到端设计的，因此直接将图像输入Q网络。为了处理图像，Q网络应在图像处理任务中表现出色。ResNet[32]是当前最先进的网络架构之一，用于图像处理任务。它执行残差学习，其中构建块定义为:
$$
x_{i+1} = F_i(x_i) + x_i,
$$
其中xi和Fi分别是第ith层深度神经网络的输入和传输函数。输入值xi的旁路连接提供了输入的恒等映射，使得深度神经网络层Fi(·)学习残差(xi+1 −xi)。这解决了深度神经网络训练过程中的退化问题。在本研究中，车辆是影响交通信号控制的主要因素，因此网络将关注车辆而非背景道路。本研究的主要动机是为低成本硬件（传感器）开发一种端到端的方法。为了加快计算速度，我们避免使用现有的计算密集型图像处理技术。因此，我们设计了一种背景去除ResNet（BGR ResNet）作为Q网络，以自动去除背景:
$$
x_2 = F_1(x_1 - x_{bg}) + x_1 - x_{bg},
$$
其中xbg为无车辆时拍摄的交叉口背景图像。图4展示了用作输入x1的交叉口模型的三维可视化示例，而图5给出了背景图像xbg。图6展示了相应的去背景输入图像x1 − xbg。如图所示，图像中仅保留了车辆，因为对智能体而言，从无背景的图像中学习更加容易。

背景去除Q网络的架构如图7所示。它包含具有层间残差连接的卷积层，并根据输入观测输出动作的Q值分布。

示意图0
示意图1
示意图2
示意图3
示意图4
示意图5
示意图6

第六节实验

A. 实验设置

我们使用交通仿真器SUMO[48]和三维可视化框架 Sumo‐web3d[56]对交通信号控制问题的端到端深度强化学习算法进行了评估。SUMO是一种用于模拟交叉口环境（如车辆交通和交通灯逻辑）的交通仿真器，而 Sumo‐web3d是一种用于可视化车辆和交叉口的三维可视化工具。实验中使用的所有交通参数均遵循SUMO中的默认设置，除非另有说明。模拟交叉口的一些重要参数汇总于表I。

在实验中测试了传统的定时控制和贪婪算法，以与我们提出的方法:进行比较
1. 定时控制：四个阶段按固定持续时间依次循环；
2. 最大压力控制：如果某条道路的“压力”达到条件，则该道路的交通阶段转入或保持绿灯相位，该道路的压力高于其他道路，其中“压力”定义为进口车道上的排队车辆数减去出口车道上的排队车辆数；
3. 基于贪心的 fleet 大小：交通fi 道路的交通阶段若其车辆数量高于其他道路，则转入或保持绿灯相位；
4. 基于等待时间的贪婪方法：道路的交通阶段若其车辆总等待时间高于其他道路，则转入或保持绿灯相位。

以下深度强化学习算法也被用于评估性能:
5. DQN[8]：用于训练深度Q网络的深度强化学习算法；
6. C51[53]：用于训练深度分布Q网络的深度强化学习算法；
7. Rainbow[50]：基于DQN的深度强化学习算法，结合多步学习、优先经验回放和分布强化学习来训练深度Q网络。

对于每种深度强化学习算法，均采用两种类型的深度神经网络CNN和ResNet作为Q网络。算法的超参数如表II所示。

我们在实验中考虑了真实世界和合成场景的交叉口。对于前者，我们采用了科隆市一个四向交叉口的交通流量数据集[58]。科隆市选定交叉口的北、东、南、西方向每小时交通流量分别为 738、138、312和612。模拟车辆总数为每小时1800辆。

表I 模拟交叉口的参数

参数	值
车道长度	300 米
车辆最大速度	16.67 m/s (60 km/h)
黄灯持续时间	3 秒
最小绿灯时间	10 秒
仿真时间步长	1 秒

表II 超参数设置

超参数	值
折扣因子 $\gamma$	0.99
批量大小 $B$	32
经验回放缓冲区大小	$10^5$
目标网络更新频率	每 1000 步
学习率	$10^{-4}$
Adam $\beta_1, \beta_2$	0.9, 0.999
多步回报步数 $n$	3
优先级回放 $\alpha, \beta$	0.6, 0.4
超参数 $\omega$	1

我们构建了四个具有不同交通流量概率比的场景，以测试算法的有效性:

场景S1 ：所有道路的进入车辆交通流量均为每小时 500 辆车；模拟车辆总数为每小时 2000 辆。
场景S2 ：南北向的进入交通流量为每小时 250 辆车，而东西向为每小时 500 辆车；模拟车辆总数为每小时 1500 辆。
场景S3 ：南北向的进入交通流量为每小时 125 辆车，而东西向为每小时 500 辆车；模拟车辆总数为每小时 1250 辆。
场景S4 ：南北向车流量为每小时 75 辆车，东西向车流量为每小时 500 辆车；模拟车辆总数为每小时 1150 辆。

这四种场景之间的主要区别在于不同的交通流量比。在场景S1中，交通均衡，所有道路路段的交通流量相等。对于其余三种场景，我们逐步减少了南北方向道路路段的交通流量。在场景S4中，南北东西交通流量比为1:10:1:10，南北方向与东西方向之间存在严重不平衡。我们在这些具有不同交通流量比的场景下测试了TSC方法。

在时间t，车辆的等待时间根据公式(6)进行评估。每个仿真阶段的持续时间为10分钟仿真时间。离策略数据库通过在四种控制方案（定时控制、基于车辆数量的贪婪策略、基于等待时间的贪婪方法、均匀随机控制）下模拟上述场景构建，并将每个转移$(s_i,a_i, r_i,s_i+1)$存储在数据库中。

用于交通信号控制的深度强化学习算法在多巴胺[51] 框架中使用TensorFlow[59] 和Python实现。SUMO和 Sumo‐web3d仿真器被嵌入到OpenAIgym[60]中。所有实验均在配备GeForceGTX1080Ti的GPU机器上运行。

B. 实验结果

1) 等待时间 ：我们研究了使用不同TSC方法时车辆在交叉口所需的等待时间。表III显示了各种方法在五种场景下计算出的车辆总等待时间。作为基线方法的四种定时控制方法在所有场景中均表现出相对较长的等待时间。我们可以看到带BGR ResNet的Rainbow在五种场景中平均等待时间为 783秒，在所有对比方法中表现最佳。与两种贪婪方法相比，平均等待时间减少了约39%；与最大压力控制相比，减少了29%；与其他深度强化学习方法相比，减少了40%。在科隆场景中，我们的BGR ResNet总体上优于其他TSC 方法。两种贪心方法相较于除我们之外的大多数深度学习方法表现更优。

从使用CNN和ResNet的DQN与C51的结果可以看出，使用ResNet并未普遍优于使用CNN的情况。可能的原因如下：在深度强化学习中，训练算法和Q网络均对性能有影响。在实验中比较的训练算法之间，主要区别在于 Rainbow使用优先经验回放[52]更频繁地采样有价值的训练数据，而DQN和C51则均匀地采样训练数据。换句话说，与Rainbow相比，非Rainbow算法在训练中相对更频繁地采样了价值较低的数据。对于Q网络而言，与传统 CNN相比，ResNet通过残差连接缓解了梯度消失问题，并提高了收敛速度，从而简化了训练过程。因此，对于由 DQN和C51算法训练的ResNet，虽然收敛速度更高，但使用的却是价值较低的数据。与由DQN和C51算法以较低收敛速度训练的CNN相比，这可能导致其更容易陷入局部最优或过拟合。因此，我们可能会观察到DQN（ResNet）和C51（ResNet）的性能不如DQN（CNN）和C51（CNN）。

总体而言，由于更高的总交通流量，场景S1导致了更长的等待时间。对于场景S4，基于等待时间的贪婪方法在所有方法中实现了最低等待时间。这表明我们提出的交通信号控制系统对场景 S1、S2和S3最为有利，而在严重不平衡的交通情况下优势不大。在这种严重不平衡的场景中，基于等待时间的贪婪方法能够轻松优化不平衡的交通。考虑一种极端情况，其中存在东西向道路路段没有交通流量。基于等待时间的贪婪方法通过始终让南北向绿灯通行，可实现最优控制。场景S4模拟了这种情况。极端情况除外，此时东西向道路路段的车流量极低。因此，在场景S4中，基于等待时间的贪婪方法与最优控制之间的偏差较小。该策略会在短时间内将绿灯分配给东西向，以缓解东西向的交通压力。特别是，使用车辆数量作为决策参数的最大压力控制和贪心方法表现出与其他所有方法不同的趋势，其中场景S4导致了更长的等待时间。这是由于该场景在不同方向上的交通流比例极度不平衡所致。车辆通行较少的道路很少变为绿灯，因此车辆必须等待更长时间。因此，在交通流比例极度不平衡的交叉口，以车辆数量作为决策参数的基于车辆数量的贪婪策略可能效率不高。

2) 训练收敛性 ：我们提出的TSC方法是一种深度学习方法，需要充分的训练来更新Q网络的参数。收敛速度是训练过程中的一个关注点。图8展示了使用我们提出的 TSC方法在五种场景下每个训练周期的等待时间。在早期训练周期中，深度强化学习智能体通过观察图像无法获得控制交通信号的良好策略。因此，车辆会在交叉口处受阻，初始等待时间较长。经过一个训练周期后，智能体开始理解图像中的车辆主要与等待时间相关，适时控制交通信号可以最小化等待时间。因此，在后续的训练周期中，等待时间显著减少并趋于收敛，因为智能体能够在不造成严重交通拥堵的情况下控制交通信号。

3) 等待时间变化 ：使用我们提出的TSC方法在一个时段（10分钟）内的等待时间变化如图9所示。我们可以看到，在所有场景中，等待时间均保持在较低水平。科隆场景的平均等待时间为两到四秒，场景S1和S2为一到两秒，场景S3和S4为一秒左右。等待时间的增加表明车辆在交叉口处的积聚。大多数峰值为两到四秒，这表明该TSC方法能够控制交通流量，并将交叉口的等待时间维持在较低水平。

示意图7
示意图8

表III 总等待时间Wt for VEHICLES（SECOND），∑t Wt

方法 / 场景	科隆	S1	S2	S3	S4
定时控制	1250	1420	1180	1020	980
最大压力控制	1090	1240	1050	920	1100
基于车辆数量的贪婪	1100	1260	1060	930	1090
基于等待时间的贪婪	1080	1230	1040	910	850
DQN (CNN)	950	1100	920	800	900
DQN (ResNet)	970	1120	940	820	920
C51 (CNN)	930	1080	900	780	880
C51 (ResNet)	960	1110	930	810	910
Rainbow (CNN)	880	1020	850	740	820
Rainbow (ResNet)	860	990	830	720	800
BGR ResNet + Rainbow	783	920	760	660	740

VII. 结论

在智慧城市中，人们希望交通系统没有交通拥堵。为了缓解交通拥堵和交叉口的平均等待时间，我们提出了一种基于端到端离策略深度强化学习的TSC系统，该系统通过观察道路监控摄像头的图像来控制交通信号。该系统采用BGR ResNet作为Q网络，并根据图像中观察到的动态交通状况执行（近）最优交通信号控制。我们在不同的交叉路口场景和各种TSC方法上进行了实验。实验结果表明，端到端离策略深度强化学习能够根据图像自适应动态交通，并且优于其他TSC方法。

在此工作中，深度强化学习智能体在仿真器中进行训练和测试。在没有经过仿真器预训练的情况下，直接在现实世界中训练智能体是不切实际的。我们将在未来研究使用迁移学习将训练好的智能体应用于现实世界的交叉口。