深度学习在自动驾驶安全中的应用与挑战

部署运行你感兴趣的模型镜像

深度学习在安全自动驾驶中的应用:当前挑战与未来方向

摘要

信息和信号处理技术的进步对自动驾驶(AD)产生了重大影响,在先进的人工智能(AI)技术帮助下提升了驾驶安全,同时减少了人类驾驶员的操作负担。近年来,深度学习(DL)方法解决了多个复杂性质的现实问题。然而,其在自动驾驶控制过程中的优势尚未得到深入研究和突出展示。本综述强调了深度学习架构在可靠性与高效实时性能方面的潜力,并概述了安全自动驾驶领域的最新策略及其主要成就与局限性。此外,本文涵盖了深度学习在自动驾驶管道中的主要应用,包括测量、分析和执行,重点关注基于感知和视觉的深度学习方法在道路、车道、车辆、行人、疲劳检测、碰撞避免以及交通标志检测方面的应用。同时,我们使用不同的评估指标讨论了所综述的多种方法的性能,并对其优缺点进行了评述。最后,本调查强调了基于深度学习的安全自动驾驶当前面临的问题,并提出了未来研究的建议,为希望进入智能交通系统这一活跃领域的新人和研究人员提供了参考资料。

一、引言

RECENTLY ,在用于执行各种简单和复杂任务(包括目标检测[1],、定位[2],、跟踪[3],以及活动识别[4])的车载传感器开发方面已报告了显著进展,这些进展广泛应用于多个领域。此类进步提升了自动驾驶(AD)[5]的感知与计算过程。尽管如此,由于自动驾驶具有敏感性,并在减少事故数量和挽救人类生命方面发挥关键作用,仍需工业界和学术界进一步关注。例如,仅在美国,每年平均发生约600万起交通事故,其中约300万人受伤,约200万人遭受永久性伤害[6]。除受伤外,每天更有超过90人死于交通事故。造成这些事故的主要原因包括酒驾(40%)、超速(30%)和危险驾驶(33%)。同样,分心驾驶也会导致大量事故[7]。据一份报告显示,仅在美国,每天就有超过9人因分心驾驶而死亡[8],另有超过1060人因驾驶员分心而在碰撞事故中受伤。通过使用无人驾驶车辆技术作为驾驶员的辅助工具或实现完全自动化,这些事故可大幅减少。此外,残障群体也将从该技术中获益匪浅[9]。

由于自动驾驶带来的广泛效益,全球政府和企业都对其产生了浓厚兴趣。例如,在[10]中对全球排名前25的国家在自动驾驶准备情况方面进行了评估,并根据政策与法规、技术与创新以及基础设施三个方面进行评分。如图1所示,新加坡在政策与法规方面领先,以色列在技术与创新方面领先,荷兰在自动驾驶基础设施方面领先。像阿联酋这样拥有良好基础设施的国家,却在道路上运行自动驾驶所需的先进技术方面受到限制。

文献表明,根据国际汽车工程师学会(SAE International)标准定义,自动驾驶汽车具有五个不同的自动化等级,范围为 0∼5[11]。这种基于等级的发展路线在图2中进行了可视化展示。0级车辆完全由驾驶员控制[12]。1级允许车辆执行加减速或转向等次要任务,其余控制由人类驾驶员负责,例如自适应巡航控制[13]。2级车辆可以采取一些安全措施,如紧急制动,但驾驶员在驾驶时仍需保持警觉。特斯拉自动驾驶系统或日产ProPilot可被视为2级,因为它们能够使车辆保持在目标车道内。在3级情况下,车辆可通过监控周围环境在特定条件下自动行驶,但当自动驾驶系统失效时,仍需要人类驾驶员随时接管控制[14]。奥迪声称其配备交通拥堵辅助系统的A8车型具备3级能力。对于4级车辆,如果系统请求人为干预而未得到响应,车辆仍能安全地接管并继续行驶[15]。4级车辆不建议在不确定的天气状况或未测绘区域中行驶。最后,5级车辆可在所有条件和模式下实现完全自动化[16]。

迄今为止,主要工业界已发起多项努力和倡议,以推动自动驾驶技术的成熟。例如,著名的DARPA大挑战要求使用无人驾驶汽车行驶150英里道路,但在该挑战中,所有15辆参赛车辆均未能完成任务。此后技术得到进一步改进,在2005年的比赛中,23名参赛者中有5名成功完成了挑战。随后于2007年又发起了另一项赛事“DARPA城市挑战赛”,其中有六名参赛者完成了任务。其他值得注意的事件包括“智能车辆未来挑战赛”[19](2009∼2013)、“现代自动驾驶挑战赛”[20] 2010,以及“公共道路城市无人驾驶汽车测试”[21], 2013。最近,在 2015∼2016,谷歌自动驾驶汽车和特斯拉自动驾驶系统[22]作为商业应用案例被推出。除了这些里程碑之外,多家著名公司还计划在不久的将来发布不同级别的自动驾驶汽车。例如,福特计划在2021年交付一辆“4级”无人驾驶车辆。同样,宝马的目标是在 2021[23]推出“4级”或“5级”自动驾驶汽车。

尽管有上述成就,仍有一些问题限制了自动驾驶技术的广泛应用,诸如人工智能(AI)方法的成熟度——特别是依赖于深度学习(DL)的视觉传感器方法、自动驾驶(AD)系统各组成部分性能的依赖性,以及大规模的社会接受度[24]等环境因素。其中,前两个方面是自动驾驶系统的重要组成部分和关键推动因素,可显著提高其安全性,从而获得广泛的社会认可。事实上,安全是自动驾驶的关键要求,有助于辅助驾驶员并最大限度地降低潜在事故的风险。这一要求主要通过七项关键任务来保障,包括道路检测[25],、车道检测[26],、车辆检测[27],、行人检测[28],、疲劳检测[29],、碰撞避免[30],和交通标志检测[31],针对这些任务已提出了大量基于手工设计和学习表示的方法。

现有文献涵盖了传统方法在自动驾驶不同方面的综述,例如规划与控制[32],、交通灯识别[33],和车辆定位[34]。许多研究还强调了深度学习在智能交通系统领域[35]–[38]中的核心作用。然而,目前尚缺乏对用于安全自动驾驶的深度学习方法的详细研究,而这一研究被视为自动驾驶及其安全性的基础。

本综述旨在通过分析与上述七项安全自动驾驶任务相关的最新深度学习研究,填补这一文献空白。我们将这七项任务归纳为测量、分析和执行的三步流程,并列举了各项任务的主要成就和关键局限性。我们的工作还强调了安全自动驾驶领域的当前问题,并提出了若干研究建议,重点关注提升深度学习方法在真实车辆环境中应用的安全性要求。我们对现有文献进行了批判性分析,并补充了针对几项与安全相关的自动驾驶任务的不同深度学习模型架构的实证结果摘要,揭示了这些模型的巨大潜力。最后,我们讨论了深度学习领域中至今仍研究不足的当前研究领域,尽管这些领域与该特定应用领域的安全问题直接相关。

本文其余部分结构如下:第2节简要描述了自动驾驶的主要控制过程。第3节详细介绍了近期的深度学习方法及其在自动驾驶系统中的优势与局限性。第4节讨论了安全自动驾驶的主要挑战,第5节提出了未来方向。第6节以一些结论性评述和展望结束本次综述。

II. 自动驾驶的主要形态及相关研究

本节旨在简要描述测量、分析和执行(MAE)的三步流程,并介绍与自动驾驶相关的若干研究。“测量”指通过传感器、摄像头或雷达采集周围环境的数据,并进行与道路、车道、车辆、行人等检测相关的处理,[39]。为此,本文综述中所有与这些任务相关的方法都将归入“M”部分。“分析”阶段则采用更高级的用于过滤、跟踪以及满足自动驾驶优化要求的一系列具体步骤的算法。通过分析,“执行”部分使用特定的执行器来触发警报或撤销对车辆的控制。在此阶段,可以启用自动制动以保护车辆避免碰撞,从而确保自动驾驶系统的道路安全。

研究表明,MAE是控制此类车辆自动行为的必要管道,因此本综述涵盖了该内容。这些系统的其他方面已在表I中提到的不同综述中进行了详细阐述。例如,与自动驾驶交通灯视觉识别相关的最先进技术在[33]中有所涵盖。同样,针对城市环境的自动驾驶规划与控制方面在[16]中得到了研究。据我们所知,当前文献中缺乏对深度学习方法在安全自动驾驶中的深入研究,因此本文提出了这一研究,并在图3中给出了概述。

III. 自动驾驶任务的关键文献分析

在本节中,结合表II中提到的七项任务,简要描述了最先进的深度学习方法。尽管已有大量研究涉及自动驾驶系统的不同组成部分,例如感知、图像处理和通信等,这些部分共同协作以实现车辆自主驾驶,但由于某些部分对这类车辆的整体性能具有重大影响,因此受到了更多关注。

其中最重要的部分是与平均绝对误差相关的七项任务,针对这些任务的相关研究探索如下:

A. 道路检测

该任务旨在检测自动驾驶车辆可能行驶的圆形边界和区域。在此背景下,选出了四项具有代表性的研究工作。第一项框架[52]应用卷积神经网络(CNNs)来估计用于增强现实应用的远距离道路路径。第二项研究了级联端到端卷积神经网络(CasNet),用于在存在复杂背景和树木与汽车的严重遮挡情况下实现精确的道路检测和中心线定位,如[53]所示。其他研究提出了一种基于孪生全卷积网络的框架,利用RGB图像、语义轮廓和位置先验进行精确的道路边界检测[54],以及一种称为RBNet的完全端到端模型[55],在同一网络中实现道路存在性及边界检测。

B. 车道检测

车道检测通过车道保持和车道偏离控制系统,在确保自动驾驶汽车处于指定车道、最小化碰撞可能性方面发挥着关键作用。在此背景下,选取了四种近期的深度学习方法作为示例。第一种方法中,[56]利用多传感器数据,并将其输入深度神经网络以实现三维空间中的车道检测。第二种方法研究了波形和卷积神经网络用于安全自动驾驶的车道标线检测,具体讨论见[57]。第三项工作中,提出了一种节能型车道检测与分类策略,该策略结合立体视觉和卷积神经网络实现自车横向定位,并为安全自动驾驶发出前方碰撞预警[58]。在接下来的研究[59],中,采用循环神经网络进行道路车道检测,从而同时确保车道检测和碰撞避免。

C. 车辆检测

为了避免可能的事故,自动驾驶汽车需要检测并跟踪道路上的其他车辆。为此,它需要估计周围车辆的不同方面,例如其形状、相对速度、尺寸和三维位置。在这方面,一些最先进的技术在近期文献中被作为示例进行了描述。第一种是使用卷积回归进行车辆检测和计数的自动方法,用于交通管理和安全自动驾驶的神经网络,并在[60]中进行了详细讨论。Chen et al. [61]提出了一种利用深度 CNN模型进行物体、位置和上下文框预测的3D物体检测框架。类似地,Rajaram et al.[2]提出了一种物体定位的数学策略。他们结合Faster‐RCNN、RefineNet和感兴趣区域池化技术用于车辆检测与定位。另一项工作是采用多任务深度CNN和感兴趣区域的投票策略的车辆检测框架[62]。这些方法均能使自动驾驶车辆检测道路上的其他汽车,从而启动安全措施,提高自动驾驶的安全水平。

D. 行人检测

车辆与行人事故是一种常见场景,大多发生在道路上。由于人类的重要性更高,有必要将人类与其他物体区分开来。因此,在自动驾驶汽车上安装了视觉摄像头,用于行人的检测、跟踪和可能识别,以避免碰撞及其他多种用途。例如,Ouyang et al.[63]提出了一种联合框架,结合深度特征提取、形变和遮挡处理以及行人检测分类,有助于提高自动驾驶的安全性。Cai et al.[64]提出的另一种方法,制定了复杂度感知的级联训练用于行人检测。他们将级联与卷积神经网络相结合,实现了更快速度下的精确行人检测。类似地,Wang et al.[65]通过研究身体部位语义和上下文信息,并对遮挡进行复杂处理,提出了一种行人检测方法,获得了高精度定位结果,从而提高了自动驾驶的安全性。

E. 嗜睡检测

该任务与驾驶员相关,尤其适用于1级到3级自动驾驶汽车,因为4级和5级车辆为完全无人驾驶。它是安全应用的关键组成部分之一,能够在检测到驾驶员分心或疲劳状态时自动采取必要措施。为此,文献中存在多种方法。例如,Lyu et al.[66]提出了一种基于多粒度的深度框架,通过智能使用卷积神经网络和长短期记忆网络实现视频中的疲劳检测。Vijayan和Sherly [67]提出了三种CNN架构,包括ResNet50、VGG16和InceptionV3,用于第一人称驾驶员视频中的疲劳检测。这些模型通过使用特征融合架构层进行融合后共同训练。Parket al. [68],采用了类似的方法,将AlexNet、VGG‐FaceNet和FlowNet所获得的结果进行集成用于疲劳检测的全连接层。在另一项类似的研究中,Guo和Markoni[69]研究了卷积神经网络和长短期记忆网络在疲劳检测中的应用。

F. 碰撞避免

从之前的任务中可以明显看出,自动驾驶汽车能够跟踪和检测与其相关的重要物体,但这些信息还不足以做出决策。重要的决策和行动由碰撞避免系统来完成。因此,这是一个更高级别的任务,自动驾驶的安全性在很大程度上依赖于此,且该方向已开展了大量研究。例如,Song et al.[58]可以通过采取必要措施同时检测车道并避免碰撞。类似地,Nguyenet al.[70]提出了一种系统,该系统可检测障碍物,并使用基于自编码器、TCNN和 R‐TCNN的深度学习架构对其进行识别,最终通过跟踪来避免自动驾驶过程中的碰撞。在另一种方法中,Long et al.[71]提出了一种基于噪声传感器测量的深度神经网络端到端碰撞避免系统。

G. 交通标志检测

该任务主要涉及车辆在斑马线和道路交叉口处的控制以避免碰撞,在速度突变区域降低速度,在转弯前通知驾驶员,并提出建议关于掉头等操作,其功能看似简单,但在决策上却非常重要且具有挑战性,这一点在多项研究中已有讨论。例如,Zhu et al. [72]提出了一种基于目标提议的交通标志检测与识别框架。该方法通过卷积神经网络缩小交通标志的搜索区域,然后使用R‐CNN和EdgeBox方法进行检测和分类。Li et al. [73]提出了一种针对车载摄像头的交通信号灯标志识别模型,该模型利用前一帧信息来保留前一帧的内容检测记录并聚合分析帧间信息的通道特征。王和周[74]使用轻量级深度学习模型在动态图像中识别交通信号灯标志。提出了一种双通道机制用于暗帧中的交通灯检测,并开发了轻量级卷积神经网络模型以实现实时分类。针对暗通道显著性模型,设计用于同时提取不同颜色的光。Jensen等[75]应用基于多种YOLO版本的实时目标检测算法进行交通信号灯标志检测,在具有挑战性的数据集上取得了最先进的结果。Ouyang等[76]采用启发式候选区域选择模块进行交通信号灯标志识别,并开发了轻量级交通灯检测(TDL)模型用于其分类。该模型在收集的数据集和基准数据集上进行了评估,同时通过离线仿真和实车道路测试进行了验证。该模型集成于英伟达Jetson平台,在公交车和轿车上正常交通条件下完成了实车测试。Yuan等[77]提出了用于交通标志检测的VSSA‐NET架构,并将其视为回归与序列分类任务。该网络架构基于垂直空间序列注意力和多分辨率特征学习模块,还通过带有注意力过程的回归与分类提取上下文信息。类似地,Tabernek和Skoˇcaj[42]采用了mask R‐CNN目标检测算法,并对网络进行了不同方式的适应性改进以实现最终检测。为了提升性能,将外观和几何畸变分布作为数据增强方法来增加数据量。所有这些任务都有助于提高自动驾驶的整体安全性,因此研究人员正日益关注这些领域的研究。

IV. 安全自动驾驶的性能评估

本节对应用于与自动驾驶安全密切相关的任务时,不同最先进的深度学习模型的性能进行了比较。每个任务均使用多种评估方法进行评价,包括F值、精确率、召回率、总体准确率、平均精度(AP)、曲线下面积(AUC)以及运行时间。然而,我们仅讨论了通过共同评估标准获得的那些评估结果。例如,大多数道路检测技术均使用F值分数进行评估。F值也称为F1分数,其综合考虑精确率和召回率,计算两者的调和平均数,并捕捉它们之间的权衡关系。它可通过公式1中给出的公式进行计算。

F1= 2× Precision × Recall / (Precision+ Recall) (1)

同样,车道检测的主流技术利用平均精度(AP)和 AUC进行评估。AP(也称为平均平均精度(mAP))是用于目标检测器的性能评估指标,通过在不同召回率(式 3)水平下计算精确率(式2)的AP值。更一般地,AP用于计算精确率‐召回率曲线在0到1范围内的面积。

Precision= True positive / (True positive+ False positive) (2)

Recall= True positive / (True positive+ False negative) (3)

同样,AUC被用于人工智能模型的分析,通过绘制真正例与假正例率的关系,以了解训练好的模型在哪个阈值下表现最佳。

示意图0

图4 (a) 展示了不同深度学习模型在KITTI的[78]基准数据集上取得的最先进的结果。该数据集是用于道路检测、车道检测、道路上的行人检测和车辆检测等自动驾驶任务中最具挑战性的数据集之一。该数据集分为三个集合:城市标线路段(简单)、城市多标线车道路段(中等)和城市无标线路段(困难)。此外,它包含289张训练图像和290张测试图像。例如,RBNet[55]取得了当前最高的F值分数。该模型采用五个卷积层和深度卷积神经网络进行特征提取,并结合后处理实现道路边界检测。该模型训练了100k个训练轮次,学习率为0.01,每帧处理时间为0.18秒。DNN[79], s‐FCN‐loc[54],和 Up Conv[80]分别取得了93.43%、93.26%和93.83%的F值分数。此外,DNN[79]和s‐FCN‐loc[54]采用了非常深的CNN架构,并结合复杂的后处理。因此,它们每帧的处理时间分别为2秒和0.4秒。Up Conv[80] 每处理一帧仅需0.083秒,但其准确性低于RBNet[55]。

图4(b)展示了使用平均精度得分和AUC得分对当前最先进的车道检测方法进行比较的结果。他们使用了Caltech车道数据集[83]进行实验,该数据集包含在帕萨迪纳繁忙街道上拍摄的1225张具有挑战性的图像。SCNN[81]和DMS[56]采用平均精度得分来评估其技术,分别取得了59.5和84.7的得分。SCNN[81]采用 VGG16 CNN架构作为其后端,并添加了三个额外的全连接层用于道路检测。他们使用“poly”学习率策略,以0.01的学习率和0.0001的权重衰减训练了这一扩展模型。由于采用了VGG16主干网络,该模型的处理时间为0.115秒,因此无法高效地实现实时处理。类似地,Li et al.[82]采用了两个卷积层和全连接层架构,并结合多任务目标检测,其中第一项任务检测物体,第二项任务估计几何输出。他们在从全连接层提取特征后,尝试了RNN、CNN和支持向量机用于多任务学习,其中RNN表现最佳,达到了最高的AUC值0.99。我们在图中将0.99表示为99,因为AUC值范围在0到1之间。然而,由于图表表示的需要,这些得分经过归一化处理以便于可视化。

示意图1

图5中给出的行人检测技术已在KITTI的[78]基准数据集上使用mAP得分进行了评估。在最先进的技术中,选择了三种场景进行行人检测评估,即基准数据集定义的简单、中等和困难场景。在简单场景中,目标的最小边界框高度为40像素,且目标完全可见,无任何遮挡。在中等难度数据中,最小边界框高度为25像素,目标部分遮挡。在困难场景中,目标被严重遮挡且难以看清,其边界框的最小高度为25像素。对于简单、中等和困难数据,F‐PointNet[85]分别达到了87.81、77.25和74.46的最高平均精度均值得分。他们采用了2D和3D CNN架构及其融合方法用于行人检测。MM‐MRFC[86]利用了颜色、运动和深度特征,并取得了第二高的准确性和每帧处理时间为0.05秒。在简单场景下,最先进的性能约为85%,中等场景下低于70%至80%,困难场景下则低于65%。因此,对于安全可信的自动驾驶而言,这是一个极具挑战性的问题,行人检测的准确性应在简单、中等和困难级别上均达到人类感知水平。

与行人检测类似,车辆检测的评估也在KITTI的[78]基准数据集的简单、中等和困难场景下进行,如图6所示。这些方法在车辆检测方面的评估使用了AUC指标。主流方法在简单场景中表现良好,3DOP[87],在中等和困难场景中分别达到了88.64和79.27的最高AUC值,由SubCNN[89]实现。3DOP[87]编码了物体尺寸先验、地面平面以及多种基于深度的特征,用于推理自由空间、点云密度和到地面的距离。他们采用了结构化SVM,该方法利用输入‐输出对,并通过其提出的优化函数学习参数。SubCNN[89]利用了两个非常深的基于Fast R‐CNN的CNN架构:1)区域提议网络和2)目标检测网络。文章未讨论处理时间,但普遍认为,由于计算复杂度较高,基于多个卷积神经网络的方法不适用于实时处理,因此在自动驾驶中应用受限。

Overall accuracy= Number of correct predictions / Total number of predictions made (4)

疲劳检测通过总体准确率指标进行评估,图7中比较了知名深度学习方法的结果。总体准确率告诉我们“在所有测试样本中,正确分类的比例是多少”,如公式4所示。总体准确率通常以百分比表示,100%的准确率为完美模型。即使是人类,疲劳检测也是一项非常具有挑战性的任务,很难准确识别,人类在白天和夜间场景下的平均准确率仅为80%[68]。FFA达到了75.57%的最大准确率,这是迄今为止在疲劳检测中达到的最高水平。此外,AlexNet[91],、VGG‐FaceNet[92],、LRCN[93],、FlowImageNet[93],和DDD‐FFA[68] 分别实现了65.85%、67.85%、61.5%、62.99%和70.81%的准确率。AlexNet[91]和VGG‐FaceNet[92] 是非常深的CNN架构,分别包含6000万和1.38亿个参数,对于自动驾驶这样的实时任务而言效率不高。FlowImageNet[93] 最初是为动作识别而训练的,但经过微调后可用于检测输入图像序列中的面部和头部姿态等疲劳状态。它包含五个卷积层和两个全连接层,在微调过程中最后一层从101类更改为4类。该模型速度快,但对于可信的自动驾驶而言效果仍不够理想。DDD‐FFA[68] 和FFA[67]利用三个卷积神经网络模型全连接层中的特征进行融合,以实现疲劳检测。该策略提高了总体准确率,但处理时间也增加了三倍。驾驶过程中的疲劳非常危险,是导致事故的常见原因。因此,未来的研究应进一步提高其准确性,以实现为了安全的自动驾驶,同时还需要注意预测建模中常被忽视的其他方面,例如模型输出置信度的量化、模型所捕获知识的可解释性以及预测的可追责性。由于安全自动驾驶的决策可能关乎人类生命安全,因此为满足监管限制的要求,解释模型在其输入中观察到什么内容以生成输出,已成为决定其可行性的关键因素。

用于交通标志检测的主流技术通过精确率、召回率和交并比(IOU)进行评估。使用不同模型在瑞典交通标志数据集(STSD)[94]上取得的精确率和召回率如图8所示。STSD是一个极具挑战性的数据集,包含20类交通标志的19236张图像。R‐CNN[72],、FCN[72], 、Faster R‐CNN[42], 、Mask R‐CNN[42],、MR特征[77],和MR特征 +VSSA[77]分别取得了91.2%、97.7%、95.4%、97.5%、98.83%和99.18%的精确率,以及87.2%、92.9%、94.6%、96.7%、93.96%和94.42%的召回率。由于该任务更侧重于检测而非分类或识别,因此研究人员采用了交并比(IOU)。IOU通过比较检测到的边界框与真实标注区域的重叠面积来评估结果。较高的交并比意味着较好的检测效果。

示意图2

示意图3

检测模型的性能相互影响。最先进的交通标志检测模型的性能如图9所示。这些结果是在一个极具挑战性的数据集 VIVA[73],上获得的,该数据集在极其复杂的场景中采集,包含了几乎所有的交通灯信号,包括绿色、红色以及相关的左右转弯信号,并涵盖了不同白天/夜间条件和照明情况下的短距离和长距离图像。交通标志检测是自动驾驶的一个紧迫应用,其中方法的有效性及其处理时间对于车辆控制的决策至关重要。因此,我们研究了更快且有效的交通标志检测方法的结果。著名的Yolo及其变体分别在 Yolo2[95],、Yolo2‐tiny[95],、Yolo3[96],和 Yolo3‐tiny[96],上达到了25%、21%、18%和16%的交并比。SSD[97]和Faster RNN[88]分别达到了10%和12%的交并比,而最近的Rttld检测器[76]在VIVA交通灯检测数据集[73]上达到了最高的44%交并比。从结果可以看出,一些著名检测器在给定的挑战性数据集上准确性较低,需要研究人员高度重视。因此,为了安全自动驾驶,未来的工作应考虑提高其准确性。此外,此任务涉及开放环境,因此不同地点和天气状况下的条件各不相同,因此模型评估是交通标志检测未来需要考虑的重要工作。

上述技术在面向安全自动驾驶的七项任务中的能力和性能揭示了许多挑战。在我们研究的技术中,没有任何一种能够同时应对测量、分析和执行。尽管这些方法在其目标任务中表现出良好的效果,但它们的计算复杂度非常高。此外,主流方法依赖高性能GPU和云服务器才能运行,这在实际应用环境中并不现实,因为它忽略了能耗或预测延迟等重要方面。除了计算复杂度之外,还存在其他一些开放性挑战,将在下一节中进行讨论。

V. 安全自动驾驶中的挑战

尽管学术界和工业界在自动驾驶技术上投入了大量资源,但由于存在诸多挑战,这些系统的某些方面仍然面临困难,具体如下所述:

a) 自动驾驶系统复杂性

自动驾驶系统由一系列决策问题组成,其中一个问题是另一个问题的输入。尽管某些部分已有显著改进,但整体而言,各个部分的性能依赖于整个自动驾驶系统的性能[98]。例如,弗达和弗拉契奇[99]提出了一种多准则决策方法,用于选择最合适的驾驶动作,其中决策过程被划分为多个连续阶段。他们方案中的第一阶段是安全关键的。然而,需要做出多个类似人类思维的决策。因此,高效的自动驾驶运动规划器只能与高能耗反馈控制器相兼容。另一方面,简单控制器可能鲁棒性较低[100],但能耗较少,却需要更加详细的运动规划方法。因此,有必要开发智能框架,以平衡这些冲突的指标,并实时得出最优解。

b) 道路环境动态性

可以理解的是,由于道路上彩色广告和照明的显著数字化,当前城市正变得越来越动态。研究人员提出了多传感器解决方案,包括雷达[101],视觉[2],激光[102],以及其他不同模态的解决方案[103],,然而,在道路场景的动态性条件下,其准确性水平仍然很低。此外,人类更倾向于拥有个人豪华车辆,导致道路交通量增加。这些现象使得自动驾驶汽车的环境更加复杂,从而通过影响与自动驾驶相关的检测、跟踪和识别准确性,进一步加大了挑战。

c) 大数据与实时处理

为了使自动驾驶汽车充分了解其周围环境,车辆上安装了多种传感设备,包括传感器[104],摄像头[2],激光雷达[105]等,持续采集数据,从而产生大数据。此外,考虑到自动驾驶的关键性,还会收集高质量数据[106]–[108](例如高分辨率视频)。因此,在准确性、功耗和成本[109]的约束下,实时处理如此庞大的数据量是一个巨大挑战。

d) 智能数据优先化

如前所述,会采集大量不同性质的数据,从而产生大数据。文献表明,自动驾驶汽车处理所有采集到的数据是不可行的,因此需要数据优先级机制[110],[111]来筛选出重要信息以供进一步处理,并丢弃不必要的数据。该优先级机制应具备足够的智能性,以在不同的环境场景[112]中对多种采集数据进行优先排序。

e) 鲁棒性与适应性

研究[56]–[65]表明,在特定环境中采集和处理自动驾驶汽车的数据相对容易。目前主流的自动驾驶人工智能技术大多基于在特定环境中采集的数据进行训练,在不同天气状况下并不可靠。谷歌团队最近遇到了这一问题,并提出了全天气自动驾驶汽车的概念。然而,当环境不确定且采集的数据受到雪、雨[113],和雾[114]影响时,这一问题变得尤为棘手。因此,与平均绝对误差(MAE)相关的各类任务系统必须具备足够的鲁棒性,以适应周围环境的变化。

f) 用于动态决策的感官数据集成/融合

在实际应用中,使用单个传感器很难实现理想的性能和目标准确性。因此,广泛使用决策算法来处理从多传感器[115],[116]获取的融合数据。自动驾驶汽车中使用了两种主要类型的传感器,即环境感知和定位。环境感知用于检测车辆周围的物体,而定位则跟踪车辆的位置。融合算法分为两类:1)机器学习方法(深度神经网络);2)用于测量状态的多传感器信息融合,例如卡尔曼滤波(KF)。文献中提出了许多基于传感器融合的模型,使用了各种传感器和融合算法。这些框架主要关注提高准确性,但这些方法的实现可行性研究较少。自动驾驶中的主要挑战包括感知、实时计算与通信以及基于学习的控制方法。对于自动驾驶汽车[117]而言,基于融合的高效、轻量级且鲁棒的管道仍有巨大的发展空间。

g) 自动驾驶中深度学习的公平性、问责性与透明性

近期研究强调了在人工智能模型的决策最终产生影响的情境中,解释这些决策的极端必要性,对人类生活(例如健康、法律等)产生影响[118],[119]。自动驾驶利用深度学习方法也不例外,尤其由于这类人工智能模型具有黑箱特性,因此对模型可解释性提出了要求。借助可解释人工智能(XAI)技术[120],,不仅可以揭示深度学习模型的内部机制及其所学知识,还能便于对错误决策进行可追溯性和事后分析(问责性),从而支持模型优化。同样,确保用于自动驾驶的深度学习模型[121]不受严重不平衡或稀疏的训练样本影响(即缺乏模型偏见),有助于提升泛化性能,从而增强车辆的情境感知可靠性,并符合潜在的监管约束[122]。通过XAI技术解释模型所学内容并构建合理的反事实,有望界定模型的性能边界,揭示可能的偏见来源,并分析决策过程以发现模型中可能存在的缺陷。若无模型可解释性的进步,自动驾驶功能即便依托深度学习的强大建模能力,也将难以付诸实际应用。

h) 自动驾驶中的在线学习能力

自动驾驶中的一大挑战是使用可扩展模型来应对各种环境。例如,为城市环境训练的模型可能不适用于农村地区,因为这两种场景下的交通规则有很大差异。同样,由于新建设的区域、天气状况和气候变化等原因,也会出现类似问题,[123]。该问题可通过在线学习策略(用新数据更新模型)来解决。最近,研究人员已在许多领域应用了在线学习策略,例如监控[124],,其中深度模型进行迭代式自我微调且更新已训练模型的参数以适应变化的环境。类似地,基于可达性的保证安全在线学习(GSOLR)[125],、随机在线学习[126],和通过元学习的在线学习[127]是最近可用于自动驾驶汽车在线学习的方法,能够根据地图、天气状况和视觉变化相应地更新不同的深度模型。

i) 对抗攻击的鲁棒性

与上述情况类似,近期人们广泛讨论了深度学习模型在面对精心设计的样本时的弱点,即使这些样本在视觉上不可察觉,也会导致模型做出错误决策(例如误分类[128])。对抗性攻击在车辆领域带来了巨大挑战,已有实例表明,由于可打印贴纸形式的物理对抗性修改,车载摄像头可能对交通标志进行错误分类[129]。尽管目前针对对抗性攻击的防御策略研究十分活跃,但在确保其有效性符合设计规范和可接受的风险限值方面,仍有很长的路要走。

j) 交通标志牌的变异性

目标检测模型通常使用固定尺寸分辨率数据进行训练。然而,大多数交通标志显得非常小,当高分辨率图像被缩放到模型所需的输入尺寸时,大型标志牌可以在缩放后的图像中轻松被捕获,但这会导致小型交通标志牌的误检问题[42]。此外,当车辆以非常高的速度(例如100公里/小时)行驶时,这种高速相机运动破坏了小型标志牌的结构。因此,检测与识别所有类型的交通标志牌是一项极具挑战性的任务,可能通过将高分辨率图像而非缩放后的图像作为模型输入来实现。

六、未来研究建议

鉴于第5节和文献中提出的挑战,本文列出了安全自动驾驶领域内对工业界和学术界具有重要意义的若干进一步研究方向,并提供了简要说明。在这些方向上的改进将有助于提升自动驾驶系统的意义,并增强其安全性和可靠性。

a) 节能型卷积神经网络

多项研究表明,卷积神经网络在与自动驾驶相关的各种计算机视觉任务中取得了最先进的成就,例如跟踪[2],[130],、速度控制[76],和障碍物避让[131],[132]等。然而,其较高的内存需求和计算复杂度限制了它们的应用。因此,应设计节能高效的卷积神经网络模型,以提高自动驾驶技术的驾驶安全。

b) 自动驾驶的强化学习

强化学习(RL)是自动驾驶多个领域中的一个活跃研究焦点,例如控制[133],[134]和路径规划[135],[136]。毫无疑问,强化学习技术已达到了良好的性能水平,展现出这些技术能够学习近最优策略,以高效运行自动驾驶汽车的不同子系统。然而,文献中迄今报道的大多数研究成果都是在各种模拟器或受限的试验环境中进行的,原因多种多样,从既有的监管限制到车辆原型的可获得性,或是研究尚处于早期阶段。因此,当前的RL模型无法完全应对充满不确定性的真实世界环境,这阻碍了安全保证[137]的提供。尽管模拟器能够以较低成本生成驾驶场景,但模型是在虚拟环境中离线训练的,无法期望其在真实条件下同样有效运行,最终也无法直接部署。因此,需要进一步研究,以确保RL模型在模拟和真实环境中使用时具备良好的泛化能力。为此,近期应重点关注若干方向,例如不断提升车辆仿真软件的逼真程度(如城市场景的程序化生成)、数据增强方法的最新进展(例如,在驾驶测试采集的数据上叠加不同的气象条件),或旨在提升RL模型对未见环境和/或任务泛化能力的特定算法提案(元强化学习[138],,最近在智能交通系统领域已出现初步研究成果[139])。

c) 用于自动驾驶的序列学习与生成对抗网络

安装在自动驾驶汽车上的视觉传感器会捕捉到行人执行不同活动的画面。这些活动的模式无法从单个帧中获取,而需要通过对连续帧序列[124]进行学习来捕获。这一增强的信息基础需要高效的技术来处理针对自动驾驶车辆周围环境中的行人行为识别进行序列学习,同时考虑随时间变化的部分遮挡或不同摄像头角度等额外复杂因素。为此,能够将这些效应嵌入到构建序列学习模型所需数据中的数据增强技术,成为一条值得探索的可行路径。同样,也可以研究生成对抗网络(GAN),以在仿真中生成精确的环境用于训练自动驾驶汽车策略。GAN可以学习从不同视角重新渲染场景,这有助于为强化学习方法构建新的学习环境,最终为自动驾驶汽车生成更具泛化能力的策略。

d) 可靠高效的运动规划器和反馈控制器

运动规划器和反馈控制器是自动驾驶系统的关键组成部分之一,因为它们在系统的整体运行时间中起着关键作用[140]。然而,它们的工作方式如第4节所述是相反的。因此,需要进一步研究以提出一种可靠高效的运动规划器和反馈控制器,以平衡计算负担、速度和安全[141]。

e) 通用基准数据集

尽管已有用于评估自动驾驶系统不同单独方面的数据集[142]–[145](如KITTI基准[78]和公开可用数据集[146]),但仍需要建立通用基准数据集来衡量自动驾驶原型的整体性能。此类举措将使自动驾驶成为学术界和工业界共同关注的热点,有助于开展基准测试并组织相关研究社区的竞赛,从而提升自动驾驶系统的各个单独方面以及整体性能。

f) 产业化与个性化

尽管在自动驾驶的几乎所有方面(如跟踪[147]–[149],、速度控制[150],[151], 、定位与建图[34],[152],、路径规划[153]–[156],以及视觉引导[98],[43],)均有大量研究在进行,但由于存在安全风险且缺乏大规模产业化,此类系统尚未获得全球认可和广泛应用。因此,自动驾驶模型应进一步成熟,以实现全球范围内的可信度和大规模应用。此外,个性化(例如针对巡航控制[157] 和车道偏离[158],[159]的初步探索)可成为一项有趣的研究方向,使用户能够根据自身对安全、限速、可用功能和成本的偏好进行调整。例如,谷歌和英伟达等公司正在开发强大的基于人工智能的自动驾驶汽车,并投入资源研发专用的高性能 GPU和TPU设备,用于高效运行自动驾驶中的深度学习模型,正如本研究所讨论的模型。

g) 自动驾驶汽车的边缘计算

为了确保自动驾驶的安全性和鲁棒性,自动驾驶汽车配备了多种智能传感器和高性能嵌入式计算设备。从这些传感器获取的数据通过深度学习模型进行处理,以实现精确决策。在此背景下,主要挑战之一是妥善权衡处理设备的成本与计算模型的能力之间的关系[160],[161]。通常情况下,制造业优先以最低成本制造具备最大性能的传感器[162]。这为边缘计算在安全自动驾驶中的应用开辟了前所未有的机遇。面向深度学习的边缘计算[163]需要研究在边缘端进行在线训练,因为车辆数据会随时间动态变化[164]。传统训练过程通常在计算资源丰富的设备上完成,然后将训练好的模型部署到边缘端。这种策略在应用于自动驾驶相关任务时效果不佳,因为需要不断更新模型所获取的知识。这是一个具有挑战性的研究方向,要求在边缘端实现高效且优化的在线学习机制来训练深度学习模型[165]。具体而言,目前迫切需要成熟的软件框架,能够将不同远程环境下本地学习的深度学习模型进行联合,同时不损害受保护数据。这种联邦学习场景非常适合安全自动驾驶,在此场景中,车辆之间可通过共享模型信息而非原始采集数据来丰富模型。由于该研究领域尚处于初期阶段,社区应进一步关注如何将现有框架已取得的初步成果外推至汽车领域,并重点关注延迟、联合模型的可靠性/声誉以及模型过时等关键实施问题[166]。

h) 隐私感知知识共享

在安全问题上,人类是最后需要承担风险的资产。因此,整个社区应协同致力于构建更精确的模型。然而,车辆状况和环境的巨大差异使得构建能够在不同环境场景下保持性能水平的深度学习模型变得复杂。在此背景下,迫切需要使用多样化的数据集来训练模型,以尽可能覆盖实际中的安全关键情况。但除了技术因素外,尽管最终目标是提升安全性,在竞争市场中,由于利益相关者不愿分享从其客户群中获取的数据,这一方法的实施变得复杂。鉴于此,研究重点应转向联邦学习[167],——一种以深度学习为核心的新型分布式计算范式,通过该范式,部署在车辆上的本地训练模型可以共享其知识(体现为发送给中央服务器的调整后的参数),并利用这些知识在本地提升自身性能。有趣的是,这种分布式计算不会损害本地模型训练数据的隐私。我们预见联邦深度学习在车辆感知领域将具有令人期待的应用前景,使制造商能够在无需过分担心数据集隐私和机密性的情况下,实现前所未有的车辆感知水平。

i) 万物互联以提高安全性

在未来智慧城市中,[169],与道路相关的不同实体(如车辆、路标、交通灯等)将相互连接,以共享有用信息[170],[171]。当然,这些实体需要具备互操作性,因此必须针对自动驾驶汽车研究一系列多样的通信标准,以避免出现互操作性问题[172],[173]。这将使自动驾驶汽车能够获取有关交通拥堵、实时最佳路线建议以及预期碰撞的必要信息,从而提升自动驾驶的安全性。

j) 风险评估

自动驾驶的目标之一是减少道路死亡事故并消除道路上的人为错误。然而,由于现实世界中的不确定性普遍存在,自动驾驶汽车并非完全无风险。因此,风险评估对于提高自动驾驶的安全性至关重要。大量文献关注了自动驾驶的各个方面,包括路径规划、运动规划、场景分割与理解、基于深度学习的解决方案以及行人对完全自动驾驶汽车的接受度,以降低真实环境中的自动驾驶风险。例如,Cunneen等[174]研究了自动驾驶技术的伦理框架以降低风险。此外,自动驾驶面临的挑战在于自动驾驶汽车如何感知外部环境,以理解不同情境从而最小化自动驾驶的整体风险。Hillel等[175],开展的一项关于道路和车道检测的调查显示,自动驾驶汽车的路径规划包含两种策略:1)边界框检测,最大化检测框内物体的可能性;2)语义分割,通过分类输入帧中的每个像素实现。然而,在这两种情况下,神经网络的表现均在自动驾驶汽车中取得了显著成功,能够高效地分割车道,使车辆沿道路行驶至最终目的地。此外,当自动驾驶汽车在完全陌生的新环境中自主驾驶时,存在较高的风险概率。为了在这些环境中降低自动驾驶的风险,已提出新的大规模数据集[176]用于场景理解的基准测试。例如,SYNTHIA数据集[177]包含用于场景理解的图像,以及用于自动驾驶汽车实时场景分割的[178]算法,以降低自动驾驶中的风险。此外,Johnson-Roberson等[179]收集了超过20万张来自电子游戏“Grand Theft Auto V”的图像,用于自动驾驶汽车的车辆检测和速度优化,以降低真实环境中的风险。实验结果表明,在训练过程中使用虚拟环境图像显著降低了自动驾驶汽车在真实世界环境中的风险。

尽管深度学习在自动驾驶汽车领域取得了显著成就,但基于深度学习的感知系统存在一个重大局限性,即对不确定性的反馈不足。Cunneen et al.[180]回顾了基于人工智能的决策所面临的挑战,其风险以及社会效益。贝叶斯深度学习是连接深度学习与贝叶斯概率的桥梁,能够在深度学习中提供基于原则的风险分析。此外,通过多次以不同的 dropout权重将输入数据循环输入网络,可利用蒙特卡洛dropout采样来测量模型的不确定性评估。此外,正如McAllister et al.[181],所建议的,使用贝叶斯网络来估计和传播风险评估将使自动驾驶汽车能够应对不确定性。未来几年,还应进一步研究其他与风险评估相关的技术,以解决这一问题。

自动驾驶的另一个风险因素是自动驾驶汽车本身,因为它涉及一些复杂的任务,需要同时执行多个电机操作和认知行为,有时这些操作还必须快速连续进行。此外,自动驾驶汽车的性能在很大程度上依赖于多变的天气、光照条件以及道路表面状况。同时,行人行为也是一个关键因素,为车辆的决策环境带来了额外的不确定性[182]。由于这些挑战的存在,一旦出现问题,其带来的成本将非常高昂。为了确保自动驾驶汽车在公共环境中的可靠性,必须在复杂环境和多变条件下行驶数十亿英里。

七、结论

感知、感知技术和信号处理技术的最新发展显著提升了自动驾驶的成熟度,从而减少了人类驾驶员的努力,并促进了自动驾驶的整体安全性。尽管深度学习策略最近解决了与各个领域(包括自动驾驶)相关的许多复杂问题,但当前文献尚未涵盖其在自动驾驶控制过程中的详细研究。本文指出了深度学习方法的关键优势,并综述了为了安全的自动驾驶的最先进的方法,涵盖了这些方法的主要成就和局限性。此外,本调查还确定了自动驾驶流程的体现,即测量、分析和执行(也称为控制过程),并研究了深度学习方法在多个与安全相关的自动驾驶任务中的表现,包括道路、车道、车辆、行人、疲劳检测、碰撞避免和交通标志检测。最后,本文强调了自动驾驶领域面临的主要挑战和问题,并对未来研究提出了建议,以进一步推动安全自动驾驶的发展。

安全自动驾驶研究数十年来一直是智能交通系统领域关注的焦点。深度学习专家们一直在不断努力,以期在自动驾驶汽车领域达到足够的成熟度,使车辆能够通过配备这类强大建模方法的传感器实现全面且可靠的环境感知。我们倡导一个新时代的到来,研究不仅应致力于提升现代深度学习方法的准确性,还应关注其可用性和实用性[183],,例如对可解释性的需求、对抗性攻击的鲁棒性、相关模型的认知不确定性和风险评估,或推导出能够降低它们的能耗。除非研究社区积极追求这些方向,否则深度学习将仍然局限于学术研究和受控的试验环境,车辆安全也无法发挥这一人工智能分支的巨大潜力。

您可能感兴趣的与本文相关的镜像

LobeChat

LobeChat

AI应用

LobeChat 是一个开源、高性能的聊天机器人框架。支持语音合成、多模态和可扩展插件系统。支持一键式免费部署私人ChatGPT/LLM 网络应用程序。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值