【论文阅读】【综述】A survey of deep learning techniques for autonomous driving

最新推荐文章于 2025-09-25 00:20:56 发布

原创

最新推荐文章于 2025-09-25 00:20:56 发布 · 置顶 · 3.7k 阅读

23 ·

CC 4.0 BY-SA版权

由于本片论文不涉及技术，所以就翻译一下，看看公司的人是怎么理解DNN在自动驾驶中的应用的。

文章目录

A survey of deep learning techniques for autonomous driving
我的评价

A survey of deep learning techniques for autonomous driving

0、Abstract

过去十年见证了自动驾驶汽车技术的日新月异的发展，这主要得益于深度学习和人工智能（AI）领域的进步。本文的目的是调查自动驾驶中使用的最新深度学习技术。我们首先介绍基于AI的自动驾驶架构，卷积和递归神经网络，以及深度强化学习范例。这些方法为所调查的驾驶场景感知，路径规划，行为仲裁和运动控制算法奠定了基础。我们研究了使用深度学习方法构建的每个模块的模块化感知计划行动管道以及将传感信息直接映射到转向命令的End2End系统，此外，我们还解决了在设计用于自动驾驶的AI架构时遇到的挑战，例如其安全性，训练数据和计算硬件。本次调查中进行的比较有助于深入了解深度学习和自动驾驶AI方法的优势和局限性，并协助设计选择。

1、Introduction

在过去的十年中，深度学习和人工智慧（AI）成为计算机视觉（Krizhevsky，Sutskever和＆Hinton，2012），机器人技术（Andrychowicz等人，2018）和自然语言取得许多突破的主要技术。处理（NLP; Goldberg，2017）。它们也对当今在学术界和工业界看到的自动驾驶革命产生了重大影响。无人驾驶汽车（AVs）和自动驾驶汽车开始从实验室开发和测试条件迁移到在公共道路上驾驶。将它们部署在我们的环境景观中，可以减少交通事故和交通拥堵，并改善我们在拥挤的城市中的出行能力。“自动驾驶”的标题似乎是不言而喻的，但实际上用于定义自动驾驶的汽车软件（SAE）级别有五个安全性。SAE J3016标准（SAE委员会，2014年）引入了从0到5的等级来对车辆自动化进行评级。较低的SAE等级具有基本的驾驶员辅助功能，而较高的SAE等级则朝着不需要任何人机交互的车辆发展。5级类别的汽车不需要人工输入，通常甚至都没有方向盘或脚踏板。

尽管大多数驾驶场景可以通过经典的感知，路径规划和运动控制方法来相对简单地解决，但其余未解决的场景是传统方法失败的极端情况。

恩斯特·迪克曼斯（Dickmanns＆Graefe，1988）在1980年代开发了第一批自动驾驶汽车。这为例如PROMETHEUS，旨在开发功能齐全的自动驾驶汽车的研究项目铺平了道路。1994年，无人驾驶和自动驾驶汽车（VaMP）成功行驶了1,600公里，其中95％是自动驾驶。同样，1995年，卡内基·梅隆导航实验室（CMU NAVLAB）演示了在6,000公里处自动驾驶的情况，其中98％是自动驾驶。自动驾驶的另一个重要里程碑是2004年和2005年美国国防高级研究计划局（DARPA）的大挑战，以及这是2007年DARPA城市挑战赛的目标。无人驾驶汽车的目标是在没有人工干预的情况下，尽可能快地在越野道路上行驶。2004年，这15辆车中没有一辆完成比赛。2005年比赛的冠军斯坦利（Stanley）利用MachineLearning技术在非结构化环境中导航。这是无人驾驶汽车开发的转折点，承认机器学习和人工智能是自动驾驶的核心组成部分。该转折点在本调查报告中也很明显，因为大部分被调查的工作都定于2005年之后。

在这项调查中，我们回顾了自动驾驶中使用的不同AI和深度学习技术，并提供了适用于自动驾驶汽车的最新深度学习和AI方法的调查。我们还将专门讨论安全方面的内容，培训数据源的挑战以及所需的计算硬件。

2、在自驾车中使用基于深度学习的决策架构

自动驾驶汽车是自主决策系统，可处理来自不同车载系统的观察流，例如相机，雷达，光检测和测距（LiDAR），超声传感器，全球定位系统（GPS）单位和/或惯性传感器。这些观察结果被汽车的计算机用来做出驾驶决策。图1显示了AI动力自动驾驶汽车的基本框图。驾驶决策可以通过模块化的感知计划行动管线（图1a）或End2End学习方式（图1b）进行计算，其中感官信息直接映射到控制输出。可以基于AI和深度学习方法或使用经典的非学习方法来设计模块化管道的组件。可以对基于学习和非学习的组件进行各种排列（例如，基于深度学习的对象检测器为经典的A-star路径规划算法提供输入）。安全监控器旨在确保每个模块的安全。

亲亲亲亲亲群群
图1 基于深度学习的自动驾驶汽车。该体系结构既可以实现为顺序感知计划行动管线（a），也可以实现为End2End系统（b）。在顺序管道的情况下，可以使用AI和深度学习方法或基于经典的非学习方法来设计组件。End2End学习系统主要基于深度学习方法。通常设计安全监视器来确保每个模块的安全。人工智能，人工智能[彩色图形可以在wileyonlinelibrary.com上查看] 。

图1a中的模块化管道被分层分解为四个组件，可以使用深度学习和AI方法或经典方法进行设计。这些组件是：

感知和定位
高级路径规划
行为仲裁或低级路径规划
运动控制器。

在这四个高级组件的基础上，我们将描述用于自动驾驶系统的方法的相关深度学习论文归类在一起。除了上述算法之外，我们还对相关文章进行了分组，涵盖了在设计自动驾驶汽车深度学习模块时遇到的安全性，数据源和硬件方面的问题。

给定一条通过道路网络规划的路线，自动驾驶汽车的首要任务是在周围环境中了解和定位自身。在这种表示的基础上，计划了一条连续的道路，并由行为仲裁系统确定了汽车的未来动作。最终，运动控制系统反应性地纠正了在执行计划的运动中产生的错误。可以在Paden，Cáp，Yong，Yershov和Frazzoli（2016）中找到关于这四个组成部分的经典非AI设计方法的概述。

随后将介绍自动驾驶中使用的深度学习和AI技术以及调查用于设计上述分层决策过程的不同方法。此外，我们提供了End2End学习系统的概述，该系统用于将分层过程编码为单个深度学习体系结构，该体系结构将感官观察直接映射到控制输出

3、深度学习技术概述

这一章节都是讲DNN的原理的，引用的文献也都很老，与Autonomous Driving没什么关系

3.1、CNN

3.2、RNN

3.3、DRL

代理无法直接访问模拟的环境状态。取而代之的是，传感器读数提供了有关环境真实状态的线索。要解码真实的环境状态，仅映射传感器读数的单个快照是不够的。时间信息也应该包含在网络的输入中，因为环境的状态会随着时间而改变。可以在Sallab，Abdou，Perot和Yogamani（2017a）中找到在模拟器中应用于AV的DQN示例.DQN已开发为在离散的动作空间中运行。在自动驾驶汽车的情况下，离散动作将转换为离散命令，例如左转，右转，加速或破坏。上面描述的DQN方法已经基于策略梯度估计扩展到了连续动作空间（Lillicrap et al。，2016）。Lillicrap等人的方法。（2016年）描述了一种无模型的行为批评算法，能够直接从原始像素输入中学习不同的连续控制任务。S. Gu，Lillicrap，Sutskever和Levine（2016）提出了一种基于模型的连续Q学习解决方案。

尽管可以使用DRL进行连续控制，但自动驾驶中最常见的DRL策略是基于离散控制（Jaritz，Charette，Toromanoff，Perot和Nashashibi，2018年）。由于agent必须探索其环境，因此这里面临的主要挑战是训练，通常是从碰撞中学习。仅在模拟数据上进行训练的此类系统倾向于学习驾驶环境的偏向版本。这里的解决方案是使用模仿学习（IL）方法，例如反强化学习（IRL， Wulfmeier，Wang和Posner，2016年），可以从人类驾驶示范中学习，而无需探索不安全的动作。

4、深入学习环境感知和定位

无人驾驶技术使车辆能够感知环境并做出响应，从而实现自动驾驶。接下来，我们将综合考虑基于摄像头与LiDAR的环境感知，来概述用于驾驶场景理解的最佳方法。我们调查了自动驾驶中的对象检测和识别，语义分割和定位以及使用占用图的场景理解。有关自动视觉和环境感知的调查可以在Zhu，Yuen，Mihaylova和Leung（2017）和Janai，Güney，Behl中找到。和盖格（2017）。

4.1、传感硬件：相机与激光雷达的辩论

深度学习方法特别适用于检测和识别分别从摄像机和LiDAR设备获取的二维（2D）图像和3D点云中的对象。

在自动驾驶社区中，3D感知主要基于LiDAR传感器，该传感器以3D点云的形式提供周围环境的直接3D表示。LiDAR的性能是根据视野，范围，分辨率和旋转/帧速率来衡量的。3D传感器（例如Velodyne®）通常具有360度的水平视场。为了高速行驶，AV至少需要200米的射程，从而使车辆能够及时响应路况的变化。3D对象检测精度取决于传感器的分辨率，最先进的LiDAR能够提供3cm的精度。

最近的辩论引发了相机与LiDAR传感技术之间的争论。领先于自动驾驶技术发展的两家公司Tesla®和Waymo®（O’Kane，2018）在其主要感知传感器以及目标SAE水平方面有不同的理念（SAE委员会，2014）。Waymo®直接将其车辆构建为5级系统，目前自动驾驶的里程超过了1000万英里。2另一方面，Tesla®将其AutoPilot部署为高级驾驶员辅助系统（ADAS）组件，客户可以在方便时打开或关闭它。Tesla®的优势在于其庞大的培训数据库中，该数据库包含超过10亿英里的行驶里程。3该数据库是通过从客户拥有的汽车中收集数据而获得的。

两家公司的主要传感技术均不同。Tesla®尝试利用其摄像头系统，而Waymo则更多地依赖于LiDAR传感器。传感方法各有利弊。激光雷达即使在黑暗中也具有高分辨率和精确的感知能力，但易受恶劣天气条件的影响（例如，大雨; Hasirlioglu，Kamann，Doric和＆Brandmeier，2016年）并且涉及运动部件。相比之下，相机具有成本效益，但缺乏深度感知且无法在黑暗中工作。如果天气条件阻碍了视野，则相机对恶劣天气也很敏感。

康奈尔大学的研究人员试图从视觉深度估计中复制LiDAR类点云（Wang等人，2019）。相对于立体摄像机的左传感器坐标，将估计的深度图重新投影到3D空间中。产生的点云称为伪LiDAR。伪LiDAR数据可以进一步馈送到3D深度学习处理方法，例如PointNet（Qi，Su，Mo，＆Guibas，2017）或聚合视图对象检测（AVOD; Ku，Mozifian，Lee，Harakeh，＆Waslander，2018）。基于图像的3D估计的成功对于自动驾驶汽车的大规模部署至关重要，因为LiDAR无疑是自动驾驶汽车中最昂贵的硬件组件之一。

除了这些传感技术，雷达和超声波传感器还用于增强感知能力。例如，除了三个LiDAR传感器外，Waymo还使用了五个雷达和八个摄像头，而Tesla®汽车则配备了八个摄像头，12个超声波传感器和一个前向雷达。

4.2、驾驶场景理解

自动驾驶汽车应能够检测交通参与者和可驾驶区域，尤其是在可能出现各种物体外观和遮挡物的城市区域。基于深度学习的感知（尤其是CNN）已成为对象检测和识别的事实上的标准，在竞争中获得了显着的结果，例如ImageNet大规模视觉识别挑战（Russakovsky et al。，2015）。
在这里插入图片描述
图3 场景感知结果的示例。（a）图像中的2D对象检测;（b）应用于LiDAR数据的3D边界框检测器;以及（c）图像上的语义分割结果。二维，二维；3D，三维[可在wileyonlinelibrary.com上查看彩色图形]

使用不同的神经网络架构来检测作为2D感兴趣区域的对象（Dai，Li，He和Sun，2016年; Girshick，2015年; Iandola等人，2016年; Law＆Deng，2018年; Redmon，Divvala 吉尔希克（Girshick）和法哈迪（Farhadi），2016年；S. Zhang，Wen，Bian，Lei，＆Li，2017）图像中的像素方向分割区域（Badrinarayanan，Kendall，＆Cipolla，2017; He，Gkioxari，Dollar，＆Girshick，2017; Treml等，2016; H.Zhao，Qi，Shen，Shi，＆Jia，2018），LiDAR点云中的3D边界框（Luo，Yang，＆Urtasun，2018; Qi et al。，2017; Zhou＆Tuzel，2018），以及其中的对象的3D表示相机-LiDAR组合数据（X.Chen，Ma，Wan，Li，＆X