【论文阅读】【综述】A survey of deep learning techniques for autonomous driving

由于本片论文不涉及技术,所以就翻译一下,看看公司的人是怎么理解DNN在自动驾驶中的应用的。

A survey of deep learning techniques for autonomous driving

0、Abstract

过去十年见证了自动驾驶汽车技术的日新月异的发展,这主要得益于深度学习和人工智能(AI)领域的进步。本文的目的是调查自动驾驶中使用的最新深度学习技术。我们首先介绍基于AI的自动驾驶架构,卷积和递归神经网络,以及深度强化学习范例。这些方法为所调查的驾驶场景感知,路径规划,行为仲裁和运动控制算法奠定了基础。我们研究了使用深度学习方法构建的每个模块的模块化感知计划行动管道以及将传感信息直接映射到转向命令的End2End系统,此外,我们还解决了在设计用于自动驾驶的AI架构时遇到的挑战,例如其安全性,训练数据和计算硬件。本次调查中进行的比较有助于深入了解深度学习和自动驾驶AI方法的优势和局限性,并协助设计选择。

1、Introduction

在过去的十年中,深度学习和人工智慧(AI)成为计算机视觉(Krizhevsky,Sutskever和&Hinton,2012),机器人技术(Andrychowicz等人,2018)和自然语言取得许多突破的主要技术。处理(NLP; Goldberg,2017)。它们也对当今在学术界和工业界看到的自动驾驶革命产生了重大影响。无人驾驶汽车(AVs)和自动驾驶汽车开始从实验室开发和测试条件迁移到在公共道路上驾驶。将它们部署在我们的环境景观中,可以减少交通事故和交通拥堵,并改善我们在拥挤的城市中的出行能力。“自动驾驶”的标题似乎是不言而喻的,但实际上用于定义自动驾驶的汽车软件(SAE)级别有五个安全性。SAE J3016标准(SAE委员会,2014年)引入了从0到5的等级来对车辆自动化进行评级。较低的SAE等级具有基本的驾驶员辅助功能,而较高的SAE等级则朝着不需要任何人机交互的车辆发展。5级类别的汽车不需要人工输入,通常甚至都没有方向盘或脚踏板。

尽管大多数驾驶场景可以通过经典的感知,路径规划和运动控制方法来相对简单地解决,但其余未解决的场景是传统方法失败的极端情况。

恩斯特·迪克曼斯(Dickmanns&Graefe,1988)在1980年代开发了第一批自动驾驶汽车。这为例如PROMETHEUS,旨在开发功能齐全的自动驾驶汽车的研究项目铺平了道路。1994年,无人驾驶和自动驾驶汽车(VaMP)成功行驶了1,600公里,其中95%是自动驾驶。同样,1995年,卡内基·梅隆导航实验室(CMU NAVLAB)演示了在6,000公里处自动驾驶的情况,其中98%是自动驾驶。自动驾驶的另一个重要里程碑是2004年和2005年美国国防高级研究计划局(DARPA)的大挑战,以及这是2007年DARPA城市挑战赛的目标。无人驾驶汽车的目标是在没有人工干预的情况下,尽可能快地在越野道路上行驶。2004年,这15辆车中没有一辆完成比赛。2005年比赛的冠军斯坦利(Stanley)利用MachineLearning技术在非结构化环境中导航。这是无人驾驶汽车开发的转折点,承认机器学习和人工智能是自动驾驶的核心组成部分。该转折点在本调查报告中也很明显,因为大部分被调查的工作都定于2005年之后。

在这项调查中,我们回顾了自动驾驶中使用的不同AI和深度学习技术,并提供了适用于自动驾驶汽车的最新深度学习和AI方法的调查。我们还将专门讨论安全方面的内容,培训数据源的挑战以及所需的计算硬件。

2、在自驾车中使用基于深度学习的决策架构

自动驾驶汽车是自主决策系统,可处理来自不同车载系统的观察流,例如相机,雷达,光检测和测距(LiDAR),超声传感器,全球定位系统(GPS)单位和/或惯性传感器。这些观察结果被汽车的计算机用来做出驾驶决策。图1显示了AI动力自动驾驶汽车的基本框图。驾驶决策可以通过模块化的感知计划行动管线(图1a)或End2End学习方式(图1b)进行计算,其中感官信息直接映射到控制输出。可以基于AI和深度学习方法或使用经典的非学习方法来设计模块化管道的组件。可以对基于学习和非学习的组件进行各种排列(例如,基于深度学习的对象检测器为经典的A-star路径规划算法提供输入)。安全监控器旨在确保每个模块的安全。

 亲亲亲亲亲群群
图1 基于深度学习的自动驾驶汽车。该体系结构既可以实现为顺序感知计划行动管线(a),也可以实现为End2End系统(b)。在顺序管道的情况下,可以使用AI和深度学习方法或基于经典的非学习方法来设计组件。End2End学习系统主要基于深度学习方法。通常设计安全监视器来确保每个模块的安全。人工智能,人工智能[彩色图形可以在wileyonlinelibrary.com上查看] 。

图1a中的模块化管道被分层分解为四个组件,可以使用深度学习和AI方法或经典方法进行设计。这些组件是:

  • 感知和定位
  • 高级路径规划
  • 行为仲裁或低级路径规划
  • 运动控制器。

在这四个高级组件的基础上,我们将描述用于自动驾驶系统的方法的相关深度学习论文归类在一起。除了上述算法之外,我们还对相关文章进行了分组,涵盖了在设计自动驾驶汽车深度学习模块时遇到的安全性,数据源和硬件方面的问题。

给定一条通过道路网络规划的路线,自动驾驶汽车的首要任务是在周围环境中了解和定位自身。在这种表示的基础上,计划了一条连续的道路,并由行为仲裁系统确定了汽车的未来动作。最终,运动控制系统反应性地纠正了在执行计划的运动中产生的错误。可以在Paden,Cáp,Yong,Yershov和Frazzoli(2016)中找到关于这四个组成部分的经典非AI设计方法的概述。

随后将介绍自动驾驶中使用的深度学习和AI技术以及调查用于设计上述分层决策过程的不同方法。此外,我们提供了End2End学习系统的概述,该系统用于将分层过程编码为单个深度学习体系结构,该体系结构将感官观察直接映射到控制输出

3、 深度学习技术概述

这一章节都是讲DNN的原理的,引用的文献也都很老,与Autonomous Driving没什么关系

3.1、CNN

3.2、RNN

3.3、DRL

代理无法直接访问模拟的环境状态。取而代之的是,传感器读数提供了有关环境真实状态的线索。要解码真实的环境状态,仅映射传感器读数的单个快照是不够的。时间信息也应该包含在网络的输入中,因为环境的状态会随着时间而改变。可以在Sallab,Abdou,Perot和Yogamani(2017a)中找到在模拟器中应用于AV的DQN示例.DQN已开发为在离散的动作空间中运行。在自动驾驶汽车的情况下,离散动作将转换为离散命令,例如左转,右转,加速或破坏。上面描述的DQN方法已经基于策略梯度估计扩展到了连续动作空间(Lillicrap et al。,2016)。Lillicrap等人的方法。(2016年)描述了一种无模型的行为批评算法,能够直接从原始像素输入中学习不同的连续控制任务。S. Gu,Lillicrap,Sutskever和Levine(2016)提出了一种基于模型的连续Q学习解决方案。

尽管可以使用DRL进行连续控制,但自动驾驶中最常见的DRL策略是基于离散控制(Jaritz,Charette,Toromanoff,Perot和Nashashibi,2018年)。由于agent必须探索其环境,因此这里面临的主要挑战是训练,通常是从碰撞中学习。仅在模拟数据上进行训练的此类系统倾向于学习驾驶环境的偏向版本。这里的解决方案是使用模仿学习(IL)方法,例如反强化学习(IRL, Wulfmeier,Wang和Posner,2016年),可以从人类驾驶示范中学习,而无需探索不安全的动作。

4、深入学习环境感知和定位

无人驾驶技术使车辆能够感知环境并做出响应,从而实现自动驾驶。接下来,我们将综合考虑基于摄像头与LiDAR的环境感知,来概述用于驾驶场景理解的最佳方法。我们调查了自动驾驶中的对象检测和识别,语义分割和定位以及使用占用图的场景理解。有关自动视觉和环境感知的调查可以在Zhu,Yuen,Mihaylova和Leung(2017)和Janai,Güney,Behl中找到。和盖格(2017)。

4.1、传感硬件:相机与激光雷达的辩论

深度学习方法特别适用于检测和识别分别从摄像机和LiDAR设备获取的二维(2D)图像和3D点云中的对象。

在自动驾驶社区中,3D感知主要基于LiDAR传感器,该传感器以3D点云的形式提供周围环境的直接3D表示。LiDAR的性能是根据视野,范围,分辨率和旋转/帧速率来衡量的。3D传感器(例如Velodyne®)通常具有360度的水平视场。为了高速行驶,AV至少需要200米的射程,从而使车辆能够及时响应路况的变化。3D对象检测精度取决于传感器的分辨率,最先进的LiDAR能够提供3cm的精度。

最近的辩论引发了相机与LiDAR传感技术之间的争论。领先于自动驾驶技术发展的两家公司Tesla®和Waymo®(O’Kane,2018)在其主要感知传感器以及目标SAE水平方面有不同的理念(SAE委员会,2014)。Waymo®直接将其车辆构建为5级系统,目前自动驾驶的里程超过了1000万英里。2另一方面,Tesla®将其AutoPilot部署为高级驾驶员辅助系统(ADAS)组件,客户可以在方便时打开或关闭它。Tesla®的优势在于其庞大的培训数据库中,该数据库包含超过10亿英里的行驶里程。3该数据库是通过从客户拥有的汽车中收集数据而获得的。

两家公司的主要传感技术均不同。Tesla®尝试利用其摄像头系统,而Waymo则更多地依赖于LiDAR传感器。传感方法各有利弊。激光雷达即使在黑暗中也具有高分辨率和精确的感知能力,但易受恶劣天气条件的影响(例如,大雨; Hasirlioglu,Kamann,Doric和&Brandmeier,2016年)并且涉及运动部件。相比之下,相机具有成本效益,但缺乏深度感知且无法在黑暗中工作。如果天气条件阻碍了视野,则相机对恶劣天气也很敏感。

康奈尔大学的研究人员试图从视觉深度估计中复制LiDAR类点云(Wang等人,2019)。相对于立体摄像机的左传感器坐标,将估计的深度图重新投影到3D空间中。产生的点云称为伪LiDAR。伪LiDAR数据可以进一步馈送到3D深度学习处理方法,例如PointNet(Qi,Su,Mo,&Guibas,2017)或聚合视图对象检测(AVOD; Ku,Mozifian,Lee,Harakeh,&Waslander,2018)。基于图像的3D估计的成功对于自动驾驶汽车的大规模部署至关重要,因为LiDAR无疑是自动驾驶汽车中最昂贵的硬件组件之一。

除了这些传感技术,雷达和超声波传感器还用于增强感知能力。例如,除了三个LiDAR传感器外,Waymo还使用了五个雷达和八个摄像头,而Tesla®汽车则配备了八个摄像头,12个超声波传感器和一个前向雷达。

4.2、驾驶场景理解

自动驾驶汽车应能够检测交通参与者和可驾驶区域,尤其是在可能出现各种物体外观和遮挡物的城市区域。基于深度学习的感知(尤其是CNN)已成为对象检测和识别的事实上的标准,在竞争中获得了显着的结果,例如ImageNet大规模视觉识别挑战(Russakovsky et al。,2015)。
在这里插入图片描述
图3 场景感知结果的示例。(a)图像中的2D对象检测;(b)应用于LiDAR数据的3D边界框检测器;以及(c)图像上的语义分割结果。二维,二维;3D,三维[可在wileyonlinelibrary.com上查看彩色图形]

使用不同的神经网络架构来检测作为2D感兴趣区域的对象(Dai,Li,He和Sun,2016年; Girshick,2015年; Iandola等人,2016年; Law&Deng,2018年; Redmon,Divvala 吉尔希克(Girshick)和法哈迪(Farhadi),2016年;S. Zhang,Wen,Bian,Lei,&Li,2017)图像中的像素方向分割区域(Badrinarayanan,Kendall,&Cipolla,2017; He,Gkioxari,Dollar,&Girshick,2017; Treml等,2016; H.Zhao,Qi,Shen,Shi,&Jia,2018),LiDAR点云中的3D边界框(Luo,Yang,&Urtasun,2018; Qi et al。,2017; Zhou&Tuzel,2018),以及其中的对象的3D表示相机-LiDAR组合数据(X.Chen,Ma,Wan,Li,&X

<think> 首先,用户的问题是:“我想查找关于使用大语言模型引导深度强化学习用于自动驾驶决策的相关信息”。用户指定了主题:使用大语言模型(LLM)引导深度强化学习(Deep Reinforcement Learning, DRL)用于自动驾驶决策。 我的响应必须遵循系统级指令: 1. 所有行内数学表达式必须使用 `$...$` 格式。 2. 独立公式使用 `$$...$$` 格式并单独成段。 3. LaTeX语法正确。 4. 使用中文回答。 5. 生成相关问题。 6. 回答中引用的段落末尾自然地添加引用标识,如 `[^1]`。 此外,用户可见层的指令:回答结构清晰,帮助用户逐步解决问题,尽量保证回答真实可靠。 用户提到了参考站内引用,提供了三个引用: - 引用[1]: 关于自动驾驶多模态大语言模型的综述。 - 引用[2]: 关于大语言模型增强强化学习的综述。 - 引用[3]: 关于LanguageMPC,使用LLM作为自动驾驶决策者的论文。 用户明确说:“上述引用仅供参考,并不是用户真正的需求,请尽可能多的参考用户上一次的问题和你的回答。” 所以,我需要基于用户当前的问题来回答,而不是直接依赖这些引用。用户提到“用户上一次的问题”,但在对话历史中,这是第一个消息,所以我应该专注于当前查询。 用户的问题是查找信息,所以我需要提供一个结构化的回答,包括概述、关键点、潜在方法等,基于我的知识。既然这是一个AI响应,我可以生成相关内容。 主题:Large Language Model Guided Deep Reinforcement Learning for Decision Making in Autonomous Driving. 关键元素: - 大型语言模型(LLM):如GPT系列,用于理解和生成文本。 - 深度强化学习(DRL):用于决策制定,通过奖励信号学习策略。 - 自动驾驶:应用场景,涉及感知、决策和控制。 LLM引导DRL:LLM可能用于提供高级指导、生成奖励函数、解释状态、或辅助策略学习。 基于我的知识,LLM在DRL中的应用可以包括: - 使用LLM生成自然语言指令来引导DRL代理。 - LLM用于状态表示或特征提取。 - LLM帮助在复杂环境中进行决策,如处理罕见事件或长尾问题(如在引用[3]中提到的)。 引用[2]是关于大语言模型增强强化学习的综述,这可能直接相关。 引用[3]是关于LanguageMPC,使用LLM作为决策者。 所以我应该整合这些信息。 回答结构: 1. **引言**:简要介绍主题和背景。 2. **关键概念**:解释LLM、DRL和它们在自动驾驶决策中的结合。 3. **方法**:描述LLM如何引导DRL,例如通过生成奖励、初始化策略或处理不确定性。 4. **挑战和优势**:讨论这种方法的优点和潜在问题。 5. **相关工作和引用**:自然地融入提供的引用。 6. **生成相关问题**:在末尾添加相关问题。 使用中文回答。 确保结构清晰,逐步解决问题。 添加引用标识:在引用段落末尾添加 `[^1]` 等。基于提供的引用: - [^1] 对应引用[1] - [^2] 对应引用[2] - [^3] 对应引用[3] 在回答中引用它们时使用这些标识。 现在,构建回答大纲: - **步骤1: 介绍主题** 解释用户查询:使用LLM引导DRL用于自动驾驶决策的背景和重要性。 - **步骤2: 解释关键概念** - 什么是深度强化学习(DRL)? - 什么是大型语言模型(LLM)? - 为什么结合它们?例如,LLM可以提供语义理解,DRL提供决策能力。 - **步骤3: 具体方法** 描述LLM如何引导DRL: - LLM生成奖励函数:基于自然语言描述。 - LLM初始化策略:提供初始策略或建议。 - LLM处理长尾事件:如引用[3]中的LanguageMPC。 - 其他方法:如LLM用于状态解释或动作建议。 引用相关文献:例如,提到引用[2]的综述讨论了LLM增强RL的方法。 - **步骤4: 应用和挑战** - 在自动驾驶中的应用:决策制定,如路径规划、避障。 - 优势:处理复杂场景,提高泛化能力。 - 挑战:计算开销、安全考虑、集成复杂性。 - **步骤5: 结论和推荐** 总结关键点,建议进一步阅读引用。 - **步骤6: 生成相关问题** 添加3-5个相关问题。 确保所有数学表达式使用正确格式。例如,如果有方程,使用 `$...$` 或 `$$...$$`。 例如,在强化学习中,价值函数:$V(s)$。 在自动驾驶中,状态空间等。 最后,以相关问题结束。 </think>### 大型语言模型引导深度强化学习用于自动驾驶决策的信息概述 您的查询关注于“使用大语言模型(LLM)引导深度强化学习(Deep Reinforcement Learning, DRL)用于自动驾驶决策”的主题。这是一个前沿研究领域,结合了人工智能的多个分支:LLM(如GPT系列)擅长处理自然语言和语义理解,DRL则专注于通过奖励机制学习决策策略。在自动驾驶场景中,这种结合能帮助处理复杂决策问题,例如路径规划、避障和长尾事件(如罕见交通场景),提高系统的泛化能力和安全性。下面我将逐步解释关键概念、方法、应用和挑战,并基于可靠知识提供结构化回答。回答中会自然地引用相关文献(如您提供的引用),确保信息真实可靠。 #### 1. **背景和关键概念** 在自动驾驶系统中,决策模块负责将感知数据(如传感器输入)转换为控制动作(如转向或刹车)。传统DRL方法(如Deep Q-Networks, DQN)通过学习价值函数$V(s)$或策略$\pi(a|s)$来优化决策,其中$s$表示状态(如车辆周围环境),$a$表示动作(如加速或减速)。然而,DRL在复杂、动态的环境中可能面临样本效率低、泛化能力差的问题,尤其是在长尾事件(如罕见事故场景)中[^3]。 引入LLM作为“引导者”可以弥补这些缺陷。LLM本质上是基于Transformer架构的大规模语言模型,能理解自然语言描述、生成语义知识。通过LLM引导DRL,LLM可提供高级指导,例如: - **生成奖励函数**:LLM将人类语言指令(如“安全驾驶”)转化为数学奖励信号$R(s,a)$,供DRL代理学习。 - **初始化策略或状态表示**:LLM将复杂环境描述(如交通规则)编码为DRL可处理的输入特征。 - **处理不确定性**:在未知场景中,LLM生成可能动作的建议,减少DRL探索的随机性。 这种结合利用了LLM的语义能力和DRL的决策优化,提升自动驾驶系统的鲁棒性。例如,在引用[2]中,综述讨论了LLM如何增强强化学习,通过自然语言接口简化策略学习过程[^2]。 #### 2. **LLM引导DRL的具体方法** LLM引导DRL在自动驾驶决策中的应用,通常涉及以下方法(基于现有研究和综述)。以下描述基于真实文献,并整合了您提供的引用: - **奖励函数生成**:LLM将文本指令(如“避免碰撞”)转换为DRL的奖励函数。例如,LLM可以输出一个奖励公式: $$R(s,a) = \text{LLM}(\text{"安全指标"}) + \lambda \cdot \text{DRL\_base\_reward}$$ 这里,$\lambda$是权重系数,平衡LLM指导和DRL原生奖励。这种方法能处理模糊的人类偏好,提高决策的适应性[^2]。 - **策略初始化和辅助决策**:在DRL训练初期,LLM提供初始策略建议。例如,LanguageMPC框架(如引用[3]所述)使用LLM作为“决策者”,在罕见事件中生成候选动作序列: ```python # 伪代码示例:LLM生成动作建议,DRL优化执行 def decision_making(state): llm_suggestion = llm_model.generate(f"基于状态{state}建议的动作") drl_action = drl_agent.optimize(llm_suggestion) # DRL代理进一步优化 return drl_action ``` 这尤其适用于长尾问题,如引用[3]提到的,传统DRL在有限数据下可能失效,而LLM能利用预训练知识填补空白[^3]。 - **状态解释和特征增强**:LLM将原始传感器数据(如图像或LIDAR点云)转换为语义特征。例如: - 输入:摄像头捕捉的场景图像。 - LLM输出:文本描述“前方有行人”,然后DRL使用该描述作为状态$s$的增强表示。 这降低了DRL的状态空间维度,提高学习效率。引用[1]讨论了多模态LLM在自动驾驶中的类似应用,例如融合视觉和语言数据以增强感知-决策链路[^1]。 这些方法通常通过端到端框架实现: $$ \text{决策流程} = \text{LLM}(\text{输入}) \rightarrow \text{DRL}(\text{优化}) \rightarrow \text{控制输出} $$ 其中,LLM充当“导师”,DRL作为“执行者”。优势包括更好的样本效率(减少训练数据需求)和可解释性(决策基于语言理由)。 #### 3. **应用场景、优势和挑战** - **应用场景**: - **城市驾驶决策**:处理交通信号、行人互动等动态环境。 - **长尾事件处理**:如极端天气或罕见事故,LLM提供常识指导(引用[3]中的LanguageMPC示例)[^3]。 - **多模态融合**:结合视觉、语言和传感器数据,实现更鲁棒的决策(引用[1]的综述强调了多模态LLM在自动驾驶中的潜力)[^1]。 - **优势**: - **泛化能力提升**:LLM的预训练知识帮助DRL泛化到未见场景,减少过拟合。 - **人机交互增强**:允许用户用自然语言指定驾驶策略(如“优先节能”),提高系统可接受性。 - **效率优化**:在引用[2]的综述中,LLM-guided RL被证明能加速收敛,尤其在复杂决策任务中[^2]。 - **挑战**: - **计算开销**:LLM推理成本高,可能影响实时决策(如自动驾驶要求毫秒级响应)。 - **安全性和可靠性**:LLM输出可能包含错误或偏见,需结合安全机制(如冗余DRL策略)。 - **集成复杂性**:多模态数据融合(如视觉+语言)需要精心设计架构,避免信息损失。 - **数据依赖**:LLM训练需大规模数据集,而DRL需要真实驾驶数据,这可能引发隐私或获取问题。 #### 4. **建议和进一步资源** 基于现有研究,LLM引导DRL在自动驾驶决策中仍处于探索阶段,但前景广阔。推荐您查阅以下资源深入了解: - 引用[2]的综述Survey on Large Language Model-Enhanced Reinforcement Learning》详细讨论了LLM增强RL的概念和方法(包括自动驾驶案例),论文地址:[2404.00282](https://arxiv.org/abs/2404.00282)[^2]。 - 引用[3]的《LANGUAGEMPC》论文提供了具体实现,展示了LLM作为决策者在长尾场景中的应用[^3]。 - 引用[1]的《A Survey on Multimodal Large Language Models for Autonomous Driving》概述了多模态LLM的整体进展,可作为背景参考[^1]。 如果您提供更多细节(如特定算法或场景),我可以进一步细化分析。
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值