Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏(中文)

Hydra-MDP: End-to-end Multimodal Planning with Multi-target Hydra-Distillation

Hydra-MDP: 端到端多模态规划与多目标 Hydra 蒸馏

Abstract

我们提出了 Hydra-MDP,这是一种新颖的范式,它采用了师生模型中的多个教师。这种方法利用来自人类基于规则的教师的知识蒸馏训练学生模型,该模型具备一个多头解码器,用以学习多样化的轨迹候选,以适应不同的评估指标。通过基于规则的教师的知识,Hydra-MDP 以端到端的方式学习环境对规划的影响,而不是诉诸于不可微分的后处理步骤。这种方法在 Navsim 挑战赛中荣获第一名,显示了其在多样化的驾驶环境和条件下的泛化能力有显著的改进。相关代码将在 GitHub 上公开,项目链接为 https://github.com/woxihuanjiangguo/Hydra-MDP

1. Introduction

端到端自动驾驶,即直接从原始传感器输入学习神经规划器,被视为实现完全自动化的有希望的途径。尽管该领域已经取得了有希望的进展[11, 12],但最新研究[4, 8, 14]揭露了模仿学习(IL)方法的多个弱点和局限性,尤其是开环评估中存在的问题,如功能失调的指标和隐含的偏见[8, 14]。这一点至关重要,因为这些问题的存在使得无法保证自动驾驶的安全性、效率、舒适性以及对交通规则的遵守。为了解决这个主要限制,一些研究工作已经提出采用闭环指标,这些指标通过确保机器学习规划器满足超越简单模仿人类驾驶员的基本标准,更有效地评估端到端自动驾驶的性能。
因此,端到端规划本质上是一个涉及多个目标和多种模式的任务,其中多目标规划包括满足开环和闭环环境中的各种评估指标。在这种背景下,多模态指的是对于每项指标都可能有多个最优的解决方案存在
现有的端到端方法[4, 11, 12]经常尝试通过后处理来实现闭环评估,但这种做法并不高效,并且与完全端到端的流程相比可能会导致一些额外信息的损失。同时,基于规则的规划器[8, 18]在处理不准确的感知输入时面临挑战。由于这些规划器依赖于预测的感知结果非真实标签(Ground Truth, GT),因此不完美的感知输入会在闭环和开环指标下降低它们的规划性能
为了应对这些挑战,我们提出了一个名为 Hydra-MDP(多模态规划与多目标 Hydra 蒸馏)的新型端到端自动驾驶框架。Hydra-MDP 基于一种创新的师生知识蒸馏(Knowledge Distillation, KD)架构。学生模型通过从人类和基于规则的教师那里进行知识蒸馏,学习适应不同评估指标的多样化轨迹候选。我们通过一个多头解码器实现了多目标 Hydra 蒸馏,有效地整合了来自各个专业教师的知识。此外,Hydra-MDP 还具备一个可扩展的知识蒸馏架构,这使得额外教师的集成变得简单方便。
学生模型训练时使用的是环境观测数据,而教师模型则依赖于真实标签(Ground Truth, GT)数据。这样的配置使得教师模型能够生成更优质的规划预测,进而辅助学生模型进行有效的学习。通过让学生模型****接受环境观测数据的训练,它能够变得擅长应对在测试阶段无法获得精确感知数据的真实场景
我们的贡献可以概括为以下几点:
1.我们提出了一个通过多目标 Hydra 蒸馏实现端到端多模态规划的通用框架,使模型能够以一种可扩展的方式****从基于规则的规划器和人类驾驶员那里学习
2.我们的方案在 Navsim 模拟环境中的评估指标上达到了业界领先的性能水平。

2. Solution

2.1. Preliminaries

𝑂 来表示传感器的观测数据,用 𝑃^𝑃 来分别表示真实感知数据预测感知数据(例如,3D 物体检测、车道检测),用 𝑇^ 表示专家轨迹,用 𝑇∗ 表示预测轨迹 L i m L_{im} Lim 表示模仿损失。在这一部分,我们首先介绍两种流行的范式以及我们提出的新范式(见图 1):
在这里插入图片描述
A. 单模态规划与单目标学习。在这种范式下[11, 12, 14],规划网络直接基于传感器观测数据预测轨迹。虽然可以使用真实感知数据作为辅助监督信号,但它们并不直接影响规划结果。为了简化模型,感知损失并未纳入计算公式中。整个过程可以用以下公式表示:
在这里插入图片描述
在这里,Lim 通常指的是 L2 损失,也就是欧几里得损失,它是一种常用的损失函数,用于衡量预测值与真实值之间的差异。L2 损失的计算公式为:
L 2 L o s s = ∑ i = 1 n ( y i − y ^ i ) 2 L2 Loss=\sum_{i=1}^n(y_i-\hat y_i)^2 L2Loss=i=1n(yi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值