点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
今天自动驾驶之心为大家分享英伟达&斯坦福&南洋理工最新的工作—Gen-Drive!传统的预测和确定性规划范式向为生成-评估规划模式转变。如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
论文作者 | Zhiyu Huang等
编辑 | 自动驾驶之心
写在前面&笔者的个人理解
在复杂环境中导航需要自动驾驶代理能够熟练地预测未来场景(比如其他代理的行为),同时做出明智的决策。一般而言,传统的预测性和确定性规划方法通常将预测和规划过程分开,从而将自车与社会环境信息隔离开来,并常常导致不符合社会驾驶规范的行为。尽管目前工业界和学术界已经提出了集成预测和规划框架的算法模型来解决这一问题,但这类算法仍然依赖于确定性规划,这对解决代理行为的不确定性、多模态性和相互作用的动态性提出了挑战。
为了克服上述提到的这些挑战,我们建议在规划任务中采用生成-评估的方法。这个方法的关键是将自车代理集成到社会互动环境中,为整个场景中的所有代理生成一系列可能的结果,并使用学习场景评估器来指导决策过程。同时,我们考虑到生成模型在自动驾驶的仿真和预测任务中得到了广泛的应用,但它们在决策任务中的应用相对有限。我们认为是两个主要限制阻碍了生成模型在规划任务中的应用。
评估生成的场景并选择符合人类期望和价值观的最佳决策场景非常复杂。为了解决这个问题,我们引入了一个场景评估(奖励)模型,该模型基于从 VLM 反馈中得出的偏好数据进行训练,从而实现更好的决策;
与受益于样本多样性的仿真或者场景生成任务不同,使用生成模型进行规划需要用更少的样本生成更可能的未来场景,以最大限度地减少计算开销和运行时延迟。我们通过引入强化学习 (RL) 微调框架来解决这个问题,该框架基于获得的奖励模型来提高扩散生成的质量;
考虑到上述提到的主要限制阻碍以及相应的解决措施,我们提出了Gen-Drive算法模型,一种扩散生成驱动策略以及相应的训练框架。我们设计的基础模型使用 nuPlan数据集进行训练,并在nuPlan闭环规划基准上进行评估。结果表明,我们的扩散驱动策略取得了良好的性能。
完整的Gen-Drive算法框架以及训练过程如下图所示。

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



