自动驾驶之MultiPath++论文阅读笔记

原创

已于 2022-12-10 11:30:45 修改 · 2.8k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#论文阅读 #自动驾驶 #深度学习

于 2022-12-10 10:29:26 首次发布

本文介绍了一种改进的道路参与者行为预测方法，通过采用稀疏场景元素编码替代密集图像编码，利用折线表示道路特征及代理状态信息，并通过多上下文门控机制融合不同模态的数据。该方法在多个数据集上取得了优异的结果。

预测道路参与者的future behavior.

摘要

将输入由dense image-based encoding改为a sparse encoding of heterogeneous scene elements.
即用polylines(折现)来描述road features和原始的agent state information(例如位置、速度和加速度)。
主要方法是对这些元素进行a context-aware fusion，然后开发一个可重复使用的(reusable) multi-context gating fusion组件.
重新考虑预定义的、静态的anchors的选择，使得模型可以端到端学习latent anchor embeddings.
ensemble和output aggregation技术，寻找effective概率的多模型输出表达

Introduction

目前在自动驾驶中，对human agents建模和预测有以下难点:

Multimodal output space: 未来环境的不可知性,使得模型必须可以表达rich output space.
Heterogenous, interrelated(相互关联的) input space:动静态混合输入，包括道路信息、交通灯、agents的历史状态. 驾驶是高度交互的，可以有很多agent.

MultiPath的光栅化的方法有如下缺点:

空间网格的分辨率、视野和计算要求三者的trade-off.
这是个人工特征工程，一些特征内在的不适合，例如径向速度(radial velocity)
小的卷积视野很难获取长距离的交互。
信息是系数的，dense表达是潜在浪费的.

MultiPath++比MultiPath有如下改进:

避开光栅化+CNN的方法，将road元素表示为折现(polylines),agent的历史信息保存为一个RNN编码的序列，agent交互为与本车相邻的状态的RNNs. 避免了荣誉的光栅化
获取road和agent之间的关系很重要，将所有road element交互地编码效果会更好，因此提出multi-context gating(MCG).
探索轨迹建模。比较基于动力学控制和连续时间地多项式
在miss-rate（MR）和mAP上得到提升.
在Waymo Open Motion Dataset上第一，在Argoverse Motion Forecating上第4.

在这里插入图片描述

3.1 输入表达

Agent state history: 一个state sequence, 固定past steps. 坐标系: agent-centric坐标系，最近的agent pose在原点，朝向东.
- 在Waymo数据集中，包括位置、速度、3D框的大小、朝向角和目标类型.
- Argoverse数据集，仅有位置信息.
- Road network:路网例如车道线、人行道、停止线，表达为参数曲线。进一步通过对每个road element 近似点序列作为线性/多项式的a set of piecewise.
- Agent interactions:对于每个agent，考虑其所有邻居agent. 对于每个邻居,考虑agent坐标系下的坐标系. 例如相对朝向、相对距离、历史和速度
- AV-relative features: 提取自动驾驶车辆相对于其它agent的features,

3.2 Multi Context Gating for fusing modalities

MCG满足:

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。