Waymo视角革新!MoST:编码视觉世界,刷新轨迹预测SOTA!

论文标题:

MoST: Multi-modality Scene Tokenization for Motion Prediction

论文作者:

Norman Mu, Jingwei Ji, Zhenpei Yang, Nate Harada, Haotian Tang, Kan Chen, Charles R. Qi, Runzhou Ge, Kratarth Goel, Zoey Yang, Scott Ettinger, Rami Al-Rfou, Dragomir Anguelov, Yin Zhou

导读:

现有的运动预测模型通常依赖于符号化的感知输出(如3D边界框),来生成智能体(如车辆、行人)的轨迹。然而,这种方法可能会因感知错误而变得脆弱,并且可能忽略了场景上下文中的关键信息。MoST方法通过将视觉世界划分为一组紧凑的场景元素,然后利用预训练的图像基础模型和LiDAR神经网络以开放词汇的方式编码所有场景元素,从而解决了这个问题。©️【深蓝AI】编译

1. 问题提出

在复杂环境中,自动驾驶系统需要准确模拟周围智能体的行为,来确保安全高效运行。当前的运动预测模型通常依赖于象征性的感知数据,如3D边界框,来描述智能体状态,而非直接处理原始传感器数据。这种简化输入的方法有助于构建计算效率更高的模型,并便于构建多种模拟场景进行测试。然而,为了提升模型的预测准确性和稳定性,则需要引入更高精度的传感器特征。

例如,相比于边界框,行人姿态和视线等信息能为运动预测提供更丰富的信息。某些场景元素(如车道线)和环境背景(如路面状况和危险区域)难以用简单的边界框表示。手工构建这些复杂概念的表示需要大量的工程工作。

深度学习模型通常在扩大计算资源和数据量时,通过直接利用观察到的特征来替代人工设计的特征,从而提高性能。然而,直接从高维传感器输入(如高分辨率的LiDAR和相机数据)学习预测复杂模式,如智能体行为,是一个极具挑战性的任务,需要处理大量点和像素的时空

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值