点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
笔者的一些个人思考
在自动驾驶领域,随着BEV-based子任务/端到端方案的发展,高质量的多视图训练数据和相应的仿真场景构建愈发重要。针对当下任务的痛点,“高质量”可以解耦成三个方面:
不同维度上的长尾场景:如障碍物数据中近距离的车辆以及切车过程中精准的朝向角,以及车道线数据中不同曲率的弯道或较难采集的匝道/汇入/合流等场景。这些往往靠大量的数据采集和复杂的数据挖掘策略,成本高昂。
3D真值-图像的高度一致:当下的BEV数据获取往往受到传感器安装/标定,高精地图以及重建算法本身的误差影响。这导致了我们很难保证数据中的每一组【3D真值-图像-传感器参数】 的精确一致。
满足上述条件基础上的时序数据:连续帧的多视角图像和相应真值,这对于当前的感知/预测/决策/端到端等任务都是必不可少的。
而对仿真来说,可以直接通过布局进行满足上述条件的视频生成,无疑是最直接的multi-agent传感器输入的构造方式。而DrivingDiffusion则从一个新的角度解决了上述问题。
什么是DrivingDiffusion?
DrivingDiffusion是一个用于自动驾驶场景生成的扩散模型框架,实现了布局控制的多视角图像/视频生成并分别实现了SOTA。
DrivingDiffusion-Future作为自动驾驶世界模型有根据单帧图像预测未来场景视频并根据语言提示影响主车/他车运动规划的能力。
DrivingDiffusion生成效果是怎么样的?
有需要的同学可以先看看项目主页:https://drivingdiffusion.github.io
(1)DrivingDiffusion
布局控制的多视角图像生成
图中展示了以布局投影作为输入的multi-view图像生成效果。
调整布局:精确控制生成结果
图中上半部分展示了生成结果的多样性以及下文中模块设计的重要性。下半部分展示了对正后方的车辆进行扰动的结果,包含移动,转向,碰撞甚至悬浮在空中的场景的生成效果。
布局控制的多视角视频生成

没有检索到标题

文章介绍了DrivingDiffusion,一种用于自动驾驶场景生成的扩散模型框架,它能控制多视角图像和视频生成,通过布局和参数的人为构造解决数据一致性问题,以及对未来场景的预测。模型在自动驾驶任务中有重要应用,通过合成数据增强改善感知任务性能。
最低0.47元/天 解锁文章
1865

被折叠的 条评论
为什么被折叠?



