首个多视角自动驾驶场景视频生成世界模型 | DrivingDiffusion: BEV数据和仿真新思路...

没有检索到标题

最新推荐文章于 2025-10-31 16:05:37 发布

原创

最新推荐文章于 2025-10-31 16:05:37 发布 · 3.6k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自动驾驶 #音视频 #人工智能 #机器学习

文章介绍了DrivingDiffusion，一种用于自动驾驶场景生成的扩散模型框架，它能控制多视角图像和视频生成，通过布局和参数的人为构造解决数据一致性问题，以及对未来场景的预测。模型在自动驾驶任务中有重要应用，通过合成数据增强改善感知任务性能。

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

>>自动驾驶之心【大模型】技术交流群

笔者的一些个人思考

在自动驾驶领域，随着BEV-based子任务/端到端方案的发展，高质量的多视图训练数据和相应的仿真场景构建愈发重要。针对当下任务的痛点，“高质量”可以解耦成三个方面：

不同维度上的长尾场景：如障碍物数据中近距离的车辆以及切车过程中精准的朝向角，以及车道线数据中不同曲率的弯道或较难采集的匝道/汇入/合流等场景。这些往往靠大量的数据采集和复杂的数据挖掘策略，成本高昂。
3D真值-图像的高度一致：当下的BEV数据获取往往受到传感器安装/标定，高精地图以及重建算法本身的误差影响。这导致了我们很难保证数据中的每一组【3D真值-图像-传感器参数】的精确一致。
满足上述条件基础上的时序数据：连续帧的多视角图像和相应真值，这对于当前的感知/预测/决策/端到端等任务都是必不可少的。

而对仿真来说，可以直接通过布局进行满足上述条件的视频生成，无疑是最直接的multi-agent传感器输入的构造方式。而DrivingDiffusion则从一个新的角度解决了上述问题。

什么是DrivingDiffusion？

DrivingDiffusion是一个用于自动驾驶场景生成的扩散模型框架，实现了布局控制的多视角图像/视频生成并分别实现了SOTA。
DrivingDiffusion-Future作为自动驾驶世界模型有根据单帧图像预测未来场景视频并根据语言提示影响主车/他车运动规划的能力。

DrivingDiffusion生成效果是怎么样的？

有需要的同学可以先看看项目主页：https://drivingdiffusion.github.io

（1）DrivingDiffusion

布局控制的多视角图像生成

图中展示了以布局投影作为输入的multi-view图像生成效果。

调整布局：精确控制生成结果

图中上半部分展示了生成结果的多样性以及下文中模块设计的重要性。下半部分展示了对正后方的车辆进行扰动的结果，包含移动，转向，碰撞甚至悬浮在空中的场景的生成效果。

布局控制的多视角视频生成

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。