次元突破!OccSora:深刻演化自动驾驶4D Occ世界(北航&清华)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享北航&UC Berkeley&清华最新的工作—OccSora,文章提出了一个基于扩散的4D占用生成模型OccSora来模拟自动驾驶世界模型的进展。本文已经授权自动驾驶之心原创!如果您有相关工作需要分享,请在文末联系我们!

也欢迎添加小助理微信AIDriver004,加入我们的技术交流群

>>点击进入→自动驾驶之心占用网络技术交流群

论文作者 | Lening Wang等

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

文章提出了一个基于扩散的4D占用生成模型OccSora来模拟自动驾驶世界模型的进展。该模型使用一个四维场景标记器来获得四维占用输入的时空表示,并实现长序列占用视频的高质量重建。然后,学习时空表征的扩散转换器,并根据轨迹提示生成4D占用。OccSora可以生成具有真实3D布局和时间一致性的16秒视频,展示其对驾驶场景时空分布的理解能力。

开源链接:https://wzzheng.net/OccSora/

主要贡献

传统的自动驾驶模型依靠车辆自身的运动来模拟场景的发展,所以无法像人类那样对场景感知和车辆运动有深刻的理解;世界模型的出现能够更深层次地理解自动驾驶场景和车辆运动之间的综合关系。然而现阶段的大多数方法采用自回归框架来模拟3D场景,这阻碍了该模型有效地生成长期视频序列的能力。

所以如图1所示,相较于先前的方法,该模型基于2D视频生成模型Sora,提出了一个4D世界模型OccSora。其设计了一种基于扩散的世界模型来实现遵循物理规律的可控场景生成。具体来说,采用多维扩散技术传递准确时空四维信息,并以真实汽车轨迹为条件实现轨迹可控的场景生成,从而更深入地理解自动驾驶场景与车辆运动之间的关系。OccSora通过训练和测试,可以生成符合物理逻辑的自动驾驶4D占用场景,实现基于不同轨迹的可控场景生成。提出的自动驾驶4D世界模型为理解自动驾驶和物理世界中的动态场景变化开辟了新的可能性。

15d3bc2e91bc36c9eb9f3944f314399c.png图1 现有方法的比较

具体方法

1、自动驾驶系统的世界模型

4D占用可以全方位的捕捉三维场景的结构、语义和时间信息,有效促进弱监督或自监督学习,可应用于视觉、激光雷达或多模态任务。基于此,该论文把世界模型 表示为4D占用 。图2展示了OccSora的总体框架。

b5890392ce0124453f3ce9c01ee65c61.png图2  OccSora模型总体框架

首先构建一个4D占用场景标记器,在时间 和空间 两个维度上压缩真实4D占用 ,从而捕捉4D自动驾驶场景中的关系和演化模式。由此得到压缩后的高级tokens 和重构后的4D占用数据 。此外,还设计了一个基于扩散的世界模型,使用车辆的轨迹信息 作为控制单元,在压缩后的高级tokens的监督

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值