官网:EnerVerse 官网
论文:EnerVerse 论文 —— arxiv
通过自回归扩散模型(autoregressive diffusion),EnerVerse 在生成未来具身空间的同时,能够有效引导机器人完成复杂任务。与现有方法简单应用视频生成模型不同,EnerVerse 深度结合具身任务的需求,创新性地引入了稀疏记忆机制(Sparse Memory)和自由锚点视角(Free Anchor View, FAV)。这些创新不仅显著提升了 4D 生成能力,还实现了动作规划性能的重大突破。


- Initial Reconstruction:使用安装在机器人上的摄像头的观察图像来构建初始 3D 点云,并根据环境和任务专属的需求设置 anchor views。
- Free Anchor View Renders:从这些设定的 anchor views 对场景进行渲染,输出多个图像,得到更全面的场景表示。(增加 ray-direction map)
- Chunkwise Autogressive Generation:根据任务指令,使用多视角视频生成 diffusion 以 chunks 形式(相比连续帧强调长时间序列以及因果推理)生成图像序列,结合噪声帧和参考帧,通过稀疏上下文记忆机制保留关键帧信息,确保生成的一致性和连续性。
Next-Chunk Diffusion Model
定义
- 观测帧为 o 1 : K t = [ o t 1 , o t 2 , … , o t K ] ∈ R K × H × W × C o_{1:K}^t = [o_t^1, o_t^2, \ldots, o_t^K] \in \mathbb{R}^{K \times H \times W \times C} o1:Kt=[ot1,ot2,…,otK]∈RK×H×W×C
- 渲染帧为 r 1 : J t ∈ R J × H × W × C r_{1:J}^t \in \mathbb{R}^{J \times H \times W \times C}

最低0.47元/天 解锁文章






