论文阅读笔记——EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

官网:EnerVerse 官网
论文:EnerVerse 论文 —— arxiv

通过自回归扩散模型(autoregressive diffusion),EnerVerse 在生成未来具身空间的同时,能够有效引导机器人完成复杂任务。与现有方法简单应用视频生成模型不同,EnerVerse 深度结合具身任务的需求,创新性地引入了稀疏记忆机制(Sparse Memory)和自由锚点视角(Free Anchor View, FAV)。这些创新不仅显著提升了 4D 生成能力,还实现了动作规划性能的重大突破。

在这里插入图片描述
在这里插入图片描述

  • Initial Reconstruction:使用安装在机器人上的摄像头的观察图像来构建初始 3D 点云,并根据环境和任务专属的需求设置 anchor views。
  • Free Anchor View Renders:从这些设定的 anchor views 对场景进行渲染,输出多个图像,得到更全面的场景表示。(增加 ray-direction map)
  • Chunkwise Autogressive Generation:根据任务指令,使用多视角视频生成 diffusion 以 chunks 形式(相比连续帧强调长时间序列以及因果推理)生成图像序列,结合噪声帧和参考帧,通过稀疏上下文记忆机制保留关键帧信息,确保生成的一致性和连续性。

Next-Chunk Diffusion Model

定义

  • 观测帧为 o 1 : K t = [ o t 1 , o t 2 , … , o t K ] ∈ R K × H × W × C o_{1:K}^t = [o_t^1, o_t^2, \ldots, o_t^K] \in \mathbb{R}^{K \times H \times W \times C} o1:Kt=[ot1,ot2,,otK]RK×H×W×C
  • 渲染帧为 r 1 : J t ∈ R J × H × W × C r_{1:J}^t \in \mathbb{R}^{J \times H \times W \times C}
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值