论文阅读笔记——EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

最新推荐文章于 2025-12-04 17:40:34 发布

原创

最新推荐文章于 2025-12-04 17:40:34 发布 · 1.2k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #笔记 #深度学习 #人工智能 #机器人

官网：EnerVerse 官网
论文：EnerVerse 论文 —— arxiv

通过自回归扩散模型（autoregressive diffusion），EnerVerse 在生成未来具身空间的同时，能够有效引导机器人完成复杂任务。与现有方法简单应用视频生成模型不同，EnerVerse 深度结合具身任务的需求，创新性地引入了稀疏记忆机制（Sparse Memory）和自由锚点视角（Free Anchor View, FAV）。这些创新不仅显著提升了 4D 生成能力，还实现了动作规划性能的重大突破。

在这里插入图片描述

Initial Reconstruction：使用安装在机器人上的摄像头的观察图像来构建初始 3D 点云，并根据环境和任务专属的需求设置 anchor views。
Free Anchor View Renders：从这些设定的 anchor views 对场景进行渲染，输出多个图像，得到更全面的场景表示。（增加 ray-direction map）
Chunkwise Autogressive Generation：根据任务指令，使用多视角视频生成 diffusion 以 chunks 形式（相比连续帧强调长时间序列以及因果推理）生成图像序列，结合噪声帧和参考帧，通过稀疏上下文记忆机制保留关键帧信息，确保生成的一致性和连续性。

Next-Chunk Diffusion Model

定义

观测帧为 $o_{1:K}^t = [o_t^1, o_t^2, \ldots, o_t^K] \in \mathbb{R}^{K \times H \times W \times C}$
渲染帧为 $r_{1:J}^t \in \mathbb{R}^{J \times H \times W \times C}$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

寻丶幽风

关注关注

42
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

林浩然的Java冒险记：从运算符到表达式的笑声挑战

howard2005的专栏

01-25

1096

在Java编程世界中，有一个名叫林浩然的小勇士。他的战场并非丛林或城堡，而是由一行行代码构筑的奇妙领域。今天，他要面临的是一场关于运算符与表达式的幽默历险。

EnerVerse 架构

timer_017的博客

01-09

394

EnerVerse 架构是智元机器人具身算法团队推出的创新架构123。

参与评论您还未登录，请先登录后发表或查看评论

1 条评论

优快云-Ada助手 2025.03.04
你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。