论文阅读笔记——TesserAct: Learning 4D Embodied World Models

最新推荐文章于 2025-11-01 00:03:12 发布

原创

最新推荐文章于 2025-11-01 00:03:12 发布 · 1.6k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #笔记 #世界模型 #具身智能 #机器人

TesserAct 论文
采用RGB-DN（RGB+深度+法线） 作为 4D 场景中间表示，由此建模 4D 场景，比纯 2D 视频更准确地建模 3D 几何结构。相比现有的 4D 视频生成，优化速度快，收敛好，且首次从当前帧和文本描述的具身智能体动作直接预测4D场景。
建模分布为 $p(v,d,n|v^0,d^0,n^0,T)$ 其中 v, d, n 表示预测的未来 RGB、深度图和法线图的潜在序列， $v^0$ 、 $d^0$ 、 $n^0$ 是 RGB 图像、深度和法线图的潜在表示以及具身智能体的文本动作。
$\begin{aligned}q(\mathbf{z}_t|\mathbf{z}_{t-1})=\mathcal{N}\left(\mathbf{z}_t;\sqrt{\alpha_t}\mathbf{z}_{t-1},(1-\alpha_t)\mathbf{I}\right)\\p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t,\mathbf{x}^0,\mathcal{T})=\mathcal{N}\left(\mathbf{x}_{t-1};\mu_\theta(\mathbf{x}_t,t,\mathbf{x}^0,\mathcal{T}),\Sigma_\theta(\mathbf{x}_t,t)\right)\end{aligned}$
通过法线积分优化深度：
在第 i 帧的 2D 图像坐标系中，像素位置 $=(u,v)^T\in\boldsymbol{V}^i$ ，其对应的深度标量、法向量为 $d\in D^i, \quad n=(n_x,n_y,n_z)\in N^2$ 。在焦距为 f，主点为 $c_u,c_v)^T$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

寻丶幽风

关注关注

31
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【一.计算机视觉基础认知】【2.人类视觉系统与机器视觉对比解析】

商务合作|问题讨论|交流学习请联系作者微信，加微信请务必注明来意，博客主页有联系方式

03-15

415

跟着我，咱们一起扒开人眼的"源代码"，看看机器视觉是如何在模仿中超越，又在哪些地方被按在地上摩擦…或许真正的终极视觉系统，既不是冰冷的硅基芯片，也不是脆弱的碳基生命，而是两者的量子纠缠。下次当你眨眼时，想想这个动作背后的5亿年进化史诗——每一次虹膜收缩，都是生命写给宇宙的情书。今天我们要来一场史诗级Battle——把人类历经5亿年进化打磨的视觉系统，和码农们用70年写出来的机器视觉拉出来PK！当我们惊叹YOLOv8的检测速度时，别忘了人眼每秒都在处理着等效4Gbps的视觉数据；

AI日报-20250702：智谱9B小模型逆袭性能，碾压72B大模型！华为CloudMatrix384超节点震撼发布！

07-02

3843

1、北京重磅推出中小学AI教育新纲要！2025年全面试行人工智能课程2、智谱9B小模型逆袭：性能碾压72B大模型，狂揽23项SOTA！3、夸克AI志愿报告爆火！1个月生成1000万份，颠覆传统志愿填报模式4、华为CloudMatrix384超节点震撼发布：AI算力革命性突破，云上架构重塑未来5、清华计算机女神庄莉携镁佳科技冲刺港交所IPO，智能座舱领域再掀波澜6、阿里云领投超亿元！BetterYeah AI创国内AI Agent融资新纪录。

参与评论您还未登录，请先登录后发表或查看评论

1 条评论

优快云-Ada助手 2025.05.03
你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。