TesserAct 论文
采用RGB-DN(RGB+深度+法线) 作为 4D 场景中间表示,由此建模 4D 场景,比纯 2D 视频更准确地建模 3D 几何结构。相比现有的 4D 视频生成,优化速度快,收敛好,且首次从当前帧和文本描述的具身智能体动作直接预测4D场景。
建模分布为 p ( v , d , n ∣ v 0 , d 0 , n 0 , T ) p(v,d,n|v^0,d^0,n^0,T) p(v,d,n∣v0,d0,n0,T) 其中 v, d, n 表示预测的未来 RGB、深度图和法线图的潜在序列, v 0 v^0 v0、 d 0 d^0 d0、 n 0 n^0 n0 是 RGB 图像、深度和法线图的潜在表示以及具身智能体的文本动作。
q ( z t ∣ z t − 1 ) = N ( z t ; α t z t − 1 , ( 1 − α t ) I ) p θ ( x t − 1 ∣ x t , x 0 , T ) = N ( x t − 1 ; μ θ ( x t , t , x 0 , T ) , Σ θ ( x t , t ) ) \begin{aligned}q(\mathbf{z}_t|\mathbf{z}_{t-1})=\mathcal{N}\left(\mathbf{z}_t;\sqrt{\alpha_t}\mathbf{z}_{t-1},(1-\alpha_t)\mathbf{I}\right)\\p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t,\mathbf{x}^0,\mathcal{T})=\mathcal{N}\left(\mathbf{x}_{t-1};\mu_\theta(\mathbf{x}_t,t,\mathbf{x}^0,\mathcal{T}),\Sigma_\theta(\mathbf{x}_t,t)\right)\end{aligned} q(zt∣zt−1)=N(zt;αtzt−1,(1−αt)I)pθ(xt−1∣xt,x0,T)=N(xt−1;μθ(xt,t,x0,T),Σθ(xt,t))
通过法线积分优化深度:
在第 i 帧的 2D 图像坐标系中,像素位置 u = ( u , v ) T ∈ V i u =(u,v)^T\in\boldsymbol{V}^i u=(u,v)T∈Vi,其对应的深度标量、法向量为 d ∈ D i , n = ( n x , n y , n z ) ∈ N 2 d\in D^i, \quad n=(n_x,n_y,n_z)\in N^2 d∈Di,n=(nx,ny,nz)∈N2。在焦距为 f,主点为 ( c u , c v ) T (c_u,c_v)^T (cu,c
论文阅读笔记——TesserAct: Learning 4D Embodied World Models
最新推荐文章于 2025-11-01 00:03:12 发布

最低0.47元/天 解锁文章
415






