Deformable 3DGS
3DGS 只能解决静态场景,对于动态场景只能逐帧重建,浪费时间,存储开销大,无连续性;在 3DGS 基础上,引入变形场使高斯分布随时间变化,从而支持动态内容。该方法类似在 4D 空间压缩数据,故事“记录”动态信息,不能让静态场景“变得动态”。(变形场调整适合规则运动)

通过一个 变形场(类似 NeRF) 和三维高斯分布来 解耦运动和几何结构(动态三维高斯分布可以映射到规范空间中)。
输入一组单目动态场景图像,SfM 校准的时间标签、相机姿态和稀疏点云,由此创建一组高斯分布 G ( x , r , s , σ ) G(x,r,s,\sigma) G(x,r,s,σ) 。
给定时间 t 和三维高斯中心 x 作为输入,通过 MLP 产生偏移量将规范空间转换到变形高斯空间:

( δ x , δ r , δ s ) = F θ ( γ ( s g ( x ) ) , γ ( t ) ) γ ( p ) = ( s i n ( 2 k π p ) , c o s ( 2 k π p ) ) k = 0 L = 1 \begin{aligned} (\delta x,\delta r, \delta s)=F_\theta(\gamma(sg(x)), \gamma(t)) \\\gamma(p)=(sin(2^k\pi p),cos(2^k\pi p))_{k=0}^{L=1} \end{aligned} (δx,δr,δs)=Fθ(γ(sg(x)),γ(t))γ(p)=(sin(2kπp),cos(2kπp))k=0L=1
其中 s g ( ⋅ ) sg(·) sg(⋅) 为停止梯度, γ \gamma γ 表示位置编码(实验表明:作用于输入可以增强细节)(个人感觉是让规范场和变形场交替迭代优化)
因为 colmap 从数据集中估计的姿态不准确,(显示渲染会放大这种抖动,MLP 因其连续性会缩小这种扰动),本文提出 AST 机制——在训练过程中向时间维度注入线性衰减的高斯噪声,模拟位姿误差的扰动:(使得训练出来的变形场在时域上平滑,减少抖动)
Δ = F θ ( γ ( s g ( x ) ) , γ ( t ) + χ ( i ) ) χ ( i ) = N ( 0 , 1 ) ⋅ β ⋅ Δ t ⋅ ( 1 − i r ) \begin{aligned} \Delta = \mathcal{F

最低0.47元/天 解锁文章
1906

被折叠的 条评论
为什么被折叠?



