当前街景合成中容易出现过拟合训练视角,导致在视角变化较大时,生成的新视角图像出现伪影。
MuDG 的最终目标是训练一个 图像扩散模型,而引入 3DGS 的主要目的是为了应对 视角变化较大 的情况。通过结合 MDM 和 3DGS,MuDG 能够生成高质量的多模态数据,并显著提高新视角合成的质量和鲁棒性。并且 3DGS 需要逐场景优化,而 MUDG 通过密集监督信号提高了 泛化能力。
MagicDrive3D 将扩散和重建分为两个阶段会导致帧间闪烁和运动模糊,MuDG 将二者联合起来且实时性更高,动态一致性更好。并且在 MagicDrive3D 中控制条件是为了生成视频,再借助视频重建;MuDG 扩散模型直接输出 3DGS 的参数,通过 3DGS 渲染来调整扩散模型。(实时性好)


模态扩散模型(MDM)的训练阶段始于对已知相机轨迹及其密集观测值的随机采样:
对每一帧的密集观测数据:RGB 图片 I i ∈ R H × W × 3 I_i \in R^{H×W×3} Ii∈RH×W×3 ,单通道深度图 D i ∈ R H × W × 1 D_i \in R^{H×W×1} Di∈RH×W×1 (转换为伪 RGB),语义图 S i ∈ R H × W × K S_i \in R^{H×W×K} Si∈RH×W×K (着色)进行 VAE 编码
z I = ε ( I i ) z D = ε ( D i 3 c h ) z S = ε ( S i c o l o r i z e d ) z_I= \varepsilon(\boldsymbol{I}_i) \qquad \qquad z_D=\varepsilon(\boldsymbol{D}_i^{3ch}) \qquad \qquad z_S=\varepsilon(\boldsymbol{S}_i^{colorized}) zI=ε(Ii)zD=ε(Di3ch)z

最低0.47元/天 解锁文章
1887






