论文阅读笔记——MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction

MuDG 论文

当前街景合成中容易出现过拟合训练视角,导致在视角变化较大时,生成的新视角图像出现伪影。
MuDG 的最终目标是训练一个 图像扩散模型,而引入 3DGS 的主要目的是为了应对 视角变化较大 的情况。通过结合 MDM 和 3DGS,MuDG 能够生成高质量的多模态数据,并显著提高新视角合成的质量和鲁棒性。并且 3DGS 需要逐场景优化,而 MUDG 通过密集监督信号提高了 泛化能力

MagicDrive3D 将扩散和重建分为两个阶段会导致帧间闪烁和运动模糊,MuDG 将二者联合起来且实时性更高,动态一致性更好。并且在 MagicDrive3D 中控制条件是为了生成视频,再借助视频重建;MuDG 扩散模型直接输出 3DGS 的参数,通过 3DGS 渲染来调整扩散模型。(实时性好)

在这里插入图片描述
在这里插入图片描述
模态扩散模型(MDM)的训练阶段始于对已知相机轨迹及其密集观测值的随机采样:
对每一帧的密集观测数据:RGB 图片 I i ∈ R H × W × 3 I_i \in R^{H×W×3} IiRH×W×3 ,单通道深度图 D i ∈ R H × W × 1 D_i \in R^{H×W×1} DiRH×W×1 (转换为伪 RGB),语义图 S i ∈ R H × W × K S_i \in R^{H×W×K} SiRH×W×K (着色)进行 VAE 编码
z I = ε ( I i ) z D = ε ( D i 3 c h ) z S = ε ( S i c o l o r i z e d ) z_I= \varepsilon(\boldsymbol{I}_i) \qquad \qquad z_D=\varepsilon(\boldsymbol{D}_i^{3ch}) \qquad \qquad z_S=\varepsilon(\boldsymbol{S}_i^{colorized}) zI=ε(Ii)zD=ε(Di3ch)z

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值