0. 论文信息
标题:DepthMaster: Taming Diffusion Models for Monocular Depth Estimation
作者:Ziyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang
机构:University of Science and Technology of China、vivo Mobile Communication Co., Ltd.
原文链接:https://arxiv.org/abs/2501.02576
代码链接:https://indu1ge.github.io/DepthMaster_page
1. 导读
扩散去噪范式中的单目深度估计表现出令人印象深刻的泛化能力,但推理速度较低。最近的方法采用单步确定性范式来提高推理效率,同时保持可比的性能。然而,它们忽略了生成特征和区别特征之间的差距,导致了次优的结果。在这项工作中,我们提出了DepthMaster,一个单步扩散模型,旨在适应生成特征的判别深度估计任务。首先,为了减轻由生成特征引入的对纹理细节的过度拟合,我们提出了一个特征对齐模块,该模块结合了高质量的语义特征以增强去噪网络的表示能力。第二,为了解决单步确定性框架中缺乏细粒度细节的问题,我们提出了一个傅立叶增强模块来自适应地平衡低频结构和高频细节。我们采用两阶段培训策略,以充分发挥两个模块的潜力。在第一阶段,我们利用特征对齐模块学习全局场景结构,而在第二阶段,我们利用傅立叶增强模块来提高视觉质量。通过这些努力,我们的模型在泛化和细节保持方面达到了最先进的性能,在各种数据集上优于其他基于扩散的方法。
2. 效果展示
不同范式的可视化。“去噪”是指以扩散-去噪的方式预测深度。由于去噪网络的特征表示能力有限,预测往往过度拟合纹理细节,而忽略了真实结构,如第3列中的黄色方框所示。“stage!”通过特征对齐模块缓解了这个问题,但由于去除了迭代过程,输出变得模糊,如第4列中的红色方框所示。“Stage2”展示了最终通过傅里叶增