Github: https://github.com/LiheYoung/Depth-Anything
2024年 TikTok 实习生的工作
主要内容
这篇论文提出了一个使用的方案,用于鲁棒的单目深度估计,Depth Anything
论文的模型结构没有创新(Transformer),主要贡献在于
- 探索了简单有效的数据扩展方式(如何有效利用大量的无标签数据
- 从预训练模型继承语义(使用冻结的 DINOv2 进行特征约束
论文的方法在各中深度估计数据集上都取得了SOTA
故事逻辑
- 通过在大量数据上预训练得到的基础模型,在各种下游任务上,表现出了强大的zero-/few- shot 能力。这一定程度上依赖于大规模的训练数据(当然也包括强大的并行计算能力以及庞大的模型,对于深度估计这一领域来说,强调了大规模的训练数据的重要性)。
- 单目深度估计领域同样需要一个这样的基础模型,但是受限于深度估计数据集有限且难以获得
传统的深度估计数据集,通过 sensors, stereo matching, SfM 等方式获得,花费大,耗时且难以处理
-
论文关注大规模的无标签数据
- 数据简单廉价,容易获取
- 多样性,图像场景更丰富
- 容易标注(使用预训练的单目深度估计模型标注伪标签
-
类似于SAM的自动标注过程(SAM 有人工微调的过程,DAM没有)
- 收集了深度估计公开数据集以及大量无标签数据
- 使用带标签数据训练模型
- 使