PaperReading -- Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

文章介绍了一种名为DepthAnything的方法,利用大规模无标注数据和数据增强技术,通过构建挑战性优化目标和引入语义辅助感知,提升模型的特征鲁棒性和泛化能力。实验表明,这种方法在度量深度估计和语义分割任务上优于现有SOTA模型。

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

主要贡献:

  • 数据集维度:一种数据引擎用于数据收集与自动标注,构建了~62M的大规模无标注数据据,极大程度提升了数据覆盖率、降低泛化误差
  • 数据增强(强色彩失真,颜色失真、高斯模糊;强空域畸变,CutMix)构建更具挑战性的优化目标,促使模型主动探索额外的视觉知识,进而提升特征鲁棒性
  • 一种辅助监督信息,迫使模型从预训练Encoder中继承丰富语义先验信息

Methods

Learning Labeled Images

采用MiDas的训练方式,从6个公共数据集中收集150万张标记图像来训练初始MDE模型。使用仿射不变损失来同时训练多个数据集:
Ll=1HW∑i=1HWρ(di∗,di) \mathcal{L}_{l}=\frac{1}{H W} \sum_{i=1}^{H W} \rho\left(d_{i}^{*}, d_{i}\right) Ll=HW1i=1HWρ(di,di)
其中ρ()\rho()ρ()表示仿射不变平均绝对误差损失,先将原深度和预测深度平移放缩到均值为0和单位比例,然后计算误差。

为了获得更强的教师模型,使用语义分割领域的DINOv2预训练权重初始化编码器,并使用预训练的语义分割模型识别天空区域且将天空区域视差值设为0.

Unleashing the Power of Unlabeled Images

使用教师模型为无标签数据集Du\mathcal{D}^uDu分配伪标签,然后使用有标签数据集和无标签数据集的并集Dl∪Du\mathcal{D}^l \cup \mathcal{D}^uDlDu训练学生模型。

注意:不是在教师模型TT

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值