论文笔记Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer

探讨了一种新的单目深度估计方法,该方法通过混合不同数据集来实现零样本跨数据集迁移,以增强模型的泛化能力。论文提出了一种深度和偏移不变性的损失函数,解决了数据集中深度表达不一的问题,同时介绍了一种预训练模型,能够直接从单张图像中获取深度信息。

CVPR 2020 去雾 SOTA 是
Efficient Unpaired Image Dehazing with Cyclic Perceptual-Depth Supervision arxiv链接
更多CVPR 2020论文请参考https://www.cnblogs.com/Kobaayyy/p/13163056.html

其中用到了单张图片的深度信息, 这给我们一个全新的思路.
引入深度是否可以提高下游任务的模型性能?

先上图感受一下深度加入去雾模型的效果:
CVPR2020去雾SOTA效果
鲁迅说过:“Depth is among the most useful intermediate representations for action in physical environments” 深度是在物理环境中运动的最有用的特征之一

那么如何用深度网络学习深度呢?

这就是今天要讲的Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer arxiv链接

我们将回答下面四个问题:

  1. Describe what the authors of the paper aim to accomplish, or perhaps did achieve.
    这篇论文作者的目标是什么,或者也许已经实现了什么。
  2. If a new approach/technique/method was introduced in a paper, what are the key elements of the newly proposed approach?
    如果文中引入了一种新方法/技术,那么这一新提出的方法/技术的关键要素是什么?
  3. What content within the paper is useful to you?
    论文中,有哪些内容对你有用。
  4. What other references do you want to follow?
    你还想关注哪些参考资料/文献?

这篇论文作者的目标是什么,或者也许已经实现了什么?

如果文中引入了一种新方法/技术,那么这一新提出的方法/技术的关键要素是什么?

  1. 数据集 : 现有的深度数据集的场景不够丰富, 不能训练出一个在任意场景下都健壮的模型. 因此作者选择结合这些数据集
    在这里插入图片描述但是组合这些数据集有三个挑战:
  • 深度表达不同, 有的是0表示最近, 有的是0表示最远
  • 部分数据集没有提供缩放信息
  • 部分数据集提供了单张图像的相对深度(disparity), 但是跨数据集的相对深度无法直接转换
  1. 提出具有深度和偏移不变性的损失函数
    统一用Monocular relative depth perception with web stereo data supervision中提出的方法, 得到每张图像的相对深度(disparity map), 然后以disparity map作为输入训练模型, 避免的上面提到的3个问题
    令d为模型预测的disparity , d为groud truth disparity,
    先进行一个线性变换得到d_hat和d
    _hat, 这个一步是为了校准不同数据集的disparity map
    在这里插入图片描述
    具体的校准参数定义如下:
    在这里插入图片描述
    标准化一下:
    在这里插入图片描述
    现在可以定义一个具有深度和偏移不变性的损失函数的通用形式:
    在这里插入图片描述
    为了增加泛化能力, 去掉d-d*距离最大的20%的像素
    在这里插入图片描述
    再加上一个正则项, 惩罚x方向和y方向上的导数过大
    在这里插入图片描述

论文中,有哪些内容对你有用?

  1. 问题的转化
    为了解决数据本身存在深度不一致的问题, 转化成设计一个对深度不敏感的loss
  2. 预训练模型
    可以直接得到任意单张图像的深度信息, 用于下游任务的训练, 就像开头说的今年的去雾SOTA一样

补充: 很遗憾, 迁移到其他方法中效果可能有限. 去雾任务中, 之所以和深度强相关, 是因为雾的数据都是人工合成的, 过去合成的效果不好, 现在引入了深度信息, 可以合成更真实的雾(深度越深, 雾越厚), 因此模型效果有了显著提升

你还想关注哪些参考资料/文献?

本质: 雾的合成–深度信息
那么超分辨的本质是什么?

### CLIP4HOI 研究内容及其在零样本 HOI 检测中的应用 CLIP4HOI 是一项基于 CLIP(Contrastive Language–Image Pre-training)模型的研究,旨在解决人类-物体交互(Human-Object Interaction, HOI)检测中的零样本学习问题。通过利用 CLIP 提供的视觉语言对齐能力,CLIP4HOI 能够在没有特定类别标注的情况下识别新的交互行为。 #### 论文核心研究内容 1. **构建零样本 HOI 分类器** CLIP4HOI 利用 CLIP 的文本编码器 TextEnc 来生成分类器权重。具体来说,每个 HOI 类别被转换为一个带有手工制作模板的句子,例如“一个人的照片 [Verb-ing] a [Object]”。这些模板输入到 CLIP 的文本编码器中,以生成 HOI 分类器 $ E_{inter} \in \mathbb{R}^{K_h \times D} $,其中 $ K_h $ 是 HOI 类别的数量,$ D $ 是嵌入空间的维度[^1]。 2. **应对低数据条件下的挑战** 在 HOI 检测中,动词识别面临长尾分布和零样本学习的问题。为了解决这些问题,CLIP4HOI 开发了一种基于视觉语义算法的动词类别标识方法,能够从少量或没有标注的数据中挖掘先验知识并进行有效的分类。 3. **多方面挖掘先验知识** 该方法直接从 CLIP 中检索学习到的知识,而不是依赖传统的知识蒸馏技术。通过 HOI 识别的组成性质,CLIP4HOI 从多个角度挖掘潜在的交互模式,从而提升模型在低数据条件下的性能。 #### 实践应用:零样本 HOI 检测 CLIP4HOI 在零样本 HOI 检测中的实践主要体现在以下几个方面: 1. **跨模态对齐** 通过 CLIP 的视觉语言对齐能力,CLIP4HOI 可以将图像中的视觉信息与文本描述的语义信息进行匹配。这种跨模态对齐使得模型能够在没有标注的情况下理解新的交互行为。 2. **零样本分类器的应用** 利用 CLIP 的文本编码器生成的分类器权重,CLIP4HOI 可以直接对未见过的 HOI 类别进行分类。例如,对于一个新出现的交互行为“一个人正在修理一辆自行车”,模型可以通过解析其对应的文本模板并将其与图像特征进行匹配来完成检测。 3. **实验验证** 在实际测试中,CLIP4HOI 表现出良好的性能,尤其是在零样本条件下。通过与传统方法的对比,CLIP4HOI 展示了更强的泛化能力和鲁棒性,证明了其在低数据条件下的有效性[^4]。 #### 技术优势与创新点 1. **端到端的零样本检测框架** CLIP4HOI 提出了一种端到端的框架,直接利用 CLIP 的预训练知识,避免了复杂的知识蒸馏过程。这种方法简化了模型设计,并提升了效率。 2. **多模态融合策略** 通过结合视觉和语言信息,CLIP4HOI 实现了更深层次的语义理解。这种多模态融合策略不仅提高了模型的准确性,还增强了其对复杂场景的适应能力。 3. **灵活的模板设计** 手工制作的模板为 HOI 类别的描述提供了标准化格式,同时允许根据具体任务需求进行调整。这种灵活性使得 CLIP4HOI 能够应用于多种不同的交互检测场景。 ### 示例代码 以下是一个简单的 Python 代码片段,展示了如何使用 CLIP 文本编码器生成 HOI 分类器权重: ```python import clip import torch # 加载预训练的 CLIP 模型 device = "cuda" if torch.cuda.is_available() else "cpu" model, preprocess = clip.load("ViT-B/32", device=device) # 定义 HOI 类别的模板 hoi_templates = [ "a photo of a person [verb-ing] a [object]", # 添加更多模板... ] # 生成分类器权重 hoi_descriptions = [template.replace("[verb-ing]", verb).replace("[object]", obj) for template in hoi_templates for verb in ["holding", "using"] for obj in ["phone", "book"]] text_inputs = clip.tokenize(hoi_descriptions).to(device) with torch.no_grad(): text_features = model.encode_text(text_inputs) # 输出分类器权重 print(text_features.shape) # 输出: (Kh, D),其中 Kh 是 HOI 类别的数量,D 是嵌入维度 ``` ###
评论 14
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值