[cvpr2017]Learning an Invariant Hilbert Space for Domain Adaptation

本文介绍了一种利用马氏距离和黎曼几何概念进行无监督和半监督域适配的方法。通过学习一个不变潜在空间(ILS),该方法旨在减少源域与目标域之间的差异,同时提高区分能力。

马氏距离

Introduction

  • 本文适用于半监督和无监督形式的domain adaptation
  • 作者尝试开发一个几何解决方案,通过利用黎曼几何的概念学习潜在空间(latent space)的投影和马氏距离。
  • 作者建议从source domain和target domain沿着相关联的映射学习潜在空间(latent space)的结构,以解决无监督和半监督DA的两个问题。
  • 为此,作何提出在latent space中最大化discrimination power(区分source domain和target domain)的概念。同时,这个latent space也要能够做到最小化source domain和target domain的某个统计量之间的差异
  • 特别地,作者利用矩阵流形上的黎曼几何和优化技术来解决问题。流形科普1流形科普2(简而言之就是用非线性方式将数据从高维降到低维的,并且保持拓扑结构不变,对机器学习而言,流形学习就是一个提取特征的过程)

Proposed Method

  • 作者建议学习一个 Invariant Latent Space (ILS)来减少source domain和target domain之间的discrepancy(差异)。
  • 定义:
  • ILS定义了将source domain和target domain的数据映射到p维lantent space空间的变换 Ws Wt
  • latent space用马氏距离 M 作为度量:
  • cost function:
    L=Ld+λLu

    • Ld (Discriminative):source domain和target domain的相异度(dissimilarity)
    • Lu (Unsupervised):衡量source domain和target domain之间差异的一个统计量

Discriminative Loss

  • Ld 是为了使得latent space能够:
    • 最小化latent space中来自同一个分类的样本的不相似度
    • 最大化latent space中来自不同分类的样本的不相似度
  • 定义来自latent space中的样本 Z (这里允许半监督):
  • 度量M要使得相似的pair距离小,不相似的pair距离大

    • β 时, lβ 趋近hinge-loss函数, lβ 科技看成hinge-loss函数的平滑可导的变体,主要是为了便于优化和避免陷入单一样本点
    • 该公式中, xtMx 计算了 z1,k z2,k 的马氏距离(根据原始公式,这个 M 理应是(z1,kz2,k)的协方差矩阵的逆矩阵,但是这里并不是,我在想为什么)
    • pairs中 z1,k z2,k 的循序与 lβ 的大小无关
    • yk=1 时也就是相似的时候, lβ z1,k z2,k 的马氏距离的增加而增加, yk=1 时也就是不相似的时候, lβ z1,k z2,k 的马氏距离而减少
    • 使用Stein divergence(?)将 M 正则化(regularize)

Soft Margin Extension

  • β很大时(接近hinge-loss这种hard margin),会出现大量的异常数据(outliers)。迫使outliers在margin范围内会导致过拟合。因此,作者对 Ld 作出了名为Soft Margin Extension的改进(加入了松弛变量):

Matching Statistical Properties

  • 由于协方差矩阵表现了提取出的特征当中各个维度之间的相关性,因此作者使用协方差矩阵来捕捉source domain和target domain之间的不匹配程度

模型总览

(剩下的内容因为我水平所限,估计要等我学习一段时间(流行学习这一块盲区太多)后再来看才有可能看懂,这里先附上作者源代码

### Hierarchical Consistency Learning in Unsupervised Domain Adaptation for Object Detection 无监督域适应(Unsupervised Domain Adaptation, UDA)是一种重要的机器学习技术,旨在解决当训练数据和测试数据来自不同分布时模型性能下降的问题。在目标检测领域,UDA 的研究主要集中在如何减少源域和目标域之间的差异,从而提高模型在未标注的目标域上的泛化能力。 #### 方法概述 Hierarchical Consistency Learning 是一种针对无监督域适应设计的方法,其核心思想在于通过多层次的一致性约束来增强特征表示的学习效果[^1]。具体来说,该方法利用了以下两个层次的一致性: 1. **像素级一致性**:通过对输入图像应用不同的变换(如旋转、缩放等),并强制要求这些变换后的预测结果保持一致,以此提升局部特征的鲁棒性和不变性。 2. **实例级一致性**:对于同一对象的不同视图或上下文变化,算法会施加额外的约束条件以确保它们对应相同的类别标签。这种机制有助于捕获更高级别的语义信息,并进一步缩小跨域差距[^3]。 此外,在实际实现过程中,通常还会引入对抗训练策略或者熵最小化原则作为辅助手段,共同促进全局最优解的收敛过程[^2]。 #### 技术细节 以下是 hierarchical consistency learning 中涉及的一些关键技术点及其作用说明: - **结构正则化的深度聚类 (Structurally Regularized Deep Clustering)** 此部分负责构建紧凑且分离良好的簇空间,使得相似样本能够聚集在一起而相异样本彼此远离。这一步骤可以看作是从低维嵌入向量中提取潜在模式的过程之一。 - **自监督预训练 (Self-Supervised Pretraining)** 使用大量未标记的数据预先训练网络参数,以便更好地初始化后续微调阶段所需的权重矩阵。这种方法不仅减少了对手动标注的需求,同时也提高了最终系统的稳定性与效率。 - **多视角推理 (Multi-view Inference)** 基于多个随机采样的子区域生成独立但互补的信息片段集合;随后将其组合起来形成完整的物体描述符。此操作有效缓解了因遮挡等因素引起的误判风险。 下面给出一段简单的伪代码展示上述流程的核心逻辑: ```python def hierarchical_consistency_learning(source_data, target_data): # Step 1: Initialize model with self-supervision pretrained_model = pretrain_on_unlabeled(target_data) # Step 2: Perform clustering and alignment clustered_features = structurally_regularize(pretrained_model.extract_features(target_data)) # Step 3: Enforce pixel-level & instance-level consistencies for epoch in range(num_epochs): for batch in zip(source_data, target_data): loss_pixel = compute_pixel_level_loss(batch) loss_instance = compute_instance_level_loss(clustered_features, batch) total_loss = loss_pixel + lambda * loss_instance optimizer.zero_grad() total_loss.backward() optimizer.step() return pretrained_model.finetune_with_alignment(total_loss) ``` #### 实验验证 为了评估所提方案的有效性,研究人员选取了几组公开可用的大规模视觉基准集进行了对比实验。结果显示,在多种复杂场景下(例如白天到夜晚转换、晴天转雨天等情况),采用 hierarchical consistency learning 后取得显著优于传统迁移学习基线的结果。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值