【ECCV】无监督学习+空间相似性+知识蒸馏

  • 文章标题: Simple Unsupervised Knowledge Distillation With Space Similarity
  • 论文地址:https://link.springer.com/chapter/10.1007/978-3-031-72627-9_9
  • 代码地址:https://github.com/paganpasta/coss-pytorch
  • 年份:2024年ECCV

文章概述

本文提出了一种新的无监督知识蒸馏(UKD)方法,名为CoSS(Combination of feature similarity and Space Similarity),该方法通过空间相似性(space similarity)激励学生模型(student model)模仿教师模型(teacher model)的嵌入流形(embedding manifold),从而间接保持样本之间的所有关系。

研究背景

在无监督学习(如自监督学习)中,大型网络可以通过大量无标签数据的学习获得较好的特征表示,但对于小型网络,这种优势并不明显。无监督知识蒸馏(UKD)方法旨在让小型网络在无标签的情况下利用大型网络的知识进行训练,现有方法通常手工构建并保存教师和学生模型之间样本之间的关系,但可能会忽略教师映射中的其他关键关系。

核心创新点

  • 提出空间相似性(Space Similarity)概念:与仅依赖于L2归一化嵌入特征的方法不同,本文指出由于归一化是不可逆映射,会消除原始流形的信息和结构,因此提出空间相似性目标来捕捉归一化所丢失的信息。通过使学生特征空间中的每一个维度与教师相应的维度相似,从而保持空间信息。
  • 端到端的蒸馏框架(CoSS):结合传统的基于余弦相似性的特征相似性损失(Lco)和空间相似性损失(Lss),形成了一种简单有效的蒸馏方法,无需依赖于特征队列、对比目标和繁重的数据增强。

方法细节

  • 离线预处理:在训练前,利用K近邻(k-NN)算法为每个样本找到最近邻的k个样本,以便在蒸馏过程中利用局部邻域信息。
  • 训练目标函数:总损失函数由特征相似性损失和空间相似性损失组成,即LCoSS = Lco + λLss。其中,Lco用于对齐归一化嵌入流形中的特征,而Lss用于保持空间信息,确保学生和教师的投影之间具有同胚性。

实验验证

  • 分类任务:在ImageNet数据集上,与Moco-v2学生模型相比,CoSS在Top-1和Top-5分类精度上均有显著提升。

  • 迁移学习:在CIFARs、STL-10、Caltech-101等多个数据集上,CoSS学生模型表现出更高的迁移学习准确率。

  • 密集预测任务:在PASCAL VOC和MS-COCO数据集上,CoSS学生模型在目标检测和图像分割任务中的表现优于或与PCD等方法相当。

  • 图像检索:在Oxford5k和FORB数据集上,CoSS学生模型在图像检索任务中表现出更高的平均精度(mAP)。

  • 泛化能力:在ImageNet-v2、ImageNet-Sketch和ImageNet-C等数据集上,评估了学生模型的泛化能力,CoSS表现出较强的鲁棒性。

讨论与结论

  • 本文提出的方法通过直接建模教师的流形,间接保存了样本之间的关系,与传统的基于样本关系保存的方法不同。
  • CoSS方法具有简单、有效的特点,并且在各种基准测试中表现出了最先进的性能。
  • 提出了将空间相似性引入蒸馏过程的动机,即为了保持教师和学生的流形之间的同胚性,从而确保学生能够更好地学习教师的特征表示。
  • 讨论了方法的可扩展性和未来可能的研究方向,例如将CoSS方法与其他UKD方法(如PCD)结合,进一步提高密集预测任务的性能;探索将空间相似性应用于自然语言处理中的无监督知识蒸馏等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值