ICLR 2024 |冻结住的CLIP仍可作为教师模型！

最新推荐文章于 2025-01-14 18:19:51 发布

原创

最新推荐文章于 2025-01-14 18:19:51 发布

· 1k 阅读

11 ·

版权

文章标签：

#人工智能 #机器学习 #深度学习 #计算机视觉 #大模型 #CLIP #论文阅读

标题：FROSTER: Frozen CLIP is A Strong Teacher for Open-Vocabulary Action Recognition

背景介绍

本文的研究课题是开集动作识别（open-vocabulary action recognition），具体来说就是测试集中的视频动作类别与训练集动作类别基本没有重叠或重叠程度很小，因此这需要模型具备较高的泛化性能。目前视频领域主流的做法是基于图像-文本对预训练的模型（主要是CLIP）先在视频数据集上进行fine-tuning，然后再进行测试集的验证。通过实验探索，我们发现：尽管fine-tuning可以让CLIP具备不错的视频特征提取的能力，但这也会让它失去大规模预训练所得到的泛化性能。具体的表现就是，那些在闭集（closed-set）场景下优秀的视频分类器们，一到了开集场景下实验性能便大大缩水，甚至不如原先的预训练CLIP模型了。因此如何让视频模型在fine-tuning的同时还能保持住预训练的知识，成为了本文的研究重点。

问题探究

我们首先尝试了一组在闭集场景下表现优异的CLIP-based的视频模型：Action CLIP[1] , AIM ST-Adapter [2]以及 ST-Adapter[3]。具体的实验设置为：首先将模型在Kinetics-400上进行fine-tuning，然后在UCF-101，HMDB-51以及Kinetics-600数据集上分别进行了测试。需要特别注意的是，针对Kinetics-600数据集，我们将验证集中与Kinetics-400相同的类别剔除，以保证开集验证的可靠性。实验结果如下图1所示。

不难发现，在UCF-101与HMDB-51数据集上，fine-tune模型的性能比Frozen CLIP更强，但是在Kinetics-600数据集上，fine-tune模型的实验性能却比frozen CLIP要更弱。这种不一致的泛化性表现引起了我们的好奇心，因此我们进一步地去分析训练集（Kinetics-400）与各个测试集（UCF-101，HMDB-51和Kinetics-600）之间的类别相似性关系。具体来说，我们用CLIP的text encoder提取不同数据集的各个类别的文本特征，然后利用余弦相似度进行类别相似性的度量。图1中，我们用小括号中的数字来表示数据集类别的相似度，如：UCF-101（0.805）。我们注意到，在测试数据与训练数据具备更高相似度的数据集上（UCF-101和HMDB-51），fine-tune模型相较

最低0.47元/天解锁文章