ICLR 2024 |冻结住的CLIP仍可作为教师模型!

 标题:FROSTER: Frozen CLIP is A Strong Teacher for Open-Vocabulary Action Recognition

背景介绍

本文的研究课题是开集动作识别(open-vocabulary action recognition),具体来说就是测试集中的视频动作类别与训练集动作类别基本没有重叠或重叠程度很小,因此这需要模型具备较高的泛化性能。目前视频领域主流的做法是基于图像-文本对预训练的模型(主要是CLIP)先在视频数据集上进行fine-tuning,然后再进行测试集的验证。通过实验探索,我们发现:尽管fine-tuning可以让CLIP具备不错的视频特征提取的能力,但这也会让它失去大规模预训练所得到的泛化性能。具体的表现就是,那些在闭集(closed-set)场景下优秀的视频分类器们,一到了开集场景下实验性能便大大缩水,甚至不如原先的预训练CLIP模型了。因此如何让视频模型在fine-tuning的同时还能保持住预训练的知识,成为了本文的研究重点。

问题探究

我们首先尝试了一组在闭集场景下表现优异的CLIP-based的视频模型:Action CLIP[1] , AIM ST-Adapter [2]以及 ST-Adapter[3]。 具体的实验设置为:首先将模型在Kinetics-400上进行fine-tuning,然后在UCF-101,HMDB-51以及Kinetics-600数据集上分别进行了测试。需要特别注意的是,针对Kinetics-600数据集,我们将验证集中与Kinetics-400相同的类别剔除,以保证开集验证的可靠性。实验结果如下图1所示。

图1: 跨数据集性能探究

不难发现,在UCF-101与HMDB-51数据集上,fine-tune模型的性能比Frozen CLIP更强,但是在Kinetics-600数据集上,fine-tune模型的实验性能却比frozen CLIP要更弱。这种不一致的泛化性表现引起了我们的好奇心,因此我们进一步地去分析训练集(Kinetics-400)与各个测试集(UCF-101,HMDB-51和Kinetics-600)之间的类别相似性关系。具体来说,我们用CLIP的text encoder提取不同数据集的各个类别的文本特征,然后利用余弦相似度进行类别相似性的度量。图1中,我们用小括号中的数字来表示数据集类别的相似度,如:UCF-101(0.805)。我们注意到,在测试数据与训练数据具备更高相似度的数据集上(UCF-101和HMDB-51),fine-tune模型相较

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值