ICLR 2024 |冻结住的CLIP仍可作为教师模型!

 标题:FROSTER: Frozen CLIP is A Strong Teacher for Open-Vocabulary Action Recognition

背景介绍

本文的研究课题是开集动作识别(open-vocabulary action recognition),具体来说就是测试集中的视频动作类别与训练集动作类别基本没有重叠或重叠程度很小,因此这需要模型具备较高的泛化性能。目前视频领域主流的做法是基于图像-文本对预训练的模型(主要是CLIP)先在视频数据集上进行fine-tuning,然后再进行测试集的验证。通过实验探索,我们发现:尽管fine-tuning可以让CLIP具备不错的视频特征提取的能力,但这也会让它失去大规模预训练所得到的泛化性能。具体的表现就是,那些在闭集(closed-set)场景下优秀的视频分类器们,一到了开集场景下实验性能便大大缩水,甚至不如原先的预训练CLIP模型了。因此如何让视频模型在fine-tuning的同时还能保持住预训练的知识,成为了本文的研究重点。

问题探究

我们首先尝试了一组在闭集场景下表现优异的CLIP-based的视频模型:Action CLIP[1] , AIM ST-Adapter [2]以及 ST-Adapter[3]。 具体的实验设置为:首先将模型在Kinetics-400上进行fine-tuning,然后在UCF-101,HMDB-51以及Kinetics-600数据集上分别进行了测试。需要特别注意的是,针对Kinetics-600数据集,我们将验证集中与Kinetics-400相同的类别剔除,以保证开集验证的可靠性。实验结果如下图1所示。

图1: 跨数据集性能探究

不难发现,在UCF-101与HMDB-51数据集上,fine-tune模型的性能比Frozen CLIP更强,但是在Kinetics-600数据集上,fine-tune模型的实验性能却比frozen CLIP要更弱。这种不一致的泛化性表现引起了我们的好奇心,因此我们进一步地去分析训练集(Kinetics-400)与各个测试集(UCF-101,HMDB-51和Kinetics-600)之间的类别相似性关系。具体来说,我们用CLIP的text encoder提取不同数据集的各个类别的文本特征,然后利用余弦相似度进行类别相似性的度量。图1中,我们用小括号中的数字来表示数据集类别的相似度,如:UCF-101(0.805)。我们注意到,在测试数据与训练数据具备更高相似度的数据集上(UCF-101和HMDB-51),fine-tune模型相较

### ICLR 2024中的图神经网络(GNN) 对于ICLR 2024会议中有关GNN的研究动态,虽然具体细节尚未公布,但从以往的趋势可以推测一些可能的方向。考虑到NeurIPS这样的顶级会议已经展示了大量关于图上的机器学习成果[^1],以及专门针对图结构数据的学习方法如超双曲图神经网络的发展[^3],预计ICLR 2024也将继续关注这一领域。 #### 预期的论文主题 鉴于先前的工作表明预训练语言模型能够显著减少特定任务所需的标注量并推动少样本和零样本学习的进步[^4],未来可能会有更多的研究探索如何将这些技术应用于GNN框架内,特别是在处理半监督或无监督场景下的节点分类、链接预测等问题时。此外,随着对复杂关系建模需求的增长,新型架构设计及其理论分析将成为热点之一。 #### 可能举办的研讨会 由于之前提到过不少NeurIPS workshop的内容会在次年的其他会议上重现,因此合理猜测,在ICLR 2024期间也有可能会举办类似的专题讨论活动来探讨最新的研究成果和技术挑战。特别是那些涉及跨学科交叉应用(比如生物信息学、社交网络分析等领域)或者是新兴方向(例如量子计算辅助下的高效算法实现等),都将是潜在的主题范围。 ```python # 示例代码展示了一个简单的GNN模型定义过程 import torch.nn as nn from torch_geometric.nn import GCNConv class SimpleGNN(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim): super(SimpleGNN, self).__init__() self.conv1 = GCNConv(input_dim, hidden_dim) self.conv2 = GCNConv(hidden_dim, output_dim) def forward(self, data): x, edge_index = data.x, data.edge_index x = self.conv1(x, edge_index) x = F.relu(x) x = F.dropout(x, training=self.training) x = self.conv2(x, edge_index) return F.log_softmax(x, dim=1) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值