AnytimeCL：难度加大，支持任意持续学习场景的新方案 | ECCV‘24

最新推荐文章于 2025-06-19 16:13:59 发布

原创

最新推荐文章于 2025-06-19 16:13:59 发布 · 720 阅读

·

28

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#学习 #人工智能 #计算机视觉 #神经网络 #深度学习 #transformer

来源：晓飞的算法工程笔记公众号，转载请注明出处

论文: Anytime Continual Learning for Open Vocabulary Classification

论文地址：https://arxiv.org/abs/2409.08518
论文代码：https://github.com/jessemelpolio/AnytimeCL

创新点

在线训练时，每个批次由新训练样本和类别平衡的存储样本组成。
在线学习每个标签的准确性，以有效对原始模型和调整后模型的预测进行加权。
损失修改以支持“以上皆非”（不在预设标签内）的预测，这也使开放词汇训练更加稳定。
中间层特征压缩，减少训练样本的存储并提高速度，同时对准确性的影响不大。

内容概述

论文提出了针对开放词汇图像分类的任意持续学习（AnytimeCL）方法，旨在突破批量训练和严格模型的限制，要求系统能够在任何时间预测任何一组标签，并在任何时间接收到一个或多个训练样本时高效地更新和改进。

AnytimeCL基于一种动态加权机制，结合了部分微调的模型的预测与原始的模型的预测。当有新训练样本时，用存储的样本填充一个类别平衡的批次更新微调模型最后的Transformer块，然后更新对给定标签的调优和原始模型准确度的估计，最后根据它们对每个标签的预期准确度对调优模型和原始模型的预测进行加权。

此外，论文还提出了一种基于注意力加权的主成分分析（PCA）的训练特征压缩方法，这减少了存储和计算的需求，对模型准确度几乎没有影响。

AnytimeCL

论文旨在通过将微调模型与原始模型相结合来增强开放词汇图像分类器以学习目标任务。调优后的模型使用与原始模型相同的编码器，但包含一个可训练的解码器。

对于一幅图像 $x$ ，调优模型和原始模型都生成所有候选标签的概率，分别表示为 $P_t(y|x)$ 和 $P_o(y|x)$ ，最终概率通过在线类别加权（OCW）进行加权：

$KaTeX parse error: Undefined control sequence: \label at position 19: …egin{equation} \̲l̲a̲b̲e̲l̲{eq:our_weighti…$

在训练过程中，新样本被编码为中间特征（图像块的特征向量加上一个CLS标记），可以选择进行压缩并存储，以便在未来重复使用。

模型

原始模型

原始模型是公开可用的CLIP ViT模型，该模型基于图像嵌入 $e_{x}$ （CLS标记）与文本嵌入 $e_{y}$

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。