On the Stability-Plasticity Dilemma of Class-Incremental Learning
1. 引言
- 深度学习的成功与挑战:尽管深度学习在多个领域取得了巨大成功,但大多数深度神经网络在实际应用中通常是静态的,不能适应数据的变化、训练环境的变化或领域的转移。为了应对这些挑战,研究人员积极探索模型适应性技术,提出了各种持续学习方法。
- 持续学习与类增量学习(CIL):在持续学习中,一种简单的方法是微调模型,但这种方法由于神经网络的高度可塑性(易于适应新数据,但可能导致遗忘旧知识)而效果不佳。这就引出了稳定性-可塑性困境:如何在模型中平衡稳定性和可塑性,使其能够学习新概念的同时保留旧概念?本文专注于类增量学习(CIL),一种特定的持续学习子领域,其中新的类别集合以在线方式到来。
- 稳定性-可塑性困境的探究:大多数现有的CIL模型倾向于稳定性而非可塑性。这项研究旨在通过分析工具(如中心核对齐(CKA)和t-SNE可视化)来探索如何在特征表示层面有效地平衡稳定性和可塑性。分析结果表明,大多数CIL算法的特征表示在增量阶段几乎没有新知识的积累,意味着这些模型在保持稳定性的同时牺牲了可塑性。
- 提出新方法:基于这些观察,论文提出了两种新的CIL算法——Partial-DER和Exploit,旨在改善类增量学习的性能。
- 研究贡献:这篇论文的主要贡献在于设计和进行了分析实验,以更好地理解现代持续学习模型中稳定性与可塑性的平衡;发现大多数CIL模型的特征表示只在增量数据训练时进行微小的更新;并介绍了两种简单但有效的CIL算法,这些算法是由我们的分析结果启发的。
2. 类增量学习的稳定性-可塑性困境
- 稳定性与可塑性的定义:
- 稳定性:能够保留先前学到的知识。
- 可塑性:能够从新的类别中学习概念。
- 持续学习的挑战:在持续学习过程中,一个核心挑战是如何在稳定性和可塑性之间找到平衡。这就是所谓的稳定性-可塑性困境。理想情况下,一个模型应该同时具备足够的稳定性以保留旧知识,同时又有足够的可塑性以学习新概念。
- 类增量学习(CIL):在类增量学习中,新的类别集合以在线方式到来,这要求模型能够不断适应新的类别,同时还要保留对旧类别的知识。
- 论文研究动机:大多数现有的CIL模型倾向于稳定性而非可塑性。这项研究旨在通过分析工具(如中心核对齐(CKA)和t-SNE可视化)来探索如何在特征表示层面有效地平衡稳定性和可塑性。
- 分析方法和结果:
- 研究者使用CKA分析特征表示的相似性,发现大多数CIL模型的特征表示在增量阶段几乎没有新知识的积累。
- 通过t-SNE可视化,研究者发现这些模型的特征表示在增量学习过程中保持高度相似,这表明它们在保持稳定性的同时牺牲了可塑性。
- 研究影响:这些发现不仅揭示了当前类增量学习方法的局限性,也为未来改进CIL算法提供了重要的洞见。特别是,这些发现突出了在设计CIL模型时需要更多关注特征表示的持续学习。
3. 特征表示的再评估
-
研究方法:
- 论文中的研究使用了ImageNet-1K数据集,以及多种类增量学习(CIL)算法,包括iCaRL、POD、DER等,以探索特征表示的稳定性和可塑性。
- 通过重新训练分类器层,分析了各种CIL模型在不同增量阶段的特征提取能力。
-
发现和观察:
- 许多CIL模型的特征表示在增量阶段几乎没有积累新知识,表明这些模型更倾向于稳定性。
- 通过中心核对齐(CKA)分析和t-SNE可视化,研究表明,大部分模型的特征表示在增量学习过程中保持高度相似,进一步证明了它们在保持稳定性的同时牺牲了可塑性。
CKA分析:该分析用于衡量特征表示之间的相似性。例如,对于固定特征提取器DER (0)和其他特征提取器DER (1∼5),观察到DER (0)具有最高的CKA值,而DER (1∼5)的CKA值明显较低。这表明在增量阶段,大多数特征表示只经历微小的更新。
1.CKA(中心核对齐)分析的详细过程包括以下几个步骤和公式:
2.创建Gram矩阵:首先,对于给定的两组特征表示X和Y,计算它们的Gram矩阵K和L。这些Gram矩阵是通过计算特征表示之间的内积得到的,即 K = X X T K = XX^T K=XXT 和 L = Y Y T L = YY^T L=YYT。
3.中心化Gram矩阵:接下来,对Gram矩阵K和L进行中心化处理,以消除数据的平均值对结果的影响。
4.计算希尔伯特-施密特独立性准则(HSIC):使用向量化操作(vec(·))对中心化后的Gram矩阵进行处理,然后计算HSIC值。HSIC的计算公式为:
HSIC ( K , L ) = vec ( K ) ⋅ vec ( L ) ( b − 1 ) 2 \text{HSIC}(K, L) = \frac{\text{vec}(K) \cdot \text{vec}(L)}{(b - 1)^2} HSIC(K,L)=

文章探讨了深度学习中的类增量学习(CIL)面临稳定性-可塑性困境,通过分析工具发现现有模型在保持稳定性时牺牲了可塑性。作者提出Partial-DER和Exploit两种新算法,以改善特征表示的学习能力。研究强调了未来CIL模型需关注特征表示的持续学习和适应性。
最低0.47元/天 解锁文章
2875

被折叠的 条评论
为什么被折叠?



