Abstract&Introduction&Related Work
- 研究任务
OCL - 已有方法和相关工作
- 面临挑战
为了学好新的任务,模型需要修改参数,这导致了CF - 创新思路
- 利用用互信息最大化,减少由交叉熵导致的特征bias,因为交叉熵只学习不同任务特征的区别,但是这些特征在其他任务中不一定有区别,这个方法鼓励每个任务的学习利用整体表征或任务训练数据的全部特征
- 鼓励保存之前学到的知识(吹的好)
- 提出了holistic representation
- 实验结论
batch CL每个task的数据可以训练任意个epoch,但是online CL每个任务的数据都是以流的形式逐渐出现的,只要积累了一小批训练样本,就可以进行学习
inter-task CF指的是学到后面的任务忘了前面的任务
intra-task CF指的是一个任务内,学到后面的batch忘掉了前面batch的知识
因为online CL每个样本只看到一次,所以只有OCL才会intra-task CF
Preliminaries
提出两个命题:
- 最小化CE并不意味着一个类/任务的所有可能的特征都在特征提取器中学习(白猫黑狗)
- 没有学到的特征可能会导致持续学习中的CF,我们可以假设只有一个特征子集是从任务1中学习的。但其中一些未被学习的特征可能是区分任务2的类别所必需的。为了学习这些特征,必须更新从任务1中学习的特征提取器,这就导致任务1中的类的CF。按照上面的例子,如果任务2是要学习识别鸡和猪,而它们有很多颜色。上述两个基于颜色的特征将是不够的。现有的特征提取器需要为任务2进行更新,这就导致了CF的出现
MI Maximization for Continual Learning
交叉熵损失只学习判别性的和有偏见的特征来区分任务中的类别,其他可能在未来可能的任务中对分类有帮助的特征被忽略了,这导致在学习未来任务时出现CF,提出的基于MI的解决方案的目的是处理这个问题
Maximization of MI between Input X X X and f θ ( X ) f_θ(X) fθ(X)
解决该问题的一种方法是确保学习的特征表示 f θ ( X ) f_{\theta}(X)\text{} fθ(X) 是整体的,即它尽可能保留输入 X X X 的特征,以减少特征偏差
建议最大化 X X X 和 f θ ( X ) f_{\theta}(X) fθ(X)之间的互信息 : I ( X ; f θ ( X ) ) \text{:}I(X;f_{\theta}(X)) :I(X;fθ(X)),因为互信息可以检测一般的,可能非线性的关系。我们使用额外的头部 Φ \Phi Φ(例如线性层)来计算 Φ ( f θ ( X ) ) \Phi(f_{\theta}(X)) Φ(fθ(X)) 并最大化 I ( X ; Φ ( f θ ( X ) ) ) I(X;\Phi(f_{\theta}(X))) I(X;Φ(fθ(X)))
Φ ( f θ ( x ) ) \mathop{\Phi}(f_{\theta}(x)) Φ(fθ(x)) 为表示学习创建了一个新的参数空间,其维数比 f θ ( x ) f_\theta(x) fθ(x) 小得多
由马尔可夫链 X → f θ ( X ) → Φ ( f θ ( X ) ) X\to f_\theta(X)\to\Phi(f_\theta(X)) X→fθ(X)→Φ(fθ(X)) 和数据处理不等式有:
I ( X ; f θ ( X ) ) ≥ I ( X ; Φ ( f θ ( X ) ) ) ( 1 ) I(X;f_\theta(X))\geq I(X;\Phi(f_\theta(X)))\quad\quad(1) I(X;fθ(X))≥I(X;Φ(fθ(X)))(1)
数据处理不等式:
所以我们直接优化的是 I ( X ; f θ ( X ) ) I(X;f_{\theta}(X))\text{} I(X;fθ(X)) 的下界
为了简化表示,我们使用 F ( X ) F{(X)} F(X) 表示 n o r m a l i z a t i o n ( Φ ( f θ ( X ) ) ) normalization(\Phi(f_{\theta}(X))) normalization(Φ(fθ(X))) ,将所有输入的表示投影到单位球面
在在线CL情景中,每次使用数据 X n e w ⋃ X b u f X^{n e w}\bigcup X^{b u f} Xnew⋃Xbuf 的迭代都应该最大化: I ( X n e w ⋃ X b u f ; F ( X n e w ⋃ X b u f ) ) ( 2 ) I(X^{new}\bigcup X^{buf};F(X^{new}\bigcup X^{buf}))\quad\quad(2) I(Xnew⋃Xbuf;F(X