【Few-Shot Incremental Learning】Semantics-Driven Generative Replay in ACM MM 2022 个人理解

原创

已于 2023-12-27 10:15:58 修改 · 1.1k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#分类

于 2023-12-26 22:13:35 首次发布

该博客围绕少样本类增量学习展开，介绍了Semantics - Driven Generative Replay方法。在初始训练集上，将其分段模拟少样本场景，引入特征提取器、语义映射模块、生成对抗网络和四项损失；在增量训练集上，调整损失，引入蒸馏损失避免遗忘，扩充原型实现增量学习。

一、简介

题目： Semantics-Driven Generative Replay for Few-Shot Class Incremental Learning
会议： ACM MM 2022
任务🎯： 给定一批样本充足的初始数据，之后新的数据/任务依次到来，新的数据/任务到来后旧的就不再可获取，并且新的数据相比初始数据可能是稀缺的（例如，初始类别每类可能有100个样本，但新的类别每类可能只有5个样本），要求模型在学习新数据/任务的同时不要忘记旧数据/任务。
Idea✨：
（1）使模型提前适应少样本增量场景，并引入四项损失进行优化： 首先，将初始样本充足的训练数据分割降采样为少样本的增量形式；其次，引入标签语义映射模块降低生成对抗模型对数据量的依赖；最后，引入四个损失在分割的几段数据上进行模型训练，通过 $\mathcal{L}_{GAN}$ 保证生成器生成的假样本与真样本相似，通过 $\mathcal{L}_{V2S}$ 保证生成的假样本与同类的语义原型接近，通过 $\mathcal{L}_{MC}$ 避免模式崩溃，通过 $\mathcal{L}_{CLS}$ 保证模型分类能力。
（2）通过知识蒸馏来避免灾难性遗忘，扩充原型并更新模型实现增量学习： 首先，对于旧类原型，结合均方误差和KL散度计算蒸馏损失 $\mathcal{L}_{DIS}$ 以避免灾难性遗忘；其次，扩充新类原型，重新计算在新类上的 $\mathcal{L}_{GAN}$ 、 $\mathcal{L}_{MC}$ 、 $\mathcal{L}_{CLS}$ 以更新模型。
Note⚠️： 与ALICE in ECCV 2022和SAVC in CVPR 2023把重点放在训练一个强大的具有泛化能力的特征提取器上不同，该工作将重点放在了如何在少样本场景中使用生成对抗网络上。

如图，作者在初始训练阶段引入了四个损失以确保生成器在少样本场景下的学习能力。

二、详情

1. 在初始训练集上的学习过程

初始训练集样本充足，为使模型提前适应少样本增量场景，作者将初始训练集分为了多段，每段是随机抽取的 $K$ 个类别和 $N$ 个样本，形成 $K$ -way $N$ -shot，不同段之间类别不重叠。第 $q$ 个数据段记作 $\mathcal{S}(q)$ 。

1.1 特征提取器

因为作者希望将初始训练集分段以提前模拟少样本增量场景，所以直接使用的是预训练过的特征提取器。具体来说，就是在ImageNet上预训练过的ResNet-18，记作 $\mathcal{F}$ 。在分段的初始训练集上，特征提取器会被微调。

通过特征提取器可以提取特征并计算各类特征的均值，计算过程如下：

其中， $a_i=\mathcal{F}(x_i)$ 为特征； $y_i$ 为对应的标签； $s_k^q$ 为第 $q$ 段数据第 $k$ 个类的原型， $\{s_1^q,s_2^q,\cdots,s_K^q\}$ 会被保存下来。

1.2 语义映射模块

少样本不足以支撑生成对抗网络（Generative Adversarial Network, GAN）的学习，于是作者引入语义映射模块辅助GAN的学习。语义映射模块是一个图卷积网络（Graph Convolutional Network, GCN），记作 $\mathcal{P}$ 。

首先，我们需要了解图神经网络（Graph Neural Network, GNN），假设有如下关系：

如图，展示了GNN的两个重要输入，不同类别的节点特征 $a_1,\cdots,a_5$ ，不同类别节点间的邻接关系矩阵（有关则为1，无关则为0）。

我们可以简单的将GNN视为一个特征更新模型，GNN认为某一类别的节点特征是与邻接类的节点特征相关的。对于 $a_1$ 来说，一次更新过程如下：

$a^{\prime}_1=\sigma(W(a_1+\beta_1\times a_4+\beta_2\times a_5)))$

其中， $\beta_1$ 、 $\beta_2$ 可以是人工设定的权重， $W$ 是需要训练的参数， $\sigma$ 是激活函数（ReLU）。可以看到，经过一次更新每个类的节点特征都包含了自身和邻接类的节点特征，例如 $a^{\prime}_1$ 包含了 ${a_1,a_4,a_5\}$ ， $a^{\prime}_4$ 包含了 ${a_1,a_2,a_3,a_4,a_5\}$