小全读论文《Learning without Memorizing》CVPR2019

FatMigo

已于 2023-04-17 18:01:18 修改

阅读量2.2k

点赞数 1

文章标签： Learning without Memorizing 增量学习小全读论文 LwM Grad-CAM

于 2019-10-02 18:05:47 首次发布

本文链接：https://blog.youkuaiyun.com/FatMigo/article/details/101627532

版权

小全读论文《Learning without Memorizing》CVPR2019

一、Motivation
二、Approach
- 注意力区域的特征生成（Generating attention maps）
- 注意力区域的知识蒸馏
三、实验结果

一、Motivation

本文关注的是增量学习问题，增量学习问题一般的解决方案是利用一个额外的磁盘间存储少量旧类别的样本。文章认为这一设置会存在以下问题：
1）不适合大规模的量化学习问题，如life-long learning设置，当类别很多的时候，依然需要耗费很多的存储空间；
2）在工业场景中，我们往往只会把最终的模型给终端使用者，而不会把数据给到他们（出于隐私等问题），因此，终端使用者是无法接触到旧类别的数据的；
3）与人类的机制违背。人在学习新类别过程往往不会反复地观测旧类别的数据，但依然能达到比较好的学习效果

因此本文提出了一个 不需要接触旧类别样本 的增量学习方法，解决这个问题的一个核心思想是如何保留旧模型的知识，传统的方法是采取知识蒸馏的约束项，这个约束项的意义是 对于一张图片 $I_n$ ，新模型尽可能去学习或者保留这张图片在旧模型中可能会被预测的旧类别 。

然而，作者认为，图片中某些区域的点（称为注意力区域）会对预测的特定类别的结果有比较重要的影响，即预测成A类别的置信度是0.1，其主要是由某些区域得到的，而对于B类别，可能又是另外一个区域得到的。但是上述的知识蒸馏的约束项却忽略了对预测结果有重要影响的区域，即对于一个样本，这个约束项只限制预测结果必须要是A类别置信度是0.1，但是并不约束A类别的注意力区域和旧模型的一致，导致存在一些情况，即使预测结果一致，但是注意力区域是完全不同的，如下图所示
在这里插入图片描述
注意力区域的一个重要意义是，可认为是 当前预测类别结果（置信度）的一种解释，这是旧模型的一个很重要的知识（knowledge），因此本文提出了一个Attention Distillation Loss (LAD)，通过限制样本的注意力区域，让新模型可以保留旧模型中的知识。

二、Approach

本文需要解决两个很关键的问题，
1）如何定义或者生成注意力区域
2）如何对注意力区域进行约束和限制，也即对注意力区域的知识蒸馏

注意力区域的特征生成（Generating attention maps）

本文采取Grad-CAM来生成注意力区域，具体地，
1）首先图片会输入到模型中进行前向传播，得到每一个类别的置信度 $y_c$ 。
2）然后对 $y_c$ 进行反向传播，可以计算到每个卷积层每层feature map $A_k$ 上的梯度图（与特征图同size）
3）最后对梯度图做GAP（global average pooling）操作，得到每层feature map的置信值 $\alpha_k$ ，这个置信值作为第 $k$ 层feature map的重要程度
4）然后，记 $\alpha=[\alpha_1,\alpha_2,...,\alpha_K], A=[A_1,A_2,...,A_K]$ , 文章把注意力区域的特征定义为

Q=ReLU(\alpha^TA)

最低0.47元/天解锁文章