Learning to Compare: Relation Network for Few-Shot Learning论文笔记

最新推荐文章于 2023-11-16 20:05:15 发布

原创最新推荐文章于 2023-11-16 20:05:15 发布 · 2.1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#few-shot learning #小样本学习

Deep Learning 同时被 2 个专栏收录

97 篇文章

订阅专栏

图像处理

28 篇文章

订阅专栏

在语音问答系统中，因每类训练数据量少，传统分类器易过拟合，故研究小样本学习。介绍了小样本学习基本概念，评价了一篇相关论文，阐述了 few - shot 算法通过对比图像特征识别，zero - shot 算法通过对比图像描述和图像识别，还给出了算法结构和目标函数。

前言

在语音问答系统领域，很多时候，每一个类所拥有的训练数据量是很少的，采用传统的分类器进行训练，很可能出现overfitting，为了应对这种问题，最近要研究一下小样本学习。
关于小样本学习的基本概念，可以参看https://www.chainnews.com/articles/650132977783.htm，该综述中还提到了每种类型算法中的典型算法。

论文评价

论文链接：https://arxiv.org/pdf/1711.06025.pdf
这篇论文结构简单，没有很多技巧，但是效果好，理论清晰，是一篇很赞的文章，很喜欢这类文章。

few-shot 算法

few-shot: 通过对比图像与图像之间的特征来实现识别；
zero-shot:通过对比对图像的描述和图像来实现识别；
该论文框架也可适用于zero-shot, 本节主要针对few-shot讲解

该论文采用一个深度网络，该网络包含两个模块：embedding module和relation module。
embedding module 负责将support set中的图像和batch中的图像进行编码（其实就是提取各自的特征），relation module的任务是以这两个特征为输入，判断两个图像的匹配得分，1表示是同一个类，0表示为不同类。
算法整体结构：
在这里插入图片描述
上图中 $f_{\psi}$ 代表embedding module， $g_{\phi}$ 代表relation module, 训练时 C-way k-shot中, 每个类中的1张query image（如上图中穿最下方穿红衣服的狗狗）通过embedding module得到其feature，该类support set中的k个images 都通过embedding module 得到k个features，将该k个features的对应元素求和得到该类的feature，将该类的feature和query image的feature进行concatenate送到relation module，relation module得到一个得分，利用MSE作为目标函数，上述过程用公式表示如下：
$r_{i,j}=g_{\phi}(C(f_{\psi}(x_i),f_{\psi}(x_j)))$
其中， $C$ 代表concatenation， $r_{i,j}$ 代表得分。
目标函数为：
$argmin_{\psi,\phi}\sum_{i}^{i=m}\sum_{j}^{j=n}(r_{i,j}-1(y_i==y_j))$
其中， $y_j$ 代表query image的类别标签， $y_i$ 代表support set中第i类的标签。

具体的网络结构如下图所示：
在这里插入图片描述

zero-shot

在这里插入图片描述
DNN用作处理image的embedding module，可采用imageNet上训练好的InCeption v2或者ResNet101，左侧输入语义向量。

6 条评论

qq_42102301 2021.10.26
请问concatenate的操作具体是怎么完成的，是增加某一个维度，还是直接Add？还有该文是针对训练的时候用小样本吗？有点看不明白
- qq_42102301回复勤劳的凌菲 2021.10.27
  好的，谢谢
- 勤劳的凌菲回复qq_42102301 2021.10.27
  时间比较长，记不清了，一般concatenate操作是通道直接堆叠。第二个问题，在有些任务中，某种类别没有大量样本。只有少量样本，因此才有few-shot的发展

lusofa 2019.09.25
请问RN for few-shot learning的网络结构中，最后一层全连接层的输出为何是8x1呢~对于一个N-way k-shot问题，最后一个全连接层得出的输出应该是N*1吧。论文中作者用的似乎也不是8-way 1-shot，而是5-way 1-shot...这个全连接层的8x1好奇怪
- lusofa回复勤劳的凌菲 2019.09.29
  [reply]Suan2014[/reply] 懂了，谢谢~
- 勤劳的凌菲回复lusofa 2019.09.26
  [reply]lusofa[/reply] 不是这样理解的，这样理解训练网络就没办法用于predict。正确解释如下：以Figure.1所示情况，C-way在网络中C是batch_size大小；这样六张图像经过embedding模块，得到（C, channels, H,W）;Relation模块中的8只是一Hidden_size,经过Relation模块变成了（C,1,1,1）,代码中会reshape成（C），其实relation模块出来的是就是一个得分，判断query图像与support set中的是否为同一类的得分。