Meta R-CNN : Towards General Solver for Instance-level Low-shot Learning 论文笔记

最新推荐文章于 2024-10-28 16:06:15 发布

原创

最新推荐文章于 2024-10-28 16:06:15 发布 · 5.5k 阅读

31 ·

CC 4.0 BY-SA版权

本文介绍了一种通用方法，用于解决小样本目标检测问题，通过结合Faster R-CNN的RoI特征进行元学习。提出Predictor-head Re-modeling Network (PRN)，在Faster R-CNN基础上进行增强，实现类别的注意力向量，以提高小样本目标检测的准确性。Meta R-CNN将RoI特征与PRN的类注意向量结合，进行通道注意力操作，改进了Faster R-CNN的预测头，使其适应小样本检测任务。

前言

本文提出了一种实现小样本目标检测的通用方法，基于Faster R-CNN生成的RoI feature进行元学习。目前的元学习方法在小样本识别方面非常有用，这主要是因为只需识别单个目标。但如果一张图像中包含多个目标，并且还混合的有背景信息，那么这些元学习方法就不再有用了，因为它不能将这些复杂的信息分开。本文发现，可以通过Faster R-CNN产生的RoI feature对这些混合的目标进行预处理，由于每个RoI feature都指向单个目标或背景，因此Faster R-CNN能够解开这些复杂的信息，进而进行元学习。

基于此，本文构建了Faster R-CNN和元学习之间的联系，通过引入Predictor-head Re-modeling Network （PRN）对Faster R-CNN进行扩增。PRN是一个全卷积网络，并且与Faster R-CNN共享main backbone的参数，也就是Faster R-CNN的前半部分。PRN与Faster R-CNN的后半部分，也就是R-CNN的不同之处在于，它接收的是从基类（base class）和新类（novel class）中得到的小样本目标，包括目标的bbox，然后得到这些目标所属的类的类注意向量（class-attentive vector），每个向量对所有的RoI feature进行channel-wise的attention操作，从而进行针对类的检测。那么这样就对Faster R-CNN的predictor head进行了改造，使它能够检测出与PRN的输入相关的目标，包括目标的类别和位置信息。这个框架可以被归结为典型的元学习范式，称为Meta R-CNN。

方法实现

如下图所示是Meta R-CNN的结构，它主要由两部分组成：Faster R-CNN和PRN，Faster R-CNN提供RoI feature，PRN提供类注意向量，两者相结合以检测属于新类的目标。
在这里插入图片描述

1. Faster R-CNN

Faster R-CNN主要包括两个阶段：

第一个阶段：RPN接收输入图像 $x_i$ ，在 $x_i$ 中生成proposal；
第二个阶段：也就是Fast R-CNN，经过RoIAlign从proposal $ni^\hat{n_i}$ 中提取RoI feature $zi,j^}j=1ni^\lbrace \hat{z_{i,j}} \rbrace ^{\hat{n_i}}_{j=1}$ ，从而通过predictor head $h(zi,j^,θ)h(\hat{z_{i,j}}, \theta)$ 进行分类和定位。

由于Faster R-CNN中的 $h(zi,j^,θ)h(\hat{z_{i,j}}, \theta)$ 并不适合进行小样本目标检测，因此本文提出PRN对 $h(zi,j^,θ)h(\hat{z_{i,j}}, \theta)$ 重新进行建模，生成新的meta-predictor head $h(⋅,Dmeta;θ)h(\cdot,D_{meta};\theta)$