腾讯推出超强少样本目标检测算法，公开千类少样本检测训练集FSOD | CVPR 2020

最新推荐文章于 2025-09-22 10:49:28 发布

原创

最新推荐文章于 2025-09-22 10:49:28 发布 · 8.7k 阅读

42 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #网络 #计算机视觉 #机器学习 #深度学习

提出一种基于Attention-RPN和多关系检测器的少样本目标检测算法，利用对比训练策略，实现在新类别上的直接迁移，无需fine-tune。同时构建了包含1000类的FSOD数据集。

论文提出了新的少样本目标检测算法，创新点包括Attention-RPN、多关系检测器以及对比训练策略，另外还构建了包含1000类的少样本检测数据集FSOD，在FSOD上训练得到的论文模型能够直接迁移到新类别的检测中，不需要fine-tune

来源：晓飞的算法工程笔记公众号

论文: Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

论文地址：https://arxiv.org/abs/1908.01998

Introduction

不同于正常的目标检测任务，few-show目标检测任务需要通过几张新目标类别的图片在测试集中找出所有对应的前景。为了处理好这个任务，论文主要有两个贡献：

提出一个通用的few-show目标检测算法，通过精心设计的对比训练策略以及RPN和检测器中加入的attention模块，该网络能够榨干目标间的匹配关系，不需要fine-tune就可以进行靠谱的新目标检测。实验表明，early stage的attention模块能够显著提升proposal的质量，而后面的多关系检测(multi-relation detector)模块则能有效抑制和过滤错误的背景
提供了一个1000类的少样本训练集FSOD，论文提出的模型的性能提升有一定程度得益于此训练集，是一个前所未有的训练集

FSOD: A Highly-Diverse Few-Shot Object Detection Dataset

尽管目前目标检测的训练集已经非常庞大，但是对于少样本目标检测算法的使用而言，这些训练集的类别都太少了。因此，论文构造了一个少样本目标检测专用的训练集

Dataset Construction

新训练集基于ImageNet(选了531类)和Open Images dataset V4(选了469类)，但训练集间的类别不同，为了防止合并后存在漏标的情况，先对label进行分析和合并成树状结构，补充标注，然后去掉标注质量差的图片，包括包含目标太小( $\le 0.05\%$ )的图片。将类别分为训练集和测试集，先用COCO的类别作为基础训练集，防止pretrain的影响，然后尽量选择与当前训练集差距较大的类别作为测试集，共包含200类，再选择另外800类作为训练集

Dataset Analysis

新训练集的数据情况如图3和表1，主要有两个特性：

High diversity in categories，类别覆盖的领域很多，包括动物、衣服、武器等，且训练集和测试集的类别来自不同的领域
Challenging setting，数据集在box大小和宽高比上有很多种，26.5%的图片包含至少3个目标，且有大量非目标类别的物体，干扰性很大

Our Methodology

Problem Definition

给予包含目标特写的辅助图片(support image) $s_c$ 以及可能包含 $c$ 类目标的查询图片 $q_c$ ，任务是找出查询图片中所有辅助图片对应的类别目标，并且标记其准确的位置。如果辅助集包含 $K$ 个类别，每个类提供 $N$ 张图片，则称为K-way N-shot检测

Deep Attentioned Few-Shot Detection

论文提出新attention网络，该网络能够在RPN模块和多关系检测模块中学习辅助集与查询集间的通用的匹配关系。网络为包含多分支的权重共享框架，一个分支用于查询集，其它则用于辅助集(为了方便，图4只画了一个分支)，对于同类别的辅助分支，使用平均特征图作为辅助特征图。查询分支的权重共享主干为Faster R-CNN(包括RPN)，使用这个分支来训练辅助集和查询集的匹配关系，能够学习到同类别的通用知识

Attention-Based Region Proposal Network

在少样本目标检测中，RPN能够产生潜在的相关box用于接下来的检测任务，不仅要分辨前景和背景，还要过滤不属于辅助集的前景。如果没有足够的辅助集信息，RPN将会产生大量不相关的proposal。为了解决这个问题，提出了attention RPN，能够使用辅助图片的信息来过滤背景以及不相关的前景，产生更少但更准的候选目标

Attention RPN的核心是计算相似度特征图，对于辅助特征图 $X\in t^{S\times S\times C}$ 以及查询特征图 $Y\in t^{H\times W\times C}$ ，相似度特征图 $G$ 计算如上。辅助特征 $X$ 用来作为核在查询特征图上进行类似depth-wise卷积的滑动。在实际中，查询特征采用RPN的输入特征，用于卷积的辅助特征大小为 $1\times 1$

最低0.47元/天解锁文章