论文阅读《Context-Transformer:Tackling Object Confusion for Few-Shot Detection》

这篇博客探讨了在数据匮乏情况下,如何通过迁移学习改进目标检测的误分类问题。作者提出Context-Transformer,结合背景建模和自注意力机制,通过学习物体与其环境的关联减少混淆。文章介绍了上下文发现与聚合过程,并展示了实验结果,证明了该方法在小样本和增量检测任务中的有效性。

Background & Motivation

当数据量不足的时候,很主流的一个做法就是迁移学习。当迁移至目标域后,最常见的一个错误就是误分类。因为在源域的 box regressor 本来就是类别无关的,而 classification 是类别相关,由于数据量太少训练难以收敛,所以就导致了误分类。而且此前的小样本学习方法很多都没有考虑到误分类这个问题。

Modeling context,上下文建模也称作背景建模,一直是目标检测的一个挑战。

The main reason is that, objects may have various locations, scales, aspect ratios, and classes. It is often difficult to model such complex instance-level relations by manual design.

此前的很多小样本学习方法动机都是:人类视觉系统对于一个物体能够”过目不忘“,如何能让模型也具有这种能力。但是这个动机本身就是不太科学的。首先对于人类能够过目不忘,有人认为这是因为人类视觉系统是一个超大规模的学习系统。因此当我们看到一个物体时,我们在脑海里实际上已经把它放到了无穷无尽的场景下进行了联想、想象,此时的数据量是任何数据集和数据扩增方法都无法比拟的;其次现在的深度学习模型,本来就是数据驱动的,给多少数据就有多少精度。不给模型喂数据的同时还希望模型具有检测能力,这种想法本身就不合实际。

而这篇文章基于人类视觉系统的 Motivation 是:人类在识别物体的时候会建立起 contextual associations,即会找到物体与物体周围环境(下文称作 contextual field)之间的线索,来完成识别。这一 Motivation 显然比上一种说法要靠谱得多。

Source Detection Transfer

Backbone 采用 SSD,一个原因是多尺度的感受野提供了更丰富的 context,另一个原因是其简洁的设计。

将检测任务分成了 BBOX、BG(background)和 OBJ(object,可以理解为不同类型物体的多分类),其中前两个都可以直接通过微调迁移到 target-domain 上,而最后一个如果直接替换掉模型 top 的 source-domain OBJ 而随机初始化一个 target-domain OBJ 的话,由于参数过多又数据太少将很难将其训练收敛。

本文的做法是保留之前的 source-domain OBJ,在模型的 top 再增加一个 target-domain OBJ(其实就是 prior box 经过 refinement 之后得到的),文中解释  source-domain OBJ 的输出的维度比卷积层的特征通道的数量要小得多,这样做来避免过拟合。

简单的从 source-domain 迁移到 target-domain,很难解决 target-domain 中面临的误分类问题,本文的做法是通过衡量物体周围 context 来应对误分类。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值