Background & Motivation
当数据量不足的时候,很主流的一个做法就是迁移学习。当迁移至目标域后,最常见的一个错误就是误分类。因为在源域的 box regressor 本来就是类别无关的,而 classification 是类别相关,由于数据量太少训练难以收敛,所以就导致了误分类。而且此前的小样本学习方法很多都没有考虑到误分类这个问题。
Modeling context,上下文建模也称作背景建模,一直是目标检测的一个挑战。
The main reason is that, objects may have various locations, scales, aspect ratios, and classes. It is often difficult to model such complex instance-level relations by manual design.
此前的很多小样本学习方法动机都是:人类视觉系统对于一个物体能够”过目不忘“,如何能让模型也具有这种能力。但是这个动机本身就是不太科学的。首先对于人类能够过目不忘,有人认为这是因为人类视觉系统是一个超大规模的学习系统。因此当我们看到一个物体时,我们在脑海里实际上已经把它放到了无穷无尽的场景下进行了联想、想象,此时的数据量是任何数据集和数据扩增方法都无法比拟的;其次现在的深度学习模型,本来就是数据驱动的,给多少数据就有多少精度。不给模型喂数据的同时还希望模型具有检测能力,这种想法本身就不合实际。
而这篇文章基于人类视觉系统的 Motivation 是:人类在识别物体的时候会建立起 contextual associations,即会找到物体与物体周围环境(下文称作 contextual field)之间的线索,来完成识别。这一 Motivation 显然比上一种说法要靠谱得多。

Source Detection Transfer
Backbone 采用 SSD,一个原因是多尺度的感受野提供了更丰富的 context,另一个原因是其简洁的设计。
将检测任务分成了 BBOX、BG(background)和 OBJ(object,可以理解为不同类型物体的多分类),其中前两个都可以直接通过微调迁移到 target-domain 上,而最后一个如果直接替换掉模型 top 的 source-domain OBJ 而随机初始化一个 target-domain OBJ 的话,由于参数过多又数据太少将很难将其训练收敛。
本文的做法是保留之前的 source-domain OBJ,在模型的 top 再增加一个 target-domain OBJ(其实就是 prior box 经过 refinement 之后得到的),文中解释 source-domain OBJ 的输出的维度比卷积层的特征通道的数量要小得多,这样做来避免过拟合。
简单的从 source-domain 迁移到 target-domain,很难解决 target-domain 中面临的误分类问题,本文的做法是通过衡量物体周围 context 来应对误分类。

这篇博客探讨了在数据匮乏情况下,如何通过迁移学习改进目标检测的误分类问题。作者提出Context-Transformer,结合背景建模和自注意力机制,通过学习物体与其环境的关联减少混淆。文章介绍了上下文发现与聚合过程,并展示了实验结果,证明了该方法在小样本和增量检测任务中的有效性。
最低0.47元/天 解锁文章
1325

被折叠的 条评论
为什么被折叠?



