面对的问题
(1)对人工标注的依赖(人工可能标注的也有问题)、有限的视觉信息和开放世界中新颖的类别严重限制了传统检测器的普适性。当与现有图像存在显著差异且出现未见类时,必须重新重构数据集才能保证目标检测器的成功,这严重限制了目标检测器的开放世界泛化能力。
作者想表达的意思是: 传统检测器只能检测数据集中存在的类别,比如数据集中有19个类别,它无法检测出这19个类别之外的类别,所以不具有普适性。所以作者将含有这19个类别的数据集和其它特定类别的数据集拿来一起训练,这样就能学习到完整的知识,提高其普适性。
实现上述多源学习的难点在于:
1)难于统一多个异构标签控空间;
2) 在训练时,虽然可以使得网络检测到数据集之外的其他类别,但是,网络会更加倾向于主数据集中的类
创新点
(1)提出了UniDetector,这是一种通用的对象检测器,它能够检测每个场景并预测每个类别(全文大目标)
(2)针对多源数据集训练难于统一于多个异构标签空间的问题,作者采用分区结构促进了特征共享,同时避免了标签冲突。
(3) 针对网会更加倾向于预测基础数据集类别的问题,作者将proposal生成和RoI分类进行分离,避免联合训练。作者还采用了类未知定位网络CLN进行区域建议,并提出概率校准来消除预测的偏差。首先,估计所有类别的先验概率,然后根据先验概率调整预测类别的分布,校准很好地提高了新类的性能。
(4)通过解耦训练方式和概率校准,进一步提高了对新类别的泛化能力
方法
CAL网络:
CAL包含RPN和RoI头,对于第i个proposal,来自于RPN产生的定位置信度为sir1s_i^{r_1}sir1,来自于ROI头为sir2s_i^{r_2}sir2,其分类自信度为sics_i^csic,最终CLN的置信度可以通过几何加权得到,即wi=(sic)a(sir2sir1)1−aw_i=(s_i^c)^a(s_i^{r_2}s_i^{r_1})^{1-a}wi=(sic)a(sir2sir1)1−a
其中,a是预训练的超参数
结果
(1)训练时有500个类参与训练,能够检测7K个类别
(2)在没有看到任何对应图像的情况下,它比传统有监督学习的baseline方法的精度高了4%以上。在13个不同场景的公共检测数据集上,UniDetector仅用3%的训练数据量就达到了最先进的性能
(3)在COCO数据集上实现了49.3%的精度(还算可以)