本文主要关注分类,检测和分割等任务训练数据的解耦,非常有趣。
R-FCN-3000
R-FCN-3000 obtains an mAP of 34.9% on the ImageNet detection dataset and outperforms YOLO 9000 by 18% while processing 30 images per second.
主要思路如上图,第一行将原来rfcn中的类别数降低(甚至降低到1变为检测是否存在物体)。【ps: Light-Head R-CNN也降低了这里的维度】。
第二行对roi进行细粒度分类。
思考: 是不是可以固定训练好的第一行,然后拿没有bounding box标注的图片来训练第二行的细粒度分类?
Segment Every Thing
基于mask rcnn。思路也很简单,提出通过box branch的bounding box weights来迁移预测mask weights。只要求部分训练数据拥有mask的标注。
Intuitively, the MLP mask predictor may better capture the ‘gist’ of