【CVPR2018】物体检测中的结构推理网络

最新推荐文章于 2024-06-25 00:52:54 发布

原创

最新推荐文章于 2024-06-25 00:52:54 发布 · 3.1k 阅读

CC 4.0 BY-SA版权

物体检测，是计算机视觉任务的基础，其精度将直接影响相关视觉任务的效果，在深度学习方法兴起之前，开展了很多利用场景上下文来提高检测精度的研究。近年来，随着Faster RCNN等深度学习方法的兴起，在日益强调数据和性能的背景下，对上下文关联信息的利用却鲜有尝试。本文将介绍一种结构推理网络(Structure Inference Net，简称SIN)，将物体检测问题形式化为图结构推理，采用图结构同时建模物体细节特征、场景上下文、以及物体之间关系，采用门控循环单元(GRU)的消息传递机制对图像中物体的类别和位置进行联合推理。在基准数据集PASCAL VOC和MS COCO上的实验，验证了方法在精度提升方面的有效性，同时证实了上下文信息对于输出更为符合人类感知的检测结果确有帮助。

1.问题&动机

图1.Faster R-CNN检测器典型错误样例

目前的检测器一般在分类和位置回归时，只利用了兴趣区域内的视觉特征，尤其是两阶段检测器(将检测视为对候选区域的分类问题)。所以检测器就会出现图1中典型的检测错误(样例来自于Faster R-CNN方法)。左图将水中的船只误检成了汽车，如果能够利用全图的场景上下文信息，那可能检测器就不会认为水中是汽车了。右图漏检了鼠标，如果利用物体之间的关系，电脑和鼠标经常一起相邻出现，那么可能就能够推断到鼠标的存在了。

图2.图结构问题

自然而然，我们的动机就是不仅仅依赖物体视觉特征，同时利用场景上下文和物体关系来联合推理解决物体检测问题。我们认为自然场景图是一个有机的结构体，如图2所示，包含三种视觉概念分别是场景、物体、物体间关系。在场景的指导下，物体之间通过关系程度相互交互。所以我们将问题形式化为一个图结构G=(V,E,s)，其中V是节点node代表ROI，E是边edge代表ROI之间的关系程度打分，s是场景scene描述。通过图结构中的元素联合推理交互，物体状态得到丰富的表示再用于分类和位置refine回归。下面首先需要对图结构中的三元素进行建模，再设计相应的交互机制来相互传递信息。

2.方法

理论上来说，我们的模块可以应用到各种框架上(单阶段和两阶段检测器)。这里我们使用Faster R-CNN作为基本框架，设计我们的结构推理网络，整体框架如图3所示。

2.1 图结构建模

图3.方法框架

其中，scene是场景，这里没有场景标签，所以用全图特征来建模。node是ROI，也就是RPN的生成结果，选取固定数目128个ROIs。edge是物体间的关系，这里是一个标量相当于一个打分，用ROI之间的视觉特征和位置关系同时建模，表达关系的时候距离很重要，具体是什么东西也很重要，例如对于键盘来说，同样近的鼠标比杯子更重要。