ExtremeNet
文章
本文是继Corner-Net和Grid R-CNN之后第三篇用关键点检测做目标检测的。本文会检测每类物体的4个边缘关键点(最上,最下,最左,最右)以及1个中心点,然后根据边缘点和中心点的对齐关系找到每个物体的bbox。和CornerNet相比,本文的方法找的是物体边缘上的关键点,因此不会存在找bbox corner那种local visual evidence不足的情况。
不管是RCNN系还是YOLO系检测器,他们都是top-down的手段,即就是对可能的图片中的矩形区域进行分类,不过RCNN系会用crop的矩形区域特征,而YOLO为了简洁则使用了anchor。不过这种方法的问题在于,矩形区域并不一定可以很好的表示有的物体,比如下面左图中人手中的网球拍。
一种组合(4个extreme点),属于同一个物体(这样似乎没有考虑中心点重合或者接近的情况?),过程如下图所示。

本文提出的ExtremeNet这种方法则是bottom-up的,直接在图像中发现物体的关键点,然后group成bbox。具体来说,ExtremeNet接收图片作为输入,会为每一个类别输出4张multi-peak heatmaps,代表4个extreme点,同时每类还会有1张heatmap表示物体的中心点,从这个