HyperNet:Towards Accurate Region Proposal Generation and Joint Object Detection

最新推荐文章于 2024-10-10 07:26:24 发布

practical_sharp

最新推荐文章于 2024-10-10 07:26:24 发布

阅读量595

点赞数 1

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：深度学习目标检测特征融合

本文链接：https://blog.youkuaiyun.com/practical_sharp/article/details/114491845

深度学习专栏收录该内容

21 篇文章

订阅专栏

论文《HyperNet：深度融合区域提议与目标检测》介绍了一种新型方法，通过HyperFeature融合不同层次的CNN特征，显著提升小目标检测的召回率。HyperNet在VOC数据集上达到76.3%的mAP，优于FasterRCNN。关键在于其区域生成模块利用了特征融合的优势，生成更精确的Proposal。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HyperNet

论文地址：https://arxiv.org/pdf/1604.00600.pdf
录用：CVPR 2016
难点：有一个问题就是HyperNet是如何生成region proposal的？

摘要

到目前为止，RCNN，Fast RCNN以及Faster RCNN系列的算法出炉，使得目标检测的精度和召回率不断提升。然而小尺寸目标检测和精确定位的问题仍然没有很好的得到解决，主要原因是由于特征映射的粗糙。

本文中，作者提出一个HyperNet，以联合处理区域提案的生成和目标检测。HyperNet的核心是主要基于一个精心设计的Hyper Feature，它首先聚合层次特征映射，然后将它们压缩到一个统一的空间。Hyper Feature很好地结合了图像的深层但高度语义、中间但真正互补的、浅层但自然高分辨率的特征，从而使我们能够通过在生成建议和通过端到端联合训练策略检测对象时共享它们来构建HyperNet。

对于VGG16模型，我们的方法在PASCAL VOC2007和2012上实现了完全领先的召回和最先进的目标检测精度，每幅图像仅使用100个建议。它在GPU上以5fps（包括所有步骤）的速度运行，因此具有实时处理的潜力。

contributions

我们证明了适当的粗到细的CNN特征的融合更适合于区域提案的生成和检测。我们的主要结果是：

在目标提案任务上，我们的网络只有50个提案时recall=95%，100个提案召回97%，明显优于其他现有的sota方法；
在PASCAL VOC2007和2012的检测挑战中，我们实现了最先进的76.3%和71.4%的mAP，比开创性的Faster R-CNN多了6%和3%；
我们的加速版本可以几乎实时地保证对象的建议和检测精度，使用非常深的CNN模型能达到5fps。

Related Work

介绍了当时的一些关于目标检测的工作，主要有分为传统的目标检测算法和基于CNN的目标检测算法。

详细看原论文。

HyperNet framework

在这里插入图片描述
论文的HyperNet框架如图所示。
可以看出，对于输入的image：

首先进行的是Hyper feature的提取；
其次通过网络生成100个region proposals；
最后采用Fast RCNN的方法对于region proposal进行分类和包围框精细化回归；

总的来说，HyperNet就是基于FasterRCNN的改进，改进的方法就是特征融合，综合考虑浅层特征不具有语义信息，中层特征互补，高层特征高语义信息但是位置信息粗糙的特点，进行特征提取上的一个完善。

与Faster RCNN的不同

Faster RCNN是先生成特征图然后再RPN生成anchor，之后通过anchor在特征图上的定位通过ROI pooling得到7*7的特征图用于第二阶段的分类与包围框精修。

HyperNet是得到特征图之后先直接ROI pooling得到13*13的特征图，称之为Hyper feature maps，然后这个Hyper feature map用来生成region proposal，进行得分和包围框回归之后在进行第二阶段的分类和包围框精修。
在这里插入图片描述

有一个问题就是HyperNet是如何生成region proposal的？

3.1. Hyper Feature Production

这一小节讲述Hyper特征提取的工作原理。

为了组合具有相同分辨率的多层次映射，对不同的层进行了不同的采样策略。

在下层增加了一个最大的池化层来进行子采样。

对于更高层，添加了一个反卷积操作来进行上采样。

然后做了一个LRN，LRN是必要的，因为不同层的feature resolution不同，如果不做正则normal大的feature会压制住normal小的feature。

对每个采样结果应用一个卷积层（体积）。该转换操作不仅可以提取更多的语义特征，而且还可以将它们压缩到一个统一的空间中。

Hyper feature的优点

多个层次的抽象化。受神经科学的启发，跨多个层次的推理已经被证明对一些计算机视觉问题是有益的；
如实验所示，深度CNN和浅CNN特征对于目标检测任务是互补的。有适当的解决办法。对于调整大小的1000×600图像的特征图分辨率将为250×150，这更适合于检测；
计算效率。所有的特征都可以在区域提案生成和检测模块之前进行预先计算。这时并没有任何冗余的计算方法。

其实我认为这就是特征融合FPN的前身。

3.2. Region Proposal Generation

这一部分使用的是RPN的思路，不过作者为了体现创新设计了一个轻量级的RPN网络，包括一个ROI pooling，一个卷积层和一个全连接层，然后连接两个subnet用于分类与包围框的回归。

生成proposal用于训练时也用到了NMS从上万个anchor中选取前k个进行训练。

对于RPN的改进，在3.5中也有描述，起到加速的作用。

同时在5.1中，HyperNet的region生成模块也表现出了优势；

3.3. Object Detection

做了两个修改。：

在FC层之前，我们添加了一个Conv层（3×3×63），以使分类器更强大。此外，该操作减少了一半的特征维度，便于后续计算。；
dropout rate从0.5改为0.25，我们发现这对对象分类更为有效。作为建议生成模块，检测网络对于每个区域框也有两个兄弟输出层。不同的是，每个候选框都有N1输出分数和4×N包围框回归偏移(其中N是对象类的数量，背景加1）。每个候选框使用输出层进行评分和调整。我们还添加了一个特定于类的NMS以减少冗余。

3.5. Speeding up

在这里插入图片描述

在proposal生成模块，大部分时间都花在了ROI上，认识到这一事实，我们做了一个小的修改，以加快这一进程。如图3所示，我们将3×3×4卷积层移动到ROI池层的前面。这种变化有两个优点：

Hyper feature map的channel数显著减少（从126减少到4）。
滑动窗口分类器更简单(从Conv-FC到FC)。

这两个特点都可以加快区域提案生成过程。正如我们在实验中所显示的，随着回忆的一点点下降，区域提案生成步骤几乎是免费的（40×加速）。我们还加快了类似变化的对象检测模块。

4. Comparison to Prior Works

Faster R-CNN的中的区域建议是由RPN提出的。Faster R-CNN和所提出的HyperNet都将区域提案生成器与分类器结合在一起。主要的区别是：

Faster R-CNN仍然依赖于Fast R-CNN进行目标检测，而我们的系统将区域提案的生成和检测统一到一个重新设计的网络中。
本系统以不同的方式实现了边界框回归和区域得分。通过生成HyperNet，我们的系统更适合于小对象的发现。
对于较高的IoU阈值（例如，IOU>0.8），我们的区域建议仍然表现良好。

本系统以不同的方式实现边界框的回归和区域得分？到底是什么不同的方式？和Faster RCNN有区别吗？

5. Experimental Evaluation

5.1 Region Proposal Generation的验证

在这里插入图片描述

通过图4和图5的对比，可以看出同样的IOU阈值，HyperNet的召回率最高；

同样的region proposal的数量，HyperNet的recall最高；

在这里，作者也把本文提出的region proposal generation模块和selective search和其他proposal生成模块进行了对比。
在这里插入图片描述
HyperNet-SP是运用了3.5中加速模块的版本

与没有CNN的方法相比，RPN和HyperNet都取得了很好的检测结果。然而，对于高IoU阈值（例如，>0.8），RPN的召回率与我们的方法相比急剧下降。 RPN的特征用于锚点的回归。

那么问题来了？是什么原因导致HyperNet的proposal生成模块优于RPN？？

VOC2007的结果

在这里插入图片描述

HyperNet网络达到了76.3%的mAP，比Faster R-CNN高出6.3%，比更快的R-CNN高出3.1%。正如我们在上面所示的，这是因为由HyperNet生成的proposal比选择性搜索和RPN更准确？？？

为什么？？？

是因为HyperNet的特征经过融合所以更丰富更利于目标检测吗？

faster rcnn的ROI pooling是生成7*7的ROI map

HyperNet的ROI pooling是生成13*13的ROI map

文中给出的原因：

HyperNet is elaborately designed and benefits from more informative Hyper Feature.

VOC2012的结果

在这里插入图片描述

5.4 The Role of Hyper Feature

对特征融合进行了初步探索，
在这里插入图片描述

An important property of HyperNet is that it combines coarse-to-fine information across deep CNN models. However, does this strategy really help?
Unsurprisingly, we find that the combination of layer 1,3 and 5 works the best, as shown in Figure 6. This result indicates two keys:
(a) The multi-layer combination works better than single layer, both for proposal and detection.
(b)The last layer performs better than low layers. This is the reason why most systems use the last CNN layer for region proposal generation or detection. The detection accuracy with respect to mAP is shown in Table 5.

5.5. Combine Which Layers?

Hyper Feature is effective for region proposal generation and detection, mainly because of its richness and appropriate resolution.
But it also raises another question: which layers should we combine to get the best performance?

如table 5所示，结合1，3，5的feature map在proposal的recall和mAP上性能最佳。
作者给出原因就是：

然而，结合层1、3和5的性能优于其他网络。由于相邻层是强相关的，低层或高层的组合表现得没有那么好。这表明，更广泛的粗到细CNN特征的组合更重要。

6. Conclusion

HyperNet provides an efficient combination framework for deep but semantic, intermediate but complementary, and shallow but high-resolution CNN features. A highlight of the proposed architecture is its ability to produce small number of object proposals while guaranteeing high recalls.