ROI pooling与ROI align

最新推荐文章于 2023-02-14 09:49:04 发布

心似双丝网

最新推荐文章于 2023-02-14 09:49:04 发布

阅读量320

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习 roi pooling roi align 目标检测

本文链接：https://blog.youkuaiyun.com/s6977880/article/details/98630244

深度学习同时被 3 个专栏收录

5 篇文章

订阅专栏

目标检测

3 篇文章

订阅专栏

roi pooling

1 篇文章

订阅专栏

本文详细介绍了深度学习中用于目标检测的两种关键方法：ROIpooling和ROIalign。ROIpooling最早由Kaiming He提出，解决了深度卷积网络输入图像需要固定大小的问题。而ROIalign则是在Mask R-CNN中提出的改进版，通过避免量化误差提高了特征对齐的准确性。

1、ROI pooling
比较早出现这个是Kaiming He的"Spatial Pyramid Pooling in Deep convolutional Networks for Visual Recognition"。之所以要提出这个东东，主要是因为深度卷积网络的输入图像需要固定的大小，这是因为要满足最后的全连接层输入需要固定长度的需求。
在这里插入图片描述
上图就是作者实现roi pooling的方法。把最后一个卷积层和全连接层之间的池化层改造成spatial pyramid pooling(SPP)层。每个spatial bin采用池化操作（文章中采用最大值池化）。SPP输出的维度是 $k M$ ， $k$ 是最后一层卷积层输出的通道数， $M$ 是bin的个数。这就可以固定任意大小输入图像的输出维数。roi pooling涉及到量化。
Fast rcnn中roi pooling计算方法和spp计算类似。

2、ROI align
roi align是mask r-cnn文章中提出了，在图像分割任务中，roi pooling由于量化的存在，使得特征图中点的坐标和输入图像中点的坐标不能一一对应，因此才提出roi align方法的。
方法也很简单，和roi pooling过程一样，只是没有量化，计算的浮点数的值采用双线性插值进行计算。
在这里插入图片描述