Roi pooling 和 RoiAlign

最新推荐文章于 2024-08-15 19:28:55 发布

KC1B

最新推荐文章于 2024-08-15 19:28:55 发布

阅读量96

点赞数

分类专栏：论文笔记文章标签：算法人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_52038588/article/details/130966393

版权

论文笔记专栏收录该内容

35 篇文章

订阅专栏

RoI Pooling 、 RoI Align

注意：RoI在原图上

参考：https://blog.youkuaiyun.com/qq_29598161/article/details/108137399

RoI Pooling：

原图的候选框映射到feature map上，例如665* 665 映射到feature map25* 25上为665/32（缩放比例）=20.78，取整为20，左上角顶点坐标也会映射一次，坐标也会取整，不会落到bin内部，这是第一次量化
如果pooling输出为7*7，那么会把上面映射的feature划分成49个同等大小（feature长宽大小不一样bin就是矩形，如下面gif所示）的bin，每个bin大小为20/7=2.86，取整后为2，这是第二次量化
每个bin里取最大，max pooling，得到7*7大小的feature map

反向传播in RoI Pooling

在ROI层反向传播，对每个proposals的网格做如下判断， $x_i$ 中的i是否对应当前ROI，换句话说就是 $i = i * (r, j)$ 表示特征图上的第 $i$ 节点是否被候选区域 $r$ 的第 $j$ 个节点选为最大值输出。如果是就累加下一个proposals，这样就求出$ \frac{\partial L}{\partial x_{i}} $

RoI Align（2018）：

由于上述roi pooling过程的两次量化（取整操作）会造成misalignment，为了做精细的语义分割，roialign实现了pixel-to-pixel alignment，没有取整操作。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Qh75DGe4-1685506927848)(C:\Users\86188\Pictures\works\roialign.png)]

下图align输出为2* 2，和我解释的7*7不一样：

在这里插入图片描述

原图的RoI映射到feature map上不取整（Figure 3中align输出为2* 2），假设还是665/32=20.78，保留浮点数
直接将映射的feature map分割为7* 7大小（align输出大小）的feature map，划分成几个同等大小的区域
文章中采样点数为4，表示对每个bin，平分四份，取中心点位置（红叉），中心点的像素采用双线性插值法计算（中心和其所在的feature方格的四个顶点，左上角顶点才是方格的值对应的点），一个bin得到四个值（左上角）
每个bin分别取max作为其值，得到最终输出。

对于有较多小物体的图片使用RoIAlign会更加精确。

关于最终的采样结果对采样点的位置，以及采样点的个数并不敏感。

单线性插值

已知数据 (x0, y0) 与 (x1, y1)，要计算 [x0, x1] 区间内某一位置 x 在直线上的y值。

双线性插值

有两个方向和对应的值

在两个方向分别进行一次单线性插值

我们想得到未知函数 f 在点 P = (x, y) 的值

已知函数 f 在 Q11 = (x1, y1)、Q12 = (x1, y2), Q21 = (x2, y1) 以及 Q22 = (x2, y2) 四个点的值

首先在 x 方向进行线性插值

然后在 y 方向进行线性插值

对比：

pooling

在这里插入图片描述

align

在这里插入图片描述

M6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80Mjc4MjE1MA==,size_16,color_FFFFFF,t_70)

博客等级

码龄5年

53
原创

81
点赞

165
收藏

22
粉丝

关注

私信

热门文章

分类专栏

论文笔记 35篇
算法 1篇
Pytorch实现 4篇
KanColle 1篇

展开全部收起

最新评论

Adobe Illustrator如何在图片快速插入latex公式
m0_57606497: 老哥可以试着安装latex2Ai的老版本比如0.08版本
CLIP Surgery论文阅读
北舟zhou: 啊？看到了一些这篇文章后续的研究中了，没想到这篇没中，真是悲伤
CLIP Surgery论文阅读
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
CLIP Surgery论文阅读
inscredion: 正好看到了这篇工作，里面的冗余特征机制有效果，BTW，这篇Paper没有中CVPR，至今貌似还是arXiv
ESM蛋白质语言模型系列
赶路人@a: esm2的都包含哪些嵌入，嵌入过程是怎么样的

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。