【Mask RCNN】论文学习笔记

HelloNettt

已于 2022-05-26 13:21:48 修改

阅读量518

点赞数

文章标签：学习目标检测深度学习

于 2022-05-24 23:27:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_41502322/article/details/124954962

版权

文章目录

【Mask RCNN】论文学习笔记

【Mask RCNN】论文学习笔记

本文记录的是本人学习何凯明大神的2017 ICCV Best Paper 【Mask R-CNN】的笔记。

1 Mask RCNN Architecture

简而言之，Mask R-CNN就是在Faster R-CNN的基础上，增加了一个mask prediction的branch。
请添加图片描述

总结
Backbone: 1.卷积层：Resnet+FPN（Feature Pyramid Network）2. RPN层 3. ROIAlign层
Network Head: 4.类别边框预测层 5. mask预测层

2 RPN网络（Region Proposal Network）

请添加图片描述
RPN网络主要输出项：

ROI：对应在特征层每个特征点产生4k个变量，其中4表示[dy, dx, dh, dw]四个边框平移缩放量。其中k表示4个边框，k=4。
scores：对应在特征层每个特征点产生2k个变量，其中2表示前景和北京概率。其中k表示3个边框，k=3。

3 ROI Align

FCN中使用的ROI Level校准：
$k=[k_0+\log_2{(\frac{\sqrt{wh}}{224})}]$
Mask-RCNN中使用的ROI Level校准：
$k=[k_0+\log_2{(\frac{\sqrt{wh}}{224/\sqrt{image\; area}})}]$

解释：

由于Mask R-CNN训练数据的box和anchor都做了调整，所以ROI Level的计算部分也需要 $224/\sqrt{image\; area}$ 。其中，224应为输入图像尺寸的一半。
计算得到的k即为ROI对应的level，level一共4个：
1. $l e v e l = 2$ 表示映射回特征 $P_2$ ，大小为原输入图像的 $1 / 4$ 。
2. $l e v e l = 3$ 表示映射回特征 $P_3$ ，大小为原输入图像的 $1 / 8$ 。
3. $l e v e l = 4$ 表示映射回特征 $P_4$ ，大小为原输入图像的 $1 / 16$ 。
4. $l e v e l = 5$ 表示映射回特征 $P_5$ ，大小为原输入图像的 $1 / 32$ 。

在这里插入图片描述

虚线网格表示特征图，实线表示RoI(在本例中为2×2个bin)，点表示每个容器中的4个采样点。RoIAlign通过双线性插值从特征图上附近的网格点(最近的4个)计算每个采样点的值。在ROI、4个bin或采样点中涉及的任何坐标上都不进行量化。

4 Class/Bounding Box预测和Mask预测

请添加图片描述

5 Loss Function的计算

请添加图片描述

参考

薛定谔的AI 《mask-rcnn》解读、训练、复现
 arxiv: Mask R-CNN
PaperWithCode: Mask R-CNN

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。