一、Mask R-CNN
Mask R-CNN算法是在Faster R-CNN架构的基础之上的,它主要有两个贡献:
1、用更精确RoI Align模块来替换RoI Pooling模块
2、从RoI Align模块中插入一个额外的分支----mask 分支
这个mask分支的输入为RoI Align 的输出,然后将其输入到两个conv层,conv层的输出就是mask本身。
Mask R-CNN的架构如下图所示:
在我看来相较于Faster R-CNN,Mask R-CNN的改进在于三个地方:
(1)、使用ResNet-FPN进行特征的提取;
(2)、将Rol Pooling 创造性的修改为Rol Align ;
(3)、头部网络的修改,即增加了一个mask的分支;
1、ResNet-FPN 进行特征提取
FPN结构中包括自下而上,自上而下和横向连接三个部分,如下图所示。这种结构可以将各个层级的特征进行融合,使其同时具有强语义信息和强空间信息。