模型中的改进:
1.Faster R-CNN里的特征提取网络-->FPN:FPN产生特征金字塔[P2,P3,P4,P5,P6],大尺度的ROI要从低分辨率的feature map上切,有利于检测大目标,小尺度的ROI要从高分辨率的feature map上切,有利于检测小目标。
2.ROI pooling-->RoIAlign:Faster RCNN中,特征图与原始图像是不对准的,会影响检测精度;RoIAlign却可以保留大致的空间位置。
3.在ROIAlign之后添加卷积层,进行mask预测的任务。
Mask R-CNN网络结构
Mask RCNN沿用了Faster RCNN的思想,特征提取采用ResNet-FPN的架构,另外多加了一个Mask预测分支。

1.Faster R-CNN:
Faster R-CNN使用CNN提取图像特征,然后使用region proposal network(RPN)去提取出ROI,然后使用ROI pooling将这些ROI全部变成固定尺寸,再喂给全连接层进行Bounding box回归和分类预测。

2.ResNet-FPN (Feature Pyramid Network ) <