模型架构
1、 简介
Mask RCNN是faster RCNN的扩展形式,faster RCNN是一种目标检测算法,可以有效的检测图像中的目标。mask RCNN在faster RCNN的基础上还能为每个实例生成高质量的分割掩码。
2、 模型架构
开源实现:https://github.com/matterport/Mask_RCNN
网络架构
首先是以resnet为骨架的特征金字塔网络(FPN),这里主要是利用resnet网络来提取图像的特征。相较有普通的resnet网络来说,FPN网络并不是是直接使用resnet的卷积输出结果,他会对卷积的结果进行上采样,并综合多个卷积层的结果来做为FPN输出的特征。
然后是根据FPN结果来获取建议框的 Region Proposal Network(RPN)。这里会涉及到先验框的处理。rcnn是基于region proposal方法的目标检测算法,他会先将图片划分为许多不同的区域,然后再来判断区域中是否包含目标。通过算法根据特征层的大小来生成固定数量与位置的图像区域便是先验框,而RPN层主要的作用是根据图像的特征来判断先验框中包含目标的概率,以及该先验框变化成目标框需要的调整参数。
然后是ROI层,这里主要有两个作用,首先需要rpn的结果和先验框来挑选建议框,然后根据建议框的位置找到其在FPN中的对应的特征。
然后是分类层,这里会根据ROI输出的特征来进行分类,判断目标所属的类别。
最后是mask层,这里会根据ROI的输出特征来进行语义分割。