[SS]语义分割_Mask R-CNN

原创

已于 2024-05-30 21:05:34 修改 · 1.4k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#cnn #人工智能 #神经网络

于 2024-03-05 11:03:52 首次发布

本文详细解析了MaskR-CNN，一种结合物体检测和语义分割的深度学习模型，重点介绍了其结构、RoIAlign的改进以及如何通过FPN进行特征融合。文章阐述了Mask分支、损失函数和预测流程，强调了RoIAlign在提高定位精度方面的作用。

Mask R-CNN网络详解视频

Mask R-CNN源码解析

Mask R-CNN网络详解

一、介绍

1、引言

Mask R-CNN是一种用于物体检测和语义分割任务的深度学习模型。它是在Faster R-CNN的基础上进行改进的，通过增加一个分割分支，实现了物体检测和像素级别的语义分割。

Mask R-CNN通过在RPN（Region Proposal Network）的基础上，增加了一个全连接层来生成每个候选框的分类概率和边界框回归信息。同时，它还为每个候选框添加了一个全卷积网络来生成候选框的mask分割。

在训练过程中，Mask R-CNN除了进行物体分类和边界框回归的损失计算，还加入了语义分割的损失计算。语义分割损失计算的目标是通过将生成的像素级别的分割mask与真实分割mask进行比较，计算两者之间的差异。这样，模型就可以在训练过程中学习到更准确的物体边界和像素级别的分割。

在预测过程中，Mask R-CNN可以同时输出物体检测框和分割mask。这样，我们既可以知道物体的位置，也可以了解每个像素属于哪个物体。

总的来说，Mask R-CNN通过增加一个分割分支，实现了物体检测和语义分割的任务。它在很多计算机视觉领域的应用中取得了很好的效果，比如图像分割、实例分割等任务。

2、定义

语义分割旨在将图像中的每个像素分配给特定的语义类别，即将图像分成几个不同的类别区域。它的目标是对图像进行全面的像素级别的分类，不考虑物体之间的区分。而实例分割则更进一步，不仅要对图像进行像素级别的分类，还要将每个像素分配给特定的语义类别和特定的物体实例。实例分割的目标是在图像中准确地分割出每个物体的边界，实现每个物体的像素级别分割。这种分割方法能够区分不同物体的实例，使得它们在像素级别上被分配不同的标签。因此，实例分割可以提供更精细的物体定位和分割效果。Mask R-CNN主要用于实例分割任务。

二、结构详解

1、Mask R-CNN

Mask R-CNN是在Faster R-CNN基础上，在RoI Align层之后并联了一个分支，这个分支对应Mask分支，通过这个分支可以对检测的目标生成Mask蒙板。

原论文中提到关于Mask分支与FCN模型十分类似，上图中左边形式并不带FPN特征金字塔网络结构模块，而右边是带有FPN结构的，并且在使用中更多是右边带有FPN结构的Mask分支。

对于带有FPN结构的Mask R-CNN它的class、box分支和Mask分支并不是共用一个RoIAlign。在训练过程中，对于class, box分支RoIAlign将RPN（Region Proposal Network）得到的Proposals池化到7x7大小，而对于Mask分支RoIAlign将Proposals池化到14x14大小。