【实例分割系列:一】Mask RCNN 论文笔记解析

本文详细解读了2017年CVPR上发表的Mask R-CNN论文,介绍了如何通过ResNet-FPN结构结合ROI Align解决实例分割问题。Mask R-CNN不仅进行物体检测和分类,还能同时预测每个实例的分割掩模。文中探讨了ROI Align的原理,以及网络设计中避免类间竞争的策略,解释了为何Mask R-CNN在实例分割任务中表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2017 CVPR
Mask R-CNN
Mask RCNN, PyTorch

Instance Segmentation

Introduction

Mask RCNN = Faster RCNN + ResNet-FPN + Mask

在这里插入图片描述

Motivation

  • 强化的基础网络
    通过 ResNeXt-101+FPN 用作特征提取网络,达到 state-of-the-art 的效果。

  • ROI Pooling → ROI Align
    解决特征图与原始图像上的RoI不对准问题

    • ROI Pooling 是一种针对每一个RoI的提取一个小尺度特征图(e.g. 7x7)的标准操作
    • ROI Align 使用双线性插值(bilinear interpolation)在每个RoI块中4个采样位置上计算输入特征的精确值,并将结果聚合(使用max或者average)。
  • 分割、分类、定位同时进行
    检测和分割是并行出结果的,而不像以前是分割完了之后再做分类

    • FCNs是对每个像素进行多类别分类,它同时进行分类和分割
    • Mask RCNN 对每个类别独立地预测一个二值掩模,没有引入类间竞争,每个二值掩模的类别依靠网络RoI分类分支给出的分类预测结果
  • Loss Function

    • mask loss
      由原来的 FCIS 的 基于单像素softmax的多项式交叉熵变为了基于单像素sigmod二值交叉熵。
      softmax会产生 FCIS 的 ROI inside map 与 ROI outside map的竞争。但文章作者确实写到了类间的竞争, 二值交叉熵会使得每一类的 mask 不相互竞争,而不是和其他类别的 mask 比较 。

Network

faster rcnn

Mask rcnn

“head” 作用是将RoI Align的输出维度扩大,这样在预测Mask时会更加精确。
在Mask Branch的训练环节,作者没有采用FCN式的SoftmaxLoss,反而是输出了K个Mask预测图(为每一个类都输出一张),并采用average binary cross-entropy loss训练,

  • two-state
    extract feature 、RPN
    对RPN找到的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值