MASK-RCNN阅读笔记

Mask R-CNN是Kaiming He等人为解决实例分割提出的框架,它在Faster R-CNN基础上增加掩码预测分支,通过RoIAlign改进空间定位准确性。文章介绍了Mask R-CNN的工作原理,包括RPN生成候选框、RoIPool处理和多任务损失函数,以及RoIAlign在提升掩码预测精度中的关键作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2017:Mask R-CNN - 扩展 Faster R-CNN 以用于像素级分割

背景

何凯明的这篇大作是想像Fast/Faster-RCNN,FCN做为检测任务与分割任务的基础框架那样,将MASK-RCNN做为实例分割的基础框架。
由于既要求检测出图像中的每个物体,又要求分割出每一个实例,这里有可能一类物体同时出现多个实例,这样就会使问题的难度增加,因此实例分割是一项非常有挑战性的任务。
本文的方法是在Faster R-CNN的基础上,增加一个预测分支,这个分支主要是在RoI上进行分割任务。与原来的分类与bounding box的回归任务平行。
掩码分支是一个小的FCN,对每一个ROI生成一个像素级别的掩码。
在给定Faster R-CNN的架构后,MASK-RCNN的实施训练非常简单,而且适用于很多灵活的架构。
另外这个掩码分支计算代价很小,保证了系统的实时性。

重要的一点Faster R-CNN不是像素到像素的网络结构,有力的证据就是ROI pool的时候,特征提取的空间量化比较粗糙。为了弥补这个缺陷,本文提出一种简单不必量化的层,RoIAlign,能够很好的保持空间位置信息。
虽然看起来改变很小,但是RoIAlign的作用确是巨大的:它提升了mask的准确率10%-50%,在严格的定位方面具有更大的优势;第二,本文发现将分类与分割分开是很有必要的。
本文给每一个类别预测一个二值的掩码,基于ROI分类的分支来预测所属类别。形成对比的是FCN,通常解决像素级别的多类分割任务,但是在实例分割中表现却一般。

Mask R-CNN介绍

在原有Faster R-CNN的基础上增加掩码预测分支,如下图所示:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值