算法笔记

Mask R-CNN是一种在单个网络中同时进行目标检测和实例分割的算法,其在COCO数据集上的表现超越现有单模型算法。本文将重点对比ROIAlign与ROIPool的区别,解析Mask R-CNN如何通过FCN网络为每个ROI生成mask,实现高效并行的检测与分割。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Mask R-CNN是ICCV2017的best paper,在一个网络中同时做目标检测(object detection)和实例分割(instance segmentation)。该算法在单GPU上的运行速度差不多是5 fps,并且在COCO数据集的三个挑战赛:instance segmentation、bounding-box object detecton、person keypoint detection中的效果都要优于现有的单模型算法(包括COCO2016比赛的冠军算法)。这篇博客将重点介绍ROIAlign和ROI Pool的区别,希望能帮助他人理解二者的差异。

这里要说明一下实例分割和语义分割(semantic segmentation)的区别,实例分割需要将属于同一类的不同实例用不同的颜色标明,而语义将属于同一类的不同实例都用一种颜色标出即可。比如Figure1中最后得到的就是实例分割的结果,如果是语义分割,那么所有人用一种颜色标识即可。

Mask R-CNN可以通过Faster R-CNN扩展得到,如Figure1所示。我们知道在Faster R-CNN中,对于每个ROI(文中叫candidate object)主要有两个输出,一个输出是分类结果,也就是预测框的标签;另一个输出是回归结果,也就是预测框的坐标offset。而Mask R-CNN则是添加了第三个输出:object mask,也就说对每个ROI都输出一个mask,该支路是通过FCN网络(如Figure1中的两个卷积层)来实现的。以上这三个输出支路相互之间都是平行关系,相比其他先分割再分类的实例分割算法相比,这种平行设计不仅简单而且高效。
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值