算法笔记

最新推荐文章于 2024-03-05 16:10:06 发布

whc996

最新推荐文章于 2024-03-05 16:10:06 发布

阅读量98

点赞数

分类专栏： JavaScript

JavaScript 专栏收录该内容

15 篇文章

订阅专栏

Mask R-CNN是一种在单个网络中同时进行目标检测和实例分割的算法，其在COCO数据集上的表现超越现有单模型算法。本文将重点对比ROIAlign与ROIPool的区别，解析Mask R-CNN如何通过FCN网络为每个ROI生成mask，实现高效并行的检测与分割。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Mask R-CNN是ICCV2017的best paper，在一个网络中同时做目标检测（object detection）和实例分割（instance segmentation）。该算法在单GPU上的运行速度差不多是5 fps，并且在COCO数据集的三个挑战赛：instance segmentation、bounding-box object detecton、person keypoint detection中的效果都要优于现有的单模型算法（包括COCO2016比赛的冠军算法）。这篇博客将重点介绍ROIAlign和ROI Pool的区别，希望能帮助他人理解二者的差异。

这里要说明一下实例分割和语义分割（semantic segmentation）的区别，实例分割需要将属于同一类的不同实例用不同的颜色标明，而语义将属于同一类的不同实例都用一种颜色标出即可。比如Figure1中最后得到的就是实例分割的结果，如果是语义分割，那么所有人用一种颜色标识即可。

Mask R-CNN可以通过Faster R-CNN扩展得到，如Figure1所示。我们知道在Faster R-CNN中，对于每个ROI（文中叫candidate object）主要有两个输出，一个输出是分类结果，也就是预测框的标签；另一个输出是回归结果，也就是预测框的坐标offset。而Mask R-CNN则是添加了第三个输出：object mask，也就说对每个ROI都输出一个mask，该支路是通过FCN网络（如Figure1中的两个卷积层）来实现的。以上这三个输出支路相互之间都是平行关系，相比其他先分割再分类的实例分割算法相比，这种平行设计不仅简单而且高效。