【阅读笔记】《Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network》（JSIS-Net）

最新推荐文章于 2023-02-21 17:10:40 发布

ShuqiaoS

最新推荐文章于 2023-02-21 17:10:40 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏：论文代码学习图像分割

本文链接：https://blog.youkuaiyun.com/ShuqiaoS/article/details/88893151

论文代码学习同时被 2 个专栏收录

26 篇文章

订阅专栏

图像分割

25 篇文章

订阅专栏

本文记录了博主阅读论文《Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network》（JSIS-Net）的笔记。更新于2019.04.16。

文章目录

摘要
方法
Implementation
Results
- Joint training vs. independent training

摘要

这个方法用一个网络实现全景分割。网络结构包括由语义分割和全景分割分支共享的ResNet-50特征提取器、用于实例分割的Mask R-CNN型结构，和用于予以分割的Pyramid Pooling Module。本文的结果提交了COCO and Mapillary Joint Recognition Challenge 2018，在Mapillary Vistas validation set上的PQ score为17.6，在COCO test-dev set上为27.2。

方法

网络结构包括两部分：联合估计语义和实例的CNN+正和全景分割的heuristics。

网络结构

联合估计语义与实例的CNN的共用基础结构是ResNet-50，如下图所示。

在这里插入图片描述
语义分割分支用用了金字塔池化模块生成特征图，再用混合上采样将估计还原成输入尺寸。这个混合上采样方法先应用deconvolution，再将predictions通过双线性插值恢复成输入图像的尺寸。这个过程的输出是一个像素级的map，每个像素点都有对应的类别标签。

实例分割分支是基于Mask R-CNN的。首先用一个Region Proposal Network（RPN）生成隐含目标的region proposals；随后将这些proposals对应的特征从特征图中提取出来，通过（subject to）ResNet-50的最后几层。最后，用这些特征生成三个平行的predictions：一个classification score，bounding box坐标，和一个instance mask。在应用了非极大值抑制（non-maximum suppression）后，这个分值的输出是一些含有类别标签的pixel clusters的集合。经过后处理后，这些pixel clusters会变成per-object normalized isntance masks，与输入图像尺寸相同。

【即实例分割分支直接出来的是聚类，需要通过后处理变成像素级的instance mask】

Loss balancing for joint learning

损失形如：
在这里插入图片描述
其中， $L_{rpn,obj}$ 是用于RPN的softmax cross-entropy目标损失函数（objectness loss function）， $L_{rpn,reg}$ 是用于RPN的smooth L1回归损失函数。 $L_{det.cls}$ 是用于目标检测的softmax cross-entropy分类损失函数， $L_{det,reg}$ 是用于目标bounding boxes的smooth L1 回归损失函数， $L_{mask}$ 是用于实例mask的sigmoid cross-entropy loss， $L_{seg}$ 是用于分割输出的sparse softmax cross-entropy segmentation loss。最后， $R$ 是对于模型的L2 regularization。权重 $\lambda_1\dots\lambda_n$ 是用于平衡损失的 $n$ tunning parameters。

Merging heuristics

由于全景分割要求每个像素点要有两个标注：类别和实例id。因此就需要解决重叠的instance masks和冲突的things classes这两个问题。

Overlapping instance masks

实例分割的本质是基于目标检测的，这就导致了不同实例mask之间可能存在重叠。尽管可以通过对所有重叠区域应用non-maximum supression的方法去除重叠，但这样做也会去除许多真实标签。因此，这里用per-instance probability maps的方法解决有争议的区域，也就是当一个像素点被认为属于多个实例时，它会选择概率最大的那个实例作为自己的实例。

Conflicting predictions for things classes

与stuff类别不同，things类别同时属于语义分割与实例分割任务，因此，就不可避免地会出现两个分支的歧义，而这两个分支的输出又不能直接比较。于是，论文中采用了这种方法：把所有的things类别从语义分割中去除，并用最可能的stuff类别替换。这就使得所有的语义分割结果都是对应stuff类别的。再用things类别替换对应的位置。
随后移除所有少于4096个点的stuff类别。