Panoptic Feature Pyramid Networks【详细解析相关两篇论文】

最新推荐文章于 2025-10-25 14:51:11 发布

原创

最新推荐文章于 2025-10-25 14:51:11 发布 · 1.6w 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#python #计算机视觉 #人工智能 #机器学习

本文深入探讨全景分割(Panoptic Segmentation)概念，及其在Panoptic Feature Pyramid Networks(Panoptic FPN)中的应用。全景分割融合了实例分割与语义分割，旨在对图像中的每个像素进行精确分类和实例化。Panoptic FPN作为一种高效网络架构，继承了Mask R-CNN的优点，同时优化了语义分割与实例分割的性能。

Panoptic Feature Pyramid Networks

Panoptic Segmentation

在介绍Panoptic Feature Pyramid Networks之前首先介绍一下，Panoptic Segmentation（全景分割）。在论文中经常提出的一个概念就是联合。全景分割的本意就是将Instanse segmentation和semantic segmention进行一种联合，下面是效果的比较图

在这里插入图片描述

Panoptic Segmentation 中的几个概念

这是接下来经常会出现的一些单词，我在这里先预热一下

stuff（填充物）：画面中的背景如Sky、Road、Building在Panoptic Segmentation的方法下这一类事物实例ID将会忽略
things：画面中识别的物体，物体不仅进行了语义分割还进行了实例检测
panotic quality（PQ）：用于识别与分割以及东西与东西性能的详细分类，下面会详细介绍
TP（true positives）：正确的标签与错误标签组成一组
FN（false negatives）：漏报率
FP（false positives）：错误的标签

下面用一张图来解释TP、FN和FP

在这里插入图片描述

Panoptic Segmentation的核心思想

语义分割的任务为简单地理解为一个图像中的每个像素分配一个类标签(注意，语义分割将事物类视为东西)。实例分割的任务可以简单的理解为将检测对象并分别用包围框或分割掩码对其进行描述。语义和实例分割之间的分裂导致了这些任务方法的并行裂缝。Stuff的语义分割通常建立在全卷积网络上。Things的分类检测就基于区域去进行检测，举个例子Yolo中采取的思想便是将像素点分割，然后确认出有物体的像素点，然后对于有物体的像素设置预选框，然后通过IOU等指标去对框进行筛选，留下一个最为准确的框。然后基于这个框，或者说基于这个区域去进行物体分类。

那么一个自然而然的问题就诞生了，Stuff和things就不可以达成“和解”，两个都要不行吗？一个能产生丰富而连贯的场景分割的统一视觉系统最有效的设计是什么? 于是PanopticSegmentation就出来了。这种方法对于图像中的每个像素打上两个标签，一个是分类标签一个是实例ID并将像素分为两类，stuff和things，stuff的实例ID会被忽略，具有相同标签和id的像素都属于同一个对象，对于无法确定的像素，比如不在分类范围内模糊的像素则会给一个void标签。

PS于实例分割和语义分割之间的关系

PS是对语义分割的严格概括，PS要求每一个像素都有一个语义标签，如果ground truth没有指定实例，或者所有类都是stuff，那么任务格式是相同的(尽管任务度量不同)，此外，包含thing类(每个映像可能有多个实例)可以区分任务
实例分割任务需要一种方法来分割图像中的每个对象实例。然而，它允许重叠片段，而全景分割任务只允许为每个像素分配一个语义标签和一个实例id。因此，对于PS，不可能通过构造来实现重叠，之后我们会说明到之中设计对于PS的量度标准有很重要的影响。

Panoptic Sementation的量度标准

现在对于量度实例分割和语义分割有很多的量度标准，这些量度标准都很适合Stuff和things但不是同时。也就是说目前研究实例分割和语义分割会使用不同的量度标准。论文中指出何大神他们认为使用不同的量度标准是目前实例分割和语义分割不能很好的统一的一个主要原因。

所以论文中提出了Panoptic quality（PQ）这种量度标准，论文中介绍PQ既简单又有用，最重要的是它可以用统一的方式来衡量stuff和things的性能。

Panoptic Segmentation Format

任务的格式

Panoptic Segmentation Format的格式可以很简单的进行定义

首先给定一组预先确定的L语义类 $0,…,L−1}\mathcal{L}:=\{0, \ldots, L-1\}$ ，算法要求一种全景分割的算法可以给每一个像素的图片打上一对标签 $pair⁡(li,zi)∈L×N\operatorname{pair}\left(l_{i}, z_{i}\right) \in \mathcal{L} \times \mathbb{N}$ ， $l_i$ 表示对于像素点的语义分割， $z_i$ 表示对于像素点的实例分割，将用一个class的像素划分为不同的个体

Stuff和物体的标签

语义的标签集由 $LSt\mathcal{L}^{\mathrm{St}}$ and $LTh\mathcal{L}^{\mathrm{Th}}$ 组成，比如 $L=LSt∪LTh\mathcal{L}=\mathcal{L}^{\mathrm{St}} \cup \mathcal{L}^{\mathrm{Th}}$ 和 $LSt∩LTh=∅\mathcal{L}^{\mathrm{St}} \cap \mathcal{L}^{\mathrm{Th}}=\emptyset$ ，这些子集分别对应于stuff和thing标签。当像素的标签 $li∈LStl_{i} \in \mathcal{L}^{S t}$

最低0.47元/天解锁文章