基于深度聚类的自动驾驶弱监督分割

原创于 2025-10-12 13:34:33 发布 · 737 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#弱监督 # 语义分割 # 深度聚类 # 自动驾驶

部署运行你感兴趣的模型镜像

面向自动驾驶场景的弱监督语义分割的深度聚类

摘要

仅使用图像标签进行弱监督语义分割（WSSS）可以显著降低标注成本，因为全监督需要像素级标注。然而，这是一项极具挑战性的任务，因为将标签与视觉外观直接关联并不直观。现有研究仅能在简单图像上实现基于标签的弱监督语义分割，这些图像中每张通常只包含两到三个标签，且不同图像的标签通常各不相同，例如PASCAL VOC数据集。因此，较容易将标签与视觉特征关联并用于分割监督。然而，现实场景要复杂得多。特别是自动驾驶场景中，每张图像通常包含近20个标签，且这些标签在不同图像中重复出现，这意味着现有的适用于简单图像的方法不再有效。本文提出通过基于区域的深度聚类来解决该问题。核心思想是：由于每个带标签的物体在多张图像中重复出现，因此可以通过区域聚类，尤其是基于深度神经网络的聚类，找出其共同的视觉特征。随后，我们将聚类得到的区域特征与标签相关联，并利用标签监督分割过程。此外，在弱监督下通过聚类获得的区域可能含有大量噪声。为此，我们进一步提出一种机制，以迭代方式改进和优化监督信号。据我们所知，这是首次将基于图像标签的弱监督语义分割应用于包含静态图像的复杂自动驾驶数据集。在Cityscapes和CamVid数据集上的实验结果验证了我们方法的有效性。

关键词 ：弱监督，语义分割，深度聚类，自动驾驶。

1. 引言

语义分割旨在为图像中的每个像素分配一个语义标签，从而全面理解图像中的场景，因此能够促进许多应用的发展，例如自动驾驶[1, 2, 3]。然而，语义分割依赖大量像素级标注，成本高昂，限制了其应用。基于标签的弱监督语义分割是一种解决方案。

一种可以显著降低标注成本的方法，将标注从像素级减少到每幅图像的几个标签。

在现有研究中，基于标签的方法已在简单图像上进行了探索，其中每幅图像中仅存在少量（通常为两个或三个）标签，且不同图像通常具有不同的标签，例如PASCAL VOC数据集。因此，将标签与视觉外观关联并监督分割网络相对容易。

然而，现实世界中的场景要复杂得多，尤其是自动驾驶场景，每张图像通常包含近20个标签，且这些标签会在不同图像中重复出现，这意味着现有的简单图像策略[4, 5, 6, 7, 8, 9, 10]无法工作。如图2(a)所示，在PASCAL VOC数据集中，仅存在少量显著物体，大部分区域被标注为背景。然而，如图2(b,c)所示，在自动驾驶场景中，单幅图像中存在大量物体，其中一些甚至种类多样且尺寸较小。面对上述困难，现有方法在复杂的自动驾驶场景中表现不佳。

例如，CCNN方法[11]在PASCAL VOC数据集上的 mIoU达到35.6%，但在Cityscapes数据集上仅获得7.2%。据我们所知，针对复杂的静态图像（e.g.， Cityscapes [1]和CamVid[12]数据集）的图像标签弱监督语义分割尚未被研究。

本文旨在解决自动驾驶场景中的基于标签的语义分割问题。核心思想是，由于每个带标签的物体在不同图像中重复出现，因此我们可以通过区域聚类以及基于深度神经网络的聚类来发现其共同的外观特征。具体而言，首先我们利用简单图像（例如ImageNet数据集）训练一个判别性分类器，将图像标签与显著视觉特征相关联。然后，我们将训练好的网络应用于自动驾驶数据集，并生成类别激活图作为初始定位。该定位为我们提供了每个对象的判别性区域，如图1(b)的第二列所示。

其次，尽管复杂的自动驾驶场景更具挑战性，但一个重要的特征是，在自动驾驶场景中，同一类别的物体具有更多的相似性，i.e.,共享属性，因为自动驾驶场景中的所有图像外观都非常相似。例如，在图3中，汽车出现在许多图像中，且其外观变化不大。

此外，物体会被聚类，i.e.,每个图像中都会出现许多物体，因此为我们提供了更多的训练实例来学习物体的共享属性。

受这一特性的启发，我们提出了一种新颖的迭代深度聚类方法，用于学习物体的共享属性并聚类图像区域。最直接的想法是直接对图像区域进行聚类，然而设计鲁棒特征来进行聚类十分困难，并且我们无法保证每个聚类都对应一个物体类别。因此，我们提出利用初始的物体定位作为引导，从中学习物体的共享属性。所学习到的模型随后被用于提取图像区域的特征并对其进行聚类。该过程以迭代方式进行，i.e.,我们进一步从已聚类的区域中学习特征，并利用更鲁棒的特征重新进行聚类。最终得到的聚类对象区域用于监督分割网络。

示意图0 我们提出的方法的流程。首先，我们应用从ImageNet数据集训练得到的定位网络来获得初始物体定位。其次，基于初始物体定位，我们迭代地学习物体特征并聚类图像区域以扩展对象区域。这些区域随后用于监督分割网络。(b) 一些中间视觉结果。从非常粗略的初始定位开始，我们的方法能够产生相当满意的结果。)

图1：(a) 我们提出的方法的流程。首先，我们应用从ImageNet数据集训练得到的定位网络来获得初始物体定位。其次，基于初始物体定位，我们迭代地学习物体特征并聚类图像区域以扩展对象区域。这些区域随后用于监督分割网络。(b) 一些中间视觉结果。从非常粗略的初始定位开始，我们的方法能够产生相当满意的结果。

示意图1

图2：来自PASCAL VOC、Cityscapes和CamVid数据集的示例。右上角是对应标注的缩略图。在PASCAL VOC数据集中，场景较为简单，每幅图像中仅包含少量物体。而在Cityscapes和 CamVid数据集中，几乎所有物体类别都在每幅图像中同时出现。因此，类别标签几乎无法为网络提供监督信息。

示意图2

图3：在自动驾驶场景中，物体具有更多的相似性，我们可以从粗略的种子区域学习它们的共享贡献来扩展物体区域。

我们工作的主要贡献如下：
- 我们提出从简单图像中学习判别性视觉特征，以在复杂的自动驾驶场景中实现初始物体定位；
- 我们提出了一种迭代深度聚类方法，该方法利用初始物体定位作为指导来学习特征并聚类图像区域以扩展对象区域；
- 据我们所知，这是首个仅使用图像标签即可在复杂自动驾驶场景中实现单幅图像弱监督语义分割的解决方案。我们的性能优于先前方法在Cityscapes和CamVid数据集上的表现。

2. 相关工作

2.1. 全监督语义分割

语义分割是计算机视觉领域的一项基本任务。近年来，大量方法[15, 16, 17, 18, 19, 20, 21, 22]被提出并取得了令人满意的结果。Long等[15]通过引入全卷积层提出了全卷积网络（FCN），以实现对图像语义的像素级预测。Chen等[16, 17]通过引入空洞卷积提出了DeepLab网络，以扩大滤波器的感受野。条件随机场（CRF）被用作后处理手段以提升定位性能。为了考虑更多的上下文信息， Zhao等[18]提出了PSPNet，该方法利用金字塔池化模块融合基于不同区域的上下文信息。Lin等[19]通过多路径精炼网络利用从深层到浅层的所有信息，生成高分辨率的分割结果。然而，全监督方法需要大量的像素级标注，这非常耗时，从而限制了其应用。

2.2. 弱监督语义分割

弱监督语义分割仅需要更少的标注，例如边界框[23],涂鸦标注[24],点标注[25]和图像标签[4, 11, 8, 10, 26, 27, 28, 29, 30, 31, 32]。在本文中，我们专注于使用图像标签作为监督。

由于仅有图像标签，即物体类别可用，先前的弱监督方法依赖分类网络来定位物体。许多方法[4, 11, 30]将弱监督语义分割作为多实例学习来解决（多实例学习）问题中，每张图像被视为一个包，并且包含至少一个已知类别的像素。通过对最后的特征图进行全局池化，语义分割问题被转化为分类任务，并从最后的特征图生成分割结果。Kolesnikov等[8]提出了基于分类网络生成的初始对象种子的三种损失[14]。这些损失旨在从种子扩展对象区域，并将其约束在对象边界内。Y. 魏等[10]提出了一种对抗擦除方法，该方法利用分类网络从被擦除的图像中顺序地发现新的对象区域。

这些方法都依赖类别标签来训练分类网络并生成物体的区分性区域。然而，在复杂的自动驾驶场景中，由于每幅图像几乎包含所有类别，因此无法用于训练分类网络，所以先前为简单图像提出的方法在复杂的自动驾驶场景中将失效。

Saleh et al.提出了一种通过考虑多个背景类别的城市场景弱监督语义分割方法。然而，该方法依赖于视频的光流作为监督信号来训练双流网络，因此无法应用于静态图像场景。

在现有方法中，[10, 34, 32]也采用种子扩展策略。Wei et al.使用类激活映射（CAM）从图像中渐进挖掘判别性区域，从而扩展物体掩码。Wang et al.通过自下而上和自上而下框架迭代挖掘鲁棒公共对象特征。Huang etal.将种子区域增长 (SGR) 融入语义分割网络以扩展种子区域。

然而，我们的方法利用深度聚类框架来渐进学习鲁棒聚类特征并获得更优聚类，i.e., 物体掩码。这是基于我们的观察：驾驶场景中存在大量相似性，因此我们可以对其进行聚类以生成完整对象掩码。

2.3. 网络监督语义分割

网络监督语义分割方法[35, 36, 37, 38]使用从互联网查询的图像来训练并定位物体掩码。这些图像是简单且易于学习物体掩码的图像，因此可作为多类别语义分割的监督信息。我们的方法也从简单图像中训练定位网络，然后将其迁移到复杂场景中。然而，我们的方法与网络监督方法存在较大差异。在网络监督方法中，简单图像通常被用作补充监督，以提升典型的弱监督语义分割网络性能。而在我们的工作中，目标域i.e.,驾驶场景无法用于训练定位网络，因此我们提出从简单图像中学习，以关联图像标签与显著视觉特征。在大多数网络监督方法中，迁移信息是物体掩码，而我们迁移的是特征。

3. 提出的框架

我们的方法动机在于，在自动驾驶场景中，同一类别的物体具有更多相似性，因为所有图像的外观都非常相似。因此，我们可以学习每个类别的共享属性，并利用所学特征对图像区域进行聚类。然而，直接对它们进行聚类是不可行的，因为很难提取鲁棒特征，且我们无法保证每个聚类都对应于每个物体类别。因此，我们首先生成初始物体定位，并将其作为引导来聚类图像区域。

我们的框架包含三个部分：（1）初始物体定位。我们利用简单图像，例如ImageNet数据集，来训练一个判别性分类器，然后使用CAM方法[14]对物体种子区域进行定位。（2）对象种子引导的深度聚类。我们学习每个物体类别的共享属性，并利用所学的属性对图像区域进行聚类以扩展物体区域。该过程迭代进行，即从扩展的物体区域中学习共享属性并获得更优聚类。（3）弱监督语义分割。将第（2）部分生成的对象区域作为分割标签来训练分割网络。图1展示了所提框架的示意图以及一些中间视觉结果。

3.1 初始物体定位

弱监督语义分割的主要挑战之一是仅有图像标签可用，而未提供位置信息。在简单场景中，例如 PASCAL VOC数据集，每张图像中仅出现一个或少数几个物体，因此与图像关联的标签具有高度区分性和信息性。然而，在复杂的自动驾驶场景中，几乎所有类别都在每张图像中出现，因此类别标签几乎无法提供用于定位物体的信息。为解决此问题，我们提出利用简单图像（如ImageNet数据集[13],）来训练判别性分类器，以将图像标签与独特的视觉特征相关联。

具体来说，首先我们从ImageNet数据集中选择与我们的数据集相对应的类别，并使用VGG16网络[39]训练一个分类网络。利用训练好的网络，我们可以随后通过类激活映射方法（CAM）生成物体热力图[14]。

然而，在自动驾驶场景中，物体是聚类的，即每张图像中都会出现大量物体。如果直接应用训练好的网络，很难生成每个物体的判别性区域。一些显著物体会影响其他非显著物体，因此生成的定位只关注部分判别性物体。此外，由于距离的变化，物体的尺寸也各不相同，小尺寸的物体在以整幅图像作为输入时难以定位。

示意图3

图4：由分类网络生成的物体热力图。（a）直接将训练好的网络应用于整幅图像，生成的定位仅聚焦于少数判别性物体， e.g.,道路，而其他物体被抑制。（b）将训练好的网络应用于图像块。通过对每个图像块进行处理，分类网络能够定位更多样化的对象区域， e.g.,道路、交通标志、植被、天空等。一些不存在的物体， e.g.,卡车、公共汽车、火车，可以通过图像标签排除。建议彩色查看。

基于这些热力图，随后我们将图像分割为超像素区域[40]，并选择具有最大物体热力图的区域作为初始对象种子。

3.2. 对象种子引导的深度聚类

在自动驾驶场景中，一个重要的特征是：同一类别的物体具有更多的相似性，即共享属性，因为自动驾驶场景中的所有图像外观都非常相似。此外，物体会呈现聚类现象，即许多物体出现在每一张图像中，从而为我们提供了更多的训练实例来学习物体的共享属性。基于此，我们提出对图像区域进行聚类以生成每个物体的区域掩码。最直接的想法是对这些物体进行直接聚类。然而，设计用于聚类的鲁棒特征较为困难，并且我们无法保证每个聚类都对应一个物体类别。为解决这些问题，本文认为初始对象种子为物体提供了重要信息，因此我们提出一种以初始对象种子为引导的深度聚类方法。

具体而言，我们使用初始对象种子训练一个神经网络，然后利用训练好的网络提取其他区域的特征。首先，将图像分割为超像素区域，位于初始对象种子内的超像素被标记上相应的类别标签，其余超像素则标记为未知。接着，将这些已标记的超像素作为监督信号来训练一个区域分类网络。利用训练好的网络，我们提取每个区域的特征，并使用这些特征为所有超像素区域重新预测新标签。我们将我们的方法命名为深度聚类，因为我们使用学习到的特征对区域进行聚类，且我们的目标是最小化同一类别内的方差，并最大化不同类别间的方差。这些过程是迭代进行的，即我们进一步将新预测的标签作为监督信号来优化网络，逐步挖掘鲁棒特征和对象区域。

形式上，给定一组 M训练图像 I={Ii} M i=1，我们将图像 Ii分割为 Ni超像素区域，以获得IR={IiR,j} M , N i。我们希望通过求解来预测准确的物体标签 y：

$$
\arg \min_{y,\theta} L(y, \theta|IR). \quad (1)
$$

我们通过固定参数{y, θ}之一并将其分解为两个交替的步骤来求解公式(1)：

$$
\arg \min_{\theta} L(\theta|y, IR), \quad (2)
$$

$$
\arg \min_{y} L(y|\theta, IR). \quad (3)
$$

在公式(2)中，我们固定区域标签以优化网络参数 θ。而在公式(3)中，利用训练好的网络参数 θ，我们预测给定图像区域 IR的类别标签。这两个步骤被迭代地优化，以逐步挖掘每个类别中物体的共享属性以及聚类对象区域。

我们使用基于掩码的Fast R-CNN框架[41], 实现区域分类网络，该框架能够高效地提取不规则超像素区域的特征。我们的目标是学习高层特征，并利用这些特征对区域进行聚类。为了获得更好的性能，我们要求学习到的特征在不同类别之间具有较大的方差，而在同一类别内部具有较小的方差。为此，我们引入了两种损失来训练网络。第一种损失是交叉熵损失，它鼓励不同类别之间具有较大的方差，其定义为：

$$
L1= -\sum_{i,j,c} S_{i,j}(c)\log(f_c(I_{i,j}^R |\theta)), \quad (4)
$$

其中 $S_{i,j}(c)$ 是区域 $I_{i,j}^R$ 的标签，如果区域 $I_{i,j}^R$ 属于类别 c，则 $S_{i,j}(c)= 1$，否则 $S_{i,j}(c)= 0$。$f_c( I_{i,j}^R |\theta)$ 表示区域 $I_{i,j}^R$ 被预测为类别 c 的分类得分。

第二个损失是中心损失[42],，旨在使同一类别内的方差较小：

$$
L2 = \frac{1}{2}\sum_{i,j} ||x_{i,j} - m_{y_{i,j}}||_2^2 , \quad (5)
$$

其中 $x_{i,j}$ 是区域 $I_{i,j}^R$ 的特征，$m_{y_{i,j}}$ 是类别 $y_{i,j}$ 的特征中心。

最后，我们通过以下联合监督来优化公式(2)：

$$
L_C = L1 + \lambda L2 , \quad (6)
$$

我们根据实验和先前的工作[42]设置了 $\lambda= 0.001$。

示意图4

图5：迭代深度聚类的可视化示例。从非常粗糙且不准确的初始定位开始，对象种子引导的深度聚类能够逐步聚类并扩展对象区域。建议彩色查看。

3.3 弱监督语义分割

通过对象种子引导的深度聚类，对象区域被聚类到对应的类别，从而扩展了对象区域。利用这些对象区域，我们将其作为分割标签来训练分割网络。该训练过程与任何全监督语义分割网络相同。在本文中，我们采用流行的 DeepLab‐LargeFOV 模型[43]作为基础网络，并使用交叉熵损失来优化网络。最终训练出的网络用于推理。

4. 实验

4.1. 设置

我们在两个具有挑战性的数据集上评估了所提出的方法：Cityscapes[1]和 CamVid[12]。
Cityscapes数据集包含50个城市的城市场景，并提供了 5,000张带有精细标注的图像（train：2975，val： 500，test：1525）。该数据集包含30个类别和7个大类，在公开评估中考虑19个类别，其余类别被视为无效。
CamVid数据集包含701张用于语义分割的标注图像（train：367，val：101，test：233）。共有32个类别，该数据集中的语义类别，遵循先前的工作[44, 33], ，仅评估11个类别。在本文中，我们在训练集上训练我们的方法，并在验证集和测试集上以所有类别上的平均交并比（类别mIoU）进行评估。对于 Cityscapes数据集，还评估了大类上的平均交并比（类别mIoU）。

4.2. 实现细节

初始对象种子 。我们从ImageNet数据集中选择与Cityscapes或CamVid数据集相同类别的图像来训练分类网络。我们使用的网络是VGG16[39]。

对象种子引导的深度聚类 。我们通过一个区域分类网络实现对象种子引导的深度聚类，该网络由交叉熵损失和中心损失进行监督。直接使用联合监督训练网络会使预测偏向于具有较大区域的物体，例如道路和建筑物，因为在这种情况下，中心损失会变得非常低。因此，我们首先仅使用交叉熵损失训练网络40,000次迭代，然后继续使用两种损失联合微调5,000次迭代。

弱监督语义分割网络 。我们使用在 ImageNet上预训练的DeepLab‐LargeFOV[43]作为我们分割网络的基础网络。

所有网络均在Caffe框架[45]上实现和训练。所有代码将被公开，更多细节可以在其中找到。

4.3. 评估与比较

我们在Cityscapes[1] 和 CamVid[12]数据集上评估了我们的方法，并与先前方法进行了比较。据我们所知，仅使用图像标签（如包含静态图像的Cityscapes和CamVid数据集）在复杂场景中的弱监督语义分割此前尚未被探索。为了进行比较，我们在 Cityscapes和CamVid数据集上实现了先前的弱监督方法。由于仅有少数方法公开了代码，因此本文中我们与CCCN[11],SEC[8]和PSA[46]进行比较。这些方法是为简单场景设计的，i.e., PASCAL VOC数据集。我们还与一种基于视频的弱监督方法BBF[33]进行了比较。对于CCCN[11],，它是一种端到端方法，因此我们直接将其应用于自动驾驶场景。对于SEC[8][46], 和 PSA，它们依赖于初始定位，但其方法无法在自动驾驶场景中获得初始定位，因此我们使用由我们的方法生成的定位结果。结果如表1至表4所示。我们的方法优于所有其他方法。

对于CCNN方法，它基于多实例学习，因此主要关注大尺寸物体，例如道路和建筑物。对于SEC方法，它在训练网络时采用三种类型的约束，这些约束在复杂场景中不适用，其输出具有很强的偏差，例如在Cityscapes中的道路和天空，以及在CamVid中的建筑物。
PSA，它基于我们方法的初始定位，然后学习亲和力以进行优化，因此取得了相对较好的性能。对于 BBF，它也使用了来自ImageNet数据集的图像，此外还利用了视频中的光流，然而我们的方法仅使用静态图像就仍然优于它。一些定性结果如图6所示。

示意图5

图6：定性 Cityscapes 和 CamVi 上的分割结果。数据集。

方法	监督	类别mIoU	类别mIoU
CCNN[ICCV’15]	图像标签	7.3	16.3
SEC[ECCV’16]	图像标签	2.3	7.1
PSA[CVPR’18]	图像标签	21.6	39.0
Ours	图像标签	24.2	50.2

表1：Cityscapes val集上的结果。

方法	监督	类别mIoU	类别mIoU
CCNN[ICCV’15]	图像标签	7.2	17.2
SEC[ECCV’16]	图像标签	2.4	7.2
BBF[ICCV’17]	标签和视频	24.9	47.2
PSA[CVPR’18]	图像标签	21.2	40.2
Ours	图像标签	24.9	53.7

表2：Cityscapes test集上的结果。

方法	监督	mIoU
CCNN[ICCV’15]	图像标签	2.9
PSA[CVPR’18]	图像标签	11.0
Ours	图像标签	23.5

表3：CamVid val集上的结果。

方法	监督	mIoU
CCNN[ICCV’15]	图像标签	2.4
SEC[ECCV’16]	图像标签	2.5
BBF[ICCV’17]	图像标签 & 视频	29.7
PSA[CVPR’18]	图像标签	15.5
Ours	图像标签	30.4

表4：CamVid test集上的结果。

4.4. 消融研究

我们进行了实验以评估我们方法的有效性，所有结果均在Cityscapes数据集上进行评估。

4.4.1. 从图像块进行定位

我们通过将图像块生成的初始定位与直接应用于整幅图像的方法进行比较，来评估其有效性。图7展示了将训练好的网络应用于整幅图像和图像块时的一些示例。我们可以看到，直接应用于整幅图像时，定位热力图较为粗糙且扩散；而应用于图像块时，热力图能更好地定位物体的判别性区域。我们还在表5中列出了以交并比衡量的定位精度。这些结果表明从图像块生成初始定位的有效性。我们的方法可以避免显著物体抑制其他物体热力图的影响，并能更好地处理小尺寸物体，例如灯、标志和人。此外，如果直接从整幅图像生成，我们无法获得杆、天空和自行车类别的定位，而我们的方法可以为所有类别提供显著的定位信息。

	road	sidewalk	building	wall	fence	pole	light	sign	vegetation	terrain	sky	person	rider	car	truck	bus	train	motorbike	mIoU
整幅图像	3.2	5.0	0.6	0.3	0.2	0.0	3.4	0.2	0.3	0.5	0.0	1.0	1.6	0.5	3.3	7.4	15.0	1.4	0.0
图像块	0.7	3.7	5.0	1.3	1.2	1.2	10.3	9.3	4.4	1.8	4.9	3.9	1.0	4.4	4.8	7.6	4.6	3.9	0.4

表5：评估从图像块生成初始对象种子的有效性。

示意图6 整幅图像和(c)图像块生成初始定位的比较。当直接应用于整幅图像时，生成的热力图仅聚焦于少数显著物体，且小尺寸的物体难以定位；而应用于每个图像块时，这些问题可以得到更好的处理。)

图7：从(b)整幅图像和(c)图像块生成初始定位的比较。当直接应用于整幅图像时，生成的热力图仅聚焦于少数显著物体，且小尺寸的物体难以定位；而应用于每个图像块时，这些问题可以得到更好的处理。

4.4.2. 迭代深度聚类

为了评估迭代深度聚类的有效性，我们在表6中列出了中间结果。初始对象种子提供的定位非常粗糙，在类别mIoU上仅为3.9%，在类别mIoU类别上为4.7%。然而，这些种子为我们提供了关于物体的重要信息，通过对象种子引导的深度聚类，更多的对象区域被聚类到正确的类别中，性能大幅提升，在类别mIoU上达到16.5%，在类别 mIoU类别上达到21.1%。在后续的迭代中，对象区域逐渐得到修正，性能持续提升。

方法	类别mIoU	类别mIoU
种子	3.9	4.7
深度聚类-1	16.5	21.1
深度聚类-2	19.1	37.7
深度聚类-3	19.6	38.3

表6：评估深度聚类的有效性。

4.4.3. 有中心损失的联合监督

为了评估中心损失联合监督的有效性，我们将仅使用交叉熵损失的方法进行性能比较。表7显示了在Cityscapes数据集上的结果。借助中心损失，我们可以实现相对更高的性能。

	DC-1		DC-2		DC-3
	类别mIoU	类别mIoU	类别mIoU	类别mIoU	类别mIoU	类别mIoU
无中心损失	16.2	19.3	18.6	36.7	19.6	37.9
有中心损失	16.5	21.1	19.1	37.7	19.6	38.3

表7：评估中心损失联合监督的有效性。

4.4.4. 在PASCAL VOC 2012数据集上的结果

我们的方法也适用于简单场景，例如PASCAL VOC 2012数据集。对于初始定位，沿用先前方法，我们直接使用来自PASCAL VOC 2012数据集的图像训练分类网络。表8展示了与最新弱监督方法的比较： CCNN[11], SEC[8],STC[35], [31], [28], [10], SPN[28], AE-PSL[10], LCEM[31], MCOF[34]和DSRG[32]。尽管我们的目标是解决复杂自动驾驶场景中的弱监督语义分割问题，但在简单的PASCAL VOC 2012数据集上，我们方法优于大多数先前方法。然而，在PASCAL VOC 2012数据集中，图像之间的相似性比驾驶场景中的弱，因此我们的方法不如近期为PASCAL VOC数据集设计的最先进的方法。

方法	val集合	test集合
CCNN[11][ICCV’15]	35.3	35.6
SEC[8][ECCV’16]	50.7	51.7
STC[35][PAMI’17]	49.8	51.2
SPN[28][AAAI’17]	50.2	46.9
AE-PSL[10][CVPR’17]	55.0	55.7
LCEM[31][NEUCOM’18]	45.4	46.0
MCOF[34][CVPR’18]	56.2	57.6
DSRG[32][CVPR’18]	59.0	60.4
Ours	55.6	57.2

表8：在PASCAL VOC 2012数据上的比较 set.

4.4.5. 其他分割网络的实验结果

我们进一步使用不同的分割网络进行实验：FCN[15], DRN-D-105[47]和 DeepLab-LargeFOV[16]。我们使用所提出的深度聚类生成的合成分割标签作为伪监督来训练这些分割网络，并在 Cityscapes 验证集上评估它们的性能。表9展示了实验结果。由于所提出的方法是一个统一的弱监督学习框架，我们可以在不同情况下充分利用所有现有的分割网络。

分割网络	mIoU	类别mIoU
FCN[15]	22.3	49.4
DRN-D-105[47]	23.7	50.6
DeepLab-LargeFOV[43]	24.2	50.2

表9：在Cityscapes val数据集上使用其他分割网络的结果。

4.5. 失败案例

所提出的方法解决了复杂驾驶场景中的弱监督语义分割问题，且性能优于使用额外视频信息的先前方法。尽管驾驶场景极具挑战性，但仍存在一些值得进一步研究的失败案例。表10显示了Cityscapes验证集中所有类别的交并比。所提出的方法在一些较大或常见的物体上取得了相对较好的性能，例如道路、建筑物、植被、天空、人、汽车和自行车。原因是这些类别面积较大或实例较多，因此我们的聚类方法能够有效对它们进行聚类，并获得更优的物体掩码。然而，对于一些稀有类别例如墙和栅栏等类别，由于用于训练深度聚类的样本较少，性能仍然较低。此外，对于骑手类别，由于其与人和自行车非常相似，难以区分，分割也较为困难。在未来的工作中，我们将探索解决这些困难类别的方法。

	road	sidewalk	building	wall	fence	pole	light	sign	vegetation	terrain	sky	person	rider	car	truck	bus	train	motorbike	mIoU
Cityscapes	57.1	19.3	61.5	0.0	1.3	2.8	3.4	10.6	58.5	6.2	50.4	35.9	0.0	63.4	4.4	21.9	5.0	19.5	38.2

表10：Cityscapes val数据集上所有类别的交并比。

5. 结论

在本文中，我们解决了复杂自动驾驶场景下的弱监督语义分割问题。为了定位物体，我们提出从简单图像中学习判别性视觉特征，并利用这些学习到的特征在自动驾驶场景中生成初始定位。以该初始定位作为对象种子，我们提出了一种对象种子引导的深度聚类方法，用于迭代地学习每个类别物体的共享属性并扩展对象区域。这些对象区域随后被用作监督信号来训练分割网络。在Cityscapes和 CamVid数据集上的实验结果表明，我们的方法取得了不错的性能，并且我们还优于之前使用视频中附加光流作为监督的最先进的弱监督方法。

您可能感兴趣的与本文相关的镜像