LABEL-EFFICIENT SEMANTIC SEGMENTATION WITHDIFFUSION MODELS

基于扩散模型的标签高效语义分割

摘要:

去噪扩散概率模型最近受到了很多研究的关注,因为它们优于gan等替代方法,并且目前提供了最先进的生成性能。扩散模型的优越性能使其成为一些应用程序的吸引人的工具,包括绘图,超分辨率和语义编辑。在本文中,我们证明了扩散模型也可以作为语义分割的工具,特别是在标记数据稀缺的情况下。特别地,对于几个预训练的扩散模型,我们研究了执行反向扩散过程的马尔可夫步骤的网络的中间激活。我们表明,这些激活有效地从输入图像中捕获语义信息,并且似乎是分割问题的优秀像素级表示。基于这些观察,我们描述了一种简单的分割方法,即使只提供少量训练图像也可以工作。对于相同数量的人类监督,我们的方法在几个数据集上显著优于现有的替代方法。该项目的源代码是公开的。

1 介绍

去噪扩散概率模型(DDPM) (Sohl-Dickstein等,2015;Ho等人,2020)最近在个体样本的真实性及其多样性方面优于其他方法来模拟自然图像的分布(Dhariwal和Nichol, 2021)。DDPM的这些优点已成功地应用于着色(Song et al ., 2021)、涂漆(Song et al ., 2021)、超分辨率(sahara et al ., 2021;Li et al ., 2021b)和语义编辑(Meng et al ., 2021),其中DDPM通常比gan取得更令人印象深刻的结果。

然而,到目前为止,DDPM还没有被用来作为鉴别计算机视觉问题的有效图像表示的来源。虽然之前的文献已经证明了各种生成范式,如gan (Donahue & Simonyan, 2019)或自回归模型(Chen等人,2020a),可以用于提取常见视觉任务的表示,但目前尚不清楚DDPM是否也可以作为表示学习器。在本文中,我们从语义分割的角度对这个问题给出了肯定的答案。

特别地,我们研究了来自U-Net网络的中间激活,该网络近似于DDPM中反向扩散过程的马尔可夫步长。直观地说,这个网络学习去噪它的输入,并且不清楚为什么中间激活应该捕获高级视觉问题所需的语义信息。然而,我们表明,在某些扩散步骤中,这些激活确实捕获了这些信息,因此,可以潜在地用作下游任务的图像表示。鉴于这些观察结果,我们提出了一种简单的语义分割方法,该方法利用这些表示并成功地工作,即使只提供了少数标记图像。在几个数据集上,我们表明我们基于ddpm的分割方法在相同监督量下优于现有基线。

综上所述,本文的贡献有:1。我们研究了最先进的DDPM学习的表征,并表明它们捕获了对下游视觉任务有价值的高级语义信息。

2. 我们设计了一种简单的语义分割方法,利用这些表示,并在少数几个操作点上优于替代方法。

3. 我们在相同的数据集上比较了基于ddpm的表示和基于gan的表示,并展示了前者在语义分割方面的优势。

2 相关工作

在本节中,我们简要地描述了与我们的工作相关的现有研究方向。

扩散模型(Sohl-Dickstein等,2015;Ho等人,2020)是一类生成模型,它通过源自简单参数分布(通常是标准高斯分布)的马尔可夫链的端点近似真实图像的分布。每个马尔可夫步骤都由一个深度神经网络建模,该网络有效地学习用已知的高斯核反转扩散过程。Ho等人强调了扩散模型和分数匹配的等价性(Song & Ermon, 2019;2020),表明它们是通过迭代去噪过程将简单已知分布逐渐转换为目标分布的两种不同视角。V近期作品(尼科尔,2021;Dhariwal & Nichol, 2021)开发了更强大的模型架构以及不同的高级目标,这导致DDPM在生成质量和多样性方面优于gan。DDPM已广泛应用于图像着色(Song et al ., 2021)、超分辨率(sahara et al ., 2021;Li et al ., 2021b), inpainting (Song et al ., 2021)和semantic editing (Meng et al ., 2021)。在我们的工作中,我们证明了人们也可以成功地将它们用于语义分割。

基于生成模型的图像分割是目前一个活跃的研究方向,但现有的方法主要是基于gan的。第一行作品(沃诺夫和巴班科,2020;Voynov et al, 2021;Melas-Kyriazi等人,2021)基于以下证据:最先进的gan的潜在空间具有与影响前景/背景像素不同的效果相对应的方向,这允许生成合成数据来训练分割模型。然而,这些方法目前只能进行二值分割,是否可以用于一般的语义分割设置还不清楚。第二行作品(Zhang et al ., 2021;Tritrong等,2021;徐,2021;Galeev等人,2020)与我们的研究更相关,因为它们是基于gan中获得的中间表示。特别是,(Zhang et al ., 2021)中提出的方法在这些表示上训练像素类预测模型,并确认其标签效率。在实验部分,我们将(Zhang et al ., 2021)的方法与我们基于ddpm的方法进行了比较,并展示了我们的解决方案的几个独特优

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值