Unsupervised Domain Adaptation for Semantic Segmentation via Class-Balanced Self-Training

最新推荐文章于 2025-06-05 12:21:57 发布

原创最新推荐文章于 2025-06-05 12:21:57 发布 · 3.7k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#迁移学习 #域适应 #语义分割

迁移学习专栏收录该内容

13 篇文章

订阅专栏

介绍一种基于迭代自训练的UDA框架，通过生成目标数据的伪标签并结合空间先验信息优化标签，避免大类优势，实现语义分割任务的性能提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

在本文中，我们提出了一种基于迭代自训练（self-training）过程的新型UDA框架.该问题被形式化为潜在变量损失最小化，并且可以通过生成目标数据的伪标签和通着这些伪标签再训练来解决这些问题。在ST之上，我们还提出了一种新颖的类平衡自训练（CBST）框架，以避免大类在伪标签生成上的逐渐优势，并引入空间先验来细化生成的标签。综合实验表明，所提出的方法在多个主要UDA设置下实现了最先进的语义分割性能。

总结

每次生成置信度最高的伪标签，以保证最终迭代出正确的标签
空间先验信息——像素 $n$ 是类别 $c$ 的频率。用以辅助目标域的训练，减少错误

Loss 函数

$min⁡w,y^LS,P(w,y^)=−∑s=1S∑n=1Nys,nTlog⁡(pn(w,Is))−∑t=1T∑n=1N∑c=1C[y^t,n(c)log⁡(qn(c)pn(c∣w,It))+kcy^t,n(c)] \min_{\mathbf{w},\hat{\mathbf{y}}}\mathcal{L}_{S,P}(\mathbf{w},\hat{\mathbf{y}})=- \sum_{s=1}^S \sum_{n=1}^N \mathbf{y} ^T_{s,n} \log(\mathbf{p}_n(\mathbf{w},\mathbf{I}_s)) -\sum_{t=1}^T\sum_{n=1}^N \sum_{c=1}^C [\hat{y}_{t,n}^{(c)} \log( q_n(c) p_n(c|\mathbf{w},\mathbf{I}_t) )+k_c\hat{y}_{t,n}^{(c)}]$
$s.t. y^t,n=[y^t,n(1),⋯ ,y^t,n(C)]∈{{e∣e∈RC}∪0}, ∀t,n ;kc>0,∀c s.t. \; \hat{\mathbf{y}}_{t,n}=[\hat{y}_{t,n}^{(1)},\cdots,\hat{y}_{t,n}^{(C)}] \in \{ \{ \mathbf{e}|\mathbf{e}\in \mathbb{R}^C \} \cup \mathbf{0} \} , \; \forall t,n \; ; k_c>0,\forall c$

第一项：使源域分类尽可能正确
1. $Is\mathbf{I}_s$ 是源域中第 $s$ 个图片.
2. $ys,n\mathbf{y} _{s,n}$ 是一个 $\times 1$ 的向量，表示图片 $Is\mathbf{I}_s$ 中第 $n$ 个像素的ground truth，每张图有 $N$ 个像素.
3. $w\mathbf{w}$ 是网络权重.
4. $log⁡(pn(w,Is))\log(\mathbf{p}_n(\mathbf{w},\mathbf{I}_s))$ 表示像素 $n$ 的类别概率.
第二项
1. $y^t,n\hat{\mathbf{y}}_{t,n}$ 是目标域的伪标签.每次选择置信度最高的，最优可能正确的标签作为伪标签.当 $y^t,n=0\hat{\mathbf{y}}_{t,n}=0$ 时，忽略这个伪标签在模型训练中的作用.
2. $y^t,n(c)\hat{y}_{t,n}^{(c)}$ ：该像素是第 $c$ 类的概率值 .
3. $k_c$ ：过滤掉概率值小于 $e^{-k_c}$ 的伪标签.对每一类 $k_c$ 值选取方法如下：

在这里插入图片描述

$q_n(c)$ ：像素 $n$ 是类别 $c$ 的频率。此为空间先验信息，并限制为 $∑i=1Nqn(c)=1\sum_{i=1}^N q_n(c)=1$
下图显示了空间先验信息的热度图，计算自GTA5数据集。黄色代表高能量，蓝色代表低能量。
$qn(c)pn(c∣w,It)q_n(c) p_n(c|\mathbf{w},\mathbf{I}_t)$ ：在网络参数为 $w\mathbf{w}$ ,图片是 $It\mathbf{I}_t$ 的条件下类别为 $c$ 的概率是 $pn(c∣w,It)p_n(c|\mathbf{w},\mathbf{I}_t)$ . 乘以类别 $c$ 在像素 $n$ 的频率是加入先验信息。举个例子，对于图像左下角的像素，观察其热度图，我们知道类别为road的频率最大，sidewalk的频率小。如果给定一张图片左下角是road，但是伪标签 $y^t,n(c=road)\hat{y}_{t,n}^{(c=road)}$ 的值很小，即不是road类。

举个例子，对于图像左下角的像素，观察其热度图，我们知道类别为road的频率最大，sidewalk的频率小。如果给定一张图片左下角是road，但是伪标签 $y^t,n(c=road)\hat{y}_{t,n}^{(c=road)}$ 的值很小，即不是road类。那么 $qn(c)pn(c∣w,It)q_n(c) p_n(c|\mathbf{w},\mathbf{I}_t)$ 的值接近0，即 $−y^t,n(c)log⁡(qn(c)pn(c∣w,It))-\hat{y}_{t,n}^{(c)} \log( q_n(c) p_n(c|\mathbf{w},\mathbf{I}_t) )$ 会很大。当我们最小化Loss函数时，就能利用先验信息修正这个错误。