论文 Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation详解（PyTorch）

原创已于 2025-05-27 17:57:40 修改 · 1k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #人工智能 #python #计算机视觉 #深度学习 #无监督 #CLIP

于 2025-05-27 14:15:18 首次发布

论文讲解同时被 2 个专栏收录

131 篇文章

订阅专栏

pytorch

33 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

视频讲解：视频讲解（推荐结合视频看）

论文下载地址：http://openaccess.thecvf.com//content/CVPR2024/papers/Wang_Learn_to_Rectify_the_Bias_of_CLIP_for_Unsupervised_Semantic_CVPR_2024_paper.pdf

代码下载地址：https://github.com/dogehhh/reclip

论文 Completely Self-Supervised Crowd Counting via Distribution Matching无监督算法详解

论文CrowdCLIP（基于CLIP的无监督人群计数模型）详解（PyTorch,Pytorch_Lighting）

论文CLIP-Count（基于文本指导的零样本目标计数）详解（PyTorch）

前面我们已经讲过了两篇论文关于人群计数的无监督算法，其中一篇是基于人群计数符合自然幂律分布，而另外一篇是基于CLIP的无监督算法，充分利用了CLIP的泛化性能。而本文要讲的是关于语义分割领域的一篇基于CLIP的无监督算法，但是这篇算法的理解不是太容易，因此需要花较多的时间去阅读和理解。上面视频我们讲的是改进版的代码实现，其实也差不多，看懂改进版的，那么基础也可以看懂（本文是基础版）。

AttributeError: module 'clip' has no attribute 'load'

一目的和方法

提出目的

近期研究利用CLIP模型完成极具挑战性的无监督语义分割任务——该任务中仅有无标注图像可用。然而发现当CLIP被应用于此类像素级理解任务时，会出现难以预料的偏差。先前工作未能显式建模此类偏差，严重制约了分割性能。

提出方法

本文提出通过显式建模并校正CLIP中存在的偏差来提升无监督语义分割效果。具体而言，设计可学习的"参考"提示词来编码类别偏好偏差，同时将视觉Transformer的位置嵌入投影为空间偏好偏差表示。通过简单的逐元素减法操作，校正了CLIP分类器的逻辑输出。基于校正后的逻辑值，采用Gumbel-Softmax运算生成分割掩码。随后通过建立掩码视觉特征与各类别文本特征间的对比损失，促进有效的偏差建模。为进一步提升分割质量，通过最小化设计的掩码引导、特征引导和文本引导损失项，将校正后CLIP的知识蒸馏至先进分割架构。

对比结果

图1.（a）空间偏好偏差。（左）在PASCAL VOC数据集上绘制了距离（x轴）与mIoU（y轴）的关系曲线，其中距离表示物体质心与图像质心之间的空间距离，mIoU基于预测结果与真实值计算得出。曲线显示CLIP模型（绿色）对中心物体的分割效果明显优于边缘物体，而本文的方法（蓝色）有效缓解了这种偏差。（右）可视化结果从定性角度展示了本文在空间偏好偏差上的改进效果。（b）类别偏好偏差。（左）本文从PASCAL Context数据集中随机选取6个类别，分别绘制了CLIP模型与本文模型的混淆矩阵。结果表明除真实标签外，CLIP在多数情况下倾向于为像素分配错误但相关的类别标签，而本文的方法显示出显著改进。（右）可视化结果与混淆矩阵的观察结论一致，例如对于"牛"这类物体，CLIP会错误地将其分类为"狗"。

具体方法总结

本文提出通过显式建模与校正CLIP的偏差来提升弱监督语义分割性能。具体实现包括：

1）为每个类别设计可学习的"参考"提示词和手动设计的"查询"文本，分别生成反映类别偏好偏差的参考对数几率和代表原始分割能力的查询对数几率；

2）将CLIP视觉Transformer的位置嵌入投影为空间偏好偏差表示；

3）采用对数几率减法机制，从查询对数几率中减去参考和位置对数几率以消除偏差；

4）基于校正后的对数几率，通过Gumbel-Softmax生成分割掩码，并构建掩码视觉特征与文本特征的对比损失。

进一步通过掩码引导、特征引导和文本引导的三重蒸馏策略，将校正后的CLIP知识迁移至先进分割架构。

主要贡献包括：

① 首次揭示 CLIP 在像素级任务中存在空间 / 类别偏好偏差；

② 提出通过可学习参考提示和位置嵌入投影的显式偏差建模方法；

③ 设计基于对数减法和掩码对比的偏差校正机制。

④ 无监督环境下的实验结果表明，本方法显著优于现有最优技术。

二整体模型架构

图2展示了本文提出的语言引导无监督语义分割新方法框架。该方法包含两个核心阶段：(a)校正阶段：通过设计可学习的"参考"提示词编码类别偏好偏差，并将视觉Transformer位置嵌入投影为空间偏好偏差表示，采用对数几率减法机制对CLIP的两种偏差进行联合校正；(b)蒸馏阶段：通过掩码引导损失、特征引导损失和文本引导损失三项联合优化目标，将校正后CLIP的知识蒸馏至先进分割架构中，其中掩码引导损失确保分割结果的结构一致性，特征引导损失保持视觉特征的判别性，文本引导损失维护视觉-语言对齐关系。整个框架实现了从偏差建模到知识迁移的端到端优化，在保持CLIP原始语义理解能力的同时显著提升了像素级分割精度。

直接使用CLIP作为语义分割模型

学习类别偏好

学习空间偏好

通过对比学习损失校正偏差

Gumbel-Softmax公式

论文链接：https://arxiv.org/pdf/1611.01144v5.pdf

参考代码：https://github.com/AntixK/PyTorch-VAE/blob/master/models/cat_vae.py

Gumbel-Softmax 分布是一种用于生成离散型变量的概率分布。它是由两个部分组成：Gumbel 分布和 Softmax 函数。

参考链接：https://blog.youkuaiyun.com/weixin_43808402/article/details/139803974