基础
少量标注,无大量标注
三个假设:
连续性,平滑性假设:
连续性假设认为,数据点在特征空间中如果彼此靠近(即在高维空间中的距离较小),那么它们的标签(或类别)也应该相似或相同。换句话说,数据的分布具有局部一致性,靠近的数据点倾向于属于同一类或具有相似的语义。
平滑性假设是连续性假设的扩展,认为模型的决策边界(或预测函数)在数据分布的高密度区域应该是平滑的,避免剧烈的变化。换句话说,模型的输出应该在数据点密集的区域保持稳定,而不是在高密度区域内频繁切换类别。
集群假设:
流形假设:
工作原理
半监督分割的核心在于设计算法以有效利用未标注数据。常见策略包括:
伪标签(Pseudo-Labeling):
为未标注数据生成预测标签(伪标签),并将其加入训练集。伪标签的质量对模型性能至关重要。
一致性正则化(Consistency Regularization):
通过对未标注数据施加扰动(如数据增强、噪声),要求模型对不同扰动版本的输出保持一致。
1. 一致性正则化概述
定义: 一致性正则化是一种半监督学习技术,通过要求模型对未标注数据的不同扰动版本(例如数据增强、噪声、模型扰动)产生一致的预测输出,挖掘未标注数据的潜在信息。其核心思想是基于平滑性假设,即模型的预测函数在数据高密度区域应保持平滑,靠近的数据点应具有相似的预测结果。
在半监督分割中的意义:
-
半监督分割任务中,标注数据稀疏(例如仅10%的图像有像素级标注),而未标注数据丰富。一致性正则化通过约束未标注数据的预测一致性,将标注数据的知识推广到未标注数据。
-
它特别适合图像分割任务,因为分割需要像素级预测,一致性正则化可确保分割边界平滑且语义一致。
与平滑性假设的关系: 一致性正则化直接体现了平滑性假设,通过强制模型对扰动数据的预测保持一致,约束决策边界在高密度区域的平滑性,防止突变或碎片化预测。
2. 工作原理
一致性正则化的核心是设计损失函数,鼓励模型对未标注数据的不同版本输出相似的预测。其工作流程如下:
- 输入未标注数据:从未标注数据集
中采样数据 ( x )。 - 施加扰动:对 ( x ) 应用扰动,生成变体
,扰动方式包括:
-
数据增强(旋转、翻转、颜色抖动等)。
-
噪声注入(如高斯噪声)。
-
模型扰动(例如Dropout或不同模型参数)。
-
- 一致性约束:要求模型对
和
的预测 ( f(x) ) 和
尽可能接近。
- 优化目标:通过一致性损失
正则化模型,结合监督损失

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



