半监督学习解析

最新推荐文章于 2025-05-05 21:56:07 发布

原创最新推荐文章于 2025-05-05 21:56:07 发布 · 538 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#半监督 #semi-supervised

算法解析专栏收录该内容

7 篇文章

订阅专栏

本文介绍半监督学习的基本概念，探讨了自学习方法、生成式方法、直推式支持向量机及半监督聚类等典型算法，并分析了各自的适用场景与特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 简介

1.0 问题提出

当训练样本部分信息缺失,特别是样本数据的类别标记缺失的情况下,如何获取具有良好性能和泛化能力的学习器,及利用大量未标记的样本来辅助标记样本建立一个更好的学习器.

1.2 数学描述

给定一个来自某未知分布的样本集 $S=D_l\bigcup D_u$ ,其中,
$D_l$ 是已标注的样本集:
$D_l=\begin{Bmatrix}(x_1, y_1), (x_2, y_2), …, (x_{i,i\in D_l}, y_{i,i\in D_l})\end{Bmatrix}$
$D_u$ 是未标注的样本集:
$D_u=\begin{Bmatrix}x_1^{’},x_2^{’}, …, x_{i,i\in D_u}^{’}\end{Bmatrix}$

1.3 目的

在样本集 $S=D_l\bigcup D_u$ 上寻找最优的学习器,即寻找函数 $f:X\mapsto Y$ ,可以准确的对样本 $x$ 预测器标记 $y$ .该函数可能是参数化的:如最大似然法,也可能是非参数化的:如最邻近法,神经网络法,支持向量机法等;也可能是非数值的,如决策树分类等.

2 方法假设

2.1 聚类假设

核心:数据存在簇结构,同一簇的样本属于同一类别;
处在相同聚类中的样本有较大的可能具有相同的标记;
根据聚类假设,决策边界就应该尽量通过数据较稀疏的地带,从而避免把稠密聚类中的数据分到决策边界两侧;
在聚类假设下,大量未标记的样本作用就是帮助探明样本空间中数据分布的稠密和稀疏区域,从而指导学习算法对已有标记样本的学习到的决策边界进行调整,使其尽量通过数据分布稀疏的区域;

在这里插入图片描述

图2.1 训练过程

在这里插入图片描述

图2.2 未标记数据指导决策边界调整

2.2 流形假设

核心:数据分布在一个流形结构上,邻近样本具有相似的输出值;
流形假设:处于一个很小的局部区域内的示例具有相似的性质,因此标记也应相似;
和聚类假设着眼于整体特性不同,流形假设主要考虑模型的局部特性,反映了决策函数的局部平滑性;
流形假设下,大量未标记的数据作用是让数据空间变得更加稠密,从而有助于更加准确地刻画局部区域的特性,使决策函数更好进行数据拟合;

在这里插入图片描述

图2.1 标记数据训练决策边界

在这里插入图片描述

图2.2 未标注数据使决策边界平滑

3 半监督算法

3.1 自学习方法

核心
分类器递归拟合时,每次递归仅仅将满足设定置信度阈值(置信度搞得样本)纳入已标记样本中,参与递归拟合.
算法

用已标记的样本训练得到一个初始分类器;
用初始分类器对未标记样本进行分类,将标记置信度高的未标记样本进行标记;
对所有样本进行重新训练,直到将所有未标记样本都标记为止;

最近邻自学习算法

(1) 用已标记的样本 $D_l$ 生成分类器 $f$ ;
(2) 选择 $d(x,x_0),x\in D_u, x_0\in D_l$ ,选择离已标注样本最近的无标记样本;
(3) 用 $f$ 给 $x$ 确定一个类别 $f (x)$ ,并将 $(x, f (x))$ 加入 $D_l$ 中;
(4) 重复上述步骤,直到 $D_u$ 为空集,其中 $d(x_1, x_2)$ 为两个样本的欧式距离;

3.2 生成式方法

核心
以生成式模型为分类器,将未标记样本标记,属于每个类别的概率视为一组缺失参数,采用EM算法来进行标记估计和模型参数估计.
方法
直接基于生成式模型的一类方法
假设
所有数据,无论是否标记,都是由一个潜在的模型生成的参数化概率密度估计;

样本由高斯混合模型生成,且每个类别对应一个高斯混合成分,则样本的概率密度为:
$p(x)=\sum_{i=1}^{k}\alpha_i p(x\mid \mu_i, \sum_i)\tag{1}$
其中, $i$ 为样本类别, $k$ 为标记类别数, $j$ 为样本量,及高斯混合成分系数:
$\alpha_i\geq 0,\sum_{i=1}^{k}\alpha_i=1\tag{2}$ $p(x\mid \mu_i, \sum_i)=\frac{1}{(2\pi^{\frac{n}{2}})\mid \sum_i \mid^{\frac{1}{2}}}e^{-\frac{1}{2}(x-\mu_i)^T\sum_i^{-1}(x-\mu_i)}\tag{3}$

令 $f (x)$ 表示模型 $f$ 对样本 $x$ 的预测标记, $\Theta$ 表示样本 $x$ 隶属的高斯混合成分,由最大后验概率知:
$f(x)=max_{j\in y}p(y=j\mid x)\\ =max_{j\in y}\sum_{i=1}^{k}p(y=j,\Theta=i\mid x)\\ =max_{j\in y}\frac{\sum_{i=1}^{k}p(y=j,\Theta=i,x)}{p(x)}\\ =max_{j\in y}\frac{\sum_{i=1}^{k}p(y=j\mid \Theta=i,x)p(\Theta=i,x)}{p(x)}\\ =max_{j\in y}\frac{\sum_{i=1}^{k}p(y=j\mid \Theta=i,x)p(\Theta=i\mid x)p(x)}{p(x)}\\ =max_{j\in y}\sum_{i=1}^{k}p(y=j\mid \Theta=i,x)p(\Theta=i\mid x)\tag{4}$

其中,
$p(\Theta=i\mid x)=\frac{p(x,\Theta=i)}{p(x)}\\ =\frac{\alpha_ip(x\mid \mu_i,\sum_i)}{\sum_{i=1}^{k}\alpha_ip(x\mid \mu_i,\sum_i)}\tag{5}$
假设样本独立同分布且由一个高斯混合模型生成,可用极大似然法估计模型参数{ $(\alpha_i,\mu_i,\sum_i),1\leq i\leq k$ }
目标函数(标记) $f (x)$ 的对数似然函数:
$\ln p(D_l\bigcup D_u)=\sum_{(x_j,y_j)\in D_l}\ln (\sum_{i=1}^{k}\alpha_ip(y=j\mid \Theta=i,x)p(\Theta=i\mid x))+\sum_{i=1}^{k}\alpha_ip(y=j\mid \Theta=i,x)\tag{6}$
其中,
已标记样本集: $D_l=$ { $(x_1,y_1), (x_2, y_2),...,(x_{i,i\in D_l},y_{i,i\in D_l})$ };
未标记样本集: $D_u=$ { $x_1^{'}, x_2^{'},...,x_{i,i\in D_u}^{'}$ }
其中, $j$ 为样本量, $i$ 为样本类别.

EM方法

E步:根据当前模型参数计算未标记样本 $x_j$ 属于各高斯混合成分的概率 $r_{ji}$
$\gamma_{ji}=\frac{\alpha_ip(x\mid \mu_i,\sum_i)}{\sum_{i=1}^{k}\alpha_ip(x\mid \mu_i,\sum_i)}\tag{7}$
M步:基于 $\gamma_{ji}$ 更新模型参数:
$\mu_i=\frac{1}{\sum_{x_j\in D_u}\gamma_{ji}+l_i}(\sum_{x_j\in D_u}\gamma_{ji}x_j+\sum_{(x_i,y_i)\in D_l\bigwedge y_i=i}x_j)\tag{8}$
$\sum_i=\frac{1}{\sum_{x_j\in D_u}\gamma_{ji}+l_i}(\sum_{x_j\in D_u}\gamma_{ji}(x_j-\mu_i)(x_j-\mu_i)^T+\sum_{(x_i,y_i)\in D_l\bigwedge y_i=i}(x_j-\mu_i)(x_j-\mu_i)^T)\tag{9}$
$\alpha_i=\frac{1}{m}(\sum_{x_j\in D_u}\gamma_{ji}+l_i)\tag{10}$
其中, $l_i$ 表示第 $i$ 类的有标记样本数目.
E,M不断迭代直至收敛,即可获得模型参数{ $(\alpha_i,\mu_i,\sum_i), 1\leq i \leq k$ }

3.3 直推式支持向量机

半监督SVM(semi-supervised SVM,S3VM)是标准SVM算法在未标记样本上的一种推广,其中直推式支持向量机(Transductive SVM)是最典型的算法.

3.3.1 TSVM基本思想:

针对二分类问题,同时利用标记和未标记样本,通过尝试将每个未标记样本分别作为正例和反例来寻找最优分类边界,以期获取原始数据中两类样本的最大分类间隔.

3.3.2 TSVM条件(KKT)

$\begin{cases}min_{w,b,\hat{y},\xi}\frac{1}{2}\mid \mid w \mid \mid_{2}^{2}+C_l\sum_{i=1}^l\xi_i+C_u\sum_{i=l+1}^m\xi_i\\ s.t.:y_i(w^Tx_i+b)\geq 1-\xi_i,i=1,2,…,l\\ \hat y_i(w^Tx_i+b)\geq 1-\xi_i,i=l+1,l+2,…,m\\ \xi_i\geq 0,i=1,2, …, m\end{cases}\tag{11}$
其中, $C_l$ 和 $C_u$ 分别表示已标记样本和未标记样本的惩罚因子,用于调整不同样本的权重, $\xi$ 为松弛变量,用于调整对错分样本的容忍程度.
尝试未标记样本的各种标记指派是一个穷举遍历过程,未标记样本数太大时不能直接求解,TSVM采用局部搜索迭代求解近似,通过在局部搜索和调整指派为异类且可能错误的标记指派,使目标函数值不断下降:

局部搜索: $x_i$ , $x_j$
异类: $y_iy_j<0$
可能错误: $\xi_i+\xi_j>2$
调整:互换标记

3.3.3 TSVM算法:

输入:有标记样本集: $D_l={(x_1,y_1),(x_2, y_2), …, (x_l, y_l)}$
未标记样本集 $D_u={x_{l+1}, x_{l+2}, …, x_{l+u}}$
折中参数: $C_l,C_u$
过程:

(1) 使用 $D_l$ 训练一个 $SVM_l$ ;
(2) 使用 $SVM_l$ 对 $D_u$ 中的样本进行预测,得到 $\hat y=(\hat y_{l+1},\hat y_{l+2},…,\hat y_{l+u})$ ;
(3) 初始化 $C_u<<C_l$ ;
(4) while $C_u<C_l$ do
(5) 基于 $D_l,D_u,\hat y,C_l,C_u$ 求解式()得到 $w,b,\xi$
(6) while $\exists \begin{Bmatrix}i,j\mid (\hat y_i \hat y_j <0)\bigwedge (\xi_i>0)\bigwedge (\xi_j>0)\bigwedge (\xi_i+\xi_j>2)\end{Bmatrix}$ do
(7) $\hat y_i=-\hat y_i$
(8) $\hat y_i=-\hat y_i$
(9) 基于 $D_l,D_u,\hat y,C_l,C_u$ 求解式(11)得到 $w,b,\xi$
(10)end while
(11) $C_u=min$ { $2C_u,C_l$ }
(12) end while
输出:未标记样本的预测结果: $\hat y=(\hat y_{l+1},\hat y_{l+2},…,\hat y_{l+u})$

3.3.4 应用

搜寻标记指派出错的每一对未标记样本并进行调整,是一个复杂的大规模优化问题.
应用于:高效优化求解算法,如基于图和梯度下降的LDS算法;基于标记均值估计的MeanS3VM.

3.4 半监督聚类

3.4.1 基本思想

“物以类聚,人以群分”,将数据样本根据其属性聚集几类(如K-means),或给出一个样本属于每一类的概率(如高斯混合聚类);

同一个簇中的对象具有相似的属性,不同簇中的对象具有不同的属性;
无需事先根据已标注数据训练聚类器,因此半监督聚类是一种典型的无监督学习任务;
K-means聚类
给定 $D$ 维空间上的数据集{ $x_1, x_2, …, x_N$ },并不知道这些数据集对应的类型和标号,通过聚类方法将这些数据集分成K类;
对于K个聚类中的每一类,分别建立一个代表点 $\mu_k$ ,将每个样本归到离该点最近的类中;
目标:最小化准则函数 $J=\sum_{n=1}^N\sum_{k=1}^Kr_{nk}\mid \mid x_n-\mu_k\mid \mid^2$

3.4.2 实际聚类任务

除大量未标记的样本数据外,可同时获取数据集的标记信息

3.4.2.1 第一类:必连和勿连约束

必连指样本必属于同一个簇,勿连指样本必不属于同一个簇.
在这里插入图片描述

图3.1 必连勿连示意图

约束K均值算法(Constrained K-means Algorithm)
该算法是K-means的扩展,在聚类过程中,确保"必连"关系集合和"勿连"关系集合中的约束得以满足,否则返回错误提示.
过程
输入:样本数据
$D=\begin{Bmatrix}cor_1, cor_2, ..., cor_m,其中cor_i=(x_i, y_i)\end{Bmatrix}$
必连约束: $M$
勿连约束: $C$
聚类簇数: $k$

(1) 初始化:从 $D$ 中随机选取 $k$ 个样本作为初始均值向量 $\begin{Bmatrix}\mu_1, \mu_2, ..., \mu_k\end{Bmatrix}$ ;
(2)迭代
(3) $C_j=\emptyset (1\leq j \leq k)$ ;
(4) for i = 1,2,…, m do
(5)计算样本 $cor_i$ 与各均值向量 $\mu_j(1\leq j\leq k)$ 的距离 $d_{ij}=\mid\mid cor_i-\mu_j\mid\mid_2=\sqrt{(x_i-x_j)^2+(y_i-y_j)^2}$ ;
(6) $K=\begin{Bmatrix}1, 2, ..., k\end{Bmatrix}$ ;
(7)is_merged=False;
(8)while $d a t a$ is_merged do
(9)基于 $K$ 找出与样本 $cor_i$ 距离最近的簇: $r=min_{j\in K}d_{ij}$ ;
(10)检测将 $cor_i$ 划入聚类簇 $C_r$ 是否违背 $M$ 和 $C$ 中的约束;
(11)如果违反
(12)数据归为原始数据集 $C_r=C_r\bigcup \begin{Bmatrix}cor_i\end{Bmatrix}$
(13)is_merged=True;
(14)如果不违背
(15)从 $K$ 中提取数据,划入到对应簇中, $\ { r } K=K\backslash \begin{Bmatrix}r\end{Bmatrix}$ ;
(16)判断此时 $K$ 是否为空
(17)若为空,则退出循环,并返回错误提示
(18)结束if
(19)结束if
(20)结束while
(21)结束for
(22)更新均值:for j=1, 2, …, k do
(23) $\mu_j=\frac{1}{\mid C_j\mid}\sum_{cor\in C_j}cor$
(24)结束for
(25)直到均值向量停止改变

输出:簇划分 $\begin{Bmatrix}C1, C2, ..., Ck\end{Bmatrix}$

3.4.2.2 第二类:少量标记样本

半监督聚类:
利用少量有标记数据的监督信息获取更好的监督效果.

图3.2 少量标记数据

约束种子K均值
核心:将标记信息作为种子,即初始的K个聚类中心,并在聚类簇迭代更新过程中,不改变种子样本簇的簇隶属关系.
过程
输入
$D=\begin{Bmatrix}cor_1, cor_2, ..., cor_m,其中cor_i=(x_i, y_i)\end{Bmatrix}$
少量有标记样本: $S=\bigcup_{j=1}^kS_j$
聚类簇数: $k$

(1)计算簇均值for j=1,2, …, k do
(2) $\mu_j=\frac{1}{\mid S_j\mid}\sum_{cor\in S_j}cor$
(3)end for
(4)迭代
(5) $KaTeX parse error: Expected 'EOF', got '\leg' at position 23: …ptyset (1\leq j\̲l̲e̲g̲ ̲k)$
(6)for j=1, 2, …, k do
(7)标记簇划分到新建簇(取并集)for all $cor\in S_j$ do
(8) $C_j=C_j\bigcup \begin{Bmatrix}cor\end{Bmatrix}$
(9)end for
(10)end for
(11)未标记数据划分计算for all $\ S cor_i\in D\backslash S$ do
(12)计算样本 $cor_i$ 与个均值向量 $\mu_j(1\leq j \leq k)$ 的距离: $d_{ij}=\mid\mid cor_i-\mu_j\mid\mid_2$
(13)找出与样本 $cor_i$ 距离最近的簇: $r=min_{j\in \begin{Bmatrix}1,2, …, k\end{Bmatrix}}d_{ij}$
(14)将样本 $cor_i$ 划入相应的簇: $C_r=C_r\bigcup \begin{Bmatrix}cor_i\end{Bmatrix}$
(15)end for
(16)更新均值:for j=1,2, …,k do
(17) $\mu_j=\frac{1}{\mid C_j\mid}\sum_{cor\in C_j}cor$
(18)end for
(19)直到均值向量停止跟新

输出:簇划分 $\begin{Bmatrix}C1, C2, ..., Ck\end{Bmatrix}$

4 小结

(1) 自学习方法,即利用聚类思想,以欧式距离作为度量,将未标记数据聚集在分类点周围;
(2) 生成式模型,上述高斯混合模型换成混合专家模型,朴素贝叶斯模型等即可得出其他生成式半监督学习算法,此类方法简单,易于实现,在有标记数极少的情况下往往比其他方法性能更好但是,此类方法有一个关键点:模型假设必须正确,即假设的生成式模型必须与真实数据分布吻合,否则利用未标注数据反而会显著降低泛化性能.
(3) 直推式支持向量机,是支持向量机的软间隔应用版,通过设置松弛因子,及数据比重,实现对数据的分类;
(4) 半监督聚类,是基于K-means的应用,通过迭代距离,将数据归类,同时数据满足对应的约束即可.

更新ing

【参考文献】
[1]https://wenku.baidu.com/view/ba63bc677dd184254b35eefdc8d376eeaeaa178f?pn=51
[2]机器学习，周志华版