（《机器学习》完整版系列）第13章半监督学习——13.2 半监督SVM（SVM的进化路线）

原创已于 2023-03-31 11:00:26 修改 · 975 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#支持向量机 #学习 #机器学习 #人工智能 #算法

于 2023-03-19 08:32:29 首次发布

《机器学习》同时被 2 个专栏收录

173 篇文章

订阅专栏

周志华【西瓜书】辅导

143 篇文章

订阅专栏

文章详细介绍了TSVM（TransductiveSupportVectorMachine）算法的进化过程，从SVM的基本型到软间隔SVM，再到S3VM和TSVM。TSVM的核心是通过迭代调整惩罚因子C，并在外围增加一个搜索机制，以优化对未标记数据的预测。在每个迭代步骤中，TSVM会根据预测误差调整惩罚因子，逐步提高未标记数据的影响。文章还探讨了如何处理类别不平衡问题，并提出了相应的修订策略。

沿着SVM的进化路线，不断改进SVM算法。
TSVM算法的思路是在SVM的外面套了一个搜寻 $\hat{y}$ ，有意思的是它将惩罚因子也作为迭代的调整参数。
本文从编程优化的角度讨论了TSVM 算法的来龙去脉，并给出了伪代码。

半监督SVM

我们先看看【西瓜书式】第6章中，SVM的进化路线：最大化间隔【西瓜书式(6.5)】 $\longrightarrow$ 最小化 $||\boldsymbol{w }||^2$ 【西瓜书式(6.6)】（即SVM基本型） $\longrightarrow$ 放开硬控制，不满足约束的样本尽可能少【西瓜书式(6.29)】 $\longrightarrow$ 软间隔支持向量机【西瓜书式(6.35)】.

进一步地：若改为分隔线穿过数据的低密度区，则为S3VM【西瓜书图13.3】；若对 $D_u$ 打上预测标记 $\hat{y}$ ，则可用 $\hat{y}$ 来监督SVM，由此可将【西瓜书式(6.35)】推广到【西瓜书式(13.9)】（将 $C\sum$ 改为 $C_l\sum_l+ C_u\sum_u$ ）即TSVM。

TSVM算法的思路是在SVM的外面套了一个搜寻 $\hat{y}$ ，有意思的是它将惩罚因子也作为迭代的调整参数。

TSVM的直接逻辑（如图13.1所示）：
图13.1 TSVM原理

图13.1 TSVM原理

（1）初始化：用 $D_l$ 训练一个 $\mathrm{SVM}_l$ ，用 $\mathrm{SVM}_l$ 对 $D_u$ 中样本进行预测，得 $\{\hat{y}_i\}_{i=l+1}^{l+u}$ ，初始化两惩罚因子 $C_u \ll C_l$ 。

（2）循环调整：

（2.1）基于 $D_l,D_u,\{\hat{y}_i\}_{i=l+1}^{l+u},C_l,C_u$ ，求解【西瓜书式(13.9)】（求解方法见【西瓜书式(6.35)】），得到新的SVM；

（2.2）用新的 $\mathrm{SVM}_l$ 重新预测 $D_u$ 中的样本，更新 $\{\hat{y}_i\}_{i=l+1}^{l+u}$ ；

（2.3）调大 $C_u$ ，即 $D_u$ 的作用越来越大；

（2.4）未到结束条件时，返回（2.1）。

然而，（2.2）步重新预测 $\hat{y}_i$ 可以改为：根据原 $\hat{y}_i$ 与 $\xi$ 间的不协调性，调整出新的 $\hat{y}_i$ （如图13.2 所示）：
图13.2 TSVM

图13.2 TSVM

我们回到【西瓜书式(6.41)】下面的讨论：“ $\cdots$ 若 $\alpha _i=C$ ，则有 $\mu _i=0$ ，此时，若 $\xi _i\leqslant 1$ 则 $\cdots$ ，若 $\xi _i> 1$ 则该样本被错误分类”，即：当 $\xi _i> 1$ 则对该样本的预测可能错误（在前述“该样本被错误分类”的肯定结论中，去掉了部分前提条件，则结论改为“可能”）。

将该结论应用于（2.2）步：当 $\xi _i> 1$ 时，认为 $\hat{y}_i$ 可能错误，调整： $\hat{y}_i:=-\hat{y}_i$ ，调整后，再训练，再调整 $\cdots$ ，即

（2.2）的修订

当然，细节上还应该考虑避免死循环（后续也一样）。

然而，上述对（2.2）的修订破坏了初始化时得到的 $D_u$ 伪标记 $\{\hat{y}_i\}_{i=l+1}^{l+u}$ 中正反例的比例。由于初始化 $D_u$ 伪标记是由有监督学习基于 $D_l$ 训练 $\mathrm{SVM}_l$ 来预测得到的，虽然对个体的预测可能不准确，但认为总体上正、反例的比例正确。为了不破坏这个比例关系，应在 $D_u^+$ 与 $D_u^-$ 之间，配对反号：即一个由正改负，另一个由负改正，式子表示为： $\hat{y}_i:=-\hat{y}_i ;\ \hat{y}_j:=-\hat{y}_j(\hat{y}_i\hat{y}_j<0)$ 。

（2.2）的再修订

（2.2）定稿

进一步地，有人研究认为：将范围 $(\xi _i>1)\wedge (\xi _j>1)$ 稍扩大为 $(\xi _i>0)\wedge (\xi _j>0)\wedge (\xi _i+\xi _j>2)$ 更好。由此得到TSVM算法【西瓜书图(13.4)】的第6至10行。即

我们以罚参 $C_u$ 作为停机的控制条件：

第3句：初始化 $C_u \ll C_l$ ；
第4句：判断是否停机（ $C_u>C_l$ 停机）；
第11句：调整参数（ $C_u:=\min(2C_u,C_l)$ ）。

为解决类别不平衡问题（如，正例远小于反例），修订【西瓜书式(13.9)】，将 $D_u$ 的处罚项分拆为两项

$\begin{align} C_u\sum_{i=l+1}^m\xi _i=C_u^+\sum_{(\boldsymbol{x}_i\in D_u)\wedge(\hat{y}_i=+1)}\xi _i+C_u^-\sum_{(\boldsymbol{x}_i\in D_u)\wedge(\hat{y}_i=-1)}\xi _i \tag{13.37} \end{align}$
我们修订罚参 $C_u$ 的控制条件：

第3句：初始化（ $C_u^- \ll C_l;\,C_u^+=\frac{u_-}{u_+}C_u^-$ ），其中， $u_+$ 与 $u_-$ 为对第2句预测结果的统计。
第4句：判断是否停机（ $(C_u^+>C_l)\wedge(C_u^->C_l)$ 停机）。
第11句：调整参数（ $C_u^+:=\min(2C_u^+,C_l);\,C_u^-:=\min(2C_u^-,C_l)$ ）。