（《机器学习》完整版系列）第13章半监督学习——13.3 标记传播算法（亲和矩阵、伪概率标记矩阵、能量函数）

原创已于 2023-03-31 10:58:36 修改 · 968 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #学习 #矩阵 #机器学习 #人工智能

于 2023-03-19 09:19:37 首次发布

《机器学习》同时被 2 个专栏收录

173 篇文章

订阅专栏

周志华【西瓜书】辅导

143 篇文章

订阅专栏

文章详细介绍了标记传播算法在图半监督学习中的应用，包括构建全连接图，定义亲和矩阵，能量函数的构建以及优化过程。通过迭代式更新概率标记矩阵，最终得到未标记样本的预测分类。算法适用于二分类和多分类问题，通过引入‘真实’标记矩阵、概率标记矩阵和伪概率标记矩阵，并通过迭代公式进行预测。

标记传播算法是图半监督学习，对图定义一个亲和矩阵，借用物理学中的概念，定义能量函数，对样本集 $D_u$ 进行“批量”预测：最优值在能量最小处。
作标记矩阵：“真实”标记矩阵——>概率标记矩阵——>伪概率标记矩阵
再基于伪概率标记矩阵作迭代式。

标记传播算法

将样本抽象为点，则可构建图 $G=(V,\,E)$ ，任意两点 $\boldsymbol{x}_i,\boldsymbol{x}_j$ 均有一条边连接，边上的权重由高斯函数定义【西瓜书式(13.11)】，反映两样本（两点）的相似度（亲和度），图中与 $\boldsymbol{x}_i$ 相连的部分构成子图 $G_i$ ，由此定义一个亲和矩阵 $\mathbf{W}$ ，矩阵中元素记为 $(\mathbf{W})_{ij}=w_{ij}$ 。与 $\boldsymbol{x}_i$ 有连接的子图中用式(13.38)第1式（含 $w_{ii}=1$ ），否则用第2式（即为0））。
$\begin{align} w_{ij}= \begin{cases} \, \exp \left(\frac{-||\boldsymbol{x}_i-\boldsymbol{x}_j||_2^2}{2\sigma ^2}\right), & \quad \text{当$\boldsymbol{x}_j\in G_i$} \\ \, 0, & \quad \text{其他情况} \end{cases} \tag{13.38} \end{align}$
显然，亲和度 $w_{ij}\in [0,1]$ 。

对于二分类问题，通常是先获得预测值 $f(\boldsymbol{x})$ ，再根据其符号进行分类，即 $\hat{y}=\mathrm{sgn}(f(\boldsymbol{x}))$ 。

由亲和度定义知，当 $\boldsymbol{x}_i$ 与 $\boldsymbol{x}_j$ 相似度高时，则亲和度 $w_{ij}$ 大，好的预测 $f$ 应使其差异度小（即 $|f(\boldsymbol{x}_i)-f(\boldsymbol{x}_j)|$ 小），反之亦然。

因而可以认为
$\begin{align} w_{ij}(f(\boldsymbol{x}_i)-f(\boldsymbol{x}_j))^2 \tag{13.39} \end{align}$
具有某种平衡（相互转化），即具有物理学中能量的特性。理解：如 $\ (a>0,b>0)$ ，若 $a$ 变大，则 $b$ 变小，它俩具有“守恒”关系，类似于能量守恒：此消彼长。

将图 $G$ 中所有的式(13.39)累加起来，借用物理学中的概念，称它为能量函数（对于二次型通常配上 $\frac{1}{2}$ ，是为了求导后没有系数）。
$\begin{align} E[f] & =\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m(w_{ij}(f(\boldsymbol{x}_i)-f(\boldsymbol{x}_j))^2 \tag{13.40} \end{align}$

引入矩阵记号，则得【西瓜书式(13.12)】，即
$\begin{align} E[f] & =\boldsymbol{f}^\mathrm{T}(\mathbf{D}-\mathbf{W})\boldsymbol{f} \tag{13.41} \end{align}$

设图 $G=(V,\,E)$ 是基于 $D=D_l\cup D_u$ 构建的，将向量 $\boldsymbol{f}$ 及矩阵 $\mathbf{D},\mathbf{W}$ 按 $D=D_l\cup D_u$ 分解，则有【西瓜书式(13.13)】。

已知 $\boldsymbol{f}_l=(y_1;y_2;\cdots;y_l)$ ，求 $\boldsymbol{f}_u$ ，即对样本集 $D_u$ 进行“批量”预测：
最优值在能量最小处，即 $\frac{\partial E[f]}{\partial \boldsymbol{f}_u}=\boldsymbol{0}$ ，则可得到【西瓜书p.302】的矩阵推导，从而得到对未标记样本的预测 $\boldsymbol{f}_u$ ，即【西瓜书式(13.17)】。这就是标记传播算法：

（i）基于 $D=D_l\cup D_u$ 可构建一个图 $G=(V,\,E)$ ，这个图是全连接的，即每对样本 $(\boldsymbol{x}_i,\boldsymbol{x}_j)$ 均有一条边；

（ii）由于样本属性已知，故可从样本的相似度计算出边的权重（【西瓜书式(13.11)】），从而得到图的亲和矩阵；

（iii）构造预测函数 $f$ 在图上的能量函数 $E [f]$ ，并用矩阵表示（【西瓜书式(13.12)】）；

（iv）以最小化能量函数为目标：已知 $\boldsymbol{f}_l=(y_1;y_2;\cdots;y_l)$ ，而 $\boldsymbol{f}_u$ 满足 $\frac{\partial E[f]}{\partial \boldsymbol{f}_u}=\boldsymbol{0}$ ；

（v）得到【西瓜书式(13.17)】，由其计算出 $\boldsymbol{f}_u$ 实现 $D_u$ 的分类。

下面将上述方法推广到多分类（ $n=|\mathcal{Y} |$ ）：

（1）作标记矩阵

（i）“真实”标记矩阵 $\mathbf{Y}$

其中，表13.1 的表头为类别（以类别编号代表），左侧为 $D$ 的样本排列，其编号次序为先 $D_l$ 再 $D_u$ ，表体即为标记矩阵 $\mathbf{Y}$ ，该矩阵被虚线分为两部分：上半部分对应于 $D_l$ ，下半部分对应于 $D_u$ 。

与表13.1 对应的“真实”标记矩阵 $\mathbf{Y}$ 之所以打上引号，是因为：上半部分对应于 $D_l$ 的真实标记，每行为“独1向量”：表示该行样本的分类结果 $c(\boldsymbol{x}_i)=j$ （1所在的列为类别 $j$ ），而下半部分对应于 $D_u$ ，设它全为0，这并不真实。若以样本 $\boldsymbol{x}_i$ 所在的行的最大值对应的列 $j$ ，作为该样本的类别预测值，显然，对 $D_l$ 中的样本，预测的正确率为100%，而对 $D_u$ 中的样本它随机给定类别（由于整行是等值0），故它只是真实反映了已标记样本的分类情况，而对未标记样本起不了分类作用。

（ii）概率标记矩阵 $\mathbf{P}$

表13.2 只是将表13.1 中的元素（常数0或1）换成了概率 $P$ ，即该矩阵第 $i$ 行、第 $j$ 列的元素为 $P_{ij}=P(y_i=j\,|\,\boldsymbol{x}_i)$ ，基于该矩阵的类别预测函数为： $j^*=\mathop{\arg\max}\limits_jP(y_i=j\,|\,\boldsymbol{x}_i)$ 。

当最大值多个时，则最优为随机地取其一，下同。

（iii）伪概率标记矩阵 $\mathbf{F}$

所谓“伪概率”，即是性质类似于概率，但不满足“和为1”，当然，通过“概率化”可以实现满足“和为1”。

记该矩阵第 $i$ 行、第 $j$ 列的元素为 $f_i^j$ ，则基于该矩阵的类别预测函数为： $j^*=\mathop{\arg\max}\limits_jf_i^j$ 。

（2）迭代式

“真实”标记矩阵 $\mathbf{Y}$ 是个常数矩阵，我们不去讨论，假定当前的概率标记矩阵为 $\mathbf{P}^{\,t}$ ，我们寻找更好的 $\mathbf{P}^{\,t+1}$ 。

我们先看一个生活中的问题：“你不认识他，如何判断他的观点？”，通常可以以其朋友们的喜好来判断他的观点，越是要好的朋友越是观点相同。我们也可依该方法考察样本 $\boldsymbol{x}_i$ 属于 $k$ 类的概率 $P(y_i=k\,|\,\boldsymbol{x}_i)$ ， $\boldsymbol{x}_i$ 的朋友圈为 $G_i$ ，在图 $G=(V,\,E)$ 的亲和矩阵中， $w_{ij}$ 视为 $\boldsymbol{x}_j$ 与 $\boldsymbol{x}_i$ 的关系权重（朋友间的亲疏程度），在到达 $t + 1$ 时刻，已知 $\boldsymbol{x}_i$ 的朋友圈 $G_i$ 中的每个 $\boldsymbol{x}_j$ 的“观点”（ $\boldsymbol{x}_j$ 属于 $k$ 类的概率 $P^{\,t}(y_j=k\,|\,\boldsymbol{x}_j)$ （含 $j = i$ ）），并且朋友间的亲疏程度 $w_{ij}$ 保持不变，则可由该方法调整对 $\boldsymbol{x}_i$ 的“认识”（修正上次的“认识”）： $\boldsymbol{x}_i$ 属于 $k$ 类的概率为
$\begin{align} P^{\,t+1}(y_i=k\,|\,\boldsymbol{x}_i) & =\sum_{j=1}^m\frac{w_{ij}}{\sum_{j=1}^mw_{ij}}P^{\,t}(y_j=k\,|\,\boldsymbol{x}_j)\notag \\ & =\sum_{j=1}^m\frac{w_{ij}}{d_i}P^{\,t}(y_j=k\,|\,\boldsymbol{x}_j)\notag \\ & =\frac{1}{d_i}\sum_{j=1}^mw_{ij}P^{\,t}(y_j=k\,|\,\boldsymbol{x}_j)\notag \\ & =\frac{1}{d_i}\boldsymbol{w}_{i}\boldsymbol{P}^{\,t}_k \tag{13.42} \end{align}$
其中， $d_i=\sum_{j=1}^mw_{ij}$ ， $\boldsymbol{w}_i$ 为亲和矩阵 $\mathbf{W}$ 的第 $i$ 行， $\boldsymbol{P}^{\,t}_k$ 为当前的概率标记矩阵 $\mathbf{P}^{\,t}$ 的第 $k$ 列。

式(13.42)改写为
$\begin{align} {d_i}P^{\,t+1}_{ik} & =\boldsymbol{w}_{i}\boldsymbol{P}^{\,t}_k \tag{13.43} \end{align}$

对式(13.43)左侧应用向量与矩阵（学习一些公式及其推导技巧）中的式(A28)，右侧应用向量与矩阵（学习一些公式及其推导技巧）中的式(A16)，让 $i, k$ 变化形成二维表（矩阵）
$\begin{align} ([{d_i}P^{\,t+1}_{ik}]_{ik}) & =([\boldsymbol{w}_{i}\boldsymbol{P}^{\,t}_k]_{ik})\notag \\ \mathbf{D}\mathbf{P}^{\,t+1} & =\mathbf{W}\mathbf{P}^{\,t} \tag{13.44} \end{align}$
其中， $\mathbf{D}=\mathrm{diag}(d_1,d_2,\cdots,d_m)$ 。

进一步变形
$\begin{align} \mathbf{P}^{\,t+1} & =\mathbf{D}^{-1}\mathbf{W}\mathbf{P}^{\,t}\notag \\ & =\mathbf{S}\mathbf{P}^{\,t} \tag{13.45} \end{align}$
其中， $\mathbf{S}=\mathbf{D}^{-1}\mathbf{W}$ 。

式(13.45)很像“等比数列”：其极限即为所求的不动点。由式(13.42)知，它是“公比” $\frac{1}{d_i}\boldsymbol{w}_{i}$ 小于1的“等比数列”（严格地讲，这里要依向量 $\boldsymbol{w}_{i}$ 拆成子系列去讨论，也比较容易，从略），故它收敛，也即矩阵 $\mathbf{P}^{\,t+1}$ 中每个元素都收敛，该矩阵系列收敛。

（3）可行的迭代式

迭代式(13.45)中， $\mathbf{S}$ 已知（因数据集中的样本属性已知，故基于属性的亲和矩阵已知，即 $w_{ij},\, d_i=\sum_{j=1}^mw_{ij}$ 已知），然而，迭代的起点矩阵 $\mathbf{P}^{\, 0}$ 并不知道，故使用该迭代碰到了困难。下面我们基于该迭代进行相关改造。

i.\ 若使用伪概率标记矩阵 $\mathbf{F}$ 取代概率标记矩阵 $\mathbf{P}$ ，则可设 $\mathbf{F}^{\,0}=\mathbf{Y}$ ，因为“真实”标记矩阵 $\mathbf{Y}$ 就是个伪概率标记矩阵（虚线下的行全为0，不满足概率的“和为1”），故可用作迭代的起点。

ii.\ 以对称的 $\mathbf{S}=\mathbf{D}^{-\frac{1}{2}}\mathbf{W}\mathbf{D}^{-\frac{1}{2}}$ 取代 $\mathbf{S}=\mathbf{D}^{-1}\mathbf{W}$ ，这是因为矩阵 $\mathbf{W}$ 的主对角线占优（主对角线上的值为1，非主对角线上的元素为小于1的非负数），由向量与矩阵（学习一些公式及其推导技巧）中的式(A28)及式(A32)知，这两种变换在主对角线上表现一致，故这种替代具有合理性（误差小），注：这种替换是数值计算的常用技巧。这样，式(13.45)变为
$\begin{align} \mathbf{F}^{\,t+1} & =\mathbf{S}\mathbf{F}^{\,t} \tag{13.46} \end{align}$
其中， $\mathbf{S}=\mathbf{D}^{-\frac{1}{2}}\mathbf{W}\mathbf{D}^{-\frac{1}{2}}$ ，对角矩阵的幂易求（直接对主对角线元素求幂），如： $\mathbf{D}^{-\frac{1}{2}}=\mathrm{diag}(d_1^{-\frac{1}{2}},d_2^{-\frac{1}{2}},,\cdots,d_{l+u}^{-\frac{1}{2}})$ 。

iii.\ “真实”标记矩阵 $\mathbf{Y}$ 除作为 $\mathbf{F}$ 的初始值外，还应起监督作用：每次 $\mathbf{F}$ 迭代时，让它以一定的权重向 $\mathbf{Y}$ 靠，迭代式(13.46)调整为【西瓜书式(13.19)】：
$\begin{align} \mathbf{F}^{\,t+1} & =\alpha \mathbf{S}\mathbf{F}^{\,t}+(1-\alpha )\mathbf{Y} \tag{13.47} \end{align}$
其中， $\alpha \in (0,1)$ 为超参数。

iv\ 对式(13.47)取极限即得 $\mathbf{F}^*$ 【西瓜书式(13.20)】，由 $\mathbf{F}^*$ 矩阵对应的表13.3
即可获得 $D_u$ 中样本的分类，即在对应的表13.3 中取样本 $\boldsymbol{x}_i$ 所在的行，找到最大的 $f_i^j$ ，对应的 $j$ 列即为其类别。从而实现了对 $D_u$ 样本集“批量”预测。