Semi-Supervised Affinity Propagation with Soft Instance-Level Constraints 阅读笔记1

太上忘情,最下不及情,情之所钟,正在我辈。 —— 世说新语·伤逝

目前AP算法有几个扩展研究方向。
一个是约束聚类的上限数目,比如算法:
A Binary variable model for affinity propagation. 2009 ,Neural Comput
允许相似度矩阵的不确定性,或者发生变化:
Clutering with uncertainties : An affinity propagation based approach. 2012 . Neural Inf. Process
层次聚类:
Hierarchical, affinity propagation.
允许找到subclasses,通过将每个exemplar分配superexemplar
multi-exemplar affinity propagation.

Givoni和Frey在2009年,提出可以通过在因子图中添加额外的变量节点,称之为meta-points,MTPs,来对相似函数进行修订。
Semi-supervised affinity propagation with instance-level constraints. 2009

在有些应用中,这些半监督的标签是很难获得的,partial labels可以轻易转为instance-level 的限制,反过来却未必成立。在聚类的k-means算法,EM算法以及AP算法中,监督信息都可以添加到聚类算法中,通过在聚类前和过程中修改相似度矩阵。

注意:什么是instance-level的限制,什么是partial labels?

但是我们在添加instance-level的限制时,要注意很有可能会有noisy labels,比如医学领域对于疾病的严重程度,有时我们并不能定量分析,而是会做一个定性的排序(qualitative ranking)。在网络数据中,比如用户提供的,或基于查找的图片和视频的标签,也有可能会被污染。
可以参考这篇论文:
robust and scalable graph-based semisupervised learning.

可以通过滤波,标签的normalization以及tuning,误差的建模以及合理的特征提取手段来降低noisy labels影响。
然后这些方式假设至少有一些数据的标签是已知的,并且不考虑无标签数据只与instance-level的约束有关的情况。

现有的半监督聚类算法对instance-level的约束是很强的,也就是带有must-link的约束的数据点,必须属于同一个cluster。这篇文章提出一种弱化这种强约束的算法。

现有的工作

先来介绍一下已有的算法,怎么样对样本点必须选自己的约束进行松弛呢?
我们可以考虑引入一个惩罚项,样本点没有选自己作为样本点时进行惩罚:
clustering by soft-constraint affinity propagation:applications to gene-expression data.
甚至我们也可以阻止每个实例选自己作为代表点:
unsupervised and semi-supervised clustering by message passing: soft-constraint affinity propagation.
在后面这种算法中,我们事先有一定的已经标记的数据点,每一个标注的实例都分配给它所在类别的一个macro-node,而未标记的数据和macro-node的距离,就是属于这个macro-node的所有数据中和这个未标记数据最相似的数据的距离。(这个就是使用了partial labels)

但是我们弱化这个半监督的信息,将其推广,就是ssap算法,采用instance-level的约束,这就是不再给原始数据直接的标签,而是告诉你两个数据是否一定是在一组的,称为must-link, 是否一定不在一组,称为cannot-link.
在图像分割领域,ssap算法比约束EM算法和原始的AP算法表现性能要好。它的主要思想是通过MTP,也就是meta-point,对于每个must-link的组都有一个MTP,对于出现在cannot-link并且没有出现在任何must-link中实例(data)也产生一个MTP。每个数据都既可以选自己,选别的数据点,或者选MTP作为代表点,但是MTP绝对不能选择自己作为代表点,它必须选一个数据作为代表点。
假如x选择了MTP1作为代表点,y选择了MTP2作为代表点,而x和y之间存在cannot-link的约束,那么MTP1和MTP2的选择的代表点就一定不能相同,如果相同,那么这个factor node的就是负无穷。

更近年,半监督但是聚类过程中有监督的算法也被提出,
比如constraint projections for semi-supervised affinity propagation.
Zhu提出的算法则是通过对相似矩阵进行合理构建来起到对聚类监督的效果的。
semisupervised clustering for networks based on fast affinity propagation.2013
事实上对于must-link,两个实例之间的相似性设定为1,而对于cannot-link,则设置为0.
随后基于incremental AP 聚类,进行快速的AP算法。

然而,讲了这么多,在半监督的聚类算法中,并没有允许实例对之间的容错,不管是用marco-nodes还是用meta-points, 最后的结果一定是必须按照用户的标注来。另外,由于实例层的约束仅仅影响的是相似度矩阵,而实际的AP算法仍然是非监督的,如果在这个框架下对这个约束进行soft,起初的相似度矩阵应该是必须要调整的,然而在AP算法迭代过程中,并没有调整过。

所以在下一篇文档中,我们介绍作者的思路。

### 关于《Semi-Supervised Classification with Graph Convolutional Networks》的中文翻译 以下是《Semi-Supervised Classification with Graph Convolutional Networks》文章的核心内容及其翻译: #### 图卷积网络简介 该研究提出了一种基于图结构数据的半监督分类方法,利用图卷积神经网络(Graph Convolutional Network, GCN)来处理带有图结构的数据集。这种方法通过谱图理论中的局部一阶近似技术,能够有效地对图中的节点特征以及其邻域关系进行编码[^1]。 #### 半监督学习背景 在许多实际场景中,获取标签的成本较高,因此仅有一部分数据被标注,而大部分数据未被标记。这种情况下,半监督学习成为一种重要的解决方案。本文提出的模型能够在少量标注样本的基础上,充分利用大量无标签数据的信息来进行预测和分类任务[^2]。 #### 方法核心 作者引入了一个简单的两层图卷积网络架构,其中每一层都由一个线性变换矩阵乘法操作组成,并结合激活函数以增加非线性特性。具体来说,输入为节点特征向量 X 和描述节点间连接关系的邻接矩阵 A,在经过多轮传播更新之后得到最终表示 H^(L),再通过 softmax 函数转化为概率分布形式完成分类工作[^3]。 #### 实验验证 为了证明所提方案的有效性和优越性能,实验选取了多个标准基准测试集合进行了对比分析。结果显示相比于其他传统算法或者复杂深度学习框架而言,本方法不仅计算效率更高而且取得了更好的效果表现。 --- ```python import numpy as np from tensorflow.keras.layers import Dense from tensorflow.keras.models import Model def gcn_layer(A_hat, input_dim, output_dim): """ 定义单层GCN 参数: A_hat (numpy.ndarray): 预处理后的邻接矩阵 input_dim (int): 输入维度大小 output_dim (int): 输出维度大小 返回: function: GCN 层定义 """ W = np.random.randn(input_dim, output_dim) * 0.01 # 初始化权重参数 b = np.zeros((output_dim,)) def layer(X): return np.dot(np.dot(A_hat, X), W) + b return layer # 构建简单模型实例化过程省略... ``` 上述代码片段展示了如何构建基本版本的一层GCN实现方式之一。 --- #### 总结 通过对图结构特性的深入挖掘,《Semi-Supervised Classification with Graph Convolutional Networks》成功设计出了适用于大规模稀疏图上的高效半监督分类器——即著名的GCNs家族成员之一。它凭借简洁优雅的设计思路赢得了广泛认可并推动了后续一系列改进型变体的发展方向。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值