Semi-Supervised Affinity Propagation with Soft Instance-Level Constraints 阅读笔记1

最新推荐文章于 2022-02-15 13:32:28 发布

free_lock

最新推荐文章于 2022-02-15 13:32:28 发布

阅读量824

点赞数 1

分类专栏：机器学习算法

本文链接：https://blog.youkuaiyun.com/dudubird90/article/details/50442557

版权

机器学习算法专栏收录该内容

8 篇文章

订阅专栏

太上忘情，最下不及情，情之所钟，正在我辈。 —— 世说新语·伤逝

目前AP算法有几个扩展研究方向。
一个是约束聚类的上限数目，比如算法：
A Binary variable model for affinity propagation. 2009 ,Neural Comput
允许相似度矩阵的不确定性，或者发生变化：
Clutering with uncertainties : An affinity propagation based approach. 2012 . Neural Inf. Process
层次聚类:
Hierarchical, affinity propagation.
允许找到subclasses,通过将每个exemplar分配superexemplar
multi-exemplar affinity propagation.

Givoni和Frey在2009年，提出可以通过在因子图中添加额外的变量节点，称之为meta-points，MTPs，来对相似函数进行修订。
Semi-supervised affinity propagation with instance-level constraints. 2009

在有些应用中，这些半监督的标签是很难获得的，partial labels可以轻易转为instance-level 的限制，反过来却未必成立。在聚类的k-means算法，EM算法以及AP算法中，监督信息都可以添加到聚类算法中，通过在聚类前和过程中修改相似度矩阵。

注意：什么是instance-level的限制，什么是partial labels?

但是我们在添加instance-level的限制时，要注意很有可能会有noisy labels,比如医学领域对于疾病的严重程度，有时我们并不能定量分析，而是会做一个定性的排序(qualitative ranking)。在网络数据中，比如用户提供的，或基于查找的图片和视频的标签，也有可能会被污染。
可以参考这篇论文：
robust and scalable graph-based semisupervised learning.

可以通过滤波，标签的normalization以及tuning，误差的建模以及合理的特征提取手段来降低noisy labels影响。
然后这些方式假设至少有一些数据的标签是已知的，并且不考虑无标签数据只与instance-level的约束有关的情况。

现有的半监督聚类算法对instance-level的约束是很强的，也就是带有must-link的约束的数据点，必须属于同一个cluster。这篇文章提出一种弱化这种强约束的算法。

现有的工作

先来介绍一下已有的算法，怎么样对样本点必须选自己的约束进行松弛呢？
我们可以考虑引入一个惩罚项，样本点没有选自己作为样本点时进行惩罚:
clustering by soft-constraint affinity propagation:applications to gene-expression data.
甚至我们也可以阻止每个实例选自己作为代表点：
unsupervised and semi-supervised clustering by message passing: soft-constraint affinity propagation.
在后面这种算法中，我们事先有一定的已经标记的数据点，每一个标注的实例都分配给它所在类别的一个macro-node，而未标记的数据和macro-node的距离，就是属于这个macro-node的所有数据中和这个未标记数据最相似的数据的距离。（这个就是使用了partial labels）

但是我们弱化这个半监督的信息，将其推广,就是ssap算法，采用instance-level的约束，这就是不再给原始数据直接的标签，而是告诉你两个数据是否一定是在一组的，称为must-link，是否一定不在一组，称为cannot-link.
在图像分割领域，ssap算法比约束EM算法和原始的AP算法表现性能要好。它的主要思想是通过MTP，也就是meta-point，对于每个must-link的组都有一个MTP，对于出现在cannot-link并且没有出现在任何must-link中实例（data）也产生一个MTP。每个数据都既可以选自己，选别的数据点，或者选MTP作为代表点，但是MTP绝对不能选择自己作为代表点，它必须选一个数据作为代表点。
假如x选择了MTP1作为代表点，y选择了MTP2作为代表点，而x和y之间存在cannot-link的约束，那么MTP1和MTP2的选择的代表点就一定不能相同，如果相同，那么这个factor node的就是负无穷。

更近年，半监督但是聚类过程中有监督的算法也被提出,
比如constraint projections for semi-supervised affinity propagation.
Zhu提出的算法则是通过对相似矩阵进行合理构建来起到对聚类监督的效果的。
semisupervised clustering for networks based on fast affinity propagation.2013
事实上对于must-link，两个实例之间的相似性设定为1，而对于cannot-link，则设置为0.
随后基于incremental AP 聚类，进行快速的AP算法。

然而，讲了这么多，在半监督的聚类算法中，并没有允许实例对之间的容错，不管是用marco-nodes还是用meta-points, 最后的结果一定是必须按照用户的标注来。另外，由于实例层的约束仅仅影响的是相似度矩阵，而实际的AP算法仍然是非监督的，如果在这个框架下对这个约束进行soft，起初的相似度矩阵应该是必须要调整的，然而在AP算法迭代过程中，并没有调整过。

所以在下一篇文档中，我们介绍作者的思路。