Title:Adaptive Hypergraph Auto-Encoder for Relational Data Clustering
introduction
图的embedded representation 和 clustering task 在关系型数据分析和挖掘方面发挥了很重要的作用,但是仅仅是成对的关系不足建模现实生活中的高阶关系。且如何适当地整合结构信息和属性信息是另一项重要的任务,但尚未得到系统的研究。因此这篇文章提出了自适应超图自动编码器(AHGAE)来学习低维空间中的节点embedding。
这篇文章的贡献在于:
- 提出一个超图拉普拉斯平滑过滤器,通过融合节点特征与同一超边中邻接特征达到平滑节点特征的效果。
- 提出了一个自适应超图自动编码器(AHGAE),是一种专门用于超图聚类任务的嵌入式模型。
- 构建了一个属性超图数据集DBLP-HG,并且在该数据集和其他一些基准图数据集上做实验,验证了模型的有效性。
related work
首先,图聚类任务分为两大类,分别是: structural graph clustering tasks 和 attributed graph clustering tasks。
首先是介绍structural graph clustering tasks; 谱系聚类方法直接将图的结构作为输入。
直接将图的结构作为输入,通过对图的切割,使切割后的不同子图之间的边的权重尽可能低,以达到聚类的目的。还有提出将节点的邻接矩阵分解成节点表征后利用k-means的方法获得聚类。还有Deepwalk通过在图中游走使用skipgram学习节点表征,通过在图上随机行走和最大化每个节点的邻居概率,然后获得聚类结果。
然后介绍attributed graph clustering tasks;同时具有图结构和节点特征的图被称为attributed graphs。该任务的研究重点是如何平衡图的结构信息和节点特征信息。最常见的pipeline是首先学习包含结构信息的节点embedding,然后实现常见的聚类方法,如K-means或spectral clustering来获得最后的结果。像常见的GAE、VGAE、AGC、AGE都属于这类工作,且融合了图卷积网络和自动编码器等。
method
首先是方法框架:
这张图左边部分的意思是文章确定了一个指标∆c(t) ,它代表未标记的聚类度量的变化值,这个图经过一次次迭代,直到∆c(t) >0的时候获得最终结果,它是用来选择最优顺序的。
右边部分,H代表关联矩阵,A代表邻接矩阵。
先给出方法中的定义: