用于图聚类的通勤时间卷积核
1. 引言
近年来,研究人员致力于将核范式从模式向量扩展到图、树和字符串等关系结构。为实现特定目标,人们提出了多种图核。构建图核时,通常可利用两类信息:
- 图的结构信息,可通过多种方式体现,其中利用路径长度分布或不同循环长度的频率是较为有效的方法。
- 图中节点或边的标签及属性信息。
此外,被比较图的节点之间还存在对应关系。例如,Smola等人开发了路径长度核用于比较分子结构;Gartner等人使用核从大型数据库中挖掘图;Bunke和Riesen展示了如何使用核方法将基于图的模式分析问题转化为等效的统计模式分析任务。
这三种信息的获取成本和作用各不相同。可靠的节点对应关系定位困难且成本高,但一旦确定,节点属性可提供强大的区分信息。实际上,使用对应关系可将图的属性信息隐式向量化。而关系结构是图的固有特性,使其区别于向量或字符串形式的数据。
本文旨在探索仅利用结构信息构建核,并将其用于图聚类的方法。我们需要一种经济计算且对图结构的微小扰动(如噪声)具有鲁棒性的结构特征,同时该特征要足够精细,以区分结构上的细微变化。路径长度是图核文献中广泛研究的候选特征,如路径长度核和扩散映射。而通勤时间提供了一种有趣的替代方案,它能以鲁棒的方式捕捉这两种替代方案的特征。通勤时间是指随机游走从图的一个节点到另一个节点再返回的预期步数,该值是所有可能路径的平均值,因此对边删除具有较强的鲁棒性,还可看作是对所有可能扩散长度的扩散映射的平均。此外,它是一种度量,可从拉普拉斯谱中简单计算得出,计算时间与图中节点数量的立方成正比。
为避免显式的节点对应关系,我们使用卷积核。具体做法是,利用拉普拉斯谱计算图中所有节点对之间的通勤时间
超级会员免费看
订阅专栏 解锁全文

1452

被折叠的 条评论
为什么被折叠?



