图数据机器学习:传统方法与特征提取
1. 图机器学习概述
在图数据的机器学习中,有几个重要的任务类型。首先是社区检测,以谷歌学术中的引用信息构建的合作图为例,这个图不太可能是一个所有人都有同等可能合作的密集“毛球”,更可能会根据研究领域、机构或其他人口统计学因素,分割成不同的节点簇,即呈现出社区结构。社区检测的挑战在于,仅根据输入图 (G=(V, E)) 来推断潜在的社区结构,它在基因交互网络中发现功能模块、金融交易网络中发现欺诈用户群体等方面有很多实际应用。
另一个重要的任务类型包括图分类、回归和聚类。例如,给定一个表示分子结构的图,我们可能想构建一个回归模型来预测该分子的毒性或溶解度;或者构建一个分类模型,通过分析计算机程序基于图的语法和数据流表示来检测其是否恶意。在这些图分类或回归应用中,我们会得到多个不同图的数据集,目标是对每个图进行独立预测。而图聚类的目标是学习图对之间的无监督相似度度量。
2. 传统图机器学习方法背景
在现代深度学习方法出现之前,传统的图数据分类方法遵循标准的机器学习范式。我们先基于启发式函数或领域知识提取一些统计信息或特征,然后将这些特征作为标准机器学习分类器(如逻辑回归)的输入。接下来我们将介绍一些传统的图学习方法,包括基本的图统计、核方法,以及它们在节点和图分类任务中的应用。
2.1 节点级统计和特征
以 15 世纪佛罗伦萨婚姻网络为例,从机器学习的角度来看,我们可以思考哪些特征或统计信息可以用于预测美第奇家族的崛起,以及哪些有用的属性和统计信息可以用来描述图中的节点。
2.1.1 节点度
节点度是最明显和直接的节点特征,对于节点 (u
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



