网络嵌入基础与通用图嵌入方法解读
1. 网络嵌入的背景与动机
网络(或图)由一组节点(或顶点)及其连接组成,是日常生活和学术研究中广泛使用的重要数据类型,像 Facebook 的好友网络和 DBLP 的引文网络。研究人员在网络的诸多机器学习应用上开展了大量研究,如节点分类、社区检测、链接预测和异常检测等。大多数应用于这些场景的监督机器学习算法需要一组有信息的数值特征作为输入,所以如何对网络进行数值表示是网络分析的关键问题。
传统上,网络的典型表示是邻接矩阵,它是一个维度与网络节点数相等的方阵。邻接矩阵第 i 行第 j 列的元素表示第 i 个和第 j 个节点之间是否存在有向边。理论上,邻接矩阵中非零元素的数量(即网络中的边数)可能达到节点数的平方,但现实世界的网络通常是稀疏的,边数与节点数呈线性关系。例如,社交网络中的每个用户只与少数朋友建立连接。因此,邻接矩阵非常稀疏,大部分元素为零。
邻接矩阵表示虽然直观易懂,但存在两个主要缺点:高维度和数据稀疏性。高维度意味着每个节点需要一个长度等于节点数的向量来表示,这增加了后续计算的复杂度。数据稀疏性则指矩阵中的非零元素非常稀疏,导致表示中编码的信息量有限。这两个缺点使得传统的邻接矩阵表示难以应用机器学习和深度学习技术。
手工特征可能是一种解决方案,例如可以为每个节点提取一组特征,如节点度、PageRank 分数、介数系数等。然而,这种特征工程需要大量的人力和专业知识,并且提取的特征难以在不同数据集上进行泛化。因此,用数值表示网络仍然是网络分析的重要前提,传统表示方法仍存在一些未解决的挑战。
2. 网络嵌入的兴起
为了避免特征工程并提高特征的灵活性,基于优化学习来学习特征嵌入
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



