压缩网络嵌入(COSINE):大规模图网络嵌入的有效方法
1. 压缩网络嵌入概述
压缩网络嵌入的目标是在给定网络 $G=(V, E)$ 和嵌入维度 $d$ 的情况下,学习一个参数少于 $d|V|$ 的网络嵌入(NE)模型。传统的查找方法需要为 $|V|$ 个 $d$ 维向量提供存储空间,而压缩网络嵌入模型在减少参数的同时,仍能使用 $d$ 维向量表示每个节点。
2. 图划分
图划分用于将网络划分为多个分区或组,这对于参数共享和在训练前融入高阶结构非常重要。在社交网络中,存在由具有相似特征的人组成的明确群体,但在缺乏现有社交群体信息时,需要使用图划分方法为每个节点分配一个组。
有两种为节点分配组的方法:
- 重叠方法:如 AGM,一个节点可以同时属于多个组。
- 非重叠方法:如图粗化和图划分,一个节点只属于一个组。
由于希望每个节点最多有 $M$ 个不同的组,而重叠方法无法限制每个节点的组数,因此选择非重叠方法。图粗化虽然可以构建一个近似输入全局结构的较小网络,但它没有限制属于粗化组的原始节点数量,可能导致粗化组之间的不平衡,影响参数共享。而图划分将节点划分为 $k$ 个大致相等大小的不相交组,鼓励组内有更多边,组间有更少边,有利于参数共享。
3. 组映射
图划分后,得到从节点到组的映射 $g(v)$。为了用组集表示节点,需要为每个节点找到更多相关的组。假设节点邻居的组对该节点有特征表示作用,为引入高阶邻近性,不仅考虑一跳邻居,还考虑 $k$ 跳邻居。使用随机游走查找邻居的组有两个优点:
- 随机游走已成功用于提取网络的局部结构,与广度优先搜索(BFS)不同,随机游
超级会员免费看
订阅专栏 解锁全文
18

被折叠的 条评论
为什么被折叠?



