【论文解读】A Simple Meta-path-free Framework for Heterogeneous Network Embedding

在这里插入图片描述

摘要

由于网络在各种数据挖掘应用中得到了广泛的应用,网络嵌入技术近年来备受关注。我们试图打破现有模型中预设元路径和非全局节点学习的限制,提出了一个简单而有效的异构网络嵌入学习框架,该框架通过自监督的方式直接对原始的多类型节点和关系进行编码。更具体地说,我们首先从每个关系类型下的邻居属性中学习全局节点的基于关系的嵌入,并利用一个注意的融合模块来组合它们。然后,利用节点与其相邻图之间的强相关性,设计了多跳对比来优化区域结构信息,其中我们通过多跳消息传递来考虑多个关系,而不是预先设置元路径。最后,我们在各种下游任务上评估了我们提出的方法,如节点聚类、节点分类和两类节点之间的链接预测。实验结果表明,我们提出的方法在这些任务上明显优于最先进的基线。

1 引言

图表示学习[7]着重于将图结构数据嵌入到低维表示中。学习到的向量将是原始网络的有效表示,可用于链路预测、节点分类和节点聚类等各种数据挖掘任务[1]。为了使学习更容易适应无标记数据,自监督图表示学习被提出,并成为一种不引入任何监督模块的学习节点嵌入的趋势图学习范式。该技术已成功应用于许多领域,如社交网络挖掘和推荐系统。

从没有任何标签的图结构数据中学习有意义的节点表示是一个长期的挑战。基于人工神经网络,提出了自监督学习(SSL)[2,3],通过自动生成某种监督信号来实现对未标记数据的学习。早期经典的自监督作品通过随机游走[18]将图拓扑和节点链接作为向量嵌入。随着深度学习的迅速发展,从数据本身自动获取监督信号的图神经网络[23]成为自监督节点表示学习的一种有效方法。由于其简单性,同构网络一直是gnn的首选研究对象。然而,由多种节点和/或链接组成的异构网络作为现实世界中最普遍的图结构数据形式,近年来受到了越来越多的关注。图1(a)是一个具有多类型节点和链接的异构学术网络示例。

尽管已经提出了许多具有异构网络的性能良好的自监督模型,但其中大多数都采用了一种通用的策略,即通过元路径将原始的异构网络拆分为多个同构网络[9,16],如图1(b)所示。这种策略通过消除原始数据的异构性,使数据能够直接输入gnn,但仍然面临两个主要限制首先,基于元路径的方法需要元路径来分离网络[16]。这些元路径通常是手动预先定义的,并根据来自模型的最终结果不断调整,以获得更好的性能[4,5,20,28]。这种操作不仅需要丰富的经验,而且在调整过程中会产生大量的额外成本。其次,基于元路径的方法将一个具有多类型节点和关系的异构图简化为几个具有单一类型节点和关系的同构图。在每个分割图中,只保留某一类型的对象,而排除其他类型的对象。在这种情况下,这些方法的结果不适用于某些下游任务

### 异构信息网络嵌入在推荐系统中的应用 #### 实现方法 异构信息网络(HIN)嵌入能够捕捉不同类型实体之间的复杂关系,从而提高推荐系统的性能。为了实现这一点,通常采用基于路径的方法来构建和利用HIN。 1. **定义路径** 路径是指连接两个对象类型的特定序列,在HIN中可以用来表达不同种类的对象间的关系模式。例如,在电影数据库里,“User-Movie-Actor”就是一个有效的路径[^1]。 2. **特征提取** 利用所选的路径进行特征抽取,形成节点表示向量。此过程可以通过多种方式完成,比如随机游走、矩阵运算或者更先进的神经网络(GNN)。对于每一对用户-物品组合,依据预设好的一组或多组路径生成对应的特征向量作为输入给后续的学习模型。 3. **相似度计算** 基于上述获得的低维稠密向量表征,可运用余弦距离或其他合适的测度函数衡量任意两节点间的语义关联程度。这种量化后的亲疏关系有助于预测潜在的兴趣匹配情况,进而指导个性化推荐列表排序。 4. **训练与评估** 构造好样本集之后便能开展监督式或半监督式的机器学习任务了。常见的做法是以部分已知评分记录为正负例标签来进行分类器调参;而测试阶段则依赖交叉验证等手段确保泛化误差处于可控范围之内。 ```python import numpy as np from sklearn.metrics.pairwise import cosine_similarity def calculate_similarity(embeddings): """Calculate the similarity between all pairs of embeddings.""" sim_matrix = cosine_similarity(embeddings) return sim_matrix ``` #### 应用案例 在一个真实的社交平台场景下,假设存在大量用户的点赞行为构成了一张复杂的HIN。这里不仅包含了人与人的关注关系,还有他们共同参与的话题群组以及发表过的文章评论等内容。借助精心挑选的一系列有意义的路径,如“Person-Paper-Author”,系统得以充分理解个体兴趣偏好并据此给出精准的内容推送建议。 另一个典型例来自电商务领域。商家希望根据顾客浏览历史及购买经历建立高效的营销策略。此时引入商品类别、品牌归属乃至评价反馈等多个维度的信息源组建起丰富的HIN框架,则可通过分析其中蕴含的价值链路帮助识别出那些最有可能促成交易转化的目标客户群体。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值