图计算论文笔记--Heterogeneous Information Network Embedding for Meta Path based Proximity

本文提出HINE,一种针对异构信息网络的嵌入方法,利用meta-path来捕捉不同类型的节点和边之间的复杂关系。通过最小化网络嵌入前后基于meta-path的接近度和嵌入空间中接近度之间的差距,实现对异构网络结构的有效表示。实验在四个不同的异构网络上验证了HINE的优越性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

abstract

  • 在异构信息网络上做嵌入
  • 使用meta-path
  • proximity measures
  • objective function 最小化两个距离:
    meta path based proximities
    proximities in the embedded vector space
  • 使用副样本加速优化过程
  • 本文的方法为HINE

keywords

异构信息网络,meta-path,网络嵌入

introduction

  • 使用HIN上的meta-path嵌入
  • 建立的function来最小化两个相似度距离
  • 使用副样本加速优化过程
  • 对四组异构网络做实验

文章的方法使用了网络上的结构信息,顶点和边的类型信息

related work

  • 异构信息网络
  • meta-path
  • embedding

problem definition

  • HIN 异构信息网络G = (V,E)
  • HIN schema TG =(L,R)
    L是V的类型,R是E的类型
  • meta-path based proximity 两个点在meta-path模式P下的proximity
    有两种计算方法:在这里插入图片描述
  • Proximity in HIN 两个点在整个图上的Proximity
    也就是所有的P模式下的两个点的meta-path based proximity之和
    在这里插入图片描述
  • HIN Embedding for Meta Path based Proximity
    将图上的点embedding后能够保护上述的meta-path based proximity和Proximity in HIN

HINE

HINE是本文对HIN进行embedding的方法

  1. 介绍meta-path的Truncated Proximity Calculation
  2. 介绍model和定义目标函数
  3. 使用副样本

Truncated Proximity Calculation

Truncated Proximity Calculation的意思就是在计算proximity的时候,只采用长度小于threshold L的meta-path。因此Proximity in HIN 定义为:
在这里插入图片描述
性质:在这里插入图片描述
其实很好理解,也就是这个路径的proximity就是路径上每一个边的proximity的成积。
使用算法来计算一个proximity矩阵,记录每两个点之间的proximity:
在这里插入图片描述

model

两个点之间的joint probability:
使用sigmoid,其中vi和vj是点i和点j已经embedding到低维空间的向量
在这里插入图片描述
按照之前我们定义的proximity,两个点之间的相似度应该是:
在这里插入图片描述
因此,我们可以得到一个目标函数,这个目标函数通过最小化上面的两个p的距离,来保持embedding后网络的proximity,最小化距离,可以使用KL散度:在这里插入图片描述
使用KL散度得到此目标函数的过程:
在这里插入图片描述

negative sampling

直接优化上面的KL散度目标函数太复杂,因此采用副样本。
使用副样本来加强正样本的影响。
这是对每对点
在这里插入图片描述
(10)是关于(8)的梯度
对每一对的点进行学习的时候使用(9),整体的是(8)

experiment

总结

没有介绍如何进行训练的,我感觉因该是使用的网络,输入是节点的编码,通过一个网络后的到此节点的低维空间的表达,然后带入目标函数,训练网络的节点,的到权值。
所以最后的需要的向量是网络最后的低维空间的表达。

### 异构信息网络嵌入在推荐系统中的应用 #### 实现方法 异构信息网络(HIN)嵌入能够捕捉不同类型实体之间的复杂关系,从而提高推荐系统的性能。为了实现这一点,通常采用基于元路径的方法来构建和利用HIN。 1. **定义元路径** 元路径是指连接两个对象类型的特定序列,在HIN中可以用来表达不同种类的对象间的关系模式。例如,在电影数据库里,“User-Movie-Actor”就是一个有效的元路径[^1]。 2. **特征提取** 利用所选的元路径进行特征抽取,形成节点表示向量。此过程可以通过多种方式完成,比如随机游走、矩阵运算或者更先进的图神经网络(GNN)。对于每一对用户-物品组合,依据预设好的一组或多组元路径生成对应的特征向量作为输入给后续的学习模型。 3. **相似度计算** 基于上述获得的低维稠密向量表征,可运用余弦距离或其他合适的测度函数衡量任意两节点间的语义关联程度。这种量化后的亲疏关系有助于预测潜在的兴趣匹配情况,进而指导个性化推荐列表排序。 4. **训练与评估** 构造好样本集之后便能开展监督式或半监督式的机器学习任务了。常见的做法是以部分已知评分记录为正负例标签来进行分类器调参;而测试阶段则依赖交叉验证等手段确保泛化误差处于可控范围之内。 ```python import numpy as np from sklearn.metrics.pairwise import cosine_similarity def calculate_similarity(embeddings): """Calculate the similarity between all pairs of embeddings.""" sim_matrix = cosine_similarity(embeddings) return sim_matrix ``` #### 应用案例 在一个真实的社交平台场景下,假设存在大量用户的点赞行为构成了一张复杂的HIN。这里不仅包含了人与人的关注关系,还有他们共同参与的话题群组以及发表过的文章评论等内容。借助精心挑选的一系列有意义的元路径,如“Person-Paper-Author”,系统得以充分理解个体兴趣偏好并据此给出精准的内容推送建议。 另一个典型例子来自电子商务领域。商家希望根据顾客浏览历史及购买经历建立高效的营销策略。此时引入商品类别、品牌归属乃至评价反馈等多个维度的信息源组建起丰富的HIN框架,则可通过分析其中蕴含的价值链路帮助识别出那些最有可能促成交易转化的目标客户群体。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值