1.基本概念
-
Heterogeneous Information Network(异构信息网络)
分别表示节点集合,连接关系集合,节点类型集合,连接关系类型集合,节点类型映射,连接关系类型映射。例如图中三种类型的节点(author,paper,subject),两种连接关系类型(write,belong to) -
Network schema(网络模式)
相当于对异构图的一个抽象表示,以节点类型集合作为新的图顶点集,连接关系集合作为边集合,形成了网络概要模式。用于描述不同节点之间的直接连接关系,捕获局部结构 -
meta-path(元路径)
不同的元路径表示不同的语义,例如PAP(表达两篇文章由同一作者所写),PSP(描述两篇文章属于同一个学科),捕获高阶结构。给定一个元路径,每个节点有很多基于元路径的邻居节点
-
self-supervised
数据不用打标签,从数据本身寻找监督信号,原先损失函数定义为预测值和标签的交叉熵(学习的目标是使预测值和真实值尽可能接近),现在定义损失不用数据标签,而是从数据本身的监督信息出发(学习的目标是) -
contrastive learning
一种典型的自监督学习方法,从数据中提取正样本和负样本,学习的目标是最大化与正样本的相似性,最小化与负样本的相似性 -
self-supervised 和 supervised的区别
监督式的训练数据需要有lable,学习的目标是使模型的预测值和真实的label尽可能接近(损失函数常使用交叉熵来衡量这种相似性),自监督学习不用label,而是从数据中自己提取监督信号,优化目标根据提取的自监督信号来定义,本质一样,区别只是损失函数的定义上
2.文章创新点
- 传统的HGNN(Het