JUST-Are Meta-Paths Necessary
摘要
在包含不同域的结点的异构图中,传统的randomwalk
方法会偏向于走向高可见域,高可见域就是那些域中的结点拥有支配性数量边的(或者说边的数量占主要部分)
In the context of a heterogeneous graph, which contains nodes from different domains, classical random walks are biased towards highly visible domains where nodes are associated with a dominant number of paths.
可以通过使用Meta-Path
的方法来引导随机游走,但是元路径需要先验知识或者额外运算,于是作者提出了JUST
-(JUmp
和STay
)来解决randomwalk
的那种偏向性。
Intro
学术界当前主要依靠元路径来为网络嵌入采样。
具体来说,元路径就是一个结点类型的序列,这个序列编码了(即包含了)这些相关结点之间的复合关系。
Specifically, a meta-path is defined as a sequence of node types encoding key composite relations among the involved node types .
举个例子,在书目的网络表示中,A
-P
-V
表示两个作者合著了一篇论文,而A-P-V-P-A
表示两个作者各自的论文在同一个会议中发表。
然而如何从一张图中选取元路径仍然时不清楚的,而考虑到元路径对学习质量的巨大影响,其可谓时一把双刃剑。
本文提出的算法,旨在平衡随机游走时域选择的概率
Specifically, when performing random walks over a heterogeneous graph, we choose the next node either by jumping to one of the other data domains, or staying in the same data domain. The key idea of our solution is to probabilistically balance these two options, in order to avoid the above-mentioned bias.
主要考虑:
jump
还是stay
- 通过一个指数衰变函数,来控制
stay
的可能性
- 通过一个指数衰变函数,来控制
- 如果
jump
,去哪m
最后访问
符号定义
异构图:
G
=
(
V
,
E
)
对
任
意
v
∈
V
,
有
一
个
映
射
函
数
ϕ
,
ϕ
(
v
)
=
q
,
q
表
示
结
点
所
处
的
域
G= (V,E)\\ 对任意v \in V,有一个映射函数\phi,\phi(v) = q,q表示结点所处的域
G=(V,E)对任意v∈V,有一个映射函数ϕ,ϕ(v)=q,q表示结点所处的域
e h e : 异 构 边 e h o : 同 构 边 e_{he}:异构边\\ e_{ho}:同构边 ehe:异构边eho:同构边
JUST-算法
Jump or stay
P
r
s
t
a
y
(
v
i
)
=
α
l
      
Pr_{stay}(v_i)= \alpha^l\,\,\,\,\,\,
Prstay(vi)=αl
Where to Jump
该跳到那个域q
?在最近访问的m
个域之外随机选取一个,以平衡样本点在各个域中的分布。
Truncated Random Walk
如果长度达到了 L M A X L_{MAX} LMAX就停止随机游走。
伪代码
//要求:异构图G = (V,E),初始停留概率a,参数m,每个接待你随机游走的次数
//r,最长游走长度L
Initialize W = NULL
for i = 1 to r do
for each v in V do
Initialize a random walk by adding v
Initialize Qhist by adding phi(v)
while |w|<L do
pick a jump or stay decision//选择停留还是跳越
if Stay then
Continue w by staying
else if Jump then
Sample a target q
Continue w by q
update Qhist
end if
add w to W
end for
end for
return W