前言
本篇继续GraphEmbedding旅途,来聊聊LINE这个方法,对应的paper为《LINE: Large-scale Information Network Embedding》。
---广告时间,欢迎关注本人公众号:
LINE的核心方法
首先,还是先来脑补一下LINE方法的思考过程:
相似度&距离
在上一篇中,我们已经知道DeepWalk是采用类似于Word2Vec的方法,用一个节点的邻居序列来保存节点在网络中的拓扑结构,使得图中距离较近的节点在新的向量空间中也有较近的距离,但确实没有显示化地定义一个距离相似度的目标函数,也不是基于对目标函数的求解来得到向量表达的。LINE方法则明确定义一个量化的相似度计算公式,而且不仅包含一阶相似度,还包括了二阶相似度。
一阶相似度通常就是节点之间直接相连的边,可以用边的权重来度量。二阶相似度其实也容易理解,就是两个节点很可能没有边相连,但它们有很多共同的邻居节点,如下图所示:
事实上,我们回想一下DeepWalk的方法,也可以捕捉到5,6两个节点的邻居相似性对吧?但因为DeepWalk本身没有引入节点之间边的权重,所以较难量