LINE: Large-scale Information Network Embedding
比较早的一篇针对 Graph 数据结构进行 Embedding 表示学习的方法,主要对边进行建模,由于两个节点间的直接相连关系表达的信息有限,这里增加了二阶关系(二度关系)作为补充,将节点的关系从一阶增加到了二阶。Loss 是建立在概率分布和经验分布的 KL 距离上的。最终将一阶和二阶对应学到的embedding concat后得到embedding 表示。
关于概率建模
原图的概率p_ij=w_ij/W 预测的图边的概率=1/(1+e^(n_i*n_j)) n_i,n_j为节点的embedding表示。
两个图的概率分布的 KL 距离。
存在的问题
实际用户关系中,一阶和二阶关系都比较多,上亿级别的节点数,千亿级别的关系数,工业化如何实现全量用户的表示学习。
在其他相关的文章中,借用随机游走的序列来替代邻接矩阵,工程上讲,可以避免把全量的图信息存储于内存中,适合分布式和在线系统。同时,效果并没有受太大影响,表明采样方式还是不错的。