《Author2Vec: Learning Author Representations by Combining Content and Link Information》
Ganesh J, Ganguly S, Gupta M, et al. 2016.
Abstract
在本文中,我们考虑从书目合著者网络中学习作者向量表示。在图像方面,深度学习现有的方法(如DeepWalk)由于侧重于对链接信息的建模,因此存在连接稀疏性问题。我们假设,以统一的方式捕获内容和链接信息将有助于缓解稀疏性问题。为此,我们提出了一个新的模型Author2vec,它能够学习低维的作者向量表示,使得写出类似内容和共享类似网络结构的作者在向量空间中更加接近。这样的向量表示在各种应用中都是有用的,例如链接预测,节点分类,推荐和可视化。对于链路预测和聚类任务,我们学习的作者向量效果分别比DeepWalk高出2.35%和0.83%。
1. Introduction
最近,将信息网络嵌入低维向量空间越来越引起人们的关注。其原因是,一旦获得了嵌入的向量形式,网络挖掘任务可以通过现成的机器学习算法来解决。为了用可扩展的方式构建良好的表示,研究人员开始使用深度学习作为分析图形的工具。例如,近期的一个模型DeepWalk使用均匀采样(截断随机游走)将图结构转换成包含顶点的线性序列的样本集合。他们将每一个样本作为一个句子处理,运行Skip-Gram模型(其最初设计用于从线性序列中学习单词表示),以从这些样本中学习顶点的表示。
DeepWalk的主要缺点是显示世界信息网络中固有的链路稀疏性问题。例如,两个编写与“机器学习”相关科学文章的作者如果没有连接,就不会被DeepWalk认为是相似的。在本文中,我们的目的是通过融合文本信息和链接信息以协同的方式来克服上述问题,以此来创建作者表示。我们在大型数据集上进行的实验表明,利用内容和链接信息减轻了链接稀疏性问题。
2. Author2Vec Model
假设合著者网络G=(V,E),其中每个顶点表示作者,每条边e=<u,v>∈E表示作者u和作者
Context-Info Model: 该模型目标是单纯通过文本概念(论文摘要)捕捉作者向量表示。模型将作者