【论文阅读】Author2Vec: Learning Author Representations by Combining Content and Link Information-优快云博客

本文链接：https://blog.youkuaiyun.com/u014568072/article/details/78936156

《Author2Vec: Learning Author Representations by Combining Content and Link Information》

Ganesh J, Ganguly S, Gupta M, et al. 2016.

Abstract

在本文中，我们考虑从书目合著者网络中学习作者向量表示。在图像方面，深度学习现有的方法（如DeepWalk）由于侧重于对链接信息的建模，因此存在连接稀疏性问题。我们假设，以统一的方式捕获内容和链接信息将有助于缓解稀疏性问题。为此，我们提出了一个新的模型Author2vec，它能够学习低维的作者向量表示，使得写出类似内容和共享类似网络结构的作者在向量空间中更加接近。这样的向量表示在各种应用中都是有用的，例如链接预测，节点分类，推荐和可视化。对于链路预测和聚类任务，我们学习的作者向量效果分别比DeepWalk高出2.35%和0.83%。

1. Introduction

最近，将信息网络嵌入低维向量空间越来越引起人们的关注。其原因是，一旦获得了嵌入的向量形式，网络挖掘任务可以通过现成的机器学习算法来解决。为了用可扩展的方式构建良好的表示，研究人员开始使用深度学习作为分析图形的工具。例如，近期的一个模型DeepWalk使用均匀采样（截断随机游走）将图结构转换成包含顶点的线性序列的样本集合。他们将每一个样本作为一个句子处理，运行Skip-Gram模型（其最初设计用于从线性序列中学习单词表示），以从这些样本中学习顶点的表示。
DeepWalk的主要缺点是显示世界信息网络中固有的链路稀疏性问题。例如，两个编写与“机器学习”相关科学文章的作者如果没有连接，就不会被DeepWalk认为是相似的。在本文中，我们的目的是通过融合文本信息和链接信息以协同的方式来克服上述问题，以此来创建作者表示。我们在大型数据集上进行的实验表明，利用内容和链接信息减轻了链接稀疏性问题。

2. Author2Vec Model

假设合著者网络 $G=(V,E)$ ，其中每个顶点表示作者，每条边 $e=<u,v>\in E$ 表示作者 $u$ 和作者 $v$ 之间的关系。如果两个作者至少合著过一篇文章，则他们之间有边连接。我们使用 $P_u={p_{u1},...,p_{uN_p}}$ 来表示每个作者 $u$ 发表的文章集合，其中包括 $N_p$ 篇文章。对于每片文章，我们都有其摘要和出版年份。因此Author2Vec模型的目标是学习作者表示向量 $\mathbf{v}_u\in\mathbb{R}^b(\forall u\in V)$ ，其中 $d$ 是向量大小。模型通过无监督的方法学习到向量表示，分为两种类型：Content-Info和Link-Info模型。顾名思义，前者学习的是文本概念，后者则通过融合关系概念进一步丰富维度。

Context-Info Model: 该模型目标是单纯通过文本概念（论文摘要）捕捉作者向量表示。模型将作者 $u$ （由向量 $\mathbf{v}_u$ 表示）和论文 $p$ （由向量 $\mathbf{v}_p$ 表示）作为模型的输入，来预测 $u$ 是否写了论文 $p$ 。我们的训练元组是一个包括了正样本对（ $p$ 是 $u$ 的一个出版物）和负样本对（ $p$ 不是 $u$ 的一个出版物）的集合。其目的是使得作者的表示更接近其作品，而远离无关作品。即，我们预测作者-论文关系 $r_C(u,p)$ ，令 $l\in [1,2]$ ，其中1和2分别表示负样本和正样本值。我们使用神经网络预测输入对 $(\mathbf{v}_u,\mathbf{v}_p)$ :