Easing Embedding Learning by Comprehensive Transcription of Heterogeneous Information Networks, KDD‘18
阅读更多,欢迎关注公众号:论文收割机(paper_reader)
原文链接:KDD'18|异质信息网络嵌入学习
1 引言
网络嵌入(network embedding)模型,是最近比较火的研究方向,尤其是在异质信息网络(Heterogeneous Information Network)上的嵌入模型,因为结构更为复杂,信息更为丰富,所以能够使用的特征,以及可以研究的问题更多。
这篇KDD’18的文章,没有按照常规的方法将所有的node嵌入到同一的空间,因为文章提出node因为连接的edge类型(type)不同,存在不兼容(incompatibility)的特性,所以最好能够根据不同的edge type来定义不同度量空间(metric space),保持同一个度量空间下,node的兼容性。
本文将首先介绍背景知识,包括异质网络和网络嵌入学习,之后介绍这篇KDD提出的HEER[1]模型,最后给出总结和一些可能能够改进的思路。更多细节分析,关注公众号paper_reader,并后台回复“HEER”获取Slides。(注:该Slides将详细介绍Network Embedding的各类相关模型)
2 背景介绍
异质信息网络[2]是在传统的同质(homogeneous)网络上提出的一种信息更为丰富的网络结构。传统的社交网络,只有节点和边的结构信息,而并不对节点和边的类型作区分。而异质网络中,节点和边的类型信息同时被考虑,从而可以获得更多层次的信息。
因为网络是结构化信息为主,为了能够更好的利用网络信息,使用embedding来表示网络中的节点或者边的信息能够直接使用现有的很多模型,因此一个非常重要的研究方向就是如何使用embedding,即同一空间(或不同空间)下的一组向量来表示网络信息,这就是network embedding所要研究的问题[3]。
如图,使用(b)图的向量来表示(a)网络中的节点[4]。

3 HEER模型思想
该论文提出的模型,想要解决Type不兼容的问题。在研究异质网络中,常用的思路仍然是将所有的节点在同一个空间下表示,但是这时候就会出现一些节点因为存在多种关系,而关系与关系之间又并不兼容的特性。
如图,stan,musical,Ang Lee是不同类型的节点,因为musical和Ang Lee的embedding距离很远,会导致stan无法同时和两个embedding同时很近,因此需要学习两个不同的度量空间,从而stan分别在两个度量空间中与对应的node距离很近。

为了解决这样的问题,该论文在计算相似度s的时候提出了度量向量μ。
该度量向量μ是对不同类型的关系来进行embedding,g_{uv}是表示u,v之间的边的embedding。通过定义该相似度函数,能够获得基于不同边类型r的相似度。
4 HEER模型结构

该模型结构,输入是一个异质网络,之后网络中的节点使用index表示,通过F网络学习出node embedding,之后通过g函数来学习出边的embedding,最后通过type之间的相似度,也就是定义的相似度函数和原始连接关系共同作为ground truth,最后训练出网络参数,从而能够学到网络的嵌入模型。
5 总结
HEER模型,能够建立异构网络中不同type之间的不兼容性,这是一种新的尝试,将不兼容的性质提出并通过不同度量空间来表示。
其次,HEER模型能够同时学习网络中节点的node embedding和边的edge embedding。
不过该文章仍有一定的局限性,比如没有考虑更复杂的网络结构信息,而是仅仅通过相邻节点的关系来确定embedding,更复杂的关系可以通过meta-path来找到,这也可能成为该论文未来的研究方向。
更多细节分析,关注公众号paper_reader,并后台回复“HEER”获取Slides。
阅读更多,欢迎关注公众号:论文收割机(paper_reader)
原文链接:KDD'18|异质信息网络嵌入学习
参考文献
[1] Shi Y, Zhu Q, Guo F, et al. Easing Embedding Learning by Comprehensive Transcription of Heterogeneous Information Networks[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 2018: 2190-2199.
[2] Y. Sun, J. Han, X. Yan, P. S. Yu, and T. Wu. Pathsim: Metapath-based top-k similarity search in heterogeneous information networks. In VLDB, 2011.
[3] Cui P, Wang X, Pei J, et al. A survey on networkembedding[J]. IEEE Transactions on Knowledge and Data Engineering, 2018.
[4] W. Zachary. An information flow model for conflict and fission in small groups1. Journal of anthropological research, 33(4):452–473,1977.