Paper : InfoGraph: Unsupervised and Semi-supervised Graph-Level Representation Learning via Mutual Information Maximization
Code :
摘要
作者使用 Deep Infomax 的方法来学习网络的图表示,并提出了自监督学习版本的训练方法 InfoGraph 与非监督学习版本的训练方法 InfoGraph* ,两者之间的差别在于 InfoGraph* 损失函数多了一项防止发生 negative transfer 。
Mutual Information
互信息定义为
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) I(X;Y) = H(X)-H(X|Y) = H(Y)-H(Y|X) I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)
其中 H ( ⋅ ) H(\cdot) H(⋅) 表示随机变量的熵, I ( X ; Y ) I(X;Y) I(X;Y) 的直观解释是已知随机变量 Y Y Y 时会使 X X X 的不确定度减少多少,用于描述随机变量 X X X 与随机变量 Y Y Y 之间的相关性。计算方法如下所示
I ( X ; Y ) = ∑ X ∼ X ∑ Y ∼ Y p ( X , Y ) log p ( X , Y ) p ( X ) p ( Y ) I(X;Y) = \sum_{X\sim \mathcal X} \sum_{Y\sim\mathcal Y} p(X,Y) \log\frac{p(X,Y)}{p(X)p(Y)} I(X;Y)=X∼X∑Y∼Y∑p(X,Y)logp(X)p(Y)p(X,Y)
互信息与KL散度具有如下性质
I ( X ; Y ) = ∑ Y ∼ Y p ( Y ) ∑ X ∼ X p ( X ∣ Y ) log p ( X ∣ Y ) p ( X ) = ∑ Y ∼ Y p ( Y ) D K L ( p ( X ∣ Y ) ∣ ∣ p ( X ) ) = E Y [ D K L ( p ( X ∣ Y ) ∣ ∣ p ( X ) ) ] I(X;Y) = \sum_{Y\sim \mathcal Y}p(Y)\sum_{X\sim \mathcal X}p(X|Y)\log\frac{p(X|Y)}{p(X)} \\ = \sum_{Y\sim \mathcal Y}p(Y) D_{KL}(p(X|Y)||p(X)) \\ = \mathbb E_{Y}[D_{KL}(p(X|Y)||p(X))] I(X;Y)=Y∼Y∑p(Y)X∼X∑p(X∣Y)logp(X)p(X∣Y)=Y∼Y∑p(Y)DKL(p(X∣Y)∣∣p(X))=EY[DKL(p(X∣Y)∣∣p(X))]
InfoGraph
经过GNN网络中的若干层卷积,图上的点特征表示可以看作是对每个点感受野内的子图进行编码,最大化图表示与每个节点的隐变量之间的互信息可以看作是使图表示学习到图中每个子结构共有的特性。
首先对GNN进行形式化定义,GNN中第k层执行的操作是
h v ( k ) = Combine ( k ) ( h v ( k − 1 ) , Aggregate ( k ) ( { h v ( k − 1 ) , h u ( k − 1 ) , e u v ∣ u ∈ N ( u ) } ) ) h_v^{(k)} = \text{Combine}^{(k)}(h_v^{(k-1)},\text{Aggregate}^{(k)}(\{h_v^{(k-1)},h_u^{(k-1)},e_{uv}|u\in \mathcal N(u)\})) h

最低0.47元/天 解锁文章
568

被折叠的 条评论
为什么被折叠?



