Mutual Information Neural Estimation
摘要
文章认为高维连续随机变量之间的互信息可以通过在神经网络上梯度下降优化得到。
文中提出了互信息估计器(Mutual Information Neural Estimator),它在维度和
样本大小上都是可伸缩的,可以通过反向传播训练的,并且具有很强的一致性。
文章提出了一些可以使用MINE来最小化或最大化互信息的
应用。作者应用MINE来改进对抗训练的生成模型。还使用MINE来实现信息瓶颈,将其应用到监督分类中:结果表明,在这些设置中,灵活性和性能有很大的改善。
背景知识补充1
与相关系数相比,互信息可以捕获非线性关系。
H ( X ) = − ∑ x p ( x ) l o g ( p ( x ) ) = − E x [ l o g ( p ( x ) ) ] H ( X ∣ Z ) = − ∑ z p ( z ) ∑ x p ( x ∣ z ) l o g ( p ( x ∣ z ) ) I ( X , Z ) = ∑ x ∑ z p ( x , z ) l o g p ( x , z ) p ( x ) p ( z ) = D K L ( p ( x , z ) ∣ ∣ p ( x ) p ( z ) ) = H ( X ) − H ( X ∣ Z ) = H ( Z ) − H ( Z ∣ X ) \begin{align} H(X) &= -\sum_x p(x)log(p(x))\\ &= -\mathbb{E}_x[log(p(x))] \notag\\ H(X|Z) &= -\sum_z p(z)\sum_x p(x|z)log(p(x|z))\\ I(X, Z) &= \sum_x\sum_z p(x, z)log\frac{p(x, z)}{p(x)p(z)}\\ &= D_{KL}(p(x, z)||p(x)p(z)) \\ &= H(X)-H(X|Z)\\ &= H(Z)-H(Z|X) \end{align} H(X)H(X∣Z)I(X,Z)=−x∑p(x)log(p(x))=−Ex[log(p(x))]=−z∑p(z)x∑p(x∣z)log(p(x∣z))=x∑z∑p(x,z)logp(x)p(z)p(x,z)=DKL(p(x,z)∣∣p(x)p(z))=H(X)−H(X∣Z)=H(Z)−H(Z∣X)</