变分信息瓶颈

本文介绍了互信息的概念以及其在衡量随机变量相关性中的应用,特别是在深度神经网络中,如何通过信息瓶颈和变分信息瓶颈来学习有效的特征表示,同时保证对输入的压缩和输出预测的表达能力。文章详细解释了信息约束和拉格朗日乘子在优化过程中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

互信息(Mutual Information)

两个随机变量 XXXYYY 的互信息定义为

I(X,Y)=∬p(x,y)log⁡p(x,y)p(x)p(y)dxdy I(X,Y) = \iint p(x,y) \log \frac{p(x,y)}{p(x)p(y)}\mathrm{d}x\mathrm{d}y I(X,Y)=p(x,y)logp(x)p(y)p(x,y)dxdy

这是用来衡量两个随机变量相关性的一个量,显而易见若 XXXYYY 独立分布,则 p(x,y)=p(x)p(y)p(x, y) = p(x)p(y)p(x,y)=p(x)p(y) ,它们的互信息是0。

假设深度神经网络的输入是 XXX , 输出是 YYY ,中间的某些层的特征表示我们把它当成是一种随机编码 YYY ,如此,这个网络结构可以看成是

X→Z→Y X \rightarrow Z \rightarrow Y XZY

我们希望一个好的特征表示 ZZZ 应该满足:

  1. ZZZ 尽可能是对 XXX 的压缩。
  2. ZZZ 对于预测 YYY 应该具有最大的信息量。

把这两个条件写成数学公式就是:

max⁡I(Z,Y;θ)s.t.min⁡I(X,Z;θ) \max I(Z, Y;\theta)\qquad \mathrm{s.t.} \min I(X, Z;\theta) maxI(Z,Y;θ)s.t.minI(X,Z;θ)

其中 θ\thetaθ 是网络的参数。这个目标的约束条件不直观,引入信息约束 IcI_cIc ,可以改写成:

max⁡I(Z,Y;θ)s.t.,I(X,Z;θ)≤Ic \max I(Z, Y;\theta)\qquad \mathrm{s.t.} , I(X, Z;\theta) \le I_c maxI(Z,Y;θ)s.t.,I(X,Z;θ)Ic

引入拉格朗日乘子,目标转变为最大化:

RIB=I(Z,Y;θ)−βI(X,Z;θ) R_{IB} = I(Z, Y;\theta) - \beta I(X, Z;\theta) RIB=I(Z,Y;θ)βI(X,Z;θ)

这个 RIBR_{IB}RIB 就是信息瓶颈[1],它的意义就是要学习到一种编码,能够对于输出的预测具有最大的表达能力,同时对于输入信息具备最大的压缩能力。

两个互信息分别可以展开成,

I(Z,Y)=∫p(y,z)log⁡p(y,z)p(y)p(z)dydz=∫p(y,z)log⁡p(y∣z)p(y)dydz \begin{aligned} I(Z, Y) &= \int p(y,z)\log \frac{p(y,z)}{p(y)p(z)}\mathrm{d}y\mathrm{d}z \\ &= \int p(y,z) \log \frac{p(y|z)}{p(y)}\mathrm{d}y\mathrm{d}z \end{aligned} I(Z,Y)=p(y,z)logp(y)p(z)p(y,z)dydz=p(y,z)logp(y)p(yz)dydz

I(X,Z)=∫p(x,z)log⁡p(x,z)p(x)p(z)dxdz=∫p(x,z)log⁡p(z∣x)p(z)dxdz \begin{aligned} I(X, Z) &= \int p(x,z)\log \frac{p(x,z)}{p(x)p(z)}\mathrm{d}x\mathrm{d}z \\ &= \int p(x,z) \log \frac{p(z|x)}{p(z)}\mathrm{d}x\mathrm{d}z \end{aligned} I(X,Z)=p(x,z)logp(x)p(z)p(x,z)dxdz=p(x,z)logp(z)p(zx)dxdz

变分信息瓶颈(Variational Information Bottleneck)

基于此再假设 XXXYYYZZZ 之间的关系满足如下的马尔可夫链(即 ZZZ 不能直接由 YYY 决定):

Y↔X↔Z Y \leftrightarrow X \leftrightarrow Z YXZ

联合分布可以分解成:

p(X,Y,Z)=p(X)p(Y∣X)p(Z∣X) p(X,Y,Z)=p(X)p(Y|X)p(Z|X) p(X,Y,Z)=p(X)p(YX)p(ZX)

这个马尔可夫链上的分布可以完全由我们的编码器 p(Z∣X)p(Z|X)p(ZX) 和马尔可夫链本身的约束得到,利用马尔可夫链,还可以得到,

p(y∣z)=∫p(x,y∣z)dx=∫p(y∣x)p(x∣z)dx=∫p(y∣x)p(z∣x)p(x)p(z)dx p(y|z) = \int p(x, y|z) \mathrm{d}x = \int p(y|x)p(x|z) \mathrm{d}x = \int \frac{p(y|x)p(z|x)p(x)}{p(z)}\mathrm{d}x p(yz)=p(x,yz)dx=p(yx)p(xz)dx=p(z)p(yx)p(zx)p(x)dx

其中 p(z∣x)p(z|x)p(zx) 是编码器, 因此 p(y∣z)p(y|z)p(yz) 完全由我们的编码器和这个马尔可夫链本身所决定。

对于 I(Z,Y)I(Z, Y)I(Z,Y)

因为 p(y∣z)p(y|z)p(yz) 无法直接计算,假设 q(y∣z)q(y|z)q(yz)p(y∣z)p(y|z)p(yz) 的变分近似(我们用模型来计算它,就是我们的解码器模块),利用KL散度非负的特性:

KL[p(y∣z),q(y∣z)]≥0⇒∫p(y∣z)log⁡p(y∣z)dy≥∫p(y∣z)log⁡q(y∣z)dy \mathrm{KL}\left[p(y|z), q(y|z)\right] \ge 0 \Rightarrow \int p(y|z) \log p(y|z) \mathrm{d}y \ge \int p(y|z) \log q(y|z) \mathrm{d}y KL[p(yz),q(yz)]0p(yz)logp(yz)dyp(yz)logq(yz)dy

因此有,

I(Z,Y)≥∫p(y,z)log⁡q(y∣z)p(y)dydz=∫p(y,z)log⁡q(y∣z)dydz−∫p(y)log⁡p(y)dy=∫p(y,z)log⁡q(y∣z)dydz+H(Y) \begin{aligned} I(Z, Y) &\ge \int p(y,z) \log \frac{q(y|z)}{p(y)}\mathrm{d}y\mathrm{d}z \\ &= \int p(y,z) \log q(y|z)\mathrm{d}y\mathrm{d}z - \int p(y) \log p(y)\mathrm{d}y \\ &= \int p(y,z) \log q(y|z)\mathrm{d}y\mathrm{d}z + H(Y) \end{aligned} I(Z,Y)p(y,z)logp(y)q(yz)dydz=p(y,z)logq(yz)dydzp(y)logp(y)dy=p(y,z)logq(yz)dydz+H(Y)

H(Y)H(Y)H(Y) 是 标签 yyy 的概率分布的熵,这个和我们的优化过程无关,可以被忽略掉,

I(Z,Y)≥∫p(y,z)log⁡q(y∣z)dydz I(Z, Y) \ge \int p(y,z) \log q(y|z)\mathrm{d}y\mathrm{d}z I(Z,Y)p(y,z)logq(yz)dydz

p(y,z)p(y,z)p(y,z) 写成 p(y,z)=p(x)p(y∣x)p(z∣x)p(y,z) = p(x)p(y|x)p(z|x)p(y,z)=p(x)p(yx)p(zx) ,可以得到新的下界:

I(Z,Y)≥∫p(x)p(y∣x)p(z∣x)log⁡q(y∣z)dxdydz I(Z,Y) \ge \int p(x)p(y|x)p(z|x)\log q(y|z) \mathrm{d}x\mathrm{d}y\mathrm{d}z I(Z,Y)p(x)p(yx)p(zx)logq(yz)dxdydz

对于 I(Z,X)I(Z, X)I(Z,X)

对于 XXXZZZ 之间的互信息,

I(Z,X)=∫p(x,z)log⁡p(z∣x)p(z)dxdz=∫p(x,z)log⁡p(z∣x)dxdz−∫p(z)log⁡p(z)dz I(Z, X) = \int p(x,z) \log \frac{p(z|x)}{p(z)}\mathrm{d}x\mathrm{d}z = \int p(x,z) \log p(z|x) \mathrm{d}x\mathrm{d}z - \int p(z)\log p(z)\mathrm{d}z I(Z,X)=p(x,z)logp(z)p(zx)dxdz=p(x,z)logp(zx)dxdzp(z)logp(z)dz

计算 ZZZ 的边际分布 p(z)=∫p(z∣x)p(x)dxp(z) = \int p(z|x)p(x)\mathrm{d}xp(z)=p(zx)p(x)dx 不是一件容易的事情,因此,让 r(z)r(z)r(z) 作为这个边际分布的一个变分近似,利用 KL[p(z),r(z)]≥0\mathrm{KL}\left[p(z), r(z)\right] \ge 0KL[p(z),r(z)]0 ,可以得到:

∫p(z)log⁡p(z)dz≥∫p(z)log⁡r(z)dz \int p(z) \log p(z) \mathrm{d}z \ge \int p(z) \log r(z) \mathrm{d}z p(z)logp(z)dzp(z)logr(z)dz

因此,

I(Z,X)≤∫p(x)p(z∣x)log⁡p(z∣x)r(z)dxdz \begin{aligned} I(Z, X) \le \int p(x)p(z|x)\log \frac{p(z|x)}{r(z)}\mathrm{d}x\mathrm{d}z \end{aligned} I(Z,X)p(x)p(zx)logr(z)p(zx)dxdz

Variational Information Bottleneck (RVIBR_{VIB}RVIB)

结合 I(Z,Y)I(Z, Y)I(Z,Y) 的下界和 I(Z,X)I(Z,X)I(Z,X) 的上界,可以得到,

RIB=I(Z,Y)−βI(Z,X)≥∫p(x)p(y∣x)p(z∣x)log⁡q(y∣z)dxdydz−∫p(x)p(z∣x)log⁡p(z∣x)r(z)dxdz=RVIB R_{IB} = I(Z,Y) - \beta I(Z, X) \ge \int p(x)p(y|x)p(z|x)\log q(y|z) \mathrm{d}x\mathrm{d}y\mathrm{d}z - \int p(x)p(z|x)\log \frac{p(z|x)}{r(z)}\mathrm{d}x\mathrm{d}z = R_{VIB} RIB=I(Z,Y)βI(Z,X)p(x)p(yx)p(zx)logq(yz)dxdydzp(x)p(zx)logr(z)p(zx)dxdz=RVIB

在实际计算中,将 p(x,y)p(x,y)p(x,y) 用经验分布 p(x,y)=1N∑i=1Nδxn(x)δyn(y)p(x,y) = \frac{1}{N}\sum_{i=1}^N\delta_{x_n}(x)\delta_{y_n}(y)p(x,y)=N1i=1Nδxn(x)δyn(y) 来替代,可以得到

RVIB=1N∑i=1N[∫p(z∣xn)log⁡q(yn∣z)−βp(z∣xn)log⁡p(z∣xn)r(z)dz] R_{VIB} = \frac{1}{N}\sum_{i=1}^N\left[\int p(z|x_n)\log q(y_n|z) - \beta p(z|x_n)\log \frac{p(z|x_n)}{r(z)}\mathrm{d}z\right] RVIB=N1i=1N[p(zxn)logq(ynz)βp(zxn)logr(z)p(zxn)dz]

假设编码器是类似VAE的结构 p(z∣x)=N(z∣feμ(x),feΣ(x))p(z|x) = \mathcal{N}(z|f^{\mu}_e(x),f^{\Sigma}_e(x))p(zx)=N(zfeμ(x),feΣ(x)) , fef_efe 是编码器网络,可以利用重参数化技巧,得到

p(z∣x)dz=p(ϵ)dϵ p(z|x)\mathrm{d}z = p(\epsilon)\mathrm{d}\epsilon p(zx)dz=p(ϵ)dϵ

其中 ϵ\epsilonϵ 是高斯随机变量。

假设 p(z∣x)p(z|x)p(zx)r(z)r(z)r(z) 的选择使得我们能够计算KL散度,于是,最大化变分信息瓶颈在实际计算中可以转变为最小化如下目标:

JIB=1N∑n=1NEϵ∼p(ϵ)[−log⁡q(yn∣f(xn,ϵ))]+βKL[p(z∣xn)∣r(z)] J_{IB} = \frac{1}{N}\sum_{n=1}^N\mathbb{E}_{\epsilon \sim p(\epsilon)}[-\log q(y_n|f(x_n,\epsilon))] + \beta \mathrm{KL}[p(z|x_n)|r(z)] JIB=N1n=1NEϵp(ϵ)[logq(ynf(xn,ϵ))]+βKL[p(zxn)r(z)]

参考文献

  1. Tishby, Naftali, Fernando C. Pereira, and William Bialek. “The information bottleneck method.” arXiv preprint physics/0004057 (2000).
  2. Maximilian Igl, Kamil Ciosek, Yingzhen Li, Sebastian Tschiatschek, Cheng Zhang, Sam Devlin and Katja Hofmann. “Generalization in Reinforcement Learning with Selective Noise Injection and Information Bottleneck.” arXiv preprint cs.LG/1910.12911 (2019).
  3. Alemi, Alexander A., et al. “Deep variational information bottleneck.” arXiv preprint arXiv:1612.00410 (2016).
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值