信息容量评估与神经网络信息处理
1. 精确形式解
1.1 问题设定
假设已知输入分布 (p(x)) 和训练分布 (p(x, z)),那么后验分布 (p(z|x) = p(x, z)/p(x)) 也已知。未知分布为 (p(y))、(p(y|x)) 和 (p(z|y)),其中 (p(y|x)) 称为编码器,(p(z|y)) 称为解码器。我们需要找到输出分布以及编码器和解码器分布,使得之前描述的瓶颈压缩过程达到最优。
1.2 定理及证明
定理表明,最小化泛函 (12.10.24) 的最优解满足以下隐式方程:
- (p(y|x) = \frac{p(y)}{Z(x, \beta)}e^{-\beta D_{KL}(p(z|x)||p(z|y))})
- (p(z|y) = \frac{1}{p(y)}\sum_{x} p(z|x)p(y|x)p(x))
- (p(y) = \sum_{x} p(y|x)p(x))
其中 (D_{KL}(p(z|x)||p(z|y)) = \sum_{z} p(z|x) \ln \frac{p(z|x)}{p(z|y)}),(Z(x, \beta)) 是归一化函数。
证明过程如下:
- 首先,(p(y)) 和 (p(z|y)) 可以用 (p(x))、(p(z|x)) 和 (p(y|x)) 表示:
- (p(y) = \sum_{x} p(y|x)p(x))
- (p(z|y) = \sum_{x} p(z|x)p(x|y) = \frac{1}{p(y)}\sum_{x} p(z|x)p(y|x)p(x))
- 对于固定
超级会员免费看
订阅专栏 解锁全文
2484

被折叠的 条评论
为什么被折叠?



