信息容量评估与信息瓶颈技术详解
1. 基本概念与预备知识
在深入探讨网络容量和信息瓶颈之前,我们需要了解一些关键的基本概念。
- 互信息 :互信息是衡量两个随机变量之间依赖关系的重要指标。互信息 (I(Y, Z)) 表示输出 (Y) 和目标 (Z) 之间的信息关联程度,且 (I(Y, Z)) 上限为 (H(Z)),为了更好地学习 (Z),应使 (I(Y, Z)) 尽可能大。另外,(I(X, Z)) 代表训练对 ((X, Z)) 中包含的互信息,可根据给定的训练分布 (p_{XZ}) 明确计算。
- 输入分布 :输入层有 (d(0) = n) 个神经元,输入随机变量 (X = (X_1, \cdots, X_n)),每个分量 (X_k) 是实值随机变量,取值于有限集 ({x_1^k, x_2^k, \cdots, x_{r_k}^k}),输入概率为 (P(X = x) = P(X_1 = x_{i_1}^1, \cdots, X_n = x_{i_n}^n) = p(x_{i_1}^1, \cdots, x_{i_n}^n))。当输入层只有一个神经元((d(0) = 1),(X = X_1))时,(X) 取 (N) 个值 ({x_1, \cdots, x_N}),每个值的概率 (p(x_i) = P(X = x_i)) 构成输入概率分布。
- 输出分布 :输出层有 (d(L) = m) 个神经元,输出随机变量 (Y = (Y_1, \cdots, Y_m)),每个分量 (Y_k) 是实值随机变量,取值于有限集 ({y_1^k, y_2^k, \cdots, y_{t_k}^k})
超级会员免费看
订阅专栏 解锁全文
1141

被折叠的 条评论
为什么被折叠?



