前馈神经网络的信息容量评估
1. 熵和互信息的基础计算
在信息论和深度学习架构中,熵和互信息是两个重要的概念。以扑克牌为例,设 (X(0)) 为一张牌的身份,(X(1)) 为牌的花色,(X(2)) 为牌的颜色。我们可以计算条件熵和互信息。
条件熵 (H(X(1)|X(0))) 的计算公式为:
[
H(X(1)|X(0)) = - \sum_{j = 1}^{52} \sum_{i = 1}^{4} p(x^{(1)} i, x^{(0)}_j) \ln p(x^{(1)}_i|x^{(0)}_j) = - \sum {j = 1}^{52} \sum_{i = 1}^{4} p(x^{(1)}_i) p(x^{(1)}_i|x^{(0)}_j) \ln p(x^{(1)}_i|x^{(0)}_j) = 0
]
同理,(H(X(2)|X(0)) = 0),因为一旦牌的身份确定,牌的颜色也就已知了。
接下来计算输入层与其他两层之间的互信息:
- (I(X(0), X(1)) = H(X(1)) - H(X(1)|X(0)) = H(X(1)) = \ln 4)
- (I(X(0), X(2)) = H(X(2)) - H(X(2)|X(0)) = H(X(2)) = \ln 2)
由此可以严格验证数据处理不等式 (I(X(0), X(1)) \geq I(X(0), X(2)))。
2. 前馈神经网络中的熵流
2.1 离散随机变量下的熵流
当层激活为离散随机变量时,前馈神经网络的熵流具有一定的特性。
超级会员免费看
订阅专栏 解锁全文
1255

被折叠的 条评论
为什么被折叠?



