深度学习中的信息容量评估
1. 熵变与信息损失
在某些变换过程中,正的熵变对应着信息的损失。收缩映射通常会导致信息损失,例如最大池化就是这类映射的一个例子。这种熵变的概念在分析神经网络中的熵流时非常有用。
2. 熵流
2.1 熵流的定义
考虑一个具有 $L$ 层的前馈神经网络,其各层的激活由随机向量变量 $X(\ell)$ 表示,其中 $0 \leq \ell \leq L$。第 $\ell$ 层激活的信息场 $I(\ell) = S(X(\ell))$ 可以通过熵函数 $H(X(\ell))$ 进行数值评估。
若第 $\ell - 1$ 层和第 $\ell$ 层的神经元数量相同,即 $d(\ell - 1) = d(\ell)$,且 $X(\ell) = f(X(\ell - 1))$,其中 $f$ 是确定性的光滑函数。设 $\Delta(\ell) = \det J_f(X(\ell - 1))$,则有:
[H(X(\ell)) = H(X(\ell - 1)) + E_{P_{X(\ell)}} [\ln |\Delta(\ell)|], 1 \leq \ell \leq L]
前馈神经网络的熵流定义为网络各层激活熵的序列 ${H(X(\ell))}_{0 \leq \ell \leq L}$。
2.2 熵流的变化
当进行分类任务时,前馈网络的熵流预计会减少到 $\log_2 c$ 比特,其中 $c$ 是类别数。这体现了网络对信息的组织和不确定性的降低。例如,将动物图片分类为哺乳动物和非哺乳动物时,即使输入图片的熵 $H(X(0))$ 很大,最后一层的熵
超级会员免费看
订阅专栏 解锁全文
1370

被折叠的 条评论
为什么被折叠?



