神经网络活动中的伪热力学与统计力学视角
1 伪热力学与神经网络训练
1.1 自由能与熵
在神经网络建模中,自由能(以及训练误差)是训练示例相对数量和玻尔兹曼能量的函数。通过传统的勒让德变换,可以从自由能关系推导出相应的热力学熵,公式如下:
[
\mathcal{S} = P(\frac{N E_{u}}{M}- G) = \left\langle\left\langle\ln\left[\frac{P_{0}({W_{ij}})}{P_{M}({W_{ij}})}\right]\right\rangle_{T}\right\rangle_{En}
]
这个熵函数衡量了 $P_{M}$ 相对于初始分布 $P_{0}$ 的偏差。训练开始时,$M/N = 0$,所以 $\mathcal{S} = 0$。随着训练的进行,$\mathcal{S}$ 变为负值,它描述了系统参数空间中分布的演变。
1.2 与相对训练示例数量相关的因素
类似于热力学中的摩尔自由能(或化学势),与训练示例相对数量相关的对应因素为:
[
\mu=\frac{\partial\mathcal{S}}{\partial(M/N)} = (\epsilon_{tr}-\frac{\mathcal{S} {0}}{P})
]
其中,$\mathcal{S} {0}$ 是一步熵,它是一个衡量指标,用一个小的或大的负数来定性描述最后一步学习导致相关子空间体积的小或大收缩。
1.3 从感知机生成的示例中学习
感知机通常是一个输入 - 输出关系由非线性挤压函数
超级会员免费看
订阅专栏 解锁全文
10

被折叠的 条评论
为什么被折叠?



