神经网络中的信息几何应用与宏观动力学分析
1. 自然梯度下降在实际中的挑战与近似方法
在实际应用里,精确计算矩阵(14.56)的逆往往是不可行的,所以精确执行自然梯度下降规则也就无从谈起。不过,我们至少明确了最优规则是什么,这样就能通过对矩阵(14.56)的逆进行近似,以一种系统的方式改进梯度下降,而非采用临时的方法。矩阵逆的近似方法有很多种。例如,若 $g(\theta)$ 接近单位矩阵 $I$,可以使用展开式 $g^{-1}(\theta) = \sum_{n\geq0}[I - g(\theta)]^n$。另一种方法是利用对称矩阵的通用恒等式,如:
[g_{ij}^{-1} = \frac{\int dy y_i y_j e^{-(1/2)y\cdot gy}}{\int dy e^{-(1/2)y\cdot gy}}]
2. 信息几何的简单应用示例
2.1 无系统输入的单个神经元
这是一个最简单的二元神经元场景,没有系统输入和权重,仅有一个阈值 $\theta$。它仅从噪声源 $\xi$ 接收输入,输出为 $x_{out} = sgn(\xi - \theta)$。假设通过调整阈值 $\theta$ 使其永久输出 $x_{out} = 1$,这显然需要将阈值降低到 $\theta = -\infty$。
用 $w(\xi)$($\xi \in R$)表示噪声源的概率密度,且该分布是对称的,即 $w(\xi) = w(-\xi)$ 对所有 $\xi \in R$ 都成立。同时定义 $W(u) = 2\int_{0}^{u} d\xi w(\xi)$,根据假设可得 $-1 \leq W(u) \leq 1$。
由于没有
超级会员免费看
订阅专栏 解锁全文
1471

被折叠的 条评论
为什么被折叠?



