神经波机器的扩展研究成果
1. 损失函数梯度与假设条件
损失函数 $\xi$ 相对于任意参数 $\theta$ 的梯度满足:
$\left| \frac{\partial \xi}{\partial \theta} \right| \leq \frac{3}{2} (m + \bar{X}m^{3/2})$
其中,$\bar{X} = \max_n ||\bar{x} n|| {\infty}$。
同时,为使边界条件成立,需要满足如下假设:
$\max \left( \frac{\Delta t (1 + ||\mathbf{W}|| {\infty})}{1 + \Delta t}, \frac{\Delta t ||\mathcal{W}|| {\infty}}{1 + \Delta t} \right) \leq \Delta t^r, \ \ \ \frac{1}{2} \leq r \leq 1$
原耦合振荡循环神经网络(coRNN)在训练过程中能满足该假设,我们推测神经波机器(NWM)也可能满足。在 sMNIST 数据集的初步实验中,当 $\Delta t = 0.042$ 且 $r=\frac{1}{2}$ 时,NWM 在训练过程中该假设相关量的最大值(0.157)低于 coRNN(0.188),且两者均低于上限(0.205)。
2. $\Delta t$ 参数的影响
$\Delta t$ 参数不仅会影响数值积分,还会影响网络隐藏状态的更新速度。因此,和 coRNN 一样,建议将 $\Delta t$ 作为超参数进行调整。以下是不同 $\Delta
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



