神经网络梯度因子中心化的实验研究
1. 引言
在神经网络训练中,高学习率常引发稳定性问题,而梯度因子中心化是一种有潜力的解决方法。本文将介绍梯度因子中心化的相关技术,以及通过实验研究其对前馈神经网络收敛速度、可靠性和泛化性能的影响。
2. 梯度因子中心化方法
2.1 单遍批量更新
单遍批量更新可通过展开完全中心化批量权重更新的三重积来实现精确中心化。以 $f_j’$ 表示 $f_j’(y_j)$,权重更新公式如下:
$\Delta w_{ij} \propto \langle (x_i - \langle x_i \rangle)(\gamma_j - \langle \gamma_j \rangle)(f_j’ - \langle f_j’ \rangle) \rangle$
$= \langle x_i\gamma_jf_j’ \rangle - \langle x_i \rangle \langle \gamma_jf_j’ \rangle - \langle \gamma_j \rangle \langle x_if_j’ \rangle - \langle x_i\gamma_j \rangle \langle f_j’ \rangle + 2 \langle x_i \rangle \langle \gamma_j \rangle \langle f_j’ \rangle$
除了普通的批量权重更新项 $\langle x_i\gamma_jf_j’ \rangle$ 和个体平均值 $\langle x_i \rangle$、$\langle \gamma_j \rangle$、$\langle f_j
超级会员免费看
订阅专栏 解锁全文
2230

被折叠的 条评论
为什么被折叠?



