利用NRAE - MSE训练方法克服多层感知器训练中的局部极小问题
1. 引言
在监督学习下训练多层感知器(MLP)时,通常的目标是找到MLP的权重向量 $w$,使得均方误差(MSE)准则最小化。MSE的计算公式为:
$Q(w) = \frac{1}{K} \sum_{k=1}^{K} ||y_k - \hat{f}(x_k, w)||^2$
如果MLP $\hat{f}(x_k, w)$ 关于 $w$ 是非线性的,那么MSE准则 $Q(w)$ 通常是非凸的,并且存在非全局的局部极小值。
为了避免这些局部极小值,之前提出了风险规避误差(RAE) $J_{\lambda}(w)$,其定义为:
$J_{\lambda}(w) := \sum_{k=1}^{K} \exp(\lambda ||y_k - \hat{f}(x_k, w)||^2)$
研究证明,$J_{\lambda}(w)/\lambda$ 的凸性区域会随着 $\lambda$ 的增加而严格扩大,并且 $\lim_{\lambda \to 0} \frac{1}{\lambda} \ln(\frac{1}{K} J_{\lambda}(w)) = Q(w)$。然而,$J_{\lambda}(w)$ 是 $\lambda ||y_k - \hat{f}(x_k, w)||^2$ 的指数函数,当 $\lambda$ 较大时,会出现计算机寄存器溢出的问题。
因此,引入了归一化的RAE(NRAE) $C_{\lambda}(w)$:
$C_{\lambda}(w) := \frac{1}{\lambda} \ln(\frac{1}{K} J_{\lambda}(w))$
超级会员免费看
订阅专栏 解锁全文
291

被折叠的 条评论
为什么被折叠?



