提前终止法与正则化法之间关系

最新推荐文章于 2025-01-11 09:07:01 发布

原创

最新推荐文章于 2025-01-11 09:07:01 发布 · 911 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#提前终止法 #正则化

本文探讨了提前终止法和正则化法在优化过程中的关系，通过数学分析证明在特定条件下，两种方法可以达到近似等价。通过对比两种方法的迭代轨迹和性能指标，揭示了它们在控制过拟合方面的相似性，并给出了迭代次数与正则化参数之间的近似转换关系。

文章目录

前言

前两篇博客（从贝叶斯角度理解正则化、正则化）分别介绍了提前终止法和正则化法。

它们可以近似等价的吗？怎么近似等价？

左边这张图轮廓线表示负对数似然函数的轮廓，虚线表示从原点开始的SGD所经过的轨迹。提前终止法的轨迹在较早的$\tilde \omega $点终止，而不是在停止在最小化代价的点$ {\omega ^{\text{*}}}$处；
右边这张图使用了L2正则化法。虚线圆圈表示L2惩罚的轮廓，L2惩罚使得总代价的最小值比非正则化代价的最小值更靠近原点。
可以看出，两种方法近似等价。

接下来对两者进行分析。

提前终止法分析

新文档 2019-11-09 17.19.43.jpg

对于上图所示的单层线性网络，该线性网络的均方误差性能函数时二次的，即：

$d^{T}x + \frac{1}{2}x^{T}\text{Ax}$

其中，为Hessian矩阵。

① 为了研究提前终止法性能，我们将分析最速下降法在线性网络上的演化。由式10.16知性能指标的梯度：

$\nabla F(x) = Ax + d$

最速下降法：

$x_{k + 1} = x_{k} - \alpha g_{k} = x_{k} - \alpha(Ax_{k} + d)$

对于二次性能指标，极小值出现在下面的点：

$x^{\text{ML}} = - A^{- 1}d$

上标ML表示结果使似然函数极大化同时使误差平方和极小化。则

${x_{k + 1} = x_{k} - \alpha(Ax_{k} + d)}\\{\text{}= x_{k} - \alpha A(x_{k} + A^{- 1}d)}\\{\text{} = x_{k} - \alpha A(x_{k} + x^{\text{ML}})}\\{\text{} = \left\lbrack I - \text{αA} \right\rbrack x_{k} + \alpha Ax^{\text{ML}}}\\{\text{} = Mx_{k} + \left\lbrack I - M \right\rbrack Ax^{\text{ML}}}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。