关于机器学习 Machine Learning中loss函数参数正则化的一点思考

最新推荐文章于 2025-07-13 22:06:47 发布

songyuc

最新推荐文章于 2025-07-13 22:06:47 发布

阅读量614

点赞数

CC 4.0 BY-SA版权

分类专栏： Machine Learning by Andrew Ng 机器学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/songyuc/article/details/98210999

机器学习同时被 2 个专栏收录

15 篇文章

订阅专栏

Machine Learning by Andrew Ng

9 篇文章

订阅专栏

本文探讨了机器学习中正则化的作用，通过对比原始损失函数与加入正则化项的损失函数，分析了正则化如何防止过拟合，并提出了正则化可能对模型泛化能力的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 致谢

感谢 Andrew Ng教授的讲述！

2 前言

今天在学习机器学习中对loss函数中的参数进行正则化~

3 关于机器学习中loss函数参数正则化

在机器学习中，有一项防止过拟合的技巧就是（参数）正则化，以平方误差函数为例，原始的loss函数为：
$J(\theta)=\frac{1}{2m} \sum_{i=1}^{m}\left ( h_\theta\left ( x^{\left ( i \right )}\right )- y^{\left ( i \right )} \right )^2$
而加上正则化项后的loss函数为，
$J(\theta)=\frac{1}{2m} \left [ \sum_{i=1}^{m}\left ( h_\theta\left ( x^{\left ( i \right )}\right )- y^{\left ( i \right )} \right )^2 +\lambda \sum_{j=1}^{n}\theta_j^2 \right ]$
可以看到，多了一个正则化项 $λ∑j=1nθj2\lambda \sum_{j=1}^{n}\theta_j^2$ ；
在学习的时候，常常听到学者说到，正则化并没有什么很具体的数学解释，这一点我是不认同的，其实从数学的角度来看，这并不是不能分析的，首先，我们把原始loss函数称为 $J1(θ)J_1(\theta)$ ，而加了正则化的loss函数称为 $J2(θ)J_2(\theta)$ ，两者的区别在于 $J2(θ)J_2(\theta)$ 多了对权值参数的惩罚项，所以不同loss函数往往会训练出不同的模型函数，（具体训练出的函数有什么根本性的不同，这里还需要进一步进行论证）；

不过我将在这里提出自己的一点猜想，首先 $J2(θ)J_2(\theta)$ 多了对所有参数的惩罚项，必然会减小绝对值大的参数值产生的概率，这就会使参数值的整体分布偏向于平均，也就是说，这样会防止模型过多地依赖于某个参数的值，于是，这似乎隐含着一个很重要的前提，那就是：我们认为每个参数对模型的贡献是平均的，而不认为模型会过多地依赖于其中某一个或某几个参数的值。

由此可以推论，如果某个模型的真实情况的确是过多的依赖于所有参数中的某几个参数，即：在真实模型函数中，存在一个或几个权值 $θi1,θi2,…,θij\theta_{i1},\theta_{i2},\dots,\theta_{ij}$ 与其它的权重值相差较大，例如：归一化之后仍然存在几千到上万倍的差距；则使用正则化则可能导致训练出来的模型具有更差的泛化能力。
以上推论是可以通过实验来进行判断的。