在单元 (unimodal) 目标变量的线性模型中,MLE (Maximum likelihood) 和 Least Squares (最小二乘法) 是常用的两种估计模型参数向量 W 的解法。他们都有个共同点,求解得到的参数向量 W 能够保证估计的目标值和观测得到的目标值之间的误差最小。但是单纯的考虑误差最小化得到的模型会有过拟合现象,也就是预测效果会很差。为了解决这个问题,在目标函数中往往都会考虑加入正则项。这篇博文正是为了记录哪些正则是比较常用的,以及他们所能达到的效果。以最小二乘误差函数为例,观测值 t 由两部分组成,真实值和随机误差项:
由于照成实验误差的因素会很多,通常会假设这些误差会线性叠加而成,这样跟据中心极限定理,随机误差项会服从正太分布。在没加入正则项之前目标函数可以表示为,其实是N个服从独立同分布假设的样本的似然函数。
通过MLE,我们可以得到回归模型权重参数 W 的最小二乘解 或者 通过不同的在线学习算法 (Sequential Learning 如 Stochastic Gradient Decent)。最小二乘的目标就在于寻找一个参数向量 W 使得估计值和观测目标值的误差最小。但如果观测得到的样本数量非常小的话,参数向量 W 中的某几个维度上的值会非常的大,从而造成过拟合。解决过拟合的常用

本文介绍了最小二乘法在处理线性模型时可能出现的过拟合问题,并探讨了如何通过引入正则项来解决这一问题。常见的正则项包括二次正则项(权重衰减)、L1正则项(lasso),它们在统计学中分别对应于参数收缩。正则化不仅有助于防止过拟合,还可以学习到稀疏模型。不同类型的正则项对应不同的效果,例如L1正则项能产生稀疏权重矩阵。文章还提到了正则化的其他形式,如深度学习中的dropout技术。
最低0.47元/天 解锁文章
3621

被折叠的 条评论
为什么被折叠?



