=============The Problem of Overfitting===============
1.bias大,underfittign
variance大,overfitting

2.logistic回归中的过拟合,注意其函数是logistic,而参数是非线性。因为本身图是线性不可分(除最左)

3.overfitting是由于特征选取太多。或者删掉部分特征(自动算法);或者regularization

=============Regularization Cost Function============
1.因为θ3,θ4的引入会造成过拟合,所以,在Cost Function里面,增加两项。
这样为使得Cost Function极小,则θ3,θ4越小越好。这样既考虑了特征x3,x4,又解决了
过拟合问题。

2.对于现实总上百个特征,我们也不知道该“收缩”哪个特征,干脆在花费函数里
都“收缩”。

3.下图是加上“收缩”项的结果,粉色图。注意"人"起调节粉红线的作用。

4."人"太大,则θ会很小,于是只剩常数项,underfitting

============Regularized
Linear Regression============
1.在加入了regulariztion的cost funciton中,新的梯度下降如下:
实际左右---每次用更小的θ(0.99*θ)去减

2.对于Nomal Equations方法来说,此时求cost funciton中的θ,
则用下述公式:

==========Regularized Logistic Regression================
1.对于Logistic Regression,加入regulariztion后,粉色线才更合理

2.在加入了regulariztion的cost funciton中,新的梯度下降如下:

3.在加入了regulariztion的cost funciton中,新的梯度下降求
θ,使得J(θ)最小的伪码实现。注意:costFunction定义好后要作为fminus的参数

图中,jval表示cost function 表达式,其中最后一项是参数θ的惩罚项;下面是对
各θj求导的梯度,其中θ0没有在惩罚项中,因此gradient不变,θ1~θn分别多了
一项(λ/m)*θj;至此,regularization可以解决linear和logistic的overfitting regression
问题了~
本文探讨了机器学习中过拟合的问题及其解决方案——正则化。详细介绍了正则化如何应用于线性回归和逻辑回归中,并通过调整参数来避免过拟合,确保模型泛化能力。
4904

被折叠的 条评论
为什么被折叠?



