正则化解决过拟合问题-优快云博客

本文链接：https://blog.youkuaiyun.com/Fancy_Real/article/details/80321543

第一次排版有误，给各位造成困扰了，现已更新

想法

由于训练模型选择的过于复杂，或是训练数据集包含无用的数据，导致假设函数对于训练数据集拟合效果极好，然而对于测试数据集或预测的数据出现较大偏差。
对于上述问题，如果将训练模型简化，或者将无用数据剔除，就能改善这个问题。
正则化是通过某种“惩罚”措施，选择较小的 $\theta$ 值作为参数，从而达到模型的简化和数据的剔除。

数学表示

$J(\theta)=\frac{1}{2m}[\sum_{i=1}^m(h_\theta(x^i)-y^i)^2+\lambda \sum_{j=1}^n\theta^2_j]$
其中 $\sum_{i=1}^m(h_\theta(x^i)-y^i)^2$ 为了拟合数据集， $\lambda \sum_{j=1}^n\theta^2_j$ 为了得到较少的参数， $\lambda$ 为正则化参数，一般是一个较大的数字，用于平衡假设函数的拟合程度与简洁程度。
1. 线性回归
线性回归时，如果采用梯度下降算法，则有
$\theta_j = \theta_j(1-\alpha\frac{\lambda}{m})-\alpha\frac{1}{m}\sum^m_{i=1}(h_\theta(x^i)-y^i)x^i_j, \ j \in (0, n]$
采用正规方程，则有
$\theta = \left(X^TX+\lambda \left[ \begin{array}{5} 0 \\ & 1 \\ & & 1 \\ & & & \ddots \\ & & & & 1 \end{array} \right]\right) ^ {-1}X^TY, \ (\lambda > 0)$
2. 逻辑回归
采用梯度下降算法，则有
$\theta_j = \theta_j(1-\alpha\frac{\lambda}{m})-\alpha\frac{1}{m}\sum^m_{i=1}(h_\theta(x^i)-y^i)x^i_j, \ j \in (0, n]$
注意：其中的 $h_\theta(x^) = \frac{1}{1+e^{-\theta^TX}}$ 与线性回归时的区别