一、欠拟合与过拟合
加入对给定的一组样本xi和真实值yi,假如合适的特征应选为x1=xi,x2=xi2,预测值hθ(xi)h\theta(x_i)hθ(xi)=∑i=0i=2θixi\sum_{i=0}^{i=2}\theta_i x_i∑i=0i=2θixi=θ0+θ1xi+θ2xi2\theta_0+\theta_1 x_i+\theta_2 x_i^2θ0+θ1xi+θ2xi2,这样拟合出的曲线较为合适。则若把特征选为x1=xi,预测值hθ(xi)h\theta(x_i)hθ(xi)=∑i=0i=1θixi\sum_{i=0}^{i=1}\theta_i x_i∑i=0i=1θixi=θ0+θ1xi\theta_0+\theta_1 x_iθ0+θ1xi,就会丢失二次项,预测曲线与输入值的真实值可能会有较大的误差。此类拟合方式称为欠拟合。
而若把特征选为x1=xi,x2=xi2…x6=xi6,预测值hθ(xi)h\theta(x_i)hθ(xi)=∑i=0i=6θixi\sum_{i=0}^{i=6}\theta_i x_i∑i=0i=6θixi=θ0+θ1xi+θ2xi2...+θ6xi6\theta_0+\theta_1 x_i+\theta_2 x_i^2...+\theta_6 x_i^6θ0+θ1xi+θ2xi2...+θ6xi6,则对于给定的样本,预测曲线几乎完美符合。这是因为当特征数量较大,甚至大到与样本数量较接近时,接近直接解出多元高次方程,损失函数几乎失去意义。这会导致虽然预测曲线完美符合训练样本,但样本外的一般性输入,预测值会与真实值偏差值极大。此类拟合称为过拟合。
因此梯度下降等参数学习需要合适选取特征集,避免欠拟合和过拟合。
二、局部加权的原因
梯度下降回归多元线性回归的预测值hθ(x)h_\theta(x)hθ(x)为∑i=0i=nθixi\sum_{i=0}^{i=n}\theta_i x_i∑i=0i=nθixi(定义x0x_0x0=1,有x1~xn共n个特征)。
当要计算一个给定的检测点xk^\hat{x_k}xk^的预测值时,多元线性回归会先求出使12∑i=1i=m(hθ(xi)−yi)2\frac{1}{2}\sum_{i=1}^{i=m}(h_\theta(x_i)-y_i)^221∑i=1i=m(hθ(xi)−yi)2即m个样本的损失函数最小的θ^\hat\thetaθ^=[θ0,θ1...θn]T[\theta_0,\theta_1...\theta_n]^T[θ0,θ1...θn]T