欠拟合和过拟合
首先看下面的三幅图,
第一幅拟合为了
y=θ0+θ1x
的一次函数
第二幅拟合为了
y=θ0+θ1x+θ2x2
的二次函数
第三幅拟合为了
y=∑5j=0θjxj
的五次项函数
最左边的分类器模型没有很好地捕捉到数据特征,不能够很好地拟合数据,我们称为欠拟合
而最右边的分类器分类了所有的数据,也包括噪声数据,由于构造复杂,后期再分类的新的数据时,对于稍微不同的数据都会识别为不属于此类别,我们称为过拟合
局部加权回归
局部加权回归是一种非参数学习算法,这使得我们不必太担心对于自变量最高次项的选择
我们知道,对于普通的线性回归算法,想要预测
x
点的
- 通过拟合θ来找到 ∑i(y(i)−θTx(i))2 的最小值
- 预测的值为 θTx
对于局部加权回归算法,我们通过下列步骤预测 y 的值:
- 通过拟合θ来找到
∑iw(i)(y(i)−θTx(i))2 的最小值- 预测的值为 θTx
这里的 w(i) 是权重,它并非一个定值,我们通过调节 w(i) 的值来确定不同训练数据对结果的影响力,
当 w(i) 很小时,它对应的 y(i)−θTx(i) 也很小,对结果的影响也很小;
而当它很大时,其对应的 y(i)−θTx(i) 也很大,对结果的影响很大。
w(i) 的计算方法有很多种,其中一种公式为:
w(i)=exp(−(x(i)−x)22τ2)
它很像高斯分布,函数图类似下图,要预测的点 x 对应的中间的顶点处的自变量,可以看出,离x 处越近的地方 w(i) 值越大,越远的地方 w(i) 越小,这就使得离 x <script type="math/tex" id="MathJax-Element-4007">x</script>处近的数据对预测结果的影响更大。