欠拟合与过拟合
假设一种情况,根据x预测y
(a):使用y=θ0+θ1x1y=θ0+θ1x1去匹配数据,过于拟合数据,丧失了预测性。
所以(a)代表了欠拟合(underfitting),(c)代表了过拟合(overfitting),这也说明了在监督学习中特征的选择会对学习算法的性能产生很大的影响。
参数化与非参数化
参数学习算法
Parametric Learning algorithm
始终由固定的参数拟合数据。
如:线性回归(Linear regression)
(to evaluate h(x)h(x)
非参数学习算法
Non-parametric Learning algorithm
参数的数量不是恒定的,有时为了更好地实现假设,会随着训练集合数量的变化而线性变化。
如:局部加权回归(Locally weight regression)
(to evaluate h(x)h(x)
局部加权回归(Locally weight regression)
公式:∑iw(i)(y(i)−θTx(i))2∑iw(i)(y(i)−θTx(i))2
w(i)w(i)与高斯函数没有任何关系,而且局部加权回归在大规模数据中的性能并不优秀,但是也有优化的方法。
线性模型的概率解释(Probabilistic interpretation)
为什么要在回归问题中使用最小二乘法?
首先引入误差(error term)概念,假设:
y(i)=θTx(i)+ε(i)y(i)=θTx(i)+ε(i)的值不会影响我们的最终结果(因为所求的是θ,只要代价函数最小,就可以确定θ的值)。
Logistic回归(Logistic regression)
首先学习二元分类问题(binary classification),y只有0,1两个取值。对于分类问题使用线性回归是一个十分糟糕的选择,因为直线会由于数据因素而无法将样本正确地分类。
因为y∈{0,1}y∈{0,1}是logistic函数。
感知学习算法(Perceptron learning algorithm)
logistic函数是曲线变化的,我们想要更加明确地将输出分为0,1两类,就要用到阶梯函数/临界函数(threshold function)来代替logistic函数。
可以算得上是一个“简单粗暴“的算法…