对于一个监督学习模型来说,过小的特征集合使得模型过于简单,过大的特征集合使得模型过于复杂。
对于特征集过小的情况,称之为欠拟合(underfitting);
对于特征集过大的情况,称之为过拟合(overfitting)
解决此类学习问题的方法:
1) 特征选择算法:一类自动化算法,在这类回归问题中选择用到的特征
2) 非参数学习算法:缓解对于选取特征的需求,引出局部加权回归
与上一节的差别在于:图片来源于:Stanford机器学习---第二讲. 多变量线性回归 Linear Regression with multiple variable
1、局部加权回归(大样本不适用)
对所需要预测的x附近进行预测,因此每次都要做一次拟合。
在线性回归的基础上加上权重,以下的权重函数并不是唯一的
假设权重符合分布规律:
就有了新的目标函数
从式子可以看出,离x比较远的权重小,只对局域内的样本做拟合。
2、概率解释
复习一下:
在线性回归中,为什么选择最小二乘作为计算参数的指标,使得假设预测出的值和真正 y 值之间面积的平方最小化?
假设线性函数:
后者为 误差,也可以理解为噪声。假设 服从某个概率分布,如高斯分布(正态分布):
,表示一个均值是 0 ,方差是
的高斯分布。
高斯分布的概率密度函数:
根据上述两式可得:
假设 的似然性为L(
)(即给定 x(i) 以为参数的 y(i) 的概率):
上面已假设误差分布是独立的,故
因此极大似然法估计,也就是使得数据的概率尽可能的大,则
定义对数似然函数为
后面一项就是上一讲所讲的J。也就证明了之前的最小二乘法计算参数,实际上是假设了误差项满足高斯分布,且独立同分布的情况,使似然最大化来计算参数。
3、logistic函数:二元分类算法
即因变量为
选择函数
所以:
g函数就是logistic函数。
假设:
对数似然函数:
要使其最大,可以考虑梯度上升法,上一讲里的
即:
看似和上一节的很想,但事实上是不一样的,因为h此处是logistic函数。
4、对于感知器算法并没有非常详细说明,待了解后再写一篇。
同类文章推荐:【机器学习-斯坦福】学习笔记3 - 欠拟合与过拟合概念