《统计学习方法》笔记——回归

本文介绍了线性回归的基本原理,包括求解回归系数的方法及其优缺点。同时,文章还讨论了局部加权线性回归和岭回归等改进方法,旨在解决线性回归在实际应用中的局限性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

线性回归

线性回归简洁的说就是将输入项分别乘以一些常量,再将结果加起来,得到输出。
求解回归系数:选择使得平方误差最小的W(回归系数)。
平方误差可以写作:

i=1m(yixTiw)2

用矩阵表示还可以写做 (yXw)T(yXw) 。如果对W求导,得到 XT(YXw) ,令其等于0,解出W如下:
w^=(XTX)1XTy

w上方的hat标记表示这是当前可以估计出的w的最优解。

求解最优w还可以使用OLS,意思是“普通最小二乘法”。
度量回归方程的好坏:可以使用预测值和原始值的相关度来进行度量。

优点:结果易于理解
缺点:对非线性的数据拟合不好
适用数据类型:数值型和标称型数据

局部加权线性回归

线性加权存在欠拟合现象。因此,在有些方法中允许在估计中引入一些偏差,从而降低预测的均方误差。局部加权线性回归就是其中的一个方法。
局部加权线性回归:每次预测均需要事先选取出对应的数据子集,给定待预测点附近的每个点赋予一定的权重,在这个自己上基于最小均方差来进行普通的回归。
回归系数w的形式如下:

w^=(XTWX)1XTWy

其中,W是一个矩阵,用来给每个数据的赋予权重。

局部线性回归使用“”来对附近的赋予更高的权重。核的类型可以自由选择,最常使用的就是高斯核,高斯核对应的权重如下:

w(i,i)=exp(xix2k2)

这样就构建了一个只含对角元素的权重矩阵W,并且点x与x(i)越近,w(i,i)将会越大。其中参数k( 平滑值)决定了对附近的点赋予多大的权重。

优点:一定程度的解决了线性回归的欠拟合问题。
缺点:计算量大,每次必须在整个数据集上运行。也就是说为了做出预测,必须保存所有的训练数据。

岭回归

为了解决特征比样本点还多的问题,也就是瘦输入数据的矩阵X不是满秩矩阵的问题,即无法求逆的问题。引入了岭回归的概念。

岭回归:在矩阵 XTX 上加入一个 λI 从而使得矩阵非奇异,进而能对 XTX+λI 求逆。其中 I 是一个m*m的单位矩阵,对角线上的元素全为1,其他元素全为0。而λ是一个由用户定义的数值,通过多次实验,选择使得预测误差最小的 λ
回归系数的计算公式变为:

w^=(XTX+λI)1XTy

岭回归的应用:1)特征数目多余样本数目的情况;2)在估计中加入偏差,从而得到更好的估计。通过增加罚项,可以减少不重要的参数,即 缩减

还有一些其他的缩减方法,如lasso,LAR,PCA回归以及子集选择等。与岭回归一样,这些方法不仅能提高预测精确率,而且可以解释回归系数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值