豆瓣9.6分统计学神作ISL之第七章读书笔记(上),带你系统学习多项式回归、阶梯函数、基函数和回归样条

1.原文内容概要

想象一下,你已经在一条“笔直”的公路上飞驰了六章的距离,一路上你驾驶的都是线性模型这辆赛车——从最小二乘回归的老爷车到偏最小二乘回归的运动版,再到lasso回归ridge回归,甚至是主成分回归这些涡轮增压版本。但,它们都有一个共同的限制:那就是只能在直线赛道上竞速,无法应对那些复杂的非线性地形

线性模型就像是一种可靠的老伙计,它们的可解释性就像是一本打开的书,让你一目了然地理解每个变量如何影响结果,而它们的推断能力则像是一位经验丰富的侦探,帮你揭示数据背后的规律。但是,如果你想要的是预测能力——那种能够预见未来的能力,线性模型就可能显得有些力不从心了

现在,就在这一章节,我们准备升级我们的赛车,让它不再局限于笔直的道路。我们将放宽线性关系的限制,让赛车可以在曲折蜿蜒的山路上飙车,同时尽可能地保持它的稳定性,就像给你的赛车装上一套先进的导航系统,即便在最复杂的赛道上,你也能清楚地知道下一个弯道在哪里。

所以,坐稳了,准备好迎接非线性模型的狂野之旅吧,享受前所未有的速度与激情!

由于内容较多,第七章的笔记将分成【上】、【下】两个章节输出。本次先介绍【上】章的内容,主要包括多项式回归、阶梯函数、基函数和回归样条。

2.算法知识总结

2.1 多项式回归(Polynomial Regression)

首先,我们来探讨单变量回归的情形。一个一元线性回归模型可以表示为:
image.png
为了引入非线性特性,我们可以将自变量的 n n n阶多项式包含进模型中,形成多项式回归模型
image.png
在这里 d d d代表多项式的最高阶数。随着阶数 d d d的增加,模型更能捕捉到数据中的非线性关系,生成的曲线会变得越来越“蜿蜒曲折”

多项式回归实际上可以视为多元线性回归的一种特殊形式,其中自变量不仅仅是原始的 x i x_i xi,还包括它的平方 x i 2 x_i^2 xi2、立方 x i 3 x_i^3 xi3,直至 d d d阶的 x i d x_i^d xid。因此,这样的模型仍然可以通过最小二乘法来拟合。在实际应用中,多项式的最高阶数 d d d通常不会超过 3 或 4,因为过高的阶数可能导致模型过于复杂,难以解释,并且可能引起过拟合问题(Generally speaking, it is unusual to use d greater than 3 or 4)。

在多项式回归分析中,我们采用了工资数据集(Wage data),并将年龄(Age)作为自变量 X X X,工资(Wage)作为因变量 Y Y Y。在此示例中,作者选择了4阶多项式,即设置上述的模型参数 d d d等于4。回归结果如下图所示,图中的蓝色实线展示了通过4阶多项式回归得到的拟合曲线,而上下两条虚线则分别表示拟合曲线加减两倍标准差的范围,这可以视为模型预测的置信区间
image.png

那这两倍标准误差曲线怎么算出来的呢?
我们先从某个点的标准误差讲起。比如当我们要计算点 X = x 0 X=x_0 X=x0处的方差 V a r [ f ^ ( x 0 ) ] Var[\hat{f}(x_0)] Var[f^(x0)]时,其中 f ^ ( x 0 ) \hat{f}(x_0) f^(x0)表示为:
image.png
步骤如下所示:
1)首先,从最小二乘法拟合的模型中获取每个系数 β 0 , β 1 , β 2 , . . . , β p β_0, β_1, β_2, ... , β_p β0,β1,β2,...,βp的标准误差
2)其次,确定这些系数之间的协方差矩阵,因为预测值的不确定性不仅由单个系数的不确定性决定,还受到它们之间相互关系的影响;
3)然后,将这些标准误差和协方差矩阵代入一个公式(比较复杂,放在这儿有点辣眼睛,就交给统计软件吧)来推导预测值的方差;
4)最后,将得到的方差开根号,即可得到在 x 0 x_0 x0处的预测值的标准误差。

我们使用上述方法计算每个数据点的标准误差,然后在每个预测值 f ^ ( x i ) \hat{f}(x_i) f^(xi)上减去其对应的二倍标准误差,再将点连成线,即得到二倍标准误差曲线选择二倍的原因是,在随机误差项符合正态分布的假设下,加减二倍标准误差所构建的区间可以近似地表示95%的置信水平,即绝大部分观测值将落在此区间内。

从散点图中可以观察到,数据集呈现一项特征:工资(Wage)明显地分成两个区间,以250为分界。因此,我们可以将因变量 Y Y Y依据工资是否大于250划分为“高收入”和“低收入”两类,这样处理后因变量 Y Y Y转变为一个二元离散变量。在此种情形下,适用的模型不再是简单的线性回归,而是逻辑回归,模型表达式如下:
image.png
如图所示,蓝色实线展示了预测个体属于高收入类别的概率,而虚线则表示概率的两倍标准误差范围,灰色点代表各个样本数据点。另外从图中可见,在右侧的置信区间范围较宽。这主要是因为在所提供的样本数据中,标记为高收入的正样本数量非常有限。据作者描述,在3000个样本中,仅有79位被归类为高收入者。这一悬殊的比例导致了统计估计的不确定性增加,因而置信区间相对较大。
image.png

2.2 阶梯函数(Step Functions)

多项式函数通过在特征的线性模型中引入高次项,为数据添加全局非线性结构(Using polynomial functions of the features as predictors in a linear model imposes a global structure on the non-linear function of X)。这意味着多项式关系对所有 X X X值域内的点都适用。相比之下,分段函数方法将 X X X的值域分割成若干个区间(bins),有效地将连续变量X转换成一个有序的分类变量(This amounts to converting a continuous variable into an ordered categorical variable)。在每个区间内,我们拟合一个单独的线性方程,从而在整个 X X X的值域上构建一个由多个线性片段组成的非线性模型

如图所示,作者通过断点 c 1 , c 2 , . . . , c K c_1, c_2, ..., c_K c1,c2,...,cK将变量 X X X细分为 K + 1 K+1 K+

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值