ESL作业笔记2.5:最小二乘法预测输出的误差期望

本文详细探讨了最小二乘法在机器学习中用于线性回归时,预测输出与实际值之间的误差期望。通过公式推导,解释了预测误差与输入变量的关系,并分析了全局预测误差期望在不同条件下的表现。文章还讨论了在大样本和随机采样情况下,误差期望如何随着特征维度p和样本数N的变化而变化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文章基本是对https://stats.stackexchange.com/questions/130998/explanation-of-formula-for-median-closest-point-to-origin-of-n-samples-from-unit 的翻译。
解决问题为Element of Statistical Learning (ESL, https://web.stanford.edu/~hastie/ElemStatLearn/)课后习题2.5.


题目简介

使用最小二乘法可以得到一个线性回归模型,然后使用得到的模型可以得到预测输出,这里面讨论这个预测输出和目标值之间的误差期望。
书中给出了公式却没有推导,作为课后题的形式出现。公式如下:

EPE(x0)=δ2+EτxT0(XTX)1x0δ2,Ex0EPE(x0)=δ2(p/N)+δ2

其中EPE为expected prediction error,期望预测误差的缩写。N为样本数,p为输入维度, X 为训练集。假设目标函数为 Y=XTβ+ϵ ,并且 ϵN(0,δ) 。模型为 y^=xTβ^ EPE(x0) 为输入为 x0 的时候期望预测误差, Ex0EPE(x0) 对所有可能输入求取预测误差的期望值。假设 X 分布的均值期望为0。

题外话稍微分析一下两个公式,在基于多种假设的情况下,预测误差与输入有关,取决于 x0 X 的相关程度。一个定性的结论是 x0 越接近 X 中心,误差期望越小。这个也符合直觉,不同于knn是local method,least square是用训练集的X^TX去近似整个输入域的E(X^TX),类似的还有XY近似整个输入输出域的E(XY),所以这个近似在训练集所在邻域准确性高,误差小。
再看整个输入域的预测误差期望,这个可以近似常说的complexity。这个公式结论的得出是基于N足够大,X的选取足够随机,X的均值为0等强假设的。虽然假设不一定成立,但是得到强假设条件下的结论,有助于对模型进行定性的分析,况且上诉假设中的部分可以通过预处理、控制采样过程等方法近似执行。全域的预测误差期望最终的公式非常简洁,其中 δ 为问题原有参数,不可控制,可看到最终期待误差随p增大递增,N增大递减,p和N之间是线性关系(这里就不同于knn的指数关系了,所以对于高维数据有限样本数,least square是要优于knn的)。

公式推导

1. 解最小二乘法

对MSE(mean square error)求导,导数为0的点即为最优解。

β^=argminβ(XTβY)T(XTβY)(XTβY)T(XTβY)β=2(XTβY)TXT=0β^=(XXT)1XY=(XXT)1X(XTβ+ϵ)=β+(XXT)1Xϵ

这里还有些题外话:得到最优解之后其实可以稍微分析一下最优解的性质。可以看出 Eτβ^=β ,所以在上诉n多假设满足的条件下,最优解的期望是和目标值相同的。而 β^ 的协方差为

Cov(β^)======Eτ((XXT)1Xϵ)(XXT)1Xϵ)TEτ((XXT)1XϵϵTXT(XTX)1)EX
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值