本文章基本是对https://stats.stackexchange.com/questions/130998/explanation-of-formula-for-median-closest-point-to-origin-of-n-samples-from-unit 的翻译。
解决问题为Element of Statistical Learning (ESL, https://web.stanford.edu/~hastie/ElemStatLearn/)课后习题2.5.
题目简介
使用最小二乘法可以得到一个线性回归模型,然后使用得到的模型可以得到预测输出,这里面讨论这个预测输出和目标值之间的误差期望。
书中给出了公式却没有推导,作为课后题的形式出现。公式如下:
其中EPE为expected prediction error,期望预测误差的缩写。N为样本数,p为输入维度, X 为训练集。假设目标函数为
题外话稍微分析一下两个公式,在基于多种假设的情况下,预测误差与输入有关,取决于
x0 与 X 的相关程度。一个定性的结论是x0 越接近 X 中心,误差期望越小。这个也符合直觉,不同于knn是local method,least square是用训练集的X^TX去近似整个输入域的E(X^TX),类似的还有XY近似整个输入输出域的E(XY),所以这个近似在训练集所在邻域准确性高,误差小。
再看整个输入域的预测误差期望,这个可以近似常说的complexity。这个公式结论的得出是基于N足够大,X的选取足够随机,X的均值为0等强假设的。虽然假设不一定成立,但是得到强假设条件下的结论,有助于对模型进行定性的分析,况且上诉假设中的部分可以通过预处理、控制采样过程等方法近似执行。全域的预测误差期望最终的公式非常简洁,其中δ 为问题原有参数,不可控制,可看到最终期待误差随p增大递增,N增大递减,p和N之间是线性关系(这里就不同于knn的指数关系了,所以对于高维数据有限样本数,least square是要优于knn的)。公式推导
1. 解最小二乘法
对MSE(mean square error)求导,导数为0的点即为最优解。
β^=argminβ(XTβ−Y)T(XTβ−Y)∂(XTβ−Y)T(XTβ−Y)∂β=2(XTβ−Y)TXT=0β^=(XXT)−1XY=(XXT)−1X(XTβ+ϵ)=β+(XXT)−1Xϵ这里还有些题外话:得到最优解之后其实可以稍微分析一下最优解的性质。可以看出 Eτβ^=β ,所以在上诉n多假设满足的条件下,最优解的期望是和目标值相同的。而 β^ 的协方差为
Cov(β^)======Eτ((XXT)−1Xϵ)(XXT)−1Xϵ)TEτ((XXT)−1XϵϵTXT(XTX)−1)EX