在预测问题中,给定一个新的数据点,预测错误的期望是多少?
假设数据是独立同分布地从一个潜在固定的概率分布中获取的,假设其分布函数为 P(<x,y>)=P(x)P(y∣x)P(<\textbf{x},y>) = P(\textbf{x})P(y|\textbf{x})P(<x,y>)=P(x)P(y∣x),我们的目标就是对任意给定的数据点 xxx, 求出EP[(y−h(x))2∣x],E_P[(y−h(\textbf{x}))^2|\textbf{x}],EP[(y−h(x))2∣x],其中,y 是数据集中 x\textbf{x}x 对应的值,期望是针对所有数据集,下标 P 表示所有数据集是从同一分布 P 中获取的。形式上,该值是某一点 x\textbf{x}x 在多个数据集上的预测错误的均值(期望)。
对于给定的假设集,我们可以计算出模型的真实错误(true error),也称泛化错误、测试错误∑xEP[(y−h(x))2∣x]P(x),\sum_{\textbf{x}}E_P[(y−h(\textbf{x}))^2|\textbf{x}]P(\textbf{x}),x∑EP[(y−h(x))2∣x]P(x),即为 所有数据点 在那个输入数据的潜在固定分布上的预测错误的期望。如果 x\textbf{x}x 为连续变量,则上述求和转化成积分形式。
我们接下来将把 真实错误(true error) 一分为三:真实错误 = 偏差 + 方差 + 噪声。\textbf{真实错误 = 偏差 + 方差 + 噪声。}真实错误 = 偏差 + 方差 + 噪声。
关于方差和期望的基本结论:
E[X2]=(E[X])2+Var[X]E(XY)=E(X)E(Y)+Cov(X,Y)E[X^2] = (E[X])^2 + V ar[X]\\E(XY) = E(X)E(Y) + Cov(X,Y)E[X2]=(E[X])2+Var[X]E(XY)=E(X)E(Y)+Cov(X,Y)
先做一个简单展开:
EP[(y−h(x))2∣x] =EP[(h(x))2−2yh(x)+y2∣x] =EP[(h(x))2∣x]+EP[y2∣x]−2EP[y∣x]EP[h(x)∣x],……(1)
E_P[(y−h(\mathbf{x}))^2|\mathbf{x}] \\\,\\= E_P [(h(\mathbf{x}))^2 − 2yh(\mathbf{x}) + y^2|\mathbf{x}]\\\,\\=E_P [(h(\mathbf{x}))^2|\mathbf{x}] +E_P[y^2|\mathbf{x}] -2E_P[y|\mathbf{x}]E_P[h(\mathbf{x})|\mathbf{x}],……(1)EP[(y−h(x))2∣x]=EP[(h(x))2−2yh(x)+y2∣x]=EP[(h(x))2∣x]+EP[y2∣x]−2EP[y∣x]EP[h(x)∣x],……(1)
上式中包含三项。令 h‾(x)=EP[h(x)∣x]\overline{h}(\mathbf{x})=E_P[h(\mathbf{x})|\mathbf{x}]h(x)=EP[h(x)∣x],表示点 x 在不同数据集上(分布P上)预测的均值(期望),则
第一项
运用方差的结论:平方的期望=期望的平方+方差
EP[(h(x))2∣x]=(h‾(x))2+EP[(h(x)−h‾(x))2∣x]。……(2)E_P [(h(\mathbf{x}))^2|\mathbf{x}]=(\overline{h}(\mathbf{x}))^2+E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}]。……(2)EP[(h(x))2∣x]=(h(x))2+EP[(h(x)−h(x))2∣x]。……(2)
第二项
运用方差的结论:平方的期望=期望的平方+方差
EP[y2∣x]=(EP(y∣x))2+EP[(y−f(x))2∣x]E_P [y^2|\mathbf{x}]=(E_P(y|\mathbf{x}))^2+E_P [(y-f(\mathbf{x}))^2|\mathbf{x}]EP[y2∣x]=(EP(y∣x))2+EP[(y−f(x))2∣x]
注意到 EP(y∣x)=EP(f(x)+ϵ∣x)=f(x)E_P(y|\mathbf{x}) = E_P(f(\mathbf{x})+\epsilon|\mathbf{x})=f(\mathbf{x})EP(y∣x)=EP(f(x)+ϵ∣x)=f(x),其中 ϵ∼N(0,σ)\epsilon\sim N(0,\sigma)ϵ∼N(0,σ),故上式化为
EP[y2∣x]=(f(x))2+EP[(y−f(x))2∣x]。……(3)E_P [y^2|\mathbf{x}]=(f(\mathbf{x}))^2+E_P [(y-f(\mathbf{x}))^2|\mathbf{x}]。……(3)EP[y2∣x]=(f(x))2+EP[(y−f(x))2∣x]。……(3)
将(2)(3)代入(1),得EP[(y−h(x))2∣x] =EP[(h(x))2∣x]+EP[y2∣x]−2f(x)h‾(x) =(h‾(x))2+EP[(h(x)−h‾(x))2∣x]+(f(x))2+EP[(y−f(x))2∣x]−2f(x)h‾(x) =EP[(h(x)−h‾(x))2∣x]+(f(x)−h‾(x))2+EP[(y−f(x))2∣x]。……(∗)E_P[(y−h(\mathbf{x}))^2|\mathbf{x}]
\\\,\\=E_P [(h(\mathbf{x}))^2|\mathbf{x}] +E_P[y^2|\mathbf{x}] -2f(\mathbf{x})\overline{h}(\mathbf{x})
\\\,\\=(\overline{h}(\mathbf{x}))^2+E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}] \\+ (f(\mathbf{x}))^2+E_P [(y-f(\mathbf{x}))^2|\mathbf{x}] \\-2f(\mathbf{x})\overline{h}(\mathbf{x})
\\\,\\=E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}] +(f(\mathbf{x})-\overline{h}(\mathbf{x}))^2 + E_P [(y-f(\mathbf{x}))^2|\mathbf{x}] 。……(*)EP[(y−h(x))2∣x]=EP[(h(x))2∣x]+EP[y2∣x]−2f(x)h(x)=(h(x))2+EP[(h(x)−h(x))2∣x]+(f(x))2+EP[(y−f(x))2∣x]−2f(x)h(x)=EP[(h(x)−h(x))2∣x]+(f(x)−h(x))2+EP[(y−f(x))2∣x]。……(∗)
大功告成!!!!!!!!!!!!!!!!!!!!!!!!!!!!
- EP[(h(x)−h‾(x))2∣x]E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}]EP[(h(x)−h(x))2∣x] 为 预测的 方差;
- (f(x)−h‾(x))2(f(\mathbf{x})-\overline{h}(\mathbf{x}))^2(f(x)−h(x))2 为 平方偏差;
- EP[(y−f(x))2∣x]E_P [(y-f(\mathbf{x}))^2|\mathbf{x}]EP[(y−f(x))2∣x] 为 噪声
本文探讨了预测问题中的期望误差,并将其分解为偏差、方差和噪声三个组成部分。通过数学推导展示了如何从给定数据点出发,计算出模型的真实错误。
1121

被折叠的 条评论
为什么被折叠?



