WARMING
这篇文章中Bootstrap指的是机器中一类减小预测误差的技巧,不是前端开发框架。
定义
Bootstrap aggregation又称Bagging,是一种重采用技术,用于减小预测误差。
从一个分布P中获取m组采样,用这个m组采分别训练m个模型,现在有一个新
x
x
,要预测它对应的值,这m个模型预测结果的算术平均数的预测误差,比其中一个模型的预测误差小。
为什么能减少误差
为什么重采样能减少误差,下面请看数学推导。
观测数据
(x(1)1,y(1)1),...(x(1)n,y(1)n)
(
x
1
(
1
)
,
y
1
(
1
)
)
,
.
.
.
(
x
n
(
1
)
,
y
n
(
1
)
)
从一个分布P从采用得到第一组采样,并满足i.i.d(i.i.d指数据从同一个分布中,随机采样获得)
现在有一个新的
x
x
,第组模型的预测值为
Y1
Y
1
从分布P取
m
m
组取样,表示第m组采用,
采用均方误差,误差的期望为:
E((Y−y)2)=σ2(Y)
E
(
(
Y
−
y
)
2
)
=
σ
2
(
Y
)
m组模型的算术平局数
Z
Z
为
Z
Z
误差的期望是
由上可知道
Z
Z
的误差是单个模型误差的
实际运用
上面从分布P中采了m组样本,但是实际上不能做到的,在实际中我们只有一组观测集,那怎么办呢?
方法是从观测集中随机采样,组成m组训练数据。
(xki,yki)∼uniform(D)
(
x
i
k
,
y
i
k
)
∼
u
n
i
f
o
r
m
(
D
)