WARMING
这篇文章中Bootstrap指的是机器中一类减小预测误差的技巧,不是前端开发框架。
定义
Bootstrap aggregation又称Bagging,是一种重采用技术,用于减小预测误差。
从一个分布P中获取m组采样,用这个m组采分别训练m个模型,现在有一个新xx,要预测它对应的值,这m个模型预测结果的算术平均数的预测误差,比其中一个模型的预测误差小。
为什么能减少误差
为什么重采样能减少误差,下面请看数学推导。
观测数据(x(1)1,y(1)1),...(x(1)n,y(1)n)(x1(1),y1(1)),...(xn(1),yn(1))从一个分布P从采用得到第一组采样,并满足i.i.d(i.i.d指数据从同一个分布中,随机采样获得)
现在有一个新的xx,第组模型的预测值为Y1Y1
从分布P取mm组取样,表示第m组采用,
采用均方误差,误差的期望为:
E((Y−y)2)=σ2(Y)E((Y−y)2)=σ2(Y)
m组模型的算术平局数ZZ为
ZZ误差的期望是
由上可知道ZZ的误差是单个模型误差的
实际运用
上面从分布P中采了m组样本,但是实际上不能做到的,在实际中我们只有一组观测集,那怎么办呢?
方法是从观测集中随机采样,组成m组训练数据。
(xki,yki)∼uniform(D)(xik,yik)∼uniform(D)