一、为什么要有放回抽样,而不是无放回?
- 保证数据量。假设总共有10w条样本,采用无放回抽样,用100颗树,这样每棵树最多只能用1000条样本。
- 如果不放回抽样,那么每棵树用的样本完全不同,基学习器之间的相似性过小,投票结果差,模型偏差大
二、怎么样给出特征重要性的?
- 对于每棵决策树,用袋外数据计算它的袋外数据误差,记为err1err1err1
- 随机地对袋外数据所有样本的特征XXX加入噪声干扰(就可以随机的改变样本在特征X处的值),再次计算它的袋外数据误差,记为err2err2err2
- 假设随机森林中有NNN棵树,那么特征XXX的重要性就等于1N∑(err2−err1)\frac{1}{N}\sum(err2-err1)N1∑(err2<

最低0.47元/天 解锁文章
382

被折叠的 条评论
为什么被折叠?



