一个大小为N的数据集D.
1.有一个问题是, 对于随机森林的每一棵CART树是怎么训练的, 如何划分训练集测试集?
Bootstrap, 对数据集随机有放回抽样N次作为一棵CART树的训练集.
根据概率论,可知数据集中有大约1/3的数据是没有被选取的(称为Out of bag),所以就是这没被选取的部分作为小树的测试集.
2. 接下来的问题是, 怎么测试随机森林的性能, 测试集是什么?
这里其实理解的有偏差: 随机森林有一个重要的优点
一个大小为N的数据集D.
1.有一个问题是, 对于随机森林的每一棵CART树是怎么训练的, 如何划分训练集测试集?
Bootstrap, 对数据集随机有放回抽样N次作为一棵CART树的训练集.
根据概率论,可知数据集中有大约1/3的数据是没有被选取的(称为Out of bag),所以就是这没被选取的部分作为小树的测试集.
2. 接下来的问题是, 怎么测试随机森林的性能, 测试集是什么?
这里其实理解的有偏差: 随机森林有一个重要的优点