作业-随机森林

  1. 随机森林为何可以提高正确率, 且降低过拟合程度?
    随机森林是一种集成算法,它属于Bagging类型,通过组合多个弱分类器,最终结果通过投票或取均值。由于生成每棵树的时候,每棵树仅选取部分特征,而且对于样本也是有放回的选择,这样的随机性降低了过拟合程度。而且采用的是集成算法,本身精度得到加强。

  2. 决策树后剪枝可以怎么操作?
    为了提高决策树的泛化能力,需要对树进行剪枝,把过于细分的叶结点(通常是数据量过少导致噪声数据的影响增加)去掉而退回到其父节点或更高结点。
    预剪枝:在每一次实际对结点进行进一步划分之前,先采用验证集的数据来验证如果划分是否能提高划分的准确性。如果不能,就把结点标记为叶结点并退出进一步划分;如果可以就继续递归生成节点。
    后剪枝:后剪枝则是先从训练集生成一颗完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来泛化性能提升,则将该子树替换为叶结点。

3.决策树是几叉树与这颗决策树的分类数目有什么关系?
没有关系,决策树分为几叉仅跟特征有关系。

  1. 如果持征是连续的, 如何得到划分点?
    连续特征可以通过阈值来分,以基尼系数或信息增益作为度量,选择使度量值最大的候选划分点作为最佳划分点。

  2. 请解释Gini系数为何可以用于分类标准。
    因为也可以类似有信息增益的功效。信息增益也就是划分前的熵比划分后的熵的差值,差值越大说明下降越多。但是信息增益偏向值个数多的属性,所以提出了信息增益率,信息增益率是基于比值,但是就意味着偏向于个数少的属性,因为属性数目越小,固有值越大。基尼值是指从一个样本集中选择2个样本,这2个样本不属于同一类的概率,可以计算通过属性a划分后各样本集的基尼值和权重的积的和来衡量选择属性的判据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值