决策树

决策树是非线性有监督分类模型
决策树的生成取决于数据
决策树的生成:数据不断分裂和递归的过程,每一次分裂,尽可能让类别一样的数据在树的一边,当树的叶子结点的数据是一类的时候,则停止分类。
决策树必须处理离散数据。
要把连续数据处理为离散数据。
决策树的分割条件,通过不断的尝试去提升分割后的纯度。
判断纯度的指标

  1. 基尼系数(分类)

  2. 熵(分类)

  3. 方差(回归)
    决策树缺点:

  4. 运算量大,加载全部数据,并寻找分割条件,计算量超级大。

  5. 样本出现异常数据时候,将会对决策树产生很大的影响,抗干扰能力差。
    决策时最后只能返回某个类别,不像逻辑回归返回概率
    决策树的过拟合体现在叶子结点过多,分类过细。
    为了解决过细,采取剪枝措施
    剪枝分为预剪枝,和后剪枝。
    预剪枝:生成决策树之前采取措施

  6. 设置层次

  7. 控制样本数量(比如若分开后叶子结点样本数小于100,就不分了)

随机森林

随机:生成树的数据是从数据集中随机选取的
森林:由树组成
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值