决策树(Decision Tree)理解及参数介绍

本文深入探讨了决策树的算法过程,包括递归返回、划分选择及其评价标准如信息熵、信息增益、增益率和基尼指数。接着介绍了`tree.DecisionTreeClassfier`、`tree.DecisionTreeRegressor`和`tree.ExtraTreeClassifier`等模型的参数,如criterion、splitter、max_depth等,并讨论了极端随机树与传统决策树的区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.算法过程

  • 决策树的生成是一个递归过程。

1.1递归返回

  • 叶节点生成过程
  1. 当前节点样本全属于同一类,无需划分
  2. 当前属性集为空或者所有样本在所有属性上取值相同,无法划分,并设置为所含样本最多的类别
  3. 当前节点样本为空,不能划分,并设置为++父节点++所含样本最多类别

1.2伪代码

定义函数TreeGenerate,输入为样本集D和属性集A;
节点node;
if D中样本全为同一类别C,then node=C,return; # 无需划分
if A is null or D在A上取值相同,then node=D中样本最多的类;# 无法划分
找到最优划分属性a;
遍历(for)属性a中每一个值,av为其中一个值;
从node上生成新分支node1,Dv表示样本D在属性a上取值为av的子集;
if Dv is null, then node1设置为叶节点,标记为D中样本最多的类,return;# 不能划分
else 执行函数TreeGenerate,输入为Dv和去掉a后的A* # 递归过程
遍历(for)结束

1.3划分选择

  • 所含样本尽可能属于同一类别,节点++纯度++越来越高。
  • 信息熵、信息增益、增益率、基尼指数的公式均需牢记并理解。
1.3.1信息熵
  • 度量样本集合纯度最常用的一种指标。越小,纯度越高。最小值为0,即全属于同一类。
1.3.2信息增益
1.3.3增益率
  • 增益率对取值数目较少的属性有所偏好。
  • C4.5不直接选择增益率最大属性。++先++找出信息增益高于平均水平的属性,++再++从中选择增益率最高的。
  • 这样就避免选择了增益率高,但增益反而低的属性。
1.3.4基尼指数
  • 反映从数据集随机抽取两个样本,类别标记不一致的概率。
  • 选择划分后基尼指数最小的属性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值