机器学习——决策树(Decision Tree)

本文深入解析决策树算法,包括决策树的基本概念、特征选择方法如熵、信息增益、信息增益比及GINI系数,处理连续特征的策略,剪枝技术以及sklearn中决策树模型的参数设置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、什么是决策树?

从根节点开始一步步走到叶子节点,既可以做分类任务,也可以做回归任务。
决策树的组成:
①根节点:第一个选择点
②非叶子节点与分支:中间过程
③叶子节点:最终的决策结果
构建决策树的难点:如何切分特征(选择节点)
选择切分特征的衡量标准——熵

2、决策树特征选择


熵是表示随机变量不确定性的度量(物体内部的混乱程度),在机器学习中,熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大
熵的计算公式:
H ( x ) = − ∑ p i ∗ log ⁡ p i H(x)=-\displaystyle\sum p_i*\log p_i H(x)=pilogpi
i = 1 , 2 , 3 , ⋯   , n i=1,2,3,\cdots,n i=1,2,3,,n
p i p_i pi:随机变量 x x x的第 i i i个可取值的概率,当 p i = 1 p_i=1 pi=1时,熵值为0

例子:
A集合【1,1,1,1,1,1,1,2,2】
B集合【1,2,3,4,5,6,7,8,1】
显然A集合的熵值小于B集合的熵值

不确定性越大,得到的熵值越大:

  • p = 0 p=0 p=0或者 p = 1 p=1 p=1时, H ( p ) = 0 H(p)=0 H(p)=0,随机变量完全没有不确定性。

  • p = 0.5 p=0.5 p=0.5时, H ( p ) = 1 H(p)=1 H(p)=1,此时随机变量的不确定性最大。

信息增益
信息增益:待分类数据集合的熵与选定某个特征分类后数据集熵的差值
可以用信息增益来衡量使用当前特征对于样本集合D划分效果的好坏,信息增益越大,该特征越适合用于分类。
特征A对训练数据集D的信息增益表示为 g ( D , A ) g(D,A) g(D,A),则有:
g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值