机器学习:决策树(Decision Tree)

本文介绍了决策树的基本概念,包括信息熵、信息增益、信息增益比和基尼指数。详细阐述了ID3、C4.5和CART算法的生成过程,并探讨了决策树的剪枝策略,以防止过拟合。内容涵盖机器学习中的决策树分类方法及其优缺点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


机器学习 深度学习 NLP 搜索推荐 等 索引目录


本博客参考邹博机器学习课件以及李航的《统计学习方法》,仅用于督促自己学习使用,如有错误,欢迎大家提出更正


决策树(decision tree)是一种基本的分类与回归方法。在分类问题中,它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。在学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型;在预测时,对新的数据,利用决策树模型进行分类。

1、决策树
1)决策树是一种树形结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,每个节点代表一种类别。
2)决策树学习是以实例为基础的归纳学习,在本质上是从训练数据集中归纳出一组分类规则,其学习的策略是以损失函数(损失函数通常是正则化的极大似然函数)为目标函数的极小化。
3)决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶子节点中的实例都属于一类。

2、特征选择
特征选择在于选取对训练数据具有分类能力的特征,以提高决策树学习的效率。通常特征选择的准则是信息增益或信息增益比,在CART树里使用的是 G i n i Gini Gini指数。

2.1 信息增益(information gain)
首先来了解下熵和条件熵的定义。
**熵(entropy)**是表示随机变量不确定性的度量。设 X X X是一个取有限个值的离散随机变量,其概率分布为
P ( X = x i ) = P i , i = 1 , 2 , . . . , n P(X=x_i) = P_i, i=1, 2, ..., n P(X=xi)=Pi,i=1,2,...,n

则随机变量X的熵定义为
H ( p ) = − ∑ i = 1 n p i l o g ( p i ) H(p) = - \sum_{i=1}^{n}{p_i log(p_i)} H(p)=i=1npilog(pi)

在上式中的对数通常以2为底或以 e e e为底(自然对数),这时熵的单位是比特(bit)或纳特(nat).

条件熵(conditional entropy)
H ( Y ∣ X ) H(Y|X) H(YX)表示在已知随机变量 X X X的条件下随机变量 Y Y Y的不确定性。定义为 X X X给定条件下随机变量 Y Y Y的条件概率分布的熵对 X X X的数学期望
H ( Y ∣ X ) = − ∑ i = 1 n p i H ( Y ∣ X = x i ) H(Y|X)=-\sum_{i=1}^{n}{p_iH(Y|X=x_i)} H(YX)=i=1npiH(YX=xi)

当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵和条件熵分别成为经验熵经验条件熵

**信息增益(information gain)**表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
定义:特征 A A A对训练数据集 D D D的信息增 g ( D , A ) g(D, A) g(D,A),定义集合 D D D的经验熵 H ( D ) H(D) H(D)与特征A给定条件下 D D D的经验条件熵 H ( D ∣ A ) H(D|A) H(DA)之差,即:

g ( D , A ) =

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值