决策树

本文介绍了决策树的基础知识,包括其定义、算法特点和主要的决策树算法如ID3、C4.5和CART,强调了信息熵和信息增益在属性选择中的作用。还讨论了决策树的过拟合问题、剪枝策略以及如何处理连续值和缺失值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

决策树

1.定义
决策树是基于树形结构进行决策的一种机器学习方法。

在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。

一般,一颗决策树包含一个根结点、若干个内部结点和若干个叶节点。叶节点对应于决策结果,其他每个节点对应于一个属性测试。每个结点包含的样本集合根据属性测试结果被划分到子节点中;根结点包含全部样本集。从根结点到每个叶结点的路径对应了一个判定测试序列。

决策树的生成是一个自顶向下的递归过程,其基本思想是以信息熵为度量构造一颗熵值下降最快的树,到叶子节点处的熵值为零。

在决策树算法中有三种情形导致递归返回:
1)当前节点包含的样本属于同一类,无需划分;
2)当前属性集为空,无法划分。此情况下,将当前结点标记为叶节点,并将其类别设定为所含样本最多的类别;利用当前结点的后验分布;(有样本无属性进行划分)
3)当前结点包含的样本集合为空,不能划分。此情况下,将当前结点标记为叶节点,将其类别设定为其父结点所含样本最多的类别;利用父结点的先验分布(无样本有属性)

2.决策树算法特点
1)决策树学习算法的最大优点是,它可以自学习。在学习过程中,不需要使用者了解过多背景知识,只需要对训练实例进行良好的标注,就能够进行学习。
2)属于有监督学习
3)从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则

3.决策树学习的生成算法

关键点:如何选择最优 划分属性
目标:决策树分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高

根据不同的目标函数,建立决策树主要有以下三种算法:

  • ID3(Iterat
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值