Decision Tree算法(决策树)

本文详细介绍了决策树算法,包括定义、主要思想、特征选择(信息增益、增益率、基尼指数)和剪枝处理。还讨论了随机森林的概念,它是决策树的扩展,通过数据和属性的随机选取构建多个子树来提高预测性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Decision Tree算法(决策树)

1.定义

决策树是一种十分常用的分类方法。

决策树是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。

 

2.主要思想

决策树分类主要思想是通过特征选择剪枝在已有的样本数据上建立一棵决策树。常见的决策树算法包括 ID3、C4.5、CART、随机森林等。

2.1特征选择

即如何选择最优划分属性。

随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。如何衡量一个数据集纯度,这里就需要引入数据纯度函数。下面将介绍两种表示数据纯度的函数。

2.1.1.信息增益

“信息熵”是度量样本集合纯度最常用的一种指标,假定当前样本集合D中第k类样本所占的比例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值