决策树

最新推荐文章于 2023-06-25 19:34:14 发布

原创

最新推荐文章于 2023-06-25 19:34:14 发布 · 3.7k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文介绍了决策树的基础知识，包括其定义、算法特点和主要的决策树算法如ID3、C4.5和CART，强调了信息熵和信息增益在属性选择中的作用。还讨论了决策树的过拟合问题、剪枝策略以及如何处理连续值和缺失值。

决策树

1.定义
决策树是基于树形结构进行决策的一种机器学习方法。

在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。

一般，一颗决策树包含一个根结点、若干个内部结点和若干个叶节点。叶节点对应于决策结果，其他每个节点对应于一个属性测试。每个结点包含的样本集合根据属性测试结果被划分到子节点中；根结点包含全部样本集。从根结点到每个叶结点的路径对应了一个判定测试序列。

决策树的生成是一个自顶向下的递归过程，其基本思想是以信息熵为度量构造一颗熵值下降最快的树，到叶子节点处的熵值为零。

在决策树算法中有三种情形导致递归返回：
1）当前节点包含的样本属于同一类，无需划分；
2）当前属性集为空，无法划分。此情况下，将当前结点标记为叶节点，并将其类别设定为所含样本最多的类别；利用当前结点的后验分布；（有样本无属性进行划分）
3）当前结点包含的样本集合为空，不能划分。此情况下，将当前结点标记为叶节点，将其类别设定为其父结点所含样本最多的类别；利用父结点的先验分布（无样本有属性）

2.决策树算法特点
1）决策树学习算法的最大优点是，它可以自学习。在学习过程中，不需要使用者了解过多背景知识，只需要对训练实例进行良好的标注，就能够进行学习。
2）属于有监督学习
3）从一类无序、无规则的事物（概念）中推理出决策树表示的分类规则

3.决策树学习的生成算法

关键点：如何选择最优 划分属性
目标：决策树分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”越来越高。

根据不同的目标函数，建立决策树主要有以下三种算法：

ID3（Iterat

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。