机器学习笔记 - 决策树是如何工作的_决策树在数据集上怎样工作-优快云博客

本文链接：https://blog.youkuaiyun.com/bashendixie5/article/details/109591030

本文详细介绍了决策树的工作原理，包括其在处理分类问题中的优势，以及ID3、C4.5和CART等算法的一般流程。通过熵、信息增益和基尼指数等概念，阐述了特征选择的启发式方法。此外，还讨论了如何构建和绘制决策树的代码，以及如何使用决策树进行实际分类。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、决策树是如何工作的

我们经常使用决策树处理分类问题，近来的调查表明决策树也是最经常使用的数据挖掘算法。它之所以如此流行，一个很重要的原因就是不需要了解机器学习的知识，就能搞明白决策树是如何工作的。如果你以前没有接触过决策树，完全不用担心，它的概念非常简单。即使不知道它也可以通过简单的图形了解其工作原理，图3-1所示的流程图就是一个决策树，长方形代表判断模块（decision block），椭圆形代表终止模块（terminating block），表示已经得出结论，可以终止运行。从判断模块引出的左右箭头称作分支（branch），它可以到达另一个判断模块或者终止模块。图 3-1 构造了一个假想的邮件分类系统，它首先检测发送邮件域名地址。如果地址为 myEmployer.com，则将其放在分类“无聊时需要阅读的邮件”中。如果邮件不是来自这个域名，则检查邮件内容里是否包含单词曲棍球，如果包含则将邮件归类到“需要及时处理的朋友邮件”，如果不包含则将邮件归类到“无需阅读的垃圾邮件”。决策树的主要优势就在于数据形式非常容易理解。构造的决策树算法能够读取数据集合，构建类似于图3-1的决策树。决策树的一个重要任务是为了数据中所蕴含的知识信息，因此决策树可以使用不熟悉的数据集合，并从中提取出一系列规则，在这些机器根据数据集创建规则时，就是机器学习的过程。专家系统中经常使用决策树，而且决策树给出结果往往可以匹敌在当前领域具有几十年工作经验的人类专家。