决策树与随机森林

最新推荐文章于 2025-03-13 21:31:01 发布

qq_30011515

最新推荐文章于 2025-03-13 21:31:01 发布

阅读量787

点赞数

文章标签：算法机器学习决策树

本文链接：https://blog.youkuaiyun.com/qq_30011515/article/details/108961387

版权

本文介绍了决策树的概念，包括信息熵、常见算法如ID3、C4.5、CART，以及sklearn库中的实现。接着讨论了决策树的优缺点和改进方法，如减枝和随机森林。随机森林部分阐述了其工作原理、构建过程及sklearn API的使用，同时指出随机森林的优缺点在于高准确性但可能因树的数量过多导致资源消耗大。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、决策树

决策树（分类）定义：分类决策树模型是一种描述对实例进行分类得树形结构，决策树由节点（node)和有向边（directed edge)组成，节点有两种类型：内部节点（internal node)和叶结点（leaf node)，内部结构表示一个特征或属性，叶结点表示一个类；
信息熵：单位比特，计算公式如信息增益：决策树得划分依据之一，特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差，即公式为
信息增益计算公式
常见决策树使用得算法：ID3：信息增益；C4.5：信息增益比；CART：回归树是平方误差最小，分类树采用得是基尼系数；
sklearn决策树API：sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)，其中，criterion:默认是’gini’系数，也可以选择信息增益的熵’entropy’，max_depth:树的深度大小，random_state:随机数种子ÿ