在机器学习领域,决策树是一种直观且高效的模型,既适用于分类任务,也可用于回归任务。它通过模拟人类决策过程,从根节点开始逐步分支,最终让数据落入叶子节点得到决策结果。
决策树的组成
决策树的结构清晰,主要包含三个部分:
根节点:决策的起点,即第一个需要判断的特征。
非叶子节点与分支:中间决策步骤,每个非叶子节点对应一个特征判断,分支则是该特征的不同取值。
叶子节点:最终决策结果。
所有输入数据都会从根节点出发,沿着分支逐层判断,最终落到唯一的叶子节点,完成分类或回归。
决策树的训练与测试
训练阶段:从给定数据集出发,确定根节点、非叶子节点的特征选择及分支规则,本质是解决 “如何切分特征”(选择节点) 的问题。
测试阶段:使用已构造好的决策树,将测试数据从根节点到叶子节点 “走一遍”,即可得到决策结果,过程简单直观。
熵与信息增益
构造决策树的核心是选择最优特征作为节点,而判断 “最优” 的核心指标是 “熵” 和 “信息增益”。
(熵:不确定性越大,熵越大;信息增益:两个熵值的差)
熵:衡量数据不确定性
熵(Entropy)是表示随机变量不确定性的度量,不确定性越高,熵值越大。
熵的本质含义
- 熵值越大 → 类别越混乱(比如同时包含大量
yes和no) - 熵值越小 → 类别越纯净(比如几乎全是
yes或全是no)
故:熵值应越小越好。
- 公式:H(X)= − ∑ pi * log pi ,i=1,2,... ,n,其中pi是第i类样本在数据集中的占比。
在决策树中,我们希望通过特征切分降低数据的不确定性,即让分支后的熵值更小。
选择最优特征的依据(寻找大当家)
信息增益表示 “某特征使类别不确定性减少的程度”,增益越大,说明该特征的切分效果越好,越适合作为当前节点。
通过一种衡量标准,来计算通过不同特征进行分支选择后的分类情况,找出来最好的那个当成根节点,以此类推。
总结
决策树的核心是 “通过熵衡量不确定性,用信息增益选择最优特征”,其优势在于结构直观、易解释,无需复杂的数据预处理。本文通过理论 + 实例的方式,从基础概念到实战构造完整覆盖,希望能帮助初学者快速入门。后续可进一步学习 C4.5(信息增益比)、CART(基尼系数)等进阶特征切分方法,优化决策树性能。

被折叠的 条评论
为什么被折叠?



