机器学习入门:决策树原理

         在机器学习领域,决策树是一种直观且高效的模型,既适用于分类任务,也可用于回归任务。它通过模拟人类决策过程,从根节点开始逐步分支,最终让数据落入叶子节点得到决策结果。

决策树的组成

决策树的结构清晰,主要包含三个部分:

根节点:决策的起点,即第一个需要判断的特征。

非叶子节点与分支:中间决策步骤,每个非叶子节点对应一个特征判断,分支则是该特征的不同取值。

叶子节点:最终决策结果。

所有输入数据都会从根节点出发,沿着分支逐层判断,最终落到唯一的叶子节点,完成分类或回归。

决策树的训练与测试

训练阶段:从给定数据集出发,确定根节点、非叶子节点的特征选择及分支规则,本质是解决 “如何切分特征”(选择节点) 的问题。

测试阶段:使用已构造好的决策树,将测试数据从根节点到叶子节点 “走一遍”,即可得到决策结果,过程简单直观。

熵与信息增益

构造决策树的核心是选择最优特征作为节点,而判断 “最优” 的核心指标是 “熵” 和 “信息增益”。

(熵:不确定性越大,熵越大;信息增益:两个熵值的差)

熵:衡量数据不确定性

熵(Entropy)是表示随机变量不确定性的度量,不确定性越高,熵值越大。

熵的本质含义

  • 熵值越大 → 类别越混乱(比如同时包含大量 yes 和 no
  • 熵值越小 → 类别越纯净(比如几乎全是 yes 或全是 no

故:熵值应越小越好。

  • 公式:H(X)= − ∑ pi * log pi​ ,i=1,2,... ,n,其中pi​是第i类样本在数据集中的占比。

在决策树中,我们希望通过特征切分降低数据的不确定性,即让分支后的熵值更小

选择最优特征的依据(寻找大当家)        

信息增益表示 “某特征使类别不确定性减少的程度”,增益越大,说明该特征的切分效果越好,越适合作为当前节点。

通过一种衡量标准,来计算通过不同特征进行分支选择后的分类情况,找出来最好的那个当成根节点,以此类推。

总结

        决策树的核心是 “通过熵衡量不确定性,用信息增益选择最优特征”,其优势在于结构直观、易解释,无需复杂的数据预处理。本文通过理论 + 实例的方式,从基础概念到实战构造完整覆盖,希望能帮助初学者快速入门。后续可进一步学习 C4.5(信息增益比)、CART(基尼系数)等进阶特征切分方法,优化决策树性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值