特征重要性判断(一)----决策树

本文介绍了决策树算法,包括其基本框架、信息增益、信息增益率和基尼系数在划分属性选择中的作用。通过sklearn库实践了这些理论,并强调了决策树在特征重要性分析的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、决策树的基本框架

  • 决策树是一类基本的机器学习算法。它是基于树状结构来进行决策,从上到下依次进行判断,最终得到模型的决策。
  • 一般的,一棵决策树包含一个根节点、若干个内部节点和若干个叶子节点;叶子节点对应决策结果,其他每个节点则对应一个属性测试;每个节点包含的样本集合根据属性测试的结果被划分到子节点中;根节点包含样本全集。从根节点到每个叶子节点的路径对应了一个判断测试序列。
  • 决策树的生成是一个递归过程。在决策树的算法中,如果出现下述三种情形之一,会终止继续划分,返回递归结果:1、当前节点包含的样本都是同一类别;2、当前节点能够划分的属性集合为空,或者节点中的样本在属性上的取值相同;3、当前节点不包含任何样本。
  • 决策算法的关键或不同在于:如何选择最优的划分属性。一般来说,随着决策树划分过程的不断进行,我们希望决策树的分支节点所包含的样本尽可能是同一类别。

二、基于信息增益的划分

  • “熵”(Entropy)是度量样本集合纯度(purity)最常用的一种指标。假定当前样本集合 D D D中第 k k k类样本所占的比例为 p k ( k = 1 , 2 , . . . . ∣ Y ∣ ) p_k(k = 1,2,....|Y|) pk(k=1,2,....Y),则样本集D的熵可以定义为: E n t r o p y ( D ) = − ∑ k = 1 ∣ Y ∣ p k l o g 2 p k Entropy(D) =- \displaystyle\sum_{k=1}^{|Y|}p_k{log_2}p_k Entropy(D)=k=1Ypklog2pk E n t r o p y ( D ) Entropy(D) Entropy(D)的值越小,表示D的纯度越高。
  • 假定离散属性 a a a V V V个可能的取值 a 1 , a 2 , . . . , a V {a^1,a^2,...,a^V} a1,a2,...,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值