机器学习面试必知:决策树

本文深入解析决策树算法,包括ID3、C4.5及CART三种决策树生成方法。探讨了信息增益、信息增益比及基尼指数等特征选择准则,详细解释了它们在决策树构建中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

决策树(decision tree)是一种基本的分类与回归方法,主要优点时模型具有可读性,分类速度快,学习时利用训练数据根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括三个步骤:特征选择,决策树的生成和决策树的修剪。

决策树学习的损失函数通常是正则化的极大似然函数,决策树学习的策略是以损失函数为目标函数的最小化。确定了损失函数后,学习问题就变为在损失函数意义下选择最优决策树的问题,但这是个NP完全问题,一般采用启发式算法来近似求解这一最优化问题。

1. 信息增益(ID3算法)
特征AAA对训练数据集DDD信息增益g(D,A)g(D,A)g(D,A),定义为集合DDD的经验熵H(D)H(D)H(D)与特征AAA给定条件下DDD的经验条件熵H(D∣A)H(D|A)H(DA)之差,即g(D,A)=H(D)−H(D∣A)g(D,A)=H(D)-H(D|A)g(D,A)=H(D)H(DA)
假设训练数据集为DDD,容量为∣D∣|D|D。有KKKCkC_{k}Ck类,个数为∣Ck∣|C_{k}|Ck。特征AAA有n个不同的取值,根据这些取值会把DDD划分为n个子集,样本个数是∣Di∣|D_{i}|DiDiD_{i}Di子集中属于CkC_{k}Ck类的样本个数是∣Dik∣|D_{ik}|Dik。那么通过计算选择出信息增益最大的特征作为切分点。H(D)=−∑k=1K∣Ck∣∣D∣log(∣Ck∣∣D∣)H(D)=-\sum_{k=1}^{K}\frac{|C_{k}|}{|D|}log(\frac{|C_{k}|}{|D|})H(D)=k=1KDCklog(DCk) H(D∣A)=∑i=1n∣Di∣∣D∣H(Di)=−∑i=1n∣Di∣∣D∣∑k=1K∣Dik∣∣Di∣log(∣Dik∣∣Di∣)H(D|A)=\sum_{i=1}^{n}\frac{|D_{i}|}{|D|}H(D_{i})=-\sum_{i=1}^{n}\frac{|D_{i}|}{|D|}\sum_{k=1}^{K}\frac{|D_{ik}|}{|D_{i}|}log(\frac{|D_{ik}|}{|D_{i}|})H(DA)=i=1nDDiH(Di)=i=1nDDik=1KDiDiklog(DiDik)
2. 信息增益比(C4.5生成算法)

以信息增益作为划分训练数据的特征,存在偏向于选择取值较多的特征的问题,使用信息增益比可以解决这个问题。

gR(D,A)=g(D,A)HA(D)HA(D)=−∑i=1n∣Di∣∣D∣log(∣Di∣∣D∣)g_{R}(D,A)=\frac{g(D,A)}{H_{A}(D)}\qquad H_{A}(D)=-\sum_{i=1}^{n}\frac{|D_{i}|}{|D|}log(\frac{|D_{i}|}{|D|})gR(D,A)=HA(D)g(D,A)HA(D)=i=1nDDilog(DDi)
3. 基尼指数(CART分类与回归树)
分类问题中,假设有K个类,样本点属于第kkk类的概率为pkp_{k}pk,则概率分布的基尼指数为Gini(p)=∑k=1Kpk(1−pk)=1−∑k=1Kpk2Gini(p)=\sum_{k=1}^{K}p_{k}(1-p_{k})=1-\sum_{k=1}^{K}p_{k}^{2}Gini(p)=k=1Kpk(1pk)=1k=1Kpk2对于给定的样本集合DDD,基尼指数为Gini(D)=1−∑k=1K(∣Ck∣∣D∣)2Gini(D)=1-\sum_{k=1}^{K}(\frac{|C_{k}|}{|D|})^{2}Gini(D)=1k=1K(DCk)2在特征AAA(是否是A,所以只有两类情况)的条件下,集合DDD的基尼指数定义为Gini(D,A)=∣D1∣∣D∣Gini(D1)+∣D2∣∣D∣Gini(D2)Gini(D,A)=\frac{|D_{1}|}{|D|}Gini(D_{1})+\frac{|D_{2}|}{|D|}Gini(D_{2})Gini(D,A)=DD1Gini(D1)+DD2Gini(D2)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值