【人工智能基础05】决策树模型习题

1. 归一化对决策树的影响

题目:对于一些机器学习模型(例如,神经网络),对特征进行归一化(normalization)是一个有效的预处理操作。一个常见的归一化方式是对每一个特征数据,减去该特征的均值,然后除以该特征的方差。请回答,对于基于决策树的一系列算法,归一化是否会影响训练结果?

解答:
对于基于决策树的一系列算法,归一化通常不会影响训练结果。

决策树算法在构建树的过程中主要依据特征的信息增益、基尼系数等标准来进行分裂,并不依赖于特征的绝对数值大小。它更关注的是特征之间的相对关系以及特征对分类或回归目标的区分能力

而归一化主要是改变特征的数值范围和分布,对于决策树算法来说,特征的相对大小关系和顺序通常不会因归一化而改变。

所以,对基于决策树的算法进行特征归一化一般不会对训练结果产生实质性的影响。

在这里插入图片描述

 

2. 选择决策树模型

在这里插入图片描述

在这里插入图片描述

 

3. 决策树计算

在这里插入图片描述

以下是完善后的带有加权错误率计算公式说明的表格内容:

步骤详情
计算初始分类错误率假设全预测为0类,错误样本为1、2、4,共3个,总样本5个,错误率 = 3÷5 = 0.6
特征1在0.5分割左子树(特征1 <= 0.5):含样本0,标签0,错误率 = 0÷1 = 0;
右子树(特征1 > 0.5):含样本1、2、3、4,标签1、1、0、0,错误率 = 2÷4 = 0.5;
加权错误率 = (1÷5)×0 + (4÷5)×0.5 = 0.4
特征1在1.5分割左子树(特征1 <= 1.5):含样本0、1、2,标签0、1、1,错误率 = 2÷3;
右子树(特征1 > 1.5):含样本3、4,标签0、0,错误率 = 0÷2 = 0;
加权错误率 = (3÷5)×(2÷3) + (2÷5)×0 = 0.4
特征2在0.5分割左子树(特征2 <= 0.5):含样本0、2,标签0、1,错误率 = 1÷2 = 0.5;
右子树(特征2 > 0.5):含样本1、3、4,标签1、0、0,错误率 = 1÷3;
加权错误率 = (2÷5)×0.5 + (3÷5)×(1÷3) = 0.4
特征2在1.5分割左子树(特征2 <= 1.5):含样本0、1、2、3,标签0、1、1、0,错误率 = 2÷4 = 0.5;
右子树(特征2 > 1.5):含样本4,标签0,错误率 = 0÷1 = 0;
加权错误率 = (4÷5)×0.5 + (1÷5)×0 = 0.4
首次分割选择(示例)选特征1在0.5分割
左子树(特征1 <= 0.5):类别0(仅样本0)
右子树(特征1 > 0.5):含样本1、2、3、4,继续分割
右子树特征2在0.5分割左子树(特征2 <= 0.5):含样本2,标签1,错误率 = 0÷1 = 0;
右子树(特征2 > 0.5):含样本1、3、4,标签1、0、0,错误率 = 2÷3;
加权错误率 = (1÷4)×0 + (3÷4)×(2÷3) = 0.5
右子树特征2在1.5分割左子树(特征2 <= 1.5):含样本1、2、3,标签1、1、0,错误率 = 1÷3;
右子树(特征2 > 1.5):含样本4,标签0,错误率 = 0÷1 = 0;
加权错误率 = (3÷4)×(1÷3) + (1÷4)×0 = 0.25
最终决策树根节点:特征1在0.5分割
左子树(特征1 <= 0.5):类别0
右子树(特征1 > 1.5):特征2在1.5分割
- 左子树(特征2 <= 1.5):类别1
- 右子树(特征2 > 1.5):类别0

 
 

4. 基尼系数的优势

在这里插入图片描述

 

优势点具体描述
计算简单计算过程相对简洁,易于理解和实现,在处理大规模数据时,能有效节省计算时间和资源。
纯度衡量直观基尼系数值越小,表明数据纯度越高,可直观反映数据划分效果,清晰判断是否将不同类别数据有效分开。
适用于多类别对多类别数据处理效果良好,不受类别数量增加的影响,能稳定发挥作用,准确衡量数据纯度。
对数据分布要求低对数据分布没有严格要求,在各种数据分布情况下,都能较为稳定地衡量数据纯度,不会因分布变化而出现较大偏差。

 

5. 在叶子上使用线性模型的优缺点

在这里插入图片描述

分段线性树(在叶子上使用线性模型)的优点:

优点解释
拟合能力强相比普通回归树单一的常数预测,线性模型能更好地拟合叶子节点内的数据,尤其是有线性关系的数据。
预测精度高可根据叶子内数据线性特征预测,能更准确地预测新数据点。
灵活性高线性模型参数可根据数据调整,处理复杂数据分布更灵活。

 

分段线性树(在叶子上使用线性模型)的缺点:

缺点解释
模型复杂普通回归树叶子只需存一个常数,分段线性树要存线性模型参数,参数增多使模型复杂。
易过拟合线性模型拟合能力强,训练数据少或有噪声时,更容易导致过拟合
计算成本高训练时要在每个叶子拟合线性模型,预测时也要更多计算,比普通回归树计算成本高。

 

参考:《人工智能基础-姚期智》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

roman_日积跬步-终至千里

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值