1. 归一化对决策树的影响
题目:对于一些机器学习模型(例如,神经网络),对特征进行归一化(normalization)是一个有效的预处理操作。一个常见的归一化方式是对每一个特征数据,减去该特征的均值,然后除以该特征的方差。请回答,对于基于决策树的一系列算法,归一化是否会影响训练结果?
解答:
对于基于决策树的一系列算法,归一化通常不会影响训练结果。
决策树算法在构建树的过程中主要依据特征的信息增益、基尼系数等标准来进行分裂,并不依赖于特征的绝对数值大小。它更关注的是特征之间的相对关系以及特征对分类或回归目标的区分能力。
而归一化主要是改变特征的数值范围和分布,对于决策树算法来说,特征的相对大小关系和顺序通常不会因归一化而改变。
所以,对基于决策树的算法进行特征归一化一般不会对训练结果产生实质性的影响。
2. 选择决策树模型

3. 决策树计算

以下是完善后的带有加权错误率计算公式说明的表格内容:
| 步骤 | 详情 |
|---|---|
| 计算初始分类错误率 | 假设全预测为0类,错误样本为1、2、4,共3个,总样本5个,错误率 = 3÷5 = 0.6 |
| 特征1在0.5分割 | 左子树(特征1 <= 0.5):含样本0,标签0,错误率 = 0÷1 = 0; 右子树(特征1 > 0.5):含样本1、2、3、4,标签1、1、0、0,错误率 = 2÷4 = 0.5; 加权错误率 = (1÷5)×0 + (4÷5)×0.5 = 0.4 |
| 特征1在1.5分割 | 左子树(特征1 <= 1.5):含样本0、1、2,标签0、1、1,错误率 = 2÷3; 右子树(特征1 > 1.5):含样本3、4,标签0、0,错误率 = 0÷2 = 0; 加权错误率 = (3÷5)×(2÷3) + (2÷5)×0 = 0.4 |
| 特征2在0.5分割 | 左子树(特征2 <= 0.5):含样本0、2,标签0、1,错误率 = 1÷2 = 0.5; 右子树(特征2 > 0.5):含样本1、3、4,标签1、0、0,错误率 = 1÷3; 加权错误率 = (2÷5)×0.5 + (3÷5)×(1÷3) = 0.4 |
| 特征2在1.5分割 | 左子树(特征2 <= 1.5):含样本0、1、2、3,标签0、1、1、0,错误率 = 2÷4 = 0.5; 右子树(特征2 > 1.5):含样本4,标签0,错误率 = 0÷1 = 0; 加权错误率 = (4÷5)×0.5 + (1÷5)×0 = 0.4 |
| 首次分割选择(示例) | 选特征1在0.5分割 左子树(特征1 <= 0.5):类别0(仅样本0) 右子树(特征1 > 0.5):含样本1、2、3、4,继续分割 |
| 右子树特征2在0.5分割 | 左子树(特征2 <= 0.5):含样本2,标签1,错误率 = 0÷1 = 0; 右子树(特征2 > 0.5):含样本1、3、4,标签1、0、0,错误率 = 2÷3; 加权错误率 = (1÷4)×0 + (3÷4)×(2÷3) = 0.5 |
| 右子树特征2在1.5分割 | 左子树(特征2 <= 1.5):含样本1、2、3,标签1、1、0,错误率 = 1÷3; 右子树(特征2 > 1.5):含样本4,标签0,错误率 = 0÷1 = 0; 加权错误率 = (3÷4)×(1÷3) + (1÷4)×0 = 0.25 |
| 最终决策树 | 根节点:特征1在0.5分割 左子树(特征1 <= 0.5):类别0 右子树(特征1 > 1.5):特征2在1.5分割 - 左子树(特征2 <= 1.5):类别1 - 右子树(特征2 > 1.5):类别0 |
4. 基尼系数的优势

| 优势点 | 具体描述 |
|---|---|
| 计算简单 | 计算过程相对简洁,易于理解和实现,在处理大规模数据时,能有效节省计算时间和资源。 |
| 纯度衡量直观 | 基尼系数值越小,表明数据纯度越高,可直观反映数据划分效果,清晰判断是否将不同类别数据有效分开。 |
| 适用于多类别 | 对多类别数据处理效果良好,不受类别数量增加的影响,能稳定发挥作用,准确衡量数据纯度。 |
| 对数据分布要求低 | 对数据分布没有严格要求,在各种数据分布情况下,都能较为稳定地衡量数据纯度,不会因分布变化而出现较大偏差。 |
5. 在叶子上使用线性模型的优缺点

分段线性树(在叶子上使用线性模型)的优点:
| 优点 | 解释 |
|---|---|
| 拟合能力强 | 相比普通回归树单一的常数预测,线性模型能更好地拟合叶子节点内的数据,尤其是有线性关系的数据。 |
| 预测精度高 | 可根据叶子内数据线性特征预测,能更准确地预测新数据点。 |
| 灵活性高 | 线性模型参数可根据数据调整,处理复杂数据分布更灵活。 |
分段线性树(在叶子上使用线性模型)的缺点:
| 缺点 | 解释 |
|---|---|
| 模型复杂 | 普通回归树叶子只需存一个常数,分段线性树要存线性模型参数,参数增多使模型复杂。 |
| 易过拟合 | 线性模型拟合能力强,训练数据少或有噪声时,更容易导致过拟合。 |
| 计算成本高 | 训练时要在每个叶子拟合线性模型,预测时也要更多计算,比普通回归树计算成本高。 |
参考:《人工智能基础-姚期智》


2万+

被折叠的 条评论
为什么被折叠?



