11、决策树模型的优化与参数调整

最新推荐文章于 2025-12-27 10:07:43 发布

原创最新推荐文章于 2025-12-27 10:07:43 发布 · 28 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#决策树 # 参数调整 # 递归分区

机器学习实战：从零到部署专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

决策树模型的优化与参数调整

1. 决策树基础操作与初步评估

开始构建决策树模型时，可将区间输入变量分入固定宽度的区间，然后运行决策树节点。完成后，打开决策树节点的结果，点击评估选项卡，在拟合统计表格中查看使用平均平方误差衡量的模型性能（可能需要展开拟合统计表格）。例如，经过调优的决策树模型在验证分区上的平均平方误差为 0.0650，相较于使用默认设置的第一个模型，该拟合统计量略有改善（数值更小），最后关闭结果窗口。

2. 改进决策树模型：递归分区参数调整

2.1 递归分区概述

递归分区是拟合决策树的标准方法，它是一种自上而下的贪心算法，在每一步都做出局部最优选择。从根节点开始，会检查涉及单个输入的多个分割。对于区间输入，分割是输入值的不相交范围；对于名义输入，分割是输入类别的不相交子集。通过各种分割搜索策略确定候选分割集，并使用分割准则选择分割，目标是减少子节点中目标分布的变异性，从而提高纯度。

2.2 常用的分割技术

基尼不纯度（Gini Impurity） ：由意大利统计学家 Corrado Gini 在 1912 年提出，用于衡量分类数据的变异性，即节点中的不纯度。公式为：$Gini = 1 - \sum_{i=1}^{J} p_{i}^{2}$，其中 $J$ 是节点中存在的类别数，$p$ 是节点中类别的分布。实际应用中，会评估连续变量的不同阈值和分类变量的所有水平的不同分割，然后选择使子节点加权不纯度最低的分割。
熵（Entropy） ：用于衡量系统的随机性。公式为：$Entropy =

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。