67、机器学习算法核心知识解析

kmeans3miner

于 2025-11-13 12:33:31 发布

阅读量7

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战精要文章标签：机器学习决策树集成学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/kmeans3miner/article/details/155010907

机器学习实战精要专栏收录该内容

73 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习算法核心知识解析

一、决策树

1.1 决策树深度

决策树的深度与叶子节点数量相关。对于一个包含 $m$ 个叶子节点的平衡二叉树，其深度约为 $\lceil\log_2(m)\rceil$。如果训练集包含一百万个实例，决策树的深度约为 $\log_2(10^6) \approx 20$ （实际会稍大，因为树通常不会完全平衡）。

1.2 基尼不纯度

节点的基尼不纯度通常低于其父节点，这是由于 CART 训练算法的成本函数会使子节点的加权基尼不纯度之和最小化。但也存在节点的基尼不纯度高于其父节点的情况，只要另一个子节点的不纯度降低能弥补这一增加。

示例：
假设有一个节点包含 4 个 A 类实例和 1 个 B 类实例，其基尼不纯度为 $1 - (\frac{4}{5})^2 - (\frac{1}{5})^2 = 0.32$。若数据集是一维的，实例顺序为 A, B, A, A, A，算法会在第二个实例后分割该节点，得到一个包含 A, B 的子节点和一个包含 A, A, A 的子节点。第一个子节点的基尼不纯度为 $1 - (\frac{1}{2})^2 - (\frac{1}{2})^2 = 0.5$，高于父节点，但整体加权基尼不纯度为 $\frac{2}{5} \times 0.5 + \frac{3}{5} \times 0 = 0.2$，低于父节点。

1.3 过拟合与欠拟合处理

过拟合 ：如果决策树对训练集过拟合，可以尝试减小 max_depth 来约束模

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。