67、机器学习算法核心知识解析

机器学习算法核心知识解析

一、决策树

1.1 决策树深度

决策树的深度与叶子节点数量相关。对于一个包含 $m$ 个叶子节点的平衡二叉树,其深度约为 $\lceil\log_2(m)\rceil$。如果训练集包含一百万个实例,决策树的深度约为 $\log_2(10^6) \approx 20$ (实际会稍大,因为树通常不会完全平衡)。

1.2 基尼不纯度

节点的基尼不纯度通常低于其父节点,这是由于 CART 训练算法的成本函数会使子节点的加权基尼不纯度之和最小化。但也存在节点的基尼不纯度高于其父节点的情况,只要另一个子节点的不纯度降低能弥补这一增加。

示例
假设有一个节点包含 4 个 A 类实例和 1 个 B 类实例,其基尼不纯度为 $1 - (\frac{4}{5})^2 - (\frac{1}{5})^2 = 0.32$。若数据集是一维的,实例顺序为 A, B, A, A, A,算法会在第二个实例后分割该节点,得到一个包含 A, B 的子节点和一个包含 A, A, A 的子节点。第一个子节点的基尼不纯度为 $1 - (\frac{1}{2})^2 - (\frac{1}{2})^2 = 0.5$,高于父节点,但整体加权基尼不纯度为 $\frac{2}{5} \times 0.5 + \frac{3}{5} \times 0 = 0.2$,低于父节点。

1.3 过拟合与欠拟合处理

  • 过拟合 :如果决策树对训练集过拟合,可以尝试减小 max_depth 来约束模
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值