机器学习算法核心知识解析
一、决策树
1.1 决策树深度
决策树的深度与叶子节点数量相关。对于一个包含 $m$ 个叶子节点的平衡二叉树,其深度约为 $\lceil\log_2(m)\rceil$。如果训练集包含一百万个实例,决策树的深度约为 $\log_2(10^6) \approx 20$ (实际会稍大,因为树通常不会完全平衡)。
1.2 基尼不纯度
节点的基尼不纯度通常低于其父节点,这是由于 CART 训练算法的成本函数会使子节点的加权基尼不纯度之和最小化。但也存在节点的基尼不纯度高于其父节点的情况,只要另一个子节点的不纯度降低能弥补这一增加。
示例 :
假设有一个节点包含 4 个 A 类实例和 1 个 B 类实例,其基尼不纯度为 $1 - (\frac{4}{5})^2 - (\frac{1}{5})^2 = 0.32$。若数据集是一维的,实例顺序为 A, B, A, A, A,算法会在第二个实例后分割该节点,得到一个包含 A, B 的子节点和一个包含 A, A, A 的子节点。第一个子节点的基尼不纯度为 $1 - (\frac{1}{2})^2 - (\frac{1}{2})^2 = 0.5$,高于父节点,但整体加权基尼不纯度为 $\frac{2}{5} \times 0.5 + \frac{3}{5} \times 0 = 0.2$,低于父节点。
1.3 过拟合与欠拟合处理
- 过拟合 :如果决策树对训练集过拟合,可以尝试减小
max_depth来约束模
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



