决策树与集成学习:原理、应用与优化
决策树基础概念
在机器学习领域,决策树是一种强大且常用的模型。首先来了解一些相关的基础概念。
- P、NP、NP - Hard 和 NP - Complete 问题 :P 是能在多项式时间内解决的问题集合;NP 是其解能在多项式时间内验证的问题集合;NP - Hard 问题是任何 NP 问题都能在多项式时间内归约到的问题;NP - Complete 问题既是 NP 问题又是 NP - Hard 问题。目前一个重要的数学未解之谜是 P 是否等于 NP,如果 P 不等于 NP(这似乎更有可能),那么对于任何 NP - Complete 问题,可能永远找不到多项式算法(或许在量子计算机上除外)。
- CART 算法 :CART 算法是一种贪心算法,它在顶层贪婪地搜索最优分割,然后在后续每一层重复此过程。它不会检查该分割是否会在几层之后导致最低的不纯度。而且,寻找最优树是一个 NP - Complete 问题,需要 $O(exp(m))$ 时间,即使对于小的训练集,这个问题也难以处理,所以通常只能接受“合理良好”的解决方案。
决策树的计算复杂度
- 预测复杂度 :进行预测时需要从决策树的根节点遍历到叶节点。决策树通常近似平衡,遍历决策树大约需要经过 $O(log_2(m))$ 个节点。由于每个节点只需要检查一个特征的值,所以总体预测复杂度为 $O(log_2(m))$,与特征数量无关。因此,即使处理大型训练集,预测速度也非常快。
- 训练复杂度 :训
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



