17、决策树与集成学习：原理、应用与优化

最新推荐文章于 2025-11-25 13:01:19 发布

github5actions

最新推荐文章于 2025-11-25 13:01:19 发布

阅读量4

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战精要文章标签：决策树集成学习随机森林

本文链接：https://blog.youkuaiyun.com/github5actions/article/details/154856489

机器学习实战精要专栏收录该内容

74 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

决策树与集成学习：原理、应用与优化

决策树基础

决策树是一种直观且易于解释的机器学习模型，常被称为白盒模型。与之相对，随机森林和神经网络通常被视为黑盒模型，虽然它们能做出很好的预测，但往往难以简单解释预测的原因。

决策树不仅可以进行分类，还能估计一个实例属于特定类别 $k$ 的概率。它通过遍历树找到该实例对应的叶节点，然后返回该节点中类别 $k$ 的训练实例的比例。例如，对于花瓣长 5 厘米、宽 1.5 厘米的花，决策树可能输出以下概率：山鸢尾（Iris setosa）为 0%（0/54），变色鸢尾（Iris versicolor）为 90.7%（49/54），维吉尼亚鸢尾（Iris virginica）为 9.3%（5/54）。如果要求预测类别，它会输出变色鸢尾（类别 1），因为其概率最高。以下是代码示例：

>>> tree_clf.predict_proba([[5, 1.5]])
array([[0., 0.90740741, 0.09259259]])
>>> tree_clf.predict([[5, 1.5]])
array([1])

训练算法：CART

Scikit - Learn 使用分类与回归树（CART）算法来训练决策树。该算法首先使用单个特征 $k$ 和阈值 $t$（例如，“花瓣长度 ≤ 2.45 厘米”）将训练集拆分为两个子集。它会搜索产生最纯子集（按子集大小加权）的 $(k, t)$ 对，其成本函数如下：
[J(k, t_k) = \frac{m_{left}}{m}G_{left} + \frac

会员秒杀 ¥9.9 重磅福利

超级会员免费看