决策树和随机森林

最新推荐文章于 2026-01-07 18:44:27 发布

原创

最新推荐文章于 2026-01-07 18:44:27 发布 · 942 阅读

·

27

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#决策树 #随机森林 #算法

一、决策树（Decision Tree）

1. 什么是决策树？

决策树是一种基于树形结构的监督学习算法，常用于分类和回归任务。它的核心思想是通过一系列的条件判断（决策规则），将输入数据逐步划分到不同的类别或预测值。决策树可以看作是一个"if-then-else"规则的集合，类似于人类决策的过程。

结构：决策树由以下部分组成：
- 根节点（Root Node）：包含所有数据的起点。
- 内部节点（Internal Node）：表示一个特征上的条件判断。
- 分支（Branch）：表示条件判断的结果，连接到下一个节点。
- 叶节点（Leaf Node）：表示最终的输出（分类标签或回归值）。
例子：假设你要判断一个人是否会购买某产品，可以根据"年龄"、“收入"和"教育水平"等特征，通过一系列条件（如"年龄 > 30？”、“收入 > 50000？”）来逐步划分，最终得出"是"或"否"。

2. 决策树的工作原理

决策树的构建过程可以分为以下步骤：

选择最优特征：从所有特征中选择一个特征进行划分，使得划分后的子集"更纯"（即分类更明确或回归值更集中）。
划分数据集：根据选定特征的某个阈值，将数据集分成多个子集。
递归构建子树：对每个子集重复上述步骤，直到满足停止条件（如最大深度、样本数不足等）。
输出结果：每个叶节点对应一个预测结果。

3. 决策树的数学基础

决策树的核心在于如何选择最优特征进行划分，这需要定义一个"纯度"或"不确定性"的指标。以下是常用的指标：

(1) 分类问题的指标

信息增益（Information Gain）：
- 基于**熵（Entropy）**的概念。熵衡量数据集的不确定性，公式为：
  $Entropy(S)=−∑i=1cpilog⁡2(pi)\text{Entropy}(S) = -\sum_{i=1}^c p_i \log_2(p_i)$
  其中， $S$ 是数据集， $c$ 是类别数， $p_i$ 是第 $i$ 类样本的比例。
- 信息增益表示划分后熵的减少量：
  $IG(A)=Entropy(S)−∑v∈Values(A)∣Sv∣∣S∣Entropy(Sv)\text{IG}(A) = \text{Entropy}(S) - \sum_{v \in \text{Values}(A)} \frac{|S_v|}{|S|} \text{Entropy}(S_v)$
  其中， $A$ 是特征， $S_v$ 是特征 $A$ 取值 $v$ 的子集。
- ID3算法使用信息增益作为划分依据。
信息增益率（Gain Ratio）：
- 信

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

爱看烟花的码农 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。