集成学习算法随机森林（Random Forest）基础入门

原创已于 2025-11-09 14:16:13 修改 · 1k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #集成学习 #随机森林

于 2025-11-09 14:15:50 首次发布

机器学习专栏收录该内容

28 篇文章

订阅专栏

【1】什么是随机森林

一、什么是随机森林？一句话定义

随机森林（Random Forest）是一种基于集成学习（Ensemble Learning）思想的机器学习算法，它通过构建多个决策树并综合它们的预测结果来提升模型的准确性、鲁棒性和泛化能力。

它由 Leo Breiman 和 Adele Cutler 在 2001 年正式提出，是目前最常用、最稳定的机器学习算法之一。

二、核心思想：两个“随机” + “集成”

随机森林之所以叫“随机”，是因为它在两个关键环节引入了随机性：

1. 样本的随机性（Bootstrap Sampling）

从原始训练集中有放回地随机抽取 N 个样本（N = 原始样本数），形成一个“自助采样集”（Bootstrap Sample）。
每棵树都用不同的自助样本训练 → 增加模型多样性。
平均有约 63.2% 的原始样本会被选中，其余 36.8% 成为该树的“袋外样本”（Out-of-Bag, OOB）。

2. 特征的随机性（Random Feature Selection）

在每个节点分裂时，不是从所有特征中选最优分裂特征，而是随机选取 m 个特征（m << 总特征数），再从中选最佳分裂点。
通常：
- 分类问题：m = sqrt(总特征数)
- 回归问题：m = 总特征数 / 3
这进一步降低树之间的相关性，防止过拟合。

3. 集成（Bagging + Voting/Averaging）

训练 大量（如 100~1000 棵）决策树，每棵树独立训练。
预测时：
- 分类任务：所有树投票，取多数票作为最终结果。
- 回归任务：所有树预测值取平均值作为最终结果。

✅ 这种“集体智慧”显著优于单棵决策树！

三、随机森林 vs 决策树 vs Bagging

方法	是否随机选样本	是否随机选特征	树之间是否独立	抗过拟合能力
决策树	否	否	—	弱（易过拟合）
Bagging（如 Bootstrap Aggregating）	是	否	是	中等
随机森林	是	是	是	强

🌟 随机森林 = Bagging + 随机特征选择

四、随机森林模型的组成要素

一个完整的随机森林模型包含以下组件：

T 棵决策树（T 是超参数，如 n_estimators=100）
每棵树的训练数据（Bootstrap 样本）
每棵树的分裂规则（基于随机特征子集）
OOB 误差估计（可选，用于无验证集评估）
特征重要性评分（基于不纯度减少或排列重要性）

💡 模型保存后，就是这 T 棵树的集合 + 元信息。

五、随机森林的优点

✅ 高准确率：在很多任务上媲美甚至超越深度学习。
✅ 无需调参：默认参数往往表现很好。
✅ 抗过拟合能力强：随机性 + 集成有效抑制过拟合。
✅ 处理高维数据：自动忽略无关特征。
✅ 支持缺失值（部分实现）：如 sklearn 可处理 NaN。
✅ 提供特征重要性：帮助解释模型和做特征选择。
✅ 并行训练：每棵树独立，天然支持并行化。
✅ 适用于分类、回归、异常检测等多种任务。

六、随机森林的缺点

❌ 黑盒性强：虽然比神经网络可解释，但仍不如单棵决策树直观。
❌ 内存和计算开销大：1000 棵树比 1 棵树慢 1000 倍（但可并行）。
❌ 对噪声敏感：如果数据噪声极大，可能影响性能。
❌ 不适合外推（Extrapolation）：回归时无法预测训练范围外的值（因为基于平均）。
❌ 预测结果不够平滑：回归输出是分段常数。

七、关键超参数（以 scikit-learn 为例）

参数	说明	常用值
`n_estimators`	树的数量	100 ~ 1000（越多越好，但收益递减）
`max_features`	每次分裂考虑的特征数	`'sqrt'`（分类），`'log2'` 或 `'auto'`
`max_depth`	树的最大深度	None（不限制）或 10~30
`min_samples_split`	内部节点分裂所需最小样本数	2 ~ 20
`min_samples_leaf`	叶节点最小样本数	1 ~ 10
`bootstrap`	是否使用自助采样	True（默认）
`oob_score`	是否计算袋外误差	True（可用于模型评估）

🔧 调参建议：优先调 n_estimators 和 max_features，其他可保持默认。

八、随机森林如何评估模型？—— OOB 误差

每棵树训练时，约 36.8% 的样本未被使用（袋外样本）。
可用这些 OOB 样本对该树进行测试，得到无偏误差估计。
所有树的 OOB 预测结果汇总，即可得到整个森林的 OOB 误差。
优点：无需单独划分验证集！

from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(oob_score=True, random_state=42)
rf.fit(X, y)
print("OOB Score:", rf.oob_score_)

九、特征重要性（Feature Importance）

随机森林可自动计算每个特征的重要性，常用两种方法：

1. 基于不纯度减少（Gini Importance）

统计每个特征在所有树中分裂时带来的不纯度下降总和。
缺点：偏向高基数（类别多）或连续特征。

2. 排列重要性（Permutation Importance）（更推荐）

随机打乱某特征的值，观察模型性能下降程度。
下降越多，说明该特征越重要。
更可靠，不易产生偏差。

from sklearn.inspection import permutation_importance
perm_imp = permutation_importance(rf, X_val, y_val, n_repeats=10)

十、典型应用场景

金融风控：信用评分、欺诈检测
医疗诊断：疾病预测、基因分析
推荐系统：用户行为建模
图像识别（早期）：结合手工特征
Kaggle 竞赛：常作为 baseline 或 stacking 的基模型
特征选择：通过重要性筛选关键变量

十一、代码示例（Python + scikit-learn）

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# 生成模拟数据
X, y = make_classification(n_samples=1000, n_features=20, n_informative=10, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 构建随机森林
rf = RandomForestClassifier(
    n_estimators=200,
    max_features='sqrt',
    oob_score=True,
    random_state=42,
    n_jobs=-1  # 并行训练
)

# 训练
rf.fit(X_train, y_train)

# 评估
print("Train Accuracy:", rf.score(X_train, y_train))
print("Test Accuracy:", rf.score(X_test, y_test))
print("OOB Score:", rf.oob_score_)

# 特征重要性
importances = rf.feature_importances_

十二、总结：为什么随机森林如此成功？

简单 + 鲁棒 + 高效 + 可解释（相对） = 工业界的“瑞士军刀”

它完美平衡了：

偏差-方差权衡（通过集成降低方差）
准确性与可维护性
自动化与可控性

即使在深度学习时代，随机森林仍是快速验证、小数据建模、特征工程评估的首选工具。

如果你感兴趣，我还可以补充：

随机森林与 XGBoost/LightGBM 的对比
如何可视化随机森林中的单棵树
在不平衡数据上的改进策略（如 class_weight）
随机森林的数学原理（泛化误差界）

【2】算法与模型区别

非常好的问题！“随机森林算法” 和 “随机森林模型” 虽然经常被混用，但它们在机器学习中有明确的区别，分别属于 方法论（Method） 与 实例化结果（Artifact） 的范畴。

下面我将从定义、角色、生命周期、类比等多个维度，清晰区分二者：

一、核心区别一句话总结

随机森林算法（Random Forest Algorithm）：是一套构建模型的规则和流程（即“怎么做”）。
随机森林模型（Random Forest Model）：是用该算法在具体数据上训练后得到的具体产物（即“做出来的结果”）。

二、详细对比

维度	随机森林算法	随机森林模型
本质	一种机器学习方法/策略（抽象的）	一个具体的函数或对象（具象的）
存在形式	论文、伪代码、库中的实现逻辑（如 `sklearn.ensemble.RandomForestClassifier` 类）	内存中的对象、保存的 `.pkl` 文件、部署的服务
是否依赖数据	否（通用方法）	是（必须用特定数据训练得到）
是否可运行预测	❌ 不能直接预测	✅ 可以对新样本做预测（`.predict()`）
生命周期阶段	属于建模前的设计阶段	属于建模后的产出阶段
类比	像“菜谱”或“建筑图纸”	像“做好的菜”或“盖好的房子”

三、举例说明

场景：用鸢尾花数据集训练一个分类器

✅ 随机森林算法：

指的是 Leo Breiman 提出的那一整套流程：
1. 从数据中 bootstrap 抽样；
2. 每棵树在分裂时随机选特征子集；
3. 构建多棵 CART 树；
4. 分类时投票，回归时平均。
在代码中，它体现为 RandomForestClassifier 这个类（Class） —— 它定义了“如何构建模型”，但本身不是模型。

from sklearn.ensemble import RandomForestClassifier

# 这里 RandomForestClassifier 是「算法」的封装（一个类）
# 此时尚未产生任何模型！

✅ 随机森林模型：

当你调用 .fit(X, y) 后，才真正生成了一个具体的随机森林模型。
这个模型包含：
- 100 棵具体的决策树（每棵树有完整的分裂规则）
- 特征重要性数组
- OOB 评分（如果开启）
- 内部状态（如类别标签、n_features 等）

# 训练后，rf 成为一个「模型」实例
rf = RandomForestClassifier(n_estimators=100)
rf.fit(X_train, y_train)  # ← 此时才生成「模型」

# rf 现在可以预测 → 它是一个具体的模型
y_pred = rf.predict(X_test)

🔍 关键点：RandomForestClassifier 是算法的载体（类），rf 是模型（实例）。

四、进一步类比理解

领域	“算法” 类比	“模型” 类比
烹饪	红烧肉的做法（步骤、火候、调料比例）	你刚做好的一盘红烧肉
建筑	桥梁设计规范 + 施工流程	黄浦江上那座具体的南浦大桥
编程	排序算法（如快速排序）	对 `[3,1,4]` 排序后得到的 `[1,3,4]`
教育	教学法（如启发式教学）	某位老师用该方法教出的一届学生

五、常见混淆点澄清

❌ 误解1：“我用了随机森林模型来训练数据”

✅ 正确说法：“我用随机森林算法训练数据，得到了一个随机森林模型。”

❌ 误解2：“这个模型是随机森林算法”

✅ 正确说法：“这个模型是通过随机森林算法训练得到的。”

❌ 误解3：“保存模型就是保存算法”

✅ 实际保存的是模型参数（如所有树的结构），不是算法本身。算法由代码库（如 scikit-learn）提供。

六、技术视角：软件工程中的体现

# 1. 算法：由库提供（固定逻辑）
from sklearn.ensemble import RandomForestClassifier  # ← 算法实现

# 2. 模型：用户创建（数据相关）
model = RandomForestClassifier(n_estimators=50)      # ← 创建模型“蓝图”
model.fit(X, y)                                      # ← 训练得到具体模型

# 3. 模型可序列化（算法不能）
import joblib
joblib.dump(model, 'my_rf_model.pkl')               # 保存的是「模型」，不是算法

加载时：

loaded_model = joblib.load('my_rf_model.pkl')  # 直接得到可预测的模型
# 不需要再指定“用什么算法”，因为模型已经包含了算法执行后的全部状态

七、总结表格

项目	随机森林算法	随机森林模型
是什么？	构建模型的方法论	训练后得到的具体对象
是否通用？	是（适用于任何数据）	否（绑定特定训练数据）
能否预测？	不能	能
是否可保存？	不需要（代码库已有）	需要（用于部署/复用）
在代码中是什么？	类（Class）	实例（Instance / Object）