10、提升机器学习模型性能：Bagging与随机森林的应用

最新推荐文章于 2025-12-15 17:02:56 发布

day7

最新推荐文章于 2025-12-15 17:02:56 发布

阅读量21

点赞数

CC 4.0 BY-SA版权

分类专栏：集成学习实战精讲文章标签： Bagging 随机森林机器学习

本文链接：https://blog.youkuaiyun.com/day7/article/details/152551041

集成学习实战精讲专栏收录该内容

19 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

提升机器学习模型性能：Bagging与随机森林的应用

在机器学习领域，为了提高模型的准确性和泛化能力，我们常常会使用集成学习方法。本文将详细介绍Bagging回归器和随机森林这两种强大的集成学习技术，并通过具体的代码示例展示它们在实际问题中的应用。

1. Bagging回归器

Bagging回归器与Bagging分类器类似，它在原始训练集的随机子集上训练每个回归器模型，并对预测结果进行聚合。由于目标变量是数值型的，聚合过程通常采用迭代平均的方式。

1.1 准备工作

首先，我们需要导入必要的库，并读取数据集。这里使用的是 bostonhousing.csv 数据集。

from sklearn.ensemble import BaggingRegressor
from sklearn.tree import DecisionTreeRegressor
import pandas as pd

# 读取数据集
df_housingdata = pd.read_csv('bostonhousing.csv')
print('数据集维度：', df_housingdata.shape)

1.2 具体操作步骤

以下是实现Bagging回归器的详细步骤：
1. 分离特征和目标变量，并划分训练集和测试集

from sklearn.model_selection import

订阅专栏解锁全文

会员秒杀 ¥9.9 重磅福利

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

day7

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

【python 机器学习】bagging和随机森林

m0_62599305的博客

04-21

1127

假设你要参加一个考试，题目比较难，如果你一个人答题可能有很多错误，但是如果你找几个朋友来一起答，每个人做出不同的选择，最后大家通过讨论汇总出最正确的答案，最终的结果会更准确。每棵树都是通过不同的数据子集和不同的特征子集来训练的。的引入（不仅仅是数据，甚至在特征选择时也做了随机化），因此每棵树的“思路”都不完全一样，这样可以大大增加模型的多样性，降低过拟合的风险。，生成多个数据子集，训练多个模型，然后对这些模型的结果进行投票（分类问题）或平均（回归问题），从而得到最终的预测结果。，从而增强模型的多样性。

【机器学习-21】集成学习---Bagging之随机森林（RF）

qq_38614074的博客

04-28

1万+

在机器学习的广袤领域中，集成学习是一种强大且灵活的策略，它通过将多个单独的学习器（或称为“基学习器”）组合起来，形成一个更加强大的学习器，以提升模型的预测性能。集成学习的核心思想在于“集体智慧”的力量，即多个学习器的联合决策通常会比单一学习器的决策更为准确和稳健。集成学习的重要性在于它能够有效解决单一学习器可能存在的过拟合、欠拟合、稳定性差等问题。通过将多个基学习器的预测结果进行综合，集成学习不仅能够提高预测精度，还能增强模型的鲁棒性和泛化能力。

参与评论您还未登录，请先登录后发表或查看评论

机器学习(十八)：Bagging和随机森林

无敌小怪兽_Zz的博客

08-09

2471

本文深入探讨了集成学习及其在随机森林中的应用。对集成学习的基本概念、优势以及为何它有效做了阐述。随机森林，作为一个集成学习方法，与Bagging有紧密联系，其核心思想和实现过程均在文中进行了说明。还详细展示了如何在Sklearn中利用随机森林进行建模，并对其关键参数进行了解读，希望能帮助大家更有效地运用随机森林进行数据建模。

【机器学习】Bagging和随机森林

2301_76820214的博客

09-02

2269

Bagging基本流程：通过上述自助采样，采出T个含m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，在将这些基学习器进行组合。在对预测输出进行结合的时候，Bagging通常对分类任务使用简单投票法，对回归任务进行简单的平均法。但是如果投票个数一致，则最简单的做法是随机选择一个类别，当然也可以进一步考察学习器投票的置信度来确定最终的分类。基本分类器可以是决策树，逻辑回归等基分类器。对于稳定性不好的分类器很实用，通过多数投票，减小了泛化误差，而对于稳定的分类器，集成效果并不明显。1.4。

【机器学习】集成学习方法：Bagging（随机森林）+Boosting（AdaBoost）

weixin_46564151的博客

03-10

2849

一般的机器学习算法都是“单打独斗”，影响其性能（尤其是泛化性）的因素有很多，比如训练集中样本过少、样本分布不均匀等；除此以外，不同的机器学习方法也针对了不同类型的数据，但由于真实数据是未知的，它不一定也遵从训练集的数据分布，因此单兵作战的战斗力十分有限。集成学习是一种学习方法，而并非是具体的方法或者算法，思想是是将这些“单兵作战”的英雄组成团队，实现“3 个臭皮匠顶个诸葛亮”的效果。

详解机器学习经典模型(原理及应用)——随机森林

热门推荐

学习与分享人工智能技术

09-20

1万+

本文详细介绍了随机森林模型的概念、原理、应用等内容，可用作业务或面试八股的参考。

机器学习集成算法：一文理解 随机森林(RandomForest) 模型使用以及参数含义

小阳的博客

03-05

3294

随机森林是机器学习领域最常用的算法之一，其算法构筑过程非常简单:在构建随机森林时，从提供的数据中随机抽样出不同的子集(这个过程不仅包括样本的随机抽取，还有特征的随机抽取)，用于建立多棵不同的决策树，并按照 Bagging 的规则对单棵决策树的结果进行集成(其中回归任务采取平均值，分类任务则遵循少数服从多数的原则)。从原理上来看，随机森林的构造相对简单。但与单棵决策树相比，它学习能力更加强大、算法复杂度更高、又具备一定的抗过拟合能力，是从根本上来说比单棵决策树更优越的算法。

【机器学习】集成学习方法：Bagging与Boosting的应用与优势

Allen-

06-15

2320

集成学习是一种通过训练多个基学习器并将它们的预测结果进行组合，从而获得更优模型性能的方法。基学习器可以是同质的（如多个决策树）或异质的（如决策树、支持向量机和神经网络的组合）。集成学习的核心思想是通过多模型的集成来减小单个模型的误差，最终获得更稳健和准确的预测结果。Bagging和Boosting。Bagging（Bootstrap Aggregating）通过对训练数据进行重采样来构建多个基学习器，并对它们的预测结果进行平均或投票；

机器学习算法三：bagging及随机森林算法

harrycare的博客

06-12

2289

在学习随机森林算法之前，首先需要对一些基础知识有一些了解。 1 信息、熵，信息增益及决策树在学习任何跟决策树有关的算法时，都会接触到题目中的这几个概念，理解这几个概念有助于以后的学习，废话不多说。 1.1 信息信息这个概念真的极其的抽象，看了很多博主的文章感觉还是理解不了，再看看香农的话，信息是用来消除随机不确定性的东西，更让人不知所云。要理解信息的概念，就必须了解信息含量...

机器学习算法总结之Bagging与随机森林

Kaiyuan_sjtu的博客

04-24

3576

写在前面集成学习（ensemble learning）是现在非常热门的机器学习方法，在各种大赛中都可以看到它的身影。它本身不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务，所以常常比单一学习器具有更为显著的泛化性能。根据个体学习器的生成方式，目前的集成学习主要可以分为两类：①个体学习器之间存在强依赖关系、必须串行生成的序列化方法，代表是Boosting；②个体学习器之...

55、机器学习集成方法：Bagging、Boosting与随机森林

zz67890的博客

08-23

本文详细介绍了机器学习中的三种主流集成方法：Bagging、Boosting和随机森林。通过在R语言环境下的具体实现，展示了它们在信用模型中的应用及性能对比。文章包含详细的代码示例、模型评估指标（如Kappa统计量）、参数调优方法以及不同集成方法的适用场景分析。最终总结了各种方法的优缺点，并提供了选择集成方法的决策流程图，帮助读者在实际问题中更好地应用这些强大的机器学习技术。

机器学习总结一：Bagging之决策树、随机森林原理与案例

a1314_521a的博客

10-18

1062

决策树原理介绍，信息增益，信息增益率，基尼系数等公式和案例计算，随机森林原理，分类案例

肝硬化患者肝功能分级临床预测模型：基于机器学习的多变量分析

huanghm88的专栏

12-11

201

摘要本研究基于128例肝硬化患者的34项临床指标，采用机器学习方法构建肝功能分级预测模型。通过XGBoost、随机森林等多种算法比较，发现XGBoost模型表现最优，预测准确率达86.5%，AUC值0.89。研究确定了总胆红素、白蛋白等10个关键预测因子，为临床肝功能评估提供了新的辅助工具。该模型整合了多维临床数据，较传统Child-Pugh评分更具综合性，有助于优化肝硬化患者的个体化诊疗决策。未来需扩大样本量进行多中心验证，进一步完善模型性能。关键词：肝硬化；肝功能分级；机器学习；预测模型；XGBoo

【技术人如何用爬虫+机器学习识别并屏蔽恶意广告】第1课：爬虫与广告反欺诈入门

weiliang_Handan的博客

12-14

745

本文介绍了广告欺诈的现状及其危害，并提出了利用网络爬虫和机器学习技术进行反欺诈的解决方案。主要内容包括：1)网络爬虫的基本原理和工作流程；2)常见广告欺诈类型及其对行业的负面影响；3)系统化的反欺诈学习路径，从数据采集、预处理到模型训练和系统部署。通过构建自动化识别系统，可有效保护广告预算、优化投放策略并提升用户体验。文章还包含了一个简单的Python爬虫示例代码，帮助读者初步了解数据采集技术。

机器学习基础（线性，逻辑回归）

lyx2870657588的博客

12-11

1493

本文介绍了两种常用的回归分析方法及其应用。线性回归部分详细讲解了模型参数、API使用方法和评估指标，通过广告投入与销售额的案例展示了模型建立、训练和预测的全过程。逻辑回归部分重点阐述了其在分类任务中的应用，包括数据预处理、模型训练和性能评估方法，以信用卡欺诈检测为例演示了分类模型的实现步骤。文章还系统介绍了混淆矩阵、精确率、召回率和F1值等模型评价指标的计算方法和适用场景，为机器学习实践提供了完整的技术参考框架。

Day37 深入理解SHAP图