[飞桨机器学习]Bagging算法

最新推荐文章于 2025-06-22 15:34:24 发布

原创

最新推荐文章于 2025-06-22 15:34:24 发布 · 1.2k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #python #机器学习 #人工智能

[飞桨机器学习]Bagging算法

Bagging算法（英语：Bootstrap aggregating，引导聚集算法），又称装袋算法，是机器学习领域的一种团体学习算法。最初由Leo Breiman于1996年提出。Bagging算法可与其他分类、回归算法结合，提高其准确率、稳定性的同时，通过降低结果的方差，避免过拟合的发生。

一、简介

Bagging [Breiman, 1996a] 是井行式集成学习方法最著名的代表.从名字即可看出，它直接基于自助采样法(bootstrap sampling).给定包含m 个样本的数据集，我们先随机取出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时该样本仍有可能被选中，这样，经过m次随机采样操作，我们得到含m 个样本的采样集，初始训练集中有的样本在采样集里多次出现，有的则从未出现，初始训练集中约有63.2%的样本出现在来样集中.

照这样，我们可采样出T 个含m 个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合.这就是Bagging 的基本流程.在对预测输出进行结合时， Bagging 通常对分类任务使用简单投票法，对回归任务使用简单平均法.若分类预测时出现两个类收到同样票数的情形，则最简单的做法是随机选择一个，也可进一步考察学习器投票的置信度来确定最终胜者.

Bagging是通过结合几个模型降低泛化误差的技术。主要想法是分别训练几个不同的模型，然后让所有模型表决测试样例的输出。这是机器学习中常规策略的一个例子，被称为模型平均（modelaveraging）。采用这种策略的技术被称为集成方法。模型平均（model averaging）奏效的原因是不同的模型通常不会在测试集上产生完全相同的误差。模型平均是一个减少泛化误差的非常强大可靠的方法。

二、基本思想

1.给定一个弱学习算法,和一个训练集;
2.单个弱学习算法准确率不高;
3.将该学习算法使用多次,得出预测函数序列,进行投票;
4.最后结果准确率将得到提高.

三、算法流程

四、实例

数据集pima简介

该数据集最初来自国家糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测患者是否患有糖尿病。
从较大的数据库中选择这些实例有几个约束条件。尤其是，这里的所有患者都是Pima印第安至少21岁的女性。
数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等

【1】Pregnancies：怀孕次数
【2】Glucose：葡萄糖
【3】BloodPressure：血压 (mm Hg)
【4】SkinThickness：皮层厚度 (mm)
【5】Insulin：胰岛素 2小时血清胰岛素（mu U / ml
【6】BMI：体重指数（体重/身高）^2
【7】DiabetesPedigreeFunction：糖尿病谱系功能
【8】Age：年龄（岁）
【9】Outcome：类标变量（0或1）

import pandas
from sklearn import model_selection
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import

最低0.47元/天解锁文章