AdaBoost
AdaBoost,是英文"Adaptive Boosting"(自适应增强)的缩写,由 Yoav Freund 和 Robert Schapire在1995年提出。它的自适应在于:前一个基本分类器分错的样本会得到加强(也就是得到更高的权重),加权后的全体样本再次被用来训练下一个基本分类器。同时,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数,算法停止。
具体说来,整个Adaboost 迭代算法就3步:
- 初始化训练数据的权重。如果有N个样本,则每一个训练样本最开始时都被赋予相同的权值:1/N。
- 训练弱分类器。具体训练过程中,如果某个样本点已经被准确地分类,那么在构造下一个训练集中,它的权值就被降低;相反,如果某个样本点没有被准确地分类,那么它的权值就得到提高。然后,权值更新过的样本集被用于训练下一个分类器,整个训练过程如此迭代地进行下去。
- 将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后,加大分类误差率小的弱分类器的权重,使其在最终的分类函数中起着较大的决定作用,而降低分类误差率大的弱分类器的权重,使其在最终的分类函数中起着较小的决定作用。换言之,误差率低的弱分类器在最终分类器中占的权重较大,否则较小。
原则上,只要表现略好于随机猜测的算法都可以作为弱学习器,以决策树作为弱学习器的AdaBoost通常被称为最佳开箱即用的分类器。
Scikit-Learn中AdaBoost类库比较直接,就是AdaBoostClassifier和AdaBoostRegressor两个,从名字就可以看出AdaBoostClassifier用于分类,AdaBoostRegressor用于回归。 AdaBoostClassifier使用了两种AdaBoost分类算法的实现,SAMME和SAMME.R。而AdaBoostRegressor则使用了Adaboost.R2。
对Adaboost调参,主要要对两部分内容进行调参,第一部分是对Adaboost的框架进行调参, 第二部分是对选择的弱分类器进行调参。两者相辅成。下面就对AdaBoostClassifier从这两部分做一个介绍。
AdaBoost分类器
class sklearn.ensemble.AdaBoostClassifier (base_estimator = None,n_estimators = 50,learning_rate = 1.0,algorithm =‘SAMME.R’,random_state = None )
核心参数
弱学习器参数
由于使用不同的弱学习器,则对应的弱学习器参数各不相同。这里仅讨论默认的决策树弱学习器的参数。即回顾下CART分类树DecisionTreeClassifier和CART回归树DecisionTreeRegressor。
AdaBoostClassifier
#AdaBoostClassifier
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import make_gaussian_quantiles
# 生成2维正态分布,生成的数据按分位数分为两类,500个样本,2个样本特征,协方差系数为2
X1, y1 = make_gaussian_quantiles(cov=2.0,n_samples=500,
n_features=2,n_classes=2, random_state=1)
# 生成2维正态分布,生成的数据按分位数分为两类