AdaBoost

部署运行你感兴趣的模型镜像

0.目录

1.算法思想

AdaBoost:属于元算法,它是通过组合多个弱分类器来构建一个强分类器。全称adaptive boosting(自适应boosting)。

2.实现代码

from numpy import *


def loadSimpData():
    datMat = matrix([[1., 2.1],
                     [2., 1.1],
                     [1.3, 1.],
                     [1., 1.],
                     [2., 1.]])
    classLabels = [1.0, 1.0, -1.0, -1.0, 1.0]
    return datMat, classLabels


def stumpClassify(dataMatrix, dimen, threshVal, threshIneq):  # just classify the data
    retArray = ones((shape(dataMatrix)[0], 1))
    if threshIneq == 'lt':
        retArray[dataMatrix[:, dimen] <= threshVal] = -1.0
    else:
        retArray[dataMatrix[:, dimen] > threshVal] = -1.0
    return retArray
def buildStump(dataArr, classLabels, D):
    """
    单层决策树生成函数
    :param dataArr:
    :param classLabels:
    :param D: 权值
    :return:
    """
    dataMatrix = mat(dataArr)
    labelMat = mat(classLabels).T
    m, n = shape(dataMatrix)
    numSteps = 10.0
    bestStump = {}
    bestClasEst = mat(zeros((m, 1)))
    minError = inf  # init error sum, to +infinity
    for i in range(n):  # loop over all dimensions
        rangeMin = dataMatrix[:, i].min()
        rangeMax = dataMatrix[:, i].max()
        stepSize = (rangeMax - rangeMin) / numSteps
        for j in range(-1, int(numSteps) + 1):  # loop over all range in current dimension
            for inequal in ['lt', 'gt']:  # go over less than and greater than
                threshVal = (rangeMin + float(j) * stepSize)
                predictedVals = stumpClassify(dataMatrix, i, threshVal,
                                              inequal)  # call stump classify with i, j, lessThan
                errArr = mat(ones((m, 1)))
                # 预测值与分类值相同,分类正确
                errArr[predictedVals == labelMat] = 0
                weightedError = D.T * errArr  # calc total error multiplied by D
                # print("split: dim %d, thresh %.2f, thresh ineqal: %s, the weighted error is %.3f" % (
                #     i, threshVal, inequal, weightedError))
                if weightedError < minError:
                    minError = weightedError
                    bestClasEst = predictedVals.copy()
                    bestStump['dim'] = i
                    bestStump['thresh'] = threshVal
                    bestStump['ineq'] = inequal
    return bestStump, minError, bestClasEst

在上面的函数中: ϵ= 错 误 率 ϵ = 未 正 确 分 类 的 样 本 数 目 所 有 样 本 数 目 ,即weightedError = D.T * errArr

def adaBoostTrainDS(dataArr, classLabels, numIt=40):
    """
    AdaBoost训练过程
    :param dataArr:
    :param classLabels:
    :param numIt:
    :return:
    """
    weakClassArr = []
    m = shape(dataArr)[0]
    D = mat(ones((m, 1)) / m)  # init D to all equal
    aggClassEst = mat(zeros((m, 1)))
    for i in range(numIt):
        bestStump, error, classEst = buildStump(dataArr, classLabels, D)  # build Stump
        # print "D:",D.T
        alpha = float(
            0.5 * log((1.0 - error) / max(error, 1e-16)))  # calc alpha, throw in max(error,eps) to account for error=0
        bestStump['alpha'] = alpha
        weakClassArr.append(bestStump)  # store Stump Params in Array
        # print "classEst: ",classEst.T
        expon = multiply(-1 * alpha * mat(classLabels).T, classEst)  # exponent for D calc, getting messy
        D = multiply(D, exp(expon))  # 更新权值D
        D = D / D.sum()
        # calc training error of all classifiers, if this is 0 quit for loop early (use break)
        aggClassEst += alpha * classEst
        # print "aggClassEst: ",aggClassEst.T
        aggErrors = multiply(sign(aggClassEst) != mat(classLabels).T, ones((m, 1)))
        errorRate = aggErrors.sum() / m
        print("total error: ", errorRate)
        if errorRate == 0.0:
            break
    return weakClassArr, aggClassEst

在上面的函数中,最重要的是对权值进行更新:
其中,alpha计算公式为:

α=12ln(1ϵϵ) α = 1 2 l n ( 1 − ϵ ϵ )

如果某个样本被正确分类,权值更新为:
D(t+1)i=D(t)ieαSum(D) D i ( t + 1 ) = D i ( t ) e − α S u m ( D )

如果被错分,权值更新为:
D(t+1)i=D(t)ieαSum(D) D i ( t + 1 ) = D i ( t ) e α S u m ( D )

def adaClassify(datToClass, classifierArr):
    """
    AdaBoost分类函数
    :param datToClass:
    :param classifierArr:
    :return:
    """
    dataMatrix = mat(datToClass)  # do stuff similar to last aggClassEst in adaBoostTrainDS
    m = shape(dataMatrix)[0]
    aggClassEst = mat(zeros((m, 1)))
    for i in range(len(classifierArr)):
        # 使用每个弱分类器
        classEst = stumpClassify(dataMatrix, classifierArr[i]['dim'],
                                 classifierArr[i]['thresh'],
                                 classifierArr[i]['ineq'])  # call stump classify
        aggClassEst += classifierArr[i]['alpha'] * classEst
        print(aggClassEst)
    return sign(aggClassEst)


def main():
    datMat, classLabels = loadSimpData()
    D = mat(ones((5, 1)) / 5)
    classifierArr, aggClassEst = adaBoostTrainDS(datMat, classLabels, 30)
    classifyResult = adaClassify([0, 0], classifierArr)
    print(classifyResult)
    # bestStump, miniError, bestClassEst = buildStump(datMat, classLabels, D)


if __name__ == '__main__':
    main()

3.参考文献

[1] 哈林顿李锐. 机器学习实战 : Machine learning in action[M]. 人民邮电出版社, 2013.

您可能感兴趣的与本文相关的镜像

Python3.10

Python3.10

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

### 算法原理 Adaboost算法的基本思路是在一组弱分类器的基础上,通过不断调整弱分类器权重与样本权重来构建强分类器。该算法事先给定一组弱分类器,在运行过程中,会增加分类误差大的样本的权重,减少分类误差小的样本的权重,然后通过样本误差进一步确定弱分类器的权重,使得误差越小的弱分类器权重越大[^3]。 ### 改进策略 鉴于Adaboost算法在实际应用中遇到的一些挑战,研究人员提出了多种改进策略。常见的改进方向是采用不同的弱分类器,或者对现有的分类器进行优化。例如,结合其他集成学习方法(如随机森林或梯度提升树)来增强分类器的多样性,引入正则化项来控制模型复杂度,防止过拟合。通过这些改进,Adaboost可以在保持其原有优势的同时,进一步提升对复杂数据集的处理能力[^1]。 ### 与其他算法融合 Softmax函数在AdaBoost算法中扮演重要角色,它用于将每个弱学习器的输出转换为概率分布,为最终的强分类器的输出提供概率值[^2]。 ### 使用方法 #### 调参技巧 - 增加`n_estimators`可以提高精度,但可能导致过拟合。 - 降低`learning_rate`可以增强泛化能力,但需要更多迭代。 - 更换`base_estimator`(如SVM、逻辑回归)可能提升性能[^4]。 #### 弱学习器选择 `base_estimator`是弱学习器,AdaBoostClassifier和AdaBoostRegressor都有。理论上可以选择任何一个分类或者回归学习器,不过需要支持样本权重。常用的一般是CART决策树或者神经网络MLP。如果选择的AdaBoostClassifier算法是SAMME.R,则弱分类学习器还需要支持概率预测,也就是在scikit - learn中弱分类学习器对应的预测方法除了`predict`还需要有`predict_proba`[^5]。 ### 应用场景 Adaboost适用于二分类问题,如垃圾邮件检测、人脸识别等。它通过组合多个弱分类器,构建高精度模型,核心是样本权重调整,让后续分类器更关注难样本[^4]。 ### 代码示例 ```python from sklearn.ensemble import AdaBoostClassifier from sklearn.datasets import make_classification from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 生成示例数据 X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, n_redundant=0, random_state=42) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 创建Adaboost分类器 clf = AdaBoostClassifier(n_estimators=100, learning_rate=1.0) # 训练模型 clf.fit(X_train, y_train) # 预测 y_pred = clf.predict(X_test) # 计算准确率 accuracy = accuracy_score(y_test, y_pred) print(f"Accuracy: {accuracy}") ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值