集成学习-多样性的度量和增强

本文探讨了集成学习中分类器多样性的度量方法,包括马修斯相关系数和不和度量,以及如何通过数据样本、输入属性和算法参数扰动来增强多样性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

多样性度量

在集成学习中,我们希望分类器具有多样性。多样性度量是用于度量集成个体分类器的多样性。常规的做法是度量两个分类器的相似性,有如下指标。
给定数据集D={(Xi,Yi)},对于二分类任务,Yi={-1,+1},对于两个分类器hi和hj的预测结果。列表为:
在这里插入图片描述
1.马修斯相关系数
针对二分类问题:
在这里插入图片描述
当预测结果全部正确时,正相关程度最大MCCij=1
当预测结果全部正确时,负相关程度最大MCCij=-1
当预测结果一半正确一般错误时,且正负类标比例相同时,此时相当于随机猜测
所以相关系数越小,表明两个分类器相似度越小,差异越大
使用sklearn中的函数可以实现马修斯相关系数计算,函数中包含了多分类情况的计算:

from sklearn.metrics import matthews_corrcoef
y_true = [+1, +1, +1, -1]
y_pred = [+1, -1, +1, +1]
matthews_corrcoef(y_true, y_pred)  

2.不和度量
在这里插入图片描述
值域为[0,1],不和度量实质上衡量了分类器结果不一致的比例,值越大表明差异性越大

多样性增强

在集成学习中,需要有效的生成多样性大的个体学习器,增强多样性的思路一般是在学习过程中引入随机性,常见的做法是对数据样本,输入属性,输入表示,算法参数进行扰动。
1.数据样本扰动
给定初始数据集,可以产生不同的数据子集,利用不同的数据子集训练出不同的学习器,数据样本扰动通常基于采样法。在bagging中使用自助采样,Adaboost使用序列采样,此类做法简单高效,使用很广,对很多基学习器例如决策树,神经网络等训练样本稍加变化就会导致学习器有显著变动,此时样本扰动对不稳定基学习器很有效;有一些基学习器对样本扰动不敏感,比如线性学习器,支持向量机,朴素贝叶斯等称为稳定基学习器。
2.输入属性扰动
不同的属性子空间提供了观察数据的不同视角从不同属性子空间中训练出的个体学习器必然不同,对包含大量冗余属性的数据,使用属性子集能训练出多个多样性大的学习器,还会因为属性数的减少而节省时间开销。同时,由于冗余属性较多,减少属性后训练出的个体学习器不至于太差。若数据只包含少量属性或者冗余属性很少,此时属性扰动会导致每个学习器可用信息大大减少,效果较差。
3.算法参数扰动
对学习器的超参数进行扰动。例如可以通过调整正则化系数来控制神经网络的不同参数,决策树的属性选择机制可以替换为其他属性选择机制。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值