17、多数投票集成中的多信息集成多样性研究

多数投票集成中的多信息集成多样性研究

1. 引言

在集成学习中,构建一个优秀的集成模型,其组成分类器不仅要准确,还需具备多样性。然而,测量分类器的多样性并非易事,因为目前尚无普遍接受的正式定义。过去十年间,人们设计了诸多多样性度量方法,如 Q - 统计量、分歧度、双错误率、κ - 统计量等,但这些现有度量方法的可靠性存疑。

近期,有研究从信息论的角度对集成多样性进行了探讨。该研究发现,集成互信息可自然地分解为“准确性”和“多样性”项,且集成多样性存在于多个相关阶次中。不过,这种信息论多样性及其各项的表达式,尤其是其中涉及的交互信息,相当复杂,并且在实际中缺乏有效估算多个相关阶次的方法。

受此启发,本文同样从信息论的视角研究集成多样性。基于多信息的观点,提出了一种新的公式,使集成多样性及相关项更为简洁。该公式能够将多样性分解到各个组成分类器上,并在此基础上给出了一种估算集成多样性的近似方法。实验结果表明,本文提出的公式和近似方法颇具前景。

2. 背景知识

信息论的基本概念是熵,它用于衡量不确定性。对于变量 X,其熵 H(X) 的定义为:(H(X) = \sum_{x} p(x) \log(p(x))),其中 x 是 X 的取值,p(x) 是概率分布。

基于熵的概念,多个变量之间的依赖关系可以通过互信息及其多元推广来度量。设 n 个变量 (X_1, \cdots, X_n) 表示为 (X_{1:n}),另一个变量为 Y,则有:
- 互信息和条件互信息
- (I(X_1; X_2) = \sum_{x_1,x_2} p(x_1, x_2) \log \frac{

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值