17、多数投票集成中的多信息集成多样性研究

最新推荐文章于 2026-01-08 16:05:34 发布

原创最新推荐文章于 2026-01-08 16:05:34 发布 · 28 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#集成学习 #多样性 #信息论

多分类器系统的智慧专栏收录该内容

38 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

多数投票集成中的多信息集成多样性研究

1. 引言

在集成学习中，构建一个优秀的集成模型，其组成分类器不仅要准确，还需具备多样性。然而，测量分类器的多样性并非易事，因为目前尚无普遍接受的正式定义。过去十年间，人们设计了诸多多样性度量方法，如 Q - 统计量、分歧度、双错误率、κ - 统计量等，但这些现有度量方法的可靠性存疑。

近期，有研究从信息论的角度对集成多样性进行了探讨。该研究发现，集成互信息可自然地分解为“准确性”和“多样性”项，且集成多样性存在于多个相关阶次中。不过，这种信息论多样性及其各项的表达式，尤其是其中涉及的交互信息，相当复杂，并且在实际中缺乏有效估算多个相关阶次的方法。

受此启发，本文同样从信息论的视角研究集成多样性。基于多信息的观点，提出了一种新的公式，使集成多样性及相关项更为简洁。该公式能够将多样性分解到各个组成分类器上，并在此基础上给出了一种估算集成多样性的近似方法。实验结果表明，本文提出的公式和近似方法颇具前景。

2. 背景知识

信息论的基本概念是熵，它用于衡量不确定性。对于变量 X，其熵 H(X) 的定义为：(H(X) = \sum_{x} p(x) \log(p(x)))，其中 x 是 X 的取值，p(x) 是概率分布。

基于熵的概念，多个变量之间的依赖关系可以通过互信息及其多元推广来度量。设 n 个变量 (X_1, \cdots, X_n) 表示为 (X_{1:n})，另一个变量为 Y，则有：
- 互信息和条件互信息 ：
- (I(X_1; X_2) = \sum_{x_1,x_2} p(x_1, x_2) \log \frac{

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。