多数投票集成中的多信息集成多样性研究
1. 引言
在集成学习中,构建一个优秀的集成模型,其组成分类器不仅要准确,还需具备多样性。然而,测量分类器的多样性并非易事,因为目前尚无普遍接受的正式定义。过去十年间,人们设计了诸多多样性度量方法,如 Q - 统计量、分歧度、双错误率、κ - 统计量等,但这些现有度量方法的可靠性存疑。
近期,有研究从信息论的角度对集成多样性进行了探讨。该研究发现,集成互信息可自然地分解为“准确性”和“多样性”项,且集成多样性存在于多个相关阶次中。不过,这种信息论多样性及其各项的表达式,尤其是其中涉及的交互信息,相当复杂,并且在实际中缺乏有效估算多个相关阶次的方法。
受此启发,本文同样从信息论的视角研究集成多样性。基于多信息的观点,提出了一种新的公式,使集成多样性及相关项更为简洁。该公式能够将多样性分解到各个组成分类器上,并在此基础上给出了一种估算集成多样性的近似方法。实验结果表明,本文提出的公式和近似方法颇具前景。
2. 背景知识
信息论的基本概念是熵,它用于衡量不确定性。对于变量 X,其熵 H(X) 的定义为:(H(X) = \sum_{x} p(x) \log(p(x))),其中 x 是 X 的取值,p(x) 是概率分布。
基于熵的概念,多个变量之间的依赖关系可以通过互信息及其多元推广来度量。设 n 个变量 (X_1, \cdots, X_n) 表示为 (X_{1:n}),另一个变量为 Y,则有:
- 互信息和条件互信息 :
- (I(X_1; X_2) = \sum_{x_1,x_2} p(x_1, x_2) \log \frac{
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



