7、多聚类系统的组合方法与评估

多聚类系统的组合方法与评估

1 引言

聚类在众多领域中都有着重要作用,如基因组学、词汇语义学、信息检索和自动语音识别等。目前已经提出了多种聚类方法,如凝聚聚类、混合密度和图划分等。然而,大多数聚类方法主要关注单个标准或模型,并未涉及多个不同系统的组合问题。

多个聚类系统的组合问题与分类器组合问题类似,但不同系统的聚类之间的对应关系是未知的。例如,有两个聚类系统对九个数据点进行聚类,分为三组。虽然两个系统看似做出了不同的决策,但实际上它们非常相似。如果解决了对应问题,就可以应用多种系统组合方案。

确定最佳对应关系需要一个标准和优化方法。这里使用的标准是最大一致性,即找到不同系统的聚类做出最多相同决策的对应关系。本文提出了三种确定聚类对应关系并进行组合的新方法,其中两种通过线性优化来解决,第三种使用奇异值分解。

此外,实验结果表明,组合方案并非独立于底层聚类系统。不同聚类算法应用组合方案的相对收益并不相同。例如,多项分布混合算法在单个运行时表现较差,但在不同运行组合后,在三个语料库中的两个中取得了所有八种聚类算法中的最佳性能。这表明评估算法时,不应仅基于其单个性能,还应考虑多次运行的组合情况。

2 相关工作

机器学习社区中,多个聚类系统的组合问题引起了一些研究人员的关注。相关研究提出了三种基于图划分的聚类组合方法:
1. 定义数据点间的成对相似性矩阵 :每个系统用一个 D × D 矩阵表示,若两个观测属于同一聚类,矩阵对应位置为 1,否则为 0。所有矩阵的平均值作为最终基于相似性的聚类算法的输入。该方法的缺点是具有二次内存和计算要求,对于高 D 值不实用。
2.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值