四重聚类的改进可变邻域搜索启发式算法
在聚类分析领域,四重聚类是一种基于最小四重树成本(MQTC)问题的新型层次聚类方法。该问题是NP难问题,目标是从输入对象的四重拓扑的所有可能组合中推导出一棵最优树,使得嵌入(或一致)的四重拓扑的相异度之和最小。
1. 四重聚类相关研究概述
四重聚类相关理论涉及从万维网使用谷歌页面计数自动提取单词和短语之间的相似性。Granados等人研究了几种信息失真对基于压缩的文本聚类的影响,并通过四重层次聚类方法将结果表示为三元树。在生物医学文献提取和聚类中,基于可变邻域搜索元启发式的四重方法变体得到应用,能够从Medline/PubMed数据库中检索系统评价和荟萃分析的相关参考文献,并通过直观的图形布局可视化检索到的文献。
Cilibrasi和Vitányi更正式地提出了最小四重树成本问题,展示了四重层次聚类方法的主要概念、组件、优缺点,并指出了与生物系统发育中其他方法的异同。他们还通过从MQC问题归约证明了MQTC问题是NP难的,并提供了随机爬山启发式算法来获得近似解。此外,还有基于贪婪随机自适应搜索过程、模拟退火和可变邻域搜索等的高效元启发式算法被提出并用于MQTC问题。
2. 解决方案算法
2.1 贪婪构造启发式算法
为了构造高质量且计算时间短的初始解,提出了一种新的贪婪启发式算法。在以往解决MQTC问题的元启发式算法中,初始解通常是随机设置或选择相应的扁平结构,然后通过特定元启发式的不同启发式准则迭代改进以达到局部最优。而该贪婪构造启发式算法的目的是提供高质量且高速获得的起始解,从而提高后续MQTC启发式算法的整体性能。
具体操作步骤如下:
1.
超级会员免费看
订阅专栏 解锁全文
965

被折叠的 条评论
为什么被折叠?



