改进的可变邻域搜索启发式算法用于四重聚类
1. 四重聚类相关背景
四重聚类是一种基于最小四重树成本(MQTC)问题的新型层次聚类方法。MQTC 问题是 NP 难题,其目标是从输入对象的四重拓扑的所有可能组合中推导出最优树,这里的最优意味着嵌入(或一致)四重拓扑的相异度之和最小。
此前有研究利用谷歌页面计数从万维网上自动提取单词和短语之间的相似性。Granados 等人研究了几种信息失真对基于压缩的文本聚类的影响,并通过四重层次聚类方法将结果表示为三元树。在生物医学文献提取和聚类中,基于可变邻域搜索元启发式的四重方法变体被应用,能够从 Medline/PubMed 数据库中检索系统评价和荟萃分析的相关参考文献,并通过直观的图形布局可视化检索到的文献。
2. 解决方案算法
2.1 贪心构造启发式算法
该算法用于构造高质量的初始解,且计算运行时间短。输入为 n ≥ 4 个不同对象以及包含这些对象两两之间距离的对称距离矩阵 D。同时使用另一个距离矩阵 D′,其对应对象集 N′ 满足 n′ ≥ 4 且 n′ ≤ n,用于迭代减少原始对象集 N 的维度。
具体步骤如下:
1. 初始化:令矩阵 D′ 等于 D,即对象集 N 和 N′ 等价;将支持解图 t′ 初始化为空,即 t′ ← ∅。
2. 核心步骤:
- 从 N′ 中贪婪地选择具有最短最小成对距离的对象。假设 N′ 中的两个对象 a 和 b 具有最短距离,即 D′(a, b) ≤ D′(c, d),∀(c, d) ∈ N′。若存在距离相等的对象对,则随机选择一个。
- 将节点 a 和 b 连接到支持解图 t′,可能出现以下三种情况:
超级会员免费看
订阅专栏 解锁全文
964

被折叠的 条评论
为什么被折叠?



