数据聚类与大规模优化算法解析
高效分组遗传算法(EGGAC)用于数据聚类
在数据聚类领域,高效分组遗传算法(EGGAC)是一种值得关注的算法。该算法的输入包括种群大小和迭代次数,例如,种群数量设为 30(n = 30),迭代次数为 10(j = 10)。
算法的具体步骤如下:
1. 初始种群构建 :每个染色体代表数据集的一个聚类解决方案。第一次迭代的初始种群通过 k - 均值聚类构建。为每个染色体选择一个 2 到 10 之间的随机数,将其作为 k - 均值聚类的簇数输入。k - 均值聚类的结果构成染色体的对象部分。重复此过程,直到构建出整个种群。此时,每个染色体的组部分长度等于随机选择的簇数,由于数据点数量为 200,每个染色体的对象部分长度也为 200。
2. 适应度值计算 :计算每个染色体的适应度值,将适应度值最高的染色体作为精英保存。
3. 新种群构建 :前一个种群的精英作为新种群的第一个后代。后续后代通过选择算子选择。选择每个后代后,以特定概率应用交叉、变异算子和局部搜索。在这个例子中,交叉算子的初始应用概率为 0.7,第一个变异算子的初始应用概率为 0.08,第二个变异算子的初始应用概率为 0.01,局部搜索的初始应用概率为 0.08。这些概率会为每个新种群进行调整。
4. 最终结果 :最后一个种群的精英即为所需数据集的主要聚类解决方案。例如,在某个例子中,精英为数据集选择了 9 个簇,兰德指数为 0.9978。
以下是不同算法检测簇数量的结果对比:
| 数据集 | 簇数
超级会员免费看
订阅专栏 解锁全文
1194

被折叠的 条评论
为什么被折叠?



