高效分组遗传算法在数据聚类与大数据分析中的应用
1. 引言
聚类是将不平衡的数据和对象组织成组,以揭示它们之间的关系和结构的过程。这一概念在机器学习、模式识别、生物学、生态学、社会科学、市场营销和心理学等众多领域都有应用。聚类的目标是将一组对象划分为多个簇,使得簇内对象彼此之间相似度最高,而与其他簇的对象相似度最低。
在聚类中,一个重要的问题是确定合适的簇数量,特别是当簇相互重叠或数据具有较高维度时。目前,已经提出了多种确定簇数量的方法,Gordon将这些方法分为局部方法和全局方法:
- 局部方法 :用于测试一对簇是否应该合并的假设,适用于评估层次嵌套分区。在局部方法中,选择合适的簇数量相当于决定在层次树的哪个级别进行切割,但由于合并簇时涉及多个严格测试,确定簇数量较为复杂。
- 全局方法 :需要将簇的数量作为输入,通过一个准则来衡量特定簇数量下的聚类质量,并通过比较不同k值计算得到的准则值来获得簇数量的最优估计。然而,当数据集较大时,通过人工比较来确定簇数量的计算负担会显著增加。而且,由于分区聚类算法是迭代的,初始分区和准则函数的不恰当选择会导致收敛到局部最小值,从而产生错误的聚类结果。
目前,进化算法广泛应用于各种优化问题,聚类也可以通过不同的进化方法实现,如进化规划、遗传算法、粒子群优化、蚁群算法和蜂群算法等。一些研究人员提出了基于不同进化算法的聚类方法:
| 研究人员 | 算法 | 特点 |
| ---- | ---- | ---- |
| Dong 等 | 基于进化规划的模糊聚类 | 结合进化算法的全局搜索策略改进模糊c - 均值算法,在算法过程
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



