基于进化的聚类算法在工业系统数据压缩中的应用
1. 引言
在某种意义上,知识可以定义为区分相似与不同的能力。然而,现实生活中遇到的大量信息(即数据)往往会限制这种能力,进而导致知识的局限性。如果不进行进一步的抽象,更多的信息可能只会让人类甚至计算算法更难揭示数据的潜在结构。处理大量数据的关键在于通过一定程度的抽象,从繁杂的信息中提取代表或原型。用较少的原型表示数据必然会丢失一些细节,但能实现简化和可解释性。数据聚类就是实现这种抽象的重要手段之一,它可以将大型数据集压缩成几个具有代表性的点,便于实际处理。
近年来,许多研究致力于将遗传算法(GA)与传统的基于划分的聚类算法相结合。这是因为大多数基于划分的聚类优化技术本质上是爬山算法,对初始设置非常敏感,容易收敛到局部最优解。早期的GA聚类实现包括J. C. Bezdek等人在1994年将GA与模糊C均值(FCM)相结合,采用二进制编码的染色体表示聚类中心,通过GA迭代搜索最优模糊划分。L. O. Hall等人在1999年通过使用二进制格雷码编码中心,提高了GA模糊聚类算法的效率。
同样,也有很多研究尝试将GA与K均值聚类相结合。例如,C. A. Murthy等人在1996年提出对每个数据点的聚类标识号进行编码,但这种方法的染色体长度与数据点数量相同,在处理大型数据集时较为脆弱。K. Krishna等人在1999年提出对硬隶属度矩阵进行二进制编码,以找到最小化“类内方差”的最优硬隶属度矩阵。S. Bandyopahyay等人在2002年认识到聚类问题实际上是一个实值优化问题,因此采用了实值GA,用浮点值对聚类中心进行编码。最近,W. Sheng等人在2006年使用整数编码方案将GA融入K - 中心点聚类。
尽管上述
超级会员免费看
订阅专栏 解锁全文
934

被折叠的 条评论
为什么被折叠?



