11、基于进化的聚类算法在工业系统数据压缩中的应用

最新推荐文章于 2025-10-17 20:00:00 发布

assembly8low

最新推荐文章于 2025-10-17 20:00:00 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏：智能数据分析的前沿探索文章标签： G3Kmeans 遗传算法聚类算法

本文链接：https://blog.youkuaiyun.com/assembly8low/article/details/153708673

智能数据分析的前沿探索专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于进化的聚类算法在工业系统数据压缩中的应用

1. 引言

在某种意义上，知识可以定义为区分相似与不同的能力。然而，现实生活中遇到的大量信息（即数据）往往会限制这种能力，进而导致知识的局限性。如果不进行进一步的抽象，更多的信息可能只会让人类甚至计算算法更难揭示数据的潜在结构。处理大量数据的关键在于通过一定程度的抽象，从繁杂的信息中提取代表或原型。用较少的原型表示数据必然会丢失一些细节，但能实现简化和可解释性。数据聚类就是实现这种抽象的重要手段之一，它可以将大型数据集压缩成几个具有代表性的点，便于实际处理。

近年来，许多研究致力于将遗传算法（GA）与传统的基于划分的聚类算法相结合。这是因为大多数基于划分的聚类优化技术本质上是爬山算法，对初始设置非常敏感，容易收敛到局部最优解。早期的GA聚类实现包括J. C. Bezdek等人在1994年将GA与模糊C均值（FCM）相结合，采用二进制编码的染色体表示聚类中心，通过GA迭代搜索最优模糊划分。L. O. Hall等人在1999年通过使用二进制格雷码编码中心，提高了GA模糊聚类算法的效率。

同样，也有很多研究尝试将GA与K均值聚类相结合。例如，C. A. Murthy等人在1996年提出对每个数据点的聚类标识号进行编码，但这种方法的染色体长度与数据点数量相同，在处理大型数据集时较为脆弱。K. Krishna等人在1999年提出对硬隶属度矩阵进行二进制编码，以找到最小化“类内方差”的最优硬隶属度矩阵。S. Bandyopahyay等人在2002年认识到聚类问题实际上是一个实值优化问题，因此采用了实值GA，用浮点值对聚类中心进行编码。最近，W. Sheng等人在2006年使用整数编码方案将GA融入K - 中心点聚类。

尽管上述

会员秒杀 ¥9.9 重磅福利

超级会员免费看