数据挖掘中的聚类、流数据、时间序列和序列数据挖掘
1. 聚类分析概述
聚类是将一组物理或抽象对象分组为相似对象类别的过程。在同一个聚类中,数据对象彼此相似,而与其他聚类中的对象不同。聚类分析具有广泛的应用,包括市场或客户细分、模式识别、生物学研究、空间数据分析、网页文档分类等。它既可以作为独立的数据挖掘工具来深入了解数据分布,也可以作为对检测到的聚类进行操作的其他数据挖掘算法的预处理步骤。
聚类的质量可以基于对象的相异度度量来评估,这种度量可以针对各种类型的数据进行计算,包括间隔尺度、二元、分类、有序和比率尺度变量,或者这些变量类型的组合。对于非度量向量数据,余弦度量和谷本系数常用于相似性评估。
2. 聚类算法分类
聚类算法可以分为以下几类:
- 划分方法 :首先创建一个包含 k 个划分的初始集合,其中参数 k 是要构建的划分数量。然后使用迭代重定位技术,尝试通过将对象从一个组移动到另一个组来改进划分。典型的划分方法包括 k - 均值、k - 中心点、CLARANS 及其改进算法。
- 层次方法 :对给定的数据集进行层次分解。根据层次分解的形成方式,该方法可分为凝聚式(自底向上)或分裂式(自顶向下)。为了弥补合并或分裂的刚性,可以通过分析每个层次划分中的对象链接(如 ROCK 和 Chameleon),或者先进行微聚类(即将对象分组为“微簇”),然后使用其他聚类技术(如迭代重定位,如 BIRCH)对微簇进行操作,来提高层次凝聚的质量。
- 密度方法 :基于密度的概念对对象进行聚类。它可以根据邻域对象的密度(如 DB
超级会员免费看
订阅专栏 解锁全文
1203

被折叠的 条评论
为什么被折叠?



