聚类分析:原理、数据类型与应用
1. 聚类分析概述
聚类分析是将一组物理或抽象对象分组为相似对象类别的过程。聚类中的每个簇是一组数据对象,簇内对象彼此相似,而与其他簇的对象不同。与分类不同,聚类不需要预先定义的类标签,是一种通过观察学习的方式。
聚类分析在众多领域有着广泛应用:
- 商业 :帮助营销人员发现客户群体中的不同细分市场,并根据购买模式对客户群体进行特征描述。
- 生物学 :用于推导动植物分类法,对具有相似功能的基因进行分类,以及深入了解种群的内在结构。
- 其他领域 :还可用于地球观测数据库中识别相似土地用途的区域、根据房屋类型、价值和地理位置对城市中的房屋进行分组、识别高平均索赔成本的汽车保险保单持有人群体,以及对网页上的文档进行分类以实现信息发现。
聚类分析在数据挖掘中还可用于异常值检测,例如检测信用卡欺诈和监控电子商务中的犯罪活动。此外,它既可以作为独立工具来深入了解数据分布、观察每个簇的特征,也可以作为其他算法(如特征化、属性子集选择和分类)的预处理步骤。
聚类分析在数据挖掘中的典型要求如下:
|要求|描述|
| ---- | ---- |
|可扩展性|许多聚类算法在包含少于几百个数据对象的小数据集上表现良好,但大型数据库可能包含数百万个对象。需要高度可扩展的聚类算法,因为对大数据集的样本进行聚类可能会导致有偏差的结果。|
|处理不同类型属性的能力|许多算法是为对基于区间(数值)的数据进行聚类而设计的,但应用可能需要对其他类型的数据(如二元、分类(标称)、有序
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



