聚类分析,简单的说,就是对数据分群,它以相似性为基础,相同类中的样本比不同类中的本更具相似性。在商业应用中,聚类通常用来划分用户群,然后分别加以研究。另外,它还可以挖掘数据中潜在的模式,基于此改进业务流程或设计新产品等。常见的聚类算法有k- Means算法、系统聚类算法,下面将依次介绍。
目录
1. K-Means算法
K- Means算法是一种基于划分的经典聚类算法,对于给定的含有N条记录的数据集,算法将把数据集分成k组(k<N),使得每一分组至少包含一条数据记录,每条记录属于且仅属于一个分组。算法首先会給出一个随机初始的分组,再通过反复迭代改变分组,使每一次改进的分组比上一次好。
(1)用于衡量好的标准
同一分组中的记录越近越好,而不同分组中的记录越远越好,通常使用欧氏距离作为相异性度量。