在数据挖掘过程中包含聚类操作;下面来学习其概念;
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。
由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。
聚类分析起源于分类学,但是聚类不等于分类。
聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。
聚类的典型应用
在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。
聚类在地球观测数据库中相似地区的确定,汽车保险单持有者的分组,及根据房子的类型、价值和地理位置对一个城市中房屋的分组上也可以发挥作用。
聚类也能用于对Web上的文档进行分类,以发现信息。
什么是好的聚类?
类内距离小
类间距离大
数据聚类需要什么?
无标注数据
对象间的 距离 或 相似度度量
(可选)类间的距离或相似度度量
聚类算法
层次聚类
K-means、K-mediods
……
还没操作过,大体理解是,
聚类也是分类的一种操作,但所要求划分的类是未知的;通过统计分析方法,用算法计算来进行分类;