一、目的:
粗略的说,按照一定的标准,将相似的数据分为一类,同类之间相异度低,不同类之间相异度低。
二、聚类方法:
基于距离方法进行聚类(欧氏距离、曼哈顿距离、明考斯距离)
基于概率方法进行聚类
三、k-means算法介绍:
k-means算法也称为平均算法。
实现过程:
导入或随机抽取若干数据,从数据中选取若干数据点(或指定某些数据点)作为初次筛选中心,选取数据中除中心点外一点,计算该点到各个中点之间的距离,将其归类到距离某中点最近的一类中,该类取原中点与新加入点的平均值作为该类新中心点,依次循环,遍历数据库中的每一点,最终将数据分为若干类。
缺点:平均算法易受单个点的影响,使得聚类中心偏离。