1.聚类
层次聚类
在层次聚类中,起初每一个实例或观测值属于一类。聚类就是每一次把两类聚成新的一类,直到所有的类聚成 单 个类为止,算法如下: (1) 定义每个观测值(行或单元)为一类; (2) 计算每类和其他各类的距离; (3) 把距离短 的两类合并成一类,这样类的个数就减少一个; (4) 重复步骤(2)和步骤(3),直到包含所有观测值的类合并成单个 的类为止。层次聚类方法:
单联动--一个类中的点和另一个类中的点的最小距离
全联动--一个类中的点和另一个类中的点的最大距离
平均联动--一个类中的点和另一个类中的点的平均距离(也称作UPGMA,即非加权对组平均)
质心--两类中质心(变量均值向量)之间的距离。对单个的观测值来说,质心就是变量的值
Ward法--两个类之间所有变量的方差分析的平方和
算法如下:
(1) 定义每个观测值(行或单元)为一类;
(2) 计算每类和其他各类的距离;
(3) 把距离短的两类合并成一类,这样类的个数就减少一个;
(4) 重复步骤(2)和步骤(3),直到包含所有观测值的类合并成单个的类为止。
划分聚类
将数据对象集划分为K个不重叠的子集,使得每个数据对象恰在一个子集中。例:K-means聚类
K均值算法如下:
(1) 选择K个中心点(随机选择K行);
(2) 把每个数据点分配到离它近的中心点;
(3) 重新计算每类中的点到该类中心点距离的平均值(也就说,得到长度为p的均值向量,这里的p是变量的个