这种算法特别适用与类的模式分布是条状或线状的情况。
近邻函数
对于两个样本xi与xj,如果xi是xj的第i个近邻点,则定义xi对xj的近邻系数为I,记为d(i,j)=l;同理d(j,i)=J。于是xi和xj之间的近邻函数值为:。
显然样本间的近邻函数值越小说明它们越接近越相似。在这方法里用近邻函数值来表示连接损失(表示两个样本是否适合合并)。
算法思想
同过迭代合并初始的分类,令类间的最小近邻函数值的最小值尽可能大,类内最大近邻函数值尽可能小。
算法步骤
- 计算距离矩阵
- 计算近邻系数矩阵
- 生成近邻函数矩阵L
- 对L进行搜索,将每个点与和他有最小近邻函数值的点连接起来
- 对于4中的聚类,计算各类的类间的最小近邻函数值和类内最大近邻函数值,若前者小于等于后者则将2类合并,重复本步骤。否则结束。