1. AGNES
AGNES是一种采用自底向上合并策略的聚类算法,其思想为:初始将所有样本看成一个簇,然后在每一轮过程中将距离最近的两个簇合并为一个簇,簇的个数不断减少到人为指定的聚类簇数K,终止算法。该算法关键在于如何度量两个簇的距离,集合间的距离计算有如下方式:
最小距离:dist(Ci,Cj)=min[x∈Ci,z∈Cj]∣∣x−z∣∣2最大距离:dist(Ci,Cj)=max[x∈Ci,z∈Cj]∣∣x−z∣∣2平均距离:dist(Ci,Cj)=1∣Ci∣∣Cj∣∑x∈Ci∑z∈Cj∣∣x−z∣∣2 \begin{aligned} 最小距离:dist(C_i,C_j) &= min_{[x\in C_i,z\in C_j]}||x-z||_2 \\ 最大距离:dist(C_i,C_j) &= max_{[x\in C_i,z\in C_j]}||x-z||_2 \\ 平均距离:dist(C_i,C_j)&=\cfrac{1}{|C_i||C_j|}\sum_{x\in C_i}\sum_{z\in C_j}||x-z||_2 \end{aligned} 最小距离:dist(Ci,Cj)最大距离:dist(Ci,Cj)平均距离:dist(Ci,Cj)=min[x∈Ci,z∈Cj]∣∣x−z∣∣2=max[x∈Ci,z∈Cj]∣∣x−z∣∣2=∣Ci∣∣C

本文介绍了两种层次聚类算法——AGNES(Agglomerative Nesting)和DIANA(Divisive Analysis)。AGNES采用自底向上的合并策略,根据最小、最大或平均距离进行簇合并,而DIANA采取自顶向下的分裂策略,通过找到直径最大簇并不断分裂来形成簇。文中还详细说明了这两种算法的原理和Python实现。
最低0.47元/天 解锁文章
1595

被折叠的 条评论
为什么被折叠?



