集体智慧编程中的分级聚类学习_智慧聚类-优快云博客

本文链接：https://blog.youkuaiyun.com/accumulate_zhang/article/details/52759764

本文详细介绍了层次聚类算法的基本原理及其实现过程。通过构建一个表示聚类的类bicluster，文章逐步讲解了如何从原始数据开始，通过不断合并最相似的簇来形成层次结构，最终得到整个数据集的聚类结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本人比较笨，下面写下看过这本书这一节后的思路。

处理的数据格式是data，是一个列表，列表元素是列表，子列表为每个样本的向量表示形式。

思路：

1.把所有点做成聚类，放入到初始聚类集clust（列表）中。

clust=[bicluster(row[i],id=i) for i in range(len(rows))] #bicluster是一个表示聚类的类class

2.遍历每一个配对，寻找最小距离，将最小距离的两个聚类，组成一个聚类

判断条件：聚类集的长度大于1，（每次聚类两个。生成一个，删除两个，所以总数一直在减小）

每次都是通过令lowestpair=(0,1),closest=distance(clust[0].vec,clust[1].vec)

3.字典distances用来存储每两个点的相似度距离值{（id1,id2）:sim,......} 如果某个点对不在distances中，则放进去

4.比对当前两点i与j的距离d是否小于closest，如果小于，则令closest=d,lowestpair=(i,j)

两层for循环后，就得到了距离最小的对（lowestpair[0],lowestpair[1]）

5.计算新的聚类，即两个点的向量分量的平均值，并用bicluster构建新聚类，它的编号为currentclusterid为负数，新生成的聚类都用负数表示

6.不在原始的集合的聚类，其id都为负数，删除lowestpair[0],lowestpair[1]对应的原始聚类，并添加新的聚类

代码如下所示：

class bicluster:
def __init__(self,vec,left=None,right=None,distance=0.0,id=None):
self.left=left
self.vec=vec
self.right=right
self.distance=distance
self.id=id

def hcluster(data,distance=pearson):
distances={}
currentclusterid=-1
clust=[bicluster(data[i],id=i) for i in range(len(data))]

while(len(clust)>1):
lowestpair=(0,1)
closest=distance(clust[0].vec,clust[1].vec)

for i in range(len(clust)):
for j in range(i+1,len(clust)):
if (clust[i].id,clust[j].id) not in distances:
distances[(clust[i].id,clust[j].id)]=distance(clust[i].vec,clust[j].vec)

d=distance(clust[i].vec,clust[j].vec)
if d<closest:
closest=d
lowestpair=(i,j)

mergevec=[(clust[lowestpair[0]].vec[i]+clust[lowestpair[1]].vec[i])/2.0 for i in range(len(clust[0].vec))]

newcluster=bicluster(mergevec,clust[lowestpair[0]],clust[lowestpair[1]],distance=closest,id=currentclusterid)

currentclusterid-=1
del clust[lowestpair[1]]
del clust[lowestpair[0]]
clust.append(newcluster)

return clust[0]