集体智慧编程中的分级聚类学习

本文详细介绍了层次聚类算法的基本原理及其实现过程。通过构建一个表示聚类的类bicluster,文章逐步讲解了如何从原始数据开始,通过不断合并最相似的簇来形成层次结构,最终得到整个数据集的聚类结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本人比较笨,下面写下看过这本书这一节后的思路。

处理的数据格式是data,是一个列表,列表元素是列表,子列表为每个样本的向量表示形式。


思路:

1.把所有点做成聚类,放入到初始聚类集clust(列表)中。

clust=[bicluster(row[i],id=i) for i in range(len(rows))]  #bicluster是一个表示聚类的类class


2.遍历每一个配对,寻找最小距离,将最小距离的两个聚类,组成一个聚类

判断条件:聚类集的长度大于1,(每次聚类两个。生成一个,删除两个,所以总数一直在减小)


每次都是通过令lowestpair=(0,1),closest=distance(clust[0].vec,clust[1].vec)


3.字典distances用来存储每两个点的相似度距离值{(id1,id2):sim,......}  如果某个点对不在distances中,则放进去


4.比对当前两点i与j的距离d是否小于closest,如果小于,则令closest=d,lowestpair=(i,j)


两层for循环后,就得到了距离最小的对(lowestpair[0],lowestpair[1])

5.计算新的聚类,即两个点的向量分量的平均值,并用bicluster构建新聚类,它的编号为currentclusterid为负数,新生成的聚类都用负数表示


6.不在原始的集合的聚类,其id都为负数,删除lowestpair[0],lowestpair[1]对应的原始聚类,并添加新的聚类


代码如下所示:

class bicluster:
    def __init__(self,vec,left=None,right=None,distance=0.0,id=None):
        self.left=left
        self.vec=vec
        self.right=right
        self.distance=distance
        self.id=id


def hcluster(data,distance=pearson):
    distances={}
    currentclusterid=-1
    clust=[bicluster(data[i],id=i) for i in range(len(data))]


    while(len(clust)>1):
        lowestpair=(0,1)
        closest=distance(clust[0].vec,clust[1].vec)


        for i in range(len(clust)):
            for j in range(i+1,len(clust)):
                if (clust[i].id,clust[j].id) not in distances:
                    distances[(clust[i].id,clust[j].id)]=distance(clust[i].vec,clust[j].vec)


                d=distance(clust[i].vec,clust[j].vec)
                if d<closest:
                    closest=d
                    lowestpair=(i,j)


        mergevec=[(clust[lowestpair[0]].vec[i]+clust[lowestpair[1]].vec[i])/2.0  for i in range(len(clust[0].vec))]


        newcluster=bicluster(mergevec,clust[lowestpair[0]],clust[lowestpair[1]],distance=closest,id=currentclusterid)


        currentclusterid-=1
        del clust[lowestpair[1]]
        del clust[lowestpair[0]]
        clust.append(newcluster)


    return clust[0]








评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值