Python-层次聚类-Hierarchical clustering

最新推荐文章于 2025-05-21 14:37:33 发布

转载最新推荐文章于 2025-05-21 14:37:33 发布 · 600 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/Key-Ky/p/3440684.html

文章标签：

#人工智能 #python #数据结构与算法

本文介绍了一种层次聚类算法的实现方法，通过Python代码详细解释了如何从计算两两样本间的欧氏距离开始，逐步合并最近的簇直至达到指定数量的簇。层次聚类是一种不需要预先设定簇的数量的聚类方法，适用于探索性数据分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

层次聚类关键方法
#coding:UTF-8
#Hierarchical clustering 层次聚类
from E_distance import Euclidean_distance
from yezi import yezi
class bicluster:
    def __init__(self, vec, left=None,right=None,distance=0.0,id=None):
        self.left = left
        self.right = right  #每次聚类都是一对数据，left保存其中一个数据，right保存另一个
        self.vec = vec      #保存两个数据聚类后形成新的中心
        self.id = id     
        self.distance = distance
        
def hcluster(blogwords,n) :
    biclusters = [ bicluster(vec = blogwords[i], id = i ) for i in range(len(blogwords)) ]
    distances = {}
    flag = None;
    currentclusted = -1
    while(len(biclusters) > n) : #假设聚成n个类
        min_val = 999999999999; #Python的无穷大应该是inf
        biclusters_len = len(biclusters)
        for i in range(biclusters_len-1) :
            for j in range(i + 1, biclusters_len) :
                if distances.get((biclusters[i].id,biclusters[j].id)) == None:
                    distances[(biclusters[i].id,biclusters[j].id)] = Euclidean_distance(biclusters[i].vec,biclusters[j].vec)
                d = distances[(biclusters[i].id,biclusters[j].id)] 
                if d < min_val :
                    min_val = d
                    flag = (i,j)
        bic1,bic2 = flag #解包bic1 = i , bic2 = j
        newvec = [(biclusters[bic1].vec[i] + biclusters[bic2].vec[i])/2 for i in range(len(biclusters[bic1].vec))] #形成新的类中心，平均
        newbic = bicluster(newvec, left=biclusters[bic1], right=biclusters[bic2], distance=min_val, id = currentclusted) #二合一
        currentclusted -= 1
        del biclusters[bic2] #删除聚成一起的两个数据，由于这两个数据要聚成一起
        del biclusters[bic1]
        biclusters.append(newbic)#补回新聚类中心
        clusters = [yezi(biclusters[i]) for i in range(len(biclusters))] #深度优先搜索叶子节点，用于输出显示
    return biclusters,clusters

深度优先显示：
def yezi(clust):
    if clust.left == None and clust.right == None :
        return [clust.id]
    return yezi(clust.left) + yezi(clust.right)

欧氏距离：
#Euclidean_distance
from math import sqrt

def Euclidean_distance(vector1,vector2):
    length = len(vector1)

    TSum = sum([pow((vector1[i] - vector2[i]),2) for i in range(len(vector1))])

    SSum = sqrt(TSum)

    return SSum