Python三种常用聚类算法详解：K-means、AGNES和DBSCAN

原创于 2023-03-21 04:07:09 发布 · 1.6k 阅读

8 ·

CC 4.0 BY-SA版权

谢绝转载-https://update.blog.youkuaiyun.com

文章标签：

#聚类 #算法 #python #Python

Python 专栏收录该内容

1151 篇文章 ¥299.90 ¥399.90

订阅专栏

本文详细介绍了Python中三种常见的聚类算法——K-means、AGNES和DBSCAN的原理、实现过程及Python代码示例。K-means基于距离，AGNES基于层次，DBSCAN基于密度，各有其适用场景。

Python三种常用聚类算法详解：K-means、AGNES和DBSCAN

聚类算法是机器学习中常用的一种无监督学习方法，它可以自动将数据集划分为多个不同的组或簇，从而帮助我们更好地理解和分析数据中的结构。在聚类算法中，K-means、AGNES和DBSCAN是三种最为常见的算法，它们各自有着不同的优缺点和应用场景。本文将详细介绍这三种聚类算法的原理及实现过程，并给出相应的Python代码实现。

K-means算法

K-means算法是一种基于距离的聚类算法，它将数据集划分为K个不同的簇，每个簇由一个质心向量表示。该算法的实现过程通常分为以下几个步骤：

随机选择K个质心向量作为初始值；
计算每个样本到K个质心向量的距离，并将其划分到距离最近的那个簇中；
根据新的簇划分结果，更新每个簇的质心向量；
重复步骤2-3，直至质心向量不再发生变化或达到预设的迭代次数。

下面是K-means算法的Python实现代码：

from sklearn.cluster import KMeans

# 创建KMeans模型对象
model = KMeans(n_clusters=3)

# 训练模型
model.fit(X)

# 获取聚类结果
labels = model.predict(X)

AGNES算法

AGNES算法是一种基于层次的聚类算法，它将数据集中的样本逐层合并为越来越大的簇。该算法的实现过程通常分为以下几个步骤：

将每个样本都

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

完美代码

关注关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

常见的几种聚类算法

04-27

4219

1、K-Means(K均值)聚类算法步骤： (1)选择一些类，随机初始化它们的中心点。 (2)计算每个数据点到中心点的距离，数据点距离哪个中心点最近就划分到哪一类中。 (3)计算每一类中中心点作为新的中心点。 (4)重复以上步骤，直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点，然后选择运行结果最好的一个。 2、均值漂移聚类均值漂移聚类是基于滑动窗口的算法，来找到数据点的密集区域。这是一个基于质心的算法，通过将中心点的候选点更新为滑动窗口内点的均值来完成，来定

python手写聚类算法：Kmeans&DBscan算法

m0_46716894的博客

02-27

1454

python手写聚类算法：Kmeans&DBscan 文章目录python手写聚类算法：Kmeans&DBscan算法思路以及步骤介绍手写代码Kmeans手写DBscan关于手写程序的说明算法思路以及步骤介绍首先，我们分别介绍一下Kmeans算法以及DBSCAN算法。 Kmeans算法步骤：首先先随机的选择K个点（这里的K是超参数），这K个点作为中心点，对于剩下的所有的点，计算剩下的点和这三个点的距离，距离中最小的，认为属于这个类。在更新完一遍之后，计算类中的均值向量作为新的中心，再次重

参与评论您还未登录，请先登录后发表或查看评论

DBSCAN聚类算法——机器学习（理论+图解+python代码）

最新发布

05-25

本文将介绍三种在 Python 中实现的聚类算法：K-means、AGNES（凝聚层次聚类）和 DBSCAN（基于密度的空间聚类）。这三种算法在处理鸢尾花数据集时各有优势和局限。 K-means 是一种迭代聚类算法，目标是将数据点分配...

python 三种聚类算法（K-means,AGNES,DBScan）

jacke121的专栏

05-26

7669

python实现鸢尾花三种聚类算法（K-means,AGNES,DBScan）更新时间：2019年06月27日 14:44:44 作者：weixin_42134141 这篇文章主要介绍了python实现鸢尾花三种聚类算法（K-means,AGNES,DBScan），文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧一.分散性聚类(kmeans) 算法流程: 1.选择聚类的个数k. 2.任意产生k个聚类，然后确定...

层次聚类(AGNES)算法(Python)

05-31

层次聚类(AGNES)算法(Python) 是聚类算法的一种，通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中，不同类别的原始数据点是树的最低层，树的顶层是一个聚类的根节点。AGNES是常用的一种层次聚类算法使用场景：用于簇的数量较多,有连接约束等情况

fast-unfolding社团聚类算法Python代码包

06-22

fast-folding算法是复杂网络当中进行社团划分简单高效也是应用最广泛的算法，代码包可以直接通过Python进行安装使用。

聚类算法Python代码

07-23

聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。聚类（Cluster）分析是由若干模式（Pattern）组成的，通常，模式是一个度量（Measurement）的向量，或者是多维空间中的一个点。聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

3个聚类算法性能比较分析

12-16

比较了三种常用的数据流挖掘用算法，分析其性能的优缺点

聚类分析常见算法

motongxue的博客

03-06

2082

聚类分析不存在完美的聚类分析一致、缩放、灵活（三要素） K-means 流程选择K个点作为初始质心 repeat 将每个点指派到最近的质心，形成K个簇重新计算每个簇的质心 until 簇不发生变化或达到最大迭代次数应用通过控制k值控制图像压缩程度 DBScan（带噪声的密度聚类算法）流程 DBScan需要二个参数：扫描半径 (eps) 和最小包含点数(minPts) 。任选一个未被访

聚类算法的种类介绍

zz2230633069的博客

10-05

2673

一、原型聚类：基于原型的聚类（prototype-based clustering），假设聚类结构能通过一组原型刻画。通常情况下，算法先对原型进行初始化，然后原型进行迭代更新求解。 1、k均值聚类算法（k-mean）给定样本集D=，“k-mean”算法针对聚类所得簇划分C=的最小化平方误差： ...

几种常见的聚类方法

jackzhang11的博客

10-17

1万+

作为无监督学习的一个重要方法，聚类的思想就是把属性相似的样本归到一类。对于每一个数据点，我们可以把它归到一个特定的类，同时每个类之间的所有数据点在某种程度上有着共性，比如空间位置接近等特性。多用于数据挖掘、数据分析等一些领域。下面...

聚类算法（K-means & AGNES & DBSCAN）

m0_51339444的博客

08-12

6108

常见聚类方法

Reborn_inuyasha的博客

09-15

2520

常见的聚类方法：K-Means，层次聚类，基于密度的聚类 1.K-Means（K均值）聚类算法步骤： (1) 首先我们选择一些类/组，并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。 (2) 计算每个数据点到中心点的距离，数据点距离哪个中心点最近就划分到哪一类中。 (3) 计算每一类中中心点作为新的中心点。 (4) 重复以上步骤，直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点，然后选择运行结果最好的一个。下图演示

python音频聚类_python实现鸢尾花三种聚类算法（K-means,AGNES,DBScan）

05-26

对于音频聚类，我们可以先将音频转化成MFCC（Mel-Frequency Cepstral Coefficients）特征向量，然后再进行聚类。下面是Python实现鸢尾花三种聚类算法的示例代码： ```python import numpy as np from sklearn import datasets from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN from sklearn.metrics import adjusted_rand_score # 加载鸢尾花数据集 iris = datasets.load_iris() X = iris.data y = iris.target # K-means 聚类 km = KMeans(n_clusters=3, random_state=0) km.fit(X) pred_km = km.labels_ ari_km = adjusted_rand_score(y, pred_km) print("K-means ARI: %.3f" % ari_km) # 层次聚类 ac = AgglomerativeClustering(n_clusters=3) ac.fit(X) pred_ac = ac.labels_ ari_ac = adjusted_rand_score(y, pred_ac) print("Agglomerative Clustering ARI: %.3f" % ari_ac) # DBSCAN 聚类 db = DBSCAN(eps=0.8, min_samples=5) db.fit(X) pred_db = db.labels_ ari_db = adjusted_rand_score(y, pred_db) print("DBSCAN ARI: %.3f" % ari_db) ``` 其中，调用`KMeans()`、`AgglomerativeClustering()`和`DBSCAN()`方法分别进行K-means聚类、层次聚类和DBSCAN聚类，并使用`adjusted_rand_score()`计算ARI（Adjusted Rand Index）指标来评估聚类结果的好坏。