【Python实例第22讲】不同聚类算法的比较分析

最新推荐文章于 2025-10-05 16:26:22 发布

原创

最新推荐文章于 2025-10-05 16:26:22 发布 · 2.9k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文通过6个标准数据集对比分析了不同聚类算法，包括AP聚类、谱聚类、K-means、层次聚类、DBSCAN和高斯混合模型聚类，探讨了算法对参数的敏感性和在特定数据集上的表现。

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq：2279055353）

这个例子演示不同的聚类算法用于6个标准数据集(toy datasets)聚类上的特性。这6个数据集分别是：

noisy_circles: 数据点围成大小两个同心圈状。
noisy_moons: 数据点构成两个交错的半圆。
blobs: 数据点形如团状高斯块。
varied: 可变方差的数据块。
aniso: 各向异性分布的数据块。
no_structure: 均匀分布的数据。

在这里插入图片描述

使用的聚类算法是：

MiniBatchKMeans
AP聚类
MeanShift
谱聚类
Ward聚类
层次聚类
DBSCAN聚类
Birch聚类
高斯混合模型聚类

除了最后一个数据集no_structure, 每一对数据集-算法的参数都被优化到产生最佳的聚类结果。我们发现，一些算法对参数是敏感的。no_structure数据集是一个null情形的例子。数据是同分布的，所以没有好的聚类结果。

实例代码

import time
import warnings

import numpy as np
import matplotlib.pyplot as plt

from sklearn import cluster, datasets, mixture
from sklearn.neighbors import kneighbors_graph
from sklearn.preprocessing import StandardScaler
from itertools import cycle, islice

np.ra