基于距离度量构建模型
1. 惯性指标(Inertia)
在聚类分析中,有一个尚未提及且不依赖于真实标签的指标——惯性(Inertia)。它目前作为一个指标的文档记录并不完善,但它是 k-means 算法试图最小化的指标。惯性是每个点与其所属聚类中心的平方差之和,我们可以使用 NumPy 来计算它,示例代码如下:
kmeans.inertia_
运行结果可能如下:
4849.9842988128385
2. 使用 MiniBatch k-means 处理更多数据
2.1 准备工作
k-means 是一种不错的聚类方法,但对于大量数据来说并不理想,这是因为 k-means 的计算复杂度较高,该问题属于 NP 难问题。而 MiniBatch k-means 是 k-means 的一种更快的实现方式,它通过采用许多称为 MiniBatches 的子样本,在良好的初始条件下可以实现与常规 k-means 相近的效果,从而将 k-means 的速度提高几个数量级。
2.2 操作步骤
以下是对 MiniBatch 聚类进行高级性能分析的步骤:
1. 导入必要的库并生成数据集 :
import numpy as np
from sklearn.datasets import make_blobs
blobs, labels =
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



