基于距离度量的模型构建
1. 惯性指标(Inertia)
在聚类分析中,有一个尚未提及且不依赖于真实标签的指标——惯性(Inertia)。目前关于它作为指标的文档资料并不多,但它是 k-means 算法试图最小化的指标。惯性指的是每个点与其所属聚类中心的平方差之和。我们可以使用 NumPy 来计算它,示例代码如下:
kmeans.inertia_
运行结果可能如下:
4849.9842988128385
2. 使用 MiniBatch k-means 处理更多数据
2.1 准备工作
k-means 是一种不错的聚类方法,但对于大量数据而言并非理想选择,这是由于其算法复杂度较高。而 MiniBatch k-means 是 k-means 的一种更快的实现方式。k-means 的计算成本非常高,该问题属于 NP 难问题。不过,使用 MiniBatch k-means 可以将 k-means 的速度提高几个数量级。它通过采用许多被称为 MiniBatches 的子样本实现这一目标。在良好的初始条件下,基于子采样的收敛特性,MiniBatch k-means 可以近似达到常规 k-means 的效果。
2.2 操作步骤
以下是对 MiniBatch 聚类进行高级性能分析的步骤:
1. 导入必要的库并生成数据集 :
基于距离度量的聚类模型构建与应用
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



