11、基于距离度量的模型构建

基于距离度量的聚类模型构建与应用

lambda

于 2025-08-30 09:43:18 发布

阅读量36

点赞数

CC 4.0 BY-SA版权

分类专栏： scikit-learn实战精粹文章标签： k-means MiniBatch k-means 惯性指标

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/lambda/article/details/151307319

scikit-learn实战精粹专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于距离度量的模型构建

1. 惯性指标（Inertia）

在聚类分析中，有一个尚未提及且不依赖于真实标签的指标——惯性（Inertia）。目前关于它作为指标的文档资料并不多，但它是 k-means 算法试图最小化的指标。惯性指的是每个点与其所属聚类中心的平方差之和。我们可以使用 NumPy 来计算它，示例代码如下：

kmeans.inertia_

运行结果可能如下：

4849.9842988128385

2. 使用 MiniBatch k-means 处理更多数据

2.1 准备工作

k-means 是一种不错的聚类方法，但对于大量数据而言并非理想选择，这是由于其算法复杂度较高。而 MiniBatch k-means 是 k-means 的一种更快的实现方式。k-means 的计算成本非常高，该问题属于 NP 难问题。不过，使用 MiniBatch k-means 可以将 k-means 的速度提高几个数量级。它通过采用许多被称为 MiniBatches 的子样本实现这一目标。在良好的初始条件下，基于子采样的收敛特性，MiniBatch k-means 可以近似达到常规 k-means 的效果。

2.2 操作步骤

以下是对 MiniBatch 聚类进行高级性能分析的步骤：
1. 导入必要的库并生成数据集 ：

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。