用scikit-learn学习K-Means聚类

最新推荐文章于 2024-04-30 07:57:38 发布

转载最新推荐文章于 2024-04-30 07:57:38 发布 · 2k 阅读

文章标签：

#scikit #k-means算法

PYTHON 专栏收录该内容

163 篇文章

订阅专栏

本文通过使用Python的sklearn库实现KMeans算法对合成数据集进行聚类，并利用Calinski-Harabasz Index评估不同数量簇的聚类效果。

本文转载自刘建平

建立数据

import numpy as np
import matplotlib.pyplot as plt
#%matplotlib inline
from sklearn.datasets.samples_generator import make_blobs
# X为样本特征，Y为样本簇类别， 共1000个样本，每个样本4个特征，共4个簇，簇中心在[-1,-1], [0,0],[1,1], [2,2]， 簇方差分别为[0.4, 0.2, 0.2]
X, y = make_blobs(n_samples=1000, n_features=2, centers=[[-1,-1], [0,0], [1,1], [2,2]], cluster_std=[0.4, 0.2, 0.2, 0.2], 
                  random_state =9)
plt.scatter(X[:, 0], X[:, 1], marker='o')
plt.show()

这里写图片描述

分2类

from sklearn.cluster import KMeans
y_pred = KMeans(n_clusters=2, random_state=9).fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()

这里写图片描述

Calinski-Harabasz Index评估的聚类分数

from sklearn import metrics
metrics.calinski_harabaz_score(X, y_pred)

Out[52]: 3116.1706763322227

分3类

from sklearn.cluster import KMeans
y_pred = KMeans(n_clusters=3, random_state=9).fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()

这里写图片描述

Calinski-Harabasz Index评估的聚类分数

from sklearn import metrics
metrics.calinski_harabaz_score(X, y_pred)

Out[54]: 2931.625030199556

分4类

from sklearn.cluster import KMeans
y_pred = KMeans(n_clusters=4, random_state=9).fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()

这里写图片描述

Calinski-Harabasz Index评估的聚类分数

metrics.calinski_harabaz_score(X, y_pred)
Out[56]: 5924.050613480169

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

luoganttcc

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Scikit-learn K-Means++：一种高效的聚类算法

03-26

617

综上所述，Scikit-learn K-Means++算法是一种高效的聚类算法，通过更智能地初始化簇中心来提高聚类结果的准确性。我们可以使用Scikit-learn库的KMeans类来实现K-Means和K-Means++算法，并通过参数调整来获得更好的聚类结果。具体来说，K-Means++算法首先选择一个随机的簇中心c1，然后对于每个样本xi，计算它到已有簇中心的最短距离D(xi)，将这个距离平方作为权重，按照概率分布选择下一个簇中心。Scikit-learn K-Means++：一种高效的聚类算法。

【人工智能-练习】利用Scikit-learn实现K-Means聚类算法的案例

最新发布

若北辰

11-09

337

K-Means聚类是一种常用的无监督学习算法，广泛应用于数据挖掘和探索性数据分析。本实验将通过使用Scikit-learn库对模拟数据进行K-Means聚类，详细介绍如何使用这一算法来对数据进行分组。

参与评论您还未登录，请先登录后发表或查看评论

scikit-learn做k-means做聚类分析的流程

zhangzhixing123456的博客

06-12

473

-- coding: utf-8 --import csv import numpy from sklearn import preprocessing import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn import metrics import xlwt from sklea

scikit-learn K-means聚类分析算法

泛泛之素

01-23

3973

聚类算法，不同于分类，分类属于有监督学习，聚类属于无监督学习，聚类的作用就是将有共同属性的数据会会汇聚到一起，成为一类，我们要做的是对这一类的数据进行分析。这就好像自编码过程把图像特征压缩到几个维度的向量是一样的道理，目的是通过做以区分的特性。 k-means应用神经算法中的梯度下降，先确定k个类，确定k个中心点，计算数据到每一个中心点距离，被分到距离最近的中心点的类，对于每个类再重新计算到每个

学习：用scikit-learn学习K-Means聚类

czp_374的博客

06-25

356

复制链接在K-Means聚类算法原理中，我们对K-Means的原理做了总结，本文我们就来讨论用scikit-learn来学习K-Means聚类。重点讲述如何选择合适的k值。 1. K-Means类概述在scikit-learn中，包括两个K-Means的算法，一个是传统的K-Means算法，对应的类是KMeans。另一个是基于采样的Mini Batch K-Means算法，对应的类是MiniB...

k-means+python︱scikit-learn中的KMeans聚类实现( + MiniBatchKMeans)

qq_41786778的博客

10-13

245

k-means+python︱scikit-learn中的KMeans聚类实现( + MiniBatchKMeans)_素质云笔记/Recorder...-优快云博客

scikit-learn-1.0.2.tar.gz

01-18

其中包括分类（如支持向量机、决策树、随机森林）、回归（如线性回归、多项式回归）、聚类（如K-means、DBSCAN）以及降维技术（如主成分分析PCA）。这些算法都是基于Python编程语言，且优化了性能，使得它们在处理大...

精选资源

ML_algorithms_KMeans:从零开始使用scikit-learn进行K-Means聚类

03-30

本教程将介绍如何使用Python的scikit-learn库从零开始实现K-Means聚类。首先，我们需要了解K-Means的基本原理。K-Means算法的目标是找到K个中心，使得数据点到其最近中心的距离平方和最小。这个过程包括两个主要...

【15-聚类分析入门：使用Scikit-learn进行K-means聚类】

weixin_51352614的博客

04-30

706

聚类分析是一种无监督学习方法，用于将数据集中的样本分组成若干个簇(cluster)。K-means是最广泛使用的聚类算法之一，其核心思想是将数据点分配到K个簇中，使得每个点到其簇中心的距离之和最小。在本文中，我们将介绍如何使用Scikit-learn库在Python中实现K-means聚类，并通过实例加深理解。K-means聚类是一种简单有效的聚类方法，广泛应用于各种领域。通过Scikit-learn，我们可以轻松实现K-means聚类并应用到实际问题中。

基于Scikit-Learn的K-Means聚类实战指南（含代码示例）.md

08-18

《基于Scikit-Learn的K-Means聚类实战指南》详细介绍了K-Means聚类算法的核心概念及其在Python中的实现。文章首先概述了K-Means算法的工作原理，包括初始化、数据分配、质心更新和迭代优化等步骤。接着，文章详细...

Python scikit-learn库中10种聚类算法应用

root-cause的博客

06-23

4636

聚类算法Python应用

scikit-learn/k-means算法简单应用

szj_huhu的博客

07-15

899

环境：scikit-learn0.18,python3机器学习中，K-Means算法是一种clustering的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法主要思想：在一堆数据中随机的选取K个中心点，计算所有点到这k个中心点的距离，根据距离将所有点分为k类，再在k类中重新计算中心点，重新计算距离，直到收敛以机器学习案例中用k-means方法对iris数据集进行聚

手写kmeans算法实现聚类

三人行必有我师的博客

08-16

1767

# -*- coding: utf-8 -*- """ Created on Mon Feb 5 11:58:12 2018 @author: Administrator """ # -*- coding: utf-8 -*- """ Created on Sat Feb 3 13:51:03 2018 @author: Administrator """ import matp

scikit-learn中的KMeans聚类实现

热门推荐

人工智能讲师团

09-16

2万+

在这篇文章中：一、scikit-learn中的Kmeans介绍 1、相关理论 2、主函数KMeans 3、简单案例一 4、案例二 5、案例四——Kmeans的后续分析二、大数据量下的Mini-Batch-KMeans算法三、sklearn中的cluster进行kmeans聚类延伸一：数据如何做标准化延伸二：Kmeans可视化案例之前一直用R，现...

【机器学习】使用scikitLearn对数据进行聚类：Kmeans聚类算法及聚类效果评估

种一棵树最好的时间是十年前，其次是现在

09-27

4151

上述代码中， n_init=10为默认值，init="random"为随机选定的聚类中心，其不是默认值，默认情况下，kmeans对聚类中心的选择，是按某种概率分布，使初始聚类中心之间的间距尽可能远。当集群具有不同的大小、不同的密度或非球形时，K-Means的表现较差，K-Means算法重点考虑聚类半径，当聚类半径不同时，可以考虑高斯聚类，也因此在聚类前先要进行数据标准化或归一化。，先聚类，构造聚类模型，再将原始图片进行聚类操作，聚集出k类，新图片到来时，再用聚类模型对图片进行分类，返回最近类别的全部图片。

Calinski-Harbasz Score 详解

chloe_ou的博客

04-02

1万+

在做海量数据聚类分析的时候，常常因为数据量太大画不出dendrogram，没办法用Elbow Method确定K值。这时需要其他metrics辅助确定K值。概括地说，评估聚类的方法主要有两种：内部评估方法：不需要借助其他监督数据，通过一个单一的量化得分评估算法好坏外部评估方法：需要知道数据的类别，通过将聚类结果与ground truth进行对比，评估算法好坏实际生产环境中，很少有标注...

聚类评价CH指标sklearn.metrics.calinski_harabasz_score

weixin_46713695的博客

08-19

1万+

sklearn.metrics.calinski_harabasz_score

使用K-Means进行聚类，用calinski_harabaz_score评价聚类效果

风口IT猪的成长录

08-19

4824

使用K-means进行聚类，用calinski_harabaz_score评价聚类效果代码效果附录代码 """ 下面的方法是用kmeans方法进行聚类，用calinski_harabaz_score方法评价聚类效果的好坏大概是类间距除以类内距，因此这个值越大越好 """ import matplotlib.pyplot as plt from sklearn.datasets.samples_generator import make_blobs from sklearn.cluster import

sklearn中使用calinski_harabaz_score

liyuanjunfrank的博客

07-10

1万+

做聚类的时候使用到calinski_harabaz_score。 score = metrics.calinski_harabaz_score(X, y_pre) 在本地运行的时候提示： module ‘sklearn.metrics’ has no attribute ‘calinski_harabaz_score’。有网友说是sk-learn的版本太低造成的，但是我安装的版本是最新的，所以不是版本问题，后来发现是调用的包有问题。改为下面这样就没问题了。 score = metrics.calins

零基础入门：使用scikit-learn实现K-Means聚类算法

资源摘要信息:"本项目是一个关于K-Means聚类算法的机器学习示例教程，它将引导读者从零开始使用Python的scikit-learn库来实现K-Means算法。在这个过程中，会涉及到使用Jupyter笔记本作为主要的交互式开发环境。" ...