sklearn之k-mean聚类

最新推荐文章于 2021-06-22 14:42:32 发布

微淡

最新推荐文章于 2021-06-22 14:42:32 发布

阅读量437

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习笔记文章标签： python k-mean聚类

本文链接：https://blog.youkuaiyun.com/WDlanguang/article/details/80596684

机器学习笔记专栏收录该内容

11 篇文章

订阅专栏

本文通过KMeans算法对经典的莺尾花数据集进行聚类分析，并将聚类结果与实际分类进行对比，直观展示聚类效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

以莺尾花数据集为例，对其进行聚类，对比聚类和真实分类结果

导入相关库

% matplotlib inline
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

创建数据集

data = load_iris()  #  传入莺尾花数据集
x = data['data']
y = data['target']
target_name = data['target_names']
fx = lambda x: target_name[x]
y_labels = list(map(fx, y))

进行聚类

clf = KMeans(n_clusters = 3)  #  创建KM类，分成3类
clf.fit(x)  #进行聚类
y_predict = clf.predict(x)
y_predict_labels = list(map(lambda x:['one','two','three'][x], y_predict))

画图对比，真实分类和聚类结果对比

sns.stripplot(x = y_predict_labels, y = x[:,1], hue = y_labels, jitter=True)
plt.legend(bbox_to_anchor = (1.2,1))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

微淡

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

机器学习之SKlearn（scikit-learn）的K-means聚类算法

人工智能研究所的博客

06-24

1802

Scikit learn 也简称 sklearn, 是机器学习领域当中最知名的 python 模块之一.

K-Mean聚类算法

weixin_45856170的博客

06-19

2147

K-means的网络整合与部分个人看法

参与评论您还未登录，请先登录后发表或查看评论

基于python中的sklearn.cluster库做k-means聚类

09-11

本程序是在python中完成，基于sklearn.cluster中的k-means聚类包来实现数据的聚类，对于里面使用的数据格式如下：（注意更改程序中的相关参数） 138 0 124 1 127 2 129 3 119 4 127 5 124 6 120 7 123 8 147 9 188 10 212 11 229 12 240 13 240 14 241 15 240 16 242 17 174 18 130 19 132 20 119 21 48 22 37 23 49 0 42 1 34 2 26 3 20 4 21 5 23 6 13 7 19 8 18 9 36 10 25 11 20 12 19 13 19 14 5 15 29 16 22 17 13 18 46 19 15 20 8 21 33 22 41 23 69 0 56 1 49 2 40 3 52 4 62 5 54 6 32 7 38 8 44 9 55 10 70 11 74 12 105 13 107 14 56 15 55 16 65 17 100 18 195 19 136 20 87 21 64 22 77 23 61 0 53 1 47 2 33 3 34 4 28 5 41 6 40 7 38 8 33 9 26 10 31 11 31 12 13 13 17 14 17 15 25 16 17 17 17 18 14 19 16 20 17 21 29 22 44 23 37 0 32 1 34 2 26 3 23 4 25 5 25 6 27 7 30 8 25 9 17 10 12 11 12 12 12 13 7 14 6 15 6 16 12 17 12 18 39 19 34 20 32 21 34 22 35 23 33 0 57 1 81 2 77 3 68 4 61 5 60 6 56 7 67 8 102 9 89 10 62 11 57 12 57 13 64 14 62 15 69 16 81 17 77 18 64 19 62 20 79 21 75 22 57 23 73 0 88 1 75 2 70 3 77 4 73 5 72 6 76 7 76 8 74 9 98 10 90 11 90 12 85 13 79 14 79 15 88 16 88 17 81 18 84 19 89 20 79 21 68 22 55 23 63 0 62 1 58 2 58 3 56 4 60 5 56 6 56 7 58 8 56 9 65 10 61 11 60 12 60 13 61 14 65 15 55 16 56 17 61 18 64 19 69 20 83 21 87 22 84 23 41 0 35 1 38 2 45 3 44 4 49 5 55 6 47 7 47 8 29 9 14 10 12 11 4 12 10 13 9 14 7 15 7 16 11 17 12 18 14 19 22 20 29 21 23 22 33 23 34 0 38 1 38 2 37 3 37 4 34 5 24 6 47 7 70 8 41 9 6 10 23 11 4 12 15 13 3 14 28 15 17 16 31 17 39 18 42 19 54 20 47 21 68 22

Sklearn K均值聚类

吴吃辣

08-13

359

sklearn_k均值聚类

weixin_30307921的博客

08-13

128

# 机器学习之k均值聚类# coding:utf-8 import sklearn.datasets as datasets from sklearn.cluster import KMeans import matplotlib.pyplot as plt # 1、创建数据 #无监督学习，算法不需要我们告诉它类别。它自动分出类别 x_tain,target=datasets.ma...

机器学习--sklearn之k均值聚类

cocofisher的博客

02-15

1439

什么是簇？简单来说，簇就是分类结果中的类，但实际上簇并没有明确的定义，并且簇的划分没有客观标准，我们可以利用下图来理解什么是簇。该图显示了20个点和将它们划分成簇的3种不同方法。标记的形状指示簇的隶属关系。下图分别将数据划分成两部分、四部分和六部分。将2个较大的簇每一个都划分成3个子簇可能是人的视觉系统造成的假象。此外，说这些点形成4个簇可能也不无道理。该图表明簇的定义是不精确的，而好的定义依赖...

python机器学习库sklearn——k均值聚类

01-04

1万+

全栈工程师开发手册（作者：栾鹏） python数据挖掘系列教程 k均值聚类的相关的知识内容可以参考 http://blog.csdn.net/luanpeng825485697/article/details/78347433 这里只讲述sklearn中如何使用k均值进行聚类。 k均值聚类过程： 1、构造数据集。 2、使用数据集进行k均值算法。 3、可视化聚类效...

Python——K-means聚类分析及其结果可视化

12-21

在数据分析和机器学习领域，K-Means是一种广泛使用的无监督学习算法，它主要用于执行聚类分析，即将数据集中的样本点自动分组到不同的类别中。K-Means算法的核心思想是通过迭代过程，不断调整样本点的所属类别，以...

无监督学习PCA降维处理和K-means聚类

01-20

– K-means（k均值聚类） 2、主成分分析应用PCA实现特征的降维 ·定义：高维数据转化为低维数据的过程，在此过程中可能会舍弃原有数据、创造新的变量 ·作用：是数据维散压缩，尽可能降低原数据的维数（复杂度），...

python Calinski-Harabasz指数评价K-means聚类模型

12-20

K-means是最常用的聚类算法之一，它通过迭代优化来寻找最佳的聚类中心。然而，选择合适的聚类数量往往是聚类分析中的一个挑战。这时，评估指标如Calinski-Harabasz指数（又称CH指数）就显得尤为重要。 Calinski-...

调用sklearn库的K-Means聚类分析实例

01-26

#class sklearn.cluster.KMeans(n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001, precompute_distances=’auto’, verbose=0, random_state=None, copy_x=True, n_jobs=1, algorithm=’auto’) #参数： #（1）对于K均值聚类，我们需要给定类别的个数n_cluster，默认值为8； #（2）max_iter为迭代的次数，这里设置最大迭代次数为300； #（3）n_init设为10意味着进行10次随机初始化，选择效果最好的一种来作为模型； #（4）init=’k-means++’ 会由程序自动寻找合适的n_clusters； #（5）tol：float形，默认值= 1e-4，与inertia结合来确定收敛条件； #（6）n_jobs：指定计算所用的进程数； #（7）verbose 参数设定打印求解过程的程度，值越大，细节打印越多； #（8）copy_x：布尔型，默认值=True。当我们precomputing distances时，将数据中心化会得到更准确的结果。如果把此参数值设为True，则原始数据不会被改变。如果是False，则会直接在原始数据上做修改并在函数返回值时将其还原。但是在计算过程中由于有对数据均值的加减运算，所以数据返回后，原始数据和计算前可能会有细小差别。 #属性： #（1）cluster_centers_：向量，[n_clusters, n_features] # Coordinates of cluster centers (每个簇中心的坐标？？)； #（2）Labels_:每个点的分类； #（3）inertia_：float，每个点到其簇的质心的距离之和。

sklearn中kmeans聚类算法解析及应用

10-17

sklearn学习中所需要的聚类算法解析，文档中主要解析了kmeans算法用法

sklearn机器学习：K均值聚类

成都往右的博客

02-17

5013

K-Means 均值聚类聚类算法可以说是最简单但是使用最广的一种聚类算法了，原理也简单易懂，sklearn中提供了很多聚类算法的实现，所以这里就学习一下K-Means算法。

sklearn之kmeans

weixin_45580742的博客

02-25

1619

Kmeans工作原理 sklearn.cluster.KMeans 1.参数n_clusters n_clusters是KMeans中的k，表示着我们告诉模型我们要分几类。这是KMeans当中唯一一个必填的参数，默认为8类，当我们拿到一个数据集，如果可能的话，我们希望能够通过绘图先观察一下这个数据集的数据分布，以此来为我们聚类时输入的n_clusters做一个参考。 2.参数init &...

python+sklearn实现K均值算法（聚类第一篇）

weixin_45081640的博客

06-22

1154

本文所用文件的链接链接：https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ 提取码：p57s 聚类分类(class) 与聚类 (cluster) 不同, 分类属于有监督学习, 聚类属于无监督学习模型. 聚类讲究使用一些算法把样本划分为n个群落. 一般情况下,这种算法都需要计算欧氏距离. 欧氏距离(欧几里得距离): P(x1)−P(x2):∣x1−x2∣=(x1−x2)2p(x1,y1)−p(x2,y2):(x1−x2)2+(y1−y2)2p(x1,y1,z

k均值聚类算法优缺点_机器学习之SKlearn（scikit-learn）的K-means聚类算法

weixin_39675289的博客

11-20

865

在工程应用中，用python手写代码来从头实现一个算法的可能性非常低，这样不仅耗时耗力，还不一定能够写出构架清晰，稳定性强的模型。更多情况下，是分析采集到的数据，根据数据特征选择适合的算法，在工具包中调用算法，调整算法的参数，获取需要的信息，从而实现算法效率和效果之间的平衡。而sklearn，正是这样一个可以帮助我们高效实现算法应用的工具包。Scikit learn 也简称 sklearn, 是机...

上证50成分股聚类分析

jianghuming的博客

07-04

2041

使用tushare我们可以获取上证50成分股历史数据，使用covariance对其历史数据进行聚类分析，我们可以得到其相关强度，对此，在其相关股价显著变化的时候，我们就可以根据其相关性进行套利赚钱。当然这只是理论分析而已。tushare工具：http://tushare.org/结果分析：Cluster 1: 中国石化, 中国石油Cluster 2: 保利地产, 华夏幸福Cluster...

kmean聚类的步骤

lvxingzhe123456的专栏

12-06

1111

1.计算样本点p的最近种子点，并聚类 2. 运用用种子点的公式（比如，欧式距离），生成新的种子点 3. 重复1，2

上证50成分股聚类可视化

RealEmperor 博客

07-10

1379

上证50股票聚类可视化参考：sklearn中的股票可视化例子 Visualizing the stock market structure 代码如下： # 上证50股票聚类可视化 # 参考：https://scikit-learn.org/dev/auto_examples/applications/plot_stock_market.html#sphx-glr-auto-examples-a...

K-Mean聚类分析