Scikit-learn机器学习实战之Kmeans

本文介绍了使用Scikit-learn进行KMeans机器学习时面临的挑战,如K值的选择困难和初始聚类中心的影响。在实际应用中,选择合适的类别数量K并不容易,而KMeans算法的聚类结果会因初始中心的不同而产生显著差异。
摘要
上篇博客谈到了如何安装Python中强大的机器学习库 scikit-learn Windos环境安装scikit-learn函数库流程 ,本篇主要是对其Kmeans示例进行学习。
有关Kmeans的介绍可以参见这篇博客: K均值聚类算法及Matlab函数使用

Kmeans算法的缺陷

  • 聚类中心的个数K 需要事先给定,但在实际中这个 K 值的选定是非常难以估计的,很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适
  • Kmeans需要人为地确定初始聚类中心,不同的初始聚类中心可能导致完全不同的聚类结果。

(1)第一种缺陷通常人为解决,例如假设有K=10(根据先验知识,尽量大些),进行第一次聚类,如果结果显示某一类中的样本过少,则K=K-1,重新进行聚类。
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值