非监督学习——聚类

本文深入探讨了K-Means聚类算法的工作原理,包括寻找类中心、分配优化步骤及其实现过程。通过实例演示了如何使用scikit-learn库进行聚类分析,并讨论了算法的局限性,如局部最小值问题。此外,还提供了多个资源链接,帮助读者进一步了解聚类数量的选择、颜色映射、稀疏矩阵转换等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

K—均值(K-Means):

附录:


监督学习需要训练标记的数据,我们可以知道我们预测的结果。在无监督算法中数据点未被标记,我们不一定知道我们预测的结果。

K—均值(K-Means):

  1. 寻找每个类的中心,中心就是表征数据的区域。
  2. 分两步:分配,优化。不停的迭代这两步,直到不再变化。

局限性:局部最小值的问题,K-Means非常依赖于初始聚类中心所处的位置。

>>> from sklearn.cluster import KMeans
>>> import numpy as np
>>> X = np.array([[1, 2], [1, 4], [1, 0],
...               [10, 2], [10, 4], [10, 0]])
>>> kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
>>> kmeans.labels_
array([1, 1, 1, 0, 0, 0], dtype=int32)
>>> kmeans.predict([[0, 0], [12, 3]])
array([1, 0], dtype=int32)
>>> kmeans.cluster_centers_
array([[10.,  2.],
       [ 1.,  2.]])

附录:

1、scikit-learn聚类的网站:https://mp.youkuaiyun.com/postedit?not_checkout=1

2、多种方式选择聚类 k:https://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set

3、matplotlib的颜色:https://matplotlib.org/examples/color/colormaps_reference.html

4、稀疏 csr 矩阵类型(如 SciPi 库中所定义):https://docs.scipy.org/doc/scipy-0.19.0/reference/generated/scipy.sparse.csr_matrix.html,要从 pandas dataframe 转换为稀疏矩阵,我们需要先转换为 SparseDataFrame,然后使用 pandas 的 to_coo() 方法进行转换。

5、这是一个简单的推荐引擎,展示了“协同过滤”的最基本概念:https://www.netflixprize.com/assets/GrandPrize2009_BPC_BigChaos.pdf

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

laboirousbee

你的鼓励是我创作的动力。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值