Understanding K-Means Clustering

最新推荐文章于 2025-12-16 10:33:45 发布

翻译最新推荐文章于 2025-12-16 10:33:45 发布 · 292 阅读

·

0

·

文章标签：

#opencv #python

opencv 专栏收录该内容

7 篇文章

订阅专栏

本文通过实例介绍了一种常用的无监督学习算法——K-means聚类算法的工作原理及应用过程。以T恤尺寸问题为例，详细说明如何通过迭代确定最佳聚类中心，从而将用户数据划分为不同的群体。

1，T-shirt size problem

一家公司，即将向市场投放新款的t-shift，很明显，他们要声场不同大小的t-shift来时满足市场上不同人的需求，于是公司做了用户身高体重的数据表，用如下数据表呈现，

公司没法生产所有型号，但是可以把用户分为小，中，大，生产这三种型号来满足用户的所有用户的型号。

把用户分为3组，可以用k-mean 聚类完成，该算法会提供3个最合适的型号，满足所有人。

2，How does it work

该算法是一个迭代过程，一步一步来解释。

考虑下面的数据集，我们要把它们分成两类。

step1：随机选择两个重心C1和C2

step2：分别计算到两个重心的距离，如果测试数据靠近C1则贴上标签0，靠近C2则贴上1，（有更多的重心依次，2,3,4……）

在这里，标签0是红色，1为蓝色，得到下面这张图。

分别计算所有蓝点和红点的平均值，得到新的重心，于是C1和C2有了新的计算数值。从第2步计算贴标签。

从step2 到step3，迭代直到聚合到了固定点（或者符合我们提供的标准，比如最大迭代次数，到达了特定的精度等等）。所有的测试数据到相应的重心距离是最小值，或者说C1到红点的距离与C2到蓝点的距离想加最小。

$minimize \;\bigg[J = \sum_{All\: Red_Points}distance(C1,Red\_Point) + \sum_{All\: Blue\_Points}distance(C2,Blue\_Point)\bigg]$

最终结果是这样子的：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。