在无监督学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告诉这个算法,快去为我们找找这个数据的内在结构给定数据。图上的数据看起来可以分成两个分开的点集(称为簇),一个能够找到我圈出的这些点集的算法,就被称为聚类算法。
K-均值算法(K-Means Algorithm)
K-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组。
K-均值是一个迭代算法,假设我们想要将数据聚类成n个组,其方法为:
- 首先选择K个随机的点,称为聚类中心(cluster centroids);
- 对于数据集中的每一个数据,按照距离K个中心点的距离;
- 将其与距离最近的中心点关联起来,与同一个中心点关联的所有点聚成一类;
- 计算每一个组的平均值,将该组所关联的中心点移动到平均值的位置。
- 重复步骤2-4直至中心点不再变化。

Repeat {
for i = 1 to m
c(i) :

最低0.47元/天 解锁文章
3719

被折叠的 条评论
为什么被折叠?



