聚类算法实现流程

原创于 2025-03-20 17:44:21 发布 · 318 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #人工智能 #集成学习

机器学习专栏收录该内容

39 篇文章

订阅专栏

聚类算法实现流程

1 k-means聚类步骤

初始化：首先，随机选择K个数据点作为初始的聚类中心。
分配簇：对于数据集中的每个样本点，计算其与当前所有聚类中心的距离，然后将该样本点分配到距离最近的聚类中心所在的簇。
重新计算中心点：在每个簇中，重新计算新的中心点。通常，新的中心点是该簇中所有样本点的均值。具体来说，对于每个簇，将该簇内所有样本点的特征值分别求平均，得到新的中心点坐标。
更新和迭代：如果新计算的中心点与之前的中心点不同，则使用新的中心点重复步骤2和3。这个过程会一直持续，直到中心点不再发生变化，或者达到预设的迭代次数

通过下图解释实现流程：

k聚类动态效果图

2 案例练习

案例：

1、随机设置K个特征空间内的点作为初始的聚类中心（本案例中设置p1和p2）

2、对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别

3、接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）

4、如果计算得出的新中心点与原中心点一样（质心不再移动），那么结束，否则重新进行第二步过程【经过判断，需要重复上述步骤，开始新一轮迭代】

5、当每次迭代结果不变时，认为算法收敛，聚类完成，K-Means一定会停下，不可能陷入一直选质心的过程。

3 小结

K-means聚类实现流程
- 事先确定常数K，常数K意味着最终的聚类类别数;
- 随机选定初始点为质心，并通过计算每一个样本与质心之间的相似度(这里为欧式距离)，将样本点归到最相似的类中，
- 接着，重新计算每个类的质心(即为类中心)，重复这样的过程，直到质心不再改变，
- 最终就确定了每个样本所属的类别以及每个类的质心。
- 注意:
  - 由于每次都要计算所有的样本与每一个质心之间的相似度，故在大规模的数据集上，K-Means算法的收敛速度比较慢。

博客等级

码龄10年

97
原创

1026
点赞

1039
收藏

473
粉丝

关注

私信

热门文章

分类专栏

NLP 5篇
深度学习 13篇
机器学习 39篇
人工智能
python 12篇
MySQL 6篇

展开全部收起

上一篇：: 聚类算法api初步使用

下一篇：: 聚类算法-模型评估

最新评论

使⽤Pytorch构建⼀个神经⽹络
Fuction.: 将优化器执⾏梯度清零的操作 optimizer.zero_grad() output = net(input) loss = criterion(output, target) # 对损失值执⾏反向传播的操作 loss.backward() # 参数的更新通过⼀⾏标准代码来执⾏ optimizer.step()zhe
使⽤Pytorch构建⼀个神经⽹络
Fuction.: self.embedding = nn.Embedding( config.n_vocab, # 词汇表大小 config.embed, # 词向量维度 padding_idx=config.n_vocab - 1 # 指定填充符的索引（自动置零） ) # 多尺度卷积层组 | 每个卷积核产生num_filters个特征图 self.convs = nn.ModuleList([ # 卷积核形状：(k, embed_dim) | 输入通道1（文本视为单通道），输出通道num_filters nn.Conv2d( in_channels=1, # 输入通道数（文本视为单通道） out_channels=config.num_filters, # 卷积核数量（每个尺寸的卷积核生成的特征图数） kernel_size=(k, config.embed) # 卷积核尺寸（k为窗口高度，embed_dim为窗口宽度） ) for k in config.filter_sizes # 不同窗口尺寸（如[2,3,4]） ]) self.dropout = nn.Dropout(config.dropout) # 随机失活层（防止过拟合） # 全连接分类层 | 输入维度：num_filters * len(filter_sizes) self.fc = nn.Linear( config.num_filters * len(config.filter_sizes), # 输入特征维度（所有卷积结果拼接） config.num_classes # 分类类别数
07.预测facebook签到位置
Fuction.: 了解过程就行，机器学习就是入门级别的，好好看看神经网络的构建
07.预测facebook签到位置
莫殇花开，吾心自痛: key也拿不到、csv也下载不了
07.预测facebook签到位置
莫殇花开，吾心自痛: kaggle为啥注册不了

大家在看

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。