使用K-means聚类算法寻找数据组
1. K-means算法基础
K-means算法是一种常用的聚类算法。在算法运行过程中,当有数据点被重新分配时,就需要更新质心并更新聚类边界。当不再有数据点被重新分配时,算法停止,此时聚类分配结果即为最终结果。
最终的聚类结果可以通过两种方式报告:
- 简单地为每个样本报告其所属的聚类标签,如A、B或C。
- 报告最终更新后聚类质心的坐标。
2. 选择合适的聚类数量
K-means算法对随机选择的聚类中心很敏感,同时也对聚类数量很敏感。选择合适的聚类数量需要进行微妙的平衡:
- 设置k值过大 :会提高聚类的同质性,但有过拟合数据的风险。
- 设置k值过小 :会导致聚类的异质性增加。
以下是几种选择聚类数量的方法:
| 方法 | 描述 | 优缺点 |
| ---- | ---- | ---- |
| 先验知识 | 根据对数据真实分组的先验信念来选择k值。例如,聚类电影时,可将k设置为奥斯卡奖考虑的电影类型数量;在数据科学会议座位安排问题中,k可反映受邀的学术研究领域数量。 | 优点:若有准确先验知识,能快速确定合适的k值;缺点:并非所有情况都有先验知识。 |
| 业务需求 | 根据业务需求或分析动机来确定k值。例如,会议室的桌子数量决定了从数据科学参会者名单中创建的分组数量;营销部门只有资源创建三个不同的广告活动时,可将k设置为3。 | 优点:紧密结合业务实际;缺点:可能缺乏数据驱动的科学性。 |
| 经验法则 | 当没有先验知识时,可将
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



