聚类算法及其并行化应用
1. 聚类结果解读与评估
在聚类分析中,我们常常需要判断聚类算法的效果以及选择合适的聚类数量。以肘部法则为例,我们可以通过存储不同 k 值下产生最佳度量值的聚类结果,然后观察这些结果来验证我们的选择是否合理。
比如,在一个示例数据集中,当 k = 5 时,质心数量过少,会出现两个聚类被分配到同一个质心的情况;而当 k = 7 时,一个“自然”的聚类会被两个质心分割。经过分析,我们发现 k = 6 是该数据集的最佳选择。
确定了聚类数量后,我们可以对聚类结果进行解读。例如,在数据分布中,右上角的聚类可能代表着年收入高且在网站上消费慷慨的客户;其右侧有一群收入较低但月消费与高收入群体相近的客户;左下角则是收入低且在电商上消费少的两个聚类。对于这两个低收入低消费的聚类,我们既可以将它们作为一个整体进行营销,也可以进一步分析它们的差异,以便更精准地向每个群体推销产品。考虑到它们带来的收入有限,营销部门可以让数据科学团队关注图表中心的两个聚类,即中产阶级客户,通过针对性的活动鼓励他们消费,并让他们填写调查问卷,以提高客户满意度。
聚类分析的评估指标有很多,以下是一些常见的评估指标总结:
| 评估指标 | 描述 |
| ---- | ---- |
| 簇内距离 | 衡量同一簇内数据点之间的紧密程度 |
| 簇间距离 | 衡量不同簇之间的分离程度 |
| 总内聚性 | 综合考虑簇内和簇间的关系 |
聚类是无监督学习的主要应用,用于处理无标签数据,发现原始数据中的模
超级会员免费看
订阅专栏 解锁全文
2389

被折叠的 条评论
为什么被折叠?



