数据可视化与聚类分析:K-means算法详解
1. 数据可视化
在数据可视化方面,我们可以在图中添加更多信息。例如,黑色线条代表回归斜率,可通过调用 panel.abline() 函数进行配置;红色曲线则是局部回归拟合的多项式曲线,即 loess 函数,它通过局部回归来拟合数据,使曲线局部平滑,突出与线性关系的偏差,可使用 panel.loess() 函数进行配置。这些函数被嵌入到面板定义中,通过为 panel 参数分配新函数来实现。
以美国癌症死亡率与未参保人群百分比的关系为例,在北方各州的县中,两者关系呈一定的正相关(接近平缓);而在南方各州的县中,关系却意外地呈负相关且更为明显。这可能是由于未测量的混杂因素影响了未参保人数与癌症相关死亡率之间的关系。总体而言,北方各州的县癌症死亡率低于南方各州的县。
2. 聚类分析概述
无监督聚类分析旨在从未标记的数据中生成同质的案例组。算法事先并不知道案例所属的组,其目标是通过案例之间的相似性(或差异性)来发现数据的结构。聚类是一组在考虑的特征上彼此相似的案例、观察值、个体或其他单位。特征的选择非常重要,因为不同的特征会导致不同的聚类结果。
我们将讨论以下几个主题:
- 距离度量
- 使用K-means进行分区聚类,包括聚类计算步骤和最佳聚类数的选择
- K-means聚类的应用
聚类算法使用案例之间的距离度量来创建同质的案例组。因此,在使用 kmeans() 等工具进行分区聚类之前,将所有维度的数
超级会员免费看
订阅专栏 解锁全文
43

被折叠的 条评论
为什么被折叠?



