数据聚类与关联分析的实用技巧
1. 可视化相异矩阵
相异矩阵可作为衡量聚类质量的一种度量。为了可视化该矩阵,我们可以在距离矩阵上使用热力图。在图中,相异度低(或相似度高)的条目会以较深的颜色绘制,这有助于识别数据中隐藏的结构。
1.1 准备工作
要可视化相异矩阵,你需要完成之前的步骤,生成客户数据集。此外,还需要生成一个 k - 均值对象,并将其存储在变量 km 中。
1.2 操作步骤
- 首先,安装并加载
seriation包:
install.packages("seriation")
library(seriation)
- 然后使用
dissplot函数在热力图中可视化相异矩阵:
dissplot(dist(customer), labels=km$cluster, options=list(main="Kmeans Clustering With k=4"))
这将生成一个 k - 均值聚类的相异度图。
3. 接下来,在热力图上对层次聚类应用 dissplot 函数:
complete_c = hclust(dist(customer)
超级会员免费看
订阅专栏 解锁全文
35

被折叠的 条评论
为什么被折叠?



