机器学习中的聚类与模型评估
1. 聚类模型性能提升
聚类算法会创造新的信息,其性能至少在一定程度上取决于聚类本身的质量以及对这些信息的利用方式。之前的分析表明,通过聚类得到的五个类别为了解青少年的兴趣提供了有用且新颖的见解,说明算法表现良好。接下来可以将这些见解付诸实践。
首先,将聚类结果应用到完整数据集上。使用 kmeans() 函数创建的 teen_clusters 对象包含一个名为 cluster 的组件,其中存储了样本中30,000个个体的聚类分配信息。可以使用以下命令将其作为一列添加到 teens 数据框中:
teens$cluster <- teen_clusters$cluster
有了这些新数据,就可以开始研究聚类分配与个体特征之间的关系。例如,查看SNS数据中前五个青少年的个人信息:
teens[1:5, c("cluster", "gender", "age", "friends")]
输出结果如下:
| cluster | gender | age | friends |
| ---- | ---- | ---- | ---- |
| 5 | M | 18.982 | 7 |
| 3 | F | 18.801 | 0 |
| 5 | M | 18.335 | 69 |
| 5 | F |
超级会员免费看
订阅专栏 解锁全文

2万+

被折叠的 条评论
为什么被折叠?



