机器学习中的聚类与分类模型评估
1. 聚类模型性能提升
聚类算法能够创造新信息,其性能既取决于聚类本身的质量,也与如何利用这些信息有关。之前的分析表明,通过聚类得到的五个青少年群体为了解青少年兴趣提供了有用且新颖的见解,这意味着算法表现良好。接下来,我们要将这些见解转化为实际行动。
首先,把聚类结果应用到完整数据集上。 kmeans() 函数创建的 teen_clusters 对象包含一个名为 cluster 的组件,其中存储了样本中 30,000 个人的聚类分配信息。我们可以使用以下命令将其作为一列添加到 teens 数据框中:
teens$cluster <- teen_clusters$cluster
有了这些新数据,我们可以开始研究聚类分配与个体特征之间的关系。例如,下面是社交网络服务(SNS)数据中前五个青少年的个人信息:
teens[1:5, c("cluster", "gender", "age", "friends")]
| cluster | gender | age | friends |
|---|---|---|---|
| 5 | M < |
超级会员免费看
订阅专栏 解锁全文
936

被折叠的 条评论
为什么被折叠?



