机器学习模型评估与性能提升及推荐系统概述
1. 聚类模型评估
1.1 评估聚类算法的重要性
评估聚类算法的关键在于衡量其能否识别出有意义且相互分离的不同簇。评估指标的选择取决于是否有真实标签以及聚类技术的具体特征。在评估聚类结果时,要考虑应用场景和数据特点,通常会结合多种指标进行全面评估,同时可辅以可视化检查、特定领域验证和多次运行的稳定性评估。
1.2 常见评估指标
| 评估指标 | 含义 | 适用场景 | 取值含义 |
|---|---|---|---|
| 轮廓系数(Silhouette score) | 衡量对象与自身簇的相似度以及与其他簇的差异度 | K - means、二分 K - means、GMM、PIC,无真实标签时 | -1 到 1,值越高表示对象与自身簇匹配度高,与相邻簇匹配度低 |
| 戴维斯 - 布尔丁指数(Davies - Bouldin Index) | 评估簇内相似度和簇间差异 | K - means、二分 K - means、GMM,希望簇紧凑且分离时 | 值越低,聚类效果越好 |
| 卡林斯基 - 哈拉巴斯指数(Calinski - Harabasz index) | 评估簇间离散 |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



