机器学习中的聚类评估与损失
在机器学习的聚类任务中,评估聚类结果的质量以及衡量聚类过程中的损失是非常重要的环节。下面将详细介绍外部质量标准和聚类损失的相关内容。
1. 外部质量标准
外部质量标准用于验证和对比聚类结构与预先安排的排序数据实例。以下是几种常见的外部质量标准:
1.1 基于互信息的方法
对于基于 (n) 个数据实例的聚类 (C = (C_1; C_1 \cdots C_g)),针对目标特征 (z),其域为 (dom (z) = (C_1; C_1 \cdots C_k)),形式化描述如下:
[C = \frac{2}{n} \sum_{l = 1}^{g} \sum_{h = 1}^{k} n_{l,h} \log_{g,k} (\frac{n_{l,h} \cdot n}{n_{.;l} \cdot n_{l;.}})]
其中,(n_{l,h}) 定义了同时属于聚类 (C_l) 和 (C_h) 的数据示例数量。
1.2 Rand 指数
Rand 指数是一种简单的准则,用于计算聚类与基准数据分类的相似程度。计算公式为:
[Rand Index = \frac{TP + TN}{TP + FP + FN + TN}]
其中:
- (TP):真阳性的数量
- (FP):假阳性的数量
- (TN):真阴性的数量
- (FN):假阴性的数量
当两个实例完全一致时,Rand 指数为 1,否则为 0。
1.3 F - 测度
在计算 Rand 指数时,由于估计聚类工具的不良
超级会员免费看
订阅专栏 解锁全文
840

被折叠的 条评论
为什么被折叠?



