一、 聚类介绍
聚类属于“无监督学习”的一种,即训练样本的标签信息在训练过程中是不被使用的,这也是区别于分类的重要特征。
从数学角度而言,聚类是将样本集划分成k个不相交的“簇”,并且使用
作为第i个簇的标记(cluster label)。
聚类算法可以单独作为一个划分数据的过程,也可以作为大样本集的前期处理过程。
二、 性能度量
聚类算法的性能度量主要为了评价这个聚类结果的好坏。
聚类性能度量分为两类,第一类是外部指标:与某一个参考模型进行对比;第二类是内部指标:仅考察聚类结果。
1. 外部指标
对于数据集D,假定通过某一聚类算法得到划分为C={C1,C2....,Ck},参考模型给出的划分为C*={C1*,C2*,...Ck*},为簇标记,将样本两两配对,可以得到以下4个量:
a=|SS|,SS={ (xi,xj) |