1.聚类任务
无监督学习:训练样本的标记信息是未知的。目标是通过对无标记样本的学习揭示数据内在性质,为进一步数学分析提供基础。
此类学习任务中研究最多,应用广泛的是聚类。
聚类:试图将数据集中的样本划分为若干个通常互不相交的子集。每个子集称为一个簇(cluster)。
每个簇可能对应于一些潜在概念。这些概念对于聚类算法而言事先未知。聚类过程仅能自动形成簇结构。簇所对应的概念语义需有使用者把握。
聚类可作为一个单独过程,也可作为分类等其他任务的先驱。比如商户定义用户类型不太容易,可先聚类根据结果将每个簇定义一个类,再基于这些类训练分类模型,用于判别新用户。
2.性能度量
聚类性能:评估聚类好坏。
直观的:簇内相似度高,簇间相似度低。
大致分为两类:
- 与某个参考模型比较,如该领域专家给出的划分结果。
- 不利用外部指标而直接考察聚类结果
对数据集D,假定聚类给出的簇为C1,C2,...,Ck