前面介绍的算法基本是分类和回归任务,属于“监督学习”,这里我们说的聚类属于“无监督学习”,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律。
聚类任务
聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。形式化的说,假定样本集包含m个无标记的样本,每个样本
是一个n维特征向量,聚类的任务就是将样本集D划分为k个不相交的簇
,其中各个簇的交集为空,相应的,引入
表示样本
的“簇标记”,即
。于是,聚类的结果可以用包含m个元素的簇标记向量
。