前面介绍的算法基本是分类和回归任务,属于“监督学习”,这里我们说的聚类属于“无监督学习”,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律。
聚类任务
聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。形式化的说,假定样本集包含m个无标记的样本,每个样本
是一个n维特征向量,聚类的任务就是将样本集D划分为k个不相交的簇
,其中各个簇的交集为空,相应的,引入
表示样本
的“簇标记”,即
。于是,聚类的结果可以用包含m个元素的簇标记向量
。
以上就是聚类的任务,但是

本文介绍了无监督学习中的聚类任务,解释了如何在没有标签的情况下进行聚类,并探讨了评估聚类效果的性能度量,包括外部指标如Jaccard系数、FM指数和Rand指数,以及内部指标如DBI和DI。同时,提到了不同的距离计算方法,如欧式距离和曼哈顿距离。
最低0.47元/天 解锁文章
395

被折叠的 条评论
为什么被折叠?



