注:本系列将有五部分,分别对应五大机器学习任务类型,包括:
1. 分类(Classification)、2. 回归(Regression)、3. 聚类(Clustering)、4. 降维(Dimensionality Reduction)以及 5. 强化学习(Reinforcement Learning)
此文含大量干货,建议收藏方便以后再读!
大家好,我是爱酱。继前两篇我们系统梳理了分类与回归任务的评估与算法,本篇我们将进入五大机器学习任务的第三类——聚类任务(Clustering)。聚类是无监督学习(Unsupervised Learning)的典型代表,广泛应用于客户分群、图像分割、异常检测等场景。本文将系统讲解聚类任务的定义、主流算法、常用评估指标、实际应用与常见问题,帮助你建立清晰的聚类知识体系。
注:本文章颇长近2500字,建议先收藏再慢慢观看。新频道发展不易,你们的每个赞、收藏跟转发都是我继续分享的动力!另外,此片虽然内容比较短,算法也比较少(比较前两篇),但实际原理其实更难用文字解释。因此,有兴趣的同学可以告诉我那个算法或原理想我单独介绍,我会一步步仔细讲述他们运用的步骤!
一、什么是聚类任务?
我们在开始前,要先明白聚类任务的定义。
聚类任务的目标是将数据集中的样本根据相似性自动分为若干组(簇),每一组内部样本相似度高,不同组之间差异大。聚类属于无监督学习,不依赖于人工标签,而是通过数据本身的结构和分布来发现潜在模式。
-
硬聚类(Hard Clustering):每个样本只属于一个簇。
-
软聚类(Soft Clustering):每个样本可以以不同概率属于多个簇(如高斯混合模型)。
-
层次聚类(Hierarchical Clustering):形成树状的分组结构,支持多层次分析。
二、主流聚类算法及原理简介
1. K均值聚类(K-Means Clustering)
原理:
K均值通过迭代优化,将样本分为 $K$ 个簇,使簇内样本到中心的距离平方和最小。
目标函数:
其中 为第
个簇,
为该簇的中心。
算法流程:
-
随机初始化
个中心
-
分配样本到最近中心

最低0.47元/天 解锁文章
814

被折叠的 条评论
为什么被折叠?



