【算法解析3/5】聚类任务深度解析:常用算法、评估指标及主流算法 | K均值聚类、层次聚类、密度聚类、高斯混合模型 | 轮廓系数、Calinski-Harabasz、Davies-Bouldin指数

注:本系列将有五部分,分别对应五大机器学习任务类型,包括:
1. 分类(Classification)、2. 回归(Regression)、3. 聚类(Clustering)、4. 降维(Dimensionality Reduction)以及 5. 强化学习(Reinforcement Learning)
此文含大量干货,建议收藏方便以后再读!

大家好,我是爱酱。继前两篇我们系统梳理了分类与回归任务的评估与算法,本篇我们将进入五大机器学习任务的第三类——聚类任务(Clustering)。聚类是无监督学习(Unsupervised Learning)的典型代表,广泛应用于客户分群、图像分割、异常检测等场景。本文将系统讲解聚类任务的定义、主流算法、常用评估指标、实际应用与常见问题,帮助你建立清晰的聚类知识体系。

注:本文章颇长近2500字,建议先收藏再慢慢观看。新频道发展不易,你们的每个赞、收藏跟转发都是我继续分享的动力!另外,此片虽然内容比较短,算法也比较少(比较前两篇),但实际原理其实更难用文字解释。因此,有兴趣的同学可以告诉我那个算法或原理想我单独介绍,我会一步步仔细讲述他们运用的步骤!


一、什么是聚类任务?

我们在开始前,要先明白聚类任务的定义。

聚类任务的目标是将数据集中的样本根据相似性自动分为若干组(簇),每一组内部样本相似度高,不同组之间差异大。聚类属于无监督学习,不依赖于人工标签,而是通过数据本身的结构和分布来发现潜在模式。

  • 硬聚类(Hard Clustering):每个样本只属于一个簇。

  • 软聚类(Soft Clustering):每个样本可以以不同概率属于多个簇(如高斯混合模型)。

  • 层次聚类(Hierarchical Clustering):形成树状的分组结构,支持多层次分析。


二、主流聚类算法及原理简介

1. K均值聚类(K-Means Clustering)

原理:
K均值通过迭代优化,将样本分为 $K$ 个簇,使簇内样本到中心的距离平方和最小。

目标函数:

\min_{C} \sum_{k=1}^{K} \sum_{x_i \in C_k} \|x_i - \mu_k\|^2

其中 $C_k$ 为第 $k$个簇,$\mu_k$ 为该簇的中心。

算法流程:

  • 随机初始化 $K$个中心

  • 分配样本到最近中心

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值