机器学习--无监督学习之K-means聚类方法

本文介绍了无监督学习中的K-means聚类方法,包括算法思想、迭代过程、优化函数以及选择初始聚类中心的方法。K-means通过迭代寻找样本的聚类归属,其优化目标是使样本点到所属聚类中心的距离平方和最小。文章还提到选择合适的k值可使用肘部法则,并给出了初始聚类中心选择的一种策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、引言

从上次SVM之后几节课讲的是学习理论,这块理论性比较深,我得好好消化一下。所以先总结一下第一个无监督的机器学习算法,K-means聚类方法。

所谓无监督学习,就是数据样本没有标签,要让学习算法自己去发现数据之间内在的一些结构和规律。就好比做题没有标准答案,所以训练效果自然比监督学习差。但是目前机器学习最大的问题还是在于大量标记样本的需求,掌握数据才能训练出好的算法,但是数据却不是人人都能轻易获得的。所以无监督学习算法的研究是必要的和长期的。

二、算法介绍

k-means算法是一种迭代算法,其思想很简单。就是找出样本所聚集的类个数并找出每一个样本点归属于哪个类。


分成两步:

先人工指定K个聚类中心,并采用一定规则初始化它们的位置;

(1) 簇分配:遍历样本分别找到与k个聚类中心的点,分别归类。

(2)移动中心:将聚类中心移到上一步归属于该中心的样本点的均值处

重复以上步骤直到收敛。给个图就是这样:


还有个动图地址:https://datasciencelab.files.wordpress.com/2013/12/p_n100_k7.gif

算法非常简单,下面给出几个需要注意的点:

(1)每次求取样本点到 各个聚类中心距离时,可以用一般的两点之间的距离,也可以有其余求取距离的方法:

①Euclidean Distance公式——欧几里得距离,就是最常见的二范数

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值