K-mean算法

K-means算法是一种基于原型的聚类方法,通过最小化误差平方和准则函数进行迭代调整。它以欧式距离为相似度度量,对大数据集高效且可伸缩。然而,算法对初始中心点的选择敏感,K值的预设定是个挑战,可能导致不稳定的结果。优化策略包括改进初始质心的选择,例如选择距离较远的点作为中心。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一 概念:
(1) 聚类算法:
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性
(2)K-mean算法:
K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

二 算法特点
euclidean 欧几里德距离,就是平方再开方。
maximum 切比雪夫距离
manhattan 绝对值距离
canberra Lance 距离
minkowski 明科夫斯基距离,使用时要指定p值
binary 定性变量距离

三 算法步骤
1.随机选择K个中心点
2.把每个数据点分配到离它最近的中心点;
3.重新计算每类中的点到该类中心点距离的平均值
4.分配每个数据到它最近的中心点;
5.重复步骤3和4,直到所有的观测值不再被分配或是达到最大的迭代次数

四 算法的优缺点:
(1)优点:
1.算法快速、简单;
2.对大数据集有较高的效率并且是可伸缩性的;时间复杂度近于线性,而且适合挖掘大规模数据集。<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值