KMeans原理、调参及应用

本文介绍了KMeans聚类算法的基本原理,包括算法步骤和相似性度量。讨论了KMeans的损失函数以及如何通过选择合适的K值和初始中心点进行调参。此外,还阐述了KMeans在数据挖掘中的应用,如用户分群和变量离散化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、前言

KMeans是数据挖掘十大算法之一,在数据挖掘实践中,我们也常常将KMeans运用于各种场景,因为它原理简单、易于实现、适合多种数据挖掘情景。

二、原理

KMeans的原理较为简单:以某种相似性度量为标准,确定样本的结构,即样本属于哪一个簇取决于该样本与哪一个簇的中心点最相似。

算法步骤如下:

1.决定要将样本分成几个簇,设为K;

2.初始化K个簇的中心点;

3.遍历每一个样本,计算它与K个簇中心点的相似度,并将它分配到最相似的那个簇;

4.对K个簇重新计算中心点,每个簇的中心点为该簇中所有样本的均值,若中心点不变或变化小于某个可接受的范围,则结束,否则返回第3步。

常用的相似性度量包括欧氏距离、余弦相似度等,当特征向量为低维稠密向量时可使用欧氏距离,当特征向量为高维稀疏向量时(例如文本)可使用余弦相似度,当然,具体的相似性度量的选择要根据具体的应用场景而定。

三、如何评价KMeans

使用任何一个算法或模型都免不了对模型的评估,作为模型选择、调优的依据。

KMeans的损失函数:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值