聚类分析——客户分群分析

最新推荐文章于 2025-03-19 11:21:41 发布

啥都不懂的菇凉

最新推荐文章于 2025-03-19 11:21:41 发布

阅读量7.4k

点赞数 2

文章标签：聚类 python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42957905/article/details/106380199

版权

本文介绍了聚类分析在客户分群中的应用，探讨了K-Means和DBSCAN两种算法的原理、优缺点，并通过CDNow网站用户购买数据进行实践，展示了RFM模型在聚类中的作用。最后提到了评估和调参的方法，强调具体问题需具体分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

聚类分析——客户分群分析

一、聚类
聚类分析主要是针对无监督问题，即没有标签值。回顾之前python分析淘宝用户行为（三），我们再运用RFM模型时，人为制作评分系统，并打上标签值，今天主要是直接将其当作无监督问题来处理
简单来说，就是将相似的东西分到一组，比如说我们进行客户分群时，会根据其价值进行分群，从而制定精准策略。但聚类也存在一些问题，比如说如何评估，如何调参等等。
二、K-Means算法
理论解释并不是很难理解，我简单说一下自己的理解，现在有很多组数据，没有标签值，只能根据他们之间的相似度进行分组。
**过程：**指定需要分多少种客户类型，即K值，然后选取质心（利用向量各维取平均值），选完后将周围的点计算欧几里得距离，最后根据距离进行相似分类。

**优势：**简单，快速，适合常规数据集

**劣势：**K值难确定；复杂度与样本呈线性关系；很难发现任意形状的簇
三、DBSCAN算法
1、基本概念

**核心对象：**若某个点的密度达到算法设定的阈值则其为核心点（即r领域内的数量不小于minPts）

**\epsilon-领域的距离阈值：**设定的半径r
**直接密度可达：**若某点p在点q的领域内，且q是核心点则p-q直接密度可达

**密度可达：**若有一个点的序列q0,q1…qk，对于任意其qi-qi-1是直接密度可达的，则称为从q0到qk密度可达，这实际上是直接密度可达的“传播”

**过程：**数据集-指定半径（r）-密度阈值（Minpts）-进行聚类
参数选择：

**半径：**可以根据K距离来设定

**K距离：**给定数据集P ={p(i)；i=0,1,…n},计算点p(i)到集合D的子集S中所有点的距离，距离按照从小到大的顺序排序，d(K)就被称为k-距离

**MinPts：**k-距离中k的值，一

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。