数据挖掘|基础|聚类分析

这篇博客介绍了聚类分析的基本方法,包括k均值聚类,强调其对初始点敏感及适合规则形状的局限性。还提到了高斯混合模型,利用极大似然估计进行建模。此外,讨论了基于密度的DBSCAN算法,它能发现不规则形状的簇。聚类过程中的数据预处理,如标准化,以及评估簇质量的方法也有所提及。

常见的聚类分析方法:

k均值-常见、效率max

聚类的应用:判别新用户的类型

聚类是数据驱动 所以数据很重要 数据的特征的选取:
身高体重 城市 成绩 

聚类过程中也有个反馈环

 除了,还需要考虑数据的标准化 缩放的比例

 标准化 也需要考虑

 聚类评估的问题:

目的:簇内的距离尽可能的小,簇间的距离尽可能大

 b(i)表示与其他簇的距离

 k均值 

原理:k是人为设定的 先 确定了k之后 ,假设k=5

确定了5个簇  那就把5个点作为中心点  若a点与5点中的一点距离最小 就被划分到那一簇

 更换中心点  (图中绿色的那个),再重新划分簇,重新划分中心点 不断迭代

当中心点不再变化 迭代结束

最后分成的界面是连续性

 

 不适合 不规则聚类形状

对初始点不同的选取 最后的结果也不一样

另一个方法:定义距离

 方法3 高斯模型

 通过调参 均值 方差都会发生变化 

在看k均值 ,确定两个中心点

 eg 硬币AB

 极大似然估计   得出 A 硬币 正面朝上的概率是0.8

 先假设 A硬币头朝上的概率是0.6 B 0.5  

最大期望法 EM算法 高斯混合模型

 

 基于密度的混合算法

DBSCAN  滴鼻司敢

 取最小的点

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值