机器学习中的算法--kMeans and DBSCAN

原创已于 2022-06-30 09:25:48 修改 · 251 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#聚类 #机器学习 #算法

于 2022-06-30 09:21:20 首次发布

python 同时被 2 个专栏收录

50 篇文章

订阅专栏

34 篇文章

订阅专栏

本文介绍了两种常用的聚类算法：k-means和DBSCAN。k-means算法通过随机初始化核心点，依据欧式距离将点分配到最近的簇，并不断更新簇中心，直至簇不再变化。然而，k-means对初始点选择敏感，难以处理复杂数据。相比之下，DBSCAN不依赖于预先设定的核数，基于密度对数据点进行聚类，能发现任意形状的簇，同时标记出噪声点。这两种算法各有优劣，在实际应用中需根据数据特性选择合适的聚类方法。

文章目录

聚类常用的两种算法
原理：

聚类常用的两种算法

k-means算法
DBSCAN算法

原理：

kmeans：参数：核数

1、随机初始化核心点
2、每个点计算与核心的距离，把最近的点设置为那个簇。
3、距离的计算一般为欧式距离，见下方说明
4、更新簇的中心点为所有点的中心，再依次更新所有点的所属簇。
。。。。

欧式距离算法

参考
在这里插入图片描述

直到距离和簇不再发生变化

在这里插入图片描述

缺点：1、所有核心点的初始化非常影响效果，

2、无法分类较为复杂的数据点。

DBSCAN算法：

传销算法：

传入密度阈值，和离心半径（相当于多少钱能升级代理）

产出所有的核心点，生成直接密度可达（一级代理），一级代理发展下线（和核心的关系叫密度可达），发展到最后，没有下线的叫边界点。

如有p和k点与核心q都是密度可达的，称为p和k密度相连（代理姐妹）。

噪声点：无法划分的，不属于下线的，即老鼠屎，无法被传销吞并，也称异常点，离群点。在这里插入图片描述

在这里插入图片描述
动态体验聚类算法

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

东哥aigc 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。