DBSCAN聚类算法 — 理论 + 图解 + 代码

本文深入解析DBSCAN聚类算法,介绍其基于密度的聚类原理,对比K-Means算法,阐述DBSCAN处理复杂形状簇的优势。文章探讨算法参数选择、迭代过程可视化,并通过轮廓系数评估聚类效果,最后提供Python实现示例。
部署运行你感兴趣的模型镜像

前期回顾

K-Means算法 — 算法原理、质心计算、距离度量、聚类效果评价及优缺点


一、前言
二、DBSCAN聚类算法
三、参数选择
四、DBSCAN算法迭代可视化展示
五、常用的评估方法:轮廓系数
六、用Python实现DBSCAN聚类算法

一、前言

DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。 该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。

二、DBSCAN聚类算法

文字看不懂看下面这个图。下面这些点是分布在样本空间的众多样本,现在我们的目标是把这些在样本空间中距离相近的聚成一类。我们发现A点附近的点密度较大,红色的圆圈根据一定的规则在这里滚啊滚,最终收纳了A附近的5个点,标记为红色也就是定为同一个簇。其它没有被收纳的根据一样的规则成簇。(形象来说,我们可以认为这是系统在众多样本点中随机选中一个,围绕这个被选中的样本点画一个圆,规定这个圆的半径以及圆内最少包含的样本点,如果在指定半径内有足够多的样本点在内,那么这个圆圈的圆心就转移到这个内部样本点,继续去圈附近其它的样本点,类似传销一样,继续去发展下线。等到这个滚来滚去的圈发现所圈住的样本点数量少于预先指定的值,就停止了。那么我们称最开始那个点为核心点,如A,停下来的那个点为边界点,如B、C,没得滚的那个点为离群点,如N)。

基于密度这点有什么好处呢,我们知道kmeans聚类算法只能处理球形的簇,也就是一个聚成实心的团(这是因为算法本身计算平均距离的局限)。但往往现实中还会有各种形状,比如下面两张图,环形和不规则形,这个时候,那些传统的聚类算法显然就悲剧了。于是就思考,样本密度大的成一类呗。呐这就是DBSCAN聚类算法。

三、参数选择

上面提到了红色圆圈滚啊滚的过程,这个过程就包括了DBSCAN算法的两个参数,这两个参数比较难指定,公认的指定方法简单说一下:

  • 半径:半径是最难指定的 ,大了,圈住的就多了,簇的个数就少了;反之,簇的个数就多了,这对我们最后的结果是有影响的。我们这个时候K距离可以帮助我们来设定半径r,也就是要找到突变点,比如:

以上虽然是一个可取的方式,但是有时候比较麻烦 ,大部分还是都试一试进行观察,用k距离需要做大量实验来观察,很难一次性把这些值都选准。 

  • MinPts:这个参数就是圈住的点的个数,也相当于是一个密度,一般这个值都是偏小一些,然后进行多次尝试

 

四、DBSCAN算法迭代可视化展示

国外有一个特别有意思的网站:https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/

它可以把我们DBSCAN的迭代过程动态图画出来

设置好参数,点击GO! 就开始聚类了!

直接跳到最后看一下DBSCAN的聚类结果,如下:

如果minPoints参数设置再大一点,那么这个笑脸可能会更好看。没有颜色标注的就是圈不到的样本点,也就是离群点,DBSCAN聚类算法在检测离群点的任务上也有较好的效果。如果是传统的Kmeans聚类,我们也来看一下效果:

是不是好丑,这完美的体现出来DBSCAN算法基于密度聚类的优势了啊.

 

五、常用的评估方法:轮廓系数

这里提一下聚类算法中最常用的评估方法——轮廓系数(Silhouette Coefficient):

ji

  1. 计算样本i到同簇其它样本的平均距离ai。ai越小,说明样本i越应该被聚类到该簇(将ai称为样本i到簇内不相似度)。
  2. 计算样本i到其它某簇Cj的所有样本的平均距离bij,称为样本i与簇Cj的不相似度。定义为样本i的簇间不相似度:bi=min(bi1,bi2,...,bik2)
  • si接近1,则说明样本i聚类合理
  • si接近-1,则说明样本i更应该分类到另外的簇
  • 若si近似为0,则说明样本i在两个簇的边界上

 

六、用Python实现DBSCAN聚类算法

import pandas as pd
# 导入数据
beer = pd.read_csv('data.txt', sep=' ')
print(beer)

输出结果:

from sklearn.cluster import DBSCAN
 
X = beer[["calories","sodium","alcohol","cost"]]
# 设置半径为10,最小样本量为2,建模
db = DBSCAN(eps=10, min_samples=2).fit(X)
 
labels = db.labels_ 
beer['cluster_db'] = labels  # 在数据集最后一列加上经过DBSCAN聚类后的结果
beer.sort_values('cluster_db')
 
# 注:cluster列是kmeans聚成3类的结果;cluster2列是kmeans聚类成2类的结果;scaled_cluster列是kmeans聚类成3类的结果(经过了数据标准化)

# 查看根据DBSCAN聚类后的分组统计结果(均值)
print(beer.groupby('cluster_db').mean())

# 画出在不同两个指标下样本的分布情况
print(pd.scatter_matrix(X, c=colors[beer.cluster_db], figsize=(10,10), s=100))

# 我们可以从上面这个图里观察聚类效果的好坏,但是当数据量很大,或者指标很多的时候,观察起来就会非常麻烦。
from sklearn import metrics  
# 就是下面这个函数可以计算轮廓系数(sklearn真是一个强大的包)
score = metrics.silhouette_score(X,beer.cluster_db) 
print(score)

转载自博客 DBSCAN聚类算法——机器学习(理论+图解+python代码)

相关博客

[1]. 理解DBSCAN密度聚类算法
[2]. TfidfTransformer和 CountVectorizer的使用

您可能感兴趣的与本文相关的镜像

Python3.11

Python3.11

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值