简单易学的机器学习算法——基于密度的聚类算法DBSCAN

本文介绍了基于密度的聚类算法DBSCAN的工作原理及其在MATLAB中的实现过程。DBSCAN能够发现任意形状的聚类,并有效处理噪声点,适用于带有噪声的数据集。

转载自http://blog.youkuaiyun.com/google19890102

一、基于密度的聚类算法的概述
    最近在Science上的一篇基于密度的聚类算法《Clustering by fast search and find of density peaks》引起了大家的关注(在我的博文“论文中的机器学习算法——基于密度峰值的聚类算法”中也进行了中文的描述)。于是我就想了解下基于密度的聚类算法,熟悉下基于密度的聚类算法与基于距离的聚类算法,如K-Means算法之间的区别。
    基于密度的聚类算法主要的目标是寻找被低密度区域分离的高密度区域。与基于距离的聚类算法不同的是,基于距离的聚类算法的聚类结果是球状的簇,而基于密度的聚类算法可以发现任意形状的聚类,这对于带有噪音点的数据起着重要的作用。

二、DBSCAN算法的原理

1、基本概念

    DBSCAN(Density-Based Spatial Clustering of Application with Noise)是一种典型的基于密度的聚类算法,在DBSCAN算法中将数据点分为一下三类:
  • 核心点。在半径Eps内含有超过MinPts数目的点
  • 边界点。在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内
  • 噪音点。既不是核心点也不是边界点的点
在这里有两个量,一个是半径Eps,另一个是指定的数目MinPts。
    一些其他的概念
  1. Eps邻域。简单来讲就是与点的距离小于等于Eps的所有的点的集合,可以表示为
  2. 直接密度可达。如果在核心对象的Eps邻域内,则称对象从对象出发是直接密度可达的。
  3. 密度可达。对于对象链:是从关于Eps和MinPts直接密度可达的,则对象是从对象关于Eps和MinPts密度可达的。

2、算法流程


(流程)

三、实验仿真

    在实验中使用了两个测试数据集,数据集的原始图像如下:

(数据集1)
(数据集2)
数据集1相对比较简单。显然我们可以发现数据集1共有两个类,数据集2有四个类,下面我们通过DBSCAN算法实现数据点的聚类:

MATLAB代码
主程序


  1. %% DBSCAN  
  2. clear all;  
  3. clc;  
  4.   
  5. %% 导入数据集  
  6. % data = load('testData.txt');  
  7. data = load('testData_2.txt');  
  8.   
  9. % 定义参数Eps和MinPts  
  10. MinPts = 5;  
  11. Eps = epsilon(data, MinPts);  
  12.   
  13. [m,n] = size(data);%得到数据的大小  
  14.   
  15. x = [(1:m)' data];  
  16. [m,n] = size(x);%重新计算数据集的大小  
  17. types = zeros(1,m);%用于区分核心点1,边界点0和噪音点-1  
  18. dealed = zeros(m,1);%用于判断该点是否处理过,0表示未处理过  
  19. dis = calDistance(x(:,2:n));  
  20. number = 1;%用于标记类  
  21.   
  22. %% 对每一个点进行处理  
  23. for i = 1:m  
  24.     %找到未处理的点  
  25.     if dealed(i) == 0  
  26.         xTemp = x(i,:);  
  27.         D = dis(i,:);%取得第i个点到其他所有点的距离  
  28.         ind = find(D<=Eps);%找到半径Eps内的所有点  
  29.           
  30.         %% 区分点的类型  
  31.           
  32.         %边界点  
  33.         if length(ind) > 1 && length(ind) < MinPts+1  
  34.             types(i) = 0;  
  35.             class(i) = 0;  
  36.         end  
  37.         %噪音点  
  38.         if length(ind) == 1  
  39.             types(i) = -1;  
  40.             class(i) = -1;  
  41.             dealed(i) = 1;  
  42.         end  
  43.         %核心点(此处是关键步骤)  
  44.         if length(ind) >= MinPts+1  
  45.             types(xTemp(1,1)) = 1;  
  46.             class(ind) = number;  
  47.               
  48.             % 判断核心点是否密度可达  
  49.             while ~isempty(ind)  
  50.                 yTemp = x(ind(1),:);  
  51.                 dealed(ind(1)) = 1;  
  52.                 ind(1) = [];  
  53.                 D = dis(yTemp(1,1),:);%找到与ind(1)之间的距离  
  54.                 ind_1 = find(D<=Eps);  
  55.                   
  56.                 if length(ind_1)>1%处理非噪音点  
  57.                     class(ind_1) = number;  
  58.                     if length(ind_1) >= MinPts+1  
  59.                         types(yTemp(1,1)) = 1;  
  60.                     else  
  61.                         types(yTemp(1,1)) = 0;  
  62.                     end  
  63.                       
  64.                     for j=1:length(ind_1)  
  65.                        if dealed(ind_1(j)) == 0  
  66.                           dealed(ind_1(j)) = 1;  
  67.                           ind=[ind ind_1(j)];     
  68.                           class(ind_1(j))=number;  
  69.                        end                      
  70.                    end  
  71.                 end  
  72.             end  
  73.             number = number + 1;  
  74.         end  
  75.     end  
  76. end  
  77.   
  78. % 最后处理所有未分类的点为噪音点  
  79. ind_2 = find(class==0);  
  80. class(ind_2) = -1;  
  81. types(ind_2) = -1;  
  82.   
  83. %% 画出最终的聚类图  
  84. hold on  
  85. for i = 1:m  
  86.     if class(i) == -1  
  87.         plot(data(i,1),data(i,2),'.r');  
  88.     elseif class(i) == 1  
  89.         if types(i) == 1  
  90.             plot(data(i,1),data(i,2),'+b');  
  91.         else  
  92.             plot(data(i,1),data(i,2),'.b');  
  93.         end  
  94.     elseif class(i) == 2  
  95.         if types(i) == 1  
  96.             plot(data(i,1),data(i,2),'+g');  
  97.         else  
  98.             plot(data(i,1),data(i,2),'.g');  
  99.         end  
  100.     elseif class(i) == 3  
  101.         if types(i) == 1  
  102.             plot(data(i,1),data(i,2),'+c');  
  103.         else  
  104.             plot(data(i,1),data(i,2),'.c');  
  105.         end  
  106.     else  
  107.         if types(i) == 1  
  108.             plot(data(i,1),data(i,2),'+k');  
  109.         else  
  110.             plot(data(i,1),data(i,2),'.k');  
  111.         end  
  112.     end  
  113. end  
  114. hold off  

距离计算函数
  1. %% 计算矩阵中点与点之间的距离  
  2. function [ dis ] = calDistance( x )  
  3.     [m,n] = size(x);  
  4.     dis = zeros(m,m);  
  5.       
  6.     for i = 1:m  
  7.         for j = i:m  
  8.             %计算点i和点j之间的欧式距离  
  9.             tmp =0;  
  10.             for k = 1:n  
  11.                 tmp = tmp+(x(i,k)-x(j,k)).^2;  
  12.             end  
  13.             dis(i,j) = sqrt(tmp);  
  14.             dis(j,i) = dis(i,j);  
  15.         end  
  16.     end  
  17. end  

epsilon函数
  1. function [Eps]=epsilon(x,k)  
  2.   
  3. % Function: [Eps]=epsilon(x,k)  
  4. %  
  5. % Aim:   
  6. % Analytical way of estimating neighborhood radius for DBSCAN  
  7. %  
  8. % Input:   
  9. % x - data matrix (m,n); m-objects, n-variables  
  10. % k - number of objects in a neighborhood of an object  
  11. % (minimal number of objects considered as a cluster)  
  12.   
  13.   
  14.   
  15. [m,n]=size(x);  
  16.   
  17. Eps=((prod(max(x)-min(x))*k*gamma(.5*n+1))/(m*sqrt(pi.^n))).^(1/n);  



最终的结果

(数据集1的聚类结果)
(数据集2的聚类结果)
在上面的结果中,红色的点代表的是噪音点,点代表的是边界点,十字代表的是核心点。不同的颜色代表着不同的类。

参考文献

[1] M. Ester, H. Kriegel, J. Sander, X. Xu, A density-based algorithm for discovering clusters in large spatial databases with noise,  www.dbs.informatik.uni-muenchen.de/cgi-bin/papers?query=--CO
[2] M. Daszykowski, B. Walczak, D. L. Massart, Looking for Natural Patterns in Data. Part 1: Density Based Approach
3
0
### DBSCAN 密度聚类算法原理及特点 #### 一、DBSCAN 的基本概念 DBSCAN 是一种基于密度的空间聚类算法,其全称为 Density-Based Spatial Clustering of Applications with Noise。该算法能够识别任意形状的簇,并能有效处理噪声点[^1]。 #### 二、核心参数定义 DBSCAN 使用两个重要参数来控制聚类过程: - **Eps (&epsilon;)**: 定义邻域半径,即某个点周围 &epsilon; 距离内的区域。 - **MinPts**: 表示在 &epsilon; 邻域内至少需要包含多少个点才能被认定为核心点。 通过这两个参数,DBSCAN 将数据集中的点划分为以下三种类型: - **核心点 (Core Point)**: 如果某一点在其 &epsilon; 半径范围内至少有 MinPts 数量的邻居,则此点为核心点。 - **边界点 (Border Point)**: 不满足核心点条件,但在某一核心点的 &epsilon; 邻域范围内的点被称为边界点。 - **噪声点 (Noise Point)**: 既不是核心点也不是任何其他核心点的边界点的孤立点被认为是噪声点[^2]。 #### 三、算法流程 DBSCAN 的主要工作流程可以概括如下: 1. 对于每一个未访问的数据点,计算其 &epsilon; 邻域内的点数。 2. 若当前点的核心点条件成立(即其 &epsilon; 邻域内点的数量大于等于 MinPts),则以此点为基础扩展一个新的簇。 3. 扩展过程中,将所有属于同一连通区域的点加入到同一个簇中。 4. 处理完所有的点之后,剩余无法归属于任何一个簇的点标记为噪声点。 #### 四、优点与局限性 ##### 优势 - 可以发现任意形状的簇,而不仅仅是球形或椭圆形。 - 自动忽略异常值(噪声点)而不需预先指定数量。 - 参数相对较少,易于调整和理解。 ##### 局限性 - 对 Eps 和 MinPts 参数的选择较为敏感,不恰当的设置可能导致较差的结果。 - 当不同簇具有显著不同的密度时,效果可能不佳。 - 时间复杂度较高,在高维大数据集上性能可能会下降。 ```python from sklearn.cluster import DBSCAN import numpy as np # 创建样本数据 X = np.array([[1, 2], [2, 2], [2, 3], [8, 7], [8, 8], [25, 80]]) # 初始化并运行 DBSCAN 算法 db = DBSCAN(eps=3, min_samples=2).fit(X) # 输出标签结果 labels = db.labels_ print(labels) ``` 上述代码展示了如何利用 `sklearn` 库快速实现 DBSCAN 算法的应用实例。其中 `eps` 设置为 3,表示每个点周围的邻域大小;`min_samples` 设定为 2,意味着成为核心点所需的最小邻近点数目。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值