C++实现密度聚类（DBSCAN）

最新推荐文章于 2025-01-24 00:15:00 发布

原创最新推荐文章于 2025-01-24 00:15:00 发布 · 1.6k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习专栏收录该内容

1 篇文章

订阅专栏

本文介绍了一种基于C++的密度聚类算法实现，通过定义核心点、边界点和密度等概念，利用集合运算的方法对数据进行分类。核心点是其周围存在较多其他点的点，边界点则相反，而密度是在一定区域内的点个数。算法通过处理核心点及其周围点来完成分类。

C++实现密度聚类算法

主要利用集合运算的方法实现

原理简介

参考周华志《机器学习》。下面是一些概念，可能与原文有很大出入。
核心点：
若一个点的周围一定区域（笔者采用的是矩形区域）内存在的其他点较多的，就称为核心点。
边界点与其他：
若一个点的周围一定区域（笔者采用的是矩形区域）内存在的其他点较少。通过直观想象，也可以知道这个点不在中心，那就只能是边界上的点或其他。
一定区域：
在这里我定义为以所观察点为中心的定长定宽的矩形区域。（方便数组操作）
密度：
在一定区域内的点个数（除自己外）
判定密度：
用于判定该点是否为核心点。
分类大致方法：
边界点与其他点：有的在核心点的一定区域内，就会自动随着核心点被分类。有的并不在，那么这种点实际上就是一种噪声，所以会被忽视，不会被分类。综上，边界点与其他点不需要直接操作，躺着就好了。
核心点：将离得近的核心点，以及他们携带的一定区域内的点，归为一类，分类的个数受一定区域与判定密度的影响。