基于密度的聚类算法

最新推荐文章于 2025-10-14 16:24:04 发布

原创

最新推荐文章于 2025-10-14 16:24:04 发布 · 置顶 · 2.7k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#Science #密度聚类 #论文分析与实现

本文介绍了基于密度的聚类算法，强调其核心思想是寻找高密度区域并考虑类间距离。算法无需预设聚类数量，通过密度函数与距离函数自适应地确定聚类中心。关键参数包括距离函数、密度函数、类间距离函数和γ参数。文章详细阐述了如何选择dc参数，以及如何自动选择中心点数目。通过示例和代码实现展示了算法的运用，并给出了实验结果。

- 基于密度的聚类算法

基于密度的聚类算法

1. 算法简介

基本思想：聚类中心的周围具有一些列低密度的点，并且它与其它高密度的点具有较大的间距。

The algorithm has its basis in the assumptions that cluster centers are surrounded by neighbors with lower local density and that they are at a relatively large distance from any points with a higher local density.

与降维算法LDA（线性判别分析）异曲同工之妙，它的降维思想是不同类别之间的类间间距大，同类数据之间类内间距小。算法的聚类中心选取原则如下：

聚类中心处的密度最大
聚类中心间的间距大

算法通过设计合适的密度函数与距离函数来实现无监督聚类。该算法不需要事先提供聚类中心的个数，能够自适应的选取聚类中心数目。

2. 参数说明及定义

数据维度说明
定义数据集的维度为 $R^{m\cdot n}$ ，其中 $m$ 为数据集数目， $n$ 为样本特征维度。
$d_{ij}$ : 距离函数
衡量样本 $x^i$ 与样本 $x^j$ 之间的相似度，样本特征维度假设为 $n$ 。代码中以欧式距离作为距离函数，其定义如下：

$d_{i j} = \sum_{k = 0}^{n} (x_{k}^{i} - x_{k}^{j})^{2}$ $d_{ij}=\sum_{k=0}^n(x^i_k-x^j_k)^2$
密度函数(local density) $p$ :文中提供了两种计算方式

Cut off kernel

$p i =$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。