笔记Clustering by fast search and find of density peaks

本文提出了一种基于簇中心密度及簇间距离的聚类方法。该方法通过识别高密度点作为潜在簇中心,并利用点间相对距离排除异常点,自动确定簇的数量,不受簇形状和空间维度限制。

---恢复内容开始---

We propose an approach based on the idea that cluster centers are characterized
by a higher density than their neighbors and by a relatively large distance from points with
higher densities. This idea forms the basis of a clustering procedure in which the number of
clusters arises intuitively, outliers are automatically spotted and excluded from the analysis, and
clusters are recognized regardless of their shape and of the dimensionality of the space in which
they are embedded.

想法来源是直接:1、cluster的中心密度要高;2、高密度的中心点之间的距离应该相对远一些。异常点都会被排除,同时也和形状无关。

问题来了,密度怎么定义?

dc是阶段距离,阈值啦。就是这个范围内有多少个点啦。后面就说这个值的选取鲁棒性不错。

简而言之,寻找比i节点密度大同时距离最近的点的距离为i的距离。

所以说如果密度大,同时又和其他密度比他大的点距离远,那么他很可能就是一个cluster的中心。

对于那个密度最大的点,定义 也就是离他最远的点的距离,默认他就是一个cluster的中心。

we first find for each cluster a border region, defined as the set of points assigned to that cluster but being
within a distance dc from data points belonging to other clusters. We then find, for each cluster, the
point of highest density within its border region. We denote its density by . The points of the
cluster whose density is higher than rb are considered part of the cluster core (robust assignation).
The others are considered part of the cluster halo (suitable to be considered as noise).

给每一个cluster找一个边界区域,就是一堆点属于这个cluster但是距离dc来算又属于其他cluster,即距离其他cluster小于dc。

在border region中,密度最大的点的密度为,cluster中密度大于他的为core cluster,另外的称为halo光晕, 也就是噪音。

没有说的一个问题是如何在判别树中寻找cluster中的点。简单的方法就是按照阈值找较大的点。其他的再看。

 

转载于:https://www.cnblogs.com/hluo/p/4083620.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值