DDBSCAN(论文:Ddbscan: a density detection dbscan algorithm in e-commerce sites evaluation)
一、首先介绍DBSCAN的步骤,毕竟是它基础上的优化
DBSCAN这个博客讲得简单易懂 https://blog.youkuaiyun.com/huacha__/article/details/81094891
里面有两个参数需要人为定义:
eps:两点之间的最小距离(也就是一个圆形邻域的半径)。这意味着如果两点之间的距离低于或等于该值(eps),则这些点被认为是相邻。如果选择的eps值太小,则很大一部分数据不会聚集。它将被视为异常值,因为不满足创建密集区域的点数。如果选择的值太大,则群集会被合并,这样会造成大多数对象处于同一群集中。因此应该根据数据集的距离来选择eps,一般来说eps值尽量取小一点。
minPoints:表示形成密集区域的最小点数。例如,如果我们将minPoints参数设置为5,那么我们需要至少5个点来形成密集区域。作为一般规则,minPoints可以从数据集中的多个维度(D)导出,因为minPoints≥D+ 1.对于具有噪声的数据集,较大的minPoints值通常更好,并且将形成