基于密度的聚类

最新推荐文章于 2024-09-18 21:48:45 发布

转载最新推荐文章于 2024-09-18 21:48:45 发布 · 8.8k 阅读

·

1

·

文章标签：

Data Mining 专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了基于密度的聚类算法的核心概念，包括核心对象、直接密度可达、密度可达及聚类形成过程。此外，阐述了算法的优点，如对噪声的抗干扰能力以及能够发现任意形状的聚类，并讨论了其局限性。最后，提出了将搜索结果聚类并展示给用户的方法。

基于密度的聚类

定义：

1. 对于空间中的一个对象，如果它在给定半径e的邻域中的对象个数大于密度阀值MinPts，则该对象被称为核心对象，否则称为边界对象。

2. 如果p是一个核心对象，q属于p的邻域，那么称p直接密度可达q。

3. 如果存在一条链<p1,p2,…..,pi>，满足p₁=p，p_i=q，p_i直接密度可达p_i+1，则称p密度可达q。

4. 如果存在o，o密度可达q和p，则称p和q是密度连通的

5. 由一个核心对象和其密度可达的所有对象构成一个聚类。

a为核心对象，b为边界对象，且a直接密度可达b，

但b不直接密度可达a,因为b不是一个核心对象

c直接密度可达a,a直接密度可达b,所以c密度可达b，

同理b不密度可达c，但b和c密度连通

DBSCAN从任一对象p开始，根据参数e和MinPts提取所有从p密度可达对象，得到一个聚类。

1. 从任一对象p开始。

a) 如果p是核心对象，则p和p直接密度可达的所有对象被标记为类i。递归p直接密度可达的所有对象q_i（即用q_i代替p回到第一步）。

b) 如果p是一个边界对象，那么p被标记为噪声。

2. i++

3. 如果还有没被标记的对象，则从中任选一个作为p，回到第一步。

得到一个类，同样我们可以得到另一个类

优点：

1. 对噪声不敏感。

2. 能发现任意形状的聚类。

缺点：

1. 聚类的结果与参数有很大的关系。

2. DBSCAN用固定参数识别聚类，但当聚类的稀疏程度不同时，相同的判定标准可能会破坏聚类的自然结构，即较稀的聚类会被划分为多个类或密度较大且离得较近的类会被合并成一个聚类

附：

专题思路：把搜下来的网页进行聚类，将聚类结果显示给用户，用户可以选择其中的一个类，标为关注，类的关键词作为主题，用户就可以跟踪这主题、了解主题的文章的情感（就是其它部分的功能）

csdnID:tmgzb

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。