高效分布式 DBSCAN 算法解析
1. 分布式 DBSCAN 的 MapReduce 阶段及可能合并的检测
要使用 MapReduce 编程模型对 DBSCAN 进行并行化处理,可按以下步骤执行:
- 分布式执行 DBSCAN :这是一个 MapReduce 过程,相关的 Map 和 Reduce 函数如下:
- Map 函数 :将数据集中的每个点描述为一个键值对 ⟨key, value⟩,其中键指街道,值指数据收集的地理位置(纬度和经度)。具体代码如下:
Algorithm 1. First MapReduce - Map.
Input: Set of points of the data set T
1 begin
2 for p ∈T do
3 createPair⟨p.street name, p.Lat, p.Lon⟩
- **Reduce 函数**:接收具有相同键的一组值,即属于同一条街道的点或地理位置。此阶段使用 KD - tree 索引应用 DBSCAN 算法。代码如下:
Algorithm 2. First MapReduce - Reduce.
Input: Set P of pairs ⟨k, v⟩with same k, minPoints, eps
1 begin
2 DBSCAN(P, eps, minPoints)
3 Store
超级会员免费看
订阅专栏 解锁全文
1185

被折叠的 条评论
为什么被折叠?



