利用GPU进行在线文档聚类
在当今信息爆炸的时代,对大量文档进行高效聚类是一项具有挑战性的任务。GPU(图形处理单元)凭借其强大的并行计算能力,为解决这一问题提供了新的途径。本文将介绍几种利用GPU进行在线文档聚类的算法,并对它们的性能进行评估。
1. 顺序聚类算法
首先,我们介绍一种在GPU上逐个文档进行聚类的简单算法,该算法也作为后续能同时聚类多个文档的主要算法的基线。
1.1 基本顺序在线聚类算法
基本顺序在线聚类算法的输入是一个包含n个文档向量的列表,以及一个范围在0到1之间的聚类阈值T。其高级概述如下:
For each document D (ranging from 0 to n −1)
Choose the cluster C most similar to D
if similarity(C, D) > T then
Add document D to cluster C
Recompute C’s term vector
else
Create a new cluster consisting of only the document D
end
这个算法在最坏情况下,对n个文档进行聚类需要进行O(n²)次点积运算,因为每个文档最终都可能形成自己的簇。然而,文档向量的稀疏性意味着每个文档所需的距离计算次数非常少。
1.2 优化的顺序聚类算法
为了减少点积运算的次数,我们引入了TermL
超级会员免费看
订阅专栏 解锁全文
856

被折叠的 条评论
为什么被折叠?



