基于GPU的泊松 - 二项式半径距离并行化用于n - 元组直方图比较
1. 引言
在自然语言处理(NLP)中,文档的成对比较计算对于后续分析至关重要,例如根据相似度对文本进行分组或将其分配到预定义的类别中。比较的质量很大程度上取决于合适距离度量的选择,而距离度量的选择又取决于文档的表示方式。
一种典型的文本表示方法是词袋(bag - of - words)策略,它可以用于单个单词(即1 - 元组)或多个单词的组合(n - 元组)。词袋表示将文档视为n - 元组的集合,并记录每个n - 元组的出现次数,实际上就是文档的n - 元组直方图。
这种基于直方图的表示具有高维性和稀疏性的特点。高维性是因为直方图的长度等于文本集合的全局词典大小;稀疏性则是由于许多n - 元组在特定文档中不出现,导致直方图中有很多计数为零的项。这种表示方式给NLP系统的后续步骤带来了巨大的计算负担,甚至引发了科学界对环境问题的关注。
为了比较直方图,有多种距离度量可供选择,如杰弗里散度、卡方距离、直方图交集距离和交叉熵度量等。其中一些度量需要对直方图进行归一化,以便将其解释为潜在概率质量函数(PMF)的估计。
最近,Swaminathan等人提出了一种新的直方图比较度量——泊松 - 二项式半径(PBR)距离。在图像分类问题中,PBR距离在分类准确性方面表现出色,优于许多其他经典距离度量。然而,随着直方图长度的增加,PBR距离的计算成本会迅速超过其他竞争距离度量。
为了减轻PBR距离的计算成本,利用现有的多核和众核计算机架构,本文提出了一种基于GPU的PBR距离并行化方法,用于比较n - 元组的大直方图。
超级会员免费看
订阅专栏 解锁全文
585

被折叠的 条评论
为什么被折叠?



