3、基于GPU的泊松 - 二项式半径距离并行化用于n - 元组直方图比较

基于GPU的泊松 - 二项式半径距离并行化用于n - 元组直方图比较

1. 引言

在自然语言处理(NLP)中,文档的成对比较计算对于后续分析至关重要,例如根据相似度对文本进行分组或将其分配到预定义的类别中。比较的质量很大程度上取决于合适距离度量的选择,而距离度量的选择又取决于文档的表示方式。

一种典型的文本表示方法是词袋(bag - of - words)策略,它可以用于单个单词(即1 - 元组)或多个单词的组合(n - 元组)。词袋表示将文档视为n - 元组的集合,并记录每个n - 元组的出现次数,实际上就是文档的n - 元组直方图。

这种基于直方图的表示具有高维性和稀疏性的特点。高维性是因为直方图的长度等于文本集合的全局词典大小;稀疏性则是由于许多n - 元组在特定文档中不出现,导致直方图中有很多计数为零的项。这种表示方式给NLP系统的后续步骤带来了巨大的计算负担,甚至引发了科学界对环境问题的关注。

为了比较直方图,有多种距离度量可供选择,如杰弗里散度、卡方距离、直方图交集距离和交叉熵度量等。其中一些度量需要对直方图进行归一化,以便将其解释为潜在概率质量函数(PMF)的估计。

最近,Swaminathan等人提出了一种新的直方图比较度量——泊松 - 二项式半径(PBR)距离。在图像分类问题中,PBR距离在分类准确性方面表现出色,优于许多其他经典距离度量。然而,随着直方图长度的增加,PBR距离的计算成本会迅速超过其他竞争距离度量。

为了减轻PBR距离的计算成本,利用现有的多核和众核计算机架构,本文提出了一种基于GPU的PBR距离并行化方法,用于比较n - 元组的大直方图。

2. 方法
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值