数据处理与文献影响力检测相关研究
在当今的数据处理和信息分析领域,有两项重要的研究成果值得关注:一是 Thrust 在数据密集型应用中的应用,二是利用 SHAPD 算法检测语料库中最具影响力的文献。
Thrust 在数据密集型应用中的表现
Thrust 可作为数据密集型应用的高级编程库,实验表明它的性能不逊色于纯 CUDA 代码。在数据库系统中使用 Thrust 有诸多优势,其生产力、抽象性和模块化使得 Thrust 函数器能在许多新任务中复用。不过,对于计算能力(CC)低于 2.0 的 GPU 设备,手动优化的纯 CUDA 代码可能更适用,因为 Thrust 的开发者认为不存在适用于所有情况的通用工具。
SHAPD 算法检测最具影响力文献
研究背景与目标
之前的实验结果使得句子哈希算法(SHAPD)可用于新的应用,即测试能否识别给定语料库中最具影响力的文献。判断最具影响力文献的关系因素包括:
- 与其他文献的公共子序列数量
- 文献的自我引用(无明确参考文献)
- 文献中常用的短语
- 引用该文献的文献数量
- 该文献引用其他文献的数量
- 属于抄袭实例的子序列数量
具有影响力的文献通常具备以下一个或两个主要特征:
- 在处理的语料库中被大量引用
- 引用了处理语料库中大量被引用的文献
与基于文献注释摘要和书目数据的解决方案相比,使用 SHAPD 算法的方法具有独立性,不受文献格式和外部用户额外输入的影响,它能自动处理文献并分析实际文本数据,从而将文献分类为有影响力的文献。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



