跨语言信息检索与复杂问题回答的创新方法
1. 跨语言信息检索的研究成果
在跨语言信息检索(CLIR)领域,研究人员构建了波斯 - 英语可比语料库。具体做法是从两个独立的新闻集合中构建该语料库,并提出了一种基于概念相似性和主题的构建方法。这种方法能够对齐发布日期较远但相似的文档,避免了无关文档因共同词汇而被错误对齐。
1.1 实验设置与结果
在实验中,使用简单 KL 散度模型检索文档,并将 K 设置为不同的值,报告最佳结果。以下是使用不同翻译资源组合进行 CLIR 的结果:
| 资源组合 | MAP 提升情况 |
| — | — |
| 仅使用关联作为资源 | 提升 80.4% |
| 使用字典和维基百科翻译知识 | 提升 14.8% |
实验结果表明,使用字典或从维基百科提取的翻译知识,通过重新排列关联,提高了从语料库中提取的关联质量。
1.2 资源结合的效果
研究人员还进行了将字典、从维基百科提取的翻译知识与从语料库提取的关联相结合的实验。使用这三种资源,与单语基线相比,达到了高达 58.8% 的平均准确率均值(MAP),并且比使用相同字典和从维基百科提取的知识的方法的 MAP 提高了 14.8%,这显示了提取的关联的高质量。
1.3 跨语言信息检索流程
graph LR
A[构建可比语料库] --> B[提取关联]
B --> C[设置实验参数(K 值)]
C --> D[使用简单 KL 散度模型检索文档]
D -
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



