
语义检索
文章平均质量分 74
水的精神
一件事,要么不做,要么做到极致。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
量化在密集向量检索中的权衡:深入分析索引时间、查询效率与召回效果
在现代信息检索系统中,向量搜索已成为提升检索质量和效率的关键技术。随着数据量的激增,如何高效地处理和检索大规模向量数据集,成为了一个重要课题。最近,我在研究一篇关于密集和稀疏检索器的论文——《Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes?》——它为我们提供了关于量化技术在实际应用中的见解。本文将深入探讨量化技术在索引时间、查询效率和召回效果方面的影响。原创 2024-09-17 23:22:32 · 683 阅读 · 0 评论 -
密集检索:我们应该使用什么样的检索粒度?(如何提升召回率)
本文探讨了不同检索粒度在密集检索和下游任务中的性能影响,并重点介绍了新提出的命题检索单位。通过实证比较,发现基于命题的检索在密集检索中显著优于传统的句子检索单位,并可显著提高下游问答任务的性能。命题检索单位具有精确性、简洁性、可扩展性和交互性等优点。相较于常用的段落或句子检索,命题作为原子级信息载体,以其简洁、自包含的特性,能够更精准地提炼文本中的关键事实信息。通过在多个开放领域问答数据集上对比不同检索粒度下的检索模型性能,实验结果显示命题检索在提高检索召回率和下游问答任务准确度方面均优于传统方法。原创 2024-01-10 13:41:25 · 1803 阅读 · 1 评论 -
向量做语义检索,效果测试
语义检索的效果确实不错,特别是在非关键词命中的情况下。通过做数据的文本嵌入,然后用向量的做召回。虽然我搜索的是“中国的首都”,但是把命中北京的也给我召回了,大大提升了召回效果。这里是利用es的机器学习模块,并用eland将模型导入到ES。我已经导入过模型了,在我的其它文章中,已经写过。这里只是用模型做文本嵌入。其中我用全文模糊匹配。召回top10,命中的数据。使用上一个步骤,将问题转向量。该演示模型为m3e。这大概就是语义检索的魅力。原创 2023-12-11 23:36:56 · 749 阅读 · 1 评论 -
关于对向量检索研究的一些学习资料整理
这里整理了一些我掌握和学习过的向量检索相关的文档。对向量检索,语义检索感兴趣的同学们,可以进来开看看,有任何问题都可以探讨。原创 2023-12-10 15:23:04 · 1563 阅读 · 0 评论 -
语义检索系统如何选择合适的embedding模型
最近几年向量召回(embedding–based retrieval,dense encoder)在IR领域大放异彩,已经是各个公开数据集的SOTA。相比传统的query分词–>倒排索引–>BM25这个pipeline,向量召回最主要两个优点,一是语义粒度泛化,解决vocabulary mismatch的问题。链接:https://www.zhihu.com/question/623845779/answer/3250104565。语义检索中很重要的一步就是选择文本嵌入的模型。在知乎上看到这篇文章还不错。转载 2023-11-26 23:04:57 · 586 阅读 · 0 评论