这是一个 PostgreSQL 扩展,它将最佳匹配 25 分数 (BM25) 文本查询的强大功能引入您的数据库,从而增强您执行高效和准确的文本检索的能力。此扩展允许用户从文本生成 BM25 统计稀疏向量,利用 BM25 在各种基准测试任务中经过验证的性能。
为什么是 BM25?
BM25(最佳匹配 25)是信息检索中使用的概率排名函数,用于评估文档与查询的匹配程度。它根据词频 (TF) 和逆文档频率 (IDF) 计算相关性分数,并通过文档长度规范化来平衡这些分数。该公式可确保在文档中频繁出现的术语 (TF) 和在语料库中罕见的术语 (IDF) 具有适当的权重,从而提高搜索的准确性和相关性。

BM25 在众多RAG 基准测试任务中已被证明优于基于密集向量的检索方法。通过将 BM25 集成到 PostgreSQL,您可以实现卓越的搜索性能和相关性,尤其是对于需要高质量文本检索的应用程序。您还可以将其与向量搜索结合使用,作为混合搜索集成。
主要特点
- BM25统计稀疏向量:根据自己的文本数据为文本生成BM25稀疏向量。
- 与向量搜索扩展集成:兼容pgvecto.rs并pgvector用于 PostgreSQL 中的高效向量搜索。
- 无缝标记化:利用 Huggingface 的bert-base-uncased词汇表和字节对编码 (BPE)
标记器,通过子词标记化提高性能
它是如何工作的?

BM25 计算可以分解为查询和文档的独立部分。最终相关性得分计算为查询的稀疏向量与文档的

最低0.47元/天 解锁文章
2072

被折叠的 条评论
为什么被折叠?



