
一、Denser Retriever 介绍
Denser Retriever 是一个企业级的RAG检索器,将多种搜索技术整合到一个平台中。在MTEB数据集上的实验表明,Denser Retriever可以显著提升向量搜索(VS)的基线(snowflake-arctic-embed-m模型, 在MTEB/BEIR排行榜达到了最先进的性能)。
它来自Denser.ai公司,创始人是黄志恒,曾担任 AWS 首席科学家,领导过 Amazon Kendra 和 Amazon Business Q 项目,截至 2024 年7 月,他的谷歌学术被引用次数超过 13,700 次。Denser Retriever是完全开源的,可以使用其构建自己专属的RAG应用和聊天机器人。
RAG系统主要包括两个部分:检索器和生成器。AI检索器用于确保 AI 应用中的准确和无缝体验。检索器大致分为两类:关键词搜索和向量搜索。关键词搜索依赖于关键词匹配,而向量搜索则关注语义相似性。流行的工具包括用于关键词搜索的 Elasticsearch 和用于向量搜索的 Milvus、Chroma 和 Pinecone。
在大语言模型时代,许多领域的专业人士都热衷于开发 RAG AI 应用原型。像 Langchain 这样的工具发挥着重要作用。例如,用户可以使用 Langhian 和 Chroma 快速构建一个用于法律文档分析的 RAG 应用。
DenserAI 团队推出的 Denser Retriever 侧在快速原型设计方面表现优异。Denser Retriever将多种搜索技术整合到一个平台中。它利用梯度提升(xgboost)机器学习技术,将关键词搜索、向量搜索和机器学习重排序结合在一起。
在 MTEB 数据集上评估 Denser Retriever。通过xgboost模型(记作ES+VS+RR_n)将关键词搜索、向量搜索和重排序器结合,可以显著提升向量搜索(VS)的基线(snowflake-arctic-embed-m模型, 在MTEB/BEIR排行榜达到了最先进的性能)。ES+VS+RR_n模型在15个MTEB数据集上达到了最高的NDCG@10得分56.47,相比snowflake模型(NDCG@10得分54.24)绝对提升了2.23,相对提升了4.11%。在广泛认可的MSMARCO基准数据集上,ES+VS+RR_n模型将snowflake模型的NDCG@10得分从41.77提升到47.23,带来了13.07%的相对提升。

用户可以通过一个简单的 Docker Compose 命令快速安装 Denser Retriever 及其所需工具,用于构建自己专属的RAG应用。同时Denser Retriever还提供了自托管解决方案,支持企业级别生产环境的部署。

最低0.47元/天 解锁文章
954

被折叠的 条评论
为什么被折叠?



