本文是LLM系列文章,针对《Vector Search with OpenAI Embeddings: Lucene Is All You Need》的翻译。
摘要
我们在流行的MS MARCO文章排名测试集上使用Lucene提供了一个可复制的、端到端的OpenAI嵌入向量搜索演示。我们工作的主要目标是挑战主流的说法,即专用向量存储是利用深度神经网络应用于搜索的最新进展所必需的。恰恰相反,我们表明Lucene中的分层可导航小世界网络(HNSW)索引足以在标准双编码器架构中提供向量搜索功能。这表明,从简单的成本效益分析来看,似乎没有令人信服的理由将专用向量存储引入现代“人工智能堆栈”中进行搜索,因为这些应用程序已经在现有的、广泛部署的基础设施中获得了大量投资。
Lucene实现OpenAI向量搜索:无需专用存储
本文翻译了《Vector Search with OpenAI Embeddings: Lucene Is All You Need》,展示如何使用Lucene在MS MARCO排名测试集上进行向量搜索。研究发现,Lucene的HNSW索引在双编码器架构中效果良好,挑战了必须使用专用向量存储的观点。这表明,在已有搜索基础设施中,没有强烈理由引入额外的向量存储。
已下架不支持订阅
2714

被折叠的 条评论
为什么被折叠?



