利用Ollama和OpenAI实现RAG的多查询检索

最新推荐文章于 2025-11-24 15:52:13 发布

原创最新推荐文章于 2025-11-24 15:52:13 发布 · 538 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #服务器 #运维 #python

利用Ollama和OpenAI实现RAG的多查询检索

在本文中，我们将介绍如何使用Ollama和OpenAI的API，结合多查询检索方法来实现Retrieve-And-Generate（RAG）技术。多查询检索是一种查询转换示例，通过基于用户输入查询的不同视角生成多个查询，对于每个查询，检索一组相关文档，并在所有查询中取唯一集合以进行答案综合。在这个过程中，我们将使用本地小型LLM生成查询，以避免过度调用大型LLM API，并使用OpenAI进行更具挑战性的答案综合任务。

技术背景介绍

RAG方法是一种结合信息检索与文本生成的技术，它首先从大量文档中检索相关内容，然后将这些内容作为上下文来生成答案。Ollama和OpenAI作为两种强大的工具，可以共同协作完成这个任务。Ollama主要用于生成查询，而OpenAI用于综合答案。

核心原理解析

多查询检索（Multi-query Retriever）

多查询检索是一种改进的信息检索技术，通过生成多个不同视角的查询来获取更全面的相关文档。以下是其工作流程：

输入用户查询。
本地LLM（如Ollama）生成多个查询。
对每个查询执行文档检索，获得相关文档。
合并所有查询的检索结果，取唯一集合作为最终的相关文档。
使用这些文档作为上下文，由OpenAI的LLM生成最终的回答。

代码实现演示

环境配置

首先，我们需要下载Ollama并设置环境变量：

pip install -U langchain-cli

ollama pull zephyr

export OPENAI_API_KEY=your-openai-api-key

创建新的LangChain项目

langchain app new my-app --package rag-ollama-multi-query

或将该包添加到现有项目：

langchain app add rag-ollama-multi-query

在server.py文件中添加以下代码：

from rag_ollama_multi_query import chain as rag_ollama_multi_query_chain

add_routes(app, rag_ollama_multi_query_chain, path="/rag-ollama-multi-query")

启动服务器

langchain serve

这将在本地启动一个FastAPI应用程序，运行在 http://localhost:8000。

调用模板

from langserve.client import RemoteRunnable

runnable = RemoteRunnable("http://localhost:8000/rag-ollama-multi-query")

# 请求示例
query = "Explain the significance of quantum computing in modern technology."
response = runnable(query)
print(response)

应用场景分析

知识问答系统：可以通过多查询生成更全面的上下文，从而提高答案的准确性和全面性。
客户服务：在处理客户查询时，能够检索更多相关文档，提供更详尽的帮助。
研究辅助：为研究人员提供多视角的文献检索，支持更深入的研究。

实践建议

优化查询生成：本地LLM生成的查询质量直接影响检索效果，建议根据实际应用微调模型。
使用LangSmith：启用LangSmith可以帮助追踪和调试LangChain应用，提高系统可靠性。

export LANGCHAIN_TRACING_V2=true
export LANGCHAIN_API_KEY=your-langsmith-api-key
export LANGCHAIN_PROJECT=your-project

结束语

如果遇到问题欢迎在评论区交流。