手把手系列 | 使用Milvus、Llama 3、Ollama、LangChain本地设置RAG应用

随着 Llama、Mistral、Gemma 等开源大语言模型(LLM)的出现,我们越来越能感受到 LLM 的力量,而本地运行基于 LLM 的 RAG 应用的需求越来越强烈。在将应用推至生产环境前,我们往往都需要先本地运行和测试。

因此,本文将介绍如何使用 Ollama、Llama 3 和 Milvus 向量数据库在本地部署一个检索增强生成(RAG)应用。

本文将使用到的软件和工具包括:

  • LangChain:用于创建代理,实现与数据的互动。
  • Ollama:在笔记本电脑中使用 LLM 的强大功能,简化本地操作。
  • Milvus:向量数据库用于高效存储和检索数据。
  • Llama 3:由 Meta 推出的大语言模型,Llama 系列的最新版本。

01.

问答与检索增强生成(RAG)

本文中,我们将使用 RAG 技术搭建一个高级的问答机器人。

02.

什么是 RAG?

RAG,即检索增强生成,是一种通过整合外部数据源来增强大语言模型(LLM)的技术。一个典型的 RAG 应用包括:

  • 索引流水线(Pipeline):用于从外部数据源中摄取数据并对其进行索引,随后加载、拆分并将数据存储在 Milvus 中。

  • 检索和生成:将用户查询转换为 Embedding 向量,然后从 Milvus 中检索相关数据形成上下文,然后 LLM 上下文生成响应。

文本将提供实用的操作指导,向您展示如何使用本地 LLM 构建 RAG 应用。欢迎初学者跟随本指南开始构建自己的问答机器人!

03.

前提条件

开始前,请先确保您已安装:

  • Docker 和 Docker-Compose
  • Milvus standalone
  • Ollama

04.

设置 RAG 应用

现在开始设置 RAG 应用 :

  • 通过命令 docker-compose up -d 启动 Milvus standalone 实例。该命令将以 Docker 分离(detached)模式启动您的 Milvus 实例,在后台安静运行。

  • 通过命令 ollama pull <模型名称> (例如 ollama pull llama3)获取 LLM 模型。点击此处查看可用模型列表。该命令将下载模型的默认版本(通常是最新且最小的版本)。

  • 通过命令 ollama run <模型名称> 要直接与模型进行交互。

05.

安装依赖

您还需要安装所需的依赖库。如果您直接使用 Github 上的代码,可以使用 Poetry,或者您也可以使用 pip 进行安装。

pip install langchain pymilvus ollama pypdf langchainhub langchain-community langchain-experimental

06.

搭建并运行 RAG 应用

如前文所述,RAG 应用中的重要组成部分就是数据索引。

  1. 使用 PyPDFLoader 导入 PDF 数据。
from langchain_community.document_loaders import PyPDFLoader
loader = PyPDFLoader(
"https://d18rn0p25nwr6d.cloudfront.net/CIK-0001813756/975b3e9b-268e-4798-a9e4-2a9a7c92dc10.pdf"
)
data = loader.load()
  1. 切分数据

使用 RecursiveCharacterTextSplitter 将已加载数据切分为切片。

from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)
all_splits = text_splitter.split_documents(data)
  1. 使用 Jina 的 Small English embeddings 将文本数据转换为 Embedding 向量并存储在 Milvus 中。
from langchain_community.embeddings.jina import JinaEmbeddings
from langchain.vectorstores.milvus import Milvus
embeddings = JinaEmbeddings(jina_api_key=JINA_AI_API_KEY, model_name="jina-embeddings-v2-small-en"
)
vector_store = Milvus.from_documents(documents=all_splits, embedding=embeddings)

\4. 使用 Ollama 轻松在本地加载 LLM(本示例中使用 Meta 的 Llama 3)。

from langchain_community.llms import Ollama
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
llm = Ollama(
model="llama3",
callback_manager=CallbackManager([StreamingStdOutCallbackHandler()]
),
stop=["<|eot_id|>"],
)

\5. 使用 Langchain 搭建问答机器人。构建问答链来处理和响应用户查询。

from langchain import hub
from langchain.chains import RetrievalQ
Aquery = input("\nQuery: ")
prompt = hub.pull("rlm/rag-prompt")   

qa_chain = RetrievalQA.from_chain_type(
    llm, retriever=vectorstore.as_retriever(), chain_type_kwargs={"prompt": prompt}
)
result = qa_chain({"query": query})
print(result)

07.

运行 RAG 应用

通过命令 python rag_ollama.py 运行 RAG 应用。

以下为回答示例:

Query: What is this document about?
The document appears to be a 104 Cover Page Interactive Data File for an SEC filing. It contains information about the company's financial statements and certifications.{'query': 'What is this document about?', 'result': "The document appears to be a 104 Cover Page Interactive Data File for an SEC filing. It contains information about the company's financial statements and certifications."}

我们已成功使用 Ollama、Llama 3、Langchain 和 Milvus 搭建了一个复杂的问答机器人。我们搭建的不应用不仅可以高效处理大规模数据集,还能够在本地针对用户问题进行回答。

欢迎了解 Milvus 及其 GitHub 代码仓库,并通过微信群交流分享 Milvus 使用经验!

相关链接:

  • Milvus standalone:

    https://milvus.io/docs/install_standalone-docker-compose.md

  • Ollama 可用模型列表:

    https://ollama.com/library

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

<think>我们正在构建一个基于PDF的RAG应用使用LangChainMilvus和BGE-M3嵌入模型。以下是步骤和示例代码:###步骤概述1.**环境准备**:安装必要的库。2.**加载PDF文档**:使用LangChain的文档加载器读取PDF文件。3.**文档切分**:将文档分割成适合处理的块。4.**嵌入模型**:使用BGE-M3模型生成文本嵌入(稠密向量和稀疏向量)。5.**向量存储**:将嵌入向量存入Milvus向量数据库。6.**检索与生成**:构建检索链,根据用户查询检索相关文档片段,并生成回答。###详细步骤与代码示例####1.环境准备安装所需库:```bashpipinstalllangchainlangchain-communitypymilvusunstructuredpython-dotenvtransformerstorch```####2.加载PDF文档使用LangChain的`PyPDFLoader`加载PDF文件:```pythonfromlangchain_community.document_loadersimportPyPDFLoaderloader=PyPDFLoader("example.pdf")documents=loader.load()```####3.文档切分使用文本分割器将文档分割成较小的块:```pythonfromlangchain.text_splitterimportRecursiveCharacterTextSplittertext_splitter=RecursiveCharacterTextSplitter(chunk_size=1000,chunk_overlap=200,)docs=text_splitter.split_documents(documents)```####4.嵌入模型我们使用BGE-M3嵌入模型。注意:BGE-M3支持生成稠密向量和稀疏向量。Milvus支持混合检索(稠密+稀疏),但需要Milvus2.4以上版本。首先,我们需要一个自定义的嵌入类来使用BGE-M3模型:```pythonfromlangchain.embeddingsimportEmbeddingsfromtypingimportListimporttorchfromtransformersimportAutoModel,AutoTokenizerclassBGEM3Embeddings(Embeddings):def__init__(self,model_name="BAAI/bge-m3",device="cuda"iftorch.cuda.is_available()else"cpu"):self.tokenizer=AutoTokenizer.from_pretrained(model_name)self.model=AutoModel.from_pretrained(model_name).to(device)self.device=devicedefembed_documents(self,texts:List[str])->List[List[float]]:#生成稠密向量inputs=self.tokenizer(texts,padding=True,truncation=True,return_tensors="pt",max_length=8192).to(self.device)withtorch.no_grad():outputs=self.model(**inputs)#使用[CLS]token的表示作为文档向量dense_embeddings=outputs.last_hidden_state[:,0].cpu().numpy().tolist()returndense_embeddingsdefembed_query(self,text:str)->List[float]:returnself.embed_documents([text])[0]```####5.向量存储初始化Milvus向量数据库,并存储嵌入向量。首先,确保Milvus服务正在运行。然后,使用LangChainMilvus集成:```pythonfromlangchain.vectorstoresimportMilvus#初始化嵌入模型embeddings=BGEM3Embeddings()#连接Milvusvector_db=Milvus.from_documents(documents=docs,embedding=embeddings,connection_args={"host":"localhost","port":"19530"},collection_name="pdf_rag_collection",auto_id=True)```####6.检索与生成构建一个检索问答链,使用检索到的文档片段生成答案。```pythonfromlangchain.chainsimportRetrievalQAfromlangchain.llmsimportOpenAI#这里可以使用其他LLM,比如ChatGLM#假设使用OpenAI,但也可以替换为本地模型如ChatGLMimportosos.environ["OPENAI_API_KEY"]="your-openai-api-key"llm=OpenAI(temperature=0)#创建检索链qa_chain=RetrievalQA.from_chain_type(llm=llm,chain_type="stuff",retriever=vector_db.as_retriever(),return_source_documents=True)#进行提问query="文档中主要讨论了哪些内容?"result=qa_chain({"query":query})print("答案:",result["result"])print("来源文档:",result["source_documents"])```###注意事项1.**BGE-M3模型**:它支持长文本(最多8192个token),适合处理文档块。2.**Milvus配置**:确保Milvus服务运行,并注意集合(collection)的配置(如索引类型)以支持混合检索(如果使用稀疏向量)。上述示例仅使用了稠密向量。3.**本地LLM**:如果需要使用本地大模型(如ChatGLM),只需替换`llm`部分。例如,使用`langchain.llms`中的`ChatGLM`类(如果有)或自定义LLM封装。###优化方向-**混合检索**:BGE-M3也生成稀疏向量,可以改进存储和检索部分以同时利用稠密和稀疏向量,提高召回率。-**多模态**:BGE-M3是多模态嵌入模型,但本示例仅处理文本。如需处理图像,需要扩展。###引用以上实现参考了LangChainMilvus的官方文档,以及BGE-M3的相关资料[^4]。§§相关问题§§1.如何优化基于PDF的RAG应用的检索效果?2.在Milvus中如何同时存储和检索稠密向量和稀疏向量?3.如何将本地大模型(如ChatGLM)集成到LangChainRAG应用中?</think>### 使用LangChain + Milvus + BGE-M3构建基于PDF的RAG应用教程 #### 1. 环境准备 ```bash # 安装核心依赖 pip install langchain langchain-community pymilvus unstructured python-dotenv transformers ``` #### 2. 初始化向量数据库 (Milvus) ```java // MilvusConfig.java (Spring Boot配置) import io.milvus.v2.client.ConnectConfig; import io.milvus.v2.client.MilvusClientV2; import org.springframework.context.annotation.Bean; import org.springframework.context.annotation.Configuration; @Configuration public class MilvusConfig { @Bean public MilvusClientV2 milvusClient() { return new MilvusClientV2( ConnectConfig.builder() .uri("http://localhost:19530") // Milvus地址 .build() ); } } ``` #### 3. PDF处理与向量化 ```python # PDF加载与切分 from langchain_community.document_loaders import PyPDFLoader from langchain.text_splitter import RecursiveCharacterTextSplitter loader = PyPDFLoader("path/to/document.pdf") documents = loader.load() text_splitter = RecursiveCharacterTextSplitter( chunk_size=1000, chunk_overlap=200 ) docs = text_splitter.split_documents(documents) # BGE-M3嵌入模型 from langchain.embeddings import HuggingFaceBgeEmbeddings model_name = "BAAI/bge-m3" encode_kwargs = {&#39;normalize_embeddings&#39;: True} embeddings = HuggingFaceBgeEmbeddings( model_name=model_name, encode_kwargs=encode_kwargs ) ``` #### 4. 向量存储与检索 ```python # 存储向量到Milvus from langchain.vectorstores import Milvus vector_db = Milvus.from_documents( documents=docs, embedding=embeddings, connection_args={"host": "localhost", "port": "19530"}, collection_name="pdf_rag", auto_id=True ) # 创建检索器 retriever = vector_db.as_retriever( search_type="mmr", # 最大边际相关性 search_kwargs={"k": 5} ) ``` #### 5. RAG问答链实现 ```python # 构建问答链 from langchain.chains import RetrievalQA from langchain_community.llms import ChatGLM llm = ChatGLM(endpoint_url="http://localhost:8000") # 本地ChatGLM服务 qa_chain = RetrievalQA.from_chain_type( llm=llm, chain_type="stuff", retriever=retriever, return_source_documents=True ) # 执行查询 query = "文档中提到的关键技术是什么?" result = qa_chain({"query": query}) print(f"答案: {result[&#39;result&#39;]}") print(f"来源: {result[&#39;source_documents&#39;][0].page_content[:200]}...") ``` #### 6. 部署优化建议 1. **文档预处理**: ```python # 添加PDF元数据处理 loader = PyPDFLoader("file.pdf", extract_images=True) # 启用图像提取 ``` 2. **混合检索优化**: ```python # 同时使用稠密和稀疏向量 retriever = vector_db.as_retriever( search_type="hybrid", search_kwargs={ "k": 10, "dense_weight": 0.7, "sparse_weight": 0.3 } ) ``` 3. **性能监控**: ```python # 启用检索日志 import logging logging.basicConfig() logging.getLogger("langchain.retrievers").setLevel(logging.INFO) ``` ### 关键组件说明 | 组件 | 作用 | 推荐配置 | |------|------|----------| | **BGE-M3** | 多语言文本嵌入 | `normalize_embeddings=True` | | **Milvus** | 向量存储检索 | 启用混合索引(HNSW + BM25) | | **LangChain** | 流程编排 | 使用`RecursiveCharacterSplitter`处理长文本 | > 注意:BGE-M3支持**8192 Token长文本**和**多语言处理**,特别适合PDF文档的复杂内容[^4]。部署时建议使用GPU加速嵌入计算。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值