利用博客文章，使用Langchain搭建大模型知识问答系统

原创已于 2025-06-16 23:19:22 修改 · 621 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #llama

于 2025-05-08 09:15:00 首次发布

ollama 同时被 3 个专栏收录

3 篇文章

订阅专栏

大模型

2 篇文章

订阅专栏

Python

1 篇文章

订阅专栏

注：如有需要开发大模型应用，网站等，后台私信我。

1、简介

平时我们会记录一些技术笔记或者分享一些技术博客，如何在我们积累的记录中快速查找相关解决方法，下面我将利用Langchain搭建一个基于博客文章的问答系统。

使用技术：Python、Langchain、Ollama、HuggingFaceEmbeddings、Chroma 等。

2、创建知识库

本系统是基于网页内容作为知识进行分割的，有以下几个步骤：

1）、首先使用 langchain_community.document_loaders 中的 WebBaseLoader 获取 documents；

2）、然后使用 langchain.text_splitter 中的RecursiveCharacterTextSplitter 对获取的文档进行切割，具体切割方式如下：

# 初始化文本分割器
self.text_splitter = RecursiveCharacterTextSplitter(
       chunk_size=200,   # 指定每个文本块切割长度
       chunk_overlap=20, # 文本块切割重复长度
       separators=["\n\n", "\n", ".", "!", "?", ",", " ", ""]
)

3）、将切割的文本块进行 embedding，使用 langchain_huggingface.embeddings 中的 HuggingFaceEmbeddings：

# 使用BAAI/bge-small-zh模型
 model_name = "BAAI/bge-small-zh"
 snapshot_download(
             repo_id=model_name,
             cache_dir=cache_dir,
             local_files_only=False
 )              
# 初始化嵌入模型
 self.embeddings = HuggingFaceEmbeddings(
      model_name=model_name,
      model_kwargs={
              'device': 'cpu',
              'trust_remote_code': True
             },
            cache_folder=cache_dir,
            encode_kwargs={'normalize_embeddings': True}
         )

4）、将 embedding 后的文本块向量存储到向量库 Chroma中：

self.vectorstore = Chroma.from_documents(
     documents=all_splits,
     embedding=self.embeddings,
     persist_directory=self.persist_directory  # 向量持久化路径，如果设定了，后面加载就可以从这个路径中获取
)

3、使用Ollama平台运行大模型

Ollama是通过docker搭建的，可以参考五分钟使用ollama部署本地大模型_ollama 运行本地模型-优快云博客文章进行搭建。搭建完成之后，需要在Ollama中拉取使用的大模型，本文使用llama3.2为例：

# 1、启动 Ollama 容器，进入
docker exec -it ollama bash
# 2、拉取大模型
ollama pull llama3.2

4、指定使用 Ollama 平台和大模型

from langchain_ollama.llms import OllamaLLM
# 初始化OllamaLLM模型
llm = OllamaLLM(
	model="llama3.2",    # Ollama中的大模型
	base_url="http://192.168.0.66:11434",  # Ollama服务地址
	temperature=0.7,  # 控制输出的随机性
	num_ctx=4096,     # 上下文窗口大小
	num_thread=4,     # 使用的线程数
	timeout=120,      # 请求超时时间（秒）
	streaming=True    # 启用流式输出
)