语义搜索与检索增强生成(RAG)系统构建：从0到1掌握企业级知识问答方案-优快云博客

语义搜索与检索增强生成(RAG)系统构建：从0到1掌握企业级知识问答方案

【免费下载链接】Hands-On-Large-Language-Models Official code repo for the O'Reilly Book - "Hands-On Large Language Models" 项目地址: https://gitcode.com/GitHub_Trending/ha/Hands-On-Large-Language-Models

你是否还在为传统搜索引擎无法理解上下文而烦恼？是否希望AI回答时能精准引用企业内部文档？本文将通过Hands-On Large Language Models项目中的实践案例，带你从零构建一个能理解语义、实时调用知识库的智能问答系统。读完本文，你将掌握文本分块、向量嵌入、检索引擎搭建和LLM集成的全流程技能。

为什么传统搜索会失效？

想象这样一个场景：当用户提问"《星际穿越》的科学准确性如何？"时，传统关键词搜索可能只会匹配包含"科学"和"准确性"的文档片段，而忽略掉如"天体物理学家Kip Thorne担任科学顾问"这样的关键信息。这就是语义鸿沟——人类语言的丰富含义远非关键词组合所能覆盖。

项目中的Chapter 8 - Semantic Search.ipynb通过电影《星际穿越》的案例生动展示了这一点：当使用"how precise was the science"作为查询时，语义搜索能准确返回"天文学家称赞其科学准确性"的相关段落，而传统关键词搜索则可能错失关键信息。

语义搜索的核心原理

语义搜索(Semantic Search)的革命性在于它能将文本转换为计算机可理解的数学向量(Vector)，通过计算向量间的相似度来判断语义关联。这个过程主要分为三个步骤：

1. 文本分块(Chunking)

长篇文档直接处理会导致信息过载，需要先分割成有意义的小片段。项目中采用句子级分割策略：

# 分割文本为句子列表
texts = text.split('.')
# 清理空白字符
texts = [t.strip(' \n') for t in texts]

这种方法确保每个文本块保持完整语义，同时控制长度在模型处理范围内。完整代码实现展示了如何处理电影简介文本，将其分解为15个独立句子块。

2. 向量嵌入(Embedding)

文本分块后，需要通过嵌入模型将其转换为高维向量。项目中使用Cohere API生成4096维向量：

# 获取文本嵌入
response = co.embed(
  texts=texts,
  input_type="search_document",
).embeddings
embeds = np.array(response)
print(embeds.shape)  # 输出 (15, 4096)

这些向量就像文本的"数字指纹"，语义相似的文本会产生相近的向量。嵌入代码实现展示了如何将《星际穿越》的文本块转换为可计算的向量表示。

3. 构建检索引擎

有了向量后，需要高效的检索系统来快速找到相似文本。项目中使用FAISS(Facebook AI Similarity Search)构建索引：

import faiss
# 初始化FAISS索引
dim = embeds.shape[1]
index = faiss.IndexFlatL2(dim)
# 添加向量到索引
index.add(np.float32(embeds))

FAISS能在毫秒级内完成百万级向量的相似度搜索，是构建语义搜索引擎的核心组件。索引构建代码演示了如何将电影文本向量存入索引并执行检索。

检索增强生成(RAG)：让AI拥有"知识库"

语义搜索解决了"找得到"的问题，而RAG则进一步解决"答得对"的问题。它将检索到的相关文档片段作为上下文传递给LLM，使AI能够基于权威来源生成回答。

RAG系统架构

完整的RAG系统包含五大模块：

文档加载器：支持PDF、Word等多种格式
文本处理器：分块、清洗和元数据提取
向量数据库：存储和检索文本向量
检索器：精确匹配+语义匹配的混合检索
生成器：接收上下文并生成自然语言回答

项目中的高级文本生成技术章节提供了LLM集成的最佳实践。

混合检索策略实现

为兼顾召回率和精确率，项目采用BM25(关键词匹配)+FAISS(语义匹配)的混合检索方案：

from rank_bm25 import BM25Okapi

# BM25关键词检索
tokenized_corpus = [bm25_tokenizer(passage) for passage in texts]
bm25 = BM25Okapi(tokenized_corpus)

# 融合检索结果
def hybrid_search(query):
    # 语义检索结果
    semantic_results = search(query)
    # 关键词检索结果
    keyword_results = keyword_search(query)
    # 结果融合
    return merge_results(semantic_results, keyword_results)

这种组合策略能有效避免单纯语义搜索可能带来的"假相关"问题。混合检索实现展示了如何实现两种检索方式的加权融合。

从零搭建企业级RAG系统

现在让我们通过项目提供的工具和代码，一步步构建完整的RAG系统。

环境准备

首先安装必要的依赖包：

pip install langchain==0.2.5 faiss-cpu==1.8.0 cohere==5.5.8 sentence-transformers==3.0.1

项目根目录下的requirements.txt和requirements_min.txt提供了详细的依赖清单，可根据实际需求选择安装。

核心组件实现

1. 文本分块优化

除了基础的句子分割，还可以采用滑动窗口分块策略保留上下文：

def sliding_window_chunk(text, window_size=200, step=100):
    chunks = []
    for i in range(0, len(text), step):
        chunk = text[i:i+window_size]
        chunks.append(chunk)
    return chunks

这种方法特别适合处理技术文档和长段落。分块策略对比部分讨论了不同分块方法的适用场景。

2. 本地向量模型部署

对于数据隐私要求高的场景，可以使用本地部署的嵌入模型替代API：

from sentence_transformers import SentenceTransformer
# 加载本地嵌入模型
model = SentenceTransformer('all-MiniLM-L6-v2')
# 生成向量
embeddings = model.encode(texts)

项目的量化技术章节介绍了如何通过模型量化减小内存占用，提高推理速度。

3. 多模态检索扩展

RAG系统不仅能处理文本，还可以扩展到图像检索。项目中的多模态大语言模型章节展示了如何构建能同时检索文本和图像的智能系统。

生产环境部署注意事项

将RAG系统从原型推向生产，需要解决以下关键问题：

性能优化

向量索引优化：使用IVF、HNSW等近似索引替代精确索引
缓存机制：对高频查询结果进行缓存
异步处理：采用Celery等工具处理批量嵌入任务

监控与维护

检索质量监控：定期评估MRR、NDCG等指标
文档更新机制：实现增量更新而非全量重建
错误追踪：记录检索失败案例用于模型优化

项目的代理系统章节提供了构建自动化维护机制的高级指南。

总结与下一步

通过本文学习，你已掌握构建企业级RAG系统的核心技术：

使用文本分块技术处理非结构化数据
基于FAISS向量数据库构建语义检索引擎
融合BM25关键词检索提升检索准确性
集成LLM实现基于知识库的智能问答

下一步建议：

尝试量化技术减小模型体积
探索混合专家模型提升推理效率
研究推理增强技术优化复杂问题处理能力

收藏本文，关注项目更新，下一篇我们将深入探讨多模态RAG系统的构建方法！

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考