向量检索增强chatglm生成_recursivecharactertextsplitter-优快云博客

文章介绍了如何构建向量检索工具，包括内容存储（数据加载、分块、嵌入）、检索方法（距离度量、多角度查询）以及检索后处理。通过LLM模型和向量数据库，实现从问题到答案的生成，涉及文档链的不同处理策略，如Stuff、Refine和MapReduce。最后讨论了如何将这些模块封装成Tool供Agent使用。

背景：

基于chatglm构建agnet：chatglm实现Agent控制 - 知乎

前面一篇文章已经介绍了如何去搭建LLM Agent控制系统，也简单介绍了如何去构建Toolset和构建Action。但是在上篇文章中Toolset其实是基于搜索api构建的，从这篇文章开始后面几篇文章会围绕具体的工具展开介绍如何搭建专业工具。这篇文章介绍的是如何构建临时文件填充工具：向量检索。

向量检索有两大部分：内容存储部分、内容检索部分。

开始细节讲解之前，先来一个整体例子介绍：何谓向量化：

## 
# 导入分割文本的工具，并把上面给出的解释分成文档块

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 100,
    chunk_overlap  = 20,
)
explanation = '''Autoencoder（自动编码器）是一种非常有趣的数学模型，就像一个魔法盒子，可以帮助我们理解数据是如何在空间中转换和变换的。

这个魔法盒子里有两个部分：编码器（Encoder）和解码器（Decoder）。

首先，让我们来看一下编码器。它是一个把输入数据（比如一张图片、一段视频或者一篇文章）变得更容易看懂的神奇机器。它将输入数据压缩成一个更小的空间，这样原始数据中的信息就会更加强烈地保留下来。

接下来是解码器。它是一个把编码器压缩后的结果恢复成原始数据的神奇机器。它将编码器得到的结果还原成输入数据（也就是我们刚刚压缩过的数据），这样解码器就得到了和原始数据完全一样的输出。

那么，为什么说Autoencoder能够提高数据处理的效率呢？

因为通过有效的数据压缩和恢复，Autoencoder能够减少数据量，从而更快地处理和分析数据。这就好像把一个大箱子变成了一个更小的箱子，虽然里面东西的总量没有变，但是可以更轻松地拿取和移动箱子。

所以，Autoencoder是一个非常有趣的数学模型，它可以帮助我们更好地理解数据在空间中的转换和变换。
'''

texts = text_splitter.create_documents([explanation])

切割完后数据如下：

对切割完的数据embedding：

from langchain.embeddings import HuggingFaceEmbeddings
       
model_name = "nghuyong/ernie-3.0-xbase-zh"
#model_name = "nghuyong/ernie-3.0-nano-zh"
#model_name = "shibing624/text2vec-base-chinese"
#model_name = "GanymedeNil/text2vec-large-chinese"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': False}
hf = HuggingFaceEmbeddings(
   model_name=model_name,
   model_kwargs=model_kwargs,
   encode_kwargs=encode_kwargs,
   cache_folder = "/root/autodl-tmp/ChatGLM2-6B/llm_model"
)
query_result = hf.embed_query(texts[0].page_content)
print(query_result)

embbding后的数据如下：

技术点：

数据加载

使用文档加载器从文档源加载数据。文档是一段文本和关联的元数据。例如，有一些文档加载器可以加载简单的 .txt 文件、加载任何网页的文本内容，甚至加载 YouTube 视频的脚本。

文档加载器公开了一个“加载”方法，用于从配置的源将数据加载为文档。它们还可以选择实现“延迟加载”，以便将数据延迟加载到内存中。

数据类型

txt

from langchain.document_loaders import TextLoader

loader = TextLoader("./index.md")
loader.load()

pdf

#pip install pypdf
from langchain.document_loaders import PyPDFLoader

loader = PyPDFLoader("example_data/layout-parser-paper.pdf")
pages = loader.load_and_split()
pages[0]

数据分块

RecursiveCharacterTextSplitter：对于一般文本，推荐使用此文本分割器。它由字符列表参数化。它尝试按顺序分割它们，直到块足够小。默认列表为 ["\n\n", "\n", " ", ""]。这样做的效果是尝试将所有段落（然后是句子，然后是单词）尽可能长时间地放在一起，因为这些通常看起来是语义相关性最强的文本片段。

文本如何分割：按字符列表

如何测量块大小：按字符数

实现代码：

from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(
    # Set a really small chunk size, just to show.
    chunk_size = 100,
    chunk_overlap  = 20,
    length_function = len,
)
texts = text_splitter.create_documents([explanation])
print(texts[0])

CharacterTextSplitter：是最简单的方法。这基于字符（默认为“\n\n”）进行分割，并按字符数测量块长度。

文本如何分割：按单个字符

如何测量块大小：按字符数