利用LangChain实现RAG

原创

已于 2023-11-13 18:08:16 修改 · 7k 阅读

39 ·

CC 4.0 BY-SA版权

文章标签：

#langchain

于 2023-11-13 18:04:32 首次发布

本文详细介绍了RAG（Retrieval-AugmentedGeneration）技术，包括使用DocumentLoader加载不同类型文档，TextSplitter进行文本切割，Embeddingmodel创建向量，以及通过检索相关上下文获取最终答案的过程。

检索增强生成（Retrieval-Augmented Generation, RAG）结合了搜寻检索生成能力和自然语言处理架构，透过这个架构，模型可以从外部知识库搜寻相关信息，然后使用这些信息来生成response。要完成检索增强生成主要包含四个步骤：

1.TextLoad：

2.TextSplit:

3.Generate and save Embedding:

4.Search relavant context and get final anwser.

DocumentLoader

Langchain的document_loader目录下提供多种Load不同类型文档的方法，文档大类型总体可以分为结构化文档和非结构化文档。不同Loader的API信息如下图所示，更多Loader相关的API信息可查看这里。

下面是Load csv格式文件数据的代码和结果，import CSVLoader，print load的结果。可以看到，结果是一个List，List中每一个item是一个Document对象，包含page_content 和metadata数据，metadata包含source和row两个信息。

除了Load csv格式文件，还可以load pdf文件，import PyPDFLoader，load后的数据也是一个List，list中的每个value是Document对象，具体结果如下所示：

在Load PDF格式文档的时候，可以选择多种Loader，例如UnstructuredPDFLoader，MathpixPDFLoader，OnlinePDFLoader，PyPDFium2Loader，PDFMinerLoader，PyMuPDFLoader,PyPDFDirectoryLoader，PDFPlumberLoader。另外，在load PDF文档时还可以通过参数控制是否需要解析图片上的文字信息等。总之，PDF的loader是非常成熟和丰富的。

除了load PDF格式文档，当然还支持txt格式，markdown格式，html格式等文档，在load的时候可以通过参数选择是否显示load进度，是否使用多线程进行load，多线程load可提升load效率。代码如下所示：

loader = DirectoryLoader('testdata', glob="**/*.txt",

show_progress=True, use_multithreading=True)

docs = loader.load()

print(docs)

TextSplitter

langchain提供了多种TextSplitter，具体如下图所示，这些spliter中比较常用的有TextSplitter，CharacterText

最低0.47元/天解锁文章