【LangChain系列】第四篇：向量数据库与嵌入简介及实践

最新推荐文章于 2025-09-17 23:00:03 发布

原创

最新推荐文章于 2025-09-17 23:00:03 发布 · 1k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #数据库 #python #自然语言处理 #pytorch #AIGC #人工智能

在这篇博文中，我们将探讨向量存储和嵌入，它们是构建聊天机器人和对数据语料库执行语义搜索的最重要组件。

一、工作流

回想一下检索增强生成（RAG）的整个工作流程：

我们从文档开始，创建这些文档的较小拆分，为这些拆分生成嵌入，然后将它们存储在矢量存储中。向量存储是一个数据库，您可以在以后轻松查找类似的向量。

二、安装

设置适当的环境变量并加载我们将要处理的文档 - cs229_lectures：

import os
from langchain_openai import OpenAI
from dotenv import load_dotenv, find_dotenv
from langchain_community.document_loaders.pdf import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

_ = load_dotenv(find_dotenv())
client = OpenAI(
    api_key=os.getenv("OPENAI_API_KEY")
)
loaders = [
    PyPDFLoader("docs/cs229_lectures/MachineLearning-Lecture01.pdf"), # Duplicate documents on purpose - messy data
    PyPDFLoader("docs/cs229_lectures/MachineLearning-Lecture01.pdf"),
    PyPDFLoader("docs/cs229_lectures/MachineLearning-Lecture02.pdf"),
    PyPDFLoader("docs/cs229_lectures/MachineLearning-Lecture03.pdf"),
]
docs = []
for loader in loaders:
    docs.extend(loader.load())
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1500, chunk_overlap=150)
splits = text_splitter.split_documents(docs)
print("Length of splits: ", len(splits)) # Length of splits:  209

三、嵌入

现在，我们已经将文档拆分为更小的、语义上有意义的块，是时候为它们创建嵌入了。嵌入获取一段文本并创建该文本的数字表示，以便具有相似内容的文本在此数字空间中具有相似的向量。这使我们能够比较这些向量并找到相似的文本片段。

为了说明这一点，让我们尝试一些玩具示例：

from langchain_openai import OpenAIEmbeddings
import numpy as np

embedding = OpenAIEmbeddings()
sentence1 = "i like dogs"
sentence2 = "i like canines"
sentence3 = "the weather is ugly outside"
embedding1 = embedding.embed_query(sentence1)
embedding2 = embedding.embed_query(sentence2)
embedding3 = embedding.embed_query(sentence3)
print(np.dot(embedding1, embedding2))  # 0.9631227500523609
print(np.dot(embedding1, embedding3))  # 0.7703257495981695
print(np.dot(embedding2, embedding3))  # 0.7591627401108028

不出所料，关于宠物的前两句话有非常相似的嵌入（点积为 0.96），而关于天气的句子与两个与宠物相关的句子不太相似（点积为 0.77 和 0.76）。