LangChain入门进阶：文本嵌入组件全方位解析，建议收藏！

一、文本嵌入模型的核心原理

文本嵌入模型的核心能力，是把一段文本转化为一组具有语义含义的高维向量（即由多个数字组成的数组）。这个转换过程被称为文本嵌入，其核心逻辑是通过模型对文本的语义理解，从多个维度提取特征并量化为向量。

这些向量的关键价值在于：语义相近的文本，其向量在高维空间中的距离也更近。基于这个特性，实际应用中会先将文本向量存储到向量数据库；当用户提出问题时，先将问题转为向量，再通过向量数据库的相似性搜索，快速找到与问题语义最匹配的文本片段。

文本嵌入的完整流程如下：

从应用场景来看，文本嵌入是实现RAG（检索增强生成）、语义搜索、文本聚类等功能的基础。例如在智能客服系统中，通过文本嵌入可以快速从海量知识库中定位与用户问题相关的答案片段，再结合LLM生成精准回复。

二、LangChain中Embeddings类的应用

2.1 Embeddings类的核心设计

在LangChain框架中，Embeddings类是文本嵌入功能的标准化接口，它为不同供应商的嵌入模型（如OpenAI、Hugging Face、百度文心一言等）提供了统一的调用方式。无论使用哪种模型，开发者都可以通过一致的方法完成文本向量化，降低了跨模型切换的成本。

Embeddings类包含两个核心方法：

embed_documents：接收多个文本片段（如文档段落），返回对应的向量列表，适用于批量处理文档。
embed_query：接收单个查询文本（如用户问题），返回对应的向量，专门用于处理检索场景中的查询内容。

将文档与查询的嵌入方法分离，是因为部分模型供应商针对“批量文档处理”和“单条查询处理”优化了不同的算法（例如查询嵌入可能会更侧重关键词权重），这种设计能更好地适配各类模型的特性。

2.2 实战：OpenAIEmbeddings的使用

以OpenAI的OpenAIEmbeddings为例，我们来实际演示文本嵌入的过程。

步骤1：环境准备

首先安装相关依赖包：

pip install langchain-openai==0.1.8

为了便于环境复刻，建议生成依赖快照：

pip freeze > requirements.txt

步骤2：配置API密钥

在项目根目录创建.env文件，填入OpenAI的API配置：

# OpenAI配置
OPENAI_API_KEY=sk-************************
OPENAI_API_BASE=https://api.***  # 若使用代理，需配置对应地址

步骤3：代码实现

下面的示例将使用text-embedding-3-small模型（向量维度1536，最大支持8192 token），分别对关于“苏轼”的文档和查询进行嵌入：

import dotenv
from langchain_openai import OpenAIEmbeddings

# 加载环境变量
dotenv.load_dotenv()

# 待嵌入的文档文本
texts = [
    "北宋著名文学家、书法家、画家，历史治水名人。与父苏洵、弟苏辙三人并称“三苏”。苏轼是北宋中期文坛领袖，在诗、词、散文、书、画等方面取得很高成就。",
    "苏轼，（1037年1月8日-1101年8月24日）字子瞻、和仲，号铁冠道人、东坡居士，世称苏东坡、苏仙，汉族，眉州眉山（四川省眉山市）人",
    "与辛弃疾同是豪放派代表，并称“苏辛”；散文著述宏富，豪放自如，与欧阳修并称“欧苏”，为“唐宋八大家”之一。苏轼善书，“宋四家”之一；擅长文人画，尤擅墨竹、怪石、枯木等。与韩愈、柳宗元和欧阳修合称“千古文章四大家”。",
]

# 1. 初始化嵌入模型对象
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# 2. 对文档进行嵌入
doc_vectors = embeddings.embed_documents(texts)
print("文档向量（部分）：")
for vec in doc_vectors:
    print(vec[:5])  # 仅展示前5个维度

# 3. 对查询进行嵌入
query = "谁是苏东坡？"
query_vec = embeddings.embed_query(query)
print("\n查询向量（部分）：", query_vec[:5])

执行结果

文档向量（部分）：
[0.058245643973350525, -0.011029906570911407, 0.008078922517597675, -0.006782424636185169, ...]
[-0.011653225868940353, -0.002974639181047678, -0.01643718034029007, 0.06390874087810516, ...]
[0.028559477999806404, -0.015319629572331905, -0.010216659866273403, 0.014526311308145523, ...]

查询向量（部分）： [-0.015014365315437317, -0.044838666915893555, -0.030710170045495033, 0.034821517765522, ...]

从结果可以看出，每个文本都被转化为了高维向量，且语义相关的文本（如关于“苏轼”的文档和“谁是苏东坡？”的查询）的向量会呈现更高的相似度。

三、CacheBackedEmbeddings：嵌入结果的缓存优化

在实际应用中，若多次对相同文本进行嵌入，重复调用模型会导致时间成本增加（尤其批量处理时）和API费用上升。为此，LangChain提供了CacheBackedEmbeddings组件，通过缓存已生成的向量，避免重复计算。

3.1 缓存原理与参数说明

CacheBackedEmbeddings通过from_bytes_store方法创建实例，核心参数包括：

underlying_embedder：实际执行嵌入的基础模型（如OpenAIEmbeddings）。
document_embedding_cache：用于存储文档向量的ByteStore（字节存储接口），支持本地文件（LocalFileStore）、Redis（RedisStore）等。
query_embedding_cache：查询向量的缓存存储，可与文档缓存共用或单独配置。
namespace：缓存的命名空间（建议设为模型名称），避免不同模型的缓存冲突。
batch_size：缓存未命中时，批量处理文档的数量。

3.2 实战：缓存功能的实现

下面的示例对比了首次嵌入与缓存命中时的执行效率，使用本地文件存储作为缓存介质：

import time
import dotenv
from langchain.embeddings import CacheBackedEmbeddings
from langchain.storage import LocalFileStore
from langchain_openai import OpenAIEmbeddings

dotenv.load_dotenv()

# 1. 初始化基础嵌入模型
base_embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# 2. 配置缓存存储：文档和查询分别使用不同文件夹
doc_cache = LocalFileStore("./doc_embedding_cache/")
query_cache = LocalFileStore("./query_embedding_cache/")

# 3. 创建带缓存的嵌入对象
cached_embeddings = CacheBackedEmbeddings.from_bytes_store(
    underlying_embeddings=base_embeddings,
    document_embedding_cache=doc_cache,
    query_embedding_cache=query_cache,
    namespace=base_embeddings.model  # 命名空间设为模型名，避免冲突
)

# 待处理的文本（与前文相同）
texts = [
    "北宋著名文学家、书法家、画家，历史治水名人。与父苏洵、弟苏辙三人并称“三苏”。",
    "苏轼，（1037年1月8日-1101年8月24日）字子瞻、和仲，号铁冠道人、东坡居士...",
    "与辛弃疾同是豪放派代表，并称“苏辛”；散文著述宏富...",
]

# 4. 文档嵌入：首次执行vs缓存命中
start = time.time()
doc_vectors = cached_embeddings.embed_documents(texts)
print(f"首次文档嵌入耗时：{time.time() - start:.4f}秒")

start = time.time()
doc_vectors = cached_embeddings.embed_documents(texts)  # 第二次执行（命中缓存）
print(f"缓存文档嵌入耗时：{time.time() - start:.4f}秒")

# 5. 查询嵌入：首次执行vs缓存命中
query = "谁是苏东坡？"
start = time.time()
q_vec = cached_embeddings.embed_query(query)
print(f"首次查询嵌入耗时：{time.time() - start:.4f}秒")

start = time.time()
q_vec = cached_embeddings.embed_query(query)  # 第二次执行（命中缓存）
print(f"缓存查询嵌入耗时：{time.time() - start:.4f}秒")

执行结果

首次文档嵌入耗时：52.9221秒
缓存文档嵌入耗时：0.0036秒
首次查询嵌入耗时：13.4554秒
缓存查询嵌入耗时：0.0012秒

执行后，项目目录会生成doc_embedding_cache和query_embedding_cache文件夹，存储向量的二进制数据。从耗时对比可见，缓存能将嵌入效率提升上万倍，尤其适合需要反复处理相同文本的场景（如固定知识库的多次检索）。

3.3 缓存存储的选择建议

本地文件存储（LocalFileStore）：适合开发环境或小规模应用，无需额外服务，但不支持分布式部署。
Redis存储（RedisStore）：适合生产环境，支持分布式缓存和高并发访问，需部署Redis服务。
云存储（如S3Store）：适合大规模数据和云原生架构，可结合对象存储服务实现弹性扩展。

四、总结与扩展

本文系统讲解了LangChain中文本嵌入组件的核心知识：从文本嵌入模型的语义向量转换原理，到Embeddings类的标准化接口设计，再到OpenAIEmbeddings的实战应用，最后通过CacheBackedEmbeddings实现了效率优化。

文本嵌入作为连接文本与向量数据库的桥梁，是构建高效RAG系统的关键环节。在实际开发中，除了OpenAI的模型，还可以尝试开源模型（如Hugging Face的all-MiniLM-L6-v2）通过HuggingFaceEmbeddings调用，平衡成本与效果。

此外，向量的相似度计算方法（如余弦相似度、欧氏距离）也会影响检索结果，后续可结合具体场景选择合适的算法，进一步提升系统性能。

五、如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】