探索文本嵌入模型：提升自然语言处理的利器

利用LangChain进行文本嵌入

最新推荐文章于 2025-11-30 21:49:37 发布

原创最新推荐文章于 2025-11-30 21:49:37 发布 · 436 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #easyui #人工智能 #python

引言

文本嵌入模型是自然语言处理（NLP）中的重要工具。通过将文本转换为向量表示，它们使得我们可以在向量空间中处理和分析文本。这在语义搜索、聚类和文本分类等任务中特别有用。本篇文章将介绍如何使用LangChain中的Embeddings类，利用不同的文本嵌入模型如OpenAI、Cohere和Hugging Face。

主要内容

什么是文本嵌入？

文本嵌入是将文本转换为一组向量的过程。这些向量捕捉文本的语义特征，使得相似文本在向量空间中更接近。这种技术在语义搜索、问答系统等应用中发挥着关键作用。

LangChain: `Embeddings`类

LangChain提供了一个Embeddings基类，它为多种文本嵌入模型提供了统一接口。主要方法有：

.embed_documents: 用于嵌入多个文档。
.embed_query: 用于嵌入单个查询。

这两个方法分别返回嵌入向量列表和单个向量。

安装和设置

以下介绍如何为不同的嵌入模型安装和初始化需要的工具包。

OpenAI

pip install langchain-openai

设置API键：

export OPENAI_API_KEY="你的API键"

初始化：

from langchain_openai import OpenAIEmbeddings

embeddings_model = OpenAIEmbeddings(api_key="你的API键")

Cohere

pip install langchain-cohere

设置API键：

export COHERE_API_KEY="你的API键"

初始化：

from langchain_cohere import CohereEmbeddings

embeddings_model = CohereEmbeddings(cohere_api_key="你的API键", model='embed-english-v3.0')

Hugging Face

pip install langchain-huggingface

初始化：

from langchain_huggingface import HuggingFaceEmbeddings

embeddings_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2")

代码示例

下面是一个完整的代码示例，展示如何使用OpenAI嵌入模型来嵌入文档：

from langchain_openai import OpenAIEmbeddings

# 使用API代理服务提高访问稳定性
embeddings_model = OpenAIEmbeddings(api_key="你的API键")

texts = [
    "Hi there!",
    "Oh, hello!",
    "What's your name?",
    "My friends call me World",
    "Hello World!"
]

embeddings = embeddings_model.embed_documents(texts)

print(len(embeddings), len(embeddings[0]))  # 输出: (5, 1536)