langchain 认识embeddings （用于生成向量）及阿里云deepseek如何embedding

原创

已于 2025-03-18 12:29:45 修改 · 1.3k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#langchain

于 2025-03-18 10:32:15 首次发布

1. OpenAIEmbeddings vs. ChatOpenAI

组件	作用	输入	输出	主要用途
OpenAIEmbeddings	生成文本的向量表示（embedding）	文本字符串	数字向量（list of floats）	用于向量搜索、RAG、语义搜索
`ChatOpenAI` / `init_chat_model`	基于 OpenAI LLM 进行文本生成	问题或 Prompt	生成的文本（字符串）	问答、聊天机器人、文本摘要、代码生成

from langchain_openai import OpenAIEmbeddings  

embeddings = OpenAIEmbeddings(model="text-embedding-3-large")

这里的 text-embedding-3-large 是 OpenAI 最新的嵌入模型，生成高维度的文本向量

以下例子把文本转成1536个维度的向量

text = "LangChain is a powerful framework f

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bigcarp

关注关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【DeepSeek R1构建本地RAG知识库】向量(Embedding)模型选型

少说，多做

02-12

4362

检索增强生成（RAG）是生成式 AI 中的一类应用，支持使用自己的数据来增强 LLM 模型的知识。RAG 通常会用到三种不同的AI模型，即 Embedding 模型、Rerankear模型以及大语言模型。本文将介绍如何根据您的数据类型以及语言或特定领域选择合适的 Embedding 模型。用一句话解释Embedding的本质“Embedding是将文本（词、句、段落）映射到高维稠密向量的技术，其核心是将语义信息编码为计算机可计算的数学表示。

LangChain vs LlamaIndex：构建 AI 知识库系统（文本嵌入、向量数据库）

晴天彩虹雨的博客

04-06

487

对比项LangChainLlamaIndex学习曲线稍陡（适合工程化）简单（适合文档问答）可扩展性高：支持 Agent、多模型中：专注索引和查询国内适配性支持通义、DeepSeek 等同样支持国产嵌入模型推荐场景多轮问答、工具调用系统企业文档搜索系统。

参与评论您还未登录，请先登录后发表或查看评论

只需3步: 基于Deepseek开发个人知识库,YYDS

m0_61361390的博客

02-13

2733

基于deepseek 快速构建本地知识库

【LangChain指南】Embedding models

最新发布

czqjijiboy的博客

09-16

404

本文介绍了LangChain框架中的文本嵌入模型及其应用。主要内容包括：1）Embeddings类提供的两个核心方法——embed_documents用于批量处理文档嵌入，embed_query用于处理单个查询嵌入；2）如何通过继承Embeddings类创建自定义嵌入模型，并提供了示例代码；3）利用CacheBackedEmbeddings实现嵌入结果缓存，提高效率并降低成本，详细展示了使用本地文件系统缓存的实现过程。这些功能为构建RAG系统等基于向量的文本应用奠定了基础。

结合DeepSeek、FAISS与LangChain构建RAG系统

llm_way的博客

03-24

571

RAG技术是一种结合了检索和生成能力的新型语言模型应用方式。其核心在于，首先使用一个检索器从知识库中获取与查询相关的文档片段，然后基于这些检索到的上下文，利用语言模型（LLM）生成回答。这种方式显著提高了回答的准确性和时效性，因为它能够实时地、基于事实地、动态地生成响应。在构建 RAG 系统时，选择合适的技术工具至关重要。LangChain作为连接检索器和语言模型的桥梁，LangChain 提供了一系列便捷的工具和接口，能轻松整合不同的组件，让开发人员专注于系统逻辑的实现。FAISS。

【可能是全网最丝滑的LangChain教程】十五、LangChain进阶之Embedding Models

Jeffray1991的博客

06-17

4315

Embeddings 类为各种文本嵌入模型提供商提供了一个统一的接口，简化了模型的使用。文本嵌入模型将文本转换为向量形式，便于在向量空间中进行操作，如语义搜索和相似度计算。

使用 LangChain 构建智能问答系统：结合 DeepSeek-R1 和智普AI向量模型

hzdt_1的博客

02-10

1022

通过 LangChain 和 DeepSeek-R1，结合智普AI的向量嵌入模型，我们可以轻松构建一个智能问答系统。这种组合不仅提高了开发效率，还为开发者提供了强大的语言处理和语义检索能力。希望这篇博客能帮助你更好地理解和使用这些技术。

爆速上手！LangChain 与 DeepSeek 1.3B 构建超燃 RAG 系统

因果律的博客

02-11

1251

本文聚焦于使用 LangChain 和 DeepSeek 1.3B 实现 RAG 系统。开篇阐述 RAG 将语言模型与外部知识库结合以生成优质回答的机制。接着介绍搭建流程，先准备 Python 3.10 以上环境、安装相关库，随后准备数据，读取分割文档、创建嵌入、构建向量存储、设置检索功能，再整合 DeepSeek 1.3B 生成回答，最后用 Streamlit 打造用户界面。通过这些步骤完成 RAG 系统搭建，能让 AI 实现 “检索后回答”，文章鼓励读者在项目中应用该技术，探索更多可能。

一文读懂：有了DeepSeek模型，那又什么是Embedding模型？它的作用及用途？以及开源最强Embedding模型推荐？

吴所畏惧

03-05

4295

一文读懂：有了DeepSeek模型，那又什么是Embedding模型？它的作用及用途？以及开源最强Embedding模型推荐？

深入浅出LangChain AI Agent智能体开发教程（九）—LangChain从0到1搭建知识库

weixin_42782643的博客

08-22

1075

本期分享我们通过Streamlit前端界面，结合LangChain框架retriever工具与DashScope向量模型服务、DeepSeek大模型服务，从0到1实现了轻量化的RAG知识库系统。

LangChain4j从入门到实战

qq_30895747的博客

08-16

175

我们需要在CommonConfig类中，构建MessageWindowChatMemory对象，并注入到IOC容器中。构建的时候我们可以指定该对象中最大的会话存储数量。给大家解释一下这里为什么要有一个最大的会话存储数量。首先是因为咱们大模型的上下文不是无限的，一般目前大模型支持的上下文最大在10w个token左右，也就是说你发送给大模型的消息不是无限制的，你发的太多了大模型也吃不消。这是第一个原因，另外一个原因是如果会话记录存储的太多，费用就会越贵。

DeepSeek R1与Qwen大模型，构建Agentic RAG全攻略

csdn1561168266的博客

04-10

1185

在智能体系统里，推理模型是 “心脏”。DeepSeek-R1 作为强大的推理模型，能够处理复杂查询。它可解析自然语言，结合知识库给出连贯且切题的回答，还能理解文档并提取关键知识。将 DeepSeek-R1 和知识库融合，系统便能依据向量数据库内容解决问题、回应查询以及推理。推理时，DeepSeek-R1 支持多步迭代，不断优化回复，直至得到满意答案，或达到预设的max_steps限制，以此确保推理准确又高效，推动智能体系统稳定运行。import os# 定义本地模型名称。

LangChain初体验（二）结合Deepseek创建本地RAG知识库

yueluoxichen9的博客

05-22

548

LangChain构建知识库，RAG体验

deepseek结合Langchain实现智能机器人

qq_41969287的博客

02-14

2914

LangChain 是一个开源框架，用于构建基于大型语言模型（LLM）的应用程序。

LangChain + DeepSeek 详解

java_jar的博客

06-20

2233

本文介绍了LangChain框架的基础使用与核心功能。作为AI应用开发工具，LangChain通过标准化接口连接LLM与外部系统，包含Prompt模板、LLM模型、代理和记忆系统四大组件。文章详细演示了Python环境下的安装配置流程，包括向量数据库初始化、DeepSeek模型适配和对话链构建。重点解析了流式输出处理技术，对比了不同调用模式的性能差异，并给出生产环境下的优化建议（如错误重试、超时设置和监控集成）。该框架采用模块化设计，支持快速原型开发，适合构建可扩展的智能应用，但需要注意内存向量库的临时性特

LangChain+DeepSeek动态生成推箱子游戏关卡

Greenfoot专栏

02-08

1523

最后构建系统消息，为进一步调用模型做好准备，此后只需将系统消息传入模型的invoke()方法便能触发DeepSeek API 的推理过程，并获取模型的响应结果。使用pgzero库开发了一个推箱子游戏，将当前关卡中移动步数记录在变量steps中，过关时会调用loadmap()方法，该方法中将steps作为输入参数传给模型，模型会根据系统提示词生成关卡数据作为输出，游戏程序则根据模型生成的关卡数据加载关卡图像。LangChain是一个强大的框架，用于构建基于语言模型的应用程序，尤其适用于处理自然语言推理任务。

langchain从入门到精通（十七）——langchain嵌入模型组件介绍

swpucwf的博客

06-24

1250

底层的运行流程非常简单，本质上就是封装了一个持久化存储的数据存储仓库，在每次进行数据嵌入前，会从前数据存储仓库中检索对对应的向量，然后逐个匹配对应的数据是否相等，找到缓存中没有的文本，然后将这些文本调用嵌入生成向量，最后将生成的新向量存储到数据仓库中，从而完成对数据的存储。通过嵌入模型计算传递数据的向量需要昂贵的算力，对于重复的内容，Embeddings 计算的结果肯定是一致的，如果数据重复仍然二次计算，会导致效率非常低，而且增加无用功。在 LangChain 中，

《从零开始DeepSeek R1搭建本地知识库问答系统》三：基于LangChain构建本地知识库问答RAG应用

YuiGod的博客

03-11

2323

RAG（检索、增强、生成）这种技术通过从外部知识库中检索相关信息，并将其作为提示（Prompt）输入给大型语言模型，以增强模型处理知识密集型任务的能力，如问答、文本摘要、内容生成等。完整的RAG应用流程主要包含两个阶段：1. 数据准备阶段：数据提取——>文本分割——> 向量化（embedding）——>数据入库。2. 应用阶段：用户提问——>数据检索（召回）——>注入Prompt——>LLM生成答案。想要构建 RAG 应用，通常需要几个步骤：1. 使用`LangChain`的文档加载器（如`Directo

【2025版】LangChain+RAG+Agent本地部署DeepSeek-R1商用级知识库，从零基础到精通，精通收藏这篇就够了！

Libra1313的博客

03-04

2201

使用 LangChain 封装的模型实例通过 get_model_instance_by_model_user_id、embed_query、invoke 以及 stream 等方法，实现 LLM 整体调用，无缝对接大语言模型推理服务。构造上下文和消息列表利用 HumanMessage、SystemMessage 等消息类型将系统提示、历史对话、用户输入等进行整合，作为调用 LLM 的输入。调用向量库进行语义检索。

python+langchain+文档分割生成向量，保存到redis数据库的完整代码

09-10

<think> 我们使用LangChain和Redis构建一个文档向量存储系统。步骤如下： 1. 加载文档（这里假设使用文本文件） 2. 分割文档（使用文本分割器） 3. 使用嵌入模型生成向量（比如OpenAI的embedding） 4. 将向量和文档存储到Redis中注意：需要安装必要的库，如langchain, redis, openai等。我们将按照以下步骤编写代码： - 设置环境变量（例如OPENAI_API_KEY） - 创建文档加载器（这里使用TextLoader作为示例） - 使用文本分割器（如RecursiveCharacterTextSplitter） - 初始化嵌入模型（如OpenAIEmbeddings） - 初始化Redis向量数据库（使用Redis作为向量存储）代码示例： """ 注意：以下代码需要根据实际情况调整，比如Redis的连接信息、文档路径等。 """ import os from langchain.document_loaders import TextLoader from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import OpenAIEmbeddings from langchain.vectorstores import Redis # 设置环境变量，例如OpenAI的API密钥 os.environ["OPENAI_API_KEY"] = "your-openai-api-key" # 1. 加载文档 loader = TextLoader("your_document.txt") # 替换为你的文档路径 documents = loader.load() # 2. 分割文档 text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0) docs = text_splitter.split_documents(documents) # 3. 初始化嵌入模型 embeddings = OpenAIEmbeddings() # 4. 将文档和向量存储到Redis # 注意：需要提前启动Redis服务器，并确保redis-py库已安装 # 连接Redis的参数：例如redis_url="redis://localhost:6379" # 索引名称（index_name）可以自定义 redis_url = "redis://localhost:6379" index_name = "my_index" # 将分割后的文档和对应的向量添加到Redis db = Redis.from_documents( docs, embeddings, redis_url=redis_url, index_name=index_name ) # 这样，向量就已经存储到Redis中了 # 如果需要后续使用，可以这样初始化一个Redis向量数据库对象 # db = Redis.from_existing_index(embeddings, redis_url=redis_url, index_name=index_name) print("向量已成功存储到Redis数据库中。") """ 请注意： 1. 确保Redis服务器正在运行。 2. 替换`your_document.txt`为你的文档路径。 3. 替换`your-openai-api-key`为你的OpenAI API密钥。以上代码完成了将文档分割、生成向量并存储到Redis的过程。 §§相关问题§§ 1. 如何处理多种格式的文档（如PDF、Word）而不只是文本文件？ 2. 如何调整文本分割的参数（如块大小和重叠大小）以优化向量表示？ 3. 除了OpenAI的嵌入模型，LangChain还支持哪些嵌入模型？ 4. 如何从Redis中检索相似文档？ 5. 在Redis中存储向量时，索引的配置参数有哪些需要注意的地方？ </think> 以下是使用Python + LangChain + Redis实现文档分割、向量生成与存储的完整代码： ```python import os from langchain.document_loaders import TextLoader from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import OpenAIEmbeddings from langchain.vectorstores import Redis from langchain.schema import Document # 环境配置（需替换为实际值） os.environ["OPENAI_API_KEY"] = "sk-your-openai-key" REDIS_URL = "redis://localhost:6379" INDEX_NAME = "docs_index" def process_document(file_path: str): """文档处理与向量存储流水线""" # 1. 加载文档 loader = TextLoader(file_path, encoding='utf-8') raw_document = loader.load()[0] # 获取第一个文档对象 # 2. 文档分割 text_splitter = RecursiveCharacterTextSplitter( chunk_size=500, # 每个分块最大字符数 chunk_overlap=50, # 分块间重叠字符 separators=["\n\n", "\n", "。", "！", "？"] # 中文分割符 ) chunks = text_splitter.split_documents([raw_document]) # 3. 生成嵌入向量 embeddings = OpenAIEmbeddings(model="text-embedding-ada-002") # 4. 存储到Redis Redis.from_documents( documents=chunks, embedding=embeddings, index_name=INDEX_NAME, redis_url=REDIS_URL ) print(f"✅ 成功存储 {len(chunks)} 个分块到Redis索引 {INDEX_NAME}") # 使用示例 if __name__ == "__main__": process_document("path/to/your_document.txt") # 替换为实际文件路径 ``` ### 关键组件说明： 1. **文档加载器**：`TextLoader` 支持.txt文件（其他格式需使用`PyPDFLoader`/`Docx2txtLoader`） 2. **中文分割器**：通过`separators`参数优化中文文本分割 3. **向量模型**：使用OpenAI的text-embedding-ada-002生成嵌入向量 4. **Redis配置**： - 需提前安装Redis服务（`docker run -p 6379:6379 redis/redis-stack-server:latest`） - 索引自动创建在RedisSearch中 ### 依赖安装： ```bash pip install langchain openai redis tiktoken ```

langchain 认识embeddings （用于生成向量） 及阿里云deepseek如何embedding

langchain 认识embeddings （用于生成向量）及阿里云deepseek如何embedding