如何通过Upstage Embedding模型进行文本嵌入

最新推荐文章于 2025-10-10 06:36:03 发布

原创最新推荐文章于 2025-10-10 06:36:03 发布 · 375 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#embedding

技术背景介绍

随着自然语言处理技术的发展，嵌入模型在文本分析和处理中的重要性日益增加。Upstage Embedding模型提供了一种高效的方式来将文本数据转换为数值向量，使其更容易进行语义搜索和分类等任务。在这篇文章中，我们将探讨如何利用Upstage Embedding来实现文本嵌入。

核心原理解析

Upstage Embedding利用深度学习模型将文本数据转化为数值向量。这些向量能够捕捉到文本中的语义信息，使得机器可以理解和处理语言。通过这种方式，文本数据不仅能进行简单的比较，还能进行复杂的语义分析。

代码实现演示

首先，我们需要安装langchain-upstage包来使用Upstage Embedding模型：

pip install -U langchain-upstage

环境设置

使用Upstage服务时，需设置API密钥：

import os

os.environ["UPSTAGE_API_KEY"] = "YOUR_API_KEY"

文本嵌入操作

我们将使用UpstageEmbeddings类来进行文本嵌入：

from langchain_upstage import UpstageEmbeddings

# 初始化嵌入模型，选择合适的模型
embeddings = UpstageEmbeddings(model="solar-embedding-1-large")

# 嵌入文档列表
doc_result = embeddings.embed_documents(
    ["Sung is a professor.", "This is another document"]
)
print(doc_result)

# 嵌入查询字符串
query_result = embeddings.embed_query("What does Sung do?")
print(query_result)

# 异步嵌入查询
await embeddings.aembed_query("My query to look up")

# 异步嵌入文件
await embeddings.aembed_documents(
    ["This is a content of the document", "This is another document"]
)

与向量存储结合使用

可以将嵌入结果与向量存储组件结合使用，实现高效的语义检索：

from langchain_community.vectorstores import DocArrayInMemorySearch

vectorstore = DocArrayInMemorySearch.from_texts(
    ["harrison worked at kensho", "bears like to eat honey"],
    embedding=UpstageEmbeddings(model="solar-embedding-1-large"),
)

retriever = vectorstore.as_retriever()
docs = retriever.invoke("Where did Harrison work?")
print(docs)