使用DeepInfra进行文本嵌入的实战指南

qahaj

于 2025-03-23 00:32:40 发布

阅读量304

点赞数 3

文章标签： python

本文链接：https://blog.youkuaiyun.com/qahaj/article/details/146449316

版权

技术背景介绍

在自然语言处理(NLP)领域，文本嵌入是将文本数据转换为数值向量的重要步骤。这种转换使得计算机可以有效地处理文本，通过向量化的表示来进行相似度计算、文本分类等任务。DeepInfra作为一种无服务器推理服务，提供了多种大语言模型(LLM)和嵌入模型的访问接口。在本篇文章中，我们将结合LangChain展示如何使用DeepInfra进行文本嵌入处理。

核心原理解析

DeepInfra让用户能够通过API调用，简单高效地执行复杂的推理任务。在本文中，我们使用DeepInfraEmbeddings类，该类依赖于预训练模型，比如sentence-transformers/clip-ViT-B-32，将文本转换为可以进行相似度计算的嵌入向量。

代码实现演示

以下是使用DeepInfra进行文本嵌入的完整代码示例：

# 导入必要的库
import os
from getpass import getpass
from langchain_community.embeddings import DeepInfraEmbeddings
import numpy as np

# 获取DeepInfra API token
DEEPINFRA_API_TOKEN = getpass("Enter your DeepInfra API token: ")

# 配置环境变量
os.environ["DEEPINFRA_API_TOKEN"] = DEEPINFRA_API_TOKEN

# 初始化DeepInfra嵌入实例
embeddings = DeepInfraEmbeddings(
    model_id="sentence-transformers/clip-ViT-B-32",
    query_instruction="",
    embed_instruction="",
)

# 嵌入文档
docs = ["Dog is not a cat", "Beta is the second letter of Greek alphabet"]
document_result = embeddings.embed_documents(docs)

# 嵌入查询
query = "What is the first letter of Greek alphabet"
query_result = embeddings.embed_query(query)

# 计算余弦相似度
query_numpy = np.array(query_result)
for doc_res, doc in zip(document_result, docs):
    document_numpy = np.array(doc_res)
    similarity = np.dot(query_numpy, document_numpy) / (
        np.linalg.norm(query_numpy) * np.linalg.norm(document_numpy)
    )
    print(f'Cosine similarity between "{doc}" and query: {similarity}')