[大揭秘：如何用LangChain结合DeepInfra实现文本嵌入]

# 大揭秘：如何用LangChain结合DeepInfra实现文本嵌入

## 引言
在现代自然语言处理(NLP)应用中，文本嵌入是一个重要的技术，帮助我们将文本转换为可以计算的向量表示，从而使计算机能够进行进一步的分析和推理。DeepInfra提供了一种无服务器推断即服务的平台，支持多种大型语言模型（LLMs）和嵌入模型。本文将指导您如何使用LangChain与DeepInfra集成来进行文本嵌入。

## 主要内容

### 如何设置DeepInfra

首先，您需要在[DeepInfra官网](https://deepinfra.com/login?utm_source=langchain)注册一个帐户，以获取API令牌。这是访问DeepInfra服务的必备条件。

```python
from getpass import getpass

DEEPINFRA_API_TOKEN = getpass()  # 安全地输入API令牌

环境配置

将获取到的API令牌设置到环境变量中，以方便后续的API调用。

import os

os.environ["DEEPINFRA_API_TOKEN"] = DEEPINFRA_API_TOKEN

使用LangChain进行文本嵌入

LangChain是一个有力的库，可以轻松与DeepInfra集成，用于各种NLP任务。这里，我们将使用LangChain的DeepInfraEmbeddings模块。

from langchain_community.embeddings import DeepInfraEmbeddings

# 使用DeepInfraEmbeddings初始化
embeddings = DeepInfraEmbeddings(
    model_id="sentence-transformers/clip-ViT-B-32",
    query_instruction="",
    embed_instruction="",
)

嵌入文档和查询

我们现在可以使用这个嵌入对象对文档和查询进行向量化。

docs = ["Dog is not a cat", "Beta is the second letter of Greek alphabet"]
document_result = embeddings.embed_documents(docs)

query = "What is the first letter of Greek alphabet"
query_result = embeddings.embed_query(query)

以上示例构建了文档和查询的嵌入向量，接下来可以用于相似度计算。

代码示例

以下代码示例演示了如何计算文本的余弦相似度：

import numpy as np

query_numpy = np.array(query_result)
for doc_res, doc in zip(document_result, docs):
    document_numpy = np.array(doc_res)
    similarity = np.dot(query_numpy, document_numpy) / (
        np.linalg.norm(query_numpy) * np.linalg.norm(document_numpy)
    )
    print(f'Cosine similarity between "{doc}" and query: {similarity}')
# 使用API代理服务提高访问稳定性