如何使用DatabricksLakehouse平台中的DatabricksEmbeddings进行文本嵌入

## 技术背景介绍

DatabricksLakehouse平台集成了数据、分析和AI服务，能够在一个平台上实现数据统一管理。DatabricksEmbeddings类是平台中用于处理嵌入模型的工具，基于Databricks Model Serving提供的服务端点。本文将介绍如何在LangChain应用中使用DatabricksEmbeddings进行文本嵌入。

## 核心原理解析

DatabricksEmbeddings支持所有Embeddings类的方法，包括异步API。服务端点需要兼容OpenAI的嵌入输入/输出格式。Databricks提供了基础模型和自定义模型选项，可以直接在您的Databricks工作区中使用，无需繁琐的设置。

## 代码实现演示

### 环境设置

若在Databricks工作区外使用，需要设置Databricks工作区主机名及个人访问令牌：

```python
import getpass
import os

os.environ["DATABRICKS_HOST"] = "https://your-workspace.cloud.databricks.com"
os.environ["DATABRICKS_TOKEN"] = getpass.getpass("Enter your Databricks access token: ")

同时需要安装相关Python包：

%pip install -qU langchain-community mlflow>=2.9.0

实例化DatabricksEmbeddings

下面的代码演示如何实例化DatabricksEmbeddings并进行查询：

from langchain_community.embeddings import DatabricksEmbeddings

# 实例化嵌入模型
embeddings = DatabricksEmbeddings(
    endpoint="databricks-bge-large-en",
)

# 嵌入单个文本
query_embedding = embeddings.embed_query("hello")
print(query_embedding[:3])  # 输出嵌入的前三个元素

# 嵌入文档集
documents = ["This is a dummy document.", "This is another dummy document."]
response = embeddings.embed_documents(documents)
print([e[:3] for e in response])  # 显示每个嵌入的前三个元素