使用Databricks Lakehouse优化AI应用：从入门到精通_databricks lakehouse 使用教程-优快云博客

本文链接：https://blog.youkuaiyun.com/tt_jishu/article/details/142995808

引言

在现代数据分析和AI应用中，Databricks Lakehouse Platform提供了一个整合数据、分析和AI的平台。本文将带您快速了解如何在LangChain应用中使用DatabricksLLM模型，并讨论一些常见的挑战及其解决方案。

主要内容

DatabricksLLM概述

DatabricksLLM类用于包装一个托管在以下两种终端类型之一的完成端点：

Databricks模型服务：推荐用于生产和开发。
集群驱动代理应用：推荐用于交互式开发。

这些工具可以帮助开发者将LLM端点集成到LangChain应用程序中。

限制

目前，DatabricksLLM类属于旧实现，具有以下限制：

仅支持同步调用。
不支持流式或异步API。
不支持批量API。

要使用这些功能，请转而使用新的ChatDatabricks类，该类支持所有的ChatModel API，包括流式、异步、批量等。

设置步骤

要访问Databricks模型，您需要：

创建一个Databricks账户。
设置凭据（如果您在Databricks工作区外）。
安装必要的软件包。

凭据设置

如果您在Databricks工作区内运行LangChain应用，可以跳过此步骤。否则，需要手动设置Databricks工作区主机名和个人访问令牌到DATABRICKS_HOST和DATABRICKS_TOKEN环境变量。

import getpass
import os

os.environ["DATABRICKS_HOST"] = "https://your-workspace.cloud.databricks.com"
os.environ["DATABRICKS_TOKEN"] = getpass.getpass("Enter your Databricks access token: ")

安装必要的软件包

%pip install -qU langchain-community mlflow>=2.9.0

代码示例

from langchain_community.llms import Databricks

# 使用API代理服务提高访问稳定性
llm = Databricks(endpoint_name="YOUR_ENDPOINT_NAME")
response = llm.invoke("How are you?")
print(response)  # 输出: I am happy to hear that you are in good health and as always, you are appreciated.

常见问题和解决方案

挑战：模型签名不兼容

解决方案：使用transform_input_fn和transform_output_fn进行预处理和后处理。

def transform_input(**request):
    full_prompt = f"""{request["prompt"]}
    Be Concise.
    """
    request["prompt"] = full_prompt
    return request

def transform_output(response):
    return response.upper()

llm = Databricks(
    endpoint_name="YOUR_ENDPOINT_NAME",
    transform_input_fn=transform_input,
    transform_output_fn=transform_output,
)

response = llm.invoke("How are you?")
print(response)  # 输出: I AM DOING GREAT THANK YOU.