如何调试你的LLM应用-优快云博客

本文链接：https://blog.youkuaiyun.com/w48974wq/article/details/144697223

老铁们，在使用大语言模型(LLM)构建应用时，遇到需要调试的情况是很常见的。模型调用失败、输出格式不正确，或者在多个嵌套调用中找不到哪里出了问题，这些都是可能的坑。今天我们就来聊聊如何有效地调试你的LLM应用。

技术背景介绍

调试LLM应用程序的难度在于其复杂的调用链，当涉及多个步骤、模型调用时，清楚了解每一步发生了什么就显得尤为重要。通常有三种主要的调试方法可供选择：

Verbose Mode: 这个模式会在链中的“重要”事件发生时添加打印语句。
Debug Mode: 这个模式则会记录链中所有事件的日志。
LangSmith Tracing: 通过LangSmith记录事件以便在可视化界面中查看。

每种方法各有优缺点，如下表所示：

特性	Verbose Mode	Debug Mode	LangSmith Tracing
免费	✅	✅	✅
UI支持	❌	❌	✅
持久化	❌	❌	✅
查看所有事件	❌	✅	✅
查看“重要”事件	✅	❌	✅
本地运行支持	✅	✅	❌

原理深度解析

LangSmith Tracing

对于LangChain中的应用程序来说，随着其复杂度增加，了解链内部或代理中准确发生的事情就变得至关重要。通过LangSmith的记录功能，你能够进行这些深入分析。

首先，你需要在LangSmith上注册(链接：https://smith.langchain.com)。然后设置环境变量来开始记录：

export LANGCHAIN_TRACING_V2="true"
export LANGCHAIN_API_KEY="..."

或在notebook中使用以下代码：

import getpass
import os

os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_API_KEY"] = getpass.getpass()

使用示例

假设我们有一个代理，需要可视化它的操作和工具输出。在没有任何调试的情况下，以下是我们可能看到的：

# 设置API Key
import getpass
import os

os.environ["OPENAI_API_KEY"] = getpass.getpass()

# 使用OpenAI的模型
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4o-mini")

类似的设置也适用于其他平台，如Anthropic、Azure、Google等。

实战代码演示

假设你有一个具体的代理场景，利用LangSmith工具进行可视化跟踪，如下所示：

from langchain.agents import AgentExecutor, create_tool_calling_agent
from langchain_community.tools.tavily_search import TavilySearchResults
from langchain_core.prompts import ChatPromptTemplate

tools = [TavilySearchResults(max_results=1)]
prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "You are a helpful assistant."),
        ("placeholder", "{chat_history}"),
        ("human", "{input}"),
        ("placeholder", "{agent_scratchpad}"),
    ]
)

agent = create_tool_calling_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools)
agent_executor.invoke(
    {"input": "Who directed the 2023 film Oppenheimer and what is their age in days?"}
)

优化建议分享

在调试过程中，可以通过以下方式提高效率：

使用LangSmith Tracing：如上文提到的，通过LangSmith的记录功能，能够更好地可视化和分析复杂的链路调用。
启用Verbose or Debug Mode：通过在代码中设置set_verbose(True)或者set_debug(True)，来查看详细的中间步骤输出，更快速捕捉到问题根源。
建议使用代理服务提高稳定性：例如利用稳定的API服务，减少外部不确定因素对测试的影响。