HuggingFace Agents课程：智能代理的监控与评估实战指南

最新推荐文章于 2025-06-02 09:01:44 发布

蒋素萍Marilyn

最新推荐文章于 2025-06-02 09:01:44 发布

阅读量262

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00072/article/details/148363028

HuggingFace Agents课程：智能代理的监控与评估实战指南

agents-course This repository contains the Hugging Face Agents Course. 项目地址: https://gitcode.com/gh_mirrors/ag/agents-course

引言

在构建AI代理系统时，监控和评估是确保系统可靠性和持续优化的关键环节。本文将深入探讨如何为基于smolagents框架构建的AI代理实现全面的可观测性和评估体系。

一、环境准备与工具安装

首先需要安装必要的Python库：

%pip install 'smolagents[telemetry]'
%pip install opentelemetry-sdk opentelemetry-exporter-otlp openinference-instrumentation-smolagents
%pip install langfuse datasets 'smolagents[gradio]'

这些库组成了我们的监控基础设施：

smolagents[telemetry]：提供代理的核心功能及遥测支持
OpenTelemetry相关库：实现分布式追踪
Langfuse：开源的LLM可观测性平台
Gradio：用于构建用户反馈界面

二、代理监控的实现

2.1 配置OpenTelemetry

OpenTelemetry是现代应用监控的事实标准，我们用它来收集代理的运行数据：

from opentelemetry.sdk.trace import TracerProvider
from openinference.instrumentation.smolagents import SmolagentsInstrumentor
from opentelemetry.exporter.otlp.proto.http.trace_exporter import OTLPSpanExporter

# 创建追踪提供者
trace_provider = TracerProvider()
trace_provider.add_span_processor(SimpleSpanProcessor(OTLPSpanExporter()))
trace.set_tracer_provider(trace_provider)

# 对smolagents进行插桩
SmolagentsInstrumentor().instrument(tracer_provider=trace_provider)

2.2 连接监控后端

以Langfuse为例的配置方法：

import os
import base64

# 配置Langfuse认证信息
os.environ["LANGFUSE_PUBLIC_KEY"] = "your-public-key"
os.environ["LANGFUSE_SECRET_KEY"] = "your-secret-key" 
os.environ["LANGFUSE_HOST"] = "https://cloud.langfuse.com"

# 设置OpenTelemetry导出配置
auth = base64.b64encode(f"{public_key}:{secret_key}".encode()).decode()
os.environ["OTEL_EXPORTER_OTLP_ENDPOINT"] = f"{host}/api/public/otel"
os.environ["OTEL_EXPORTER_OTLP_HEADERS"] = f"Authorization=Basic {auth}"

三、关键监控指标解析

3.1 成本监控

通过追踪可以精确记录每次LLM调用的token使用情况：

# 示例代理调用
agent = CodeAgent(tools=[], model=InferenceClientModel())
agent.run("计算1+1的结果")

在监控面板中可以看到：

每次调用的输入/输出token数
按模型统计的累计token消耗
成本估算（需根据模型定价配置）

3.2 延迟分析

追踪数据会自动记录每个步骤的耗时：

总调用延迟
工具调用耗时
LLM推理耗时
网络延迟

这有助于识别性能瓶颈。

3.3 自定义属性

可以为追踪添加业务相关的元数据：

with tracer.start_as_current_span("业务追踪") as span:
    span.set_attribute("user.id", "user123")
    span.set_attribute("session.id", "session456")
    span.set_attribute("tags", ["重要任务", "测试环境"])
    agent.run("用户查询")

四、评估方法实践

4.1 用户反馈集成

通过Gradio构建带反馈功能的界面：

import gradio as gr

def respond(prompt, history):
    with trace.get_tracer(__name__).start_as_current_span("聊天追踪"):
        output = agent.run(prompt)
        # 记录追踪ID用于关联反馈
        trace_id = format_trace_id(trace.get_current_span().get_span_context().trace_id)
        history.append({"role": "assistant", "content": output})
    return history

def handle_feedback(data: gr.LikeData):
    if data.liked:
        langfuse.score(value=1, name="用户反馈", trace_id=trace_id)
    else:
        langfuse.score(value=0, name="用户反馈", trace_id=trace_id)

# 构建界面
with gr.Blocks() as demo:
    chatbot = gr.Chatbot()
    prompt_box = gr.Textbox()
    prompt_box.submit(respond, [prompt_box, chatbot], chatbot)
    chatbot.like(handle_feedback, None, None)

4.2 LLM作为评估器

自动评估代理输出的质量：

# 在监控平台配置评估模板
eval_template = """
请评估以下回答的质量：
1. 准确性（1-5分）
2. 完整性（1-5分）
3. 毒性（是/否）

回答内容：{answer}
"""

# 自动将代理输出送入评估流程
def auto_evaluate(output):
    eval_result = llm.run(eval_template.format(answer=output))
    langfuse.score(name="自动评估", value=eval_result.score)

4.3 离线基准测试

使用标准数据集进行系统评估：

from datasets import load_dataset

# 加载GSM8K数学数据集
dataset = load_dataset("openai/gsm8k", 'main', split='train')

# 创建评估数据集
langfuse.create_dataset(
    name="math_benchmark",
    description="数学问题评估数据集"
)

# 添加测试用例
for item in dataset.select(range(100)):
    langfuse.create_dataset_item(
        dataset_name="math_benchmark",
        input={"question": item["question"]},
        expected_output={"answer": item["answer"]}
    )