使用 OpenLIT 对 LLM 应用进行可观测

原创

于 2025-03-03 18:09:39 发布 · 1.3k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#LLM #OpenTelemetry #可观测性

大规模语言模型（LLM）的可观测性

随着大规模语言模型（LLM）在各个领域的广泛应用，确保这些模型的稳定性和性能变得至关重要。为了实现这一目标，可观测性（Observability）成为了一个关键因素。OpenTelemetry 作为一个开源的可观测性框架，提供了强大的工具来监控和诊断 LLM 的运行状况。通过使用 OpenTelemetry，观测云可以轻松集成多种语言和框架，实现统一的数据收集、处理和实时监控。

可观测性是指系统能够通过其外部输出（如日志、指标和追踪数据）来推断其内部状态的能力。对于 LLM 来说，可观测性可以帮助我们了解模型的推理过程、性能瓶颈以及潜在的错误。通过收集和分析这些数据，我们可以更好地优化模型并确保其在生产环境中的稳定性。

观测云

观测云（ www.guance.com ）是一个提供数据可视化和监控服务的平台。它通常用于收集、处理和展示来自各种数据源的信息，帮助用户实时监控业务指标、系统性能和网络状态等。观测云通过图表、仪表板和报警系统，使得用户能够快速识别和响应数据变化，从而优化业务流程和提高效率。它支持多种数据集成方式，包括API、数据库、日志文件等，并且可以自定义仪表板，以满足不同用户的需求。观测云的界面友好，易于配置和使用，是企业数据监控和管理的有力工具。

OpenTelemetry

OpenTelemetry 是一个由 CNCF 托管的开源项目，旨在提供统一的 API 和 SDK 来收集和传输遥测数据（如日志、指标和追踪）。它支持多种编程语言，并且与各种后端系统兼容。对于 LLM，OpenTelemetry 可以帮助我们：

收集详细的追踪数据：通过追踪每个推理请求的执行路径，我们可以识别出哪些部分是性能瓶颈。
记录关键指标：例如推理时间、内存使用情况等，这些指标可以帮助我们评估模型的性能。
捕获日志信息：当出现问题时，日志可以提供宝贵的调试信息。

LLM 关键信号

在应用程序中使用大规模语言模型（LLM）与传统机器学习（ML）模型有所不同。主要区别在于，LLM 通常通过外部 API 调用访问，而不是在本地或内部运行。因此，捕获事件序列（通过追踪）尤为重要，特别是在基于 RAG（检索增强生成）的应用程序中，LLM 使用前后可能会有多个事件。此外，分析聚合数据（通过指标）可以快速提供关于请求、令牌和成本的概览，这对于优化性能和管理成本非常重要。以下是需要监控的关键信号：