Opik: 评估、测试和监控 LLM 应用

部署运行你感兴趣的模型镜像

GitHubhttps://github.com/comet-ml/opik

更多AI开源软件发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI

Opik 是一个用于评估、测试和监控 LLM 应用程序的开源平台。由 Comet 建造。

从 RAG 聊天机器人到代码助手,再到复杂的代理管道等等,通过跟踪、评估和仪表板构建运行得更好、更快、更便宜的 LLM 系统。

主要功能

  • 开发者:

    • 描图:在开发和生产期间跟踪所有 LLM 调用和跟踪(快速入门、集成)
    • 附注:通过使用 Python SDKUI 记录反馈分数来注释您的 LLM 调用。
    • 操场:在 prompt playground 中尝试不同的提示和模型。
  • 评估:自动化 LLM 申请的评估过程:

    • 数据集和实验:存储测试用例并运行实验(数据集、评估您的 LLM 应用程序)
    • LLM 作为判断指标:使用 Opik 的 LLM 作为复杂问题的判断指标,例如幻觉检测审核和 RAG 评估(答案相关性上下文精度
    • CI/CD 集成:使用我们的 PyTest 集成将评估作为 CI/CD 管道的一部分运行
  • 生产监控:

    • 记录您的所有生产跟踪:Opik 旨在支持大量跟踪,从而轻松监控您的生产应用程序。即使是小型部署,每天也可以提取超过 4000 万条跟踪!
    • 监控控制面板:在 Opik 控制面板中查看您的反馈分数、跟踪计数和令牌随时间的变化。
    • 在线评估指标:使用 LLM 作为 Judge 指标轻松对所有生产跟踪进行评分,并借助 Opik 的在线评估指标识别生产 LLM 应用程序的任何问题

安装和使用

🛠️ 安装

Opik 可作为完全开源的本地安装使用,也可以使用 Comet.com 作为托管解决方案。 开始使用 Opik 的最简单方法是在 comet.com 创建一个免费的 Comet 帐户。

如果您想自托管 Opik,可以通过克隆存储库并使用 Docker Compose 启动平台来实现:

在 Linux 或 Mac 上执行以下作:

# Clone the Opik repository
git clone https://github.com/comet-ml/opik.git

# Navigate to the repository
cd opik

# Start the Opik platform
./opik.sh

在 Windows 上执行以下作:

# Clone the Opik repository
git clone https://github.com/comet-ml/opik.git

# Navigate to the repository
cd opik

# Start the Opik platform
powershell -ExecutionPolicy ByPass -c ".\opik.ps1"

使用 或 选项对问题进行故障诊断。--help--info​

一切准备就绪并运行后,您现在可以在浏览器上访问 localhost:5173

🏁 开始使用

要开始使用,您需要先安装 Python SDK:

pip install opik

安装 SDK 后,您可以通过运行以下命令对其进行配置:opik configure​

opik configure

这将允许您通过设置正确的本地服务器地址在本地配置 Opik,或者如果您使用的是云平台,则通过设置 API 密钥

提示

您还可以从 Python 代码中调用该方法,以将 SDK 配置为在本地安装上运行。opik.configure(use_local=True)​

现在,您可以开始使用 Python 开发工具包记录跟踪了。

📝 日志记录跟踪

最简单的入门方法是使用我们的集成之一。Opik 支持:

集成描述文档
开放人工智能所有 OpenAI LLM 调用的日志跟踪文档
LiteLLM使用 OpenAI 格式调用任何 LLM 模型文档
LangChain 语言链所有 LangChain LLM 调用的日志跟踪文档
草垛所有 Haystack 调用的日志跟踪文档
所有 Anthropic LLM 调用的日志跟踪文档
基岩所有 Bedrock LLM 调用的日志跟踪文档
船员人工智能所有 CrewAI 调用的日志记录文档
深度seek所有 DeepSeek LLM 调用的日志跟踪文档
DSPy所有 DSPy 运行的日志跟踪文档
双子座所有 Gemini LLM 调用的日志跟踪文档
格罗克所有 Groq LLM 调用的日志跟踪文档
护栏所有 Guardrails 验证的日志跟踪文档
教练使用 Instructor 进行的所有 LLM 调用的日志跟踪文档
语言图所有 LangGraph 执行的日志跟踪文档
骆驼指数所有 LlamaIndex LLM 调用的日志跟踪文档
奥拉马所有 Ollama LLM 调用的日志跟踪文档
Predibase微调和提供开源大型语言模型文档
Pydantic 人工智能微调和提供开源大型语言模型文档
拉格斯PydanticAI 是一个 Python 代理框架,旨在构建生产应用程序文档
屈臣氏所有 watsonx LLM 调用的日志跟踪文档

提示

如果您使用的框架未在上面列出,请随时打开一个 issue 或提交 PR 与集成。

如果您没有使用上述任何框架,您还可以使用函数 decorator 来记录跟踪:track​

import opik

opik.configure(use_local=True) # Run locally

@opik.track
def my_llm_function(user_question: str) -> str:
    # Your LLM code here

    return "Hello"

提示

track decorator 可以与我们的任何集成结合使用,也可以用于跟踪嵌套函数调用。

🧑 ⚖️ LLM as a Judge 指标

Python Opik SDK 包含许多 LLM 作为判断指标,以帮助您评估 LLM 应用程序。在指标文档中了解更多信息。

要使用它们,只需导入相关指标并使用函数:score​

from opik.evaluation.metrics import Hallucination

metric = Hallucination()
score = metric.score(
    input="What is the capital of France?",
    output="Paris",
    context=["France is a country in Europe."]
)
print(score)

您可能感兴趣的与本文相关的镜像

Python3.9

Python3.9

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值