线上vs离线:使用 Langfuse 实现智能体的全方位无死角评估
导语:我们已经学会了用 Langfuse 收集 AI 应用的“痕迹”(Traces)。现在,是时候从这些痕迹中“断案”了——也就是进行评估。评估是连接“可观测性”和“持续优化”的桥梁。在本章中,我们将深入 Langfuse 的核心评估功能,学习两种最关键的评估工作流:线上评估(Online Evaluation)和离线评估(Offline Evaluation)。你将学会如何捕捉并记录真实用户的线上反馈(比如“点赞”或“点踩”),以及如何建立一个标准化的“考场”(数据集),让你的 Agent 在其中进行“大考”(批量评估),并由“AI 考官”自动打分。掌握这些,你才能真正建立起一个数据驱动的、可量化的 AI 应用迭代闭环。
目录
- 评估工作流概览:线上与离线的“双线作战”
- 线上评估:监控“真实战场”,收集用户反馈,发现未知问题。
- 离线评估:模拟“标准化考试”,在固定数据集上对比版本优劣,确保迭代质量。
- 两者相辅相成,缺一不可。
- 线上评估:聆听用户的“心声”
- 目标:捕捉并量化
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



