一、核心能力指标(Core Capability Metrics)
这类指标直接衡量Agent完成其设计目标的能力。
-
任务完成率(Task Success Rate)
-
定义:在给定的一批任务中,Agent能够完全正确完成的任务所占的百分比。
-
如何衡量:通常需要人工评估或有一套非常明确的自动化判断规则(如最终输出是否包含某个关键数据点)。这是最核心的终极指标。
-
-
步骤效率(Step Efficiency)
-
定义:完成一个任务平均需要调用多少次工具(或多少个推理步骤)。
-
意义:步骤过多(“绕远路”)说明规划能力不佳,浪费资源;步骤过少可能意味着任务失败。一个好的Agent应在尽可能少的步骤内完成任务。
-
-
工具选择准确率(Tool Selection Accuracy)
-
定义:在需要调用工具的场景下,Agent选择正确工具的频率。
-
意义:衡量Agent“决策”能力的基础。例如,用户问天气,它应该调用天气API,而不是搜索引擎。
-
-
参数调用准确率(Parameter Calling Accuracy)
-
定义:在调用工具时,传入的参数是否正确。
-
意义
-

最低0.47元/天 解锁文章
1358

被折叠的 条评论
为什么被折叠?



