利用语言模型调用工具,是实现通用目标智能体(general-purpose agents)的重要途径,对语言模型的工具调用能力提出了挑战。然而,现有的工具评测和真实世界场景存在很大差距,局限性主要体现在以下几个方面:
-
评估问题通常是 AI 生成的,形式固定;
-
逻辑链简单,不涉及复杂多步推理;
-
输入是纯文本形式,模态单一;
-
没有部署真实可执行的工具,无法端到端评测。
为了突破这些局限,来自上海交通大学与上海人工智能实验室的研究团队提出了 GTA(a benchmark for General Tool Agents),一个用于评估通用工具智能体的全新基准。本篇论文已被 NeurIPS 2024 Dataset & Benchmark Track 接收。GTA 主要特性包括:
-
真实的用户问题
-
真实部署的工具
-
多模态输入输出
GTA 通过设计真实世界场景的用户问题、真实部署的工具和多模态输入,建立了一个全面、细粒度的评估框架,能够有效评估大语言模型在复杂真实场景下的工具使用能力。


最低0.47元/天 解锁文章
926

被折叠的 条评论
为什么被折叠?



