NeurIPS 2024 | 真实世界复杂任务,全新基准 GTA 助力大模型工具调用能力评测

利用语言模型调用工具,是实现通用目标智能体(general-purpose agents)的重要途径,对语言模型的工具调用能力提出了挑战。然而,现有的工具评测和真实世界场景存在很大差距,局限性主要体现在以下几个方面:

  • 评估问题通常是 AI 生成的,形式固定;

  • 逻辑链简单,不涉及复杂多步推理;

  • 输入是纯文本形式,模态单一;

  • 没有部署真实可执行的工具,无法端到端评测。

为了突破这些局限,来自上海交通大学与上海人工智能实验室的研究团队提出了 GTA(a benchmark for General Tool Agents),一个用于评估通用工具智能体的全新基准。本篇论文已被 NeurIPS 2024 Dataset & Benchmark Track 接收GTA 主要特性包括:

  • 真实的用户问题

  • 真实部署的工具

  • 多模态输入输出

GTA 通过设计真实世界场景的用户问题、真实部署的工具和多模态输入,建立了一个全面、细粒度的评估框架,能够有效评估大语言模型在复杂真实场景下的工具使用能力。

图片

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值