Fine-Grained Evaluation for Tool Learning Capabilities of Large Language Models in Real-world

828 篇文章

已下架不支持订阅

本文提出ToolEyes系统,用于在真实场景下细粒度评估大型语言模型(LLM)的工具学习能力。系统分析了五个关键维度,并在七个场景中使用约600个工具进行测试。实验表明,扩大模型规模可能增加工具学习的挑战,为LLM的进一步发展提供见解。

本文是LLM系列文章,针对《ToolEyes: Fine-Grained Evaluation for Tool Learning Capabilities
of Large Language Models in Real

ToolEyes:现实世界场景中大型语言模型工具学习能力的精细评估

摘要

现有的工具学习评估主要侧重于验证大型语言模型(LLM)所选工具与预期结果的一致性。然而,这些方法依赖于一组有限的场景,在这些场景中,答案可以预先确定,与真正的需求不同。此外,仅仅强调结果忽略了LLM有效利用工具所必需的复杂能力。为了解决这个问题,我们提出了ToolEyes,这是一个细粒度的系统,专门用于评估真实场景中LLM的工具学习能力。该系统仔细检查了七个现实世界场景,分析了在工具学习中对LLM至关重要的五个维度:格式对齐、意图理解、行为规划、工具选择和答案组织。此外,ToolEyes集成了一个拥有大约600个工具的工具库,作为LLM和物理世界之间的中介。涉及三个类别的十个LLM的评估揭示了在工具学习中对特定场景的偏好和有限的认知能力。有趣的是,扩大模型大小甚至会加剧工具学习的障碍。这些发现提供了有益的见解,旨在推进工具学习领域。代码和数据在https://github.com/Junjie-Ye/ToolEyes上可用.

1 引言

2 评估系统

3 实验

4 相关工作

5 结

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值