本文是LLM系列文章,针对《ToolEyes: Fine-Grained Evaluation for Tool Learning Capabilities
of Large Language Models in Real
摘要
现有的工具学习评估主要侧重于验证大型语言模型(LLM)所选工具与预期结果的一致性。然而,这些方法依赖于一组有限的场景,在这些场景中,答案可以预先确定,与真正的需求不同。此外,仅仅强调结果忽略了LLM有效利用工具所必需的复杂能力。为了解决这个问题,我们提出了ToolEyes,这是一个细粒度的系统,专门用于评估真实场景中LLM的工具学习能力。该系统仔细检查了七个现实世界场景,分析了在工具学习中对LLM至关重要的五个维度:格式对齐、意图理解、行为规划、工具选择和答案组织。此外,ToolEyes集成了一个拥有大约600个工具的工具库,作为LLM和物理世界之间的中介。涉及三个类别的十个LLM的评估揭示了在工具学习中对特定场景的偏好和有限的认知能力。有趣的是,扩大模型大小甚至会加剧工具学习的障碍。这些发现提供了有益的见解,旨在推进工具学习领域。代码和数据在https://github.com/Junjie-Ye/ToolEyes上可用.

本文提出ToolEyes系统,用于在真实场景下细粒度评估大型语言模型(LLM)的工具学习能力。系统分析了五个关键维度,并在七个场景中使用约600个工具进行测试。实验表明,扩大模型规模可能增加工具学习的挑战,为LLM的进一步发展提供见解。
订阅专栏 解锁全文
2295

被折叠的 条评论
为什么被折叠?



