T-Eval：大模型智能体能力评测基准解读 | ACL 2024

原创

已于 2024-07-29 11:46:41 修改 · 4k 阅读

·

37

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #AIGC #深度学习 #github

于 2024-07-29 11:21:25 首次发布

AI Agent（智能体）作为大模型的重要应用模式，能够通过使用外部工具来执行复杂任务，完成多步骤的工作流程。为了更全面地评估模型的工具使用能力，司南及合作伙伴团队推出了T-Eval评测基准，相关成果论文已被ACL 2024主会录用，点击链接可查看原文：https://arxiv.org/abs/2312.14033。

T-Eval评测基准

使用了工具的大语言模型有着惊艳的问题解决能力，但是如何评估模型的工具使用能力还有很大的探索空间。现有评估方法通常只关注模型处理单步骤任务时的工具调用表现，缺少在多步骤复杂任务场景下模型使用工具能力的评估。

因此，为了更全面地评估大语言模型的工具使用能力，司南及合作伙伴团队推出了 T-Eval (a step-by-step Tool Evaluation benchmark for LLMs) 评测基准，相较于之前整体评估模型的方式，论文中将大模型的工具使用分解为多个子过程，包括规划、推理、检索、理解、指令跟随和审查。

规划（PLAN）：制定工具调用策略。
推理（REASON）：理解工具使用环境和自身功能，生成逻辑思考内容。
检索（RETRIEVE）：从给定的工具列表中选择合适的工具。
理解（UNDERSTAND）：正确理解工具使用的参考文档和所需参数。
指令跟随（INSTRUCT）：生成指定格式的工具调用请求。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。