ToolLearning Eval：CodeFuse发布首个中文Function Call的大语言模型评测基准！

最新推荐文章于 2025-09-07 12:56:13 发布

原创

最新推荐文章于 2025-09-07 12:56:13 发布 · 4.3k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理

CodeFuse发布ToolLearning-Eval，首个中文工具学习评测基准，针对大模型在工具选择、调用及执行结果总结中的能力。评测数据包括清洗的开源数据、翻译后的英文数据和自建的训练集，旨在推动工具学习领域模型的发展和评估。

1. 背景

随着ChatGPT等通用大模型的出现，它们可以生成令人惊叹的自然语言，使得机器能够更好地理解和回应人类的需求，但在特定领域的任务上仅靠通用问答是无法满足日常工作需要。随着OpenAI推出了Function Call功能，工具学习能力越来越作为开源模型的标配，目前业界较有影响力的是ToolBench的英文数据集。但是中文数据集的稀缺，使得我们很难判断各个模型在中文型工具上Function Call的能力差异。

为弥补这一不足，CodeFuse发布了首个面向ToolLearning领域的中文评测基准ToolLearning-Eval，以帮助开发者跟踪ToolLearning领域大模型的进展，并了解各个ToolLearning领域大模型的优势与不足。ToolLearning-Eval按照Function Call流程进行划分，包含工具选择、工具调用、工具执行结果总结这三个过程，方便通用模型可以对各个过程进行评测分析。

目前，我们已发布了第一期的评测榜单，首批评测大模型包含CodeFuse、Qwen、Baichuan、Internlm、CodeLLaMa等开源大语言模型；我们欢迎相关从业者一起来共建ToolLearning Eval项目，持续丰富ToolLearning领域评测题目或大模型，我们也会定期更新评测集和评测榜单。

GitHub 地址：GitHub - codefuse-ai/codefuse-devops-eval: Industrial-first evaluation benchmark for LLMs in the DevOps/AIOps domain.

ModelScope 地址：devopseval-exam