【LLM Tool Learning】论文分享: Chain-of-Tools

论文名称:Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models

论文链接:https://arxiv.org/abs/2503.16779

机构:苏州大学

Github代码链接:https://github.com/fairyshine/Chain-of-Tools

简介

本文主要是提出了一种可以提升LLM工具使用的泛化能力的方法,叫Chain-of-Tools,并且构建了一个新的知识问答数据集叫SimpleToolQuestions。方法在两个数理基准(GSM8K-XL、FuncQA)以及 两个知识问答基准(KAMEL、Chain-of-Tools)的效果均优于Baseline,相关代码和数据也做了开源,值得一看。

Motivation

对于LLM的工具学习方法,主要有两种:

  • 基于微调的方法(Fine-tuning):比如API-Bank、ToolLLM等,这种思路训练完,模型对于域内工具的使用能力会有提升,但涌现能力和CoT可能会受到影响。即使后面有ToolkenGPT这种方法不会伤害模型原有的能力,但泛化能力依然没有明显的提升。

  • 基于上下文学习的方法(In-Context Learning):比如HuggingGPT、AgentBench这种,虽然可以灵活的调用看不见的工具,但推理效率较低。

    在这里插入图片描述

表1就展示了上述方法的优劣点,作者肯定是吹了一波自己的方法了,不赘述。各列名的含义如下:

  • Tool Learning Paradigms:工具学习范式(指不同的工具学习方法类型)。

  • Frozen LMs:是否支持冻结大语言模型(即不修改模型原有参数)。

  • Plugable:工具是否可插拔(即能否灵活加载工具)。

  • Massive Tools:是否适用于处理大量工具的场景。

  • Unseen Tools:是否支持使用训练中未见过的新工具。

  • Ability to Use Extensive Data:是否具备利用广泛训练数据提升方法性能的能力。

框架概述

在这里插入图片描述

图2展示了Chain-of-Tools(CoTools)的工作流程,主要包括思维链推理(CoT Reasoning)、工具选择(Tool Selection )和工具调用(Tool Calling)三大部分。

思维链推理(CoT Reasoning)

在这一部分(图中左侧粉色区域),首先有一个任务提示(Task Prompt),包含问题(Query)和答案(Answer)相关部分。基础模型(Foundation Model)会基于此进行处理。这里有个工具判断模块(Tool Judge) ,它会判断是否需要调用工具。如果判断结果为不需要(NO),基础模型的语言模型头部(LM Head)就继续生成下一个标记(Generate Next Token) ;如果判断结果为需要(YES),则进入工具选择环节。

工具选择(Tool Selection )

这部分(图中上方右侧区域)又细分为工具检索(Tool Retriever )相关步骤:

  • 检索提示(Retrieval Prompt):包含问题(Query)和答案片段(Answer Fragment),经基础模型的查询编码器(Query Encoder)处理得到查询向量(Query Vector) 。

  • 工具提示(Tool Prompt):包含工具名称(Tool Name)和工具描述(Tool Description),通过工具编码器(Tool Encoder)得到工具向量(Tool Vectors) 。然后计算查询向量和工具向量之间的相似度(Similarity),依据相似度给各个工具打分(Score),选出得分最高(MAX)的工具 。工具相关信息都存储在工具数据库(Tool DataBase)中,这里面有工具池(Tool Pool ),还能进行工具管理(如添加工具、移除工具、执行工具等操作 )。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

依然易冷

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值