LLM Agent-指令微调方案: Toolformer & Gorilla

最新推荐文章于 2025-10-20 00:25:59 发布

原创最新推荐文章于 2025-10-20 00:25:59 发布 · 895 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #人工智能 #llama #langchain #大模型 #LLM #RAG

部署运行你感兴趣的模型镜像

这一章介绍基于模型微调，支持任意多工具组合调用，复杂调用的方案。多工具调用核心需要解决3个问题，在哪个位置进行工具调用(where), 从众多工具中选择哪一个(Which), 工具的输入是什么(What)。Where + Which + What，我称之为3W原则，3H它兄弟哈哈哈哈~

其实如何教大模型使用工具，和教人类使用工具没啥区别。就像上周末我想给我妈买的可以防弹，超重的岩板餐桌按个滑轮需要使用电钻，那我学习使用电钻的途径无非有三种

基于历史经验：我之前都是手动的没用过电动的，我凭借自信直接上手结果拧歪了…对应到LLM其实就是本章要提到的工具微调，我们让模型先学习在在不同的场景使用什么工具，如何使用，再利用大模型的迁移泛化能力泛化到更多的场景。
从工具说明书中学习：我去翻了翻说明书，奈何写的太抽象没看懂…对应到LLM简单版的就是上一章的zero-shot prompt方案，告诉大模型工具的使用场景和用法；升级版就是之后会提到的优化方案，我们可以动态召回工具的完整说明书和使用范例作为上文输入模型
通过观察他人使用工具来学习：最终我打开小红书看短视频学习了下，一点就通，于是我拥有了可丝滑移动的防弹餐桌！对应到LLM简单版就是上一章介绍的few-shot prompt方案，我们让LLM看到在其他场景它是如何使用工具的；升级版就是之后会提到的动态few-shot prompt的方案。

下面我们看下通过微调为模型注入工具使用经验的两个方案：Toolformer和Gorilla

Toolformer

TALM: Tool Augmented Language Models
Toolformer: Language Models Can Teach Themselves to Use Tools
填充式工具使用 + InContext制造自监督样本

Toolformer是工具调用领域的前辈，使用LM监督微调得到可以进行Inline工具调用的模型。解码时，模型会在恰当的位置生成API调用的请求，并中止解码，去调用API得到返回值，把返回值拼接到"->"字符之后，再继续模型解码，如下

在这里插入图片描述

Toolformer的创新主要在API调用的样本构造，因此我们先来看下样本构造的部分

样本

Toolformer单一API的样本构造主要包含以下3个步骤

Sampling API

以QA API为例，作者会先编写几个样本作为In-Context，得到以下的FewShot指令样本

在这里插入图片描述

然后针对新的长度为N的输入文本，作者会计算每个位置得到前缀的条件解码概率，并保留超过阈值的TopK个最优可能出现的位置。然后每个位置，基于上文，让模型随机解码m次生成m个候选的API调用请求。这样我们就得到了候选样本集，每一段文本，最多有K个可能进行工具调用的位置，且每个位置有至多m个候选请求{c1,…cm}。

Executing API Calls

执行以上得到的候选请求，每个请求得到一个对应的返回值{r1,…rm}。可以是计算器的结果，维基百科的搜索返回等等

Filtering API Calls

最后是过滤筛选，原理是好的工具调用样本，应该会让工具调用位置后面的文本解码概率提高，Perplexity降低。因此作者计算了在工具调用位置之后，所有token的加权条件解码概率。

在这里插入图片描述

以上加权的权重计算如下，离工具调用位置越远权重越小

在这里插入图片描述

条件解码概率的条件Z，分别是[工具调用+返回值]，[工具调用+无返回值]，[无工具调用]，这三者中Loss较小的一个,过滤方案是[工具调用+工具返回值]的Loss降幅超过阈值，则保留该样本

整体量级上，1个API生成了25K左右的样本用于微调，样本长度1024

微调

使用以上样本生成方案得到多API调用的样本集混合后得到增强训练样本。样本的构建方式是在原始文本中直接插入API调用的语句x1:i−1,e(ci,ri),xi:nx1:i−1,e(ci,ri),xi:n,如下

The Nile has an approximate length of QA(What is the approximate length of the Nile?)->6,853 km 6,853 kilometers, the White Nile being its main source

这样通过微调，模型会学习到在什么位置使用什么样的工具，以及工具的请求输入。同时和解码的格式保持一致，后文会依赖API调用结果进行解码。微调使用了GPT-J模型，Batch=128， lr=1e-5，warmup=10%，训练了2K step，常规的LM Loss.

总结

Toolformer的创新主要在使用模型的Few-shot理解能力，使用少量的人工标注样本制造大量的自监督样本。这样Tooformer理论上可以支持任意的API工具。但Toolformer有一些局限性

工具独立：论文中每个API调用的样本是独立构造的，工具之间没有交互，且同一工具的多次调用之间也是独立，不依赖上文的调用返回。
常规解码：没有引入思维链推理，限制了最终效果

Gorilla

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace
TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs
Gorilla：Large Language Model Connected with Massive APIs
https://github.com/ShishirPatil/gorilla

Gorilla在HuggingGPT，TaskMatrix.AI这两个API调用的前辈的基础上，加入了指令微调来提升API调用效果。Gorilla支持TorchHub，TensorflowHub，Huggingface总共1645个API，且可以泛化到新的API上。

在这里插入图片描述

样本

Gorilla使用Self-Instruct来构建指令样本，用的是GPT4模型。构建方案是以上3个API Hub, 每个Hub各人工编写6个指令样本。每一轮随机从6个样本中采样3个作为Few-Shot，并通过指令让GPT4随机生成10个真实世界的使用case，总共生成16450个指令样本，生成的指令样本如下

在这里插入图片描述

同时Gorilla加入了Retriever-Aware，也就是在以上的指令样本中，指令后面会拼接上API的使用说明:“Use this API documentation for reference: <retrieved_API_doc_JSON>”

这样在推理阶段，会先根据用户的指令召回最相关、最新的API使用说明。降低模型幻觉的同时，使得模型有更好的泛化性，可以适应全新的API接口，或者已有API接口的参数变化。

微调&推理

微调的部分比较常规就是在LLama-7B模型上，使用以下参数在8*A100(40G)进行指令微调。

在这里插入图片描述

在推理阶段会同样加入API Retriever根据用户的指令召回最相关的API使用说明，和用户输入拼接，喂进模型推理。召回方案作者尝试了BM25和GPT的Embedding，不过不同召回方案的效果和API本身相关，没有谁一定更好这一说。

效果上微调后7B的LLama模型使用GPT Embedding召回工具说明，在工具调用上的准确率可以显著超越GPT3.5使用Prompt方案的调用效果

在这里插入图片描述

总结

对比上一章基于Prompt的方案Self Ask，ReAct和这一章基于微调的方案Toolformer，Gorilla，指令微调的方案有以下优势

planning效果更好：微调方案比Prompt方案在复杂问题规划上效果更好，尤其适合本身In-Context能力有限的小模型
工具调用准确率更高：针对复杂工具调用的准确率更高
不受模型迭代影响：GPT3.5->GPT4的升级，让不少基于Prompt指令的应用们需要集体进行prompt调整，因为模型指令变了…以及不同模型之间的指令或有不同。但微调方案不受这一点影响，因为指令微调本身就是对齐的过程，因此更robust

缺点自然是没有开箱即用的Prompt方案灵活，所以不妨用prompt方案来进行前期测试，后期用微调来提升效果。

但其实不论是prompt方案还是微调方案，其实都是LLM Agent应用中的工具调用规划这一个子模块，要真正搭建可以落地的大模型应用，需要更系统的整体设计

如何系统的去学习AI大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

👉优快云大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍