Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

使用工具文档实现大型语言模型的零样本工具使用

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/132104042

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文提出使用工具文档替代演示来教大型语言模型（LLM）如何使用新工具。研究发现，仅凭文档，LLM就能在多个任务中表现出与少量示例相当或更好的性能，且在新工具和复杂任务中表现出强大的适应性。通过文档，LLM甚至可以自动学习新功能，如图像生成和视频跟踪，展示了知识发现的潜力。

本文是LLM系列文章的内容，针对《Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models》的翻译。

摘要

如今，大型语言模型（LLM）通过提供一些工具用法的演示来学习使用新工具。不幸的是，演示很难获得，如果选择了错误的演示，可能会导致不希望的有偏见的使用。即使在极少数情况下，演示很容易获得，也没有原则性的选择协议来确定提供多少演示以及提供哪些演示。随着任务变得越来越复杂，选择搜索组合增长，并且总是变得棘手。我们的工作提供了一种替代演示的方法：工具文档。我们提倡使用工具文档——对单个工具使用的描述——而不是演示。我们通过对视觉和语言模式中的6项任务的三个主要实证发现来证实我们的说法。首先，在现有的基准测试中，只有工具文档的零样本提示就足以引发正确的工具使用，实现与很少的零样本提示相当的性能。其次，在一个新收集的具有数百个可用工具API的真实工具使用数据集上，我们表明工具文档比演示更有价值，零样本文档显著优于没有文档的小样本。第三，我们强调了工具文档的好处，通过使用刚刚发布的未公开的最先进模型作为工具来处理图像生成和视频跟踪。最后，我们强调了使用工具文档自动启用新应用程序的可能性：通过只使用GroundingDino、Stable Diffusion、XMem和SAM的文档，LLM可以重新发明刚刚发布的Grounded SAM和Track Anything模型的功能。