一个Agent系统不一定需要外部工具就能成为Agent。但是,如果没有外部工具,Agent的能力就会受到很大限制。单独来看,一个模型通常只能执行一种动作 - 比如大语言模型只能生成文本,图像生成器只能生成图像。而外部工具能让Agent变得更加强大。
一、工具的本质
工具帮助Agent完成两件事:感知环境和改变环境。
- 感知环境的工具是只读操作,比如获取天气信息
- 改变环境的工具是写入操作,比如发送邮件
Agent所能使用的工具集合,一般称之为工具清单(tool inventory)。由于工具清单决定了Agent能做什么,所以选择合适的工具非常重要。
工具越多,Agent的能力就越强。但是工具数量越多,理解和正确使用这些工具就越困难。这就像人类一样,掌握太多工具也会让人手忙脚乱。
二、三大类工具
根据Agent的使用环境,我们可以将工具分为三类:知识增强、能力扩展和环境交互。
1. 知识增强类工具
这类工具的核心目标是增强Agent的知识储备。比如:
- 文本检索工具
- 图像检索工具
- SQL执行器
- 一些企业内部的API
- 邮件阅读器
这些工具不仅可以帮助Agent获取组织内部的私有信息,还能让它获取公开信息,尤其是互联网上的信息。
网页浏览是ChatGPT最早也是最受期待的功能之一。它可以防止模型知识过时。如果模型的训练数据截止于上周,那么没有网页浏览功能,它就无法回答需要本周信息的问题。
这里的"网页浏览"是一个统称,包括了所有访问互联网的工具:
- 网页浏览器
- 搜索API
- 新闻API
- GitHub API
- 社交媒体API 等等
虽然网页浏览可以帮助Agent获取最新信息,减少幻觉,但也可能让Agent接触到互联网上的“不良”信息。所以使用web_search API时要注意某些方面。
2. 能力扩展类工具
这类工具主要用来弥补AI模型的固有缺陷。它们是提升模型性能的简单方法。
比如说,AI模型在数学计算方面表现很差。如果你问模型"199,999除以292等于多少",模型很可能会算错。但如果给模型一个计算器,这个计算就变得很简单了。与其花大力气训练模型做算术,不如直接给它一个计算工具来得更高效。
其他一些能显著提升模型能力的简单工具包括:
- 日历
- 时区转换器
- 单位转换器
- 翻译器
更复杂且功能强大的工具是代码解释器。它可以:
- 执行代码片段
- 返回执行结果
- 分析代码失败原因
这让你的Agent可以充当:
- 编程助手
- 数据分析师
- 研究助手(可以编写代码运行实验并报告结果)
不过要注意,自动执行代码存在代码注入攻击的风险,也需要采取适当的安全措施。
工具还能让单模态模型变成多模态模型。比如:
- 文本模型可以用文本转图像模型作为工具,这样就能同时生成文字和图像
- 这也是ChatGPT能生成图像的原理 - 它使用DALLE作为图像生成器
Agent还可以使用:
- 代码解释器生成图表
- LaTex编译器渲染数学公式
- 浏览器渲染HTML代码
同样,只能处理文本输入的模型可以使用:
- 图像描述工具处理图像
- 转录工具处理音频
- OCR工具读取PDF
使用工具可以显著提升模型性能。Chameleon的工作中提到,配备13个工具的GPT-4 Agent在多个基准测试中都超过了单独使用GPT-4的表现:
- 在科学问答基准ScienceQA上,提升了11.37%
- 在表格数学问题TabMWP上,准确率提升了17%
3. 写入操作类工具
前面讨论的都是只读操作,让模型从数据源读取信息。但工具也可以执行写入操作,对数据源进行修改:
- SQL执行器不仅能查询数据表,还能修改或删除表
- 邮件API不仅能读取邮件,还能回复邮件
- 交易API不仅能查询余额,还能发起转账
写入操作让系统能做更多事情,可以很多必须人介入的流程,比如智谱的autoglm,在操作钱的时候,必须手动确认。如果你放心它,那其实可以让agent帮你点外卖,你只需要说一句话而已,无须任何的确认。
总的来说,让AI自动改变我们的生活是挺可怕的。就像在公司里边,设置各种数据库操作权限一样,可能也不应该让不可靠的AI执行涉及到钱之类的操作。这需要我们对系统的能力和安全措施有足够的信任。
三、安全性思考
每当提到AI Agent时,总会有一个经典的自动驾驶汽车的例子:“如果有黑客入侵汽车系统绑架你怎么办?”
虽然自动驾驶的例子因为是物理存在的,而显得存在可能性,但AI系统不需要物理存在就能造成伤害。比如说,它可以传播虚假信息,侵犯隐私,操作股市之类的。
这些都是合理的担忧,任何想要利用AI的组织都需要认真对待安全问题。
但这并不意味着我们永远不能让AI系统在现实世界中行动。应该会有一天,足够的安全措施能让我们信任自主AI系统。况且,人类也会犯错。
最后
正如合适的工具能大大提高人类的生产力,工具也能让AI模型完成更多任务。
现在很多模型提供商都支持工具使用,这个功能通常被称为函数调用(function calling)。
四、如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方优快云官方认证二维码
,免费领取【保证100%免费
】