大型语言模型 (LLM) 通常经过优化以回答人们的问题。但有一种趋势是,模型也经过优化以适应代理工作流程。这将极大地提高代理性能!
继 ChatGPT 在回答问题方面取得突破性成功之后,许多 LLM 开发都专注于提供良好的消费者体验。因此,LLM 经过调整以回答问题(“莎士比亚为什么写麦克白?”)或遵循人类提供的指令(“解释莎士比亚为什么写麦克白”)。指令调整指导模型的大部分数据集为人类编写的问题和指令提供更有用的答案,这些答案和指令可能会问面向消费者的 LLM,例如 ChatGPT、Claude 或 Gemini 的 Web 界面提供的那些。
但代理工作负载需要不同的行为。AI 软件可能会在迭代工作流程的一部分中使用模型来反思自己的输出、使用工具、编写计划并在多代理环境中进行协作,而不是直接为消费者生成响应。主要的模型制作者也在不断优化模型,以用于 AI 代理。
以工具使用(或函数调用)为例。如果向 LLM 询问当前天气情况,它将无法从训练数据中获取所需的信息。相反,它可能会生成 API 调用请求以获取该信息。甚至在 GPT-4 原生支持函数调用之前,应用程序开发人员就已经在使用 LLM 来生成函数调用,但通过编写更复杂的提示(例如 ReAct 提示的变体)来告诉 LLM 哪些函数可用,然后让 LLM 生成一个字符串,由单独的软件例程解析(可能使用正则表达式)以确定它是否要调用函数。
在 GPT-4 之后,生成此类调用变得更加可靠,然后许多其他模型原生支持函数调用。今天,LLM 可以决定调用函数来搜索检索增强生成 (RAG) 的信息、执行代码、发送电子邮件、在线下订单等等。
最近,Anthropic 发布了其模型的一个版本,该版本能够用于计算机,使用鼠标点击和按键来操作计算机(通常是虚拟机)。我很喜欢玩这个演示。虽然其他团队一直在鼓励 LLM 使用计算机构建新一代 RPA(机器人流程自动化)应用程序,但主要 LLM 提供商对计算机使用的本地支持是一大进步。这将帮助许多开发人员!
随着代理工作流程的成熟,我看到了以下情况:
• 首先,许多开发人员正在鼓励 LLM 执行他们想要的代理行为。这允许快速、丰富的探索!
• 在少数情况下,正在开发非常有价值的应用程序的开发人员将微调 LLM 以更可靠地执行特定的代理功能。例如,即使许多 LLM 本身支持函数调用,它们也会通过将可用函数的描述作为输入,然后(希望)生成输出令牌以请求正确的函数调用来实现。对于生成正确函数调用至关重要的任务关键型应用程序,针对应用程序的特定函数调用微调模型可显著提高可靠性。(但请避免过早优化!今天我仍然看到太多团队在进行微调,而他们可能应该在诉诸此举之前花更多时间进行提示。)
• 最后,当工具使用或计算机使用等功能对许多开发人员来说很有价值时,主要的 LLM 提供商正在将这些功能直接构建到他们的模型中。尽管 OpenAI o1-preview 的高级推理对消费者有帮助,但我预计它对代理推理和规划将更有用。
大多数 LLM 都针对回答问题进行了优化,主要是为了提供良好的消费者体验,我们已经能够将它们“嫁接”到复杂的代理工作流程中,以构建有价值的应用程序。构建 LLM 以原生支持代理中的特定操作的趋势将为代理性能带来很大的提升。我相信,我们将在未来几年内实现代理性能的大幅提升。
吴恩达
2024年11月13日
吴恩达(1976-,英文名:Andrew Ng),华裔美国人,斯坦福大学计算机科学系和电子工程系副教授,人工智能实验室主任。吴恩达是人工智能和机器学习领域国际上最权威的学者之一。吴恩达也是在线教育平台Coursera的联合创始人(with Daphne Koller),DeepLearning.AI创始人。
2014年5月16日,吴恩达加入百度,担任百度公司首席科学家,负责百度研究院的领导工作,尤其是Baidu Brain计划。
2024年4月,亚马逊将吴恩达纳入其董事会。
(本文是翻译,文章内容不代表本号立场)
觉得文章不错,顺手点个“点赞”、“在看”或转发给朋友们吧。

相关阅读:
关于译者

关注公众号看其它原创作品
坚持原创高质量软件交付相关文章
觉得好看,点个“点赞”、“在看”或转发给朋友们,欢迎你留言。
大型语言模型优化助力代理性能提升
1045

被折叠的 条评论
为什么被折叠?



