今天,我们继续回到R1推理模型以及多智能体的话题。
有三个有趣的实验报告。
分别是,推理模型思考后再思考会有效果提升(Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking)、推理模型训练数据的长度比难度更重要(Long Is More Important Than Difficult for Training Reasoning Models)以及多智能体之间协同会失效(Why Do Multi-Agent LLM Systems Fail)。
一、R1类推理模型训练跟推理性能的2个实验
关于推理模型思考模式新发现,
1、推理模型思考后再思考会有效果提升
看起来三思而后行,实则越来越慢,《Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking》(https://arxiv.org/pdf/2503.19855),
其思路是,利用先前的答案作为后续轮次的提示,迭代完善模型推理,关键提示为:{原问题提示}助手之前的回答是:{Last Round Answer},请重新回答。
更具象化的现实就是:
那么,效果如何?
在QWQ-32B和DeepSeek-R1等多个模型上进行的广泛实验显示,在AIME 2024、MATH-500等各种基准测试中,性能持续提高。
例如,QWQ-32b在AIME 2024数据集上的准确率从80.3%(第一轮)提高到了82.1%(第二轮),而DeepSeek-R1的准确率也从79.7%提高到了82.0%。
但是问题来了,那么再次思考,是否会1)带来指令不遵循的问题,因为跟模型训练时候的数据不一致?2)现在单次think大家体感下来就已经很慢了,再加一次思考,会增加时间,落地意义不是很大?并且跟这个方向上有个相反的方向,就是做think时间的缩短,也可以关注。
2、推理模型训练数据的长度比难度更重要
R1推理能力训练的一个实验,《Long Is More Important Than Difficult for Training Reasoning Models》(https://arxiv.org/pdf/2503.18069),通过实验发现,影响训练模型性能的主要是推理长度而不是问题难度;确定推理长度的缩放规律,表明模型性能随着推理数据长度的增长而以对数线性方式增长。
通过对Long1K数据集上的Qwen2.5-32B指令语言模型进行微调后,提出Long1K-32B,仅使用1000个训练样本,数学准确率达到95.6%,GPQA准确率达到71.1%,优于DeepSeek-R1-Distil-QWEN-32B。
https://huggingface.co/ZTss/LONG1
二、为什么多Agent会失效?
最近这个分析结论也很有趣。《Why Do Multi-Agent LLM Systems Fail?》(https://arxiv.org/pdf/2503.13657),通过对对5种流行MAS框架、150多个对话轨迹的分析,经过6位专业标注,确定3类共14种故障模式。
看几个点:
1、三类共14种故障模式具体定义
3类共14种故障模式如下,我们可以看看,以及其实际占比分布。
1)规范与系统设计故障
该类别包括由于系统架构设计缺陷、对话管理不佳、任务规范不明确或违反约束条件,以及代理角色和职责定义不充分或不遵守而引起的故障。有五种故障模式:
1.1 不遵守任务规范。未能遵循给定任务的指定约束或要求,导致次优或不正确结果。
1.2 不遵守角色规范。未能遵守分配角色的定义职责和约束,可能导致一个代理表现得像另一个代理。
1.3 步骤重复。在流程中对已完成步骤的不必要重复,可能导致任务完成过程中的延误或错误。
1.4 丢失对话历史。意外的上下文截断,忽略最近的互动历史,并回到之前的对话状态。
1.5 不了解终止条件。缺乏对应当触发代理互动终止的标准认可或理解,可能导致不必要的继续。
2)代理间不一致
该类别包括由于沟通无效、协作不佳、代理间的冲突行为以及逐渐偏离初始任务而产生的故障,有六种故障模式:
2.1 对话重置。意外或无正当理由的对话重新开始,可能丢失上下文和互动中取得的进展。
2.2 未能请求澄清。在遇到不清晰或不完整数据时无法请求额外信息,可能导致错误行动。
2.3 任务脱轨。偏离既定任务的预期目标或焦点,可能导致无关或无效的行动。
2.4 信息隐瞒。未能共享或传达代理拥有的重要数据或见解,如果共享可能会影响其他代理的决策。
2.5 忽略其他代理的输入。忽视或未能充分考虑系统中其他代理提供的输入或建议,可能导致次优决策或错失合作机会。
2.6 推理与行动不匹配。逻辑推理过程与代理实际采取的行动之间的差异,可能导致意外或不期望的行为。
3)任务验证与终止
该类别包括由于过早执行终止导致的失败,以及缺乏足够的机制来保证互动、决策和结果的准确性、完整性和可靠性,有三种故障模式:
3.1 过早终止。在所有必要信息尚未交换或目标尚未达成之前结束对话、互动或任务,可能导致不完整或不正确的结果。
3.2 未进行或未充分验证。(部分)省略对任务结果或系统输出的适当检查或确认,可能使错误或不一致未被检测到而传播。
3.3 错误验证。在迭代过程中未能充分验证或交叉核对关键信息或决策,可能导致系统中的错误或漏洞。
2、五种主流的agent框架及其实际表现
MetaGPT(https://arxiv.org/pdf/2308.00352,https://github.com/geekan/MetaGPT)。模拟了一家软件工程公司,涉及诸如编码员和验证员等智能体。目标是让具有领域专业知识的智能体(通过将不同角色的标准化操作程序编码进智能体提示中实现)协同解决一个用自然语言指定的编程任务。
ChatDev(https://github.com/OpenBMB/ChatDev)。初始化不同的智能体,每个智能体假设在软件开发公司中担任常见角色。该框架将软件开发过程分为三个阶段:设计、编码和测试。每个阶段又细分为子任务,例如,测试分为代码审查(静态)和系统测试(动态)。
HyperAgent(https://github.com/FSoft-AI4Code/HyperAgent)。围绕四个主要智能体组织的软件工程任务框架:规划者、导航员、代码编辑器和执行者。
APPworld(https://arxiv.org/abs/2407.18901,https://github.com/StonyBrookNLP/appworld),引入了 AppWorld Engine,这是一个高保真执行环境,包含 9 个日常应用程序,可通过 457 个 API 进行操作,其中包含约 100 人生活在模拟世界中的数字活动,以及与自然、多样且具有挑战性的自主代理任务相关的基准,需要丰富且交互式的编码。
AG2(https://github.com/ag2ai/ag2),用于构建代理并管理它们的交互。使用此框架,可以构建各种灵活的对话模式,整合工具使用并自定义终止策略。
几个框架的实际表现如下:
具体实效细节如下:
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。