一、文章主要内容总结
本文由阿里巴巴通义实验室团队撰写,聚焦大语言模型(LLMs)向智能体系统(agentic systems)的演进,针对现有基于通用基础模型的后训练方法(如SFT、RL)在智能体任务中表现不佳的问题,提出了智能体持续预训练(Agentic Continual Pre-training, Agentic CPT) 范式,并基于此开发了深度研究智能体模型AgentFounder,具体内容如下:
-
问题诊断:现有智能体模型(如WebSailor、GLM-4.5)依赖通用基础模型进行后训练,需同时学习多样智能体行为与对齐专家演示,存在优化冲突;且通用基础模型缺乏智能体归纳偏置,导致在复杂任务(如网页检索、知识密集型任务)中性能落后于闭源模型(如OpenAI Deep Research)。
-
核心方法:
- 智能体持续预训练(Agentic CPT):在预训练与后训练之间新增中间层,生成“预对齐智能体基础模型”,核心是通过大规模、多领域的智能体数据训练,让模型先掌握工具调用、多步推理等基础智能体能力,降低后训练负担。
- 两阶段训练策略:Stage 1使用约200B tokens的一阶行为合成(FAS)数据与短序列高阶行为合成(HAS)数据,基于32K上下文窗口初步学习智能体行为;Stage 2使用100B tokens的高质量HAS数据,基于128K上下文窗口优化长序列规划能力。</
智能体持续预训练新范式

订阅专栏 解锁全文
744

被折叠的 条评论
为什么被折叠?



