开源大模型性能新标杆:GLM-4.5技术报告深度解析,登顶Hugging Face背后的突破
8月11日消息,智谱AI正式发布新一代旗舰大模型GLM-4.5的完整技术白皮书。该模型凭借推理能力、编程效能与智能体交互的深度融合,在12项权威基准测试中创下"开源全球第一、国产模型榜首、全球模型前三"的亮眼成绩,发布后48小时内即登顶Hugging Face开源平台趋势榜。智谱AI在技术报告中首次披露了模型在预训练架构、中期能力强化、后训练优化等全流程的创新突破,为开源大模型技术演进提供了重要参考。
从知识载体到问题解决者:ARC能力体系重构模型定位
GLM-4.5研发团队提出,当前大模型正经历从"通用知识库"向"通用问题求解器"的范式转变,其核心标志是具备智能体交互能力(Agentic)、复杂推理能力(Reasoning)和高级编程能力(Coding)构成的ARC能力体系。这种能力重构要求模型不仅能存储知识,更能像人类开发者一样进行多步骤问题拆解、工具调用决策和自主学习进化。
为支撑ARC能力建设,GLM-4.5构建了多维度高质量预训练数据体系。该数据集涵盖网页文档、多语种文本、代码仓库及数学科学文献,通过三重质量筛选机制实现精准数据上采样:对GitHub代码采用编程语言专属质量模型分级,保留Top 20%高质量代码并采用Fill-In-the-Middle目标训练;科学文献通过双阶段检索系统过滤,结合细粒度解析器完整保留公式与图表结构;中文数据特别强化了专业领域语料的逻辑连贯性标注。
模型架构创新方面,GLM-4.5在借鉴DeepSeek-V3架构基础上,实施"瘦身增深"策略:将模型隐藏维度压缩15%的同时增加20%的网络层数,配合96头分组查询注意力(GQA)设计,使推理能力提升30%。技术报告特别指出,QK-Norm技术的应用有效稳定了注意力权重分布,使模型在240K上下文长度下仍保持92%的信息召回率。值得关注的是,模型在MTP(多Token预测)层创新性植入MoE结构,为推测式解码提供算力支撑,推理速度较传统架构提升2.3倍。
三阶训练体系革新:中期训练填补能力鸿沟
突破传统"预训练-后训练"二元模式,GLM-4.5首创"预训练-中期训练-后训练"三阶训练框架。其中中期训练阶段针对三大核心场景实施定向强化:在仓库级代码理解训练中,通过拼接跨文件依赖图谱与开发日志,使模型掌握大型软件工程的模块调用逻辑;合成推理数据训练采用竞赛级数学题与科学实验设计,结合思维链生成技术构建百万级推理步骤样本;长上下文训练通过动态扩展序列长度至128K,并上采样法律文书、学术论文等超长文本,使模型具备完整理解专业文档的能力。
后训练阶段采用"专家模型分化-统一能力融合"的两步策略。在专家训练阶段,分别针对推理、对话、智能体三个方向训练专项模型:推理专家模型采用数学竞赛题与科学问题数据集,通过思维链微调掌握多步骤解题逻辑;智能体专家模型则在模拟环境中训练工具调用决策与错误修正能力。统一训练阶段通过知识蒸馏技术,将多专家模型能力融合为单一模型,形成"即时响应-深度推理"双模式切换机制,既保证日常对话的快速响应,又能在复杂任务中启动思维链推理。
训练技术突破:Slime框架实现强化学习效率跃升
GLM-4.5在后训练阶段实现多项技术突破。在有监督微调(SFT)环节,研发团队创新设计XML风格函数调用模板,将代码参数转义字符减少60%;通过拒绝采样机制构建多阶段数据过滤流水线,使无效样本率降低至3%以下;针对数学推理任务实施提示长度优化,将高难度问题的求解准确率提升4%。智能体训练数据采用自动化构建流程,通过多评判代理系统筛选的工具调用轨迹,使模型在复杂任务中的工具选择准确率达89%。
强化学习环节的技术创新尤为亮眼。推理强化学习采用难度分级课程学习策略,通过由易到难的梯度训练,使数学问题求解效率提升40%;编程任务中首创token加权损失函数,较传统序列均值损失收敛速度加快2倍;科学领域强化学习实验显示,使用专家验证数据的GPQA-Diamond测试得分,比混合质量数据训练高出15个百分点。
自研开源基础设施框架Slime成为强化学习效率突破的关键。该框架创新实现同步共置与异步分离两种训练模式:前者将推理与训练GPU资源协同调度,使资源利用率提升至92%;后者通过Ray分布式框架实现智能体环境与训练进程解耦,支持240个并发Docker环境持续生成训练数据。混合精度优化策略更是将Rollout阶段数据生成吞吐量提升3倍——通过在线分块FP8量化技术,在保持BF16训练精度的同时,实现推理阶段的高效计算。
基准测试验证:多维度性能跻身全球第一梯队
在12项ARC核心能力测试中,GLM-4.5展现全面竞争力。智能体领域测试显示,模型在自定义函数调用准确率(HLE)、复杂问题拆解能力(LCB)等指标上平均分仅次于OpenAI o3;推理能力测试中,AIME数学竞赛题求解准确率超越o3,SciCode科学问题推理得分领先Claude Opus 4达7个百分点;编程任务表现尤为突出,SWE-BenchVerified代码修复准确率达78.3%,接近Claude 4 Sonnet水平,Terminal-Bench终端命令执行正确率较同类模型提升12%。
特别值得关注的是真实场景测试CC-Bench的表现:GLM-4.5与Claude 4 Sonnet的任务完成率对比为40.4% vs 50.0%,在API调用优化、多工具协同等场景展现出显著优势。基础模型GLM-4.5-Base在未经过指令微调的情况下,已实现英语、中文、代码、数学等多领域能力的均衡发展,为下游应用开发提供强大基座。
技术报告结尾透露,智谱AI计划在近期开源GLM-4.5系列的视觉多模态版本GLM-4.5V,预示着开源大模型将进入"文本-视觉-多模态"协同进化的新阶段。随着ARC能力体系的持续深化和训练技术的不断迭代,GLM-4.5不仅树立了开源模型的性能新标杆,更为大模型从实验室走向产业应用提供了可复用的技术路径。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



