今日,人工智能领域迎来重大突破——全新GLM-4.5系列大模型正式亮相。作为当前技术前沿的旗舰产品,该系列包含GLM-4.5与GLM-4.5-Air两个版本,分别搭载3550亿总参数(320亿激活参数)和1060亿总参数(120亿激活参数)。这两款模型突破性地实现了推理、编码与智能体能力的深度整合,专为满足快速扩张的智能体应用场景中日益复杂的任务需求而设计。
【免费下载链接】GLM-4.5-Air 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/GLM-4.5-Air
如上图所示,深色背景与蓝绿色渐变条纹构建出科技感视觉基调,中央文字清晰传达了GLM-4.5模型"原生融合推理、编码、智能体"的核心定位。右上角的"Z"标志强化了品牌识别,整体设计直观展现了该模型在技术整合方面的突破性价值,帮助读者快速把握产品核心特性。
作为混合推理架构的典范,GLM-4.5系列创新推出双模式运行机制:思考模式专为复杂推理与工具调用场景优化,非思考模式则聚焦即时响应需求。目前,用户可通过Z.ai平台、智谱清言(chatglm.cn)及BigModel开放平台体验服务,开发者亦可通过HuggingFace与ModelScope获取开放权重。这一全方位的开放策略,旨在邀请全球开发者、企业与用户共同参与测试集成,携手探索通用人工智能(AGI)的无限可能。
技术演进:从专项突破到全能融合
大语言模型的终极目标在于实现类人认知水平的通用能力,而非局限于特定任务的专家系统。理想的通用人工智能应同时具备问题解决、知识泛化、常识推理与自我迭代四大核心素养。回顾过去五年发展历程,某模型的GPT-3首次实现大规模常识知识的习得,而某模型通过强化学习技术达成"推理前置"能力,显著提升了编程、数据分析与复杂数学问题的处理效能。然而当前AI领域仍面临能力碎片化挑战:编程专长模型未必擅长数学推理,逻辑强者可能缺乏工具使用能力,真正实现全维度卓越的通用模型仍是行业追求的圣杯。GLM-4.5系列正是针对这一痛点,通过架构创新与训练优化,致力于打造集多项顶尖能力于一体的全能型基础模型。
在12项权威基准测试(含3项智能体任务、7项推理任务及2项编程任务)的综合评估中,GLM-4.5以优异表现位列第三,其轻量版本GLM-4.5-Air亦跻身第六。这一成绩不仅验证了模型的综合实力,更凸显了其在性能与效率平衡上的突出优势。
智能体能力:重新定义人机协作边界
GLM-4.5深度优化了智能体任务处理能力,配备128K超长上下文窗口与原生函数调用接口,为复杂场景交互奠定基础。在τ-bench与BFCL-v3(伯克利函数调用排行榜v3)两项权威评测中,该模型性能已与Claude 4 Sonnet持平,展现出在标准化工具调用场景中的顶尖水准。
网页浏览作为智能体应用的典型场景,对多轮推理与工具协同能力提出极高要求。BrowseComp基准测试通过设置需要深度信息挖掘的复杂问题集,全面考察模型的实际应用效能。测试结果显示,借助网页浏览工具,GLM-4.5实现了26.4%的问题正确率,显著超越Claude-4-Opus(18.8%),并逼近某模型-mini-high(28.3%)的水平,充分证明其在真实世界信息获取与处理任务中的竞争优势。
推理引擎:复杂问题解决的核心突破
在思考模式激活状态下,GLM-4.5系列能够处理包括数学运算、科学探究与逻辑推理在内的复杂问题集群。为确保评估结果的稳定性,团队针对AIME与GPQA基准测试分别采用32样本与8样本平均准确率(Avg@32,Avg@8)的统计方法,并通过LLM自动验证机制保障结果客观性。在HLE基准测试中,仅选取文本类问题进行评估,正确性判定由某模型-o独立完成,最大限度减少人为偏差。
编码能力:从代码生成到工程实践
GLM-4.5在编程领域展现出全面实力,既能从零构建完整项目,也可作为智能体嵌入现有工程流程。其设计理念强调与专业工具链的无缝协同,已实现与Claude Code、Roo Code及CodeGeex等主流编程辅助工具的深度集成。
通过SWE-bench Verified与Terminal-Bench两项专业评测,研究团队对主流模型进行帕累托前沿分析,结果显示GLM-4.5系列在同参数规模模型中性能领先,尤其在"性能-参数量"权衡方面实现最优效率。为专项评估智能体编程能力,团队采用Claude Code作为评测工具,在涵盖前端开发、工具开发、数据分析、测试验证及算法实现等52项任务中,将GLM-4.5与Claude 4 Sonnet、Kimi K2及Qwen3-Coder展开对标。所有测试均在独立Docker容器中执行,通过标准化人机交互流程与评估准则确保结果的可重复性。
实验数据显示,GLM-4.5对Kimi K2的胜率达53.9%,对Qwen3-Coder更取得80.8%的压倒性优势。特别值得关注的是,该模型以90.6%的工具调用成功率位居榜首,超越Claude-4-Sonnet(89.5%)、Kimi-K2(86.2%)与Qwen3-Coder(77.1%),充分证明其在工程实践场景中的可靠性。目前,全部52项编程任务的交互轨迹已公开,供社区进一步研究参考。
架构创新:效率与能力的双重突破
GLM-4.5系列采用专家混合(MoE)架构,通过loss-free balance路由机制与sigmoid gate门控策略,实现计算资源的动态分配。与DeepSeek-V3和Kimi K2的设计思路不同,研发团队选择"瘦高型"模型结构——缩减模型宽度(包括隐藏维度与路由专家数量)同时增加深度(网络层数),实验证明这种结构在推理能力上具有显著优势。
在注意力机制优化方面,模型采用partial RoPE的分组查询注意力(Grouped-Query Attention),并将注意力头数量提升至2.5倍(在5120隐藏维度配置下使用96个注意力头)。有趣的是,虽然注意力头数量增加并未降低训练损失,但在MMLU与BBH等推理基准测试中带来了稳定的性能提升,揭示了模型结构与任务表现间的复杂关系。
训练优化方面,GLM-4.5采用Muon优化器,相比AdamW在大批次训练中展现出更快收敛速度与更优稳定性。QK-Norm技术的引入有效提升了注意力分数计算的数值稳定性,而MTP(Multi Token Prediction)层则通过推测解码机制显著提升推理效率。基础模型训练分为多阶段进行:首先在15万亿token的通用语料上完成预训练,随后在7万亿token的代码与推理专项语料上进行精调,最终通过Mid-Training阶段进一步强化特定领域能力。
强化学习框架:Slime的高效创新
为支撑GLM-4.5这类超大规模模型的强化学习训练,研发团队专门设计并开源了Slime强化学习框架。该框架在灵活性、计算效率与可扩展性方面实现突破,特别针对智能体任务的特殊需求进行优化。
Slime的核心优势在于其混合训练架构:既支持同步集中式训练(适用于推理与通用强化学习场景),也可切换至分布式异步模式。这种异步设计对智能体强化学习至关重要,能够有效解决外部数据生成过程的速度瓶颈。通过将训练流程与数据采集解耦,确保GPU计算资源始终处于高效利用状态。
针对智能体训练中环境交互延迟高、数据分布长尾等问题,Slime采用环境交互引擎与训练引擎分离的解耦架构,使两个组件可在独立硬件上并行运行,将数据生成瓶颈转化为可并行的非阻塞过程。该设计对长序列智能体任务的加速效果尤为显著。此外,框架创新性地采用混合精度策略:在数据生成阶段使用FP8格式加速推理,同时在模型训练中保留BF16精度确保稳定性,在不影响训练质量的前提下大幅提升数据吞吐量。这种一体化设计使Slime能够无缝集成多种智能体框架,支持各类任务场景,并通过统一接口高效管理长序列环境交互。
能力强化:后训练阶段的精准提升
后训练过程是大语言模型能力跃升的关键环节,通过自主探索与经验积累实现策略优化,而强化学习正是突破性能边界的核心技术。GLM-4.5在继承GLM-4-0414通用能力与GLM-Z1推理优势的基础上,重点强化了智能体编程、深度搜索与通用工具使用三大核心能力。
训练流程采用"监督微调+专项强化"的两步策略:首先在精选推理数据与合成智能体场景上完成基础训练,随后通过专项强化学习阶段培育专家能力。推理能力训练在64K完整上下文长度上进行,采用基于难度的课程学习策略实施多阶段强化学习,并引入动态采样温度机制平衡探索与利用,确保训练过程的稳定性。
智能体任务训练聚焦于两类可验证场景:基于信息检索的问答任务与软件工程实践。团队开发了可扩展的合成策略生成搜索问答数据对,通过人工参与的内容提取与选择性网页信息模糊技术提升数据质量;编程任务训练则基于真实软件工程场景,通过执行结果反馈驱动策略优化。值得注意的是,尽管强化学习仅针对有限的可验证任务,但习得能力能够有效迁移至相关领域,如通用工具使用能力的提升。最终通过专家蒸馏技术将各项专项能力整合,使GLM-4.5实现全任务维度的均衡卓越。更多技术细节将在即将发布的GLM-4.5技术报告中详细阐述。
应用展示:Artifacts的创意实现
GLM-4.5显著增强了复杂代码产物(Artifacts)的生成能力,可创建包括小游戏、实用工具、物理模拟动画等多样化应用,支持HTML、SVG、Python等多语言开发。这些创意产物不仅提升用户交互体验,更为智能体编程(Agentic Coding)应用奠定了技术基础,预示着AI辅助创作的广阔前景。
快速上手:多渠道接入指南
开发者与用户可通过多种渠道体验GLM-4.5的强大功能:在Z.ai平台选择GLM-4.5模型选项,即可体验前端产物生成、演示幻灯片制作与全栈开发等完整能力;BigModel API平台提供与某平台兼容的接口,支持GLM-4.5与GLM-4.5-Air的程序化调用,详细文档与集成指南可参考官方文档中心。
本地部署方面,GLM-4.5与GLM-4.5-Air的基础版及聊天版权重已在HuggingFace与ModelScope开放,支持vLLM与SGLang等主流推理框架。完整部署指南可访问官方代码仓库(https://gitcode.com/hf_mirrors/unsloth/GLM-4.5-Air)获取。
随着GLM-4.5系列的发布,人工智能正从单项能力突破迈向全面融合的新阶段。其原生整合的推理、编码与智能体能力,不仅为当下应用开发提供强大工具,更为通用人工智能的发展指明了"能力融合"的清晰路径。在技术开放与社区协作的推动下,我们有理由期待AI技术在更多领域创造颠覆性价值。
【免费下载链接】GLM-4.5-Air 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/GLM-4.5-Air
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



