GPT-5都还没来,国产SOTA已开源!GLM-4.5爆改全栈开发,用一句话做出B站、抖音、小红书
国产AI开源模型的进化节奏,已经不再等着“追赶”,而是直接超前。
在GPT-5尚未发布的当下,智谱AI推出的GLM-4.5,凭借对推理、编程、Agent任务的深度融合,彻底刷新了开源模型的上限。从评测数据到实测案例,这一次不仅卷能力,还卷交付能力。
这不是“看起来很强”,而是“拿来就能做”,从生成速度到工具调用、再到页面联动开发,GLM-4.5展现了真正的产品级落地水平。更重要的是,开源、免费体验、中文支持全拉满,是真正意义上的国产SOTA。
开源模型性能天花板
先看成绩。
GLM-4.5在涵盖Agentic、推理、代码等12项代表性基准测试中取得全球第三,仅次于OpenAI的o3与xAI的Grok-4,在开源模型中全面领先,国产模型排名第一。
在智能体任务中,工具调用成功率高达90.6%,超越Claude-Sonnet、Kimi-K2和Qwen3-Coder,在Terminal模拟、SWE-bench编程测试中表现均处于第一梯队。推理任务中,64K上下文结合课程式RL强化训练,使其在MMLU、BBH等指标上稳定领先。
关键在于它不是大模型中常见的“单项突击选手”,而是推理、编程、Agent全面融合、原生统一的一体化大模型。
生成速度与成本打穿底线
相比以往开源大模型动辄10-30 tokens/s的速度,GLM-4.5在MoE架构下将生成提速至100 tokens/s,API价格更是大幅低于主流模型——输入0.8元/百万tokens,输出2元/百万tokens,远低于Claude、GPT-4等商业化模型。
主力版本3550亿参数、320亿激活参数,轻量版GLM-4.5-Air仅1060亿参数,但在多项推理与代码任务中直接对标Claude Sonnet与Gemini 2.5 Flash,性价比几乎拉满。
真正的Agent能力:一句话做出“网页端YouTube”
如果说测评数据只是纸面战绩,那么实际体验就是含金量的硬证据。
GLM-4.5在测试中完成了一个复杂度极高的产品任务:仿YouTube网页端Demo的搭建,需求包括首页+视频详情页两部分,页面风格、功能交互、视觉排布需高度还原YouTube官网。
Prompt如下:
开发一个包含 UI 的 YouTube 网页端 Demo,页面包括:首页与视频详情页。首页需还原 YouTube 首页的主要设计元素,如顶部导航栏、横幅轮播、推荐视频瀑布流布局、hover 时播放预览、视频封面与标题展示等基础交互。详情页需展示视频标题、博主信息、播放区域(支持点击播放/暂停、切换全屏)、预设弹幕(可滚动)、评论区(展示预置评论并支持展开/收起)。视频素材可从 Google/B 站公开视频中挑选,封面图、标题与弹幕内容需根据所选视频内容拟定,保持风格一致。无需支持真实播放,仅需模拟播放行为与基础交互。整体风格参考 YouTube 现有布局,适配 PC 浏览器展示。

执行后,模型准确识别需求要素,构建出首页横向推荐区、视频卡片样式、播放hover交互,详情页包含标题、博主、弹幕、评论展开/收起机制,点击播放区实现状态切换与全屏支持,UI风格整齐统一,代码结构清晰,注释完备。
更难能可贵的是,在多个组件状态联动、预设数据渲染、用户行为模拟等方面表现稳定,几乎具备上线前产品Demo的完整水准。
这不是“代码生成”,而是“产品搭建”。
不止B站,国内经典场景还能这样搞
以YouTube为起点,不难想象GLM-4.5在国内内容生态中的适配潜力。实际操作中,只需几行中文提示,就能构建各类典型应用网站,交互逻辑、UI层级、前后端功能一应俱全,尤其适合自媒体人、产品经理、创业者验证想法。
结合国内互联网产品风格,以下是适合实战测试的Agent级爆款应用案例建议:
1. 抖音网页版模拟器
指令:做一个仿抖音短视频平台的Web端原型,支持竖屏视频、上下滑动切换、点赞评论等交互。
测试点:移动端视觉适配、视频切换逻辑、状态管理。
2. 小红书种草社区
指令:开发一个内容种草平台,支持图文瀑布流、笔记详情页、点赞收藏、评论区等功能。
测试点:图文混排、懒加载、多条件筛选。

3. 微信朋友圈记忆页
指令:生成一个仿朋友圈的时间轴页面,支持图片视频状态、点赞评论交互、按时间排序。
测试点:时间线排布、多媒体交互、隐私状态模拟。

4. 赛博功德打卡系统
指令:制作一个功德计数器,用户每日签到可获得赛博功德值,并展示排行榜和可视化进度图。
测试点:状态存储、打卡逻辑、前端图表。

这些案例不仅适用于用户实测,也是Prompt工程设计的最佳练兵场,可用于孵化MVP项目、搭建AI网站原型、生成爆款活动页面,直接提升AI内容创作与产品验证效率。
为什么GLM-4.5能做到?
智谱这次不仅开源模型,更开源了背后真正推动模型跃升的底层技术:
MoE架构:采用无损负载均衡与Sigmoid门控机制,提升激活效率与推理稳定性。
自注意力模块:引入Grouped-Query Attention、Partial RoPE、2.5倍注意力头数提升推理表现。
Muon优化器 + QK-Norm:提升超大批次训练稳定性。
多阶段训练:15T通用语料 + 7T代码推理语料 + 多轮指令调优与RLHF。
自研强化学习系统 Slime:支持异步训练、FP8混合精度、智能体解耦任务管理。
Agent能力融合路径:通过课程式强化训练、智能体工具调用反馈、自适应策略裁剪形成迁移能力。
最终,通过专家蒸馏与智能体行为建模,GLM-4.5形成了兼容推理、编程、Agent任务的统一体。
这不是模型“参数升级”的结果,而是一套系统性智能体架构工程的成果。
定义下一代开源标准的,不一定是OpenAI
国产AI不再是“追着GPT的影子”,而是开始以自己的方式参与定义下一代标准。GLM-4.5这次的全面开源,不只是一次技术发布,更像是一次关于AI“生产力”的新范式试验。
它让开发者、内容创作者、创业者第一次真正拥有了AI Agent的工具,能用一句话就生成可以上线的产品雏形。从网页、短视频、种草社区到知识平台、演示PPT,未来每一个想法,都不再停留在脑海,而是可以直接变成可交互的产品原型。
开源、免费体验、多模态、全栈开发、中文指令友好,GLM-4.5已经在技术、生态与使用方式上,给出了一种新的可能。
下一次模型迭代或许会带来更强的参数、更高的推理能力,但能不能一键落地、能不能“用起来”,才是真正划时代的指标。
体验入口:
https://chat.z.ai/
技术报告:
https://z.ai/blog/glm-4.5/
如需示例Prompt合集或生成演示站点,可留言获取Prompt文档/部署指南。下一代AI开发能力,现在就能拥有。
扫码加入技术琐话读者群,如果群满,联系wx:jianghu10002


3147

被折叠的 条评论
为什么被折叠?



