昨天,在上海张江科学会堂上,智谱CEO张鹏正式发布GLM-4.1V-Thinking,旨在探索视觉语言模型中推理的上限。这个仅90亿参数的多模态模型,在18项关键测试中逼平甚至超越了参数规模八倍于己的行业巨头Qwen-2.5-VL-72B。
就在发布当天,浦东创投集团与张江集团宣布向智谱注资10亿元战略投资,首笔交割即时完成。
GLM-4.1V-9B-Thinking的诞生,标志着多模态模型从「感知」向「认知」的关键跃迁。在MMStar、MMMU-Pro等28项权威评测中,它获得了23项10B级模型最佳成绩。
而这来源于团队的两大创新机制:一是思维链推理机制,可以让模型像人类一样展示思考过程;二是课程采样强化学习策略,引导AI由浅入深掌握复杂技能。
目前,在arXiv公开的技术报告显示单张RTX 3090显卡即可流畅运行该模型,MIT开源协议允许免费商用。这意味着普通开发者不必依赖昂贵的云计算资源也能在本地部署。
多模态能力的全面进化
在多模态能力方面,GLM-4.1V-9B-Thinking展现出惊人的场景适应性:它能解析长达两小时的视频内容,理清人物关系和事件逻辑;看懂数学题并给出详细解题步骤;甚至识别手机界面元素,帮用户创建日程会议。
在官方演示视频中,它像足球解说员一样实时解说足球赛事,从战术执行到球员跑位,专业程度甚至不亚于人类解说员。这种能力来源于独特的架构设计——视觉编码器采用三维卷积处理视频流,语言解码器则通过3D旋转位置编码增强空间理解。
训练策略的革新之道
智谱团队精心设计了三阶段训练方案。预训练阶段通过海量图文、视频数据建立基础认知;监督微调阶段引入高质量思维链数据集强化推理能力;最关键的强化学习阶段采用课程采样技术,让模型像学生一样从易到难攻克STEM解题、GUI操作等复杂任务。
团队还采用了跨领域泛化设计。当模型在STEM数据上训练时,也同步提升了视觉定位和GUI交互能力——数学推理中培养的逻辑链条,可以迁移到界面操作任务中。
在实际应用场景中,GLM-4.1V-9B-Thinking展现出令人惊叹的多元能力:
有网友对一道2025年高考数学立体几何真题进行实测,它能逐步推导体积计算过程。
Prompt:请帮我解决这个题目,给出详细过程和答案
输出结果如下:
【图片来源于网络,侵删】
这些场景进一步验证了技术报告的核心结论:当强化学习加入训练流程后,模型在GUI操作、视频理解等任务上的性能直线提升。
随着“Agents开拓者计划”的推进,这批开源模型将化身千万智能体,融入教育课件、医疗影像、工业质检的各个环节中。
这或许正孕育着中国AI登顶的下一个支点。