智谱开源多模态推理新王者!9B参数挑战72B巨头

昨天,在上海张江科学会堂上,智谱CEO张鹏正式发布GLM-4.1V-Thinking,旨在探索视觉语言模型中推理的上限。这个仅90亿参数的多模态模型,在18项关键测试中逼平甚至超越了参数规模八倍于己的行业巨头Qwen-2.5-VL-72B

图片

就在发布当天,浦东创投集团与张江集团宣布向智谱注资10亿元战略投资,首笔交割即时完成。

GLM-4.1V-9B-Thinking的诞生,标志着多模态模型从感知认知的关键跃迁。在MMStarMMMU-Pro28项权威评测中,它获得了2310B级模型最佳成绩

图片

而这来源于团队的两大创新机制一是思维链推理机制可以让模型像人类一样展示思考过程;二是课程采样强化学习策略引导AI由浅入深掌握复杂技能。

目前,arXiv公开的技术报告显示单张RTX 3090显卡即可流畅运行该模型MIT开源协议允许免费商用。这意味着普通开发者不必依赖昂贵的云计算资源也能在本地部署

多模态能力的全面进化

在多模态能力方面,GLM-4.1V-9B-Thinking展现出惊人的场景适应性:它能解析长达两小时的视频内容,理清人物关系和事件逻辑;看懂数学题并给出详细解题步骤;甚至识别手机界面元素,帮用户创建日程会议。

在官方演示视频中,它足球解说员一样实时解说足球赛事,从战术执行到球员跑位,专业程度甚至不亚于人类解说员。这种能力来源于独特的架构设计——视觉编码器采用三维卷积处理视频流,语言解码器则通过3D旋转位置编码增强空间理解。

训练策略的革新之道

智谱团队精心设计三阶段训练方案。预训练阶段通过海量图文、视频数据建立基础认知;监督微调阶段引入高质量思维链数据集强化推理能力;最关键的强化学习阶段采用课程采样技术,让模型像学生一样从易到难攻克STEM解题、GUI操作等复杂任务。

团队还采用了跨领域泛化设计。当模型在STEM数据上训练时,同步提升了视觉定位和GUI交互能力——数学推理中培养的逻辑链条,可以迁移到界面操作任务中。

在实际应用场景中,GLM-4.1V-9B-Thinking展现出令人惊叹的多元能力:


有网友对一道2025年高考数学立体几何真题进行实测,它能逐步推导体积计算过程。

图片

Prompt:请帮我解决这个题目,给出详细过程和答案

输出结果如下:

图片

【图片来源于网络,侵删】

这些场景进一步验证了技术报告的核心结论:当强化学习加入训练流程后,模型在GUI操作、视频理解等任务上的性能直线提升。

随着Agents开拓者计划”的推进,这批开源模型将化身千万智能体,融入教育课件、医疗影像、工业质检的各个环节中。

或许正孕育着中国AI登顶的下一个支点。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值