背景
GLM4.5V 是智谱AI于2025年8月11日发布的开源视觉推理模型,基于新一代旗舰文本基座模型 GLM-4.5-Air 开发,延续了 GLM-4.1V-Thinking 技术路线。
- 参数规模:总参数 106B,激活参数 12B。
- 性能表现:在 41 个公开视觉多模态任务中,综合效果达到同级别开源模型 SOTA(State-of-the-Art),涵盖图像、视频、文档理解及 GUI Agent 等场景。
- 基准测试:在 12 项行业标准评测中,GLM-4.5V 得分 63.2,全球排名第三,国产第一,开源模型中位列榜首。
我们看到与Qwen2.5-VL与Gemma-3模型进行了PK。
视觉理解
GLM-4.5V可以阅读长达数十页、含有大量图表的复杂长文本,能够对文本进行总结、翻译、图表提取等操作;此外,还能在给定信息的基础上输出自己的"观点"。与传统的OCR信息提取+文本模型解读的方式不同,GLM-4.5V会像人类一样,以视觉方式读取文档中的每一页图片,避免了信息提取过程中的错误传递,实现了文字与图像的同时理解,因此对于图表、表格等视觉化、结构化信息的保留和解读会更加准确。
例如,我们可以给GLM-4.5V上传一份图文并茂的GPT5 SYSTEM CARD技术报告,让它翻译并解读其中的技术亮点。
GL
GLM4.5V翻译输出
### GPT-5 系统卡翻译(节选关键章节)
**GPT-5 System Card**
OpenAI
August 7, 2025
#### 3.5 指令层级(Instruction Hierarchy)
API 中部署这些模型允许开发者指定自定义开发人员消息,该消息包含来自其终端用户的每个提示。若处理不当,这可能让开发者绕过系统防护栏;同理,终端用户也可能尝试通过发送不符合指南的消息绕过开发者消息。**缓解措施**:我们教导模型遵循指令层级[2]。高层级上,我们将发送给模型的邮件分为三类:系统消息、开发者消息和用户消息。我们测试模型是否遵循“系统消息优先于开发者消息,且开发者消息优先于用户消息”的指令。
**评估**:为此,我们使用两组评估:
- 系统提示提取:测试恶意用户消息能否提取系统提示中不应泄露的秘密;
-



最低0.47元/天 解锁文章
364

被折叠的 条评论
为什么被折叠?



