GLM4.5V视觉模型小试牛刀

背景

GLM4.5V 是智谱AI于2025年8月11日发布的开源视觉推理模型,基于新一代旗舰文本基座模型 GLM-4.5-Air 开发,延续了 GLM-4.1V-Thinking 技术路线。

  • 参数规模:总参数 106B,激活参数 12B。
  • 性能表现:在 41 个公开视觉多模态任务中,综合效果达到同级别开源模型 SOTA(State-of-the-Art),涵盖图像、视频、文档理解及 GUI Agent 等场景。
  • 基准测试:在 12 项行业标准评测中,GLM-4.5V 得分 63.2,全球排名第三,国产第一,开源模型中位列榜首。

image

我们看到与Qwen2.5-VL与Gemma-3模型进行了PK。

视觉理解

GLM-4.5V可以阅读长达数十页、含有大量图表的复杂长文本,能够对文本进行总结、翻译、图表提取等操作;此外,还能在给定信息的基础上输出自己的"观点"。与传统的OCR信息提取+文本模型解读的方式不同,GLM-4.5V会像人类一样,以视觉方式读取文档中的每一页图片,避免了信息提取过程中的错误传递,实现了文字与图像的同时理解,因此对于图表、表格等视觉化、结构化信息的保留和解读会更加准确。

例如,我们可以给GLM-4.5V上传一份图文并茂的GPT5 SYSTEM CARD技术报告,让它翻译并解读其中的技术亮点。

image

GL

GLM4.5V翻译输出

### GPT-5 系统卡翻译(节选关键章节) 

**GPT-5 System Card** 
OpenAI 
August 7, 2025 


#### 3.5 指令层级(Instruction Hierarchy) 
API 中部署这些模型允许开发者指定自定义开发人员消息,该消息包含来自其终端用户的每个提示。若处理不当,这可能让开发者绕过系统防护栏;同理,终端用户也可能尝试通过发送不符合指南的消息绕过开发者消息。 

**缓解措施**:我们教导模型遵循指令层级[2]。高层级上,我们将发送给模型的邮件分为三类:系统消息、开发者消息和用户消息。我们测试模型是否遵循“系统消息优先于开发者消息,且开发者消息优先于用户消息”的指令。 

**评估**:为此,我们使用两组评估: 
- 系统提示提取:测试恶意用户消息能否提取系统提示中不应泄露的秘密; 
-

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值