GLM4.5V视觉模型小试牛刀

最新推荐文章于 2025-11-14 01:20:36 发布

原创

最新推荐文章于 2025-11-14 01:20:36 发布 · 1.6k 阅读

·

32

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #大模型

背景

GLM4.5V 是智谱AI于2025年8月11日发布的开源视觉推理模型，基于新一代旗舰文本基座模型 GLM-4.5-Air 开发，延续了 GLM-4.1V-Thinking 技术路线。

参数规模：总参数 106B，激活参数 12B。
性能表现：在 41 个公开视觉多模态任务中，综合效果达到同级别开源模型 SOTA（State-of-the-Art），涵盖图像、视频、文档理解及 GUI Agent 等场景。
基准测试：在 12 项行业标准评测中，GLM-4.5V 得分 63.2，全球排名第三，国产第一，开源模型中位列榜首。

我们看到与Qwen2.5-VL与Gemma-3模型进行了PK。

视觉理解

GLM-4.5V可以阅读长达数十页、含有大量图表的复杂长文本，能够对文本进行总结、翻译、图表提取等操作；此外，还能在给定信息的基础上输出自己的"观点"。与传统的OCR信息提取+文本模型解读的方式不同，GLM-4.5V会像人类一样，以视觉方式读取文档中的每一页图片，避免了信息提取过程中的错误传递，实现了文字与图像的同时理解，因此对于图表、表格等视觉化、结构化信息的保留和解读会更加准确。

例如，我们可以给GLM-4.5V上传一份图文并茂的GPT5 SYSTEM CARD技术报告，让它翻译并解读其中的技术亮点。

GL

GLM4.5V翻译输出

### GPT-5 系统卡翻译（节选关键章节）

**GPT-5 System Card**
OpenAI
August 7, 2025

#### 3.5 指令层级（Instruction Hierarchy）
API 中部署这些模型允许开发者指定自定义开发人员消息，该消息包含来自其终端用户的每个提示。若处理不当，这可能让开发者绕过系统防护栏；同理，终端用户也可能尝试通过发送不符合指南的消息绕过开发者消息。

**缓解措施**：我们教导模型遵循指令层级[2]。高层级上，我们将发送给模型的邮件分为三类：系统消息、开发者消息和用户消息。我们测试模型是否遵循“系统消息优先于开发者消息，且开发者消息优先于用户消息”的指令。

**评估**：为此，我们使用两组评估：
- 系统提示提取：测试恶意用户消息能否提取系统提示中不应泄露的秘密；
-

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。