智谱GLM-4.6V开源，原生识图+工具调用，还能“手眼通天”

最新推荐文章于 2025-12-25 19:38:03 发布

原创最新推荐文章于 2025-12-25 19:38:03 发布 · 897 阅读

·

25

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理 #人工智能 #python

部署运行你感兴趣的模型镜像

就在昨晚，智谱开源了GLM-4.6V 模型。

128k 超长上下文（约等于150 页文档）

最大的亮点：原生支持视觉工具调用（Function Call）

不仅能看，还能动手干活

两个版本，丰俭由人：

• GLM-4.6V（106B-A12B）：这是满血版，性能强悍，对标云端业务，支持高性能集群

• GLM-4.6V-Flash（9B）：这是轻量版，跑得快，适合本地部署

价格方面：

image.png

相比上一代，直接降价 50%

输入：1 元 / 百万 token

输出：3 元 / 百万 token

Flash 版本：免费

以及，这次更新，唯一的重点

GLM-4.6V，打通了“视觉”和“工具”

以前的多模态模型是：我看图 -> 转成文字 -> 调工具 -> 给你结果。中间转来转去，信息全丢了。

GLM-4.6V 是原生的：图像即参数，结果即上下文

直接把图扔给工具，工具返回的图表、网页，模型也能直接看懂

从“看懂”到“执行”，一条龙搞定

评测数据，简单总结就是“以小博大”

7ad5306a4ee92d3735d5cb0b4ecc4fdf.jpg

在 MMBench、MathVista 等 30+ 评测基准上验证：

• 9B Flash 版本：整体干翻 Qwen3-VL-8B

• 106B 版本：跟参数量是它 2 倍的 Qwen3-VL-235B 打得有来有回

官方场景案例：

1. 图文混排神器：内容创作的福音

扔给它一个主题，或者一篇干巴巴的论文、研报

它不是简单的配图，而是真正理解了内容

模型能自己调搜索工具找图，还自带“审美”做视觉审核

最后采用“草稿 -> 选图 -> 润色”的流程，吐出一篇结构清晰、图文并茂的公众号文章或 PPT 素材

2. 识图购物 Agent：比你更懂全网低价

你在街上拍个好看的衣服，模型直接识别你的“剁手”意图

自动规划任务，调起 image_search 工具

它能处理京东、拼多多等不同平台的脏数据，自动清洗、对齐

最后甩给你一张带购买链接、价格对比和缩略图的 Excel 表格

3. 前端复刻：程序员狂喜

直接上传一张设计稿或者网页截图，模型直接生成 HTML/CSS/JS 代码

它支持“视觉交互调试”

你可以在生成的图上圈一下，说：“把这个按钮左移一点，换成深蓝色”

模型利用视觉反馈循环，自动定位代码并修正，像素级还原

4. 财报/长视频分析：过目不忘

128k 上下文不是摆设，大概能塞进 150 页文档或 1 小时视频

一次扔进去 4 家上市公司的财报，它能跨文档提取核心指标，生成对比表

或者扔进一场足球比赛录像，它能精准定位进球时刻，生成集锦时间轴，关键信息一个不漏

这次智谱很敞亮，权重、代码全放出来了。

支持 vLLM、SGLang、Transformers 等主流框架，国产卡（NPU）也支持

GitHub👉https://github.com/zai-org/GLM-V

Hugging Face👉https://huggingface.co/collections/zai-org/glm-46v

魔搭 ModelScope👉https://modelscope.cn/collections/GLM-46V

在线体验👉z.ai (选 GLM-4.6V)或者智谱清言 APP

如果你也对AI感兴趣，想拥抱AI，不妨可以来看看我们的AI超级个体知识库👇 免费的！

二维码

AI超级个体知识库

https://hyperspace.feishu.cn/wiki/SpRGwQNKMiYk8UkzInBcQkzZnLh

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

Qwen3-VL-8B

图文对话

Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型，这一代在各个方面都进行了全面升级：更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力，以及更强的代理交互能力

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。