【AI大模型】最强开源9B级VLM模型！本地视觉Agent有救了～

最新推荐文章于 2025-11-04 14:31:35 发布

原创最新推荐文章于 2025-11-04 14:31:35 发布 · 890 阅读

·

9

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #大模型学习 #大模型入门 #AI大模型 #大模型 #Agent #大模型教程

前言

智谱AI，又又又开源了个大模型！

说实话，AI圈实在是太卷了，特别是国内的大模型厂商，几乎是贴身肉搏。

今天你发布一个新功能，明天我就开源一个新模型。

作为AI领域的博主，我打字的速度，都快跟不上他们迭代的速度了…

先说说，智谱这次开源的模型叫GLM-4.1V-Thinking，是首个9B级别的 通用多模态语言模型（VLM）

这应该是智谱目前开源的最小参数量的模型了。

而且这个9B参数量的模型，全面超越了传统的非推理式视觉模型

在28项评测任务中有23项登顶10B级别模型最佳性能，其中18项任务媲美、甚至超越其8倍参数量的Qwen-2.5-VL-72B。

我心里其实点"免疫"了。

毕竟现在各种模型满天飞，“SOTA”、"最强"这些词我也快听出茧子了。

但当我实测，并研究了他们技术报告和开源资料后发现

次好像真的不太一样。

GLM-4.1V-Thinking在GUI Agents中的WebVoyageSom这一项测试中一骑绝尘

这项测试中，模型需要像人一样理解和操作网页界面来完成任务。

GLM-4.1V-Thinking在这项得分高达69.0，远超所有其他模型，包括 GPT-4o (35.0)。

这表明它在理解人类意图并将其转化为具体界面操作的能力上取得了重大进展。

后续我感觉完全可以用GLM-4.1V-Thinking来搭建一个本地自动化操作浏览器的Agent。

另外在VideoMME、MMVU、MVBench等多项视频理解评测中，GLM-4.1V-Thinking同样全面领先。

视频理解比静态图片更复杂，要求模型具备时序理解能力，特别是这个模型参数才9B，我感觉以后可以在本地进行实时的视觉理解了。

实测效果

目前GLM-4.1V-Thinking可以在智谱开放平台在线体验：

https://www.bigmodel.cn/trialcenter/modeltrial/text?modelCode=glm-4.1v-thinking-flash

首先给我的第一感觉就是爽，因为非常快！

这样使用推理模型的感觉太爽了，不用等它吭哧吭哧推理半天才有结果

而且上面给的Fastgpt操作路径也完全没毛病，我感觉后面可以让AI在本地自动帮我搭建知识库，上传资料啥的了。

然后我找出了一张，周末打车遇到的一个外国车牌

这个车+这个车牌，一看就相当nb，当时滴滴司机为了想追上去看看，差点跑错路…

我把这张图丢给了GLM-4.1V-Thinking，让它分析一下这个车来自什么国家，车主人是什么身份。

我感觉它除了车牌的含金量分析不太到位以外，其他的完全没毛病哎

这个车牌居然是泰国的，我第一次见。也合理，泰国离云南近

整个分析也挺详细，不错不错。

随后我又找了一个真实的体检报告单，丢给GLM-4.1V-Thinking进行识别和解读

这张图清晰度也一般

但（下图）识别的结果非常准确，实际体验比GPT4o识别的还要更准。

还给出了一些中肯的营养摄入建议，作为一个只有9B参数量的小模型能做到这个程度，可以说非常nb了。

下面这张图是我上上周，从北京飞回昆明时经过一个非常让我震感的地貌所拍摄的照片。

前面还一直是平原，到这里群山突然拔地而起，而且是一条直线，这种突然变换的地貌景观简直是一场视觉盛宴（我当时就非常好奇，这到底是哪儿啊）。

要是当时我电脑上有本地部署的GLM-4.1V-Thinking就好了

下面是GLM-4.1V-Thinking给出的答案，我觉得应该是对的，因为前面一直都在一个黄沙遍地的平原上空飞行（估计是黄土高原）

有知道的朋友麻烦评论区告知一下

如果它推测正确的话就太强了（大概率是对的）

我准备本地安装一个，以后坐飞机带上，哈哈哈

接下来难度升级，我把前几天爆火的谷歌gemini cli演示视频丢给它

关键是这个视频完全没有声音

而GLM-4.1V-Thinking作为一个9B模型能分析、总结的这么详细，我还挺意外的。

我还记得在今年2、3月份使用这种10B的小模型，那时候体验真就是一tuo…

但是现在最新发布的一些小参数模型总是能给我带来一些惊喜

这导致我产生了一些好奇

它为什么能"以小博大"？

只有9B参数量的模型，视觉能力凭什么可以做到这么强？

技术解读

带着这点疑问，我花了不少时间，翻看了它的技术报告和开源资料

论文地址：

https://arxiv.org/abs/2507.01006

最终发现这背后，是智谱在模型架构和训练流程上的双重突破

模型的底层架构其实决定了它的能力上限。

GLM-4.1V-Thinking的架构基于视觉编码器（ViT Encoder）、**多层感知机适配器（MLP Projector）以及语言解码器（Language Decoder）**这三大核心部件。

并做了一些巧妙的优化。

>/ 1. 强视频理解能力

传统的视觉模型处理视频，很多时候就像在快速翻阅一张张静态截图。

而GLM-4.1V在视觉编码器中，用3D卷积替换了传统的2D卷积。

**这带来了质变：**模型不再是孤立地看每一帧，而是能捕捉帧与帧之间的时间动态，实现了2倍的时间压缩，极大提升了效率。

为了让模型精准理解"时间"，它还为每一帧画面都插入了"时间戳标记"。

这让模型真正拥有了连贯的、带有时间概念的视频理解能力，看懂长达2小时的视频成为可能。

>/ 2. 支持任意长宽比和4k的图像分辨率

你应该遇到过，想让AI分析一张超长的网页截图或4K高清大图，结果它却处理不了或效果很差。

GLM-4.1V通过两项技术解决了这个问题：

2D-RoPE位置编码： 能稳定处理超过200:1这种极端宽高比的图片。

动态位置嵌入插值： 无论输入图片被切割成多少块，它都能通过"双三次插值"算法，动态、平滑地为每个图像块分配合适的位置信息，保留了原始ViT预训练的强大能力。

>/ 3. 更强的多模态空间理解

不仅视觉能力强大，智谱还将这种空间理解能力扩展到了语言端，将语言解码器中的位置编码（RoPE）升级为3D-RoPE。

这极大地增强了模型在处理图文混排这种复杂多模态内容时的空间感知能力，同时完美保留了其纯文本处理的性能。

>/ 4. 训练阶段

GLM-4.1V-Thinking 的训练过程分为三个阶段：预训练（Pretraining） 、监督微调（SFT）和强化学习（RL）。

特别是在强化学习阶段采用了：课程采样强化学习（RLCS）

当中结合了两种方法：基于可验证奖励的强化学习（RLVR）和基于人类反馈的强化学习（RLHF），并覆盖多个关键任务维度。

就像是请了一个智能私教来进行考前辅导。私教不会胡乱塞题，而是先从简单的题让你入手，等你掌握了，再逐渐增加难度，针对性地让你刷更难的题。这种"循序渐进"的刷题方式效率最高，能让模型在准确性和稳定性上获得最大提升

「最后」

测试完GLM-4.1V-Thinking，我最大的感受是：震撼且务实。

震撼在于，它只有9B的参数量，却有超强的视觉能力，核心是用更"聪明"的算法，弥补算力的不足。

务实在于，它所强化的能力，如视频理解、GUI Agent、图片理解等，都是直指真实世界复杂应用的。

这项能力让大模型不再是"玩具"，而是真正能深入到各行各业，解决具体问题的生产力工具。

更大气的是，智谱又又又选择了 全面开源。

这意味着，从今天起，任何一个开发者、AI爱好者或企业，都可以免费本地部署这个强大的模型，而且只需要少量算力成本。

也可以在它的基础上进行二次开发、微调，打造出属于自己的、适配特定业务的垂类应用～

最后

感谢你们的阅读和喜欢，作为一位在一线互联网行业奋斗多年的老兵，我深知在这个瞬息万变的技术领域中，持续学习和进步的重要性。

为了帮助更多热爱技术、渴望成长的朋友，我特别整理了一份涵盖大模型领域的宝贵资料集。

这些资料不仅是我多年积累的心血结晶，也是我在行业一线实战经验的总结。

这些学习资料不仅深入浅出，而且非常实用，让大家系统而高效地掌握AI大模型的各个知识点。如果你愿意花时间沉下心来学习，相信它们一定能为你提供实质性的帮助。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入，精准学习显得尤为重要。一份系统的技术路线图，不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点，还能提供一条高效、有序的学习路径。

但知道是一回事，做又是另一回事，初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性，在这基础上，找到高质量的学习资源，不浪费时间、不走弯路，又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式，可以更直观地展示过程，能有效提升学习兴趣和理解力，是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

海量AI大模型必读的经典书籍（PDF）

阅读AI大模型经典书籍可以帮助读者提高技术水平，开拓视野，掌握核心技术，提高解决问题的能力，同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说，阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告（实时更新）

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作，下面这些面试题都是总结当前最新、最热、最高频的面试题，并且每道题都有详细的答案，面试前刷完这套面试题资料，小小offer，不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。