GLM-4.6V开源：重新定义多模态AI的行动范式

原创于 2025-12-16 14:54:33 发布 · 943 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

GLM-4.6V开源：重新定义多模态AI的行动范式

12月8日，智谱AI正式开源GLM-4.6V系列多模态大模型，作为GLM系列在多模态方向上的重要迭代，GLM-4.6V在技术架构和应用场景上都实现了突破性进展。

技术架构全面升级

GLM-4.6V系列包含两款模型：GLM-4.6V（106B-A12B）、GLM-4.6V-Flash（9B）。模型将训练时上下文窗口提升到128k tokens，在视觉理解精度上达到同参数规模SOTA水平。最引人注目的是，GLM-4.6V首次在模型架构中将Function Call（工具调用）能力原生融入视觉模型，打通从"视觉感知"到"可执行行动"的链路。这种"图像即参数，结果即上下文"的设计理念，使得模型能够直接处理多模态输入，无需中间转换，显著降低了工程复杂度。

革命性的多模态工具调用能力传统工具调用大多基于纯文本，在面对图像、视频等复杂内容时存在信息损失。GLM-4.6V构建了原生多模态工具调用能力：

输入多模态： 图像、截图、文档页面等可以直接作为工具参数
输出多模态： 模型能够对工具返回的图表、网页截图等进行再次视觉理解
闭环处理： 从感知到理解到执行的完整链路一体化完成

这种能力使得GLM-4.6V能够应对图文混排输出、商品识别与推荐、辅助型Agent等复杂视觉任务。

四大典型应用场景展现强大实力

场景一：智能图文混排与内容创作

GLM-4.6V在内容创作场景中表现卓越。无论是输入学术论文、研报还是简单主题，模型都能生成结构清晰、图文并茂的内容。它能够自动调用检索工具寻找配图，并进行视觉审核，确保内容质量。在实际测试中，仅需提供一篇Arxiv论文，GLM-4.6V就能在几分钟内生成完整的公众号科普文章，包含精准的标题、专业的解读和恰当的图表插入。

提示词：用通俗易懂的话说明：这篇论文写了什么、研究现状、核心创新思路、以及这项成果除了学术价值之外，对现实世界和普通人意味着什么。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传