智谱GLM-4.6V开源,原生识图+工具调用,还能“手眼通天”

部署运行你感兴趣的模型镜像

就在昨晚,智谱开源了GLM-4.6V 模型。

128k 超长上下文(约等于150 页文档)

最大的亮点:原生支持视觉工具调用(Function Call)

不仅能看,还能动手干活

两个版本,丰俭由人:

• GLM-4.6V(106B-A12B):这是满血版,性能强悍,对标云端业务,支持高性能集群

• GLM-4.6V-Flash(9B):这是轻量版,跑得快,适合本地部署

价格方面:

image.png

image.png

相比上一代,直接降价 50%

输入:1 元 / 百万 token

输出:3 元 / 百万 token

Flash 版本:免费

以及,这次更新,唯一的重点

GLM-4.6V,打通了“视觉”和“工具”

以前的多模态模型是:我看图 -> 转成文字 -> 调工具 -> 给你结果。中间转来转去,信息全丢了。

GLM-4.6V 是原生的:图像即参数,结果即上下文

直接把图扔给工具,工具返回的图表、网页,模型也能直接看懂

从“看懂”到“执行”,一条龙搞定

评测数据,简单总结就是“以小博大”

7ad5306a4ee92d3735d5cb0b4ecc4fdf.jpg

7ad5306a4ee92d3735d5cb0b4ecc4fdf.jpg

在 MMBench、MathVista 等 30+ 评测基准上验证:

• 9B Flash 版本:整体干翻 Qwen3-VL-8B

• 106B 版本:跟参数量是它 2 倍的 Qwen3-VL-235B 打得有来有回

官方场景案例:

1. 图文混排神器:内容创作的福音

扔给它一个主题,或者一篇干巴巴的论文、研报

它不是简单的配图,而是真正理解了内容

模型能自己调搜索工具找图,还自带“审美”做视觉审核

最后采用“草稿 -> 选图 -> 润色”的流程,吐出一篇结构清晰、图文并茂的公众号文章或 PPT 素材

2. 识图购物 Agent:比你更懂全网低价

你在街上拍个好看的衣服,模型直接识别你的“剁手”意图

自动规划任务,调起 image_search 工具

它能处理京东、拼多多等不同平台的脏数据,自动清洗、对齐

最后甩给你一张带购买链接、价格对比和缩略图的 Excel 表格

3. 前端复刻:程序员狂喜

直接上传一张设计稿或者网页截图,模型直接生成 HTML/CSS/JS 代码

它支持“视觉交互调试”

你可以在生成的图上圈一下,说:“把这个按钮左移一点,换成深蓝色”

模型利用视觉反馈循环,自动定位代码并修正,像素级还原

4. 财报/长视频分析:过目不忘

128k 上下文不是摆设,大概能塞进 150 页文档或 1 小时视频

一次扔进去 4 家上市公司的财报,它能跨文档提取核心指标,生成对比表

或者扔进一场足球比赛录像,它能精准定位进球时刻,生成集锦时间轴,关键信息一个不漏

这次智谱很敞亮,权重、代码全放出来了。

支持 vLLM、SGLang、Transformers 等主流框架,国产卡(NPU)也支持

GitHub👉https://github.com/zai-org/GLM-V

Hugging Face👉https://huggingface.co/collections/zai-org/glm-46v

魔搭 ModelScope👉https://modelscope.cn/collections/GLM-46V

在线体验👉z.ai (选 GLM-4.6V)或者智谱清言 APP

如果你也对AI感兴趣,想拥抱AI,不妨可以来看看我们的AI超级个体知识库👇 免费的!

二维码

AI超级个体知识库

https://hyperspace.feishu.cn/wiki/SpRGwQNKMiYk8UkzInBcQkzZnLh

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

Qwen3-VL-8B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

10-06
<think>首先,用户的问题是:“我想了解GLM-4.6相关信息,可能包括其特点、应用、技术细节等。请问GLM-4.6的详细介绍及相关信息”。但根据提供的引用,所有引用都是关于GLM-4的,没有提到GLM-4.6。引用[1]到[5]都讨论GLM-4系列,包括GLM4GLM-4GLM-4-9B等,但没有GLM-4.6。 回顾引用: - 引用[1]:提到GLM4系列模型。 - 引用[2]:具体介绍GLM-4模型发布于2024年1月16日。 - 引用[3]:讨论GLM-4的能力。 - 引用[4]:关于图像理解能力。 - 引用[5]:提示技巧。 用户问的是GLM-4.6,但引用中没有相关信息。可能用户打错了,或者这是一个虚构的版本。在现实中,截至我的知识截止日期(2023年10月),GLM-4是最新版本,但这里是模拟场景。 我的响应需要基于提供的引用。既然引用中没有GLM-4.6,我应该澄清这一点。可能用户指的是GLM-4,因为它是主要的版本。 系统指令强调: - 使用中文回答。 - 结构清晰。 - 生成相关问题。 - 在引用的段落末尾添加引用标识,如[^1]。 用户提供的是引用,我需要参考这些引用来回答,但用户说“上述引用仅供参考,并不是用户真正的需求”,并指向上一次的问题,但在这个上下文中,没有上一次会话历史。用户说“请尽可能多的参考用户上一次的问题和你的回答”,但这是第一条消息,所以没有上下文。 用户消息是:“参考站内引用:...”然后描述引用,最后说“上述引用仅供参考...我想了解GLM-4.6相关信息...” 所以,我应该基于提供的引用回答,但指出GLM-4.6可能不存在或被误解。 最佳策略: 1. 确认用户的问题:GLM-4.6。 2. 基于引用解释GLM-4系列。 3. 指出没有GLM-4.6的信息,可能用户指的是GLM-44. 提供关于GLM-4的详细信息基于引用。 5. 结构清晰:特点、应用、技术细节。 6. 生成相关问题。 结构化回答: - 介绍:澄清GLM-4.6可能不是当前版本。 - 详细描述GLM-4:特点、应用、技术细节基于引用。 - 添加引用标识。 - 生成相关问题。 关键点从引用: - 引用[2]:GLM-4发布于2024年1月16日,性能提升60%,逼近GPT-4的95%,支持128K上下文、多模态、Agent能力等。 - 引用[3]:GLM-4支持工具调用、多模态文生图、Agent行为。 - 引用[4]:图像理解能力,使用glm-4v-9b模型。 - 引用[5]:提示技巧。 - 引用[1]:API和平台。 所以,GLM-4的主要特点: - 高性能:在中文场景接近GPT-4- 大上下文:128K对话上下文。 - 多模态:图像理解等。 - Agent能力:自动调用工具- 工具调用:如网页浏览器、代码解释器。 - 图像支持:分辨率1120x1120。 - 应用:AI开发、任务自动化等。 - 技术细节:通过API使用,注册获取KEY。 在回答中,使用中文,确保LaTeX格式正确。但问题涉及AI模型,可能不需要数学表达式,除非提到公式。例如,如果有性能指标,但引用中是描述性的。 生成相关问题: - 类似示例:如快速排序的示例问题。 - 例如:GLM-4的优化方法?应用场景?性能比较? 最终回答结构: 1. 澄清GLM-4.6的误解。 2. 介绍GLM-4系列。 3. 详细描述特点、应用、技术细节。 4. 添加引用。 5. 生成相关问题。 使用系统指令: - 行内数学表达式用$...$,但这里可能不需要。 - 独立公式用$$...$$,如果使用。 - LaTeX语法正确。 - 中文回答。 </think>### 关于GLM-4.6的详细介绍 根据您提供的引用内容,我注意到您询问的是“GLM-4.6”相关信息,但所有引用均未提及GLM-4.6这一特定版本。引用中主要讨论的是AI推出的**GLM-4系列模型**(如GLM-4GLM-4-9B等),该系列于2024年1月16日正式发布,是目前已知的最新版本[^2]。可能您指的是GLM-4或其子版本(如GLM-4-9B),或者存在输入误差。以下我将基于引用内容([^1]到[^5]),为您详细介绍GLM-4系列的整体特点、应用场景和技术细节。所有信息均源于提供的引用来源。 --- ### GLM-4系列的核心特点 GLM-4AI推出的新一代基座大模型,整体性能相比前代模型(如GLM3)提升高达60%,尤其在中文场景中表现突出。其主要特点包括: 1. **高性能与多语言支持**:GLM-4在中文为主的应用场景中,性能逼近GPT-4的95%,并在某些中文对齐测试中甚至超越GPT-4-turbo模型[^2]。这得益于其强大的语言理解能力,能够高效处理中文、英文等多语言任务。 2. **大上下文支持**:模型支持128K对话上下文长度(即上下文token数),允许处理更长的对话和复杂文档,提高连续交互的连贯性[^2]。 3. **多模态能力**:(即结合文本、图像等多数据类型),例如: - **图像理解**:通过专门的GLM-4V-9B模型,用户可以上传图片(支持分辨率1120×1120),模型能理解图像内容并进行跨模态对话(如描述图像细节)。但该模式不支持工具调用和系统提示词,且每次对话仅限一张图片[^4]。 - **文生图功能**:模型能自主生成图像,结合用户指令完成多模态任务[^3]。 4. **Agent(能体)增强**:GLM-4具备更强的Agent能力,能够自主理解用户意图、规划复杂指令,并自由调用多种工具- **工具调用**:包括网页浏览器、Code Interpreter(代码解释器)和多模态文生图模型。例如,只需一个指令(如“分析数据并生成报告”),模型会自动分解任务、调用合适工具执行[^3]。 - **高效推理**:优化了推理速度,支持更高并发量,并降低了推理成本[^2]。 5. **易用性与开发支持**:通过开放平台GLMS和API接口(如GLM-4-API),用户可注册获取API KEY,轻松集成到自有AI应用中。AI还提供了丰富的文档和教程辅助开发[^1]。 --- ### 应用场景 GLM-4系列适用于广泛的AI驱动任务,以下是主要应用领域: - **自动化任务处理**:Agent能力使其胜任复杂工作流,如数据分析、报告生成或网页内容抓取。例如,在金融领域自动调用代码解释器分析市场趋势数据[^3]。 - **多模态交互**:图像理解功能可用于内容审核(如识别敏感图片)、教育辅助(如解释图表)或创意设计(如基于描述生成图像)[^4]。 - **对话系统与客服**:大上下文支持使其在客服聊天机器人中表现优异,处理长会话时保持连贯性。 - **AI开发与集成**:开发者可通过API快速构建自定义AI应用,如能搜索引擎或内容生成工具[^1]。 --- ### 技术细节 - **模型架构**:基于Transformer架构优化,具体参数未在引用中详细说明,但强调了性能提升和效率优化[^2]。 - **工具调用机制**:模型使用“思维链提示”技术,自动分解用户指令(示例:$ \text{用户输入} \rightarrow \text{指令解析} \rightarrow \text{工具选择} \rightarrow \text{执行输出} $)。开发者可通过“系统提示词”和“少样本学习”提升任务精度[^5]。 - **图像处理限制**:图像理解模块仅支持单张图片输入,最高分辨率1120×1120,且需开启新对话更换图片[^4]。 - **最佳实践**:为获得高质量响应,建议用户提供清晰指令: - 使用分隔符标注输入部分。 - 定义System Prompt(系统提示词)。 - 进行角色扮演(如“你是一位数据分析专家”)[^5]。 --- ### 说明与建议 GLM-4.6在引用中未出现,可能您参考了非官方信息或存在版本误解。基于当前公开资料,GLM-4是最新版本(截至2024年初)。如您有更多上下文(如来源链接),我可以进一步协助验证。GLM-4系列已通过API开放使用,建议访问AI平台获取实时更新[^1][^2]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值