CogAgent：带 Agent 能力的视觉模型，免费商用

智谱AI发布视觉多模态大模型：CogVLM与CogAgent

最新推荐文章于 2025-10-26 05:31:51 发布

原创

最新推荐文章于 2025-10-26 05:31:51 发布 · 1.6k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语言模型 #自然语言处理

10月11日，我们发布了智谱AI新一代多模态大模型 CogVLM，该模型在不牺牲任何 NLP 任务性能的情况下，实现视觉语言特征的深度融合，其中 CogVLM-17B 在 14 个多模态数据集上取得最好或者第二名的成绩。

12月15日，我们再次升级。基于 CogVLM，提出了视觉 GUI Agent，并研发了多模态大模型CogAgent。

其中，视觉 GUI Agent 能够使用视觉模态（而非文本）对 GUI 界面进行更全面直接的感知，从而做出规划和决策。

而多模态模型 CogAgent，可接受1120×1120的高分辨率图像输入，具备视觉问答、视觉定位（Grounding）、GUI Agent等多种能力，在9个经典的图像理解榜单上（含VQAv2，STVQA, DocV

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

GLM大模型

关注关注

20
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

AI大模型探索之路-应用篇14：认识国产开源大模型GLM

寻道AI，探索AI无限可能！

04-17

6558

在人工智能的浩瀚宇宙中，开源大模型如同璀璨星辰，引领着技术创新与应用探索的方向。国际领域的OpenAI无疑闪耀着夺目的光芒，但国内厂商亦步亦趋，逐渐展露头角。今天，我们将聚焦于国内主流的大模型，探寻它们的技术脉络与应用潜力，并特别解析智谱AI研发的GLM大模型系列，见证中国在全球AI舞台上的坚实步伐。

多模态大语言VLM模型综述

@bangbang的博客

08-23

296

摘要：多模态大语言模型（MLLM）通过融合视觉编码器与大语言模型（LLM），展现出跨模态理解和推理的涌现能力。本文系统梳理了MLLM的核心架构（编码器-适配器-LLM）、训练策略与评估体系，并探讨了细粒度模态扩展、多语言支持及幻觉缓解等关键技术。研究显示，提升输入分辨率和LLM规模可显著增强性能，而多模态上下文学习（M-ICL）、思维链（M-CoT）等技术进一步优化了复杂任务表现。当前挑战包括模态对齐精度和计算效率，未来方向可能聚焦于多模态智能体开发与低资源场景适配。相关资源持续更新于GitHub项目。

1 条评论您还未登录，请先登录后发表或查看评论

【有啥问啥】深度探索：COG Agent与GUI Agent的工作原理与实施策略

Chauvin的博客

10-08

1629

COG Agent是一个专注于图形界面自动化的工具，依托于大规模视觉语言模型（VLM），其主要功能包括界面元素的自动识别、理解和操作。COG Agent无需依赖文本或DOM解析，而是通过感知界面图像内容直接做出操作决策。其强大的视觉和语言处理能力，使其在面对动态、复杂的GUI任务时表现出色。

CogAgent：开创性的VLM在GUI理解和自动化任务中的突破

人工智能讲师分享前沿技术

04-29

1527

结果显示，CogAgent在通用VQA类别的两个数据集上均达到了最先进的一般性结果，同时在文本丰富的VQA类别中的五个基准测试中的四个上取得了最佳成绩，显著超过了其他一般性模型，并且在某些情况下甚至超过了特定任务的模型。基于VLM的代理通过其视觉和语言的综合处理能力，为与GUI的自然交互提供了新的可能性，并且在自动化和增强人机交互体验方面展现出巨大的潜力。：设计用于处理高达1120×1120分辨率的图像，这使得模型能够识别和理解细小的GUI元素，如小图标、文本和复杂的图表。

CogAgent：清华开源多模态模型，重新定义GUI交互与视觉理解

最新发布

gitblog_00912的博客

10-26

569

清华大学与智谱AI联合推出的CogAgent多模态模型，凭借180亿参数规模和1120×1120超高分辨率视觉输入能力，在9项跨模态基准测试中刷新纪录，同时开创了基于视觉的GUI智能体新范式。 ## 行业现状：从文本交互到视觉智能的跨越当前多模态模型正经历从"文本优先"向"视觉深度理解"的转型。根据2024年相关研究数据，超过68%的企业级应用需要处理界面交互，但传统API驱动的自动化方案仅能...

【大模型系列】CogAgent(2024.12)

kabuto_hui的博客

01-11

1284

值得注意的是，在给定相同的截图、用户指令、历史操作的情况下，可能会有多个正确的输入，例如点击“发送”按钮和按下回车键都可以发送消息。高分辨率的图像编码参与到visual language decoder的过程中，在每层MSA(Multi-Self-Attention)层之后，再添加一个cross-attn层，原MSA的输出作为q，高分辨率的图像编码作为k-v，参与运算，最后cross-attn的输出维度与原MSA的输出维度保持一致。不过对于复杂的任务，或者打开一个冷门没见过的应用就不太行了。

CogAgent: 一个GUI智体的视觉语言模型

yorkhunter的博客

06-06

1474

23年12月清华大学论文“CogAgent: A Visual Language Model for GUI Agents”。

CogAgent-可免费商用的带 Agent 能力的视觉模型

Qynwang的博客

09-03

1055

它能像人类一样 “看懂” 电脑和手机界面 —— 无论是微信复杂的设置菜单，还是《原神》游戏任务面板，截张图问它 “怎么跳过这个动画？”，0.5 秒就给你箭头标注点击位置，手残党打游戏 / 搞办公的救星！：这玩意儿可能让 50% 的软件客服下岗 —— 毕竟谁比 AI 更懂软件呢？触发快捷键提示（Alt+Q 秒开微信搜索），AI 手把手教到账，儿女惊呼。让演示动画加速，专治老板催进度。@银发族张姨：对着淘宝截图问。⭐⭐⭐（机翻指令卡壳），游戏小白秒变高玩！

【AIGC调研系列】CogVLM2:第二代视觉大模型

zachary的博客

05-21

2592

CogVLM2是智谱AI推出的新一代多模态大模型，继承并优化了上一代模型的经典架构。CogVLM2采用了一个拥有50亿参数的强大视觉编码器，并创新性地在大语言模型中整合了一个70亿参数的视觉专家模块[1]。这一设计使得CogVLM2在视觉和语言理解方面实现了显著的性能提升，支持高达8K的文本长度和1344*1344分辨率的图像输入[2]。CogVLM2的核心思想是“视觉优先”，与之前的多模态模型不同，它将图像特征直接对齐到文本特征的输入空间去，从而更好地处理视觉信息[3]。

基于视觉语言模型（VLM)的CogAgent

CherryXieのblog

12-28

1641

前言 CogAgent 是由清华大学与智谱AI联合推出的一个多模态大模型，专注于图形用户界面（GUI）的理解和导航。它代表了在视觉语言模型（VLM）领域的一项重要进展，特别是在GUI Agent能力方面。相较于传统的基于文本的Agent，CogAgent的独特之处在于其使用视觉模态而非文本对GUI界面进行感知。这种方法更符合人类的直觉交互方式，即通过视觉与GUI交互，从而做出规划和决策。 CogAgent的主要特点视觉GUI Agent能力 CogAgent能够接受高达1120×1120像素的高分辨率图像

VLMs之Agent之CogAgent：CogAgent的简介、安装和使用方法、案例应用之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

01-07

3436

VLMs之Agent之CogAgent：CogAgent的简介、安装和使用方法、案例应用之详细攻略目录相关文章 CogAgent-9b的简介 CogAgent-9b的安装和使用方法 CogAgent-9b的案例应用相关文章 VLMs之Agent之CogAgent：《CogAgent: A Visual Language Model for GUI Agents》翻译与解读 VLMs之Agent之CogAgent：《CogAgent:

weixin_55010563的博客

12-27

517

然而，尽管大型语言模型（LLM）如ChatGPT在处理文本任务上表现出色，但在理解和操作GUI方面仍面临挑战，因此最近一年来，在学界和大模型社区中，越来越多的研究者和开发者们开始关注VLM-based GUI Agent。2023年12月，智谱发布了CogAgent，第一个基于视觉语言模型（Visual Language Model, VLM）的开源 GUI agent 模型，而在最近，最新的CogAgent模型 CogAgent-9B-20241220发布，让LLM操作GUI在技术上更进了一步。

VLMs之Agent之CogAgent：《CogAgent: A Visual Language Model for GUI Agents》翻译与解读

01-07

1923

VLMs之Agent之CogAgent：《CogAgent: A Visual Language Model for GUI Agents》翻译与解读目录《CogAgent: A Visual Language Model for GUI Agents》翻译与解读 Abstract 1、Introduction Conclusion 《CogAgent: A Visual Language Model for GUI Agents》翻译与解读地址

CogAgent：带 Agent 能力的视觉模型来了

机器学习社区

12-24

1617

之前我们分享过智谱AI新一代多模态大模型 CogVLM，该模型在不牺牲任何 NLP 任务性能的情况下，实现视觉语言特征的深度融合，其中 CogVLM-17B 在 14 个多模态数据集上取得最好或者第二名的成绩。12月15日，基于 CogVLM，提出了视觉 GUI Agent，并研发了多模态大模型CogAgent。其中，视觉 GUI Agent 能够使用视觉模态（而非文本）对 GUI 界面进行更全面直接的感知，从而做出规划和决策。

【Github: 463⭐️】《CogAgent: A Visual Language Model for GUI Agents》译读笔记

墨门

01-09

1239

人们通过图形用户界面（Graphical User Interfaces, GUIs）在数字设备上花费大量时间，例如，计算机或智能手机屏幕。ChatGPT 等大型语言模型（Large Language Models, LLMs）可以帮助人们完成撰写电子邮件等任务，但难以理解 GUI 并与之交互，从而限制了它们提升自动化水平的潜力。本文介绍了CogAgent，这是一个180亿参数的视觉语言模型（Visual Language Model, VLM），专门用于 GUI 理解和导航。

智谱AI开源Agent任务模型CogAgent-9B：通过屏幕截图预判操作

weixin_41446370的博客

12-27

495

与2023年12月开源的第一版CogAgent模型相比，CogAgent-9B-20241220在GUI感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均有显著提升，并支持中英文双语的屏幕截图和语言交互。输出则涵盖思考过程、下一步动作的自然语言描述、下一步动作的结构化描述以及下一步动作的敏感性判断。CogAgent-9B是基于GLM-4V-9B训练而成的专用Agent任务模型，能够仅通过屏幕截图作为输入，根据用户指定的任意任务结合历史操作，预测下一步的GUI操作。

【GUI Agent】CogAgent的学习笔记

墨门

01-09

971

【博文】