CogAgent-9B-20241220:新一代GUI智能交互模型震撼发布,引领视觉语言交互新范式
【免费下载链接】cogagent-9b-20241220 项目地址: https://ai.gitcode.com/hf_mirrors/THUDM/cogagent-9b-20241220
模型概述
CogAgent-9B-20241220模型基于开源双语视觉语言基础模型GLM-4V-9B构建,通过系统化的数据采集与优化、多阶段训练流程及策略改进,在GUI感知精度、推理预测准确性、操作空间完整性及任务泛化能力方面实现显著突破。该模型支持截图与语言输入的双语(中英文)交互,能够精准理解图形用户界面并执行复杂操作指令。
目前,此版本CogAgent模型已成功应用于智谱AI旗下GLM-PC产品,为用户提供智能化的界面交互体验。我们期待通过本次开源,助力科研人员与开发者推动基于视觉语言模型的GUI智能体技术研究与应用落地。
模型运行指南
关于模型运行的具体示例,请参考项目GitCode仓库。
输入输出规范
cogagent-9b-20241220作为智能体执行模型,不同于常规对话模型,不支持连续对话功能,但可保留连续执行历史记录。以下为用户提供模型输入格式规范及输出结果解读指南。
模型部署关键步骤
模型运行的详细示例及提示词拼接方法(直接影响模型执行正确性的核心环节),请查阅项目[GitCode仓库](https://link.gitcode.com/i/35e3114a5c5ca76174affb9934e1b1b7)。
特别需要注意提示词的拼接流程,可参考app/client.py#L115中的用户输入提示拼接代码:
current_platform = identify_os() # 返回"Mac"、"WIN"或"Mobile",注意大小写规范
platform_str = f"(Platform: {current_platform})\n"
format_str = "(Answer in Action-Operation-Sensitive format.)\n" # "Action-Operation-Sensitive"可替换为其他格式标识
history_str = "\nHistory steps: "
for index, (grounded_op_func, action) in enumerate(zip(history_grounded_op_funcs, history_actions)):
history_str += f"\n{index}. {grounded_op_func}\t{action}" # 索引从0开始计数
query = f"Task: {task}{history_str}\n{platform_str}{format_str}" # 注意换行符的正确使用
最小化用户输入拼接示例代码如下:
"Task: Search for doors, click doors on sale and filter by brands \"Mastercraft\".\nHistory steps: \n0. CLICK(box=[[352,102,786,139]], element_info='Search')\tLeft click on the search box located in the middle top of the screen next to the Menards logo.\n1. TYPE(box=[[352,102,786,139]], text='doors', element_info='Search')\tIn the search input box at the top, type 'doors'.\n2. CLICK(box=[[787,102,809,139]], element_info='SEARCH')\tLeft click on the magnifying glass icon next to the search bar to perform the search.\n3. SCROLL_DOWN(box=[[0,209,998,952]], step_count=5, element_info='[None]')\tScroll down the page to see the available doors.\n4. CLICK(box=[[280,708,710,809]], element_info='Doors on Sale')\tClick the \"Doors On Sale\" button in the middle of the page to view the doors that are currently on sale.\n(Platform: WIN)\n(Answer in Action-Operation format.)\n"
上述拼接后的Python字符串格式如下:
"Task: Search for doors, click doors on sale and filter by brands \"Mastercraft\".\nHistory steps: \n0. CLICK(box=[[352,102,786,139]], element_info='Search')\tLeft click on the search box located in the middle top of the screen next to the Menards logo.\n1. TYPE(box=[[352,102,786,139]], text='doors', element_info='Search')\tIn the search input box at the top, type 'doors'.\n2. CLICK(box=[[787,102,809,139]], element_info='SEARCH')\tLeft click on the magnifying glass icon next to the search bar to perform the search.\n3. SCROLL_DOWN(box=[[0,209,998,952]], step_count=5, element_info='[None]')\tScroll down the page to see the available doors.\n4. CLICK(box=[[280,708,710,809]], element_info='Doors on Sale')\tClick the \"Doors On Sale\" button in the middle of the page to view the doors that are currently on sale.\n(Platform: WIN)\n(Answer in Action-Operation format.)\n"
由于篇幅限制,如需详细了解各字段的含义与表示方法,请参阅项目GitCode仓库文档。
技术演进历程
2023年11月,我们发布了第一代CogAgent模型,相关代码与权重可在CogVLM & CogAgent官方仓库中获取。
如上图所示,该功能示意图完整呈现了CogAgent在GUI任务处理中的核心工作流程,包括视觉输入解析、历史操作记忆、任务规划执行等关键模块。这一技术架构充分体现了模型将视觉理解与操作执行深度融合的设计理念,为开发者提供了清晰的技术实现参考框架。
CogVLM视觉基础模型📖 论文:CogVLM: Visual Expert for Pretrained Language Models CogVLM作为高性能开源视觉语言模型,CogVLM-17B版本包含100亿视觉参数与70亿语言参数,支持490x490分辨率图像理解及多轮对话功能。该模型通过创新的视觉专家模块设计,显著提升了语言模型的跨模态理解能力。 CogVLM-17B在10项经典跨模态评测基准中取得state-of-the-art性能,包括NoCaps图像 captioning、Flicker30k图像描述、RefCOCO系列指代表达理解、Visual7W视觉问答、GQA推理问答、ScienceQA科学问答、VizWiz视障辅助问答及TDIUC复杂图像理解等任务。 | CogAgent智能交互模型📖 论文:CogAgent: A Visual Language Model for GUI Agents CogAgent基于CogVLM架构优化的开源视觉语言模型,CogAgent-18B版本配置110亿视觉参数与70亿语言参数,支持1120x1120高分辨率图像理解,在保留CogVLM核心能力基础上,特别强化了GUI智能体操作功能,实现从视觉理解到界面操作的端到端能力。 CogAgent-18B在9项经典跨模态评测基准中刷新性能纪录,涵盖VQAv2、OK-VQ、TextVQA文本视觉问答、ST-VQA场景文本理解、ChartQA图表分析、infoVQA信息图问答、DocVQA文档理解、MM-Vet多模态综合评测及POPE对抗性评测等任务,并在AITW、Mind2Web等GUI操作数据集上显著超越现有模型性能。 |
许可协议说明
使用模型权重时,请严格遵守模型许可协议条款。
技术价值与未来展望
CogAgent-9B-20241220的发布标志着视觉语言模型在GUI交互领域的技术突破,其核心价值体现在三方面:一是通过轻量化9B参数设计实现高效部署,降低开发者使用门槛;二是创新的操作历史记忆机制,提升复杂任务执行连贯性;三是跨平台适配能力,支持Windows、macOS及移动设备的界面交互。未来团队将重点优化模型在动态界面处理、多应用协同及低资源设备部署等方向,推动GUI智能体技术在办公自动化、无障碍辅助、工业控制等领域的规模化应用。
【免费下载链接】cogagent-9b-20241220 项目地址: https://ai.gitcode.com/hf_mirrors/THUDM/cogagent-9b-20241220
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



