CogAgent 使用与启动指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00718/article/details/146933609

CogAgent 使用与启动指南

CogAgent An open-sourced end-to-end VLM-based GUI Agent 项目地址: https://gitcode.com/gh_mirrors/co/CogAgent

1. 项目介绍

CogAgent 是一个基于视觉语言模型（VLM）的开源 GUI 代理项目。它基于 GLM-4V-9B 模型开发，通过多阶段训练和策略优化，实现了在 GUI 感知、推理预测准确性、动作空间完整性和任务泛化性方面的显著进步。CogAgent 支持中英双语交互，并且可以处理屏幕截图和语言输入。

2. 项目快速启动

快速启动 CogAgent 需要进行以下步骤：

首先，确保您的环境满足以下要求：

Python 3.8 或更高版本
NVIDIA GPU 支持 CUDA 11.0 或更高版本
至少 29GB 的 VRAM（推荐使用 A100 或 H100 GPU）

然后，安装必要的依赖：

pip install -r requirements.txt

接下来，运行一个简单的代理应用示例：

# 在 app/client.py 中找到以下代码块并运行
def main():
    # 初始化代理
    agent = CogAgent()
    
    # 执行任务
    task_result = agent.run(task="示例任务", history_grounded_op_funcs=[], history_actions=[])
    
    # 输出结果
    print(task_result)

if __name__ == "__main__":
    main()

确保替换 "示例任务" 为实际的任务描述。