月之暗面再放大招！OpenCUA开源Agent框架横空出世，旗舰模型性能碾压GPT-4o

原创已于 2025-08-15 17:57:12 修改 · 760 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#大模型 #语言模型 #人工智能

于 2025-08-15 17:06:23 首次发布

AI 同时被 2 个专栏收录

16 篇文章

订阅专栏

开源

9 篇文章

订阅专栏

月之暗面再放大招！OpenCUA开源Agent框架横空出世，旗舰模型性能碾压GPT-4o

港大XLANG Lab联合月之暗面等机构推出开源框架，计算机操作Agent开发门槛大幅降低

计算机使用Agent（CUA）领域迎来重大突破！香港大学XLANG Lab联合月之暗面、斯坦福大学等顶尖机构，于本周二在arXiv发布全新开源框架OpenCUA，其旗舰模型在基准测试中以34.8%成功率刷新开源SOTA，甚至超越OpenAI的GPT-4o！月之暗面创始人杨植麟作为合著者参与研究，团队同步开源了22.5K跨平台任务数据集和全套工具链，为AI自主操作计算机的规模化应用铺平道路。

核心亮点：三大革新颠覆CUA开发

1. 全栈开源框架

包含演示录制工具AgentNet Tool，支持Windows/macOS/Ubuntu三大系统

研究团队开发的AgentNet Tool解决了传统数据标注工具复杂、跨平台兼容性差的问题，让非技术用户也能轻松记录计算机操作流程。该工具支持Windows、macOS和Ubuntu三大系统，可自动捕获屏幕视频、鼠标轨迹、键盘输入及系统元数据，直接在用户本地环境中运行，确保数据真实反映实际使用习惯，大幅提升计算机使用Agent（CUA）训练数据的采集效率和质量。

首创200+应用/网站覆盖的大规模数据集AgentNet

研究团队开发的AgentNet数据集是当前最全面的计算机操作知识库，包含22.5万条经过精细标注的跨平台操作记录（Windows 12K/macOS 5K/Ubuntu 5K）。这些数据通过创新的处理流程，将原始操作转化为包含"思考过程"的结构化轨迹，覆盖140+专业软件和190+网站的真实工作场景。与现有数据集相比，AgentNet首次完整记录了从简单点击到复杂多应用工作流的完整操作链条，为训练真正理解人类操作意图的AI助理提供了关键训练素材。每个任务都经过多重验证，确保数据质量达到黄金标准，使AI能够学习到接近人类水平的计算机操作能力。

独创"状态-动作"转换流程，生成带思维链的训练数据

OpenCUA框架通过融合反思性思维链推理、多图像历史分析和混合域数据训练三大核心技术，使AI能够像人类一样思考和操作计算机系统。该框架特别采用Pass@N评估指标验证其性能，其中OpenCUA-7B模型展现出卓越的测试时间扩展能力，表明其能在多次尝试中快速找到最优解决方案，为构建真正智能化的计算机操作助手提供了可靠的技术路径。

2. 旗舰模型性能炸裂

在OSWorld-Verify基准测试中，OpenCUA-32B展现出卓越性能，整体表现超越Qwen、Kimi、OpenAI及Claude系列模型，但在特定任务场景下，其得分仍略逊于Claude 3.7 Sonnet和Claude 4 Sonnet版本。这一对比结果既验证了OpenCUA框架的领先性，也揭示了其在复杂任务处理上仍有提升空间。

为评估计算机操作Agent在离线环境下的真实表现，研究团队精心打造了AgentNetBench基准测试。该测试从海量AgentNet数据中精选100个典型任务，覆盖Windows和macOS双平台及多领域场景，每个任务均经过专家级人工校验——不仅剔除冗余操作，更在关键步骤标注多个可行操作路径，以全面检验AI的决策灵活性。

实测数据显示，OpenCUA-7B和OpenCUA-32B在此严苛测试中表现抢眼，综合得分力压OpenAI、Qwen等主流模型，印证了该框架在无网络环境下的实用价值，为企业私有化部署提供了可靠选择。

在评估AI理解图形界面（GUI）的核心能力测试中，研究团队通过OSWorld-G、Screenspot-V2、Screenspot-Pro三大专业基准，全面检验模型对按钮、菜单、输入框等界面元素的识别精度。OpenCUA-2.5-72B在此项测试中实现全面领跑——无论是基础控件定位还是复杂界面元素理解，其表现均显著优于所有对比模型，这标志着AI在视觉交互领域取得重大突破，为构建真正"看得懂"屏幕的智能助手奠定了技术基础。