月之暗面再放大招!OpenCUA开源Agent框架横空出世,旗舰模型性能碾压GPT-4o​

月之暗面再放大招!OpenCUA开源Agent框架横空出世,旗舰模型性能碾压GPT-4o

港大XLANG Lab联合月之暗面等机构推出开源框架,计算机操作Agent开发门槛大幅降低

计算机使用Agent(CUA)领域迎来重大突破!香港大学XLANG Lab联合月之暗面、斯坦福大学等顶尖机构,于本周二在arXiv发布全新开源框架OpenCUA,其旗舰模型在基准测试中以34.8%成功率刷新开源SOTA,甚至超越OpenAI的GPT-4o!月之暗面创始人杨植麟作为合著者参与研究,团队同步开源了22.5K跨平台任务数据集和全套工具链,为AI自主操作计算机的规模化应用铺平道路。

核心亮点:三大革新颠覆CUA开发

1. 全栈开源框架

  • 包含演示录制工具AgentNet Tool,支持Windows/macOS/Ubuntu三大系统

研究团队开发的AgentNet Tool解决了传统数据标注工具复杂、跨平台兼容性差的问题,让非技术用户也能轻松记录计算机操作流程。该工具支持Windows、macOS和Ubuntu三大系统,可自动捕获屏幕视频、鼠标轨迹、键盘输入及系统元数据,直接在用户本地环境中运行,确保数据真实反映实际使用习惯,大幅提升计算机使用Agent(CUA)训练数据的采集效率和质量。

  • 首创200+应用/网站覆盖的大规模数据集AgentNet

研究团队开发的AgentNet数据集是当前最全面的计算机操作知识库,包含22.5万条经过精细标注的跨平台操作记录(Windows 12K/macOS 5K/Ubuntu 5K)。这些数据通过创新的处理流程,将原始操作转化为包含"思考过程"的结构化轨迹,覆盖140+专业软件和190+网站的真实工作场景。与现有数据集相比,AgentNet首次完整记录了从简单点击到复杂多应用工作流的完整操作链条,为训练真正理解人类操作意图的AI助理提供了关键训练素材。每个任务都经过多重验证,确保数据质量达到黄金标准,使AI能够学习到接近人类水平的计算机操作能力。

  • 独创"状态-动作"转换流程,生成带思维链的训练数据

OpenCUA框架通过融合反思性思维链推理、多图像历史分析和混合域数据训练三大核心技术,使AI能够像人类一样思考和操作计算机系统。该框架特别采用Pass@N评估指标验证其性能,其中OpenCUA-7B模型展现出卓越的测试时间扩展能力,表明其能在多次尝试中快速找到最优解决方案,为构建真正智能化的计算机操作助手提供了可靠的技术路径。

2. 旗舰模型性能炸裂

在OSWorld-Verify基准测试中,OpenCUA-32B展现出卓越性能,整体表现超越Qwen、Kimi、OpenAI及Claude系列模型,但在特定任务场景下,其得分仍略逊于Claude 3.7 Sonnet和Claude 4 Sonnet版本。这一对比结果既验证了OpenCUA框架的领先性,也揭示了其在复杂任务处理上仍有提升空间。

为评估计算机操作Agent在离线环境下的真实表现,研究团队精心打造了AgentNetBench基准测试。该测试从海量AgentNet数据中精选100个典型任务,覆盖Windows和macOS双平台及多领域场景,每个任务均经过专家级人工校验——不仅剔除冗余操作,更在关键步骤标注多个可行操作路径,以全面检验AI的决策灵活性。

实测数据显示,OpenCUA-7B和OpenCUA-32B在此严苛测试中表现抢眼,综合得分力压OpenAI、Qwen等主流模型,印证了该框架在无网络环境下的实用价值,为企业私有化部署提供了可靠选择。

在评估AI理解图形界面(GUI)的核心能力测试中,研究团队通过OSWorld-G、Screenspot-V2、Screenspot-Pro三大专业基准,全面检验模型对按钮、菜单、输入框等界面元素的识别精度。OpenCUA-2.5-72B在此项测试中实现全面领跑——无论是基础控件定位还是复杂界面元素理解,其表现均显著优于所有对比模型,这标志着AI在视觉交互领域取得重大突破,为构建真正"看得懂"屏幕的智能助手奠定了技术基础。

功能演示

1. VSCode插件安装:精准定位扩展商店并完成配置

2. 跨国天气预报查询:自动打开浏览器检索曼彻斯特天气

3. PPT制作:从空白文档到图文排版的完整工作流

社区地址

OpenCSG社区:
https://opencsg.com/models/AIWizards/OpenCUA-7B

hf社区:
https://huggingface.co/xlangai/OpenCUA-7B

关于 OpenCSG

OpenCSG 是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续的 AI 开发者生态。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值