operator: openai CUA agent原理介绍

继去年10月底Anthropic发布Claude 3.5的computer use能力之后,OpenAI在今年1月24日也发布了计算机使用agent(Computer-Using Agent, CUA)模型——Operator。这一模型结合了GPT-4o的视觉能力和通过强化学习获得的高级推理能力,能够解释截图并与图形用户界面(GUI)进行交互。它不仅能够执行日常任务,如在线购物、预订餐厅或购买活动门票,还能够在用户的指导和监督下完成更复杂的任务。

工作原理

Operator模型的训练过程包括监督学习和强化学习两个阶段。监督学习阶段教会模型如何感知计算机屏幕并准确点击用户界面元素,而强化学习阶段则赋予模型更高层次的能力,如推理、错误纠正和适应意外事件。
在这里插入图片描述
接收到用户的指令后,CUA通过一个整合了感知、推理和行动的迭代循环来操作:

  • 感知:计算机的屏幕截图被添加到模型的上下文中,提供了计算机当前状态的视觉快照。
  • 推理:CUA使用思考链(chain-of-thought)来推理下一步,考虑到当前和过去的屏幕截图以及动作。这种内部对话通过使模型能够评估其观察结果、跟踪中间步骤并动态适应,从而提高了任务执行的性能。
  • 行动:它执行动作——点击、滚动或输入——直到它认为任务完成或需要用户输入。虽然它自动处理大多数步骤,但对于敏感操作,如输入登录详细信息或响应验证码表单,CUA会寻求用户确认。

性能测试

CUA的性能包括perception, reasoning, manipulation, long-horizon reliability, safety等方面。OpenAI分别使用OSWorld和WebArena两个benckmark评估operator agent在Computer Use和Browser Use方面的能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值