继去年10月底Anthropic发布Claude 3.5的computer use能力之后,OpenAI在今年1月24日也发布了计算机使用agent(Computer-Using Agent, CUA)模型——Operator。这一模型结合了GPT-4o的视觉能力和通过强化学习获得的高级推理能力,能够解释截图并与图形用户界面(GUI)进行交互。它不仅能够执行日常任务,如在线购物、预订餐厅或购买活动门票,还能够在用户的指导和监督下完成更复杂的任务。
工作原理
Operator模型的训练过程包括监督学习和强化学习两个阶段。监督学习阶段教会模型如何感知计算机屏幕并准确点击用户界面元素,而强化学习阶段则赋予模型更高层次的能力,如推理、错误纠正和适应意外事件。

接收到用户的指令后,CUA通过一个整合了感知、推理和行动的迭代循环来操作:
- 感知:计算机的屏幕截图被添加到模型的上下文中,提供了计算机当前状态的视觉快照。
- 推理:CUA使用思考链(chain-of-thought)来推理下一步,考虑到当前和过去的屏幕截图以及动作。这种内部对话通过使模型能够评估其观察结果、跟踪中间步骤并动态适应,从而提高了任务执行的性能。
- 行动:它执行动作——点击、滚动或输入——直到它认为任务完成或需要用户输入。虽然它自动处理大多数步骤,但对于敏感操作,如输入登录详细信息或响应验证码表单,CUA会寻求用户确认。
性能测试
CUA的性能包括perception, reasoning, manipulation, long-horizon reliability, safety等方面。OpenAI分别使用OSWorld和WebArena两个benckmark评估operator agent在Computer Use和Browser Use方面的能力。

最低0.47元/天 解锁文章
1687

被折叠的 条评论
为什么被折叠?



