operator: openai CUA agent原理介绍

OpenAI计算机使用agent模型Operator解析

原创

已于 2025-01-24 23:45:01 修改 · 3.2k 阅读

·

20

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2025-01-24 23:28:37 首次发布

继去年10月底Anthropic发布Claude 3.5的computer use能力之后，OpenAI在今年1月24日也发布了计算机使用agent（Computer-Using Agent, CUA）模型——Operator。这一模型结合了GPT-4o的视觉能力和通过强化学习获得的高级推理能力，能够解释截图并与图形用户界面（GUI）进行交互。它不仅能够执行日常任务，如在线购物、预订餐厅或购买活动门票，还能够在用户的指导和监督下完成更复杂的任务。

工作原理

Operator模型的训练过程包括监督学习和强化学习两个阶段。监督学习阶段教会模型如何感知计算机屏幕并准确点击用户界面元素，而强化学习阶段则赋予模型更高层次的能力，如推理、错误纠正和适应意外事件。
在这里插入图片描述
接收到用户的指令后，CUA通过一个整合了感知、推理和行动的迭代循环来操作：

感知：计算机的屏幕截图被添加到模型的上下文中，提供了计算机当前状态的视觉快照。
推理：CUA使用思考链（chain-of-thought）来推理下一步，考虑到当前和过去的屏幕截图以及动作。这种内部对话通过使模型能够评估其观察结果、跟踪中间步骤并动态适应，从而提高了任务执行的性能。
行动：它执行动作——点击、滚动或输入——直到它认为任务完成或需要用户输入。虽然它自动处理大多数步骤，但对于敏感操作，如输入登录详细信息或响应验证码表单，CUA会寻求用户确认。

性能测试

CUA的性能包括perception, reasoning, manipulation, long-horizon reliability, safety等方面。OpenAI分别使用OSWorld和WebArena两个benckmark评估operator agent在Computer Use和Browser Use方面的能力。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。