在人工智能领域,OpenAI 一直是创新的先锋。2025 年 1 月 23 日,OpenAI 上线了一款极具开创性的 AI 智能体产品 ——Operator,犹如一颗重磅炸弹,瞬间吸引了全球的目光,在科技圈掀起了一阵热潮。它的出现,为我们展示了 AI 智能体在日常生活服务和更多领域的巨大潜力,也让人们对未来的智能生活充满了更多遐想。
一、技术原理:创新融合铸就强大能力
Operator 之所以能够实现如此强大的功能,背后离不开其先进且精妙的技术原理。它由一个名为 CUA(计算机使用代理)的新模型驱动,这一模型创新性地将 GPT - 4o 的视觉能力与通过强化学习实现的高级推理能力相结合。
CUA 的工作过程可分为三个关键阶段,每一个阶段都紧密相连,共同为 Operator 的智能交互能力提供支撑。
(一)感知阶段
在感知阶段,CUA 将屏幕截图添加到模型的上下文中,这一操作就如同为模型提供了计算机当前状态的视觉快照。通过对这些视觉信息的详细分析,Operator 能够精准地了解页面内容和结构。例如,当用户要求 Operator 预订餐厅时,它通过屏幕截图识别餐厅预订网站的页面布局,包括各个按钮的位置、菜单的分类以及文本输入框的位置等信息,为后续的操作提供基础。这种对屏幕内容的感知能力,使得 Operator 无需依赖特定操作系统或网络的 API,就能像人类一样直接与图形用户界面进行交互。
(二)推理阶段
推理阶段是 Operator 展现其智能的核心环节。在这一阶段,CUA 使用复杂的思路链进行推理,它不仅仅考虑当前的屏幕截图信息,还会参考过去的屏幕截图和操作。通过这种综合分析,Operator 能够评估其观察结果、跟踪中间步骤并根据实际情况动态调整策略,从而显著提高任务完成的质量。例如,在预订餐厅的过程中,如果遇到餐厅预订页面提示某个时间段已满,Operator 会运用推理能力,思考是否需要调整预订时间,或者重新搜索其他符合条件的餐厅,而不是盲目地继续尝试在已满的时间段进行预订。这种推理能力使得 Operator 在面对复杂多变的网络环境和多样化的用户需求时,能够灵活应对,做出合理的决策。
(三)操作阶段
经过感知和推理,Operator 进入操作阶段。在这一阶段,它能够执行各种操作,如单击、滚动或键入等,直到确定任务已完成或需要用户输入为止。虽然 CUA 会自动处理大多数步骤,但对于一些敏感操作,例如输入登录详细信息或填写验证码,CUA 会谨慎地寻求用户确认,充分保障用户信息的安全。例如,在完成餐厅预订的最后支付环节,Operato

最低0.47元/天 解锁文章
1493

被折叠的 条评论
为什么被折叠?



