GitRead推荐-【OSWorld】人人都说Agent,能现实交互才是真Agent

最强GPT-4 Vision模型成功率不超过20%,智谱模型的1.32分😅

GitRead🔥项目推荐【OSWorld】

大家都说做Agent,调用func call,调用api,搭一个workflow就是Agent吗?

OSWord项目,测评LLM智能体能真正帮你操作电脑桌面任务吗?🤔

现在大模型能看百万文档、会调API,但...这不太够

人之所见即模型所见,桌面screenshot截图给它,直接帮我一顿点击、输入、拖拉...🖱️操作

香港大学NLP实验室提供一个Benchmark测评,主要技术:(GitRead解析)

  • 核心技术: 项目使用了多模态代理和虚拟化技术,通过Python库如pyautogui和pyatspi实现桌面环境自动化。

  • 层次逻辑: 项目分为环境配置、代理接口实现和基准测试三个主要部分,用户需先配置环境,再实现代理接口,最后运行基准测试。

  • 关键技术: 使用了VMware Workstation Pro进行虚拟机管理,并通过Python脚本实现自动化操作和结果评估。

OSWorld Agent的动作空间:moveTo、 click、press、scroll...

涵盖日常app操作、办公文档编辑共369个项目测试如何?当前最强GPT-4 Vision模型成功率不超过20%,智谱模型得1.32分😅

Agent能与现实世界交互,以人观之,以人行之,岂不妙哉😂 

大模型又要精进了

看来还需要让子弹飞🪽一会~

更多详细请看👉:https://gitread.co/detail?name=xlang-ai/OSWorld

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值