最强GPT-4 Vision模型成功率不超过20%,智谱模型的1.32分😅
GitRead🔥项目推荐【OSWorld】
大家都说做Agent,调用func call,调用api,搭一个workflow就是Agent吗?
OSWord项目,测评LLM智能体能真正帮你操作电脑桌面任务吗?🤔
现在大模型能看百万文档、会调API,但...这不太够
人之所见即模型所见,桌面screenshot截图给它,直接帮我一顿点击、输入、拖拉...🖱️操作
香港大学NLP实验室提供一个Benchmark测评,主要技术:(GitRead解析)
-
核心技术: 项目使用了多模态代理和虚拟化技术,通过Python库如pyautogui和pyatspi实现桌面环境自动化。
-
层次逻辑: 项目分为环境配置、代理接口实现和基准测试三个主要部分,用户需先配置环境,再实现代理接口,最后运行基准测试。
-
关键技术: 使用了VMware Workstation Pro进行虚拟机管理,并通过Python脚本实现自动化操作和结果评估。
OSWorld Agent的动作空间:moveTo、 click、press、scroll...
涵盖日常app操作、办公文档编辑共369个项目测试如何?当前最强GPT-4 Vision模型成功率不超过20%,智谱模型得1.32分😅
Agent能与现实世界交互,以人观之,以人行之,岂不妙哉😂
大模型又要精进了
看来还需要让子弹飞🪽一会~
更多详细请看👉:https://gitread.co/detail?name=xlang-ai/OSWorld