OmniParser V2.0是一款基于纯视觉的GUI智能体解析和识别屏幕上可交互图标的AI工具。它通过大规模的交互元素检测数据和图标功能标题数据的训练,在检测较小的可交互UI元素时准确率更高、推理速度更快,延迟降低了60%。
微软发布开源OmniParser V2.0,操控电脑智能体
最新推荐文章于 2025-04-08 10:07:13 发布
OmniParser V2.0是一款基于纯视觉的GUI智能体解析和识别屏幕上可交互图标的AI工具。它通过大规模的交互元素检测数据和图标功能标题数据的训练,在检测较小的可交互UI元素时准确率更高、推理速度更快,延迟降低了60%。