OmniParser 使用指南

最新推荐文章于 2025-05-11 20:56:46 发布

祖崧革

最新推荐文章于 2025-05-11 20:56:46 发布

阅读量444

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00133/article/details/146557194

OmniParser 使用指南

OmniParser A simple screen parsing tool towards pure vision based GUI agent 项目地址: https://gitcode.com/gh_mirrors/omn/OmniParser

1. 项目介绍

OmniParser 是一个开源的屏幕解析工具，旨在为纯视觉基础的图形用户界面（GUI）代理提供全面的解析能力。它能够将用户界面截图解析成结构化且易于理解的元素，极大地提升了GPT-4V生成精确界面动作的能力。

2. 项目快速启动

首先，您需要克隆仓库并设置环境：

cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

确保在 weights 文件夹中下载了V2模型的权重文件。如果没有，可以使用以下命令下载：

for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence

运行以下命令启动Gradio演示：