OmniParser v2本地部署(1)部署OmniParser_v2模型

前不久,微软开源了最新的OmniParser v2版本

在这里插入图片描述
在新的基础测试基准 Screen Spot Pro 上,使用 OmniParser v2 实现了 39.5% 的最新业界领先结果。

关于omniparser的技术解析可以参考这篇博客屏幕解析工具——OmniParser,这里主要介绍OmniParser v2本地部署

1 创建新的conda环境并激活

conda create -n omni python=3.12
conda activate omni

2 git导入项目、下载依赖

git clone https://github.com/microsoft/OmniParser

会生成一个文件夹
在这里插入图片描述
里面有个requirements.txt,是我们所需要的依赖,进入该目录中,直接pip安装依赖

cd ./OmniParser
pip install -r requirements.txt

等待依赖安装

3 下载模型权重

   # download the model checkpoints to local directory OmniParser/weights/
   for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
   mv weights/icon_caption weights/icon_caption_florence

会在omniparser文件夹下生成一个weights文件夹
在这里插入图片描述

4 使用

我这里使用的是文件夹里面的demo
在这里插入图片描述
可以在这段代码修改需要的图片
在这里插入图片描述
我这里选择了一张我的桌面图片
在这里插入图片描述
运行所有的单元格,即可获取到标注好的界面图

在这里插入图片描述
这次相较于v1,还增加了每个元素的位置信息,可交互信息,格式如下
在这里插入图片描述
之后我会更新OmniTool的本地部署,OmniTool是一套包含界面元素识别、自动化控制的完整工具,可以基于OmniParser对电脑、手机等设备进行自然语言的自动化操作。

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

青石横刀策马

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值