OpenVINO™2025与QWen-VL多模态视觉模型实现零样本对象检测

对象检测支持
QWen2.5-VL视觉多模态大模型支持通过生成边框或点来精确定位图像中的对象,并能为坐标和属性提供稳定的 JSON 输出,不仅能熟练识别花、鸟、鱼和昆虫等常见物体、还可以精准检测多种水果、交通工具、动物与人类,可以零代码实现超过300种以上的对象检测并输出它们的JSON格式坐标位置信息与标签信息。

模板与提示词
QWen2.5-VL对象检测依赖于正确的提示词与输入格式,qwen2.5_3b当前支持的图像分辨率从256~1280之间,根据提示词实现目标检测位置定位输出标准化的 JSON 格式文档。当需要使用QWen2.5-VL实现对象检测适合,输入输入需要:

图像:一张需要目标识别的图像
提示词:给出QWen2.5-VL能听懂的并输出JSON格式目标位置与标签的咒语。
在这里插入图片描述

格式如下:

其中prompt就是question的内容,推荐用以下两个提示词之一:

prompt1 = "Outline the position of each person and output all the coordinates in JSON format"
prompt2 = 'Detect all objects in the image and give the coordinates. The format of output should be like {"bbox_2d": [x1, y1, x2, y2], "label": label'

代码演示
当前加载Qwen-VL模型OpenVINO™支持的是通过optimum插件方式完成,支持代码如下:

from optimum.intel.openvino import OVModelForVisualCausalLM
min_pixels = 256 * 28 * 28
max_pixels = 1280 * 28 * 28
model_dir = "D:/LLMs/qwen2.5_3b/INT4"
processor = AutoProcessor.from_pretrained(model_dir, 
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值