DINO-X环境搭建&推理测试

最新推荐文章于 2025-04-29 11:50:49 发布

要养家的程序猿

最新推荐文章于 2025-04-29 11:50:49 发布

阅读量875

点赞数 5

分类专栏： AI算法文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zzq1989_/article/details/144974190

版权

AI算法专栏收录该内容

50 篇文章

订阅专栏

引子

开放世界检测，前文也写OV-DINO（感兴趣的童鞋，请移步OV-DINO开放词检测环境安装与推理-优快云博客）。这不，DINO系列又更新了。OK，那就让我们开始吧。

一、模型介绍

IDEA 开发了一个通用物体提示来支持无提示的开放世界检测，从而无需用户提供任何提示即可检测图像中的任何内容。发布了DINO系列最新的DINO-X通用视觉大模型，拥有真正的物体级别理解能力，具有最佳开放世界物体检测性能的统一的以物体为中心的视觉模型。同时构建了一个包含超过 1 亿个高质量基础样本的大规模数据集，称为 Grounding-100M，以提高模型的开放词汇检测性能。还扩展了 DINO-X 以集成多个感知头，从而同时支持多个物体感知和理解任务，包括检测、分割、姿势估计、物体字幕、基于物体的 QA 等。

DINO-X的特点：

（1）全面检测

DINO-X在物体检测领域树立新标杆，无需任何提示，即可识别几乎所有物体，并给出其类别，包括罕见的长尾物体（出现频率低但种类繁多的物体）。

（2）最强的开放集检测性能

DINO-X Pro 在零样本转移检测基准上创下了新的 SOTA 结果：COCO 上的56.0 AP、LVIS-minival 上的59.8 AP和LVIS-val 上的52.4 AP。将之前的 SOTA 性能提高了 5.8 个AP 和5.0 个 AP，凸显了其识别长尾物体的能力显著提高。

（3）多样化的输入提示和多层次的输出语义表示

DINO-X整合了多个感知头，支持包括分割、姿态估计、区域描述和基于区域的问答在内的多种区域级别任务，让感知到理解逐步成为了现实。

（4）丰富实用的功能

DINO-X可以同时支持许多实用性极强的任务，包括开放集物体检测与分割、短语基础、视觉提示计数、姿势估计和区域字幕。进一步开发了通用物体提示，以实现无提示的任何物体检测和识别。

二、环境搭建

代码下载

git clone https://github.com/IDEA-Research/DINO-X-API.git

docker run -it -v /datas/work/zzq/:/workspace --gpus=all df5a406e137e bash

cd /workspace/DINO-X/DINO-X-API-main#

pip install -r requirements.txt -i Simple Index

三、推理测试

python demo.py

好吧，需要申请token。。。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

要养家的程序猿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。