AI能看懂细节了！IDEA研究院多模态目标检测模型DINO-XSeek，自然语言精准定位目标...

转载于 2025-03-06 16:33:38 发布 · 292 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247781358&idx=6&sn=b2be86936672718be514f0159f4471ab&chksm=e9c0e9be20fb568b4649bc68b05f845c1adab093ad2b350f9235701dc88ee6f46f417bb58591&scene=126&sessionid=0

文章标签：

#人工智能 #目标检测 #目标跟踪 #计算机视觉 #机器学习

部署运行你感兴趣的模型镜像

IDEA研究院投稿
量子位 | 公众号 QbitAI

AI能看懂细节了！

IDEA研究院发布基于多模态大语言模型的目标检测模型DINO-XSeek。

结合视觉与语言理解，只需通过自然语言描述，DINO-XSeek 就能精准定位复杂场景中的目标。

比如这张图。

消防员手持喷水枪，站在执行任务的消防车云梯上。

结果它能精准识别出来这个正在工作的消防员。

在人来人往的米兰大教堂前，找到个有金色头发的人~

结果也精准识别出来了。

基于 IDEA研究院 DINO-X 统一视觉模型，DINO-XSeek 在精准感知能力的基础上，融合了多模态大语言模型的推理与理解能力。

它的核心突破在于，不仅能识别名词层级的目标（如“女孩”），还能联合解析形容词（如“红色上衣”）和介词（如“站在旁边”），真正让 AI 看懂细节。

无论是“穿红色上衣的女孩”还是“站在白衣男生旁边的她”，DINO-XSeek 都能准确检测。

AI能看懂细节了：目标检测+多模态语言理解

传统目标检测模型虽然在目标感知上表现优异，但缺乏对复杂语言的理解能力。大语言模型在文本理解方面突出，却在精确目标定位上存在短板。

为了解决这一矛盾，DINO-XSeek 参考ChatRex的模型架构，采用了一种检索式框架。

即先使用开集目标检测模型 DINO-X 检测图像中的所有物体，并生成候选目标的边界框。

然后，大语言模型根据指代表达，从检测出的目标集合中检索最相关的对象，而非直接预测坐标。

△DINO-XSeek 模型概览图。其主要有三部分组成，包括提取视觉token的视觉编码器、提取物体token的目标检测模型，以及提取文本token的tokenizer。三种token一起送入LLM中，进行物体索引预测。

现有主流方法，往往仅针对单实例进行训练和推理，难以应对现实世界中一条指代描述对应多个目标的情况。

这一设计避免了传统MLLM在检测任务上的泛化难题，使得 DINO-XSeek 能精准处理多实例指代任务。

通过自然语言描述，DINO-XSeek 可以推理出待检测目标的属性（如颜色、大小、姿势、穿着等）、方位（如朝向、距离、深度等）或者（物品之间或与环境的）交互关系，从而实现精准的目标定位。DINO-XSeek 实现了指代表达理解（Referring Expression Comprehension, REC）。REC 是计算机视觉与自然语言理解交叉领域的核心任务，旨在通过自然语言描述精准定位图像中的目标对象。DINO-XSeek 通过多模态融合和高级语义推理，为 REC 任务提供了更强大的解决方案。