每一位踏上 CV 不归路的老鸟都绕不开一个术语:“指代表达理解”(Referring Expression Comprehension, REC)。
对初来乍到的视觉小白来说,这个术语高深莫测。这就好比一位朋友跟你说,他最近找到了一份“挑战环保巨头的基于线下社区的C2C资源再生服务”工作,令人不明觉厉。

换个角度解释。假设你的朋友对你说:“希望交一位头戴两朵金色鲜花、笑容灿烂的朋友”, 你马上就能精准指出符合描述的人。在这个过程中,你就已经完成了一次 “指代表达理解”,即依据自然语言描述,快速、准确地定位到目标对象。如果这样的朋友有 2 位以上,那么你朋友一定是饿了,这时候你的指认动作便被认为是“多实例指代表达理解”。

这种发自人类本能的理解能力,在目标检测模型的世界里,却造就了无数伤心的科研人,犹如横亘在人工和智能之间的鸿沟。传统的目标检测模型就像村口乘凉的大爷,号称阅人无数,如数家珍,追问一个细节脑瓜子立马宕机。

为了解决传统目标检测模型在“指代表达理解”的短板,DINO-XSeek 在 DINO-X 视觉大模型的基础上,采用了集目标检测与多模态语言理解于一体的混合架构。其检索框架如同刑侦现场:
1. 首先用 DINO-X 模型检测出图中所有潜在目标及其边界框,就像警察把所有嫌疑人都请到局里;
2. 然后再基于多模态大语言模型来“面试”这些嫌疑人,根据目标的属性(颜色、大小、年龄、姿势、穿着等)、方位(前后、左右、上下、远近等)和交互关系(比如鸡正在啄米,狗在舔面),最终把符合条件的对象挑选出来。
DINO-XSeek 作为一个真正把“看”和“懂”合二为一的视觉模型,为智能场景提供了更加丰富的多实例指代解决方案,比如在自动驾驶行业,定向跟车;在工业制造领域,自动检测零件缺陷;在农业与食品行业,筛选农产品成色;当然还有智能家居领域,比如你家哈基咪有没有偷吃零食。

曾经有朋友问我,同样是 Seek,DINO-XSeek 和 DeepSeek 到底有没有血缘关系?目前是没有的,未来可能有。我尝试过用 DINO-XSeek 去引诱 DeepSeek,看看有没有发展成亲家的可能。后来发现,好家伙,AI 流氓起来也没有人类什么事儿了。

== 彩蛋 ==
DINO-XSeek 官方博客:https://deepdataspace.com/blog/dino-xseek
立即体验 Playground(点击“阅读原文”):https://cloud.deepdataspace.com/playground/dino-x
1052

被折叠的 条评论
为什么被折叠?



