主流多模态模型正在遭遇一场 “认知危机”:它们能写代码、做报告,却在最基础的视觉任务上栽跟头。Grok 4 发布以后,社交网络上首先爆火的不是 AGI 来临,而是“AI 到底能不能数清手指”。

无独有偶,不仅仅是 Grok4,包括 Claude 4、ChatGPT o3、doubao 1.5-thinking-vision-pro 等主流模型都统一翻车。不只是手指,越是常识性、知名度越高的图像相关的视觉内容,多模态模型的识别准确率越低,比如国旗、知名的企业或产品 Logo 等。

来自 KAIST、威廉玛丽学院和阿尔伯塔大学的学者留意到这一现象,并据此发布了《视觉语言模型存在偏见(Vision Language Models are Biased)》论文。研究测试表明,互联网海量先验知识会让视觉语言模型(VLMs)的输出偏向错误或带有偏见;甚至越先进的视觉语言模型 ,认知偏差越严重,比如无法识别出原本 3 条纹的阿迪达斯 logo 被加了第 4 条纹。在动物、logo、国际象棋、桌面游戏、视觉错觉、图案网格等 7 类计数任务里,这些模型平均准确率仅 17.05% 。这意味着在容错率极低的工业或工程场景中,视觉语言模型的偏见将造成灾难性的影响。

为了解决 AI 与现实世界交互的幻觉问题,DINO-X 视觉模型选择了“视觉原生”的道路——仅仅“看到”是不够的,要先让模型 “看清”世界,即通过图像识别来理解物体的属性、场景关系、甚至预测变化,然后再基于真实的物体特征感知去检索、思考,最终输出准确的生成结果。而“看清”世界的基石,则是万物检测。

回到“数手指”的例子,如果用户通过 API 或 MCP 整合 DINO-X 视觉模型的能力,然后再基于 DINO-X 视觉模型输出的目标检测结果询问大语言模型,那么大语言模型就能够立即得到准确的答案。

通过 DINO-X 的能力“看清”世界,大语言模型以及基于此搭建的智能体将能够执行更加精确的任务,比如工业检测、健康管理、家居安防等:

在通用能力以外,面对海量且碎片化的长尾场景,DINO-X 提出了全新的定制模板能力。用户只需要提供少量数据,即可基于 DINO-X 训练出高精度“专属小模型(大模型+定制模板)”,无需进行微调或投入资源开发专用模型。

DINO-X 的愿景是通过精准的物体理解,让 AI 融入日常,实现与现实世界的无缝交互。从主流多模态模型以知识为基石去“看到”世界,到 DINO-X 以万物检测为基石开辟出 “看清” 世界的新路径,我们看到了 AI 在与现实世界交互中不断突破的可能。随着技术的不断迭代,以 DINO-X 为代表的创新模型,将推动 AI 真正跨越从“看到” 、“看清”,再到“看懂” 的鸿沟,为构建更智能、更可靠的未来世界提供支持。
== 彩蛋 ==
1. 论文《Vision Language Models are Biased》,作者:An Vo,Khai-Nguyen Nguyen,Mohammad Reza Taesiri,Vy Tuong Dang,Anh Totti Nguyen,Daeyoung Kim,链接:https://arxiv.org/html/2505.23941v1。
2. DINO-X MCP 全新上线:https://github.com/IDEA-Research/DINO-X-MCP
3. 定制专属长尾模型或调用社区模板:https://cloud.deepdataspace.com/custom/market
1174

被折叠的 条评论
为什么被折叠?



