如何让大型视觉语言模型(VLMs)能够根据复杂、抽象的自然语言指令,在图像中精确地定位(分割)到目标物体或区域(即实现“像素级接地”)?
就是让AI不仅能“看懂”图片和文字,还能根据像“请圈出画面中维生素C含量最高的水果”或“找出那个被咬了一口还放在陶瓷碗旁边的红苹果”这样复杂的指令,准确地在图片上把目标物体标记出来。
核心问题:现有VLMs在复杂指令下的定位能力不足
- 人类很擅长,AI却很吃力:
- 人类看到一张有红、绿、黄苹果的图片,听到“只圈出红苹果”,能轻松做到。
- 但现有的VLMs(即使是专门做分割任务的)面对这样的指令时:
- 可能会圈出所有苹果(包括绿的和黄的)。
- 或者听到更复杂的指令如“圈出陶瓷碗旁边那个被咬了一口的红苹果”时,可能只圈出“红苹果”,忽略了“被咬了一口”和“在陶瓷碗旁边”的关键细节。
- 问题根源:训练数据的局限性
- 现有训练VLMs做定位的数据集(如RefCOCO系列),里面的指令大多过于简单直接(如“圈出那个穿蓝衣服的人”)。
- 而现实中人类的指令是丰富、抽象、多层次的(如“找出最有营养的点心”、“圈出所有属于宠物的东西”、“那个看起来最贵的包”)。
- 这种“人类指令的复杂性”与“训练数据的简单性”之间的巨大脱节,严重限制了VLMs处理真实世界复杂定位任务的能力。
Ground-V 的解决方案:制造更“接地气”的训练数据
论文的核心贡献是提出了一种自动化的工作流程,用于生成大规模、高质量的复杂指令-分割掩码对训练数据。这个数据集叫 Ground-V (名字中的“V”代表5个挑战维度)。
Ground-V 瞄准的五大现实世界挑战
Ground-V 数据生成工作流专门针对以下5个让现有VLMs头疼的难点设计:
- 多粒度指令:
- 同一物体可以用不同抽象程度描述(如“柯基犬”(具体) -> “狗”(类别) -> “宠物”(功能) -> “动物”(大类))。
- Ground-V 会生成不同抽象层级的指令(“圈出那只柯基” vs “圈出所有宠物”)。
- 多物体场景:
- 需要同时精确定位图像中的多个(5个以上)物体(如“圈出画面中所有的水果”)。
- 幻觉引用:
- 指令提到的物体根本不在图里(如“圈出那只恐龙”)。好的模型应该能识别出来并拒绝操作。
- Ground-V 包含三种幻觉:物体不存在、物体属性错误(比如要求圈“蓝色的香蕉”但香蕉是黄色的)、物体关系错误(如“桌子下的猫”但猫在桌子上)。
- 推理需求:
- 指令需要模型结合常识或知识来理解(如“圈出能用来做晚餐的食材”、“圈出最解渴的饮料”)。
- 部件级引用:
- 需要定位物体的局部或部件(如“圈出微波炉的按钮”、“圈出汽车的前轮胎”),而不是整个物体。
数据生成工作流程
- 基础素材: 使用 COCO 2017 数据集中的图像及其已有的物体分割掩码(框和轮廓)。
- “老师”模型: 选用强大的通用VLM(Claude 3 Sonnet)作为生成指令的引擎。
- 提示工程: 对于上述5个挑战中的每一个,人工精心编写几个示例(Few-shot Prompts)。每个示例包括:一张图、一条针对该挑战的复杂指令、模型应该如何回答(包括文本解释和关联哪个掩码)。
- 自动化生成:
- 将真实图像 + 人工编写的示例提示 输入给 Claude。
- Claude 根据“学习”到的示例模式,为输入图像生成新的、符合该挑战场景的复杂指令,并关联上图像中已有的正确分割掩码(对于幻觉指令,则关联“空”掩码)。
- 质量保障:
- 先生成一个大的候选池(训练集+测试集)。
- 用更强的模型(Claude 3.5 Sonnet)对生成的测试集数据进行自动验证和修正。
- 人工标注: 最后,由人工严格检查测试集中的每个样本(图像+指令+掩码),确保指令描述准确、掩码匹配正确、幻觉判断无误。最终只保留双方标注者都确认正确的样本(过滤掉了23.1%的错误样本)。
Ground-V 数据集
- 规模: 50万张图像,42.3万个指令-分割对(训练集);5千张图像,5.7万个指令对(人工精校测试集)。
- 覆盖: 五大挑战维度均有充足数据。
- 特点: 指令复杂多样、包含文本解释、关联像素级掩码。
实验结果:效果显著提升!
研究者选择了两个代表性的VLM分割模型进行训练:LISA 和 PSALM。只在它们的原始训练数据中加入 Ground-V 进行训练,其他设置保持不变。
核心发现
- 在标准基准测试上达到SOTA:
- RefCOCO/+/g (指代表达分割): 加入 Ground-V 训练的模型(如 PSALM-G5)在大部分子集上表现最佳,超越了之前的专家模型和其他VLM。
- gRefCOCO (广义指代表达分割 - 含多目标和无目标): 效果提升极其显著!尤其是在衡量拒绝幻觉能力的 N-Acc(N-Accuracy) 指标上:
- PSALM-G5 达到 83.7% N-Acc,比之前的 SOTA 提高了20.9%!这意味着模型能非常准确地判断指令中的物体是否存在。
- gIoU(广义IoU,主分割指标)也显著提升(70.6% vs 之前SOTA 64.9%)。
- 在更具挑战性的新基准上优势巨大:
- Ground-V 自建测试集: 在五大挑战的专门测试上,加入 Ground-V 的模型全面碾压原模型。例如 PSALM-G5 在 Ground-V 测试集上平均 gIoU 提高了15.4%,在“多粒度”、“多物体”、“推理”等子任务上提升尤其大(10%-20%)。
- D3 (描述性物体分割 - 语言更开放/复杂): PSALM-G5 的 gIoU 提高了9.0%,N-Acc 提高了23.5%,证明处理复杂开放描述和避免幻觉的能力显著增强。
- 不只是分割模型受益:
- 将 Ground-V 的“幻觉”部分(纯文本指令对)加入通用VLM(如LLaVA)的视觉指令微调阶段。
- 结果在多个通用VQA任务(POPE, VizWiz, MMBench, ScienceQA)上性能也全面提升!这说明 Ground-V 的数据有助于提升模型整体的语言-视觉对齐和推理能力。
- 定性结果惊艳:
- 可视化对比显示,加入 Ground-V 的模型能:
- 更准确理解多粒度(如区分“柯基”和“所有宠物”)。
- 在多物体场景下分割更全更准。
- 成功进行推理(如根据“Apple标志”定位MacBook的部件)。
- 精确定位部件(如微波炉按钮)。
- 坚决拒绝幻觉指令(如不分割“打羽毛球的人”),而原模型会错误分割相似物体(如“打网球的人”)。
- 可视化对比显示,加入 Ground-V 的模型能:
深入分析与鲁棒性验证
- 为了排除模型只是“死记硬背”了Ground-V中特定语言风格的嫌疑,研究者用另一个VLM(Qwen2-VL)改写了测试指令(保持语义不变)。
- 结果:改写后的指令上,模型性能几乎不变。这说明模型的提升是源于真正理解了概念和任务,而非过拟合特定的表达方式。
核心价值与意义
- 数据驱动的突破: Ground-V 证明,高质量、针对性的训练数据是解锁VLM复杂视觉定位能力的关键。无需大改模型架构。
- 解决真实痛点: 直接瞄准现有VLMs在复杂现实场景(多目标、抽象指令、幻觉、部件、推理)下定位能力的不足。
- 方法可扩展: 提出的自动化数据生成流程(利用强LLM+人工引导+精校)为构建其他复杂多模态任务数据集提供了范本。
- 效果显著: 在多个标准和新基准上取得SOTA或显著提升,尤其是在处理幻觉和复杂指令方面。通用VLM也能受益。
- 推动应用: 为开发更智能、更可靠的视觉助手(如能精确理解“帮我圈出画面中可能漏水的管道接口”的维修助手)奠定了基础。
局限性与未来方向
- 对评估器的依赖: 生成过程依赖人工设计的Prompt和Claude作为“老师”。未来可探索更自动、通用、自适应的评估器(如用VLM自我评估)。
- 任务范围: Ground-V 主要聚焦于可编程评估的定位任务(即好坏有相对明确标准)。对于极度开放抽象、标准模糊的任务(如“圈出最感人的部分”)仍需探索。
- 计算成本: 生成大规模数据和训练模型仍需可观资源。
- 未来方向:
- 开发通用LLM-based评估器。
- 探索Ground-V在更广泛、更抽象任务上的应用。
- 优化数据生成和模型训练效率。
- 结合强化学习等技术进一步提升。
总结
Ground-V 是一项重要的以数据为中心的研究。它通过精心设计的自动化流程,生成了首个大规模覆盖多粒度、多物体、幻觉预防、部件定位、推理需求这五大现实挑战的视觉定位数据集。实验证明,用 Ground-V 训练的 VLM 在各种定位任务(包括标准基准和更具挑战性的新测试)上性能获得显著提升,特别是在理解复杂指令和避免幻觉方面取得了突破性进展(如gRefCOCO上N-Acc提高20%+)。这项工作不仅为构建理解力更强、更可靠的视觉定位模型提供了关键资源,也为解决其他复杂多模态任务的数据瓶颈提供了新思路。
https://mp.weixin.qq.com/s/PYORut7VysEBsTEl_Ibbmw
https://arxiv.org/abs/2505.13788