GPT4RoI:开创区域级视觉语言模型新纪元
在人工智能和计算机视觉领域,视觉语言模型一直是研究的热点。近期,由香港大学和上海人工智能实验室的研究团队开发的GPT4RoI模型,为这一领域带来了突破性的进展。GPT4RoI通过创新的空间指令微调方法,实现了对图像感兴趣区域(Region of Interest, RoI)的精细理解和交互,开创了区域级视觉语言模型的新纪元。
GPT4RoI的核心创新
GPT4RoI的核心创新在于其独特的空间指令微调方法。这种方法在指令中引入了对感兴趣区域的引用,并在将数据输入大型语言模型(LLM)之前,用RoI特征替换这些引用,并将其与语言嵌入交错排列。这种创新使得模型能够实现前所未有的交互式和对话式体验,远超之前的图像级模型。
GPT4RoI的主要特点包括:
- 超越语言的交互:用户可以通过语言和绘制边界框两种方式与模型交互,灵活调整指代的粒度。
- 多样化的多模态能力:GPT4RoI能够挖掘每个RoI内的各种属性信息,如颜色、形状、材质、动作等。此外,它还能基于常识推理多个RoI之间的关系。
- 强大的视觉常识推理能力:在Visual Commonsense Reasoning (VCR)数据集上,GPT4RoI达到了81.6%的惊人准确率,大幅超越现有模型(第二名为75.6%),几乎达到了85.0%的人类水平表现。
GPT4RoI的技术架构
GPT4RoI的整体框架包含几个关键组件:
- 视觉编码器:采用CLIP的ViT-H/14架构。
- 图像级特征投影器:使用单个线性层将图像特征嵌入映射到语言空间。
- 区域特征提取器:构建多层图像特征金字塔,并使用RoIAlign提取区域级特征。
- 大型语言模型:使用Vicuna-7B模型进行语言处理。
在输入处理方面,GPT